Реализация метода бинарной классификации с использованием нейронных сетей на примере модели кредитного скоринга - Дипломная работа

бесплатно 0
4.5 210
Разработка и внедрение модели кредитного скоринга с использованием нейронных сетей. Модель будет прогнозировать платежеспособность клиентов банка. Описание реализации. Предобработка входных данных. Процедура обучения нейронной сети, тестирование.


Аннотация к работе
Банки участвуют в различных видах операций: организация движения денежных средств, кредитные отношения, финансирование экономики, покупка и продажа акций, брокерские операции и управление активами. Класс «хороших» заемщиков, когда от клиента ожидается положительное поведение и вовремя оплаченный кредит, и класс «плохих» заемщиков, когда возможно отрицательное поведение клиента и своевременная выплата кредита клиентом ставится под сомнение. Вся суть кредитного скоринга в том, что для каждого потенциального заемщика высчитывается его оценка кредитного риска на индивидуальной основе, и по этой оценке банк определяет, выдать клиенту кредит или нет. Существуют четыре вида скоринга: Application-scoring - оценка платежеспособности заемщика при выдаче кредита и определение уровня риска по кредиту на основании первичных данных клиента по его анкете, обработки компьютером и выводом результата. Behavioral-scoring - оценка наиболее вероятных финансовых действий заемщика (оценка поведения заемщика).Кредитный скоринг - это задача классификации: по имеющимся данным, нужно получить функцию, наиболее правильно разделяющую клиентов на «хороших» и «плохих». Данные в выборке разделяется на два класса: «хорошие» и «плохие» заемщики. Под «плохими» заемщиками подразумеваются клиенты, у которых есть задержка по очередной выплате за 90 дней. Если переменная равняется единице, то это означает, что клиент оплатил кредит вовремя, а если же , то у клиента был дефолт. Очень часто прибегают к использованию логистической регрессии, т.к. в линейной множественной регрессии слева в уравнении находится вероятность, чьи значения от 0 до 1, а в правой части переменные могут принимать любые значения: Кроме того, преимущество логистической регрессии еще и в возможности разделения заемщиков как на два класса («хороший» и «плохой»), так и на несколько классов.Прежде всего, эффективность любой скоринговой модели будет зависеть от качества входных данных.Основной информацией в данном DATAFRAME’e являются данные о клиенте на момент подачи кредитного запроса. 1 Revolving-UTILIZATIONOF-UNSECUREDLINES Общий баланс по КК(кредитные карты) и персональным кредитным линиям, не включая недвижимости и задолженностей по кредитам, таким как: кредит по автомобилю, деленный на сумму кредитных лимитов. 3 NUMBEROFTIME30-59DAYSPASTDUENOTWORSE Число раз, когда заемщик просрочил выплату кредита на срок от 30 до 59 дней, но при этом не позже, чем за последние два года. 4 DEBTRATIO Ежемесячные платежи по долгам, выплаты алиментов, прожиточный расход, деленные на валовый доход за месяц. 7 NUMBEROFTIMES-90DAYSLATE Число раз, когда заемщик просрочил выплату по кредиту на 90 и более дней.В итоге необходимо составить таблицу вида: Таблица 2.Зависимая переменная определяется в зависимости от цели построения модели. В данном случае зависимая переменная является качественной: она принимает значение либо 0, если прогнозируется у клиента дефолт по кредиту и 1, если прогнозируется успешное погашение кредита без просрочки.Это бывает по разным причинам: например, ошибка в программном обеспечении при заполнении заявки на кредит или воздержание заемщика по разглашению какой-либо информации. REVOLVINGUTILIZATIONOFUNSECUREDLINES 150000 non-null float64 age 150000 non-null int64 DEBTRATIO 150000 non-null float64 MONTHLYINCOME 120269 non-null float64 NUMBEROFDEPENDENTS 146076 non-null object dtypes: float64(4), int64(7) memory usage: 12.6 MBЛинейная зависимость между переменными, характеризующими задержку в выплате кредита (типа NUMBEROFTIMEXDAYSPASTDUENOTWORSE, где вместо X - число дней просрочки) вполне очевидна, но необходимо проверить есть ли другие зависимости. Для этого построим матрицу корреляций. Как и предполагалось, переменные, характеризующие задержку в выплате кредита, сильно коррелируют между собой (коэффициенты около 0.98).Нормировка числовых параметров производилась по следующему правилу:Искусственная нейронная сеть (ИНС) - это то, что стало новым техническим явлением в таких областях, как информационные технологии, медицина, экономика, финансы, физика, математика, кибернетика и т.д. Нейронные сети представляют собой вычислительный подход, основанный на большом наборе нейронных единиц (искусственных нейронов), он позволяет воспроизводить чрезвычайно сложную (нелинейную) зависимость. Нейронная сеть учится и исправляет ошибки, имитируя работу низкоуровневой структуры мозга. Соединения между нейронами создают сеть, которая позволяет вам определять корреляцию между отдельными данными.В работе нейронная сеть имеет структуру многослойного персептрона с одним скрытым слоем. Нейронная сеть состоит из входного вектора с размерностью 8, одного скрытого слоя с 6-ю нейронами и выходного значения.Набор данных был поделен на обучающую выборку (60000 значений), проверочную (6000) и тестовую (6000). На каждой итерации случайным образом выбираются 100 наборов из обучающей выборки и каждый набор подается на вход сети.

План
ОГЛАВЛЕНИЕ модель кредитный скоринг нейронный

Введение

1. Задача классификации и обзор методов

2. Построение скоринговой модели

2.1 Входные данные

2.2 Выходные данные

2.3 Зависимая переменная

2.4 Пропуски в данных

2.5 Проверка корреляций

2.6 Предобработка входных данных

3. Описание реализации

3.1 Структура сети

3.2 Процедура обучения сети

3.3 Тестирование

Заключение

Приложения

Список использованных источников
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?