Разработка и внедрение модели кредитного скоринга с использованием нейронных сетей. Модель будет прогнозировать платежеспособность клиентов банка. Описание реализации. Предобработка входных данных. Процедура обучения нейронной сети, тестирование.
Аннотация к работе
Банки участвуют в различных видах операций: организация движения денежных средств, кредитные отношения, финансирование экономики, покупка и продажа акций, брокерские операции и управление активами. Класс «хороших» заемщиков, когда от клиента ожидается положительное поведение и вовремя оплаченный кредит, и класс «плохих» заемщиков, когда возможно отрицательное поведение клиента и своевременная выплата кредита клиентом ставится под сомнение. Вся суть кредитного скоринга в том, что для каждого потенциального заемщика высчитывается его оценка кредитного риска на индивидуальной основе, и по этой оценке банк определяет, выдать клиенту кредит или нет. Существуют четыре вида скоринга: Application-scoring - оценка платежеспособности заемщика при выдаче кредита и определение уровня риска по кредиту на основании первичных данных клиента по его анкете, обработки компьютером и выводом результата. Behavioral-scoring - оценка наиболее вероятных финансовых действий заемщика (оценка поведения заемщика).Кредитный скоринг - это задача классификации: по имеющимся данным, нужно получить функцию, наиболее правильно разделяющую клиентов на «хороших» и «плохих». Данные в выборке разделяется на два класса: «хорошие» и «плохие» заемщики. Под «плохими» заемщиками подразумеваются клиенты, у которых есть задержка по очередной выплате за 90 дней. Если переменная равняется единице, то это означает, что клиент оплатил кредит вовремя, а если же , то у клиента был дефолт. Очень часто прибегают к использованию логистической регрессии, т.к. в линейной множественной регрессии слева в уравнении находится вероятность, чьи значения от 0 до 1, а в правой части переменные могут принимать любые значения: Кроме того, преимущество логистической регрессии еще и в возможности разделения заемщиков как на два класса («хороший» и «плохой»), так и на несколько классов.Прежде всего, эффективность любой скоринговой модели будет зависеть от качества входных данных.Основной информацией в данном DATAFRAME’e являются данные о клиенте на момент подачи кредитного запроса. 1 Revolving-UTILIZATIONOF-UNSECUREDLINES Общий баланс по КК(кредитные карты) и персональным кредитным линиям, не включая недвижимости и задолженностей по кредитам, таким как: кредит по автомобилю, деленный на сумму кредитных лимитов. 3 NUMBEROFTIME30-59DAYSPASTDUENOTWORSE Число раз, когда заемщик просрочил выплату кредита на срок от 30 до 59 дней, но при этом не позже, чем за последние два года. 4 DEBTRATIO Ежемесячные платежи по долгам, выплаты алиментов, прожиточный расход, деленные на валовый доход за месяц. 7 NUMBEROFTIMES-90DAYSLATE Число раз, когда заемщик просрочил выплату по кредиту на 90 и более дней.В итоге необходимо составить таблицу вида: Таблица 2.Зависимая переменная определяется в зависимости от цели построения модели. В данном случае зависимая переменная является качественной: она принимает значение либо 0, если прогнозируется у клиента дефолт по кредиту и 1, если прогнозируется успешное погашение кредита без просрочки.Это бывает по разным причинам: например, ошибка в программном обеспечении при заполнении заявки на кредит или воздержание заемщика по разглашению какой-либо информации. REVOLVINGUTILIZATIONOFUNSECUREDLINES 150000 non-null float64 age 150000 non-null int64 DEBTRATIO 150000 non-null float64 MONTHLYINCOME 120269 non-null float64 NUMBEROFDEPENDENTS 146076 non-null object dtypes: float64(4), int64(7) memory usage: 12.6 MBЛинейная зависимость между переменными, характеризующими задержку в выплате кредита (типа NUMBEROFTIMEXDAYSPASTDUENOTWORSE, где вместо X - число дней просрочки) вполне очевидна, но необходимо проверить есть ли другие зависимости. Для этого построим матрицу корреляций. Как и предполагалось, переменные, характеризующие задержку в выплате кредита, сильно коррелируют между собой (коэффициенты около 0.98).Нормировка числовых параметров производилась по следующему правилу:Искусственная нейронная сеть (ИНС) - это то, что стало новым техническим явлением в таких областях, как информационные технологии, медицина, экономика, финансы, физика, математика, кибернетика и т.д. Нейронные сети представляют собой вычислительный подход, основанный на большом наборе нейронных единиц (искусственных нейронов), он позволяет воспроизводить чрезвычайно сложную (нелинейную) зависимость. Нейронная сеть учится и исправляет ошибки, имитируя работу низкоуровневой структуры мозга. Соединения между нейронами создают сеть, которая позволяет вам определять корреляцию между отдельными данными.В работе нейронная сеть имеет структуру многослойного персептрона с одним скрытым слоем. Нейронная сеть состоит из входного вектора с размерностью 8, одного скрытого слоя с 6-ю нейронами и выходного значения.Набор данных был поделен на обучающую выборку (60000 значений), проверочную (6000) и тестовую (6000). На каждой итерации случайным образом выбираются 100 наборов из обучающей выборки и каждый набор подается на вход сети.