Построение модели, определяющей вероятность неплатежеспособности заемщика. Анализ нейросетевого и регрессионного методов оценки платежеспособности заемщика. Разработка программы, реализующей нейросетевой метод оценки кредитоспособности заемщика.
Аннотация к работе
Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Национальный исследовательский университет «Высшая школа экономики» Факультет компьютерных наук Основная образовательная программа Прикладная математика и информатикаПод оценкой платежеспособности будем понимать построение модели, определяющей вероятность принадлежности заемщика к классу Под оценкой платежеспособности будем понимать построение модели, определяющей вероятность принадлежности заемщика к классу “плохих”. Задача методов бинарной классификации состоит в том, чтобы для каждого объекта с признаками X определить к какому он относится классу K1 или K2 . Необходимо вывести такое решающее правило ?(x), которое поставит в соответствие каждому наблюдению x = (x1,x2,...,xm) одно из решений d1 или d2 , означающих, что объект принадлежит одному из классов K1 или K2 соответственно. Суть построения H и разделяющей полосы сводится к вычислению константы b и вектора w = (w1,w2,...,wm), таких, что норма (w,w) минимальна и выполняются ограничения: yi((w,xi)-b) ? 1, i = 1,...,n, где yi = 1, если объект xi = (x1i,...,xmi) принадлежит классу K1 и yi =-1, если объект xi = (x1i,...,xmi) принадлежит классу K2 .На входной слой нейронной сети, состоящий из n слоев подается m показателей. На основе взятой ранее выборки, на вход нейронной сети подается 10 показателей (значений). Они подаются на входной слой, состоящий из 10 нейронов. После этого к сумме всех входящих значений применяется сигмовидная функция активации нейрона и получается выходное значение yi из y = (y1,y2,...,y10). Выходные значения входного слоя переходят в скрытый с коэффициентами wi = (wi1,wi2,...,wi6).Общий остаток на кредитных картах и личных кредитных линиях, кроме недвижимости и долгов без рассрочки, как автокредитование, деленный на сумму кредитных лимитов. Количество раз, когда заемщик опаздывал с выплатой на 90 дней или более. Количество раз, когда заемщик опаздывал с выплатой на 6089 дней, но не хуже, в последние 2 года. Ниже представлены алгоритмы, с помощью которых проводилось обучение: 1. Коэффициенты веса wmn , использующиеся при обратном распространении ошибки, являются равными коэффициентам, которые использовались для вычислении сигнала выхода, но передаются сигналы от выхода ко входу.Эксперименты были проведены на выборке, состоящей из данных 101503 респондентов. В результате проведения эксперимента для метода нейронной сети были получены вероятности принадлежности заемщика к классу “плохих” для каждого из 101503 респондентов. Массив этих вероятностей был внесен в систему для оценки и в результате уровень правдоподобия оказался равен 0.858651. Он показывает соотношение между долей объектов из общего выборки, которые были верно классифицированы, и долей объектов из общей выборки, которые были классифицированы ошибочно. Площадь под ROCКРИВОЙ (AUC) является численным показателем качества бинарного классификатора: если она равно 0, то классификатор всегда классифицирует объект неправильно? значение 0.5 соответствует классификатору, который относит объект к одному из классов случайным образом, а значение 1 свидетельствует о том, что классификатор всегда классифицирует объекты правильно.Как показывают результаты экспериментов, нейросетевой метод и метода логистической регресии обладают практически одинаковой предсказательной силой различие в эффективности двух алгоритмов после обучения составило 0.007102%.В работе было проведено эмпирическое сравнение эффективности двух методов оценки платежеспособности заемщика: нейросетевого и регрессионного. Результат работы показал, что нейросетевой метод является одинаково эффективным в плане предсказательной точности, что и метод логистической регрессии, но имеет преимущество в плане временных затрат.$beta9 = $f9_coef[0]*$beta10 $f9_coef[1]*$beta11 $f9_coef[2]*$beta12 $beta8 = $f8_coef[0]*$beta10 $f8_coef[1]*$beta11 $f8_coef[2]*$beta12 $beta7 = $f7_coef[0]*$beta10 $f7_coef[1]*$beta11 $f7_coef[2]*$beta12 $beta6 = $f6_coef[0]*$beta10 $f6_coef[1]*$beta11 $f6_coef[2]*$beta12 $beta5 = $f5_coef[0]*$beta10 $f5_coef[1]*$beta11 $f5_coef[2]*$beta12 <?php ini_set("memory_limit", "32M")? $Age_coef = 0.005? $Age_coef*$Age //echo "$SERIOUSDLQIN2yrs - $REVOLVINGUTILIZATIONOFUNSECUREDLINES - $Age - $ar=array()? // инициализируем массив$REVOLVINGUTILIZATIONOFUNSECUREDLINES_coef = array(0.044932943, 0.07237894, 0.0750904932, 0.046324323, 0.0650347263487236, 0.071343234, 0.0728976456, 0.075345656, 0.046435243, 0.064983257)? $Age_coef = array(0.00507534, 0.00323499, 0.006325784, 0.001324873, 0.001342923, 0.002987923, 0.00330704, 0.006075943, 0.001748309, 0.001435643)? $NUMBEROFTIME3059DAYSPASTDUENOTWORSE_coef = array(6, 7, 8, 8, 6, 8, 7, 7, 8, 6)? $DEBTRATIO_coef = array(0.075543790, 0.0352457823, 0.05723479, 0.050984302, 0.06260975333, 0.056409343, 0.03534579934, 0.0573459493, 0.053284523, 0.062695945)? $MONTHLYINCOME_coef = array(0.0000134, 0.0000195, 0.000007,
План
Оглавление
1. Введение
1.1. Предметная область
1.2. Теоретическая ценность
1.3. Актуальность и практическая ценность
1.4. Структура работы.
2. Постановка задачи
3. Обзор методов бинарной классификации
4. Описание реализации
5. Обучение приложения на выборке данных
6. Проведение экспериментов
7. Выводы
8. Заключение
9. Список литературы
10. Приложения
1
Вывод
Как показывают результаты экспериментов, нейросетевой метод и метода логистической регресии обладают практически одинаковой предсказательной силой различие в эффективности двух алгоритмов после обучения составило 0.007102%.
На ряду с этим, время работы алгоритма нейронной сети оказалось существенно ниже разница во времени работы алгоритмов составило 11.34 секунды, что является существенным в принятии решения об эффективности того или иного алгоритма (разница на 21.27%).В работе было проведено эмпирическое сравнение эффективности двух методов оценки платежеспособности заемщика: нейросетевого и регрессионного. Было разработано универсальное приложение бинарного классификатора, реализующего оба алгоритма оценки. Результат работы показал, что нейросетевой метод является одинаково эффективным в плане предсказательной точности, что и метод логистической регрессии, но имеет преимущество в плане временных затрат.
Данный результат можно распространить на другие сферы использования бинарного классификатора. В связи с развитием возможности сбора различной информации о клиенте (фото, видео, аудио, неструктурированный текст) банки смогут использовать не только данные кредитной заявки. Поэтому преимущества в скорости нейросетевого подхода могут стать еще более существенными. В качестве развития данного исследования возможно применение нейросетевого подхода к более сложным данным и построение сети третьего поколения.
Список литературы
16
1. Alejandro Correa B., Andres Gonzalez M.
Evolutionary algorithms for selecting the architecture of a MLP Neural Network: A Credit Scoring Case // 11th IEEE International Conference on Data Mining Workshops.
2011. с. 725732.
2. Xiang Hui, Yang Sheng Gang
Credit Scoring Model Based on Selective Neural Network Ensemble // Seventh
International Conference on Natural Computation. 2011. с. 513516.
3. F. Wasserman
Neurocomputing technique: Theory and Practice. 1992. 184 с.
4. Е.Р. Горяинова, Т.И. Слепнева
Методы бинарной классификации объектов с номинальными показателями //