Построение математической модели оценки платежеспособности заемщика c помощью методов машинного обучения - Дипломная работа

бесплатно 0
4.5 197
Описание видов кредитного скоринга, его роли в снижении рисков невозврата кредита, определении процентной ставки. Рассмотрение метода нейронных сетей как одного из методов машинного обучения, позволяющего воспроизводить сложные (нелинейные) зависимости.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
«Национальный исследовательский университет «Высшая школа экономики» Построение математической модели оценки платежеспособности заемщика c помощью методов машинного обучения Выполнил студент группы БПМИ122, 4 курса, Базикова Екатерина ВасильевнаКредитный риск имеет важное значение для банковской сферы. Кредитный скоринг является быстрой, точной и устойчивой процедурой оценки кредитного риска, имеющей научное обоснование. Скоринг является предсказательной моделью, которая позволяет разделять заемщиков на два класса «хороших» (ожидается положительное поведение заемщика) и «плохих» (ожидается отрицательное поведение заемщика). Основанная идея кредитного скоринга состоит в том, что для каждого заявителя определяется свойственная только ему оценка кредитного риска, и на основании этой оценки банк решает выдавать кредит клиенту или нет. Application-scoring: определяет уровень кредитного риска потенциального заемщика на основании данных, доступных в момент подачи заявления.Цель: Построение математической модели оценки платежеспособности заемщика c помощью методов машинного обучения. Обзор методов машинного обученияМножественная линейная регрессия связывает поведение зависимой переменной с линейной функцией ряда независимых переменных. Она находит оптимальную линейную зависимость путем сведения суммы стандартных отклонений к минимуму. Параметры линейной регрессии находятся с помощью метода наименьших квадратов. тил trialt вовремя, если ?? = 0, то имел место дефолт. ОПЛАЕСЛИ переменная p принимает значение 1, то предполагается, что заемщик Другой регрессионный метод - логистическая регрессия: она является разновидностью множественной линейной регрессии. Логистическая регрессия позволяет разделять клиентов не на две группы (1 - плохой, 0 - хороший), а на несколько различных групп (1, 2, 3, 4 группы риска).TIBCO Spotfire 1-программное обеспечение, предназначенное для анализа большого объема данных. Spotfire предоставляет бизнес-пользователям удобный, интуитивно понятный и простой в использовании интерфейс. Методы, разработанные в Spotfire, могут быть использованы во всех областях человеческой деятельности: бизнесе, маркетинге, экономике, промышленности, медицине и в том числе для построения скоринговых карт. Программное обеспечение позволяет вычислять практически все используемые описательные статистики общего характера. MATLAB3 - программное обеспечение, ориентированное на разработку и отладку алгоритмов расчета.Разработка скоринговой карты начинается с анализа исторических данных о поведении прошлых и текущих заемщиков, предполагается, что будущие заемщики будут вести себя аналогично. В данной работе были проанализированы обезличенные данные реальных банковских заемщиков следующих регионов: 38 (Иркутская область), 77 (Москва), 50 (Московская область).Зависимая переменная определяется в зависимости от цели построения модели. Зависимая переменная может быть, как количественной (например, средняя сумма, которую погасит заемщик по просроченному платежу), так и качественной («плохой» заемщик или «хороший»).Независимыми переменными (предикторами) может быть личная информация о заемщике: возраст, пол, семейное положение, количество иждивенцев, количество детей, количество членов семьи, социальный статус, стаж на последнем месте работы, стаж на предыдущем месте работы, общий опыт работы, сфера деятельности, должность, статус, тип регистрации, время проживания по текущему адресу, время проживания по предыдущему адресу, адрес регистрации совпадает с адресом фактического проживания, ежемесячный подтвержденный доход по основному месту работы, ежемесячный неподтвержденный доход, подтвержденный доход из других источников (пенсия, аренда, алименты и т.п.), ежемесячный доход семьи, флаг наличия депозита в банке, флаг наличия депозитов, сумма депозита общая, предполагаемые ежемесячные расходы и т.д.На практике считается, что если пропусков менее 5%, то их можно удалить из выборки, так как отсутствие строк с пропусками не повлияет на конечный результат. Если наличие пропущенных значений больше 5%, то данные следует подвергнуть подробному анализу: пропуск может означать отсутствие (например, иждивенцев, квартиры или мобильного телефона), клиент может сознательно не указать какую-то информацию. В подобных случаях имеет смысл пропуск заменить каким-то заведомо не встречающимся в данных значением и включить в анализ. Из диаграммы 5.1 отчетливо видно, как коррелируют между собой переменные типа Age (Возраст) и TOTALWORKEXPERIENCE (Общий опыт работы), что является логичным фактом, чем больше возраст, тем больше стаж. Возьмем предварительную выборку из 5000 заемщиков, плохих в ней 128 (Иркутск), 160 (Московская область), 172 (Москва). Т.е. доля плохих составляет w= 0.0256; 0.032; 0.0344 (Иркутск, Московская область, Москва), уровень значимости возьмем 95%, значение нормального распределения для данного я составл ет 1.96?? модели; ?? - компонент случайной ошибки.

План
Оглавление

1. Введение .................................................................................................................4

2. Цель и задачи дипломной работы........................................................................6

3. Методы классификации ........................................................................................7

4. Программное обеспечение....................................................................................9

5. Построение скоринговой карты .........................................................................12

5.1 Входные данные................................................................................................12

5.2 Определение зависимой переменной..............................................................12

5.3 Определение независимых переменных.........................................................13

5.4 Подготовка данных...........................................................................................14

5.5 Оценка линейной зависимости между количественными переменными...15

5.6 Обучающая и тестовая выборки. Объем выборки.........................................17

5.7 Категоризация количественных переменных................................................18

5.8 Математическая модель...................................................................................21

5. 9 Перевод коэффициентов модели в скоринговую карту...............................21

5.10 Построение скоринговой карты ....................................................................22

6. Оценка качества модели......................................................................................27

7. Заключение...........................................................................................................32

Приложение № 1. Характеристики кредитной заявки........................................33

Приложение № 2 Scorecard Иркутск.....................................................................44

Приложение № 3 Scorecard Московская область ................................................46

Приложение №4 Scorecard Москва.......................................................................48

2

Приложение №5 Scorecard.....................................................................................50

Приложение № 6 Коэффициенты регрессии........................................................51

Приложение № 7 Веса нейронной сети................................................................52

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?