Алгоритмы для решения задачи бинарной классификации. Подготовка данных для создания модели. Разработка предиктивной модели для прогнозирования возможности продажи дополнительных услуг телекоммуникационного оператора с целью решения маркетинговых задач.
При низкой оригинальности работы "Разработка методики применения методов машинного обучения для решения маркетинговых задач в телекоммуникационном бизнесе", Вы можете повысить уникальность этой работы до 80-100%
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ МАГИСТЕРСКАЯ ДИССЕРТАЦИЯ по направлению подготовки Бизнес-информатика образовательная программа «Бизнес-информатика» РАЗРАБОТКА МЕТОДИКИ ПРИМЕНЕНИЯ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ РЕШЕНИЯ МАРКЕТИНГОВЫХ ЗАДАЧ В ТЕЛЕКОММУНИКАЦИОННОМ БИЗНЕСЕПо результатам проведения подобных кампаний был сделан вывод, что их эффективность довольно низка, так как попадание в склонных к оттоку абонентов было мало, уровень оттока оставался на прежнем уровне, а затраты на один звонок были велики, в связи с чем было принято решение о предварительном определении наиболее склонных к оттоку абонентов, с которыми осуществлялась работа по удержанию специалистами контакт-центра. Так как в тот момент (начало 2000-ых) технологии машинного обучения были не на самом высоком уровне и не в широком доступе, а специалистов по глубинному анализу данных почти не существовало, было принято решение о построении триггерных моделей внутренними силами наиболее опытных специалистов, которые знали причины недовольства услугами. В итоге, когда машинное обучение стало общедоступным и появилось большое количество специалистов по анализу данных, компании стали разрабатывать для своих целей предиктивные модели для прогноза склонных к оттоку абонентов [4, с. Помимо вопроса о сохранении абонентов телекоммуникационные операторы сталкиваются с проблемой повышения доходности путем осуществления продаж дополнительных услуг, для решения которой требуется определить абонентов, наиболее склонных к приобретению дополнительных сервисов, для чего также прибегают к построению предиктивных моделей [5]. Достижение поставленной цели будет описано на примере построения предиктивной модели для предсказания склонности абонента к приобретению дополнительных услуг телекоммуникационного оператора, которая будет учитывать индивидуальные особенности поведения абонента в рамках пользования услугами компании.Такие модели сводятся к решению одну из двух задач: · задачи регрессии; Решение задачи классификации состоит в прогнозировании категориального признака, или, иными словами, факта принадлежности к какому-либо классу. · бинарная классификация - множество классов определено двумя событиями: принадлежность или не принадлежность к определенной группе или классу (в качестве результата модели имеем 0 или 1) [16, с. Отметим, что так как на кону стояли жизнь и здоровье пациентов, модель должна была определять всех пациентов, у которых заболевание действительно случится по факту, иными словами, чтобы максимально сократить количество ложных срабатываний модели в случае положительного исхода (то есть ситуаций, когда модель определяет отсутствие заболевания при его наличии). Точность модели (precision) - отношение количества положительных исходов, классифицированных верно, ко всему количеству положительно классифицированных событий: Полнота модели (recall, данный показатель также называют sensitivity (чувствительность) и True Positive Rate (TPR)) - отношение количества положительных исходов, классифицированных верно, ко всему количеству фактически положительных событий: Доля правильных ответов (accuracy) - отношение количества всех исходов, классифицированных верно, ко всем существующим событиям: Для разбора метрики ROC AUC введем еще одно понятие - False Positive Rate (FPR) - показатель, равный отношению ложноположительных исходов ко всем фактически отрицательным исходам: ROC AUC (Area under the ROC-curve) - площадь под ROC-кривой - показатель, который характеризует значения метрик TPR и FPR в зависимости от выбранного вероятностного порога t.Существует огромное множество алгоритмов, методов и их разновидностей для решения задач бинарной классификации: · Алгоритмическая композиция: o бустинг (вариативные методы, в основе которых лежат различные базовые алгоритмы); · Байесовский классификатор: o линейный дискриминант Фишера; o машина опорных векторов (support vector machine, SVM); В рамках данного исследования будут рассмотрены только наиболее популярные и эффективные методы, использующиеся при решении задач бинарной классификации. Градиентный бустинг (от англ. boosting - улучшение) - метод является последовательностью построения ансамбля алгоритмов машинного обучения, когда каждый новый алгоритм стремится компенсировать ошибки, возникшие при построении композиции ранее построенных алгоритмов.Машина опорных векторов (support vector machine, SVM) - алгоритм машинного обучения, относящийся к бинарным классификаторам. Даны точки на плоскости (обучающая выборка), разбитые на два класса (А и В) (Рисунок 2). Новые точки, не принадлежащие обучающей выборке, будут разделяться на классы в соответствии со следующим алгоритмом: · Точка выше прямой попадает в класс А; · Точка ниже прямой попадает в класс В. Стоит отметить, что в пространствах высоких размерностей прямая не будет являться разделителем классов, так как понятие «ниже прямой» или «выше прямой» теряет всякий смысл.
План
Оглавление
Введение
1. Обзор алгоритмов анализа данных и инструментов для их реализации
1.1 Теоретическая база предиктивного анализа
1.2 Обзор алгоритмов для решения задачи бинарной классификации
1.2.1 Бустинг
1.2.2 Машина опорных векторов
1.2.3 Решающее дерево
1.2.4 Логистическая регрессия
1.2.5 Случайный лес
1.3 Обзор инструментов реализации алгоритма градиентного бустинга
1.3.1 Описание исходных данных
1.3.2 Коэффициенты и оценки
1.3.3 Решение задачи порядковыми методами
2. Подготовка данных для создания предиктивной модели
2.1 Описание базы данных
2.2 Формирование производных показателей
2.3 Определение наиболее значимых предикторов
3. Построение предиктивной модели
3.1 Описание используемого алгоритма
3.2 Разработка предиктивной модели
Заключение
Список использованных источников
Приложения
П1 Листинг кода по отбору предикторов
П2 Листинг кода модели
Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность своей работы