Создание ИТ-сервиса, позволяющего с помощью алгоритмов машинного обучения прогнозировать вероятность возникновения задержек авиарейсов - Дипломная работа

бесплатно 0
4.5 254
Сбор и агрегация исторических данных о регулярных рейсах авиакомпаний. Особенность создания модели машинного обучения для предсказания вероятности отмены маршрута. Характеристика формирования ИТ-сервиса для предоставления доступа к предиктивной модели.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
На сегодняшний день основными подходами для решения задачи снижения рисков, связанных с задержками во время путешествия, являются такие простые решения, как увеличение общего времени, закладываемого на поездку, а также страхование рисков у страховых агентов. Вопрос возможности создания модели машинного обучения для предсказания вероятности возможной задержки или отмены рейса не представляется новым - существует ряд работ, так, или иначе освещает данную проблему. Данная же работа, напротив, представляет больший упор на реальную и практическую часть реализации данной модели, а также создание интерфейса для взаимодействия и интеграции с другими программными решениями. Также данная работа частично основывается на работах по машинному обучению, предоставляющих теоретические сведения о существующих алгоритмах машинного обучения, а также математических основах их реализации. Целью исследования является создание ИТ-сервиса, позволяющего на основе исторических данных по перелетам и погодным условиям, с помощью алгоритмов машинного обучения прогнозировать вероятность возникновения задержек авиарейсов.В данной главе будут рассмотрены такие вопросы, как обзор и анализ литературы на тему исследования, выполнен обзор текущих коммерческих и академических решений в вопросе предсказания статуса рейса, а также а также приведен теоретический базис для алгоритмов и методов, используемых для построения предиктивной модели.Несмотря на высокую актуальность и наличие реальной необходимости в предсказании статуса рейса, рынок на данный момент не представляет комплексных решений для решения данной задачи. Так, Даниэл Фабиен в своей работе Predicting the flight delays (Fabien Daniel, 2017) рассматривает вопрос создания регрессионной модели для предсказания точного времени задержки рейса на базе исторических данных по США за 2015 год. Говоря о коммерческих реализациях возможности предсказания задержек рейсов, то наиболее активно на данном рынке представлена компания Google, с недавнего времени предоставляющая информацию клиентам из США о возможной задержке рейса в своем мета-поисковике авиабилетов.Алгоритм замены специальным значением производит замену всех пропусков в выборке заданным значением (чаще всего 0, или-1), позволяя тем самым не исключать данные объекты из выборки. Однако, данный метод все равно достаточно редко позволяет достичь качественных результатов, ведь объекты получают одинаковые значения, а также метод может некорректно работать с категориальными признаками. Еще одним подходом по обработке категориальных признаков является замена каждого из классов категорий его идентификатором, где идентификатор представляет из себя порядковый номер каждого из классов. Данный алгоритм позволяет избавиться от категориальных признаков, однако, использование порядковых идентификаторов приводит к переобучению моделей машинного обучения, так как они учитывают упорядоченность идентификаторов. В общем случае, алгоритм работы линейных методов классификации можно описать следующим образом: пусть объекты для классификации n числовыми признаками, , а Y - конечное число меток классов, тогда линейный классификатор может быть определен выражением: , где каждому классу соответствует вектор весов .Для выполнения поставленных задач по созданию аналитической системы и веб-сервиса по прогнозированию статуса авиарейса, необходим ряд практических сведений, включающий в себя как подходы по сбору и обработке данных, так и различные методы машинного обучения. Рассмотрение инструментария стоит начать с разбора основных фреймворков и библиотек для предобработки и создания моделей машинного обучения. Возможности данного фреймворка позволяют взаимодействовать со средой Python через интерактивный веб-интерфейс путем ввода команд на языке Python в поля веб-ноутбука (рис. Данный пакет позволяет в простой и быстрой форме создавать сложные прототипы в удобном для просмотра и использования виде. Основным преимуществом перед библиотекой Pandas является широкий набор функционала по работе с многомерными данными, без которых невозможно представить ни одну комплексную модель машинного обучения.В рамках данного раздела произведен сбор и анализ погодных и исторических данных о регулярных рейсах авиакомпаний за выбранный период.Проведя анализ рынка данных авиационной статистики, стало очевидно, что данные по большинству регионов либо не предоставляются, либо доступны исключительно на платной основе. Исходя из этого, выбор пал на анализ данных о регулярных перелетах компаний внутри США, где статистические данные бесплатно предоставляются Бюро транспортной статистики США (Bureau of Transportation Statistics).

План
Содержание

Введение

Глава 1. Теоретические основы процесса создания моделей классификации в машинном обучении

1.1 Обзор литературы на тему исследования

1.2 Анализ существующих предиктивных решений в авиационной индустрии

1.3 Методы и алгоритмы машинного обучения для анализа данных

1.4 Обзор библиотек и фреймворков использованных в работе

Глава 2. Сбор и агрегация погодных и исторических данных о регулярных рейсах авиакомпаний

2.1 Сбор и агрегация исторических данных о регулярных рейсах авиакомпаний

2.2 Сбор и агрегация погодной информации

2.3 Агрегация исторических и погодных данных

Глава 3. Создание модели машинного обучения для предсказания вероятности отмены рейса

3.1 Первоначальный анализ собранных данных

3.2 Предобработка данных

3.3 Обучение моделей машинного обучения

Глава 4. Формирование ИТ-сервиса для предоставления доступа сторонним программным решениям с использование программного интерфейса API к построенной модели предсказания статуса рейсов

4.1 Формирование ИТ-сервиса для предоставления доступа к предиктивной модели

4.2 Проверка качества работы сформированного ИТ-сервиса

4.3 Оценка возможных выгод для бизнеса от внедрения предиктивной модели

Заключение

Список использованной литературы

Приложение

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?