Использование классификаторов машинного обучения для анализа данных. Создание модели, которая на основании параметров, влияющих на течение диабета, выявляет показатель возвращения больного в ухудшенное состояния после оказанного лечения (реадмиссию).
Аннотация к работе
Также ежегодно от данного заболевания умирают 1,5 миллиона человек, более того, по оценкам ВОЗ, около 2,2 миллион смертей в мире напрямую связаны с повышенным содержанием сахара в крови. Данная статистика обусловлена недостаточным вниманием к сахарному диабету среди населения и врачей, и все это, несмотря на то, что сейчас существует множество способов профилактики диабета, а также методов облегчения последствий данного заболевания. Современные методики лечения диабета подразумевают под собой тщательный мониторинг течения заболевания и уровня глюкозы в крови, а также, при необходимости, прием лекарственных средств, прописанных врачом. Например, на данный момент, одним из самых высокоточных тестов для отслеживания уровня глюкозы в крови является тест на гликированный гемоглобин (HBA1c), который на основе уровня гемоглобина в крови, непосредственно связанного с глюкозой, позволяет отражать среднее содержание сахара в крови в динамике до трех месяцев. Однако тест на гликированный гемоглобин до сих пор проводится только в исключительных случаях в связи с отсутствием дорогостоящего оборудования в больницах, а также недостаточного внимания к профилактике и мониторингу сахарного диабета.В настоящее время в России около 4 миллионов больных сахарным диабетом, который является эндокринным заболеванием, сопровождающимся повышенным уровнем глюкозы в крови на протяжении долгого периода времени. Диабет разделяется на два типа по зависимости от инсулина - диабет первого типа (инсулинзависимый диабет) и диабет второго типа (инсулиннезависимый диабет). Люди, больные диабетом первого типа часто испытывают жажду, слабость, потребность в частом мочеиспускании, а также имеют склонность к кетоацидозу - нарушению углеводного обмена в организме. Среди лечения инсулинзвисимого диабета выделяют диету, спорт и постоянный прием инсулина, осложнения при отсутствии надлежащего лечения - снижение плазменной концентрации глюкозы в организме без последующей комы (гипогликемия), поражения мелких сосудов вегето-сосудистой системы, сердца и отделов головного мозга. Среди осложнений также выделяется повышение плазменной концентрации глюкозы с последующей комой (гипергликемия), поражение крупных сосудов вегето-сосудистой системы, почек и нервов.Тест HBA1св первый раз упоминается в ежегодном отчете ВОЗ в 1985 году, как новый способ мониторинга состояния людей больных диабетом. Американская Диабетическая ассоциация в 1989 году поддержала ВОЗ с идеей о применении данного теста для контроля состояния диабета и предложила проводить HBA1сдважды в год для каждого пациента с диабетом. После выхода этих двух отчетов в медицинской среде начались споры по поводу необходимости проведения теста на гликированный гемоглобин, его преимуществах и недостатках. Анализ первых примеров применения HBA1c показал, что ранняя имплементация гликированного гемоглобина не была отмечена большим успехом. Он показал, что ежеквартальное проведение гликированного гемоглобина для каждого пациента больницы позволит не только назначать лечение диабета должным образом, но и обнаруживать диабет на ранних стадиях и даже предрасположенность к этому заболеванию.Таким образом, главной задачей данного исследования является необходимость построить модель с помощью методов анализа данных, используя имеющуюся базу данных посещений госпиталя. Модель должна учитывать все необходимые значимые переменные, которые влияют на показатель реадмиссии пациента и применять полученные зависимости для предсказания результата на новом объекте (пациенте). Создать модели на основе имеющихся данных, используя оптимальные методы MACHINELEARNING, а именно логистическую регрессию, наивный баесовский классификатор, деревья решений и метод k-ближайших соседей. Логистическая регрессия относится к методам классификации, основанных на явном разделении обучающей поверхности на несколько областей, данный метод выполняет разделение с помощью логистической кривой.Для решения задачи анализа данных существуют два метода - обучение с учителем и без учителя. Обучение без учителя подразумевает собой ситуацию, в которой на обучающей выборке заданы только описания объектов, и обучение происходит путем выделения корреляций, зависимостей и взаимосвязей между параметрами.На данный момент существует несколько способов построения деревьев - алгоритмы CART, C 4.5, CHAID и пр. Метод C 4.5 представляет собой алгоритм, который для построения дерева разбивает выборку на nподмножеств, которые в свою очередь рекурсивно также разбиваются на кподмножеств, так продолжается до момента, пока каждое множество не будет содержать конечный единичный пример. C 4.5 содержит информацию о том, каким образом и в каком количестве примеры распределены между подмножествами, для определения принадлежность к классу используется следующий алгоритм: Определяется вероятность того, что пример из множества S, принадлежит к одному и тому же классу по формуле (1): (1) где - количество примеров множества S, принадлежащих классу; - количество элементов в подмножест
План
Оглавление
Введение
Глава 1. Теоретические основы исследования
1.1 Описание предметной области
1.2 Анализ исследований в области лечения диабета.
1.3. Постановка задачи
Глава 2. Использование классификаторов машинного обучения для анализа данных
2.1 Методы анализа данных
2.1.1 Деревья решений
2.1.2 Метод k-ближайших соседей
2.1.3 Наивный байесовский классификатор
2.1.4 Логистическая регрессия.
2.2 Методы проверки точности работы классификатора
2.3 Инструментальные средства анализа данных
Глава 3. Описание практической реализации анализа данных и создания модели
3.1 Описание переменных
3.2 Предварительный анализ данных
3.3 Применение классификаторов
3.4 Оценка качества работы классификаторов
3.5 Интерфейс пользователя
Заключение
Список литературы.
Приложение 1. Данные для теста программы, значение реадмиссии 2.
Приложение 2. Данные для теста программы, значение реадмиссии 0.
Приложение 3. Код программы на языке Python
Введение
Актуальность
В настоящее время, согласно данным Всемирной Организации Здравоохраненения, 422 миллиона человек в мире страдают от сахарного диабета. Также ежегодно от данного заболевания умирают 1,5 миллиона человек, более того, по оценкам ВОЗ, около 2,2 миллион смертей в мире напрямую связаны с повышенным содержанием сахара в крови. Данная статистика обусловлена недостаточным вниманием к сахарному диабету среди населения и врачей, и все это, несмотря на то, что сейчас существует множество способов профилактики диабета, а также методов облегчения последствий данного заболевания.
Современные методики лечения диабета подразумевают под собой тщательный мониторинг течения заболевания и уровня глюкозы в крови, а также, при необходимости, прием лекарственных средств, прописанных врачом. Например, на данный момент, одним из самых высокоточных тестов для отслеживания уровня глюкозы в крови является тест на гликированный гемоглобин (HBA1c), который на основе уровня гемоглобина в крови, непосредственно связанного с глюкозой, позволяет отражать среднее содержание сахара в крови в динамике до трех месяцев. Данный тест является более точным и высококачественным, чем обычный тест на глюкозу, отражающий уровень глюкозы в крови на текущий момент. Однако тест на гликированный гемоглобин до сих пор проводится только в исключительных случаях в связи с отсутствием дорогостоящего оборудования в больницах, а также недостаточного внимания к профилактике и мониторингу сахарного диабета.
Тест HBA1c лишь один из примеров невнимания к заболеванию и отсутствия качественного мониторинга диабета в мире.
Объект исследования
Объектом исследования являются медицинские учреждения, оказывающие услуги больным диабетом - государственные и частные клиники, больницы, госпитали.
Предмет исследования
Предметом исследования является отслеживание течения сахарного диабета у больных, а также способы его лечения на основании значимых факторов влияния.
Цель исследования
Целью исследования является создание модели, которая на основании параметров, влияющих на течение диабета, выявляет показатель возвращения больного в ухудшенное состояния после оказанного лечения (реадмиссию).
Построение модели будет происходить на основе базы данных по лечению людей с диабетом, поступивших в госпитали с осложнениями, вызванными данным заболеванием. Данные включают в себя список больных, поступавших в американские госпитали в течение 1998-2008 годов. В качестве показателя реадмиссии выбрано повторное возвращение в госпиталь с осложнениями. модель реадмиссия классификатор машинный
Задачи исследования
Для достижения цели исследования необходимо выполнить следующие задачи: Провести предварительный анализ данных - выявить зависимости и корреляцию между переменными, значимые параметры, выполнить подготовку данных для анализа.
Создать модели на основе имеющихся данных, используя оптимальные методы MACHINELEARNING.
Оценить качество построенных моделей на основе кросс-валидации и ROC-кривых и выбрать наиболее точную модель.
Создать интерфейс для пользователя на основе разработанной модели, который позволить оценить подобранные методы мониторинга и лечения диабета для каждого больного и определить показатель реадмиссии.
Методы и технологии исследования
Решение поставленных задач производилось с применением различных методов. Для анализа переменных и связи между ними использовались методы статистики и анализа данных. Непосредственно для создания модели - методы Datamining, такие как деревья решений, метод k-ближайших соседей, наивный Баесовский классификатор и мультиноминальная логистическая регрессия.
В ходе работы использовались следующие программные продукты: MSEXCEL- программа для работы с электронными таблицами. В данной работе используется в качестве базы данных.
PYCHARMCOMMUNITYEDITION -среда разработки на языке программирования Python. Использовалась для обработки данных, а также создания модели.
QTDESIGNER - приложение для создания GUIДЛЯ пользователя на основе программного языка Python.
Краткое содержание глав
В первой главе описаны теоретические основы выбранной предметной области, а именно медицинская составляющая исследования - типы диабеты, его причины и способы диагностики, также проведен анализ литературы и выполнена постановка задачи.
Вторая глава включает в себя описание методов анализа данных, спобосы оценки точности классификатора, а также инструментальных средств для создания предсказательной модели оптимального лечения, таких как PYCHARM и QTDESIGNER.
Третья глава представляет собой описание практической реализации разработки модели, а именно предварительного анализа данных, применения методов анализа данных, оценки качества работы классификаторов и имплементации разработанной модели на тестовых примерах, а также описание интерфейса пользователя.
В заключении описаны полученные в ходе работы результаты и сделаны выводы о достижении итоговой цели работы.