Разработка программы для сбора, анализа, обработки медицинских данных, вычисления и сохранения статистических значений, прогнозирования возможных осложнений и оповещения хирургов в случае их появления после дренирования в области печеночной хирургии.
Аннотация к работе
.3.2 Интервалы в качестве узоров2.1 Постановка задачи3.1 Построение полной решетки4.1 Инструменты, используемые при разработкеВ данной главе будет рассмотрены различные статистические функции, применяемые врачами при анализе медицинских данных.Одним из часто используемых непараметрических критериев, применимый при выявлении корреляции между двумя выборками, является коэффициент корреляции Спирмена: , где R1 - ранг наблюдения xi в ряду x, R2-ранг наблюдения yi в ряду y, а x и y - выборки, При значении p <0.3 связь между выборками мала; при попадании значения p в интервал [0.3, 0.7] - связь между выборками средняя. Для оценки различий между двумя выборками по признаку, измеряемому в количественной или порядковой шкале, врачи часто используют такой непараметрический тест, как U-критерий Манна-Уитни. При этом количество рангов получится равным: где - количество элементов в первой выборке, а - количество элементов во второй выборке. Рассчитать суммы рангов для первой и второй выборок и определить большую из двух ранговых сумм (), соответствующую выборке с элементами. Если полученный U-критерий меньше или равен критическому значению, взятому из таблицы для уровня значимости 95 %, то принимается наличие различия между выборками - уровень признака во второй выборке ниже уровня признака в первой выборке.Определения анализа формальных понятий, описанные в этой главе, взяты из источника [1]. Элементы множества называются объектами, а элементы множества - признаками формального контекста Пара (или ) может быть описана, как пара объектов и , находящихся в бинарном отношении . Это можно интерпретировать как "объект имеет признак ". Оператор (1.1) для множества объектов возвращает максимальное подмножество признаков, которые присущи каждому объекту из множества .Все термины, описанные в этой главе, взяты из источника [2].Данная операция позволяет работать с объектами, признаки которых имеют не бинарные, как в классическом анализе формальных понятий, а сложные описания, такие как, например, интервал или граф. Он определяет для множества объектов общее максимальное описание (узор) всех объектов из . Данный оператор возвращает множество всех объектов для описания , которые разделяют это описание . Задача заключается в построении алгоритма классификации , основываясь на имеющейся информации о разделении множества объектов на классы. В итоге классификатор должен для каждого нового объекта определить метку класса, к которому данный объект принадлежит, либо указать некоторое значение, определенное для случая, когда классификатор не может определить метку класса.Также в этой главе описывается модель данных, описывающая набор объектов и признаков, на основе которой строится классификатор. В данной работе была поставлена задача построить классификатор на основе данных о пациентах, определяющий признаки, влияющие на отсутствие осложнений после операции дренирования печени. Каждый пациент описывается значениями его физиологических характеристик, деталями операции и результатом операции в виде типа осложнения (или отсутствия осложнения). Данные состоят из 86 записей, из которых 56 записей описывают пациентов, не имеющих осложнения после дренирования печени, все остальные записи - информация о пациентах с осложнениями после дренирования. Во-вторых, это позволит значительно снизить время обучения классификатора, так как алгоритмы классификации анализа формальных понятий очень чувствительны к количеству объектов, признаков и возможных значений признаков.Первый этап испытания состоял в построении полной решетки при помощи алгоритма ADDINTENT на всех признаках. В результате, решетка содержала более 2,000,000 понятий, время построения решетки составляло приблизительно 48 часов. Поэтому было принято решение отобрать информативные признаки для уменьшения размера решетки при помощи алгоритма отбора информативных признаков Boruta, описанного в п.2.3. В результате работы алгоритма Boruta было отобрано 12 признаков: · Возраст в годах В качестве алгоритма кластеризации был использован алгоритм k-means, так как не было необходимости использовать более сложный алгоритм, потому что выборка состояла всего лишь из 56 объектов, и алгоритм применялся для каждого количественного признака из списка признаков.В данной главе описаны инструменты и методы, используемые при разработке данной программы. 4.1 Инструменты, используемые при разработке В данной работе было принято решение использовать Apache Tomcat версии 8.0.21, так как данный контейнер сервлетов является одним из самых популярных средств для разработки сервера, но для данного проекта он был выбран, в первую очередь, изза того, что, в отличие от других, он не содержит реализацию всей спецификации Java EE, что и не требовалось в этом проекте. Для взаимодействия с базой данных использовалась библиотека Spring JDBC, что позволило абстрагироваться от конкретных запросов и уменьшить объем кода, связанного с логикой работы с базой данных.