Интеллектуальный анализ медицинских данных с использованием процедуры словарного шкалирования - Статья

бесплатно 0
4.5 178
Усовершенствованная процедура словарного шкалирования в применении к массиву описаний клинических признаков наследственных заболеваний соединительной ткани. Результаты, полученные при решении задачи интеллектуального анализа экспериментальных данных.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
Для формализованного описания исследуемых заболеваний использовался многоуровневый классификатор MESH [http://www.nlm.nih.gov/mesh/meshhome.html], с помощью которого вводились клинические признаки, характеризующие заболевание. Отличие от работы, представленной в 2006 году, заключается в исключении из всех описаний данных о специфических генных и биохимических изменениях, поскольку была поставлена задача долабораторной классификации болезней. В отношении некоторых наблюдений, «выпадающих» при визуальном анализе кластеров, то есть не соответствующих принятой классификации, была осуществлена частичная переаннотация терминами MESH, что позволило уточнить описания. Принципиально важно использование в данной работе, в отличие от предыдущей, шкалы весовых характеристик симптомов в описаниях заболеваний, так как признаки встречаются в различных возрастных группах с изменяющейся частотой ввиду прогрессирования заболевания и, соответственно, изменения клинической картины болезней. В настоящем исследовании мера близости между терминами, имеющими как минимум один общий родительский термин в таксономии MESH, определяется следующим образом: где ni-число вхождений i-го термина в обучающую выборку, nj - число вхождений j-го термина в обучающую выборку, pij - число вхождений «минимального» родительского термина для i и j в ту же выборку.Проведенный интеллектуальный анализ данных продемонстрировал эффективность усовершенствованной процедуры словарного шкалирования в применении к массиву описаний клинических проявлений наследственных заболеваний.

Введение
Проблема классификации больных с генетически детерминированными болезнями остается актуальной до настоящего времени. Во многом это определяется, с одной стороны, гетерогенностью (неоднородностью) этой патологии, с другой стороны, разнообразием (полиморфизмом) клинических проявлений.

С учетом крайней редкости многих наследственных заболеваний и отсутствием для многих из них специфических диагностических критериев, существенным для идентификации таких болезней являются знания и опыт врачей. Но их передача невозможна без объективизации не всегда четких субъективных представлений, характеризующихся индивидуальностью восприятия при одновременном формировании у врача некоего образа болезни.

Исходя из этого, представляют интерес методы интеллектуального анализа данных. Первый опыт применения экспериментальной процедуры словарного шкалирования в интеллектуальном анализе данных о наследственных заболеваниях описан в работе [Воинов и др., 2006]. В настоящей работе применена усовершенствованная процедура словарного шкалирования.

Для формализованного описания исследуемых заболеваний использовался многоуровневый классификатор MESH [http://www.nlm.nih.gov/mesh/meshhome.html], с помощью которого вводились клинические признаки, характеризующие заболевание. Исходя из возможностей данного классификатора, мы вынуждены были использовать в описаниях отдельных заболеваний признаки разного уровня.

Отличие от работы, представленной в 2006 году, заключается в исключении из всех описаний данных о специфических генных и биохимических изменениях, поскольку была поставлена задача долабораторной классификации болезней.

Всего описано 41 заболевание, объединение которых определяется нарушениями со стороны соединительной ткани (лизосомные болезни накопления, дизостозы и др.). В данной работе используемый массив данных был подвергнут определенной трансформации. В отношении некоторых наблюдений, «выпадающих» при визуальном анализе кластеров, то есть не соответствующих принятой классификации, была осуществлена частичная переаннотация терминами MESH, что позволило уточнить описания.

Принципиально важно использование в данной работе, в отличие от предыдущей, шкалы весовых характеристик симптомов в описаниях заболеваний, так как признаки встречаются в различных возрастных группах с изменяющейся частотой ввиду прогрессирования заболевания и, соответственно, изменения клинической картины болезней. Веса были установлены в совместном обсуждении двумя экспертами для каждого из 4-х возрастных периодов: при рождении, на 1-м году жизни ребенка, с 1 года до 3 лет, старше 3 лет. Шкала построена с учетом частоты проявления признаков: 5 - всегда (в 90 - 100%), 4 - часто (в 70 - 80%), 3 - в половине случаев (в 50%), 2 - редко (в 20 - 30%), 1 - очень редко (в 10%), 0 - отсутствие патологического признака.

2. Словарное шкалирование формализованных описаний болезней

Описания наследственных болезней соединительной ткани, представлены в виде таблиц данных, пригодных для обработки в системе Медис, обеспечивающей инструментальную поддержку исследований в области извлечения знаний, психосемантики, построения предметных онтологий [Воинов, 1996].

Необходимо отметить, что аннотированию с помощью классификатора MESH подвергалось формальное описание болезни, сформированное на основании данных литературы и личного опыта экспертов. Оно включало дефрагментированное представление внешнего вида (образа) больного, сложившегося в виде цельного понятия в сознании специалистов, дополненное признаками, характеризующими поражение костной, нервной систем, зрения, слуха и внутренних органов у детей.

В таблице 1 приведены аннотации трех из анализируемых нами заболеваний, как они сформировались в процессе коррекции к 2010 г.

Табл. 1. Пример аннотаций

MPS6 (P104) Acrocephalo-polysyndactyly type II Carpenter (А1) Acrocephalo-syndactyly type Chotzen (А2)

Craniofacial abnormalities Craniosynostoses Craniosynostoses

Corneal Opacity Syndactyly Hypertelorism

Hypertelorism Polydactyly Prognathism

Hearing Loss Nose Deformities, Acquired Strabismus

Contracture Hip Joint Syndactyly

Short stature Mental Retardation

Hernia Obesity

Kyphosis Pulmonary Valve Stenosis

Limb Deformities

Otitis

Rhinitis

Aortic Valve Stenosis

Hepatomegaly

Splenomegaly

Intervertebral Disk

Для удобства восприятия, в таблице серым фоном выделены те терминальные признаки, которые совпадают при данных заболеваниях. Кроме того, представленные заболевания сближает и наличие признаков, происходящих из единого более высокого узла классификатора MESH, например, Aortic Valve Stenosis и Pulmonary Valve Stenosis относятся к порокам сердца, а Craniofacial abnormalities, Syndactyly и Polydactyly входят в группу мышечно-скелетных аномалий (выделены жирным курсивом). Пример построения классификатора MESH можно видеть на нижеприведенном фрагменте (рис.1).

Рис.1. Фрагмент классификатора MESH

3. Математические методы анализа выборок документов

Мера близости между аннотациями в словарном шкалировании, как и в предыдущем исследовании, основана на мере близости между отдельными терминами словаря. В данной работе был реализован тот же подход, описанный в [Resnik, 1999; Воинов и др., 2004; Воинов, 2005]. В нем используется два источника информации: таксономическая близость терминов в словаре MESH и их информационное содержание, определяемое по частоте вхождения терминов в некоторую «обучающую» выборку данных.

Как выяснилось в процессе интерпретации результатов, полученных в предыдущем исследовании, выбор информационного содержания в качестве основы для меры близости между терминами, ведет к гипертрофированному вкладу в меру близости между документами таких терминов, которые относительно редко встречаются в обучающей выборке. В результате, взаимное расположение документов в пространстве многомерного шкалирования не всегда соответствует «экспертному», т.е. полученному в результате классического субъективного шкалирования.

В настоящем исследовании мера близости между терминами, имеющими как минимум один общий родительский термин в таксономии MESH, определяется следующим образом:

где ni -число вхождений i-го термина в обучающую выборку, nj - число вхождений j-го термина в обучающую выборку, pij - число вхождений «минимального» родительского термина для i и j в ту же выборку. Под минимальным понимается такой термин, который входит в обучающую выборку наименьшее число раз. Частоты терминов выше некоторого порогового значения отсекаются. Тем самым достигается та же цель, что и в случае метрики, основанной на информационном содержании: исключить влияние терминов, представленных в подавляющем большинстве документов обучающей выборки и, соответственно, неинформативных для задачи исследования. При этом также исключается и чрезмерное влияние редко упоминаемых терминов. В качестве порогового значения рассматривались 50%, 25%, 10%. В настоящей работе приведены результаты, выполненные с первым из них, т.е. 50%.

Преимущество новой меры близости между терминами по сравнению со старой проверялось с помощью так называемых «положительных контрольных выборок», на которых эффект количественной обработки должен соответствовать ожидаемому. В нашем случае роль положительного контроля играла заданная априори таксономия наследственных болезней, выбранных для исследования. Этот вопрос рассматривается подробно в следующем разделе. словарный шкалирование интеллектуальный описание

4. Собственное семантическое пространство описаний группы болезней

Описанная выше выборка из 41 пациента, аннотированная терминами MESH, была подвергнута анализу методом многомерного шкалирования в пространстве трех измерений. Полученная конфигурация точек была обработана методом кластерного анализа, критерий группировки которого отвечает требованию максимальной сбалансированности кластерного дерева.

Результат анализа (для одного из выделяемых 5 - 6 кластеров) приведен на рис.1, из анализа которого можно сделать вывод, что в один кластер попали близкие по клиническим проявлениям и патогенетическим механизмам заболевания. Таблица 2 показывает попавшие в один кластер объекты при различных весовых категориях. Серым фоном выделены заболевания, попадающие при разных категориях весов в один и тот же первый кластер, т.е. совпадающие по клиническим проявлениям в различные возрастные периоды.

В целом, при рассмотрении рис.2 и табл. 2, можно видеть близость различных заболеваний в семантическом пространстве в первом кластере при различных категориях весов, т.е. при различном возрасте больных.

Рис. 2. Визуальное представление первого кластера в псевдотрехмерном пространстве

Табл. 2. Кластер 1

Категория весов 1 Категория весов 2 Категория весов 3 Категория весов 4

Р105 (ML1) Р105 (ML1)

P118 (MPS3) P118 (MPS3) P118 (MPS3) P118 (MPS3)

Cong. lypodystrophy Cong. lypodystrophy Cong. lypodystrophy

P101 (MPS1H) P101 (MPS1H) P101 (MPS1H) P101 (MPS1H)

P106 (ML3) P106 (ML3) P106 (ML3) P106 (ML3)

P107 (ML2) P107 (ML2) P107 (ML2) P107 (ML2)

P103 (MPS4) P103 (MPS4) P103 (MPS4) P103 (MPS4)

P101 (MPS1S) P101 MPS1S) P101 MPS1S) P101 MPS1S)

P109 (BWS) P109 (BWS) P109 (BWS)

P117 (Pycnodys)

Cutis laxa Cutis laxa

P102 (ML3)

P104 (MPS6)

P111 (Kniest)

Frontometaphys. Dys.

Полученные результаты позволяют сделать следующие основные выводы: · некоторые группировки диагнозов устойчиво воспроизводились для всех возрастных групп;

· визуализация показала устойчивость кластеров, обнаруженных при рассмотрении трехмерного пространства;

· нетрадиционное, в отдельных случаях, объединение описаний по диагнозам в кластеры объяснялось близостью соответствующих терминов в таксономии;

· в содержательном (медицинском) плане практическое значение работы заключается в том, что аналогично тому, как по отдельным признакам врач выдвигает первичную диагностическую гипотезу, интеллектуальная система может включать в кластер описания, обладающие аналогичными признаками.

Полученные результаты указывают на целесообразность в дальнейшем написания программы, которая для нового пациента по аннотации автоматически будет показывать близкие объекты и подсказывать диагноз.

5. Потенциальные возможности применения словарного шкалирования

В предшествующей работе авторы [Воинов и др., 2006] обращали внимание на то, что предлагаемый подход позволяет выявлять предположительно новые нозологические формы или варианты заболеваний в случаях формирования отдельных кластеров или попадания исследуемых объектов не в «свой» кластер. Также предшествующее исследование показало, что интеллектуальный анализ данных, основанный на первично визуальной оценке различных кластеров, позволяет оценить вклад отдельных симптомов в дифференциальную диагностику заболеваний.

Результаты настоящей работы развивают спектр этих возможностей, а для случая «чистого» словарного шкалирования, когда аннотации объектов создаются авторами исследования, приведен практический сценарий поэтапного (с учетом предшествовавших результатов) уточнения экспериментальной методики.

Вывод
Проведенный интеллектуальный анализ данных продемонстрировал эффективность усовершенствованной процедуры словарного шкалирования в применении к массиву описаний клинических проявлений наследственных заболеваний. При этом была показана возможность классификации и идентификации клинически сложных болезней наследственной природы при введении дополнительного условия, заключающегося в использовании весовых категорий, отвечающих нечетким представлениям, и системы повозрастной группировки признаков.

Показано влияние различных признаков на расположение объектов и их близость к образцам, характерным для отдельных заболеваний.

Подтверждено высказанное ранее предположение о чрезвычайной чувствительности метода словарного шкалирования к выбору тезауруса терминов, используемых для аннотации, как по широте охвата, так и по семантическому содержанию конкретных терминов.

Анализ данных без предварительной обучающей выборки (unsupervised learning) оставляет возможность «открытия» новых свойств изучаемых объектов, формирования гипотез о закономерностях их взаимодействия.

Список литературы
[Воинов, 1996] Воинов А.В. Интеллектуальная система анализа данных МЕДИС // Пятая национальная конференция с международным участием «Искусственный интеллект-96». Т.3. - Казань, 1996.

[Воинов и др., 2004] Воинов А.В., Кобринский Б.А. Иерархия локально-непротиворечивых полей знаний как модель образного мышления и интуиции эксперта в мягких предметных областях // Девятая национальная конференция по искусственному интеллекту с международным участием: Тр. конф. Т.2. - М.: Физматлит, 2004.

[Воинов, 2005] Воинов А.В. Интеграция онтологий и извлечение холистических знаний // Новости искусственного интеллекта. 2005. № 2.

[Воинов и др., 2006] Воинов А.В., Демикова Н.С., Кобринский Б.А. Словарное шкалирование в медицинской информатике: инженерия знаний и интеллектуальный анализ данных // Десятая национальная конференция по искусственному интеллекту с международным участием: Тр. конф. Т.1. - М.: Физматлит, 2006.

[Resnik, 1999] Resnik P. Semantic similarity in a taxonomy: An information-based measure and its application to problems of ambiguity in natural language // J. of Artif. Intell. Res. 1999. 11 (1).

Размещено на .ru

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?