Описание основной модели и понятий факторного анализа. Обзор показателей, которые получаются в результате применения кардиопульмонального теста (эргоспирометрии). Сокращение числа переменных, которые несут основную информацию о состоянии пациента.
Аннотация к работе
2.4 Визуальный анализГлоссарийВ современном мире невозможно обойтись без всестороннего анализа данных, это касается и медицины, для этого существует самостоятельный раздел - медицинская статистика. Она позволяет методом обобщающих характеристик исследовать закономерности различных явлений, встречающихся в медицине, важнейших процессов, протекающих в организме человека и другие. В медицине статистические методы чаще всего используются для: изучения здоровья населения в целом и его основных групп, которые проводятся путем сбора таблиц данных с различными характеристиками; Существуют заболевания, которым подвержены различные возрастные группы пациентов, т.е. вы не можете отбирать для исследования только мужчин от 30 до 35 лет с определенными антропометрическими данными и необходимыми клиническими параметрами. Существует большое количество программных пакетов, позволяющих провести грамотную статистическую проверку, мы остановим свой выбор на программе STATISTICA и проведем статистический анализ данных эргоспирометрии пациентов с хронической сердечной недостаточностью.факторный эргоспирометрия пациент кардиопульмональныйЭргоспирометрия - метод диагностирования, который разрешает проблему выявления таких сердечных расстройств, как сердечная недостаточность, ишемическая болезнь сердца, стенокардия и тому подобное. Хроническая сердечная недостаточность (ХСН) является одной из важнейших проблем современной кардиологии, поскольку ее развитие сопряжено со значительным ухудшением качества жизни, частыми госпитализациями и сокращением продолжительности жизни.Основной объект преобразований в факторном анализе - это матрица корреляций, которая состоит из коэффициентов корреляции Пирсона (в некоторых случаях - дисперсионно-ковариационная матрица), вычисленная классическим путем обработки массива данных X. Под сжатием информации в факторном анализе подразумевается сокращение размерности корреляционной матрицы, а не самих данных, тем более что воссоздать начальные данные по корреляционной матрице невозможно. Поскольку коэффициенты, из которых состоит корреляционная матрица, могут быть вычислены разными способами, существуют последующие технологии факторного анализа: R - техника, когда коэффициенты корреляции вычисляют между переменными и исходную матрицу Х сжимают по столбцам, т.е. количество признаков уменьшится с m до р; Значения называются факторными нагрузками (коэффициент корреляции фактора со всеми показателями, использованными в исследовании). , факторы независимы между собой и независимы от специфических факторов , то факторные нагрузки совпадут с коэффициентами корреляции между общими факторами и переменными .Исходные данные представляют собой Таблицу 1, в которой: каждая строка соответствует одному пациенту;ИБС - ишемическая болезнь сердца (категориальная переменная); 1 - наличие заболевания, 0 - отсутствие заболевания: патологическое состояние, характеризующееся абсолютным или условным нарушением кровоснабжения миокарда (мышцы сердца) изза поражения коронарных артерий; Q зубец - патологический зубец Q (категориальная переменная); 1 - наличие, 0 - отсутствие: он отражает продолжительность проведения импульса возбуждения по предсердиям, атриовентрикулярному узлу, пучку Гиса до желудочков; ДКМП - Дилатационная кардиомиопатия (категориальная переменная); 1 - наличие заболевания, 0 - отсутствие заболевания: заболевание миокарда, связано с развитием дилатации (растяжения) полостей сердца, с последующим появлением систолической дисфункции, при этом рост толщины стенок не наблюдается; атеросклероз артерий нижних конечностей (категориальная переменная); 1 - наличие заболевания, 0 - отсутствие заболевания: хроническая болезнь артерий ног, которое в начале течения заболевания может отражаться только в малозаметной хромоте, небольшим чувством онемения или иногда похолодания в стопе. Систолическое АД - систолическое артериальное давление (непрерывная переменная): верхний показатель давления, который показывает артериальное давление во время, когда сердце сокращается и вытесняет кровь в артерии, оно зависит от того насколько сильно сокращаются мышцы сердца, сопротивление, которое удерживают стенки кровеносных сосудов, и числа сжатий в единицу времени;На данной гистограмме (Рисунок 3) мы видим, что подавляющее большинство женщин имеют возраст от 50 до 70 лет, женщины в возрасте от 20 до 30 лет в исследовании не участвовали. Для большей точности посмотрим на p - уровень для критерия Шапиро - Уилка, он равен 0,0000, что меньше, чем заданный уровень значимости 0,05, следовательно, мы отклоняем нулевую гипотезу в пользу альтернативной и также получаем, что распределение переменной «ЧДД» отлично от нормального. Сравним полученную гистограмму (Рисунок 5) с линией подгонки, визуально можно предположить, что распределение данной переменной не сильно отклоняется от нормального распределения.
План
Оглавление
Введение
Глава 1. Постановка задачи. Основные понятия факторного анализа
1.1 Постановка задачи
1.2 Факторный анализ
Глава 2. Визуальный и описательный анализ данных, использующихся в дипломной работе, и их описание
2.1 Структура данных
2.2 Описание переменных
Введение
В современном мире невозможно обойтись без всестороннего анализа данных, это касается и медицины, для этого существует самостоятельный раздел - медицинская статистика. Медицинская статистика - наука, которая позволяет изучить количественную сторону каких-либо общественных явлений в совокупности с их качественной стороной. Она позволяет методом обобщающих характеристик исследовать закономерности различных явлений, встречающихся в медицине, важнейших процессов, протекающих в организме человека и другие.
В медицине статистические методы чаще всего используются для: изучения здоровья населения в целом и его основных групп, которые проводятся путем сбора таблиц данных с различными характеристиками;
выявления эпидемиальных факторов;
учета смертности населения;
проверки эффективности и оценки качества работы учреждений здравоохранения;
определения статистической значимости результатов каких-либо исследований.
Особенности работы с медицинскими данными
Поскольку мы имеем дело с медицинскими данными, то стоит упомянуть, что такие данные имеют некоторые особенности, которые отличают их от данных, полученных из других отраслей человеческой деятельности.
Во-первых, в таких исследованиях используется лишь ограниченное количество данных. Эта проблема возникает изза того, что исследователи не могут принуждать пациентов участвовать в их экспериментах. Человеческий фактор играет очень большую роль в медицинских исследованиях.
Во-вторых, мы имеем дело с большим разбросом, т.е. с вариабельностью данных, что вытекает из первого пункта. Существуют заболевания, которым подвержены различные возрастные группы пациентов, т.е. вы не можете отбирать для исследования только мужчин от 30 до 35 лет с определенными антропометрическими данными и необходимыми клиническими параметрами. Вам необходимо использовать при анализе тех пациентов, которые вам доступны.
В-третьих, в медицине очень распространены категориальные (качественные) показатели, такие как: пол, тяжести заболевания, показатели наличия или отсутствия какого-либо заболевания и т.д.
В-четвертых, медицинские данные очень часто являются неполными. Это касается особенно длительных исследований, т.е. у вас может не быть постоянного доступа к каким-либо параметрам, которые вы исследуете. Так как вы работаете с реальными людьми, то каждый показатель, который был получен должен быть обязательно учтен. Для этого были придуманы различные разделы анализа данных, например, анализ выживаемости.
И, наконец, в-пятых, при проведении многоцентровых исследований вы можете столкнуться с неоднородностью данных. Эта проблема возникает изза отсутствия определенных стандартов для введения характеристик пациентов в таблицы данных.
Каждое исследование ( это касается математической статистики в целом) идет по определенному «сценарию», который состоит из следующих разделов: Планирование исследования;
Сбор данных;
Импорт данных;
Чистка данных;
Описательный и визуальный анализ;
Группировка;
Вычисление статистик для групп;
Нахождение связей и зависимостей;
Построение прогноза;
Верификация моделей.
Статистическая обработка данных представляет собой сложный многоэтапный процесс, от уровня научной организации которого зависят такие параметры, как: качество накапливаемых статистических данных;
результаты обработки данных;
результаты анализа данных.
Существует большое количество программных пакетов, позволяющих провести грамотную статистическую проверку, мы остановим свой выбор на программе STATISTICA и проведем статистический анализ данных эргоспирометрии пациентов с хронической сердечной недостаточностью.
Выбор программного пакета STATISTICA не был случайным, так как существует большое количество литературы и статей, в которых говориться о том, что STATISTICA- это наилучший выбор для данной цели.
В [1] приводиться обзор программных пакетов, использующихся в медицине. Они выделяют STATISTICA, прежде всего, как многофункциональный программный пакет, простой в освоении, имеющий подробные методические разработки, как к программе STATISTICA [2], так и руководства по использованию данного программного обеспечения в медицине [3]. Авторы отмечают, что STATISTICA подойдет для начинающих и для профессионалов, благодаря русскоязычной документации и большому перечню профессиональных возможностей.
В [4] излагается подробная классификация модели и методов исследований в медицинской статистике, обосновываются преимущества выполнения исследований в программных пакетах Biostat и STATISTICA.
[2] представляет собой наиболее полное руководство пользователя на русском языке к программе STATISTICA. Здесь есть большое количество доступных для понимая примеров работы в программе.
[3] посвящена наиболее современным методам статистического анализа медицинских данных в STATISTICA. Изложены требования, предъявляемые к представлению результатов анализа и в [6] содержится большое количество примеров.
В [5] анализируются исследования в области медицинской статистики. Автор утверждает, что выбор программного обеспечения и методов исследования зависит от предпочтений самого исследователя, отмечая две наиболее популярные в этой среде программы Excel и STATISTICA.
В [6] приведены убедительные аргументы в пользу STATISTICA, такие как: сведение к минимуму случайных ошибок в расчетах, экономия времени, возможность выбора наиболее подходящего метода анализа и графического представления на каждом этапе исследования.
В дипломной работе программный пакет STATISTICA используется для обработки и анализа данных, полученных в результате обследования пациентов с хронической сердечной недостаточностью. Основная задача - определить, какие из показателей, полученных в результате использования кардиопульмонального теста (эргоспирометрии), являются зависимыми, выделить факторы, которые определяют эту зависимость, а тем самым, сократить число переменных, которые несут основную информацию о состоянии пациента. Основной метод решения задач такого типа - факторный анализ.
Факторный анализ развивался в результате применения статистических методов в психологии, а затем его применение пришло в социологию и медицину. В основе моделей, используемых в нем, положено следующее соображение: исследуемые параметры являются косвенными характеристиками объекта, имеются скрытые параметры (факторы), которые определяют значения наблюдаемых параметров. Причем количество этих факторов существенно меньше, чем количество исходных параметров. Возникает задача: как по имеющимся данным выделить величину, которая объяснит наблюдения. Факторный анализ позволяет свести большое количество данных к более простой структуре с наименьшими потерями информации.
Факторный анализ в медицине становиться все более популярным, в силу развития компьютерной диагностики. Этот метод анализа данных находит свое применение в самых различных областях медицины [7 , 8]. Подробной изложение этого метода можно найти в [9].
Дипломная работа состоит из введения, трех глав, списка сокращений, глоссария и заключения.
В Главе 1 приводится описание основной модели и понятий факторного анализа.
В Главе 2 приводится исходные данные, которые подлежат анализу. Описаны все показатели, которые получаются в результате применения эргоспирометрии. Таких показателей больше 22. В дипломной работе используются только 6: рост, вес, систолическое артериальное давление, диастолическое артериальное давление, частота сердечных сокращений, частота дыхательных движений. Для этих показателей проводится визуальный и описательный анализы, проверка на нормальное распределение.
В Главе 3 формулируется гипотеза, что имеются скрытые факторы, которые определяют выделенные 6 показателей. Ставится задача выявить скрытые факторы. Для этого используется метод главных компонент. Используем пакет STATISTICA, модуль «Факторный анализ», выделяем 2 фактора, которые несут основную информацию.