Оценивание параметров модели FMM. Метод максимального правдоподобия. Свободная среда статистического программирования R. Решение задачи расщепления смесей вероятностных распределений в случае независимых компонент. Примеры ассиметричных распределений.
Аннотация к работе
БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ Статистический анализ многомерных неоднородных данных в программной среде RCRAN - Comprehensive R Archive Network, ресурс сети Интернет, который предоставляет доступ к библиотекам расширений R; SMSN - Scale Mixture of Skew-Normal distributions - класс асимметричных распределений, основанных на скошенном нормальном распределении; FMSMSN - Finite Mixture of SMSN distributions, семейство моделей смесей с компонентами из класса распределений SMSN; mixsmsn - программная библиотека R, предоставляющая функции для анализа и моделирования моделей типа FMSMSN;С точки зрения теории вероятности, при решении данной задачи наиболее адекватным является параметрический подход, при котором для описания данных используется модель смеси вероятностных распределений (Finite Mixture Model - FMM) [2]. В качестве базовой модели используется модель смеси нормальных распределений [3], поскольку она наиболее полно изучена теоретически. В условиях указанной модели для одновременной оценки параметров и классификации наблюдений традиционно используется итерационный алгоритм расщепления смесей распределений [1], который в англоязычной литературе имеет название Expectation-Maximization (EM) [5]. Существует множество реализаций EM алгоритма для некоторых из перечисленных выше задач, но для научных исследований представляется наиболее удобным использование реализаций данного алгоритма из специализированных библиотек среды статистического программирования R [6].EM алгоритм является общим методом для нахождения оценок максимального правдоподобия параметров моделей по данным с пропусками [7]. В случае FMM пропусками являются все значения категориальной переменной, обозначающей принадлежность наблюдения к одной из компонент смеси распределений. Существует множество подходов к оцениванию параметров модели FMM, включая метод максимального правдоподобия (Maximum Likelihood-based Inference - ML), байесовский метод на основе метода Монте-Карло c использованием цепи Маркова (Bayesian approach based on Markov chain Monte Carlo), онлайн EM алгоритм (Online EM)[2]. Поскольку в задаче оценивания кредитных [7] рейтингов названные проблемы не являются столь существенными, для данной работы выбраны EM алгоритмы на основе метода максимального правдоподобия, поскольку алгоритмы данного типа имеют более простую реализацию и хорошо представлены в программных библиотеках R [9], о которых пойдет речь в следующем разделе.Свободная среда статистического программирования R [6] предоставляет исчерпывающий набор встроенных функций и библиотек расширений для анализа данных с использованием широко круга статистических методов и моделей. Полный список библиотек может быть найден на сайте CRAN [9] в разделе Contributed extension packages, где по ссылке CRAN Task Views все библиотеки расположены по категориям согласно области применения. Для данной работы используются библиотеки из секции Cluster, подсекции Model-Based Clustering, пункта ML estimation. Во-вторых, единственной библиотекой R, предназначенной для анализа асимметричных данных методом ML является mixsmsn, которая предоставляет средства моделирования и анализа с помощью EM алгоритма смесей одномерных и многомерных асимметричных распределений, являющихся обобщением класса нормальных распределений: скошенных нормальных (Skew.normal) и t-распределений Стьюдента (Skew.t), а также таких асимметричных распределений, как асимметричные слеш-распределения (Skew.slash) и асимметричные засоренные нормальные распределения (asymmetric contaminated-normal - Skew.cn).Приведем общее описание EM алгоритма для решения задачи расщепления смесей вероятностных распределений в случае независимых компонент согласно [7]. Для начала определим модель данных и сформулируем задачу. Обозначим через составной вектор всех параметров смеси , - выборку наблюдений, - вектор классификации, где принимает значение номера класса, которому соответствует наблюдение , тогда логарифмическая функция правдоподобия параметров по выборке представляется в виде функционала Во многих задачах классификация неизвестна, поэтому возникает задача совместного оценивания параметров и классификации. , где через обозначен составной вектор всех данных параметров независимых параметров из , то в результате максимизации функционала по выборке данных с учетом значений параметров и апостериорных вероятностей на текущей итерации, формулы для обновления оценок параметров принимают вид [1]Перечислим только те распределения, которое представлены в программной библиотеке mixsmsn в соответствии с описанием в [10]. Все данные распределения относятся к специальному классу на основе скошенных нормальных распределений SMSN(Scale Mixtures of Skew-Normal distribution), а модели смесей на основе данных распределений формируют класс моделей FMSMSN (Finite Mixures of Scale Mixtures of Skew-Normal distributions), для которых в указанной библиотеки реализованы алгоритмы моделирования данных и анализа с помощью EM алгоритма.
План
Оглавление
Перечень условных обозначений
Введение
Глава 1. Обзор литературы
1.1 EM алгоритмы для FMM
1.2 Использование R для анализа FMM
Глава 2. Методика исследования
2.1 Описание EM алгоритма
2.2 Примеры ассиметричных распределений
Глава 3. Результаты численных экспериментов
3.1 Модельные данные
3.2 Реальные данные
Заключение
Библиографический список
Приложения
Приложение А Презентация защиты реферата
Перечень условных обозначений
R - свободная программная среда для статистического анализа данных;