Оценки параметров регрессионных моделей - Дипломная работа

бесплатно 0
4.5 75
Понятие асимптотической относительной эффективности оценок. Цели регрессионного анализа и необходимость проведения обзора наиболее популярных методов оценивания параметров модели. Численный сравнительный анализ. Построение модели на реальных данных.

Скачать работу Скачать уникальную работу
Аннотация к работе
Регрессионное моделирование применяется во многих сферах жизни, набирая в последнее время популярность благодаря развитию компьютерных технологий и распространению методов анализа данных. Для решения этой проблемы были разработаны робастные методы построения, в число которых входят М-оценки, R-оценки, отвечающие оценкам типа максимального правдоподобия (от англ. Например, в случае МНК-оценки параметров линейной регрессионной модели и отклонении от предположения о нормальном распределении ошибок модели, данный метод оценки параметров модели может оказаться неточным. Таким образом, для построения наиболее устойчивых к выбросам и точных моделей необходимо проанализировать поведение М-оценок параметров регрессионной модели и заключить, при каких условиях данный метод может быть наилучшим в сравнении с широко распространенными применяемыми методами наименьших квадратов и модулей. Основная цель написания данной работы заключается в формулировке рекомендаций относительно применения методов оценивания параметров регрессионной модели при разнообразных распределениях остатков модели.Модель может быть записана в более компактном виде: вектор наблюдений, - вектор параметров, - вектор независимых и одинаково распределенных ошибок, матрица полного столбцового ранга, Краеугольным камнем классической статистики является метод наименьших квадратов оценки параметров регрессионной модели (1) b, отчасти благодаря его возможности быть в явном виде вычисленным по имеющимся данным, а также благодаря легкому понимаю метода. Доказано, что МНК-оценки совпадают с оценками, полученные по методу максимального правдоподобия в случае ошибок модели, распределенными по закону Гаусса [18, стр. Пусть - функция распределения ошибок регрессионной модели (1), тогда оценка параметра b регрессионной модели (1) по методу максимального правдоподобия имеет вид: Прологарифмировав (2), получим: В случае, если - функция плотности распределения Гаусса, то, как было указано в предыдущей главе, (3) сводится к задаче минимизации функции , решение которой соответствует МНК-оценке. В случае, если то оценка соответствует оценке, полученной методом наименьших квадратов: соответствует оценки по методу наименьших модулей, при этом оценка параметра масштаба (в пер. в англ. Пусть , и, приравнивая полученные частные производные к 0, получим систему k 1 уравнений: Введем весовую функция при этом, В таком случае, уравнения (5) могут быть записаны в следующем виде: Обозначим за W диагональную матрицу вида: Применяя к (6), получим: Аналитическое представление (7) очень похоже на представление МНК-оценки, однако (7) учитывает веса каждого наблюдения и не может быть вычислена непосредственно по данным, так как W зависит от остатков, которые зависят от оценки.Синими кружками выделены смоделированные данные, желтым цветом выделена прямая, построенная по методу наименьших квадратов, красным - с помощью М-оценок Fair, зеленым - М-оценок Хубера, фиолетовым - МНМ, синим - М-оценок Коши, черным - М-оценки Тьюки, а бирюзовым - М-оценки Вельша. Если случайная величина распределена по закону Тьюки, то при и с дисперсиями распределения Гаусса, на основе которого строится данная плотность распределения Тьюки соответственно, можно найти дисперсию случайной величины по формуле: При указанных значениях параметров распределения, Для моделирования величин, распределенных по закону Тьюки, дополнительно используется случайная величина, равномерно распределенная на отрезке [0,1]. Плотность «двугорбого» распределения на основе двух величин, имеющих распределение Гаусса, может быть аналитическое представлена как где m - одна из двух симметричных мод распределения, - дисперсия распределения Гаусса, на основе которого строится данная плотность «двугорбого» распределения. Если случайная величина распределена по такому закону при и , тогда ее дисперсия может быть найдена по формуле: В нашем случае, получим, что В проводимых экспериментах моделирование случайной величины с «двугорбым» распределением реализовано аналогично моделированию величины с распределением Тьюки. Данные матрицы Х распределены по закону Гаусса с математическим ожиданием 0 и дисперсией 1 ? Ошибка МНМ-оценки Ошибка МНК-оценки Ошибка М-оценки Хьюбера Ошибка М-оценки Fair Ошибка М-оценки Коши Ошибка М-оценки Вельша Ошибка М-оценки ТьюкиДля построения регрессионной модели на реальных данных был выбран набор данных, включающий уровень пенсии и ВВП на душу населения в 27 странах за 2010 год [2], [14]. В работе строится линейная регрессионная модель зависимости уровня пенсии от ВВП страны на душу населения. Результаты работы представлены на Рисунке 3.1 Синими кружками выделены смоделированные данные, желтым цветом выделена прямая, построенная по методу наименьших квадратов, красным - с помощью М-оценок Fair, зеленым - М-оценок Хубера, фиолетовым - МНМ, синим - М-оценок Коши, черным - М-оценки Тьюки, а бирюзовым - М-оценки Вельша. Показателем качества оценок будет являться, как и раньше где - вектор с оценками параметров после измене

Введение
Регрессионное моделирование применяется во многих сферах жизни, набирая в последнее время популярность благодаря развитию компьютерных технологий и распространению методов анализа данных. Регрессионный анализ позволяет не только восстановить зависимость между изучаемыми объектами, но и предсказать значения зависимой переменной исходя из известных данных, соответствующих этой зависимой переменной. Метод нашел свое применение в медицине [9], социологии [7], экономики [5], психологии [12]. Также метод применяют специалисты в области машинного обучения [4], финансовых рынков и институтов [13].

Тем не менее, при анализе реальных данных можно столкнуться выбросами (в пер. с англ. «outliers»), то есть с наблюдениями, которые выделяются из общей выборки. Причинами появления выбросов являются ошибки измерений, необычная природа дынных, либо же выбросы могут являться частью распределения.

Наиболее популярные методы, которые используются при построении регрессионной модели, дают неточные результаты в случае наличия выбросов [24]. Таким образом, появилась задача построения методов построения регрессионных моделей, которые давали бы результат, наиболее точно описывающий данные в случае выбросов. Для решения этой проблемы были разработаны робастные методы построения, в число которых входят М-оценки, R-оценки, отвечающие оценкам типа максимального правдоподобия (от англ. “Maximum likelihood”), L-оценки, основанные на линейных комбинациях порядковых статистик (от англ. «Linear combinations of order statistics”) и R-оценки, получаемые в ранговых критериях (от англ. “Rank test”). Отметим, что здесь и далее под робастностью подразумевается нечувствительность к малым отклонениям от предположений [17]. Например, в случае МНК-оценки параметров линейной регрессионной модели и отклонении от предположения о нормальном распределении ошибок модели, данный метод оценки параметров модели может оказаться неточным.

Таким образом, для построения наиболее устойчивых к выбросам и точных моделей необходимо проанализировать поведение М-оценок параметров регрессионной модели и заключить, при каких условиях данный метод может быть наилучшим в сравнении с широко распространенными применяемыми методами наименьших квадратов и модулей. В этом и заключается актуальность темы данного проекта.

Основным объектом исследования данной ВКР являются М-оценки параметров регрессионной модели, впервые предложенные Швейцарским статистиком Дж. П. Хьюбером в 1973 году [19]. В качестве М-оценок в работе рассматриваются М-оценки Хьюбера, Коши, Тьюки, Вельша, а также М-оценки Fair. Методы теории вероятностей и математической статистики, компьютерного моделирования, а также методы оптимизации являются основными используемыми в данном проекте средствами.

Основная цель написания данной работы заключается в формулировке рекомендаций относительно применения методов оценивания параметров регрессионной модели при разнообразных распределениях остатков модели.

Для достижения поставленной цели в работе необходимо решить несколько задач. Одной из первостепенных таких задач является необходимость проведения обзора наиболее популярных методов оценивания параметров регрессионной модели, так как исследуемые М-оценки будут сравниваться с хорошо известными методами.

Следующей задачей является численное вычисление асимптотической относительную эффективности (АОЭ) М-оценок по отношению к этим популярным методам. Планируется представить в аналитическом виде критерий, с помощью которой можно будет вычислить АЭО М-оценок по отношению к оценкам, полученным методом наименьших квадратов (МНК) и методом наименьших модулей (МНМ). Для более детального исследования необходимо проверить данный критерий при различных распределениях остатков регрессионной модели.

Из последнего следует необходимость в моделировании различных распределений, в том числе распределений, которые имеют «тяжелые хвосты», так как мы ожидаем от наших оценок качественного поведения в том числе при применении к моделям, которые имеют такие «тяжелые» остатки.

После моделирования распределений, необходимо реализовать алгоритм нахождения М-оценок, провести численный сравнительный анализ и сравнить робастность исследуемых методов на реальных данных.

Существует множество программ для обработки статистических данных, включая IBM SPSS, Matlab, MS Office Excel с надстройкой «анализ данных», R Studio. Также в упомянутых программах имеется возможность проводить статистическое моделирование. В текущей работе для моделирования и обработки данных, а также для построения моделей выбран один из самых распространенных средств для моделирования - Matlab.

Основным преимуществом данного программного обеспечения является широкий спектр допустимых возможностей, которые необходимо реализовать в данном проекте. В частности, к ним относится визуализация аналитических данных, численное интегрирование, статистическое моделирование и возможность объектно-ориентированного программирования. Для написания скриптов и функций используется среда разработки Matlab v 8.0.0.783 (R2012b).

В первой главе будут изложены основные теоретические составляющие и определения, необходимые для понимания методов оценивания параметров регрессионных моделей. Также описание основных целей регрессионного анализа и обзор существующих методов оценивания параметров регрессионных моделей будет представлен. В этой главе необходимо ввести основные определения, такие как робастность и М-оценки, а также алгоритм их поиска. Необходимо сформулировать понятие асимптотической относительной эффективности оценок, после чего вычислить данный показатель для различных распределений остатков модели.

Во второй главе будет проведен численный сравнительный анализ при различных распределениях остатков моделей. Для лучшего понимания поведения ошибок, в главе будут представлены различные функции плотности, в соответствии с которыми распределены ошибки модели. Глава будет содержать моделируемый пример, демонстрирующий важность и актуальность качественного и эффективного оценивания параметров регрессионных моделей.

В последней главе будет построена регрессионная модель на реальных экономических данных и проведен эксперимент для сравнения устойчивости к выбросам М-, МНК- и МНМ-оценок.

В заключении работы результаты исследования будут обобщены и сделаны выводы относительно применяемости и эффективности М-оценок.

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?