Получение интервальной оценки. Построение доверительного интервала. Возникновение бутстрапа или практического компьютерного метода определения статистик вероятностных распределений, основанного на многократной генерации выборок методом Монте-Карло.
Аннотация к работе
Эконометрика и прикладная статистика бурно развиваются последние десятилетия. Одним из таких методов является так называемый "бутстрап", предложенный в 1977 г. Бутстрап - это практический компьютерный метод определения статистик вероятностных распределений, основанный на многократной генерации выборок методом Монте-Карло на базе имеющейся выборки. В стране с условиями отсутствия систематического эконометрического образования подобные рекламные кампании находили особо благоприятную почву, поскольку у большинства затронутых ими специалистов не было достаточных знаний в области методологии построения эконометрических моделей для того, чтобы составить самостоятельное квалифицированное мнение. Речь идет о таких методах как бутстрап, нейронные сети, метод группового учета аргументов, робастные оценки по Тьюки-Хуберу, асимптотика пропорционального роста числа параметров и объема данных и др.Задача интервального оценивания состоит в следующем: По данным выборки построить числовой интервал, относительно которого с заранее выбранной вероятностью можно сказать, что внутри этого интервала находится оцениваемый параметр. Интервальная оценка - оценка, которая определяется двумя числами, а именно - концами интервала (), покрывающего оцениваемый параметр . Оценка называется несмещенной оценкой параметра , если . Оценка называется асимптотически несмещенной оценкой , если . Оценка называется эффективной оценкой , если она имеет наименьшую дисперсию среди всех несмещенных оценок данного параметра .В статистике тоже есть «нечестный» метод, который позволяет получить примерный ответ на многие практические вопросы без анализа, грубой компьютерной силой: бутстрап. В конечном счете, мы получаем свежие результаты - в тестовой группе из 893 пришедших у нас что-то купили 34, а в контрольной группе из 923 пришедших что-то купили 28. Возникает вопрос - идти к начальству и говорить: «в тестовой группе соотношение числа купивших у нас что-либо к числу всех посетивших - 3.81%, в контрольной группе - 3.03%, налицо улучшение на 26%, где моя премия?» или продолжать сбор данных, потому что разница в 6 человек - еще не статистика? Нормальное распределение бесконечно делимо, вычитаем математические ожидания и складываем дисперсии, получаем: 1. математическое ожидание: 34/893-28/923 = 0.77%; #define ARRAY_SIZE(x) sizeof(x)/sizeof(x[0]) static double bootstrap(const Data_t data, unsigned n)Интервальный метод оценивания параметров распределения случайных величин заключается в определении интервала (а не единичного значения), в котором с заданной степенью достоверности будет заключено значение оцениваемого параметра. Иначе говоря, вместо отдельной точки для оцениваемого параметра можно установить интервал значений, одна из точек которого является своего рода "лучшей" оценкой. Представительная выборка - выборка, которая является (или считается) истинным отражением родительской популяции, то есть имеет тот же профиль признаков, например, возрастную структуру, классовую структуру, уровень образования. Эта задача решается путем построения доверительного утверждения, которое состоит в том, что интервал накрывает истинное значение параметра с доверительной вероятностью не менее . В доверительном утверждении считается, что статистики и являются случайными величинами и изменяются от выборки к выборке.После произведенных вычислений программным способом получим: Таблица 1 - Оценка математического ожидания Проделаем данные наблюдения для разных объемов выборки, математических ожиданий и стандартных отклонений. Найдя все точки пересечения с надежностью, и построив по ним графики, мы можем увидеть зависимость оптимального объема бутстрапа от объема исследуемой выборки для разных параметров. К примеру, ниже приведен график зависимости для параметров 0 1 л: Таблица 2 - Значения показателей объемов для параметров: 0 1 л Следовательно, для данных параметров объем бустрапа нужно брать приблизительно на 3 единицы меньше объема основной выборки, чтобы получить доверительный интервал, в котором будет находиться истинное значение.В ходе выполненного исследования мы выяснили, что каждую нормально распределенную выборку можно бутстрапировать.Таблица 3 - Значения показателей объемов для параметров: 0 1 лТаблица 4 - Значения показателей объемов для параметров: 0 1 пТаблица 5 - Значения показателей объемов для параметров: 0 1 лп Рисунок 5 - Зависимость оптимального объема бутстрапа от объема исследуемой выборки для параметров: 0 1 лп Для данных параметров объем бутстрапа нужно брать на 3 единицы меньше объема основной выборки, чтобы получить доверительный интервал, в котором будет находиться истинное значение. Для данных параметров объем бутстрапа нужно брать приблизительно на 3 единицы меньше объема основной выборки, чтобы получить доверительный интервал, в котором будет находиться истинное значение. Для данных параметров объем бутстрапа нужно брать приблизительно на 3 единицы меньше объема основной выборки, чтобы получить доверительный интервал, в кото
Вывод
Рассмотрим результаты при заданных параметрах: 1. объем выборки: 10;
2. математическое ожидание: 0;
3. стандартное отклонение: 1;
4. количество прогонов: 100 000;
5. глубина бутстрапа: 1 000;
6. минимальный объем бутстрапа: 10.
После произведенных вычислений программным способом получим: Таблица 1 - Оценка математического ожидания
Где при объеме бутстрапа, который равен 7, мы получаем границу доверительного интервала, максимально приближенный к истинному значению. Проделаем данные наблюдения для разных объемов выборки, математических ожиданий и стандартных отклонений. Найдя все точки пересечения с надежностью, и построив по ним графики, мы можем увидеть зависимость оптимального объема бутстрапа от объема исследуемой выборки для разных параметров. К примеру, ниже приведен график зависимости для параметров 0 1 л: Таблица 2 - Значения показателей объемов для параметров: 0 1 л
10 8 0,94701 0,95
20 18 0,94853 0,95
30 27 0,95038 0,95
40 38 0,95018 0,95
50 47 0,95084 0,95
60 58 0,9503 0,95
70 68 0,95029 0,95
80 79 0,95002 0,95
90 90 0,95053 0,95
100 98 0,95033 0,95
10 8 0,94701 0,95
Рисунок 2 - Зависимость оптимального объема бутстрапа от объема исследуемой выборки для параметров: 1 1 л
Следовательно, для данных параметров объем бустрапа нужно брать приблизительно на 3 единицы меньше объема основной выборки, чтобы получить доверительный интервал, в котором будет находиться истинное значение. В таком случае оценка получается несмещенной. Ниже будут приведены следующие зависимости объемов бутстрапа от объемов исследуемых выборок: 1. 0 1 л (Приложение A)
2. 0 1 п (Приложение Б)
3. 0 1 лп (Приложение В)
4. 0 10 л (Приложение Г)
5. 0 10 п (Приложение Д)
6. 0 10 лп (Приложение Е)
7. 1 1 л (Приложение Ж)
8. 1 1 п (Приложение И)
9. 1 1 лп (Приложение К)
10. 1 10 л (Приложение Л)
11. 1 10 п (Приложение М)
12. 1 10 лп (Приложение Н)
13. 10 1 л (Приложение П)
14. 10 1 п (Приложение Р)
15. 10 1 лп (Приложение С)
16. 10 10 л (Приложение Т)
17. 10 10 п (Приложение У)
18. 10 10 лп (Приложение Ф)В ходе выполненного исследования мы выяснили, что каждую нормально распределенную выборку можно бутстрапировать. Однако при этом объем бутстрапа нужно брать в среднем на 3 единицы меньше, чем объем исходной выборки. Только выполнив это условие, мы получим доверительный интервал, соответствующий заданной вероятности.
Список литературы
1. Баврин, И.И. Теория вероятностей и математическая статистика / И.И. Баврин. - М.: Высш. шк., 2005. - 160 с.
2. Максимов, Ю.Д. Вероятностные разделы математики / Ю.Д. Максимов. - Изд.: Иван Федоров, 2001. - 592 с.
3. Пугачев B.C. Теория вероятностей и математическая статистика: Учеб. Пособие / В.С. Пугачев. - 2-е изд., исправл. и дополн. - М.: Физматлит,2002. - 496 с.
4. Электронная библиотека [Электронный ресурс] - Режим доступа: http://habrahabr.ru - Дата доступа: 25.01.2014.