Характеристика сути анализа выборки методом критерия Пирсона. Первичная обработка одномерной выборки. Расчет основных характеристик случайной величины по сгруппированным данным. Проверка гипотезы о равномерном распределении генеральной совокупности.
Изучение этих законов позволяет не только осуществлять прогноз в области случайных явлений, но и целенаправленно влиять на ход этих явлений, контролировать их, ограничивать сферу действия случайности, сужать ее влияние на практику. При этом возникают следующие вопросы: 1) Если мы наблюдаем одну случайную величину - как по набору ее значений в нескольких опытах сделать как можно более точный вывод о ее распределении? Для такой оценки вычисляется значение «хи квадрат» и по таблице критических значений «хи квадрат» выбирается необходимое, затем эти две величины сравниваются, если полученное значение меньше, чем критическое, то гипотеза принимается, в противном случае отклоняется. Для построения вариационного ряда отсортируем выборку (x1, x2, ? , x130) по возрастанию(смотреть слева-направо) в результате чего получим ряд : Построив вариационный ряд, найдем min и max данной выборки: min=-1,02424; max=5,46628. размах вариации. Статистическим распределением выборки(в нашем случае) называют перечень вариант Xsr вариационного ряда и соответствующих частот Nk(сумма всех частот равна объему выборки N) или относительных частот Pi(сумма всех относительных частот равна 1): Таблица 1.
Введение
Целью курсовой работы по дисциплине «Теория вероятности, вероятностные процессы и математическая статистика» является практическое закрепление теоретической части курса и приобретение навыков в реализации практических задач по расчетам элементов математической статистики.
В результате выполнения курсовой работы студенты должны приобрести следующие практические умения и навыки: - формализация и алгоритмизация задач теории вероятности и математической статистики;
- обработка выборок, расчет статистических характеристик и подтверждения выдвинутых гипотез;
- проведение и анализ результатов вычислительных экспериментов;
- оформление программной документации в соответствии с ГОСТ и ЕСПД.
Для выполнения курсовой работы необходимы знания, которые получены при изучении дисциплин «Теория вероятности, вероятностные процессы и математическая статистика».
В любом опыте или явлении присутствуют в той или иной мере элементы случайности. Как бы точно и подробно ни были фиксированы условия опыта, невозможно достигнуть того, чтобы при повторении опыта результаты полностью и в точности совпадали. Случайные отклонения неизбежно сопутствуют любому закономерному явлению. Случайные величины часто подчиняются определенным законам распределения, свойства которых целиком известны.
Цель статистических методов - в том, чтобы, минуя слишком сложное (и зачастую практически невозможное) исследование отдельного случайного явления, обратиться непосредственно к законам, управляющим массами таких явлений. Изучение этих законов позволяет не только осуществлять прогноз в области случайных явлений, но и целенаправленно влиять на ход этих явлений, контролировать их, ограничивать сферу действия случайности, сужать ее влияние на практику.
В ходе исследования случайного явления (проведения опыта) наблюдатель получает набор числовых результатов, полученных повторением одного и того же случайного эксперимента в одинаковых условиях.
При этом возникают следующие вопросы: 1) Если мы наблюдаем одну случайную величину - как по набору ее значений в нескольких опытах сделать как можно более точный вывод о ее распределении?
2) Если мы наблюдаем одновременно проявление двух (или более) признаков, т.е. имеем набор значений нескольких случайных величин - что можно сказать об их зависимости? Есть она или нет? А если есть, то какова эта зависимость?
3) С какой степенью доверия можно доверять проведенным расчетам? Какой объем выборки необходим, что бы принимать утверждения с заданным уровнем вероятности?
Ответ на эти вопросы позволяет более точно изучить рассматриваемый процесс или явления, позволяет производить его дальнейшее моделирование и изучение.
В данной курсовой работе были использован следующий метод: Критерий Пирсона - служит для оценки выдвинутой гипотезы закона распределения случайной величины. Для такой оценки вычисляется значение «хи квадрат» и по таблице критических значений «хи квадрат» выбирается необходимое, затем эти две величины сравниваются, если полученное значение меньше, чем критическое, то гипотеза принимается, в противном случае отклоняется.
1. Обработка одномерной выборки
1.1 Первичная обработка выборки
По условию задана генеральная выборка одномерной случайной величины (СВ) Х объемом N=130(инд.задание в приложение 1).Для обработки выборки СВ Х строим вариационный ряд из выбранных значений (x1, x2 … x130) случайной величины Х. Для построения вариационного ряда отсортируем выборку (x1, x2, ? , x130) по возрастанию(смотреть слева-направо) в результате чего получим ряд :
Построив вариационный ряд, найдем min и max данной выборки: min=-1,02424; max=5,46628. размах вариации. (1.1)
6,49052;
Сумма всех элементов выборки = =205,7577Используя формулу 1.2, найдем количество интервалов и при помощи формулы нахождения шага 1.3 разобьем выборку на полученное количество интервалов. Результат разбиения занесем в таблицу 1.
; (1.2)
( в Excel используется ОКРУГЛВНИЗ);
Используя формулу(1.1) и (1.2)
(1.3);
0,811315; 0,4056575;
Таблица 1.1
Найдем интервалы для будущего статистического ряда: min h/2(1.4);
1 значение h(1.5 и т.д.);
2 значение h;
3 значение h;
4 значение h;
5 значение h;
6 значение h;
7 значение h;
8 значение h;
Найдем количество частот(значений выборки), входящих в каждый из выбранных интервалов и строим статистический ряд по полученным данным в виде таблицы.
Статистическим распределением выборки(в нашем случае) называют перечень вариант Xsr вариационного ряда и соответствующих частот Nk(сумма всех частот равна объему выборки N) или относительных частот Pi(сумма всех относительных частот равна 1): Таблица 1.2
где Nk -частота, количество чисел выборки, входящих в избранный интервал(частоту ищем в диапазоне всего вариационного ряда выборки, на границах указанного интервала );
-среднее арифметическое концов интервала; (1.6)
- относительные частоты Nk/N, как отношения абсолютных частот к объему выборки (1.7).
Для того чтобы графически представить закон распределения случайной величины, при построении гистограммы по оси ординат откладываем значение плотности вероятности W, которое рассчитывается по формуле W=Pi/h, используя формулу(1.8) и (1.3). Это позволяет привести гистограмму и график закона распределения случайной величины в одном масштабе. одномерный выборка распределение совокупность
График распределения СВ - эмпирическая функция распределения- это функция , определенная для всех х от - ? до ?; таких, что: 1) = 0, для всех x < x*1;.
2) (n1*/n) (n2*/n) … (nk*/n) для всех x удовлетворяющих условию: хк*? x < х*k 1;
3) = 1, для всех x ? x*m;.
Для построения функции заполним таблиц, в колонку будем записывать накопленные относительные частоты (см. табл.2): = Pi1; (1.8) =Pi1 Pi2;(1.9 и т.д.)
= Pi1 Pi2 Pi3;
= Pi1 Pi2 Pi3 Pi4; = Pi1 Pi2 Pi3 Pi4 Pi5;
= Pi1 Pi2 Pi3 Pi4 Pi5 Pi6;
= Pi1 Pi2 Pi3 Pi4 Pi5 Pi6 Pi7.
График 1.1
2. Расчет основных характеристик случайной величины по сгруппированным данным
Основной задачей математической статистики является определение закона распределения случайной величины. Для проверки гипотезы о законе распределения СВ необходимо определить числовые характеристики статистического распределения используя групповые средние Xsr.
Для расчета рекомендуется применять формулы из таблицы 1(приложение 2).
Найдем (промежуточные) Xsr*Nk , (Xsr-Mx)^2*Nk, Xsr^2*Nk, Xsr^3*Nk, Xsr^2*Nk для каждого интервала и их общую сумму: Таблица 2.1 математическое ожидание - сумма произведений всех случайных величин возможных значений на их вероятности. (2.1)
Dx = - дисперсия - математическое ожидание квадрата отклонения случайной величины от ее математического ожидания. (2.2)
Dx = ;
? = - среднеквадратичное отклонение - есть корень квадратный из дисперсии. (2.3) ? = =1,225065193;
= начальный момент второго порядка. (2.4)
= 5,574941186;
= начальный момент третьего порядка. (2.5)
= 16,97338392
= начальный момент четвертого порядка(2.6)
= 58,562812;
y =0,95 - доверительная вероятность (дано по условию);
Пусть заданное распределение в виде последовательности интервалов ( ) и соответствующих им частот Nk(Nk - сумма частот, которые попали в i-й интервал, см. таблица 1) - эмпирическое распределение.
Используя критерий Пирсона, проверим гипотезы о нормальном и равномерном распределении.
3. Проверка гипотез распределения случайной величины Х
3.1 Проверка гипотезы о равномерном распределении генеральной совокупности
Используя критерий Пирсона, проверим гипотезу о том, что генеральная совокупность X распределена нормально.
По правилу о том, что для того чтобы при уровне значимости ?=0,05 проверим гипотезу о нормальном распределении: 1. Вычислим выборочное среднее Xsr и выборочное среднее квадратичное отклонение ?(см. стр.7).
2. Пронормируем X , т.е. перейдем к случайной величине
, и вычислить концы интервалов: Z1= (3.1.1), Z2= (3.1.2).
3. Вычислим вероятность попадания X в интервалы ( ): , где - функция Лапласа. Функция =НОРМСТРАСП ( ) позволяет вычислить в Excel интегральную функцию нормального распределения Pi, т.е. (3.1.3).
4. Вычислим практическую вероятность попадания данных частот Nk в интервалы ( ): (3.1.4).
5. При проверке гипотез будем использовать критерий Пирсона, который вычисляется по формуле: (3.1.5).
Таблица 3.1.1
147,6264334
6. По заданному уровню значимости ?=0,05 (в статистике величину называют статистически значимой, если мала вероятность чисто случайного возникновения ее или еще более крайних величин) и числу степеней свободы , где s=8(количество интервалов выборки), т.е. найдем критическую точку правосторонней критической области.
Критическую точку распределения Пирсона (хи-квадрат) можно вычислить в Excel по формуле =ХИ2ОБР(?; k), т.е. x_крит^2 =ХИ2ОБР(0,05; 5)=11,07049769 (3.1.6).
7. Сравним и для проверки гипотезы: , т.е. гипотезу о нормальном распределении генеральной совокупности отвергаем; другими словами эмпирические и теоретические частоты отличаются значимо.
Это означает, что данные наблюдения не согласуются с гипотезой о нормальном распределении.
8. Построим график отображения нормального закона распределения, исходя из определения, что нормальным называют распределение вероятностей СВ X , плотность которого имеет вид
, где Mx- найденное ранее математическое ожидание (см. стр.7, (2.1)), ? - среднее квадратическое отклонение X(см. стр.7, (2.3)).
Упростим себе задачу, зная, что значения плотности нормального распределения для конкретного числового значения x можно вычислить в Excel с помощью формулы =НОРМРАСП(x;Mx;?;0), т.е. плотность нормального распределения по средним значениям равна
(3.1.7).
(Смотреть таблицу 3.1.1 выше)
График 3.1.1
3.2 Проверка гипотезы о равномерном распределении генеральной совокупности
Для того чтобы проверить гипотезу о равномерном распределении X, т.е. по закону
(3.2.1)
1. Оценим параметры a и b - концы интервалов, в которых наблюдались возможные значения Xsr, по формулам (через a и b обозначены оценки параметров): *? (3.2.2) , *? (3.2.3) .
2. Найдем плотности вероятности предполагаемого распределения , в которых наблюдались возможные значения Xsr: ). (3.2.4)
3. Найдем теоретические частоты: (3.2.5); (3.2.6 и т.д.); (3.2.7);
Таблица 3.2.1
4. Сравним эмпирические и теоретические частоты, используя критерий Пирсона, приняв число степеней свободы k=s-3=8-3=5.
- критерий Пирсона (3.2.8) , где Nk - эмпирические частоты (смотреть таблицу 3.2.1)
Из расчетной таблицы получаем 144,6573685.
5. По заданному уровню значимости ?=0,05 (в статистике величину называют статистически значимой, если мала вероятность чисто случайного возникновения ее или еще более крайних величин) и числу степеней свободы k=s-3, где s=8(количество интервалов выборки), т.е. k=8-3=5 найдем критическую точку правосторонней критической области.
Критическую точку распределения Пирсона (хи-квадрат) можно вычислить в Excel по формуле =ХИ2ОБР(?; k), т.е.
1,145476226. (3.2.9)
6. Сравним 1,145476226 и 144,6573685 для проверки гипотезы: Т.к. - есть основания отвергнуть гипотезу о равномерном распределении X; другими словами эмпирические и теоретические частоты отличаются значимо.
7. Построим график отображения равномерного закона распределения, исходя из определения, что равномерным называют распределение вероятностей СВ X, если на интервале(а,b) , которому принадлежат все возможные значения X, плотность сохраняет постоянное значение, а именно соответствует формуле (3.2.1).
График 3.2.1
Список литературы
1) Теория вероятности и математическая статистика. Учебн. Пособие для вузов/. В.Е. Гмурман - 9-е изд.,стер.-М.:Высш.шк.,2003-479с., ил.
2) Руководство к решению задач по теории вероятности и математической статистике. Учебн. Пособие для вузов/. В.Е. Гмурман - 9-е изд.,стер.-М.:Высш.шк.,2003-479с., ил.