Построение статистического ряда, группирование выборки. Построение гистограммы, кумуляты. Проверка гипотезы о нормальном законе распределения случайной величины X по критерию Пирсона. Выборочное среднее, коэффициент линейной вариации, асимметрия, эксцесс.
Аннотация к работе
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИИ федеральное государственное бюджетное образовательное учреждение высшего профессионального образования САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕХНОЛОГИИ И ДИЗАЙНА СЕВЕРО-ЗАПАДНЫЙ ИНСТИТУТ ПЕЧАТИ Выполнил студент 1 курса, группы 1-ТИЗ-1Записать исходную выборку в виде таблицы Записать сгруппированную выборку в виде таблицы.
План
Оглавление
Список литературы
Задание кумулята асимметрия распределение
Каждому студенту в соответствии со своим номером варианта требуется: 1) записать исходную выборку в виде таблицы;
2) построить статистический ряд;
3) записать сгруппированную выборку в виде таблицы;
4) построить гистограмму и кумуляту;
5) проверить гипотезу о нормальном законе распределения случайной величины Х по критерию Пирсона и записать вычисления в таблицу;
6) исследовать вариацию признака Х, найдя для этого числовые характеристики (выборочное среднее, среднее квадратическое отклонение, коэффициент линейной вариации, асимметрию и эксцесс).
При проверке гипотезы о нормальном распределении принять уровень значимости a = 0,05. Варианты индивидуальных заданий приведены в таблице. Номер варианта определяется по номеру фамилии студента в списке его группы.
Варианту номер к соответствуют элементы выборки, расположенные в 15-ти следующих строчках таблицы, начиная со строки номер к (объем выборки при этом n = 150).
Записать исходную выборку в виде таблицы
Таблица 1
Номер варианта Элементы выборки
3 43 46 34 35 42 32 41 34 42 42
4 38 40 46 47 34 42 38 40 38 36
5 30 43 41 40 40 35 35 41 38 45
6 37 42 38 36 44 39 32 48 43 39
7 43 30 32 36 42 34 49 48 49 50
8 37 30 44 48 44 35 45 34 33 41
9 43 45 50 34 33 39 41 39 46 31
10 40 52 44 39 35 45 33 42 42 36
11 44 51 45 39 34 44 40 37 43 32
12 33 42 40 35 37 43 48 48 50 32
13 40 48 45 43 36 36 42 40 37 30
14 44 50 46 39 41 48 44 42 36 51
15 44 50 47 37 33 34 42 43 43 47
16 33 48 38 42 45 32 34 44 39 45
17 48 26 31 34 38 36 46 49 40 48
Построить статистический ряд
Первым этапом статистического изучения вариации является построение ряда распределения (или вариационного ряда) - упорядоченного распределения единиц совокупности по возрастающим (чаще) или по убывающим (реже) значениям признака и подсчет числа единиц с тем или иным значением признака.
Гистограмма - интервальный ряд, изображаемый столбиковой диаграммой, в которой основания столбиков, расположенные по оси абсцисс (x), являются интервалами значений варьирующего признака; а высоты столбиков - это частоты, соответствующие масштабу по оси ординат (y).
Соответственно, дискретный ряд надо преобразовать в интервальный. Для этого воспользуемся формулой Стерджесса, чтобы определить число групп: k = 1 3,322 ? LGN где k - число групп, округляемое до ближайшего целого числа, а N - численность совокупности. k = 1 3,322 ? lg150 = 1 3,322 ? 2,176 = 8,229 ? 8
Можно было воспользоваться готовой таблицей оптимальных соотношений числа единиц статистической совокупности и числа групп. Значения вычислены по той же формуле Стерджесса: Таблица 3
N 15-24 25-44 44-89 90-179 180-359 360-719 k 5 6 7 8 9 10
Зная число групп, рассчитаем длину (размах) интервала по формуле:
где Xmax и Xmin - максимальное и минимальное значения в совокупности.
По правилу записи числа шага интервала: «если величина интервала, рассчитанная по формуле, представляет собой величину, которая имеет один знак до запятой (например, 0,88; 1,585; 4,71), то в этом случае полученные значения целесообразно округлить до десятых и их использовать в качестве шага интервала».
Теперь построим интервальный ряд, состоящий из 8 групп с интервалом 3,3.
На основании данных Таблица 4 построим гистограмму: Рисунок 1
Для построения кумуляты значения варьирующего признака откладываются по оси абсцисс (x), а на оси ординат (y) помещаются накопленные итоги частот или частостей (от f1 до ?f).
Составим кумулятивный вариационный ряд, по которому и построим кумуляту.
Найдем среднюю величину. При использовании интервального ряда, допускаем, что распределение в границах i-го интервала является равномерным и как вариант Xi, используем середину интервала (X?).
Определим среднее квадратическое отклонение.
Определим нормированное отклонение t для каждого варианта (Таблица 6 графа 4).
По таблице распределения функции ?(t) определим ее значения (Таблица 6 графа 5).
Определим теоретические частоты f? по формуле:
где k - длина интервала.
В нашем случае, при одинаковых интервалах:
3,3 ? 150 / 5,539 ? 89,366. Полученное значение (const) умножим на величину ?(t) при данном t и получим искомую теоретическую частоту (Таблица 6 графа 6).
В графах 7 и 8 произведем вспомогательные расчеты.
В задании было поставлено условие: «при проверке гипотезы о нормальном распределении принять уровень значимости ? = 0,05».
Уровень значимости ? - это вероятность ошибочного отклонения выдвинутой гипотезы. Тогда, по условию, статистическая достоверность принятия правильной гипотезы P = 0,95.
Число степеней свободы ? определяется по формуле: ? = k - z - 1, где k - число интервалов;
z - число параметров, задающих теоретический закон распределения.
Для нормального распределения z = 2, так как нормальное распределение зависит от двух параметров - средней арифметической ( ) и среднего квадратического отклонения (?).
В рассматриваемом примере ряд имеет 8 групп вариантов, следовательно, и 8 групп частот. Поэтому число степеней свободы (при выравнивании по кривой нормального распределения) будет равно ? = 8 - 2 - 1=5.
По таблице значение ?2-критерия Пирсона для степеней свободы ? = 5 и уровня значимости a = 0,05 определяем, что ?2табл =11,07. Так как полученное в ходе расчетов фактическое значение ?2рас = 6,457, меньше табличного, можно считать с вероятностью 0,95 случайными расхождения между эмпирическими и теоретическими частотами. Выдвинутая гипотеза о близости эмпирического распределения к нормальному не опровергается.
Исследовать вариацию признака X, найдя для этого числовые характеристики (выборочное среднее, среднее квадратическое отклонение, коэффициент линейной вариации, асимметрию и эксцесс)
Расчеты будут производится по данным Таблица 2 на 5стр.
Выборочной средней величиной называют среднее взвешенное арифметическое значение признака совокупности. Эта величина характеризует типичный уровень признака для данного ряда:
где m - число групп.
Среднее квадратическое отклонение показывает на сколько в среднем отклоняются конкретные варианты признака от его среднего значения:
Коэффициент линейной вариации определяет однородность совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33% (для распределений, близких к нормальному) при отсутствии других нормативов:
для этого вычислим среднее линейное отклонение:
Отсюда также видно, что среднее квадратическое отклонение по величине больше среднего модуля отклонений. Разница между ними тем больше, чем больше в изучаемой совокупности резких, выделяющихся отклонений. Для закона нормального распределения отношение . В нашем примере: .
Для дальнейшего изучения характера вариации используются средние значения разных степеней отклонений отдельных величин признака от его средней арифметической величины. Эти показатели называются центральные моменты распределения определенного порядка. Порядок соответствует степени, в которую возводятся отклонения.
Симметричным называется распределение, в котором частоты любых двух вариантов, равноотстоящих в обе стороны от центра распределения, равны между собой.
Асимметрия:
Для этого вычислим величину центрального момента третьего порядка:
Асимметрия имеет отрицательное значение, соответственно в ряду распределения преобладают варианты, которые меньше, чем средняя, то есть ряд отрицательно асимметричен. Графически же, более длинная ветвь графика расположена слева от вершины (левосторонняя скошенность). Асимметрия незначительна, так как 0,014<0,25.
Эксцесс. При оценке крутизны (заостренности) в качестве эталонного выбирается нормальное распределение, которое сравнивается с фактическим и вычисляется показатель эксцесса распределения:
Для этого вычислим величину центрального момента четвертого порядка:
Ex < 0, значит, полученный график будет ниже графика нормального распределения (низковершинное распределение).
По значениям показателей асимметрии и эксцесса распределения можно судить о близости распределения к нормальному. Показатели асимметрии и эксцесса не должны превышать своих двукратных средних квадратических отклонений, то есть и . Эти средние квадратические отклонения вычисляются по формулам:
Получается:
Показатель асимметрии не превышает своего двукратного среднего квадратического отклонения (As = |- 0,07| < 0,198?2). То же и с показателем эксцесса Ex = |- 0,778| < 0,788 (0,394?2). Поэтому можно говорить, что анализируемое распределение схоже с нормальным.
Список использованных источников
1. Практикум по теории статистики: Учеб. пособие/Р.А. Шмойлова, В.Г. Минашкин, Н.А. Садовникова; Под ред. Р.А. Шмойловой. - 2-е изд., перераб. и доп. - М.: Финансы и статистика, 2006.-416 с: ил.