Два основных подхода, применяемых в статистике: метод сплошных наблюдений (описательная статистика) и выборочный метод. Кумулятивная кривая, гистограмма и полигон для интервального ряда. Эмпирическая функция распределения, ее построение и расчет.
Аннотация к работе
Задачи математической статистики состоят в том, чтобы на основании знания некоторых свойств подмножества элементов, взятых из некоторого множества, сделать какие-нибудь утверждения о свойствах этого множества, называемого генеральной совокупностью. В генеральной совокупности нас обычно интересует некоторый признак, который обусловлен случайностью и может иметь качественный или количественный характер. В обоих случаях с деталью признак можем рассматривать как случайную величину X: в первом случае - непрерывную, во втором - как дискретную (условившись, что нестандартность детали означает (Х=0), а стандартность (Х=1)). Как видим, отличие метода сплошных наблюдений от выборочного метода в том, что при первом методе принимаются во внимание все имеющиеся в наличии элементы (объекты, единицы) совокупности, а при втором - выводы о свойствах всей генеральной совокупности делаются на основе анализа взятой из нее случайным образом части-выборки. В количественном случае Х есть сам признак, для качественного же признака, например типа «хороший-плохой», Х можно определить так Под случайной выборкой объема n понимается выбор n объектов из генеральной совокупности, причем выбор отдельных объектов производится независимо один от другого.Пусть имеется выборка (x1, … , xn) - так называемая таблица наблюденных значений - из генеральной совокупности с признаком Х. Пусть распределение Х неизвестно Для того чтобы получить первое представление об этом распределении в случав количественного признака, составляют так называемую гистограмму.
Введение
Задачи математической статистики состоят в том, чтобы на основании знания некоторых свойств подмножества элементов, взятых из некоторого множества, сделать какие-нибудь утверждения о свойствах этого множества, называемого генеральной совокупностью. В генеральной совокупности нас обычно интересует некоторый признак, который обусловлен случайностью и может иметь качественный или количественный характер.
1. Генеральная совокупность, выборка
Пусть требуется изучить совокупность однотипных объектов (людей, деталей, машин, заболеваний и пр.) относительно некоторого признака, количественного или качественного. Скажем, если объекты - это детали, то количественным признаком может быть контролируемый размер детали, а качественным - ее стандартность. В обоих случаях с деталью признак можем рассматривать как случайную величину X: в первом случае - непрерывную, во втором - как дискретную (условившись, что нестандартность детали означает (Х=0), а стандартность (Х=1)).
Все интересующее нас множество объектов (а также совокупность значений признака, присущего объектам) принято называть генеральной совокупностью. Так, при изучении роста призывников в армию в 1996 году мы вправе сказать: генеральная совокупность состоит из N чисел х1 , X2....,XN, где N - число всех призывников в России в 1996 году, X1 - рост конкретного призывника.
В статистике применяют два основных подхода: метод сплошных наблюдений (описательная статистика) и выборочный метод. Метод сплошных наблюдений предполагает измерение всех элементов генеральной совокупности. Он желателен, если мы изучаем успеваемость студентов в какой-то группе или на каком-то факультете, но едва ли оправдан изза трудностей сбора и обработки данных в примере с ростом новобранцев всей страны. Если же мы хотим знать качество консервов через месяц, через год и через 3 года после их изготовления, то сплошное обследование консервов, очевидно, трижды провести не удастся, но, главное, оставит нас без консервов.
Выборочный метод основан на том, что из всей обследуемой совокупности, называемой генеральной, случайно отбирают часть элементов. Эту выбранную совокупность элементов называют выборкой и задают в виде х1, Х2....,xn, где n - число выбранных элементов (объем выборки), x1 - значение исследуемого признака у первого элемента, х2 - значение признака у второго элемента и т.д.
Как видим, отличие метода сплошных наблюдений от выборочного метода в том, что при первом методе принимаются во внимание все имеющиеся в наличии элементы (объекты, единицы) совокупности, а при втором - выводы о свойствах всей генеральной совокупности делаются на основе анализа взятой из нее случайным образом части -выборки. Это существенно экономит время, силы и средства.
В ряде случаев генеральную совокупность большого объема мыслят как бесконечную, понимая под ней не только массу уже имеющихся элементов, но и совокупность тех, какие появятся в будущем. Эта абстракция упрощает вычисления и позволяет сделать прогноз на будущее.
Случайный выбор элемента рассматривается как независимое наблюдение над случайной величиной X, распределенной так, как распределен признак в генеральной совокупности.
Те значения x1 , х2...,xn, какие признак Х принял в n наблюдениях, называются реализациями случайной величины X.
Они образуют конкретную выборку (х1 , x2,...,xn), на основании которой исследователь строит выводы о генеральной совокупности.
Выборочный метод широко применяется как в технике, так и в общественных и коммерческих исследованиях. В промышленности, торговле и обслуживании пользуются выборочным методом, чтобы повысить результативность работы предприятий. Опросы общественного мнения, финансовый контроль, контроль качества продукции - также сфера приложения этого метода.
Выборка называется представительной (репрезентативной), если она достаточно хорошо представляет пропорции генеральной совокупности. Репрезентативность выборки обычно достигается случайностью выбора, когда каждому элементу обеспечивается равная со всеми остальными элементами вероятность попасть в выборку.
Рассмотрим пример. Автомат производит валы. Множество всех валов, произведенных при определенных, остающихся неизменными производственных условию, образует генеральную совокупность. Если интересующим признаком является, например, диаметр, то этот признак имеет количественный характер
Рассмотрим другой пример. Поточная линия производит охотничьи патроны. Множество всех патронов, произведенных при некоторых остающихся неизменными условия, составляет генеральную совокупность. Если нас интересует способность патрона функционировать или отказывать, то это качественный признак.
Интересующий нас параметр некоторой генеральной совокупности может быть представлен в математической модели некоторой случайной величиной. В количественном случае Х есть сам признак, для качественного же признака, например типа «хороший-плохой», Х можно определить так
Под случайной выборкой объема n понимается выбор n объектов из генеральной совокупности, причем выбор отдельных объектов производится независимо один от другого. Результатом случайной выборки объема n является совокупность (x1,… , xn) значений признака.
Продолжим пример. Совокупность (0, 0, 0, 1, 0, 0, 0, 0, 0, 0) является выборкой объема 10 из партии патронов. Таким образом, здесь девять хороших и один плохой патрон.
Тот факт, что можно сделать много выборок объема n и получить различные совокупности значений признака, ведет к следующему абстрактному определению понятия выборки.
Пусть имеется генеральная совокупность, в которой признак Х имеет распределение F(x). Тогда n-мерный случайный вектор (X1, … Xn), в котором величины Xi независимы друг от друга и все имеют распределение F(x), называется математической выборкой объема n. Каждая реализация (x1,… , xn) случайного вектора (X1, … , Xn) есть выборка/
В случае, если это не вызывает недоразумений, прилагательное «математическая» опускается.
2. Гистограмма. Интервальный ряд. Функция распределения
При большом числе наблюдений над непрерывной случайной величиной Х прибегают к группировке данных: ось х разбивают на 10-15 интервалов I1, I2, …, Ik. Пусть mj - число наблюдений, попавших в интервале Ij (рис.1) .
Длины интервалов не обязательно одинаковы.
Рис.1.
По сгруппированным данным выборочное распределение выражают разными графиками, в первую очередь это: 1) кумулятивная кривая распределения (или график накопленной частоты) - аппроксимация эмпирической функции распределения F;
2) гистограмма;
3) полигон.
Строятся они так.
Кумулятивная кривая. Взяв на оси ОХ точку aj - правый конец интервала Ij , j = 1,2,..., к - отложим в ней по оси ординат накопленную частоту (m1 m2 … mj)/n.
Построенные точки плоскости соединим последовательно прямолинейными отрезками. В точках aj разбиения кумулятивная кривая совпадает с эмпирической функцией распределения F(aj), а между этими точками меняется линейно.
Гистограмма. На каждом интервале ,Ij оси абсцисс строим прямоугольник с высотой hj = mj/n, обеспечивающей площадь прямоугольника, равную частоте mj/n (здесь Ij =aj-aj-1) - длина интервала Ij). Вся площадь под графиком гистограммы равна 1. Другой вариант гистограммы получим, если высоту hj берем равной mj а все длины Ij одинаковы.
Полигон. В середине каждого интервала Ji разбиения строим ординату, равную mj/n - частоте попадания наблюдений в этот интервал . Соединяем полученные точки прямолинейными отрезками.
Другой вариант полигона получим, соединяя отрезками середины верхних сторон прямоугольников, образующих гистограмму.
Гистограмма и полигон являются эмпирическими аналогами плотности вероятности. Если п увеличивать, а длины Ij интервалов уменьшать, то гистограмма и полигон неограниченно приближаются к кривой плотности вероятности случайной величины.
Пример. Построить три указанные кривые по сгруппированным данным, представленным в таблице 1 частот, n = 200.
На рисунках 2 и 3 представлены кумулятивная кривая, гистограмма и полигон для вышеприведенного интервального ряда.
Рис.2
Рис.3
Рассмотрим пример. Из текущей продукции автомата была сделана выборка в 350 валиков. Признаком Х является отклонение диаметра валика от номинального размера. Табл. 2 дает соответствующее статистическое распределение - интервальный ряд распределения.
Таблица 2
Интервальный рад (статистическое распределение отклонений от номинала 350 валиков из продукции автомата) i Di , мм mi mi /n
1 от -0,230 до -0,210 3 0,009
2 от -0,210 до -0,190 8 0,023
3 от -0,190 до -0,170 19 0,054
4 от -0,170 до -0.150 37 0,106
5 от -0,150 до -0.130 53 0,151
6 от -0,130 до -0,110 60 0,171
7 от -0,110 до -0,090 64 0,183
8 от -0,090 до -0,070 49 0,140
9 от -0,070 до -0,050 31 0,088
10 от -0,050 до -0,030 17 0,049
11 от -0,030 до -0,010 7 0,020
12 от -0,010 до 0,010 2 0,006
Всего 350 1,000
На рис. 4 показана соответствующая гистограмма.
Рис 4. Гистограмма
Удобным способом получить представление о распределении X, приемлемом и при качественных признаках, является построение эмпирической функции распределения. Для данного действительного числа х подсчитывается число выборочных значений, меньше х. Обозначим это число через генеральный совокупность выборка гистограмма ческой функцией распределения выборки (x1,… , xn). Она является ступенчатой функцией.
Пусть при откармливании 10 животных зарегистрированы следующие прибавки в массе (в килограммах): 2,0; 2,8; 2,3; 3,4; 2,9; 2,8; 3,0; 3,2; 3,0; 2,8. На рис. 5. изображена соответствующая эмпирическая функция распределения.
Рис. 5. Эмпирическая функция распределения
Функция Fn{x) может рассматриваться как приближение истинного распределения F(x) генеральной совокупности. Примем обозначение
Для любых непрерывных функций распределения выполняется соотношение
Отсюда вытекает, что при n®? почти наверное Dn. сходятся к 0; другими словами, при n®? последовательность Fn(x) эмпирических функций распределения почти наверное равномерно сходится к функции распределения F (х) признака Х в генеральной совокупности.
Вывод
Пусть имеется выборка (x1, … , xn) - так называемая таблица наблюденных значений - из генеральной совокупности с признаком Х. Пусть распределение Х неизвестно Для того чтобы получить первое представление об этом распределении в случав количественного признака, составляют так называемую гистограмму. Для этого производят разбиение действительной оси на конечное число граничащих друг с другом промежутков D1, … , Dk. Затем, подсчитывают число mi, выборочных значений, лежащих в интервале Di (1 < i < k). Эти числа mi называются групповыми частотами. Над Di рисуют прямоугольник высоты mi/n (относительные частоты попадания в интервалы). Возникающий таким образом ступенчатый график называется гистограммой выборки.
Список литературы
Вайнберг Дж., Шунекер Дж. Статистика. М., 1979.
Гмурман В.Е. Теория вероятностей и математическая статистика . М., 1988.
Колемаев В.А. и др. Теория вероятностей и математическая статистика. М., 1991.
Теория статистики / Под ред. Р.А.Шмойловой. М., 1996.
Хан Г., Шапиро С. Статистические модели в инженерных задачах. М., 1969.
Эренберг А. Анализ и интерпретация статистических данных. М., 1981.