Критерий согласия для распределения Парето - Курсовая работа

бесплатно 0
4.5 80
График функции плотности распределения Парето. Алгоритм обработки выборки. Построение гистограммы относительных частот. Программа для автоматизации обработки, в которую заложены алгоритмы обработки выборки и возможность быстрого получения результата.


Аннотация к работе
Выборка подвергается обработке и выдвигается предположение о распределении, которому подчиняется выборка. Так как все предположения о характере того или иного распределения - это гипотезы, то они должны быть подвергнуты статистической проверке с помощью критериев согласия, которые дают возможность установить, когда расхождения между теоретическими и эмпирическими частотами следует признать несущественными, т.е. случайными, а когда - существенными (неслучайными). График функции распределения приведен на рисунке 1. Если гипотеза верна, то при n>? распределение выборочной статистики, независимо от вида функции F(x), стремится к распределению ?2 с v= k-r-1 степенями свободы (k - число частичных интервалов, r - число параметров гипотетической функции F(x), оцениваемых по данной выборке). Для автоматизации обработки выборки была разработана программа Pareto_distribution.exe, в которую заложены алгоритмы обработки выборки и возможность быстрого получения результата.Критерий согласия Пирсона является очень удобным инструментом для определения, относится ли случайная выборка к тому или иному распределению.begin While K<X do begin for R:= 1 to Y do //begin // Quit Excel if not VARISEMPTY(XLAPP) then begin begin n:=Form1.

Введение
В математической статистике значимость исследования выборки очень существенна. Выборка подвергается обработке и выдвигается предположение о распределении, которому подчиняется выборка.

Так как все предположения о характере того или иного распределения - это гипотезы, то они должны быть подвергнуты статистической проверке с помощью критериев согласия, которые дают возможность установить, когда расхождения между теоретическими и эмпирическими частотами следует признать несущественными, т.е. случайными, а когда - существенными (неслучайными). Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду.

1. Теоретическая часть

1.1 Распределение Парето

Распределение Парето - это двухпараметрическое семейство абсолютно непрерывных распределений.

Функция распределения F(x) имеет вид (1.1).

, (1.1) где ?, x0 - параметры распределения, x > x0 > 0, ? > 0.

Функция плотности распределения f(x) имеет вид (1.2).

(1.2)

График функции распределения приведен на рисунке 1. График функции плотности распределения приведен на рисунке 2.

Рисунок 1 - График функции распределения

Рисунок 1 - График функции плотности распределения

1.2 Критерий согласия ?2

Предположим, что по виду гистограммы или полигона частот или из каких-либо других соображений удается выдвинуть гипотезу о множестве функций определенного вида (нормальных, показательных, биномиальных и т.п.), к которому может принадлежать функция распределения исследуемой случайной величины X. Критерий ?2 Пирсона (критерий согласия ?2) позволяет производить проверку согласия эмпирической функции распределения F*(x) с гипотетической функцией распределения F(x).

Для этого придерживаются следующей последовательности действий: 1) Диапазон изменения экспериментальных данных разбивается на k интервалов;

2) На основании гипотетической функции F(x) вычисляют вероятность попадания с.в. X в частичные интервалы [xi-1, xi] по формуле (1.3);

pi = P(xi-1 ? X ? xi), i=1,2., k (1.3)

3) Умножая полученные вероятности pi на объем выборки n, получают теоретические частоты npi частичных интервалов [xi-1, xi], т.е. частоты, которые следует ожидать, если гипотеза справедлива;

4) Вычисляю выборочную статистику (критерий) ?2 по формуле (1.4).

, (1.4) где mi - количество значений с.в., попавших в i-й интервал;

n - объем выборки.

Если гипотеза верна, то при n>? распределение выборочной статистики, независимо от вида функции F(x), стремится к распределению ?2 с v= k-r-1 степенями свободы (k - число частичных интервалов, r - число параметров гипотетической функции F(x), оцениваемых по данной выборке).

Критерий ?2 сконструирован таким образом, что чем ближе к нулю наблюдаемое значение критерия ?2, тем вероятнее, что гипотеза справедлива. Поэтому для проведения гипотезы применяется критерий ?2 с правосторонней критической областью. Необходимо найти по таблице квантилей ?2-распределения по заданному уровню значимости ? и числу степеней свободы v критическое значение ?2?,v, удовлетворяющее условию p(?2 ? ?2?,v) = ?.

Если ?2набл. ? ?2?,v, то считается, что гипотетическая функция F(x) не согласуется с результатами эксперимента. Если ?2набл. ? ?2?,v, то считается, что гипотетическая функция F(x) согласуется с результатами эксперимента.

1.3 Алгоритм обработки выборки

1) Сортируем выборку по возрастанию (преобразуем в вариационный ряд)

2) Находим минимальный xmin и максимальный xmax элемент выборки

3) Находим длину интервалов группировки h по формуле (1.5)

, (1.5) где k - число интервалов группировки.

4) Находим левые xl и правые xr границы интервалов группировки по формулам (1.6)

(1.6)

5) Находим центры xk* интервалов группировки по формуле (1.7)

(1.7)

6) Для каждого интервала группировки (xk-1, xk) находим число nk* (абсолютная частота) элементов выборки, попавших в этот интервал. Важно чтобы каждый элемент выборки был отнесен к одному и только к одному интервалу, а если значение элемента попадает на границу интервала, то его относят к интервалу с младшим номером. Минимальный элемент всегда относится к первому интервалу, максимальный к последнему.

7) Вычисляем относительные частоты Otnk* по формуле (1.8) как отношение абсолютной частоты к объему выборки. Убеждаемся, что сумма всех относительных частот равна единице (допускается небольшое отличие от единицы в рамках погрешности вычислений).

(1.8)

8) Строим гистограмму относительных частот - фигуру, состоящую из k прямоугольников, опирающихся на интервалы группировки. Площадь k-го прямоугольника полагают равной относительной частоте данного интервала. Высота k-го прямоугольника Hk рассчитывается по формуле (1.9).

(1.9)

Убеждаемся, что сумма всех высот Hk, умноженная на h, равна единице (допускается небольшое отличие от единицы в рамках погрешности вычислений). На оси абсцисс выбираем начальную точку чуть левее точки xmin, и такой масштаб, чтобы на оси поместился интервал [xmin, xmax] и отчетливо различались точки xl, xr. На оси ординат выбираем начало отсчета в точке 0 и такой масштаб, чтобы отчетливо различались Hk. Для построения гистограммы относительных частот на ось абсцисс наносим интервалы [xl, xr] и, используя каждый из них как основание, строим прямоугольник с соответствующей высотой Hk. Получаем гистограмму.

9) Вычисляем параметры распределения Парето ? и x0. Для этого используем систему (1.10).

, (1.10) где , , , .

Получается система (1.11):

(1.11)

Решая систему уравнений, находим параметры ? и x0. При этом должны выполняться условия ? > 0. Параметры распределения вычисляются по формулам (1.12).

(1.12)

10) Строим график функции плотности распределения f(x) с вычисленными параметрами распределения ? и x0, где x - это значения центров интервалов xk*.

11) Проверяем выборку на соответствие распределению Парето по критерию согласия ?2 по формуле (1.4), где mi = nk*, n - объем выборки, pi = F(xr) - F(xl), или по формуле интеграла (pi = x0?((xl)-? - (xr)-?). При этом минимальное значение по левой границе равно значению больше нуля, а максимальное значение по правой границе - бесконечность ?, а также должны выполняться условия функции распределения. Хи-квадрат крит. ?2?,v = ?2крит. находится по таблице, где v = 3, ? - выбирается из таблицы.

2. Практическая часть

Для автоматизации обработки выборки была разработана программа Pareto_distribution.exe, в которую заложены алгоритмы обработки выборки и возможность быстрого получения результата. Вид программы представлен на рисунке 3. парето распределение программа выборка

Рисунок 3 - Программа Pareto_distribution.exe

В программе заложена возможность ввода либо неупорядоченной выборки, либо статистического ряда. Для неупорядоченной выборки возможен импорт из внешнего файла с расширением *.xml и *.txt. Также пользователь может сам вводить выборку.

Для разбиения выборки на интервалы заложено определенное число интервалов, на которые можно разбить выборку. Это число интервалов соответствует числу интервалов из таблицы ?2крит.

Для контроля правильности обработки выборки и лучшего понимания самого процесса обработки представлена таблица, в которой отображаются все вычисляемые данные, заложенные в постановке задачи.

Под таблицей находится область, в которой отображаются вычисленные параметры распределения Парето полученной выборки.

Для визуального анализа представлен график, на котором отображаются гистограмма относительных частот и функция плотности распределения с вычисленными параметрами. Это уже позволяет сделать вывод о соответствии исходной выборки распределению Парето.

Под графиком находится область, отображающая значения ?2крит и ?2теор. Здесь уже делается окончательный вывод на соответствие исходной выборки распределению Парето.

Для импорта выборки из файла существуют некоторые правила: 1) Для текстовых файлов: - выборка в поле записывается в один столбик, начиная каждое значение с новой строки;

- в импортируемом файле выборка должна быть записана в один столбик, каждое значение с новой строки. В файле не должно присутствовать лишних значений и заголовков. Пример файла с выборкой представлен на рисунке 4.

Рисунок 4 - Импорт текстового файла

2) Для файлов формата *.xls (MS Excel): - для неупорядоченного случая: выборка должна быть записана в столбик, каждое значение с новой строки. Предполагается, что первая строка - заголовок столбца. Пример файла с выборкой представлен на рисунке 5;

- для статистического ряда: выборка представляет собой два столбика, в первый из которых записано значение выборки, а во второй записана частота этого значения. Предполагается, что первая строка - заголовок столбца. Пример статистического ряда представлен на рисунке 5.

Рисунок 5 - Импорт из Excel

При импорте или вводе выборке необходимо, чтобы в таблице в программе не было пустых или не заполненных строк. Если такие строки остаются, необходимо встать на необходимую ячейку и нажать кнопку «Удалить». Пример правильно заполнения таблицы приведен на рисунке 6.

Рисунок 6 - Правильный ввод выборки

2.1 Пример 1

Дана выборка, записанная в файле формата *.txt. Сделать выводы по соответствию данной выборке распределению Парето, используя различные интервалы разбиения и уровень значимости ?.

В программе переходим на вкладку «Неупорядоченная выборка (*.txt)» и нажимаем кнопку «Импорт». Появляется окошко, представленное на рисунке 7.

Рисунок 7 - Окно импорта

Выбираем нужный файл и щелкаем кнопку «Open». Выборка, записанная в файле, отобразится в окошечке программы, как показано на рисунке 8.

Рисунок 8 - Выборка из файла

После этого с помощью движка выбираем количество интервалов, на которое хотим разбить выборку. Пусть k=10. После этого нажимаем кнопку «Разбить». В таблице отобразятся данные, полученные при разбивке выборки. Полученный результат показан на рисунке 9. С помощью полосы прокрутки можно посмотреть всю таблицу. Для контроля правильности обработки выборки в программу внедрен специальный блок.

Рисунок 9 - Данные разбивки

Для изменения уровня значимости ? щелкаем на нужное значение один раз. Выбираем, например первое значение.

Получившиеся гистограмма относительных частот и график функции плотности распределения представлены на рисунке 10.

При данных значениях разбивки делаем вывод, что данная выборка согласуется с распределением Парето, т.е. выполнены условия критерия согласия Пирсона. Вывод указан на рисунке 11.

Для того, чтобы сохранить полученные данные обработки выборки, в программе находится кнопка «Сохранить». При ее нажатии, все полученные данные сохранятся в формате *.xml. Сохраненный файл представлен на рисунке 12.

Рисунок 10 - График

Рисунок 11 - Вывод

Рисунок 12 - Экспорт в Excel

2.2 Пример 2

Дана выборка в виде статистического ряда. Нужно произвести произвольное разбиение выборки и посмотреть, при какой значении k выборка подчиняется распределению Парето.

В программе переходим на вкладку «Статистический ряд» и нажимаем кнопку «Импорт». Появляется диалоговое окно, с помощью которого открываем файл с готовой выборкой. Нажимаем кнопку «Open».

Рисунок 13 - Статистический ряд

После этого переходим к разбиению выборки: 1) Пусть k=10. Тогда получим данные, приведенные на рисунке 14. По гистограмме относительных частот видно, что выборка не подчиняется распределению Парето. Имеем ?2крит. > ?2теор., следовательно, не выполнено условие Пирсона;

Рисунок 14 - Итоги обработки

2) Пусть k=6. Имеем ?2крит. < ?2теор., следовательно, условие Пирсона выполнено; а значит, выборка при таком разбиении подчиняется закону распределения Парето.

Вывод
Критерий согласия Пирсона является очень удобным инструментом для определения, относится ли случайная выборка к тому или иному распределению.

Одна и та же выборка может принимать то или иное распределение. Это зависит от числа интервалов, на которое делится выборка, а также от выбранного уровня значимости ?.
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?