Критерии значимости и проверка гипотез - Контрольная работа

бесплатно 0
4.5 72
Рассмотрение и анализ основных групп статистических методов, которые получили наибольшее распространение в статистических исследованиях. Определение особенностей нулевой гипотезы и альтернативы. Характеристика односторонних и двусторонних критериев.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
Статистической гипотезой (или просто гипотезой) называется утверждение о распределении генеральной совокупности, соответствующее некоторым представлениям об изучаемом явлении. Такая гипотеза называется нулевой гипотезой, или нуль-гипотезой. Затем получают выборку или несколько выборок, и если выборочные данные не противоречат нулевой гипотезе, т. е. различие можно объяснить только случайностью выборки, то нулевая гипотеза сохраняется (принимается). Ошибки, допускаемые при проверке гипотез, удобно разделить на два типа: 1) отклонение гипотезы Н0, когда она верна, - ошибка первого рода; 2) принятие гипотезы Н0, когда в действительности верна какая-то другая гипотеза, - ошибка второго рода. Следует особо подчеркнуть, что любая гипотеза должна формулироваться, а уровень значимости а задаваться исследователем, всегда до получения экспериментальных данных, по которым эта гипотеза будет проверяться.

Введение
Рассматривается группа статистических методов, которые получили наибольшее распространение в статистических исследованиях, связанных с правоведением. Эти методы применяются всегда, когда предстоит проверить какие-то теоретические предположения, связанные с эффективностью мероприятий, направленных на совершенствование какого-либо процесса. Исследователь выдвигает предположения исходя из анализа конкретного явления с позиций педагогики, физиологии, медицины, психологии или другой области знаний, представителем которой он является. Затем справедливость предположений проверяется на основании данных соответствующего эксперимента, условия которого контролируются.

1. Нулевая гипотеза (нуль-гипотеза) и альтернатива (альтернативная гипотеза)

Статистической гипотезой (или просто гипотезой) называется утверждение о распределении генеральной совокупности, соответствующее некоторым представлениям об изучаемом явлении. В частном случае это может быть утверждение о значениях параметров (s и a) нормально распределенной генеральной совокупности.

Предположим, что в эксперименте участвуют две группы заключенных. Одна из них (контрольная) содержится и перевоспитывается по традиционной программе, а для второй (экспериментальная) используется новые методы. Действенность нового комплекса оценивается по различию уровня агрессивности, показанных в этих группах после определенного срока. По полученным данным необходимо проверить следующие утверждения: 1. Среднее значение уровня агрессивности не изменилось, т. е.

.

Здесь и - средние значения соответствующих генеральных совокупностей (уровни агрессивности всех аналогичных заключенных, которые могли бы перевоспитывается по традиционной ( ) и новой ( ) программам).

2. Вариативность агрессивности возросла: > .

Здесь и - так же, как и в п. 1, значения соответствующих генеральных параметров.

3. Средняя агрессивность возросла на 3 единицы:

Это три различные статистические гипотезы. Конечно, возможные утверждения не ограничиваются приведенным списком. Гипотезы предстоит проверить с помощью какого-то метода - критерия.

Статистические гипотезы обычно рассматривают, генеральные совокупности, одна из которых может представлять собой теоретическую модель (например, нормальное распределение), а о второй судят по выборке из нее. В других случаях обе генеральные совокупности представлены выборками.

При проверке статистических гипотез принят следующий подход. Считается, что получение в результате эксперимента любых новых данных об изучаемом явлении, не согласующихся с данными, имеющимися до проведения эксперимента, - маловероятное событие. В то же время, если взять две выборки, представляющие собой результаты измерения одного и того же признака, и сравнить между собой их характеристики (среднее арифметическое, стандартное отклонение и др.), то окажется, что они практически всегда различаются. Это различие можно рассматривать как обусловленное только действием случайностей. Поэтому первоначально гипотезу всегда можно сформулировать таким образом: между двумя генеральными совокупностями нет ожидаемого различия.

Такая гипотеза называется нулевой гипотезой, или нуль-гипотезой. Обратное ей утверждение о том, что в действительности между генеральными совокупностями есть различие, называется альтернативной гипотезой, или альтернативой.

Нулевую гипотезу принято обозначать, как Н0, а альтернативную - Н1.

Итак, вначале выдвигается нулевая гипотеза о том, что различие между генеральными совокупностями равно нулю. Затем получают выборку или несколько выборок, и если выборочные данные не противоречат нулевой гипотезе, т. е. различие можно объяснить только случайностью выборки, то нулевая гипотеза сохраняется (принимается). Если же полученные результаты не удается объяснить только действием случайных факторов, то нулевая гипотеза отвергается, а принимается альтернативная гипотеза.

Пусть, например, оценивается эффективность нового метода перевоспитания для заключенных по среднему значению агрессивности в контрольной и экспериментальной группах. Тогда нулевую гипотезу Н0 можно сформулировать так: среднее значение результатов не изменилось, т.е. . Для краткости это записывается так: Н0: .

Если заранее нельзя сказать, к чему приведет новый метод - к увеличению или уменьшению агрессивности, то альтернативная гипотеза Н1 будет состоять в том, что средние значения генеральных совокупностей неодинаковы: Н1: .

2. Ошибки при проверке гипотез

Ошибки, допускаемые при проверке гипотез, удобно разделить на два типа: 1) отклонение гипотезы Н0, когда она верна, - ошибка первого рода; 2) принятие гипотезы Н0, когда в действительности верна какая-то другая гипотеза, - ошибка второго рода.

Вероятность ошибки первого рода обозначается . Величина называется уровнем значимости критерия, по которому проверяется справедливость гипотезы Н0.

Вероятность ошибки второго рода обозначается . Ее величина зависит от альтернативной гипотезы Н1 Рассмотрим для приведенного выше примера следующие две ситуации: 1) в действительности средняя агрессивность возросла на 3 единицы, 2) средняя агрессивность увеличилась на 30 единиц. Ясно, что для одних и тех же условий эксперимента и одинакового уровня значимости вероятность ошибки второго рода (принять гипотезу об отсутствии различия) для второй из альтернатив будет меньше.

Вероятности и удобно представить, как это сделано в табл. 1.

Таблица 1 Ошибки при проверке гипотез

Решение

Принять Н0 Принять Н1

Справедлива Н0 Правильное с вероятностью 1 - Ошибочное с вероятностью а Справедлива Н1 Ошибочное с вероятностью Правильное с вероятностью

Наглядным способом интерпретации ошибок является их графическое представление.

Предположим, что проверяется гипотеза Н0: о равенстве среднего значения генеральной совокупности заданной величине (известной, например, из предыдущих экспериментов).

Для этого берется выборка объема n, находится ее среднее арифметическое и по его величине судят о справедливости гипотезы Н0.

Распределение среднего арифметического при условии, что верна гипотеза Н0, будет . Это распределение чисто качественно представлено на рис. 1.

Распределение среднего арифметического при условии, что верна альтернативная гипотеза Н1: , буде уже другим - .

Будем считать, что гипотеза Н0 отвергается, если выборочное среднее арифметическое окажется больше некоторого значения Ккритич, т. е. , как показано на рис. 1.

Рис. 1. Ошибки первого и второго рода

Область непринятия гипотезы Н0 называется критической областью критерия. Она показана па рис. 1 наклонной штриховкой. Уровень значимости a будет соответствовать площади критической области.

Вероятность ошибки второго рода будет равна площади под кривой распределения , показанной на рис. 1. вертикальной штриховкой.

Величина называется мощностью критерия.

Следует особо подчеркнуть, что любая гипотеза должна формулироваться, а уровень значимости а задаваться исследователем, всегда до получения экспериментальных данных, по которым эта гипотеза будет проверяться.

При выборе уровня значимости a исследователь исходит из практических соображений, отвечая на вопрос: какую вероятность ошибки он считает допустимой для его конкретной задачи?

Обычно считают достаточным a= 0,05 (5%), иногда a=0,01, редко a=0,001.

Между стандартными статистическими критериями и стандартными доверительными интервалами существует тесная связь: если принимается гипотеза о том, что значение параметра (m,s) нормально распределенной генеральной совокупности равно фиксированному значению ( , ) с уровнем значимости , то это эквивалентно заданию 100(1 - )%-ного доверительного интервала для данного параметра нормального распределения. Поэтому оба подхода - доверительные интервалы и критерии значимости - в данном случае равноценны. Преимущество доверительных интервалов в том, что они дают представление об истинном значении параметра генеральной совокупности, а недостаток в том, что их трудно построить в более сложных случаях, например при анализе дисперсий (стандартных отклонений).

3. Критерии значимости

В рассмотренном выше примере (см. п. 2) при проверке гипотезы об отсутствии различия среднего уровня агрессивности в контрольной и экспериментальной группах можно было бы поступить следующим образом: вычислить средние арифметические результаты в группах и сравнить их между собой. Если окажется, что различие средних арифметических больше, например, 50 единиц, то можно утверждать, что новый комплекс оказался эффективным. Но при этом неизвестно, какие ошибки допускаются при таком утверждении, поэтому невозможно точно доказать наличие или отсутствие различий.

Методы, которые для каждой выборки формально точно определяются, удовлетворяют выборочные данные нулевой гипотезы или нет, называются критериями значимости.

Общая схема проверки гипотез

Процедура проверки гипотез обычно проводится по следующей схеме: Формулируются гипотезы Н0 и Н1.

Выбирается уровень значимости критерия a.

По выборочным данным вычисляется значение некоторой случайной величины K, называемой статистикой критерия, или просто критерием, который имеет известное стандартное распределение (нормальное, Т-распределение Стьюдента и т.п.)

Вычисляется критическая область и область принятия гипотезы. То есть находится критическое (граничное) значение критерия при уровне значимости a, взятым из соответствующих таблиц.

Найденное значение Кнабл критерия сравнивается с Ккритич и по результатам сравнения делается вывод: принять гипотезу или отвергнуть.

Если вычисленное по выборке значение критерия Кнабл меньше чем Ккритич, то гипотеза Но принимается на заданном уровне значимости a.

(В этом случае наблюдаемое по экспериментальным данным различие генеральных совокупностей можно объяснить только случайностью выборки. Однако принятие гипотезы Н0 совсем не означает доказательства равенства параметров генеральных совокупностей. Просто имеющийся в распоряжении статистический материал не дает оснований для отклонения гипотезы о том, что эти параметры одинаковы. Возможно, появится другой экспериментальный материал, на основании которого эта гипотеза будет отклонена.)

Если вычисленное значение критерия Кнабл больше Ккритич, то гипотеза Н0 отклоняется в пользу гипотезы Н1 при данном уровне значимости a.

(В этом случае наблюдаемое различие генеральных совокупностей уже нельзя объяснить только случайностями и говорят, что наблюдаемое различие значимо (статистически значимо) на уровне значимости a.)

Следует подчеркнуть разницу между статистической значимостью и практической значимостью. Заключение о практической значимости всегда делается человеком, изучающим данное явление. И здесь истинным критерием является опыт и интуиция исследователя, а статистические критерии значимости - лишь формально точный инструмент, используемый в исследовании. Чем больше исследователь знает об изучаемом явлении, тем точнее будет сформулированная им гипотеза и тем точнее будут выводы, сделанные с помощью критериев значимости.

Ранее уже подчеркивалось, что уровень значимости и должен выбираться исследователем до получения экспериментальных данных, по которым будет проверяться гипотеза. Но часто с предварительным выбором возникают затруднения. Обычно говорят, что для научных исследований (в том числе и в правоведении) достаточен уровень значимости a=0,05, но если выводы, которые предстоит сделать по результатам проверки гипотез, связаны с большой ответственностью, то рекомендуется выбирать a=0,01 или a=0,001.

Как установить ответственность в трактовке результатов эксперимента и тот риск, который связан с выбором уровня значимости a? Чтобы не давать прямых ответов на эти непростые вопросы, часто поступают следующим образом: уровень значимости до эксперимента точно не устанавливается, а по экспериментальным данным вычисляется вероятность Р того, что критерий (статистика критерия) выйдет за пределы значения, рассчитанного по выборке. Таким образом, Р - это экспериментальный уровень значимости. Точное значение Р обычно не указывают, а окончательные результаты приводят в следующем виде: 1) если вычисленное значение критерия не превосходит критического значения на уровне значимости a=0,05, то различие считается статистически незначимым; 2) если вычисленное по выборке значение критерия превышает критические значения при a=0,05, a=0,01 или a=0,001, то записывают Р<0,05, Р<0,01 или Р<0,001. Это означает, что наблюдаемые различия статистически значимы на уровнях значимости 0,05, 0,01 или 0,001.

Критерии значимости подразделяются на три типа: 1. Критерии значимости, которые служат для проверки гипотез о параметрах распределений генеральной совокупности (чаще всего нормального распределения). Эти критерии называются параметрическими.

2. Критерии, которые для проверки гипотез не используют предположений о распределении генеральной совокупности. Эти критерии не требуют знания параметров распределений, поэтому называются непараметрическими.

3. Особую группу критериев составляют критерии согласия, служащие для проверки гипотез о согласии распределения генеральной совокупности, из которой получена выборка, с ранее принятой теоретической моделью (чаще всего нормальным распределением).

4. Односторонние и двусторонние критерии

Если цель исследования том, чтобы выявить различие параметров двух генеральных совокупностей, которые соответствуют различным ее естественным условиям (условия жизни, возраст испытуемых и т. п.), то часто неизвестно, какой из этих параметров будет больше, а какой меньше. Например, если интересуются вариативностью результатов в контрольной и экспериментальной группах, то, как правило, нет уверенности в знаке различия дисперсий или стандартных отклонений результатов, по которым оценивается вариативность. В этом случае нулевая гипотеза состоит в том, что дисперсии равны между собой ( ), а цель исследования - доказать обратное ( ), т.е. наличие различия между дисперсиями. При этом допускается, что различие может быть любого знака. Такие гипотезы называются двусторонними.

Но иногда задача состоит в том, чтобы доказать увеличение или уменьшение параметра; например, средний результат в экспериментальной группе выше, чем контрольной. При этом уже не допускается, что различие может быть другого знака. Тогда альтернативная гипотеза (или а обратное ей утверждение (или ). Такие гипотезы называются односторонними.

Критерии значимости, служащие для проверки двусторонних гипотез, называются двусторонними, а для односторонних - односторонними.

Возникает вопрос о том, какой из критериев следует выбирать в том или ином случае. Ответ на этот вопрос находится за пределами формальных статистических методов и полностью зависит от целей исследования. Ни в коем случае нельзя выбирать тот или иной критерий после проведения эксперимента на основе анализа экспериментальных данных, поскольку это может привести к неверным выводам. Если до проведения эксперимента допускается, что различие сравниваемых параметров может быть как положительным, так и отрицательным, то следует использовать двусторонний критерий. Если же есть дополнительная информация, например, из предшествующих экспериментов, на основании которой можно сделать предположение, что один из параметров больше или меньше другого, то используется односторонний критерий. Когда имеются основания для применения одностороннего критерия, его следует предпочесть двустороннему, потому что односторонний критерий полнее использует информацию об изучаемом явлении и поэтому чаще дает правильные результаты. статистический гипотеза нулевой альтернатива

Например, необходимо доказать различие средних значений генеральных совокупностей (средних значений некоторого результата исследований) при двух различных методиках применяемых в контрольной и экспериментальной группах. Если есть данные, что экспериментальная группа покажет в среднем лучший результат, то нужно выдвинуть нулевую гипотезу против двусторонней альтернативы . Различие доказывается по разности средних арифметических результант в контрольной и экспериментальной группах ( ). Распределение разности при условии, что верна нулевая гипотеза Н0 схематично представлено на рис. 2, а.

Рис. 2. Уровни значимости при двустороннем (а) и одностороннем (б) критериях

Решение об отклонении гипотезы Н0 принимается в том случае, если разность выходит за пределы некоторого значения Кдвух (допустимы отклонения в обе стороны от нуля). Ошибка, которая при этом допускается, равна, как известно, уровню значимости . Но поскольку отклонения возможны в обе стороны, то при симметричном распределении вероятности отклонений, больших Кдвух и меньших Кдвух, будут одинаковы и составят /2.

Если предположить, что в экспериментальной группе будут показаны в среднем более высокие результаты, то можно выдвинуть одностороннюю альтернативу . В этом случае при той же нулевой гипотезе распределение разности будет таким же, как и для двустороннего критерия (см. рис. 2, б). Но теперь представляют интерес только положительные значения разности . Решение об отклонении Н0 принимается, когда окажется больше некоторого Кодн. При том же уровне значимости Кодн будет всегда меньше Кдвух, поэтому нулевая гипотеза будет при одностороннем критерии отклоняться чаще.

Таким образом, двусторонние критерии оказываются более консервативными, чем односторонние.

В этом нет никакого противоречия или доказательства несостоятельности статистических методов. Просто в первом случае, используя двустороннюю гипотезу, мы допускали и отрицательный эффект новой программы. В такой ситуации выводы должны быть более осторожными, чем в случае односторонней гипотезы, когда имеется дополнительная информация, позволяющая сделать предположение о положительном эффекте новой программы, что, естественно, дает возможность сделать более точный вывод. Правда, следует отметить, что если превышение критического значения в каком либо исследовании незначительно, то в достоверности вывода о наличии положительного эффекта можно усомниться. В такой ситуации следует провести дополнительные исследования.

Размещено на .ru

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?