Ознакомление со спецификой проведения дисперсионного анализа с помощью ИС Statistica и ПК SPSS. Примеры построения таблиц в рассматриваемых автоматизированных информационных системах. Двухфакторное и однофакторное компьютерное исследование материала.
При низкой оригинальности работы "Исследование возможностей статистических пакетов для дисперсионного анализа данных", Вы можете повысить уникальность этой работы до 80-100%
Все статистические процедуры, позволяющие выявить такие различия (t-тесты и дисперсионный анализ), сравнивают респондентов на основании средних значений переменных. Существует два основных метода определения различий между группами: t-тесты и дисперсионный анализ. В область Post Hoc Tests я переношу фактор «Возраст», который необходимо подвергнуть тестированию на предмет установления различий между его группами. T. к., значение в данном столбце показывает не значимость F - значит, дисперсии равны, и в дальнейшем я буду анализировать результаты расчета теста Scheffe (предполагающего равенство дисперсий). В этой задаче имеет место статистически высоко значимое различие между различными возрастными группами респондентов по кратности покупок диетических хлебцев (значимость F-статистики у переменной «Возраст» <0,001).
Введение
Цель анализа различий - выявление групп респондентов, статистически значимо различающихся между собой. Все статистические процедуры, позволяющие выявить такие различия (t-тесты и дисперсионный анализ), сравнивают респондентов на основании средних значений переменных.
В практике маркетинговых и статистических исследований достаточно часто встречаются ситуации, когда в ходе предварительного анализа (на основании опыта исследователя или статистического анализа) появляется гипотеза о разделении всей выборочной совокупности на определенные группы на основании одного или нескольких признаков. Линейное распределение может показывать, что данные группы респондентов действительно различаются, однако, визуального различия между категориями недостаточно для того, чтобы с уверенностью констатировать наличие статистически значимого различия. На установление статистической значимости различий между целевыми группами респондентов и направлены процедуры, объединенные под названием анализ различий.
Существует два основных метода определения различий между группами: t-тесты и дисперсионный анализ. Первый метод прост в использовании, однако, в связи с ограничением на количество тестируемых групп, t-тесты не могут применяться для решения всех задач, возникающих при проведении анализа. Для преодоления данного ограничения используется дисперсионный анализ, который является универсальной методикой для определения статистически значимых различий между любым числом групп респондентов.
В работе я проведу дисперсионный анализ с помощью двух программ: STATSOFT Statistica и SPSS (Statistical Package for the Social Science).
Statistica - это современный пакет статистического анализа, в котором реализованы все новейшие компьютерные и математические методы анализа данных. Программа предназначена для всех отраслей промышленности (бизнес, наука, обучение). В ней реализовано все возможные функции для статистической обработки данных плюс к этому: возможность построения графиков, базы данных и т. д.
В программу встроен STATISTICA Visual Basic что добавляет еще около 10000 новых функций. Синтаксис этого Basic’а полностью совместим с Microsoft Visual Basic.
Программные продукты SPSS - это инструменты, обеспечивающие работу на всех этапах аналитического процесса и позволяющие получать результаты, которые невозможно получить при помощи электронных таблиц и систем управлениями базами данных.
При помощи мощных статистических процедур SPSS можно быстро получать информацию для принятия решений, наглядно представлять результаты в виде высококачественных таблиц и диаграмм, а также распространять результаты, в том числе и в Интернете. Все это дает возможность, находя ключевые факты, взаимосвязи и тенденции, своевременно принимать оптимальные решения.
1. Одномерный дисперсионный анализ
Одномерный дисперсионный анализ исследует влияние одной или нескольких независимых переменных на одну зависимую. Одномерный дисперсионный анализ может быть однофакторным (one-way ANOVA) или многофакторным (n-way Anova): - в первом случае есть только одна независимая переменная;
- во втором - несколько.
Однофакторный одномерный дисперсионный анализ можно проводить двумя способами: при помощи специальной процедуры One-way ANOVA (меню Analyze / Compare Means / One-way ANOVA) или посредством обобщенной линейной модели (меню Analyze / General Linear Model / Univariate). Второй прием является более универсальным и обладает полным объемом функциональности первого, поэтому в дальнейшем я буду использовать его.
Необходимо отметить, что для проведения одномерного дисперсионного анализа на практике существует одно весьма существенное ограничение. При увеличении количества факторов (т. е., независимых переменных) в модели сложность интерпретации результатов расчета возрастает многократно.
Так, однофакторный анализ является наиболее простым. Его результаты понятны сразу при взгляде на итоговую таблицу.
Двухфакторный анализ намного сложнее в интерпретации - чтобы понять его результаты приходится много времени потратить, разбираясь в таблицах и графиках.
А (четырех- и мульти-) факторные модели в большинстве своем могут успешно интерпретироваться только квалифицированными исследователями.
Таким образом, для практических целей лучше воздержаться от исследования большого числа взаимодействий между факторами и ограничиться несколькими наиболее важными.
В этом разделе я рассмотрю одно- и двухфакторные модели одномерного дисперсионного анализа.
Табл. 1. - Исходные данные:
Табл. 2:
2. Однофакторный одномерный дисперсионный анализ
Исследуется покупательское поведение потребителей диетических хлебцев. Респонденты разделяются на целевые группы в зависимости от их возраста. Одним из вопросов анкеты является: «Сколько пачек диетических хлебцев в среднем Вы покупаете за одно посещение магазина?» с вариантами ответа: 1 пачка, 2 пачки, 3 пачки, …, 10 пачек, больше 10 пачек. Требуется выяснить, насколько значимо различается кратность покупок в различных возрастных группах респондентов.
Диалоговое окно одномерного дисперсионного анализа запускается при помощи меню Analyze / General Linear Model / Univariate. Из левого списка всех доступных переменных в поле для зависимой переменной Dependent Variable я переношу «Кратность покупок», а в область для независимых переменных Fixed Factor(s) - «Возраст». (Т. к., в этой задаче переменна «Возраст» содержит все возможные группы респондентов, я поместила ее в область фиксированных факторов).
Для того, чтобы определить какие именно группы отличаются от других, существуют дополнительные статистические тесты, задаваемые при помощи кнопки Post Hoc. В область Post Hoc Tests я переношу фактор «Возраст», который необходимо подвергнуть тестированию на предмет установления различий между его группами.
Теперь надо установить равенство / неравенство дисперсий.
Т. к., я не знаю, равны ли дисперсии, я вывожу тесты для равных и неравных дисперсий, чтобы сократить количество итераций при проведении дисперсионного анализа. SPSS предлагает много различных дополнительных тестов, помогающих определить различия между группами исследуемых переменных. Однако использовать их все нецелесообразно. Поэтому я ограничусь наиболее популярным и универсальным тестом Scheffe для равных дисперсий и тестом Tamhane’s T2 - для неравных дисперсий (рис. 1).
Рис. 1. - Диалоговое окно Univariate: Post Multiple Comparisons for Observed Means:
Рис. 2. - Диалоговое окно Univariate: Options:
Теперь в меню Univariate: Options выбираю тест Levene на равенство дисперсий (параметр Homogeneity tests) (рис. 2).
Т. к., переменная «Возраст» имеет больше двух категорий (4), специально выводить для нее средние значения (область Display Means for) не имеет смысла (они будут выведены в таблице Homogenous Subsets).
В окне SPSS Viewer выводятся результаты расчетов: Рис. 3:
Рис. 4:
Рис. 5:
Первой практически значимой таблицей является результат теста на равенство дисперсий зависимой и независимой переменной Levene’s Test of Error Variances. В столбце Sig. данной таблице содержится единственное интересующее меня значение - это статистическая значимость тестовой статистики F (Sig. = 0,501).
T. к., значение в данном столбце показывает не значимость F - значит, дисперсии равны, и в дальнейшем я буду анализировать результаты расчета теста Scheffe (предполагающего равенство дисперсий).
Следующая таблица - это Tests of Between-Subjects Effects. Данная таблица показывает наличие / отсутствие значимых различий между категориями исследуемых переменных. Первое, на что следует обратить внимание - это величина, отражающая долю совокупной дисперсии в зависимой переменной, описываемой статистической моделью. Другими словами, это та часть вариации зависимой переменной, которую можно объяснить на основании независимой переменной. Естественно. что чем меньше независимых переменных, тем меньше величина, и наоборот.
В этой задаче величина R2 = 0,218, но для дисперсионного анализа значения R2 можно просто проигнорировать, т. к., они не важны для практического использования полученной модели.
Второе. на что следует обратить внимание при интерпретации таблицы Tests of Between-Subjects Effects, - это значимость различия между группами независимой переменной. Этот вывод следует из значения на пересечении строки, содержащей соответствующую независимую переменную, и столбца Sig.. В этой задаче имеет место статистически высоко значимое различие между различными возрастными группами респондентов по кратности покупок диетических хлебцев (значимость F-статистики у переменной «Возраст» < 0,001).
После того, как я установила наличие статистически значимого различия между возрастными группами респондентов на основании кратности покупок диетических хлебцев, необходимо определить, какие из четырех имеющихся возрастных групп отличаются от остальных и каким образом (в большую или меньшую сторону).
Это делается с помощью таблицы Multiple Comparisons. Т. к., я выяснила, что дисперсии оказались равными, в этой таблице я буду рассматривать только ту ее часть, в которой приведены расчеты по методу Scheffe. (Тест Tamhane я бы применяла, только если бы дисперсии были неравны). Итак, в первой части таблицы (Scheffe) представлено сравнение различий между каждой из четырех возрастных категорий с остальными категориями. На основании этих данных я определяю те группы, которые значимо отличаются от других.
Так, из столбца Sig. (статистическая значимость) видно, что только группа респондентов старше 55 лет статистически значимо отличается от всех стальных. Остальные целевые группы не отличаются друг от друга. При этом из столбца Mean Difference можно видеть, насколько отличается среднее значение той или иной группы от среднего значения других групп (звездочками отмечены значимые различия при 95%-ном доверительном уровне). Наконец, в последней таблице Homogeneous Subsets представлена однозначная картина различий между группами независимой переменной. Здесь все возрастные группы разделены на 2 категории на основании различий в кратности покупок.
В первую категорию входит целевая группа респондентов старше 55 лет, во вторую - все остальные возрастные группы (т. е., респонденты младше 55 лет).
Также из рассматриваемой таблицы можно сделать вывод о направлении различия между выделенными категориями.
Так, в этой задаче я могу заключить, что респонденты старше 55 лет покупают диетические хлебцы в меньших объемах, чем респонденты младше этого возраста.
В точности определить размер или величину различия можно, только если в качестве зависимой переменной выступает интервальная переменная.
Т. к., переменная «Кратность покупок» относится к порядковой шкале, точный вывод о величине различия сделать нельзя.
3. Двухфакторный одномерный дисперсионный анализ
Исходные данные остаются такими же, как и в предыдущем примере, однако теперь я буду устанавливать различие в кратности покупок диетических хлебцев возрастными и половыми группами (переменная «Пол»). Для этого вновь открываю диалоговое окно Univariate и добавляю в область фиксированных факторов переменную «Пол».
В диалоговом окне Options я добавляю переменную «Пол», а так же ее взаимодействие с переменной «Возраст» в область Display Means for, что позволит вывести средние значения по каждой группе мужчин и женщин при определении направления различия между ними. После этого запускаю процедуру дисперсионного анализа на выполнение (рис. 6).
Рис. 6. - Диалоговое окно Univariate: Options:
В окне SPSS Viewer выведены результаты расчетов: Табл. 3:
Табл. 4:
Табл. 5:
Табл. 6:
Табл. 7:
Результаты расчетов отличаются от результатов предыдущего примера. Во-первых, тест Levene теперь является значимым (Sig. = 0,397), из чего следует вывод о неравенстве дисперсий. Во-вторых, в таблице Tests of Between-Subjects Effects появились результаты расчета значимости F-статистики для переменной «Пол», а также для взаимодействия «Возраст» и «Пол». Как видно, мужчины и женщины не имеют статистически значимых различий по кратности покупок диетических хлебцев (Sig. = 0,046). То же относится и к взаимодействию «Возраст» и «Пол» (Sig. = 0,349). А переменная «Возраст» сохранила свое значимое влияние на зависимую переменную (Sig. = 0,000). После таблицы Tests of Between-Subjects Effects следую расчеты средних значений для переменной «Пол» и для взаимодействия «Возраст» и «Пол».
В этом примере ни переменная «Пол», ни ее взаимодействие с переменной «Возраст» не являются статистически значимыми, поэтому данные таблицы бесполезны.
Однако, если бы переменная «Пол» была бы значима (т. е., различие между мужчинами и женщинами существовало), на основании первой таблицы можно бы было сделать заключение о том, какая именно половая группа покупает больше диетических хлебцев.
Завершают вывод результатов двухфакторного анализа таблицы с расчетами апостериорных тестов.
В этом примере они практически такие же, как в предыдущем примере, поскольку переменная «Возраст» сохранила свою значимость.
Однако при интерпретации таблицы Multiple Comparisons следует помнить о неравенстве дисперсий. Поэтому значимость различий между отдельными возрастными группами надо устанавливать на основании второй части таблицы Tamhane.
4. Однофакторный одномерный дисперсионный анализ в Statistica
Для того, чтобы решить ту же задачу, в меню Statistics я выбираю модуль ANOVA и в появившемся окне General ANOVA/MANOVA нажимаю Variables и определяю зависимые и независимые переменные (рис. 7).
Рис. 7. - Диалоговое окно Select dependent variables and a categorical predictor:
На появившемся экране ANOVA Results нажимаю All effects: Рис. 8:
Полученные данные позволяют осуществить оценку степени влияния фактора «Возраст» на фактор «Кратность покупок»: Рис. 9:
Рис. 10:
Т. к., значение р = 0,000303, т. е., р < 0,001 в этой задаче имеет место статистически высоко значимое различие между различными возрастными группами респондентов по кратности покупок диетических хлебцев.
Чтобы проанализировать зависимость между факторами наглядно, я строю график с помощью меню Graphs.
Получаю графики на которых отображено среднее значение кратности покупок, ошибка и стандартное отклонение.
Рис. 11:
Но на графике четко видно, что респонденты в возрасте старше 55 лет делают покупки значительно реже, чем в возрасте до 55 лет, что полностью подтверждает анализ, проведенный в «SPSS» и «Statistica».
5. Двухфакторный одномерный дисперсионный анализ в «Statistica»
В меню Statistics я выбираю модуль ANOVA и в появившемся окне General ANOVA/MANOVA: Factoral ANOVA нажимаю Variables и определяю зависимые и независимые переменные (рис.12, рис. 13).
Рис. 12. - Диалоговое окно General ANOVA/MANOVA:
Рис. 13. - Диалоговое окно Select dependent variables and a categorical predictor:
Анализ влияния двух факторов («Возраст» и «Пол») на кратность покупок дает результаты, полностью соответствующие проведенному анализу в SPSS. Переменная «Возраст» сохранила свою значимость (р = 0,000224), а переменная «Пол», и ее взаимодействие с переменной «Возраст» не являются статистически значимыми (превышают порог значимости р = 0,001), т. е., не оказывают значимого влияния на переменную «Кратность покупок».
Рис. 14:
Заключение
Проведя однофакторный и двухфакторный одномерный дисперсионный анализ с помощью двух программ: STATSOFT Statistica и SPSS (Statistical Package for the Social Science), я установила, что респонденты старше 55 лет, в независимости от пола, покупают меньшее количество диетических хлебцев, чем остальные опрошенные группы. Причин этого может быть несколько: statistica автоматизированный информационный
- возможно, эти респонденты уделяют меньшее внимание своему здоровью и полезному рациону питания;
- возможно, такой продукт как диетические хлебцы не привычен для людей старшего возраста;
- цены на диетические хлебцы более высокие, чем на другие хлебобулочные изделия.
Применение STATSOFT Statistica и SPSS (Statistical Package for the Social Science), я нахожу эффективным.
Размещено на .ru
Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность своей работы