Применение математических методов в анализе экспериментальных данных. Необходимый объем выборочного наблюдения. Ранговые и номинальные значения при вводе данных. Особенности поведения случайных величин, описывающих психологические закономерности.
Аннотация к работе
Эта небольшая совокупность в статистике называется выборочной совокупностью (или выборкой). Когда для каждого объекта в выборке измерено значение одной переменной, популяция и выборка называются одномерными. Закон больших чисел, в его математической трактовке, говорит о том, что с увеличением числа наблюдений уменьшается разница между выборочной средней и генеральной средней, и наоборот, чем меньше выборка, тем меньше надежды на то, что выборочная средняя совпадет по величине со средней арифметической генеральной совокупности. Но даже в этом случае генеральная совокупность окажется довольно размытым множеством, включающим большое число объектов, над поведением которых собственно и размышляет теоретик, пытаясь понять законы поведения этих теоретических объектов, предсказать это поведение. Поскольку о генеральной совокупности мы, как правило, имеем очень приблизительные представления, лучшим вариантом построения выборки представляется процедура рандомизации, в ходе которой и формируется выборка.Любое исследование в психологии немыслимо без испытуемых, которые составляют генеральную и выборочную совокупность. Тем самым, генеральная совокупность включает в себя очень большое число объектов (субъектов) - студентов вуза, школьников, работников предприятия, пенсионеров и т.д (в зависимости от объекта исследования. В связи с этим, принято изучать небольшую часть генеральной совокупности, называемая выборочной совокупностью, или выборкой. Выборка - это множество испытуемых, выбранных для участия в исследовании с помощью специальной стратегии из всех потенциальных участников, которые обозначаются как генеральная совокупность испытуемых.
Введение
Исходным понятием статистики является понятие совокупность, объединяющее обычно какое-либо множество испытуемых (учащихся) по одному или нескольким интересующим признакам.
Главное требование к выделению изучаемой совокупности - это ее качественная однородность, например, по уровню знаний, росту, весу и другим признакам. Члены совокупности могут сравниваться между собой в отношении только того качества, которое становится предметом исследования. При этом обычно абстрагируются от других не интересующих качеств. Так, если педагога интересует успеваемость учащихся, то он не принимает во внимание, как правило, их рост, вес и другие параметры, не относящиеся непосредственно к изучаемому вопросу.
Применение большинства статистических методов основано на идее использования небольшой случайной совокупности испытуемых из общего числа тех, на которых можно было бы распространить (генерализовать) выводы, полученные в результате изучения совокупности. Эта небольшая совокупность в статистике называется выборочной совокупностью (или выборкой).
Главный принцип формирования выборки - это случайный отбор испытуемых из мыслимого множества учащихся, называемого генеральной совокупностью или популяцией объектов или явлений. Как по анализу элементов, содержащихся в капле крови, медики нередко судят о составе всей крови человека, так и по выборочной совокупности учащихся изучаются явления, характерные для всей генеральной совокупности.
Когда для каждого объекта в выборке измерено значение одной переменной, популяция и выборка называются одномерными. Если же для каждого объекта регистрируются значения двух или нескольких переменных, такие данные называются многомерными.
Одной из основных задач статистического анализа является получение по имеющейся выборке достоверных сведений о интересующих исследователя характеристиках генеральной совокупности. Поэтому важным требованием к выборке является ее репрезентативность, то есть правильная представимость в ней пропорций генеральной совокупности. Достижению репрезентативности может способствовать такая организация эксперимента, при которой элементы выборки извлекаются из генеральной совокупности случайным образом.
Теория выборочного метода основана на законе больших чисел. Закон больших чисел, в его математической трактовке, говорит о том, что с увеличением числа наблюдений уменьшается разница между выборочной средней и генеральной средней, и наоборот, чем меньше выборка, тем меньше надежды на то, что выборочная средняя совпадет по величине со средней арифметической генеральной совокупности.
Действие этого закона основано на свойстве самих случайных величин, отрицательные и положительные значения которых способны компенсировать друг друга тем полнее, чем большему числу испытаний подвергается случайная величина. В связи с этим закономерности распределения, наблюдаемые в ранжированных совокупностях вариант, следует рассматривать как проявление наиболее общего закона поведения случайных величин - закона больших чисел.
При выборочном наблюдении закон больших чисел и теоремы теории вероятностей в силу случайности отбора единиц позволяют определить ошибки репрезентативности, допущенные при выборочном обследовании. Зная предел допустимой ошибки, на основе закона больших чисел можно определить необходимую численность выборки. Математическое обоснование закона больших чисел было дано еще в начале XVIII столетия Я. Бернулли. В дальнейшем академики П.Л. Чебышев, А.М. Ляпунов и А.А. Марков расширили и уточнили первоначальную формулировку этого закона.
Необходимый объем выборочного наблюдения зависит от нескольких факторов: • показателей вариации наблюдаемого признака: чем больше показатели вариации (средний квадрат отклонения), тем больше необходимая численность выборочной совокупности;
• размера предельной ошибки случайной выборки: чем меньше должен быть размер предельной ошибки, тем больше нужен объем выборочного наблюдения. Иными словами, для получения большей точности необходимо увеличивать объем выборки;
• размера вероятности, с которой требуется гарантировать результаты выборки: чем выше показатель кратности ошибки, тем больше должен быть объем выборки;
• способа отбора единиц выборочного наблюдения из генеральной совокупности. Для бесповторного наблюдения (при прочих равных условиях) требуется меньшая численность выборки, чем при повторном отборе.
Обычно в статистике различают три типа значений переменных: количественные, номинальные и ранговые.
Значения количественных переменных являются числовыми, могут быть упорядочены и для них имеют смысл различные вычисления (например, среднее значение). На обработку количественных переменных ориентировано подавляющее большинство статистических методов.
Значения номинальных переменных (например: пол, вид, цвет) являются нечисловыми, они означают принадлежность к некоторым классам и не могут быть упорядочены или непосредственно использованы в вычислениях. Для анализа номинальных переменных специально предназначены лишь избранные разделы математической статистики, например, категориальный анализ. Однако в ряде случаев для этой цели могут быть использованы и некоторые ранговые и количественные методы, если номинальные значения предварительно заменить на числа, обозначающие их условные коды.
Ранговые или порядковые переменные занимают промежуточное положение: их значения упорядочены (состояние больного, степень предпочтения), но не могут быть с уверенностью измерены и сопоставлены количественно. К анализу ранговых переменных применимы так называемые ранговые методы.
Ранг наблюдения - это тот номер, который получит данное наблюдение в упорядоченной совокупности всех данных - после их упорядочивания по определенному правилу (например, от большего значения к меньшему). Процедура перехода от совокупности наблюдений к последовательности их рангов называется ранжированием.
Ранговые и номинальные значения при вводе данных следует обозначать целыми числами.
Основная часть
Применение математических методов в анализе экспериментальных данных предполагает, прежде всего, использование знаний из математической статистики. Этот раздел математической науки исследует поведение случайных величин. Для начала попытаемся разобраться, для чего нужны эти знания психологу и какое отношение они имеют к практике психологического экспериментирования.
Дело в том, что исследователь-теоретик, рассуждая о тех или иных закономерностях психики и поведения, как правило, рассуждает не о конкретном объекте своего исследования, а имеет в виду скорее какое-то множество объектов. Например, исследуя память человека, мы имеем в виду не кого-то конкретно, а человека вообще, всех людей, которые живут на Земле, жили или еще будут жить. Очевидно, в данном примере речь идет о каком-то довольно большом множестве объектов, к тому же не имеющем четко обозначенных границ. Такое теоретическое множество объектов в математической статистике принято называть генеральной совокупностью или популяцией. Конечно, мы можем конкретизировать наши представления об исследуемой генеральной совокупности, сделать ее более компактной. Например, мы можем говорить не о памяти человека вообще, а о памяти какой-то более узкой группы людей - о памяти ребенка определенного возраста или о памяти людей, страдающих ретроградной амнезией. Но даже в этом случае генеральная совокупность окажется довольно размытым множеством, включающим большое число объектов, над поведением которых собственно и размышляет теоретик, пытаясь понять законы поведения этих теоретических объектов, предсказать это поведение.
Проводя экспериментальное исследование, исследователь-экспериментатор стремится проверить предсказания исследователя- теоретика. При этом он не может провести исследования сразу со всеми объектами, составляющими всю генеральную совокупность. Ведь генеральная совокупность очень велика, к тому же ее границы, как правило, не определены. Так, идея объехать весь мир, исследуя память всех людей, страдающих теми или иными формами ретроградной амнезии, экспериментатору вряд ли покажется интересной и потому заслуживающей внимания. Даже если ему и удастся это сделать, через какое-то время, увы, появятся новые люди, страдающие тем же недугом, и при таком подходе придется снова и снова проверять предположения теоретика.
Что же говорить о ситуации, когда теоретик рассуждает о человеке вообще! К счастью, в этом нет никакой необходимости. Как принято говорить в таком случае, чтобы узнать вкус супа не обязательно съедать целый котел. Достаточно одной ложки. Но предварительно суп необходимо хорошо размешать. Именно поэтому исследователь-экспериментатор имеет дело не со всей генеральной совокупностью, а лишь с небольшой ее частью, называемой выборкой. Эта часть генеральной совокупности, очевидно, должна в максимальной степени быть подобной самой генеральной совокупности в целом. Каким же образом можно осуществить выбор надлежащих объектов из генеральной совокупности так, чтобы выборка воспроизводила все ее особенности и характеристики?
Поскольку о генеральной совокупности мы, как правило, имеем очень приблизительные представления, лучшим вариантом построения выборки представляется процедура рандомизации, в ходе которой и формируется выборка. Рандомизация представляет собой случайный отбор объектов исследования, в результате которого мы получаем более или менее точную, но всегда вероятностную модель генеральной совокупности. Иными словами, выборка - это случайная модель генеральной совокупности, которая может быть отождествлена с ней лишь с определенной долей вероятности.
Поэтому в эксперименте мы имеем дело лишь со случайными величинами, описывающими психологические закономерности. Нас интересует, как изменяются эти случайные величины, по каким законам. Математическая статистика специально разработана для того, чтобы помочь исследователю в анализе поведения таких величин.
Случайные величины связаны со случайными событиями. О случайных событиях говорят тогда, когда оказывается невозможным однозначно предсказать результат, который может быть получен в тех или иных условиях.
Предположим, мы бросаем обыкновенную монету. Обычно результат этой процедуры не является однозначно определенным. Можно лишь с уверенностью утверждать, что произойдет одно из двух: либо выпадет "орел", либо "решка". Любое из этих событий будет случайным. Можно ввести переменную, которая будет описывать исход этого случайного события. Очевидно, что эта переменная будет принимать два дискретных значения: "орел" и "решка". Поскольку мы заранее точно не можем предугадать, какое из двух возможных значений примет эта переменная, можно утверждать, что в этом случае мы имеем дело со случайными величинами.
Предположим теперь, что в эксперименте мы проводим оценку времени реакции испытуемого при предъявлении какого-либо стимула. Как правило, оказывается, что даже тогда, когда экспериментатор предпримет все меры к тому, чтобы стандартизировать экспериментальные условия, минимизировав или даже сведя к нулю возможные вариации в предъявлении стимула, измеренные величины времени реакции испытуемого все равно будут различаться. В таком случае говорят, что время реакции испытуемого описывается случайной величиной. Поскольку в принципе в эксперименте мы можем получить любое значение времени реакции - множество возможных значений времени реакции, которые можно получить в результате измерений, оказывается бесконечным, - говорят о непрерывности этой случайной величины.
Возникает вопрос: существуют ли какие-либо закономерности в поведении случайных величин? Ответ на этот вопрос оказывается утвердительным.
Так, если провести бесконечно большое число подбрасываний одной и той же монеты, можно обнаружить, что число выпадений каждой из двух сторон монеты окажется примерно одинаковым, если, конечно, монета не фальшивая и не гнутая. Чтобы подчеркнуть эту закономерность, вводят понятие вероятности случайного события. Ясно, что в случае с подбрасыванием монеты одно из двух возможных событий произойдет непременно. Это обусловлено тем, что суммарная вероятность этих двух событий, иначе называемая полной вероятностью, равна 100%. Если предположить, что оба из двух событий, связанных с испытанием монеты, происходят с равными долями вероятности, то вероятность каждого исхода в отдельности, очевидно, оказывается равной 50%. Таким образом, теоретические размышления позволяют нам описать поведение данной случайной величины. Такое описание в математической статистике обозначается термином "распределение случайной величины".
Сложнее обстоит дело со случайной величиной, которая не имеет четко определенного набора значений, т.е. оказывается непрерывной. Но и в этом случае можно отметить некоторые важные закономерности ее поведения. Так, проводя эксперимент с измерением времени реакции испытуемого, можно отметить, что различные интервалы длительности реакции испытуемого оцениваются с разной степенью вероятности. Скорее всего, редко, когда испытуемый будет реагировать слишком быстро. Например, в задачах семантического решения испытуемым практически не удается более или менее точно реагировать со скоростью менее 500 мс (1/2 с). Аналогично маловероятно, что испытуемый, добросовестно следующий инструкциям экспериментатора, будет сильно затягивать свой ответ. В задачах семантического решения, например, реакции, оцениваемые более чем 5 с, обычно рассматриваются как недостоверные. Тем не менее со 100%-ной уверенностью можно предполагать, что время реакции испытуемого окажется в диапазоне от О до со. Но эта вероятность складывается из вероятностей каждого отдельного значения случайной величины. Поэтому распределение непрерывной случайной величины можно описать в виде непрерывной функции у = f(х).
Если мы имеем дело с дискретной случайной величиной, когда все возможные ее значения заранее известны, как в примере с монетой, построить модель ее распределения, как правило, оказывается не очень сложным. Достаточно ввести лишь некоторые разумные допущения, как мы это сделали в рассматриваемом примере. Сложнее обстоит дело с распределением непрерывных величии, принимающих заранее неизвестное число значений. Конечно, если бы мы, например, разработали теоретическую модель, описывающую поведение испытуемого в эксперименте с измерением времени реакции при решении задачи семантического решения, можно было бы попытаться на основе этой модели описать теоретическое распределение конкретных значений времени реакции одного и того же испытуемого при предъявлении одного и того же стимула. Однако такое не всегда оказывается возможным. Поэтому экспериментатор бывает вынужденным предположить, что распределение интересующей его случайной величины описывается каким-либо уже заранее исследованным законом. Чаще всего, хотя это, возможно, и не всегда оказывается абсолютно корректным, для этих целей используется так называемое нормальное распределение, выступающее в качестве эталона распределения любой случайной величины независимо от ее природы. Это распределение впервые было описано математически еще в первой половине XVIII в. де Муавром.
Нормальное распределение имеет место тогда, когда интересующее нас явление подвержено влиянию бесконечного числа случайных факторов, уравновешивающих друг друга. Формально нормальное распределение, как показал де Муавр, может быть описано следующим соотношением: психологический закономерность выборочный наблюдение
(1.1)
где х представляет собой интересующую нас случайную величину, поведение которой мы исследуем; Р - значение вероятности, связанное с этой случайной величиной; ? и е - известные математические константы, описывающие соответственно отношение длины окружности к диаметру и основание натурального логарифма; ? и ?2 - параметры нормального распределения случайной величины - соответственно математическое ожидание и дисперсия случайной величины х.
Для описания нормального распределения оказывается необходимым и достаточным определение лишь параметров ? и ?2.
Поэтому если мы имеем случайную величину, поведение которой описывается уравнением (1.1) с произвольными значениями ? и ?2, то можем обозначить его как ?(?, ?2), не держа в памяти всех деталей этого уравнения.
Любое распределение можно представить наглядно в виде графика. Графически нормальное распределение имеет вид колокола образной кривой, точная форма которой определяется параметрами распределения, т.е. математическим ожиданием и дисперсией. Параметры нормального распределения могут принимать практически любые значения, которые оказываются ограничены лишь используемой экспериментатором измерительной шкалой. В теории значение математического ожидания может равняться любому числу из диапазона чисел от -? до ?, а дисперсия - любому неотрицательному числу. Поэтому существует бесконечное множество различных видов нормального распределения и соответственно бесконечное множество кривых, его представляющих (имеющих, однако, сходную колокола образную форму). Понятно, что все их описать невозможно. Однако, если известны параметры конкретного нормального распределения, его можно преобразовать к так называемому единичному нормальному распределению, математическое ожидание для которого равно нулю, а дисперсия - единице. Такое нормальное распределение называют еще стандартным или z-распределением. График единичного нормального распределения представлен на рис. 1.1, откуда очевидно, что вершина колокола образной кривой нормального распределения характеризует величину математического ожидания. Другой параметр нормального распределения - дисперсия - характеризует степень "распластанности" колокола образной кривой относительно горизонтали (оси абсцисс).
Любые параметры распределения случайной переменной, например, такие как математическое ожидание или дисперсия, являются теоретическими величинами, недоступными непосредственному измерению, хотя их и можно оценить. Они представляют собой количественную характеристику генеральной совокупности и могут быть сами по себе определены лишь в ходе теоретического моделирования как гипотетические величины, поскольку они описывают особенности распределения случайной величины в самой генеральной совокупности. Для того чтобы определить их на практике, исследователь, проводящий эксперимент, осуществляет их выборочную оценку. Такая оценка предполагает статистический подсчет.
Статистика представляет собой количественную характеристику исследуемых параметров, характеризующих распределение случайной величины, полученную на основе исследования выборочных значений. Статистика используется либо для описания самой выборки, либо, что имеет первостепенное значение в фундаментальных экспериментальных исследованиях, для оценки параметров распределения случайной величины в исследуемой генеральной совокупности.
Разделение понятий "параметр" и "статистика" является очень важным, так как оно позволяет избежать ряд ошибок, связанных с неверным толкованием данных, получаемых в эксперименте. Дело в том, что, когда мы оцениваем параметры распределения с помощью статистических данных, мы получаем величины, лишь в определенной степени близкие к оцениваемым параметрам. Между параметрами и статистикой практически всегда существует какое-то различие, причем, насколько велико это различие, мы, как правило, сказать не можем. Теоретически чем больше выборка, тем ближе оцениваемые параметры оказываются к их выборочным характеристикам. Однако это не означает, что, увеличив объем выборки, мы неминуемо ближе подойдем к оцениваемому параметру, уменьшим разницу между ним и вычисленной статистикой. На практике все может оказаться значительно сложнее.
Если в теории ожидаемое значение статистики совпадает с оцениваемым параметром, то такую оценку называют несмещенной. Оценку, при которой ожидаемое значение оцениваемого параметра отличается от самого параметра на некоторую величину, называют смещенной.
Также следует различать точечную и интервальную оценки параметров распределения. Точечной называют оценку с помощью какого-либо числа. Например, если мы утверждаем, что величина пространственного порога тактильной чувствительности для данного испытуемого в данных условиях и на данном участке кожи составляет 21,8 мм, то такая оценка будет точечной. Точно так же точечная оценка имеет место, когда в сводке погоды нам сообщают, что за окном 25°С. Интервальная оценка предполагает использование в оценке набора или диапазона чисел. Оценивая пространственный порог тактильной чувствительности, мы может сказать, что он оказался в диапазоне от 20 до 25 мм. Аналогичным образом синоптики могут сообщить, что по их прогнозам температура воздуха в ближайшие сутки достигнет значения 22-24°С. Интервальная оценка случайной величины позволяет нам не только определить искомое значение этой величины, но и задать возможную точность для такой оценки.
Вывод
Любое исследование в психологии немыслимо без испытуемых, которые составляют генеральную и выборочную совокупность.
Генеральная совокупность представляет собой массив данных одной категории. Объем генеральной совокупности определяется задачами исследования. Тем самым, генеральная совокупность включает в себя очень большое число объектов (субъектов) - студентов вуза, школьников, работников предприятия, пенсионеров и т.д (в зависимости от объекта исследования.
Следовательно, сплошное исследование генеральных совокупностей - весьма сложная задача. В связи с этим, принято изучать небольшую часть генеральной совокупности, называемая выборочной совокупностью, или выборкой.
Выборка - это множество испытуемых, выбранных для участия в исследовании с помощью специальной стратегии из всех потенциальных участников, которые обозначаются как генеральная совокупность испытуемых.
Объем выборки - это число испытуемых, включенных в выборку.
При этом, отметим, что эксперимент с одним испытуемым проводится тогда, когда: 1) индивидуальными различиями можно пренебречь, исследование чрезвычайно велико по объему и включает множество экспериментальных проб;
2) испытуемый - уникальный объект, например гениальный музыкант или творчески одаренный шахматист;
3) от испытуемого требуется особая компетентность при проведении исследования (эксперимент с обученными испытуемыми);
4) повторение данного эксперимента с участием других испытуемых невозможно.
Однако чаще исследование проводится с экспериментальной группой, в которой все испытуемые объективно различны, но отобраны и распределены по подгруппам с помощью той или иной стратегии.
Выборка в экспериментальных исследованиях состоит из экспериментальная группы - из испытуемых, подвергающихся воздействию независимой переменной и контрольной группы - испытуемых, находящихся в тех же самых условиях, за исключением независимой переменной.
При этом исследователи подчеркивают необходимость случайного отбора участников эксперимента (рандомизация), позволяющего исключить влияние индивидуальных особенностей испытуемых на результат исследования, так как каждый потенциальный испытуемый имеет равную возможность стать участником эксперимента.
К формированию экспериментальной выборки педагогического и психологического эксперимента предъявляются следующие требования (критерии).
1.Содержательный критерий. Выборка должна соответствовать содержанию гипотезы (обучаемость - на учениках; дисциплина - на воинах...).
2. Критерий эквивалентности испытуемых (критерий внутренней валидности). Результаты выборки должны распространяться на каждого члена выборки, то есть необходимо учитывать все значимые характеристики объекта исследования, различия в выраженности которых могут значительно повлиять на зависимую переменную
3. Критерий репрезентативности (критерий внешней валидности). Выборка должна представлять генеральную совокупность качественно (возраст, пол, образование, социально-демографические характеристики и т.д.) и количественно.
При этом именно репрезентативность - основное свойство выборочной совокупности, Согласно словарю, репрезентативность - соответствие характеристик выборки характеристикам популяции или генеральной совокупности в целом. Репрезентативность определяет, насколько возможно обобщать результаты исследования с привлечением определенной выборки на всю генеральную совокупность, из которой она была собрана.
Одним словом, это такое свойство выборки исследования, которое позволяет говорить о том, что результаты исследования на данной выборки можно считать справедливыми и для других представителей генеральной совокупности, из которой выборка исследования была сформирована.
Из всего вышесказанного следует, что ошибки репрезентативности могут возникать в двух случаях: малая выборка, характеризующая генеральную совокупность;
несовпадение свойств (параметров) выборки с параметрами генеральной совокупности.
Как видно на этапе планирования исследования важно не только определить проблему, выявить объект и предмет исследования, сформулировать его цель и задачи и выбрать методы их реализации…. Важно также правильно определить параметры генеральной совокупности и выбрать способ формирования выборки участников этого исследования
Список литературы
1. Большой психологический словарь / Под ред. В. П. Зинченко, Б. Г. Мещерякова. - 3-е изд. - М.: Прайм-Еврознак, 2003. - 632 с.
2. Ермолаев О.Ю. Математическая статистика для психологов: учебник / О.Ю. Ермолаев. - 4-е изд., испр. - М.: Московский психолого-социальный институт: Флинта, 2006. -336 с.
4. Зароченцев К. Д., Худяков А. И. Экспериментальная психология: учеб. - М.: Проспект, 2005. 320 с.
5. Лупандин В.И. Математические методы в психологии: Учеб. пособ. для студентов-психологов. Изд. 2-е. испр. и доп. Екатеринбург: Изд-во Гуманитарного университета, 1997. - 119с