Меры центральной тенденции, основанные на усечении данных и взвешивании. Проблема их оценивания в условиях смещенности распределения эмпирических данных и наличия в нем выбросов. Получение индивидуального показателя скорости переработки информации.
Аннотация к работе
Устойчивые меры центральной тенденции: взвешивание как возможная альтернатива усечению данных при анализе времен ответовM HM GM Md M(2SD) TRIMM WINSM OSE MOSE DWE SPWE r 0,157 0,174 0,167 0,072 0,159 0,125 0,149 0,126 0,096 0,129 0,152 p 0,017 0,008 0,011 0,275 0,015 0,057 0,023 0,057 0,145 0,050 0,021 r - коэффициент корреляции Пирсона, p - уровень значимости; M - арифметическое среднее; HM - гармоническое среднее; GM - геометрическое среднее; Md - медиана; M(2SD) - среднее после отсечения данных, лежащих за пределами двух стандартных отклонений; TRIMM - 20% усеченное среднее, с удалением 20% данных в каждом хвосте распределения; WINSM - винсоризованное среднее после предварительного удаления 20% данных в каждом хвосте распределения; OSE - одношаговая M-оценка; MOSE - модифицированная одношаговая M-оценка; DWE - оценка, взвешенная по расстоянию; SPWE - оценка, взвешенная по скалярному произведению единичных векторов. Однако для шести мер из одиннадцати взаимосвязь с внешней переменной может быть интерпретирована как статистически достоверная, тогда как при использовании остальных пяти мер центральной тенденции результаты говорят о статистической недостоверности связи скорости различения стимулов с рассматриваемой внешней переменной. В целом индивидуальные показатели скорости ответа, полученные с помощью различных мер центральной тенденции, оказались высоко связанными между собой. Однако приведенные данные демонстрируют, что даже при незначительных, на первый взгляд, различиях между этими показателями выбор той или иной меры центральной тенденции при анализе индивидуальных времен ответа может оказываться критическим при принятии решения о статистической достоверности взаимосвязи скорости переработки информации с внешней переменной. Приведенные результаты очевидным образом демонстрируют, что выбору меры центральной тенденции должно уделяться особенно пристальное внимание, поскольку уже на этапе подсчета индивидуального показателя времени ответа предпочтение того или иного алгоритма может повлиять на результаты дальнейшего более сложного анализа.В столбце, озаглавленном SD, для каждой меры приведено стандартное отклонение, рассчитанное по приведенным четырем средним значениям, соответствующим четырем условиям с фиксированным количеством выбросов. Наконец, в двух последних столбцах приведены среднее значение и стандартное отклонение мер центральной тенденции по пятидесяти тысячам генераций, в которых количество выбросов в распределении данных произвольно варьировалось от 0 до 10%. Примечания. r - коэффициент корреляции Пирсона, p - уровень значимости; M - арифметическое среднее; HM - гармоническое среднее; GM - геометрическое среднее; Md - медиана; M(2SD) - среднее после отсечения данных, лежащих за пределами двух стандартных отклонений; TRIMM - 20% усеченное среднее, с удалением 20% данных в каждом хвосте распределения; WINSM - винсоризованное среднее после предварительного удаления 20% данных в каждом хвосте распределения; OSE - одношаговая M-оценка; MOSE - модифицированная одношаговая M-оценка; DWE - оценка, взвешенная по расстоянию; SPWE - оценка, взвешенная по скалярному произведению единичных векторов; SD - стандартное отклонение значения меры центральной тенденции по 50 000 генерациям; SD - стандартное отклонение среднего значения меры центральной тенденции по четырем условиям наличия выбросов. Как и ожидалось, среднее арифметическое оказалось менее стабильной мерой центральной тенденции, чем большинство других мер, как в случае отсутствия выбросов, так и в случае их наличия. В целом в случае отсутствия выбросов наиболее стабильными мерами центральной тенденции для анализируемого смещенного распределения оказываются гармоническое среднее, геометрическое среднее и предложенная в данной работе оценка, взвешенная по расстояниям.# Арифметическое среднее: mean(x) GM = function(x) {y = x[!is.na(x)]; exp(mean(log(y)))} # Среднее в двух стандартных отклонениях: m2sd m2sd = function(x) {y = x[!is.na(x)]; a1 = mean(y) 2*sd(y) a2 = mean(y) - 2*sd(y); z = y[y > a2 & y <a1]; mean(z)} # Винсоризованное среднее: wins wins = function(x,tr) {y = sort(x); n = length(x); ibot = floor(tr*n) 1; itop = length(x) - ibot 1 xbot = y[ibot]; xtop = y[itop]; y = ifelse(y = xtop, xtop, y); mean(y)} N = 30; out = 2 y = 1:50000; a1=y; a2 = y; a3 = y; a4 = y; a5 = y; a6 = y; a7 = y; a8 = y; a9 = y; a10 = y; a11 = y for(i in 1:50000){t = rnorm(N-out, Mu, Sigma) Nu*rexp(N-out) p = runif(out, 0, 2000) x = c(t,p) a1[i] = mean(x); a2[i] = median(x); a3[i] = HM(x); a4[i] = GM(x); a5[i] = m2sd(x); a6[i] = ose(x) a7[i] = mose(x); a8[i] = dwe(x); a9[i] = spwe(x); a10[i] = mean(x,trim = 0.2); a11[i] = wins(x,0.