Понятие корреляции, сущность корреляции между двумя случайными величинами. Параметрические и непараметрические показатели корреляции. Свойства коэффициента корреляции, понятие ложной корреляции. Оценка корреляционной связи по коэффициенту корреляции.
Аннотация к работе
Корреляция (от лат. correlatio «соотношение, взаимосвязь») или корреляционная зависимость - это статистическая взаимосвязь двух или более случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). В случае, если изменение одной случайной величины не ведет к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической.Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанес пожар, и количеством пожарных, участвовавших в ликвидации пожара, причем эта корреляция будет положительной. Из этого, однако, не следует вывод «увеличение количества пожарных приводит к увеличению причиненного ущерба», и тем более не будет успешной попытка минимизировать ущерб от пожаров путем ликвидации пожарных бригад.Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Расчет коэффициента корреляции между двумя недихотомическими переменными не лишен смысла только тогда, когда связь между ними линейна (однонаправлена). Ковариация определяется как математическое ожидание произведения отклонений случайных величин. корреляция величина параметрический коэффициент Пользуясь тем, что математическое ожидание произведения независимых случайных величин равно произведению математических ожиданий сомножителей, а математическое ожидание отклонения равно нулю, имеем: . 2) Абсолютная величина ковариации двух случайных величин и не превышает среднего геометрического их дисперсий: Доказательство: Введем в рассмотрение случайную величину (где - среднеквадратическое отклонение) и найдем ее дисперсию .1) Неравенство Коши - Буняковского: если принять в качестве скалярного произведения двух случайных величин ковариацию , то норма случайной величины будет равна , и следствием неравенства Коши - Буняковского будет: . 2) Коэффициент корреляции равен тогда и только тогда, когда и линейно зависимы (исключая события нулевой вероятности, когда несколько точек «выбиваются» из прямой, отражающей линейную зависимость случайных величин): , где . Доказательство: Рассмотрим случайные величины и c нулевыми средними, и дисперсиями, равными, соответственно, и .Корреляционный анализ - метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более переменными. Корреляционный анализ тесно связан с регрессионным анализом (также часто встречается термин «корреляционно-регрессионный анализ», который является более общим статистическим понятием), с его помощью определяют необходимость включения тех или иных факторов в уравнение множественной регрессии, а также оценивают полученное уравнение регрессии на соответствие выявленным связям (используя коэффициент детерминации). На практике считается, что число наблюдений должно не менее чем в 5-6 раз превышать число факторов (также встречается рекомендация использовать пропорцию, не менее чем в 10 раз превышающую количество факторов). В случае если число наблюдений превышает количество факторов в десятки раз, в действие вступает закон больших чисел, который обеспечивает взаимопогашение случайных колебаний.Теснота связи - степень связи между признаками при наличии корреляционной зависимости, когда средняя величина значений одного признака меняется в зависимости от изменения другого признака. Зная количественную оценку тесноты корреляционной связи, таким образом можно решить следующую группу вопросов: необходимо ли глубокое изучение данной связи между признаками и целесообразно ли ее практическое применение; сопоставляя оценки тесноты связи для различных условий, можно судить о степени различий в ее проявлении в конкретных условиях; последовательное рассмотрение и сравнение признака у с различными факторами позволяет выявить, какие из этих факторов в данных конкретных условиях являются главными, решающими факторами, а какие второстепенными, незначительными факторами. Показатели тесноты связи должны удовлетворять ряду основных требований: величина показателя степени тесноты связи должна быть равна или близка к нулю, если связь между изучаемыми признаками (процессами, явлениями) отсутствует; при наличии между изучаемыми признаками (и ) функциональной связи величина степень тесноты связи равна единице; при наличии между