Корреляционные поля и цель их построения. Коэффициенты уравнения парной линейной регрессии. Связь между коэффициентами регрессии и корреляции. Определение параметров парной линейной регрессии. Графическое представление уравнения парной линейной регрессии.
Аннотация к работе
Обработка статистических данных уже давно применяется в самых разнообразных видах человеческой деятельности. Но, пожалуй, ни в одной области знаний и практической деятельности обработка статистических данных не играет такой исключительно большой роли, как в экономике, имеющей дело с обработкой и анализом огромных массивов информации о социально-экономических явлениях и процессах. Всесторонний и глубокий анализ этой информации, так называемых статистических данных, предполагает использование различных специальных методов, важное место среди которых занимает корреляционный и регрессионный анализы обработки статистических данных.Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (xi, yi) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений xi и yi. Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: mx, my - средние значения (математические ожидания); sx,sy - стандартные отклонения случайных величин Х и Y и р - коэффициент корреляции, который является мерой связи между случайными величинами Х и Y. В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными.То есть зависимость между переменными величинами Y и Х можно выразить аналитически с помощью формул и уравнений и графически в виде геометрического места точек в системе прямоугольных координат. График корреляционной зависимости строится по уравнениям функции и , которые называются регрессией (термин “регрессия” происходит от лат. regressio - движение назад). Показатели регрессии выражают корреляционную связь двусторонне, учитывая изменение средней величины признака Y при изменении значений xi признака X, и, наоборот, показывают изменение средней величины признака Х по измененным значениям yi признака Y.Обычно признак Y рассматривается как функция многих аргументов - x1, x2, x3, ...- В этом уравнении параметр а - свободный член; графически он представляет отрезок ординаты (у) в системе прямоугольных координат. С точки зрения аналитической геометрии b-угловой коэффициент, определяющий наклон линии регрессии по отношению к осям, координат. В области регрессионного анализа этот параметр показывает, насколько в среднем величина одного признака (Y) изменяется при изменении на единицу меры другого корреляционно связанного с Y признака X. Наглядное представление об этом параметре и о положении линий регрессии Y по Х и X по Y в системе прямоугольных координат дает рисунок 2.1.Как уже было определено выше, в случае линейной зависимости уравнение регрессии является уравнением прямой линии. Таких уравнений два: Y = a1 by/XX - прямое и X = a2 bx/YY - обратное, (2.2) где: a и b - коэффициенты, или параметры, которые надлежит определить. Значение коэффициентов регрессии вычисляется по формуле: и . Для оценки качества уравнений регрессии вычисляются остаточные средние квадратические отклонения (или абсолютные погрешности уравнений) по формуле: и .Между коэффициентом корреляции и параметром парной линейной регрессии существует зависимость, которая применительно к выборочным оценкам может быть представлена следующим образом: ,(2.7) где: и sy, sx - средние квадратические ошибки. Приведенное выражение позволяет оценить параметр регрессии без решения системы нормальных уравнений при условии, что коэффициент корреляции уже определен. Эта формула ценна тем, что, во-первых, может быть использована для нахождения неизвестной величины коэффициента корреляции по известным значениям коэффициента регрессии by/x и bx/y, а во-вторых, позволяет контролировать правильность расчета коэффициента корреляции, если известны величины by/x и bx/y.Она решается способом наименьших квадратов, основанным на требовании, чтобы сумма квадратов отклонений вариант от линии регрессии была наименьшей. Этому требованию удовлетворяет следующая система нормальных уравнений: Ряды регрессии - это ряды усредненных значений (yx и xy) варьирующих признаков Y и X, соответствующих значениям аргументов xi и yi. В таком случае система нормальных уравнений для определения параметров а и b будет следующая: Поскольку и , то параметр b выразится в виде приведенной формулы (2.3); параметр а легко найти по формуле (2.4).Эмпирические ряды регрессии Y по Х и Х по Y изображаются в виде линейного графика, при построении которого наиболее точным является использование способа наименьших квадратов, предложенного в 1806 г.