Методы и стадии экономико-статистического исследования. Виды средних величин и дисперсии. Понятие и свойства моды и медианы. Абсолютные и средние показатели вариации. Определение оптимальной численности выборки. Вычисление параметров уравнения регрессии.
Содержанием теории корреляции является изучение зависимости признака от окружающих условий.
Основоположниками теории корреляции являются английские ученые Фрэнсис Гальтон (1822-1911); математик и биолог Карл Пирсон (1857-1936).
Из практики известно, что вариация каждого изучаемого признака находится в тесной связи и взаимодействии с вариацией других признаков, характеризующих исследуемую совокупность.
Например, вариация производительности труда зависит от степени совершенства применяемого оборудования, технологии, организации производства и др.
При изучении конкретных зависимостей одни признаки выступают в качестве факторов, обусловливающих изменение других признаков-результатов.
Статистические показатели могут состоять между собой в факторных связях.
Факторные связи характеризуются тем, что они проявляются в согласованной вариации изучаемых показателей. Одни показатели - факторные, другие - результативные.
В свою очередь факторные связи могут быть: · Функциональные;
· Корреляционные.
Функциональная связь: изменение результативного признака у всецело обусловлено действием факторного признака х: у = f(x)(1)
Функциональная связь проявляется с одинаковой силой у каждой единицы изучаемой совокупности. Знание функциональной зависимости позволяет абсолютно точно прогнозировать события (например, наступление солнечных затмений прогнозируется с точностью до секунды).
Корреляционная связь (correlation - соотношение) - изменение результативного признака у обусловлено не только изменением факторного признака х, а влиянием и прочих факторов ?: у = ?(x) ?(2)
Корреляционные связи - это связи соотносительные. Они не являются полными (жесткими) зависимостями. При одном значении факторного признака х в случае корреляционной связи возможны разные значения результативного признака у.
Корреляционные связи проявляются не в единичных случаях, а в массе. Они изучаются по статистическим данным.
Понятие корреляционно-регрессионного анализа.
Изучение связи показателей коммерческой деятельности необходимо не только для установления факта наличия связи. Определение механизма рыночных связей, взаимодействия спроса и предложения имеет первостепенное значение для прогнозирования конъюнктуры рынка и решения многих вопросов успешного ведения бизнеса.
Если две переменные связаны так, что изменению одной переменной х соответствует систематическое изменение другой переменной у, то для вывода уравнения, с помощью которого оценивается величина одной переменной, если величина другой известна, можно применять регрессионный анализ.
В отличие от него корреляционный анализ применяется для нахождения и выражения тесноты связи между этими двумя переменными.
Более строго: если при каждом значении х=хі наблюдается ni значений уі1, ..., yini величины у, то зависимость средних арифметических =(yi1 ... yini)/ni от xi и является регрессией в статистическом понимании этого термина.
Перед статистикой в корреляционно-регрессионном анализе ставятся задачи: 1. Проверка положений экономической теории о возможности связи между изучаемыми показателями и придании выявленной связи аналитической формы зависимости (регрессионный анализ).
2. Установление количественных оценок тесноты связи, характеризующих силу влияния факторных признаков на результативные (корреляционные методы).
45. Анализ связи парной корреляции. Вычисление параметров уравнения регрессии
Наиболее разработанным в теории статистики является анализ парной корреляции, рассматривающий влияние вариации факторного признака х на результативный у.
1. В основу выявления формы связи положено применение в анализе исходной информации математических функций - уравнения прямолинейной и криволинейной связи.
Основой выявления формы связи является синтез адекватной экономико-математической модели (или уравнения регрессии). Выбор математической функции, адекватно отображающей экономические данные, производится перебором наиболее часто применяемых в анализе парной корреляции уравнений регрессии: ух = а0 а1 х, (прямолинейная зависимость) (3) ух = а0 а1 lgx, (полулогарифмическая) (4) ух = а0 а 1x , (показательная) (5) ух = а0 а0ха1 , (степенная) (6) ух = а0 а1x а2 х2 , (параболическая) (7) и другие.
Смысловое содержание этих моделей: они характеризуют среднюю величину результативного признака в зависимости от вариации признака-фактора х .
2. Решение уравнений связи предполагает вычисление по исходным данным их параметров. Параметры уравнения регрессии а0 и а1 вычисляются методом наименьших квадратов.
Основа этого метода - требование минимальности сумм квадратов отклонений эмпирических данных уі от выровненных - теоретических ухі .
(8)
Например, в случае линейной регрессии, параметры исчисляются по формулам: (9) а0 - сдвиг;
а1 - наклон (коэффициент регрессии). При наличии прямой корреляционной зависимости коэффициент регрессии имеет положительное значение, а в случае обратной зависимости коэффициент регрессии - отрицательный.
Коэффициент регрессии показывает, на сколько в среднем изменяется величина результативного признака у при изменении факторного признака х на единицу. Геометрически коэффициент регрессии представляет собой наклон прямой линии, изображающей уравнение корреляционной зависимости, относительно оси х.
Применение понятий. Интерпретация параметров уравнения регрессии.
Один экономист решил предсказать изменение индекса 500 наиболее активно покупаемых акций на Нью-Йоркской фондовой бирже, публикуемого агентством S&P (Standard and Poor), на основе показателей экономики США за 50 лет. В результате он получил следующее уравнение линейной регрессии: ух = -5,0 7 х
Какой смысл имеют параметры сдвига и наклона?
Сдвиг регрессии равен -5,0. Это значит, что если рост экономики США равен нулю, индекс акций за год снизится на 5%. Наклон равен 7. Следовательно, при увеличении темпов роста экономики на 1% индекс акций возрастет на 7%.
3. Полученные параметры уравнения регрессии необходимо испытать на их типичность. Так проверяется, насколько вычисленные параметры характерны для отображаемого комплекса условий. Не являются ли они результатами действия случайных причин.
Если в совокупности n < 30 (что характерно для малого и среднего бизнеса), для проверки типичности используется t-критерий Стьюдента.
При этом вычисляются значения t-критерия:
для параметра а0 (10) для параметра а1 (11) где - среднее квадратическое отклонение результативного признака уі от выровненных значений ухі ;(12)
- среднее квадратическое отклонение факторного признака хі от общей средней .(13) ta0 и ta1 сравниваются с критическим tk, полученным по таблице Стьюдента, с учетом принятого уровня значимости ? и числа степеней свободы k=n-2.
Мы должны обосновать применение метода функционального анализа при изучении корреляционной зависимости. Для этого докажем, что применение метода функционального анализа при изучении корреляционной зависимости не дает существенных погрешностей.
Это осуществляется посредством показателей тесноты связи между признаками х и у.
Для статистической оценки тесноты связи между признаками х и у применяются следующие показатели вариации: 1) Общая дисперсия результативного признака, отображающая совокупное влияние всех факторов
,(15)
Где уі - эмпирические значения
- общая средняя теоретических (выровненных) значений.
Отклонения обусловлены тем, что сочетание факторов, влияющих на вариацию признака у, для каждой единицы анализируемой совокупности различно.
2) Факторная дисперсия результативного признака отображающая вариацию результата у только от воздействия изучаемого фактора х
,(16) где - теоретические (выровненные) значения.
Факторная дисперсия характеризует отклонения выровненных значений от их общей средней величины.
3) Остаточная дисперсия отображает вариацию результативного признака у от всех прочих, кроме х, факторов
. (17)
Остаточная дисперсия характеризует отклонения эмпирических (фактических) значений результативного признака у от их выровненных значений .
5. Индекс детерминации (причинности) R2 выражает долю факторной дисперсии в общей дисперси . При прямолинейной форме связи определяется линейный коэффициент корреляции r : .(22)
6. Показатели тесноты связи для небольших статистических совокупностей могут искажаться действием случайных причин, поэтому возникает необходимость проверки их существенности.Для оценки значимости r (линейного коэффициента корреляции), применяется t - критерий Стьюдента. Определяется фактическое значение критерия: (23)
Далее рассчитанное значение критерия tr сравнивается с критическим tk , взятым из таблицы Стьюдента с учетом ?(уровня значимости) и k(числа степеней свободы).
Если tr > tk, то величина линейного коэффициента корреляции r - существенна.
Для оценки значимости R (эмпирического корреляционного отношения), применяется F - критерий Фишера.
Определяется фактическое значение критерия: (24)
Здесь m - число параметров уравнения регрессии.
Далее рассчитанное значение критерия FR сравнивается с критическим Fk из таблицы F - критерия с учетом ?(уровня значимости) и k1 = m-1; k2 = n-m (числа степеней свободы)
Если FR > Fk, то величина эмпирического корреляционного отношения R - существенна.
47. Анализ связи парной корреляции. Шкала Чеддока. Показатель средней ошибки аппроксимации
7. Для получения выводов о практической значимости синтезированных в анализе моделей показаниям тесноты связи дается качественная оценка по шкале Чеддока: Показания тесноты связи 0,1 - 0,3 0,3 - 0,5 0,5 - 0,7 0,7 - 0,9 0,9 - 0,99
Характеристика силы связи слабая умеренная заметная высокая весьма высокая
При значении показателя равном 1 имеет место функциональная связь.
При значении показателя равном 0 связь отсутствует.
Если, например, значение показателя тесноты связи R2 > 0,7(индекс детерминации) , это означает, что более половины общей вариации результативного признака у объясняется влиянием изучаемого фактора х.
8. Для оценки адекватности уравнения регрессии можно использовать показатель средней ошибки аппроксимации : (25)
Здесь /уі - yxi / линейные отклонения абсолютных величин эмпирических и выровненных точек регрессии.
Если минимальна, то соответствующая математическая модель является наиболее адекватной для практических целей (прогнозирования в регрессионном анализе: интерполяция и экстраполяция).
Прогнозирование в регрессионном анализе: интерполяция и экстраполяция
Применяя регрессионную модель для прогнозирования, необходимо учитывать лишь допустимые значения (relevant range) факторного признака (независимой переменной). В этот диапазон входят все значения переменной Х, начиная с минимального и заканчивая максимальным. Таким образом, предсказывая значение переменной У при конкретном значении переменной Х, исследователь выполняет интерполяцию между значениями переменной Х в диапазоне возможных значений. Однако экстраполяция за пределы этого интервала невозможна.
Например, пытаясь предсказать среднегодовой объем продаж в магазине, зная его площадь, мы можем вычислять значения переменной У лишь для значений переменной Х от1,1 до 5,8 тыс. кв. футов. Следовательно, прогнозировать среднегодовой объем продаж можно лишь для магазинов, площадь которых не выходит за пределы указанного диапазона.
Любая попытка экстраполяции означает, что мы предполагаем, что линейная регрессия сохраняет свой характер за пределами допустимого диапазона.
48. Непараметрические методы оценки корреляционной связи показателей. Коэффициент ассоциации. Коэффициент контингенции
На практике часто необходимо точно регистрировать не только количественные, но и качественные факторы.
При исследовании степени тесноты связи между качественными признаками, каждый из которых представлен в виде альтернативных признаков, возможно использование "тетрахорических показателей".
Расчетная таблица для двух признаков состоит из четырех ячеек (а,в,с,d). Каждая клетка соответствует альтернативе того и другого признака.
Да Нет
Да a b
Нет c d
Для анализа данных из таких таблиц построен ряд показателей: - коэффициент ассоциации Д. Юла Ка и коэффициент контингенции К.Пирсона Кк : Кк = (27)
Коэффициент контингенции всегда находится в пределах от -1 до 1. Кроме того, значение коэффициента контингенции всегда меньше коэффициента ассоциации.
-1 < Кк < 1 ; Кк < Ка .
49. Непараметрические методы оценки корреляционной связи показателей. Коэффициент корреляции рангов. Коэффициент конкордации
Для определения тесноты связи как между количественными, так и между качественными признаками (если значения признаков могут быть упорядочены, проранжированы по степени убывания или возрастания) можно использовать коэффициент корреляции рангов Спирмена rсп: rсп=1 - ,(28)
где - квадраты разности рангов связанных величин х и у, n - число наблюдений (число пар рангов).
Если каждый качественный признак состоит более чем из двух групп, то для определения тесноты связи применяются: коэффициент взаимной сопряженности К.Пирсона: (29)
Здесь К1 - число групп по колонкам; К2 - число групп по строкам.
Коэффициент взаимной сопряженности А.А.Чупрова находится в пределах от 0 до 1. Это более точный коэффициент, по сравнению с коэффициентом взаимной сопряженности К.Пирсона, т.к. учитывает число групп по каждому признаку.
0 < Cr < 1
Чупров Александр Александрович (1874-1926) - русский теоретик статистики. С 1917г. проживал за границей.
Применение понятий: Для десяти однотипных совместных предприятий известны следующие показатели: № СП Реализация продукции, млн. у.е., у Накладные расходы на реализацию, тыс. у.е., х Себестоимость единицы продукции, 0,01 у.е., z Средняя месячная зарплата работников, у.е., v
1 12,0 462 68,8 168,5
2 18,8 939 70,2 158,7
3 11,0 506 71,4 171,7
4 29,0 1108 78,5 183,9
5 17,5 872 66,9 160,4
6 23,9 765 69,7 165,2
7 35,6 1368 72,3 175,0
8 15,4 1002 77,5 170,4
9 26,1 998 65,2 162,7
10 20,7 804 70,7 163,0
Рассчитаем тесноту связи между указанными факторами с помощью коэффициента конкордации. Выполняем вспомогательные расчеты, результаты которых представим в таблице. Присваиваем ранги исходным данным: Ry Rx Rz Rv Сумма по строке Квадраты сумм
2 1 3 6 12 144
5 6 5 1 17 289
1 2 7 8 18 324
9 9 10 10 38 1444
4 5 2 2 13 169
7 3 4 5 19 361
10 10 8 9 37 1369
3 8 9 7 27 729
8 7 1 3 19 361
6 4 6 4 20 400
a=220 a=5590
S = 5590 - (220)2/10 = 5590 - 4840 = 750
W = (12*750) / (16*(1000-10)) = 0,57
Выводы: Величина коэффициента конкордации показывает, что между исследуемыми величинами имеется тесная зависимость. Это объясняется тем, что все рассматриваемые величины являются показателями эффективности работы СП.
Размещено на .ru
Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность своей работы