Корреляционно-регрессионный анализ экономических процессов - Курсовая работа

бесплатно 0
4.5 112
Сущность корреляционно-регрессионного анализа и экономико-математической модели. Обеспечение объема и случайного состава выборки. Измерение степени тесноты связи между переменными. Составление уравнений регрессии, их экономико-статистический анализ.


Аннотация к работе
Цель работы - построение математической модели, описывающей взаимоотношения параметров: число пользователей глобальной сети Интернет, его доступность (т.е. цена за пользование) и скорость интернет-соединения. Анализ числа пользователей Интернета крайне важен в Интернет-маркетинге, так как пользователи - это те потенциальные покупатели, потребители товара (услуги), на которых направлено действие маркетинговых инструментов в Интернете. Логично предположить, что число пользователей зависит от цены за пользование Интернетом (доступность) и скорости предоставляемой услуги. Используем метод сопоставления параллельных рядов для выявления связи между одним из аргументов рассматриваемой экономико-математической модели - доступностью Интернета х2 и функцией - числом пользователей Интернета х1 (таблица 2). В ней по изменению средних значений фактора-функции х1 прослеживается прямая связь между скоростью доступа в Интернет и числом его пользователей.Значения при разных уровнях значимости и точном числе степеней свободы Значение при уровне значимости 0,05 Логарифмируем х1, х2 и х3 (рисунок 4.1) Рисунок 4.

Введение
Возможно, ни в одной области знаний и практической деятельности человека обработка статистических данных не играет такой большой роли, как в экономике, в которой анализируются большие объемы информации о социально-экономических явлениях и процессах. Анализ такой информации, так называемых статистических данных, предполагает использование различных специальных методов, среди которых наиболее часто применяют корреляционно-регрессионный анализ. Актуальность изучения данной темы объясняется тем, что на основе результатов корреляционно-регрессионного анализа можно спрогнозировать «поведение» того или иного социально-экономического процесса, выявить наиболее значимые факторы, влияющие на него и принять продуманное, эффективное решение.

Цель работы - построение математической модели, описывающей взаимоотношения параметров: число пользователей глобальной сети Интернет, его доступность (т.е. цена за пользование) и скорость интернет-соединения.

Достижение поставленной цели предполагает решение следующих задач: - собрать необходимую информацию по данным параметрам;

- провести ее предварительную обработку;

- выполнить корреляционный и регрессионный анализ;

- составить уравнение регрессии;

- выполнить экономико-статистический анализ уравнения регрессии.

Объект исследования - статистические данные по числу пользователей глобальной сети Интернет, цене за доступ в сеть, скорости предоставления услуги.

Предмет исследования - определение характера и силы зависимости между исследуемыми параметрами.

1. Сбор информации и ее предварительная обработка

1.1 Обеспечение необходимого объема и случайного состава выборки

Анализ числа пользователей Интернета крайне важен в Интернет-маркетинге, так как пользователи - это те потенциальные покупатели, потребители товара (услуги), на которых направлено действие маркетинговых инструментов в Интернете. Логично предположить, что число пользователей зависит от цены за пользование Интернетом (доступность) и скорости предоставляемой услуги.

Положения теории корреляционно-регрессионного анализа будем рассматривать по следующей исходной экономико-математической модели: , где х1 - число пользователей Интернета, млн чел.;

х2 - доступность Интернета, руб. за 1Мбит/сек.;

х3 - скорость доступа в Интернет, Мбит/сек.

Исходные данные представлены в таблице 1.

Таблица 1 - Исходная выборка

№ п/п Год, квартал Число пользователей, млн чел. (х1) Доступность Интернета, руб. за 1Мбит/сек. (х2) Скорость доступа, Мбит/сек. (х3)

2008 30,5 1050 0,4

1 1 27 1150 0,28

2 2 29 1077 0,37

3 3 32 1023 0,45

4 4 34 950 0,5

2009 39,7 660 1,1

5 1 36 880 0,65

6 2 39,8 711 0,85

7 3 40 580 1,2

8 4 43 469 1,7

2010 46,5 356 2,5

9 1 43 444 1,7

10 2 45 376 1,8

11 3 47 320 2,5

12 4 51 284 4

2011 53,8 145 6,4

13 1 51 248 4,1

14 2 53 173 5,3

15 3 54 112 6

16 4 57 47 10,2

2012 61,3 26 21

17 1 57 34 12

18 2 58 28 17

19 3 62 23 25

20 4 67 19 30

Определим медиану ряда х1: Ме=(45 47)/2=46

Проверим на случайность выборку показателя х1. Исходная выборка имеет вид: 27- 29- 32- 34- 36- 39,8- 40- 43- 43- 45- 47 51 51 53 54 57 57 58 62 67

Строим ранжированный ряд в порядке возрастания х1: 27 29 32 34 36 39,8 40 43 43 45 47 51 51 53 54 57 57 58 62 67

Общее число серий = 2.

Протяженность самой длинной серии = 10.

Данные характеристики должны удовлетворять условиям:

Условия выглядят следующим образом:

Условия не выполнены, следовательно, выборка не случайна.

1.2 Построение рядов распределения, определение их характеристик

Ряд распределения - это совокупность значений фактора, записанных в порядке сбора информации (проведения наблюдений). В качестве одной из важнейших характеристик радов распределения применяют средние величины. Наиболее употребительная - средняя арифметическая : , где - число членов ряда распределения;

- значение j-го члена ряда.

В рассматриваемом ряду распределения среднее число пользователей Интернета: Определим моду ряда. В рассматриваемом ряду более чем одна мода (Mo1 = 43, 51, 57) - совокупность мультимодальна.

При четном числе членов ряда медиана определяется по формуле:

Таким образом, медиана составит:

Оценим вариацию как разницу между наибольшим и наименьшим значениями членов ряда, т.е. установим размах вариации R: R=67-27=40

Найдем отклонения от средней арифметической с помощью показателей: - дисперсия ?2 :

- среднее квадратическое отклонение ?:

Данные показатели относятся к абсолютным показателям вариации.

- коэффициент вариации по среднему квадратическому отклонению (относительный показатель):

В рассматриваемом примере данные показатели составляют:

Нормальный уровень колеблемости данных находится в интервале 2-33%. В рассматриваемом ряду числа пользователей колеблемость данных нормальная.

Для основных характеристик рядов распределения рассчитаем так называемые стандартные ошибки. Например, стандартная ошибка средней арифметической :

Она показывает, как отклоняется средняя арифметическая выборки от значений фактора в генеральной совокупности.

Процентное отношение и выражает точность проведения исследования ?:

Этот показатель считается допустимым, если не превышает 3-5%.

В рассматриваемом примере:

Точность проведения исследования по числу Интернет-пользователей незначительно превышает допустимый предел в 5%.

Проверим сомнительные члены ряда: если сомнительный вариант отличается от более чем на 4?, то он может быть исключен из ряда. В рассматриваемом ряду сомнительных членов ряда нет.

1.3 Качественный анализ факторов для отбора в экономико-математическую модель

Построение рядов распределения и расчет их характеристик даст возможность провести предварительный качественный анализ связи каждого фактора-аргумента исходной экономико-математической модели с фактором-функцией. Для этого воспользуемся различными статистическими методами.

Используем метод сопоставления параллельных рядов для выявления связи между одним из аргументов рассматриваемой экономико-математической модели - доступностью Интернета х2 и функцией - числом пользователей Интернета х1 (таблица 2).

Таблица 2 - Сопоставление числа пользователей и доступности Интернета

Год Квартал х2 х1

2008 1 1150 27

2 1077 29

3 1023 32

4 950 34

2009 1 880 36

2 711 39,8

3 580 40

4 469 43

2010 1 444 43

2 376 45

3 320 47

4 284 51

2011 1 248 51

2 173 53

3 112 54

4 47 57

2012 1 34 57

2 28 58

3 23 62

4 19 67

Просматривая два параллельных ряда, можно заметить, что с уменьшением х2 возрастает х1. Следовательно, можно предположить между х1 и х2 обратную зависимость. Для ее выявления используем метод аналитических группировок, который позволяет выявить корреляционную зависимость более четко.

Для этого следует использовать формулу определения оптимальной величины интервала в построении ряда распределения по фактору-аргументу с учетом правила А.А. Чупрова: «Чем больше групп мы в состоянии нарезать, не наталкиваясь ни на одно исключение, тем прочнее вывод о наличии связи, т.е. оптимальное число групп имеет место в том случае, когда групповые средние перестанут носить случайный характер и в то же время группировочный признак проявит себя в полной мере». [1]

Оптимальная величина интервала для ряда распределения фактора-аргумента составит: Расчетное значение величины интервала округлим до ближайшего числа того же порядка, что и значения исходной выборки. В данном случае это 212 и 213. В соответствии с этими величинами интервалов получаем две возможные группировки с числом групп 6. Результаты группировок представлены в таблице 3.

Таблица 3 - Группировка данных доступности Интернета

Номер группы

1 0-212 7 408 58,3 0-213 7 408 58,3

2 212-424 4 194 48,5 213-426 4 194 48,5

3 424-636 3 126 42 426-639 3 126 42

4 636-848 1 39,8 39,8 639-852 1 39,8 39,8

5 848-1060 3 102 34 852-1065 3 102 34

6 1060-1272 2 56 28 1065-1278 2 56 28

Итого - 20 925,8 - - 20 925,8 -

*- число наблюдений(частота) в к-й группе;

** - средняя арифметическая в к-й группе.

Условие Чупрова выдерживается в обеих группировках, так как величины интервалов не намного отличаются друг от друга.

Для установления корреляционной зависимости используем корреляционную таблицу. Она систематизирует результаты статистической выборки по двум варьирующим признакам и охватывает два зависимых ряда распределения: один ряд распределения представляет фактор-аргумент, а другой - фактор-функцию. Корреляционная таблица может обеспечить наиболее правильную характеристику связи только в том случае, когда число интервалов по двум признакам примерно одинаковое.

Если взять = 8 то количество интервалов по х1 составит 6.

Составим корреляционную таблицу (таблица 4).

Таблица 4 - Корреляционная таблица численности пользователей и доступности Интернета

Интервалы ПОИНТЕРВАЛЫ ПОИТОГО

0-212 212-424 424-636 636-848 848-1060 1060-1272

23-31 - - - - - 2 2

31-39 - - - - 3 - 3

39-47 - 2 3 1 - - 6

47-55 2 2 - - - - 4

55-63 4 - - - - - 4

63-71 1 - - - - - 1

Итого 7 4 3 1 3 2 20

Внутренние клетки таблицы содержат частоты, т.е. показывают число пользователей, оказавшихся в соответствующих интервалах по х1 и х2. Подведены горизонтальные и вертикальные итоги частот и указан общий итог 20. Цена за пользование Интернетом в первых вертикальных рядах наиболее доступная (фактор ) и количество пользователей в данных рядах наибольшее. При переходе слева направо, когда наблюдается повышение платы за доступ в Интернет, наблюдается смещение рядов распределения функции х1: с увеличением х2 снижается х1. Следовательно, имеет место обратная связь х2 и х1.

Интенсивная концентрация частот около диагонали указывает на существование тесной связи между факторами.

На основании корреляционной таблицы построим график корреляции (рис.1).

Рисунок 1 - Поле корреляции численности пользователей и доступности Интернета экономический статистический модель корреляционный

Поле корреляции дает в основном представление о наличии и направлении связи (в данном случае, обратная). Поэтому его целесообразно дополнить построением эмпирической линии регрессии, которая позволяет более наглядно спрогнозировать форму связи между исследуемыми факторами (рис.2).

Рисунок 2 - Эмпирическая линия регрессии в поле корреляции числа пользователей и доступности Интернета

Эмпирическая линия регрессии показывает наличие обратной связи между числом пользователей Интернета и его доступностью. Эта связь достаточно тесная, так как линия регрессии дает возможность рассмотреть прямую, к которой линия регрессии стремится. Это объясняет то, что количество пользователей глобальной сети в большей мере зависит от цены предоставляемых услуг доступа в Интернет.

Повторим вышеописанные действия для функции х1 (число пользователей Интернета) и аргумента х3 (скорость доступа).

Оптимальная величина интервала для ряда распределения фактора-аргумента составит:

Расчетное значение величины интервала округлим до ближайшего числа того же порядка, что и значения исходной выборки: 5 и 6. Результаты группировок представлены в таблице 5.

Таблица 5 - Группировка данных скорости доступа в Интернет

Номер группы

1 0-5 13 517,8 39,8 0-6 15 624,8 41,7

2 5-10 2 107 53,5 6-12 2 114 57

3 10-15 2 114 57 12-18 1 58 58

4 15-20 1 58 58 18-24 0 - -

5 20-25 1 62 62 24-30 2 129 64,5

6 25-30 1 67 67 - - - -

Итого - 20 925,8 - - 20 925,8 -

*- число наблюдений(частота) в к-й группе;

** - средняя арифметическая в к-й группе.

С учетом правила Чупрова целесообразнее принять первую группировку с большим числом групп. В ней по изменению средних значений фактора-функции х1 прослеживается прямая связь между скоростью доступа в Интернет и числом его пользователей.

Оптимальная величина интервала для х1 уже была определена ранее: , тогда количество интервалов по составит 6.

Результаты группировок сведены в таблицу 6.

Таблица 6 - Корреляционная таблица численности пользователей и доступности Интернета

Интервалы ПОИНТЕРВАЛЫ ПОИТОГО

0-5 5-10 10-15 15-20 20-25 25-30

23-31 2 - - - - - 2

31-39 3 - - - - - 3

39-47 6 - - - - - 6

47-55 2 2 - - - - 4

55-63 - - 2 1 1 - 4

63-71 - - - - - 1 1

Итого 13 2 2 1 1 1 20

Минимальная скорость доступа в Интернет в первых вертикальных рядах (фактор х3). С увеличением скорости (при переходе слева направо) наблюдается увеличение общего числа пользователей. Имеет место прямая связь между х3 и х1.

Концентрация частот около диагонали указывает на существование связи между факторами.

На основании корреляционной таблицы построим график корреляции (рис.3).

Рисунок 3 - Поле корреляции числа пользователей и скорости Интернета

Дополним поле корреляции эмпирической линией регрессии (рис.4).

Рисунок 4 - Эмпирическая линия регрессии в поле корреляции числа пользователей и скорости Интернета

Эмпирическая линия регрессии показывает наличие прямой связи между числом пользователей Интернета и его скоростью.

1.4 Проверка исходных данных на нормальность распределения

Необходимым и заключительным этапом предварительной обработки исходных данных является проверка их на нормальность распределения.

Простейшим уравнением кривой нормального распределения является закон Лапласса-Гаусса:

или , где - ордината кривой нормального распределения;

- значение признака в пределах каждого интервала его ряда распределения;

- средняя арифметическая признака;

- среднее квадратическое отклонение признака;

- нормированное отклонение, ;

- основание натурального логарифма.

График Лапласа - Гаусса представлен на рисунке 5.

Рисунок 5 - Кривая нормального распределения

Кривая симметрична относительно некоторой оси - наибольшей ее ординаты, восстановленной из той точки на оси абсцисс, которая соответствует средней арифметической. Ветви ее асимптотически приближаются к оси абсцисс. Кривая имеет точки перегиба при , т.е. при таких отклонениях значений признака от средней арифметической, которые равны среднеквадратическому отклонению.

Центр группировки частот и форма нормальной кривой определяются и . Чем больше , тем правее по оси абсцисс находится центр нормального распределения. При малых кривая нормального распределения вытянута вверх и сжата с боков. Для того чтобы определить, насколько близка анализируемая кривая к нормальному распределению, необходимо прежде всего найти асимметрию. [1]

На симметричном графике=Мо=Ме. При правосторонней асимметрии Мо .

В ряду распределения числа пользователей Интернета - функции рассматриваемой экономико-математической модели ; Мо1=(43;51;57); Ме1=46. Имеет место как правосторонняя, так и левосторонняя ассиметрия. Оценим ее умеренность, проверив исходные данные этого ряда распределения на нормальность.

Существует ряд критериев согласия, по которым можно оценить близость распределения в выборках по каждому из факторов исследуемой модели к нормальному распределению. Одним из них является критерий согласия Пирсона или критерий (хи-квадрат): , где - эмпирическая (фактическая) частота анализируемого ряда распределения в к-й группе;

- его теоретическая частота в к-й группе.

Распределение анализируемой выборки является нормальным, если удовлетворяет критерию Романовского:

где - число степеней свободы анализируемого ряда распределения, ;

k - количество интервалов в анализируемом ряду распределения.

Теоретические частоты рада (ординаты кривой нормального распределения) определяются по трансформированной формуле:

или

Таблица значений приведена в приложении 1. Значение функции определяется в зависимости от величины t.

Расчет для ряда распределения численности пользователей Интернета ( = 46,29; =11,31; = 8; =20) приведен в таблице 7.

Таблица 7 - Расчет х2 для х1

Интервалы по Частота интервала Середина интервала

23-31 2 27 -1,71 0,0925 1,23?1

31-39 3 35 -1,00 0,2371 3,15?3

39-47 6 43 -0,29 0,3778 5,02?5

47-55 4 51 0,42 0,3621 4,82?5

55-63 4 59 1,12 0,2050 2,72?3

63-71 1 67 1,83 0,0707 0,94?1

Сумма теоретических частот должна с принятой точностью совпадать с суммой фактических частот. В данном примере =17, а =20.

В расчете использована величина:

Определим :

Левая часть критерия Романовского: Данное отношение меньше 3, распределение числа пользователей можно считать нормальным и применять к нему параметрические методы корреляционного анализа.

Выборки данных во множественной корреляции являются многомерными. Поэтому также проверяется гипотеза о нормальности частных распределений каждого фактора: х2 и х3.

Расчет для ряда распределения доступность Интернета ( = 447,4; =390,34; = 212; =20) приведен в таблице 8.

Таблица 8 - Расчет х2 для х2

Интервалы по Частота интервала Середина интервала

0-212 7 106 -0,87 0,2637 2,86?3

212-424 4 318 -0,33 0,3790 4,12?4

424-636 3 530 0,21 0,3885 4,22?4

636-848 1 742 0,75 0,2303 2,5?3

848-1060 3 954 1,30 0,1604 1,71?2

1060-1272 2 1166 1,84 0,0707 0,77?1

В данном случает сумма теоретических частот не совпадает с суммой фактических частот. В данном примере =17; =20.

В расчете использована величина:

Критерий Пирсона равен: .

Левая часть критерия Романовского: Данное отношение меньше 3, распределение доступности Интернета можно считать нормальным и применять к нему параметрические методы корреляционного анализа.

Расчет для ряда распределения скорость Интернета ( = 6,28; =73,09; = 5; =20) приведен в таблице 9.

Таблица 9 - Расчет х2 для х3

Интервалы по Частота интервала Середина интервала

0-5 13 2,5 -0,05 0,3965 0,54 ? 1

5-10 2 7,5 0,02 0,3989 0,55 ? 1

10-15 2 12,5 0,09 0,3956 0,54 ? 1

15-20 1 17,5 0,15 0,3876 0,53 ? 1

20-25 1 22,5 0,22 0,3867 0,53 ? 1

25-30 1 27,5 0,29 0,3739 0,51? 1

В данном случает сумма теоретических частот не совпадает с суммой фактических частот. В данном примере =6; =20.

В расчете использована величина:

Критерий Пирсона равен: .

Левая часть критерия Романовского: Данное отношение меньше 3, распределение скорости Интернета можно считать нормальным и применять к нему параметрические методы корреляционного анализа.

2. Измерение степени тесноты связи между исследуемыми переменными

После предварительной обработки исходной информации становится возможной количественная оценка интенсивности связи между исследуемыми переменными. Она производится с помощью коэффициентов корреляции - в случае линейной связи и корреляционных отношений - в случае нелинейной связи.

Парный коэффициент корреляции характеризует связь между двумя случайными величинами х1 и х2 при условии линейной корреляции между ними. [1]

В случае множественной корреляции расчет парных коэффициентов корреляций между парой исследуемых переменных приводит к образованию матрицы парных коэффициентов (таблице 10).

Таблица 10 - Матрица парных коэффициентов корреляции

Наиболее сильной оказалась обратная связь между функцией и доступностью Интернета (=-0,97), несколько меньше связь между функцией и скоростью Интернета (=0,82). Полученные парные коэффициенты корреляции имеют вполне определенное толкование: коэффициент корреляции =0,82 показывает, что при увеличении скорости Интернета на =8,5 Мбит/сек., увеличится число пользователей на 9,27 млн чел. (0,82*0,82*11,31=9,27).

При анализе парных коэффициентов корреляции необходимо обратить внимание на наличие в экономико-математической модели мультиколлинеарности (наличие функциональной или близкой к ней связи между факторами). В качестве индикаторов возможного наличия мультиколлинеарности выступают парные коэффициенты корреляции факторов-аргументов. Если коэффициент корреляции больше 0,8, это говорит о наличии в модели мультиколлинеарности. Мультиколлинеарность снижает надежность оценок параметров экономико-математической модели, приводит к неверным выводам, поэтому при ее обнаружении мультиколлинеарные факторы исключают из модели. [1]

В рассматриваемом примере корреляция двух факторов (доступности Интернета и его скоростью) составляет -0,68, что меньше 0,8. Таким образом, предположение о мультиколлинеарности отклоняется.

Уточненим исходную экономико-математическую модель. Для рассматриваемого примера она формулируется теперь следующим образом: найти аналитическое выражение, показывающее, как связаны между собой численность Интернет-пользователей х1 и определяющие ее показатели: доступность Интернета х2 и скорость доступа х3, т.е. определить функцию:

Линейный коэффициент корреляции достаточно точно оценивает степень тесноты связи в случае линейной зависимости между признаками. При наличии же нелинейной зависимости он недооценивает степень тесноты связи. Поэтому при необходимости точной оценки степени тесноты связи в случае криволинейной корреляции между признаками х1 и х2 рассчитывают теоретическое корреляционное отношение, где - дисперсия признака х1;

- межгрупповая дисперсия признака х1, характеризующая ту часть его колеблемости, которая складывается под влиянием изменения признака х2,

Заметим, что в отличие от линейных коэффициентов корреляции .

Рассчитаем для оценки тесноты связи между числом пользователей Интернета и его доступностью. Сведем расчет в таблицу 11 (= 46,29; = 127,83).

Таблица 11 - Расчет

Интервалы по

0-212 7 58,3 12,04 144,96 1014,73

212-424 4 48,5 2,24 5,02 20,07

424-636 3 42 -4,26 18,15 54,44

636-848 1 39,8 -6,46 41,73 41,73

848-1060 3 34 -12,26 150,31 450,92

1060-1272 2 28 -18,26 333,43 666,86

Итого 20 - - - 2248,75

Значение несколько меньше = 0,97 по модулю вследствие разного подхода к их расчету (точного по каждому наблюдению для и грубого группового для ). Практически же они совпадают.

Аналогичным образом рассчитаем отношение для оценки тесноты связи между числом пользователей Интернета и его скоростью (таблица 12).

Таблица 12 - Расчет

Интервалы по

0-5 13 39,8 -5,49 30,14 391,82

5-10 2 53,5 8,21 67,40 134,81

10-15 2 57 11,71 137,12 274,25

15-20 1 58 12,71 161,54 161,54

20-25 1 62 16,71 279,22 279,22

25-30 1 67 21,71 471,32 471,32

Итого 20 - - - 1712,97

Отношение и значение совпадают и составляют 0,82.

Тесноту связи между функцией и совокупностью всех аргументов в случае множественной корреляции характеризует множественный коэффициент корреляции R. Расчет множественного коэффициента корреляции произведен с помощью MS Excel (таблица 13).

Таблица 13 - Регрессионный анализ

Степень тесноты связи между численностью Интернет-пользователей, скоростью и доступностью Интернета сильная и составляет R=0,994.

После расчета коэффициентов корреляции необходимо проверить их существенность, т.е. в какой мере полученные значения коэффициентов корреляции в выборочных совокупностях распространяются на соответствующие генеральные совокупности.

В качестве критерия значимости (надежности) парных и частных коэффициентов корреляции рассчитаем значение распределения Стьюдента .

Они рассчитываются для частных коэффициентов корреляции исследуемых зависимостей и представляются в виде матрицы значений распределения Стьюдента. Их сопоставляют с табличными, приведенными в приложении 2. Табличные значения даны для степеней свободы и уровня значимости (0,05). Если , то данный коэффициент корреляции существен. Табличное значение Ттабл=2,1. Расчетные значения T-критерия для х2 и х3 представлены в таблице 14.

Таблица 14 - Расчетные значения T-критерия

Вычисленные значения Т значительно выше Ттабл, следовательно коэффициенты корреляции статистически значимы.

Оценим надежность множественного коэффициента корреляции, используя критерий Фишера:

Если (табличные значения коэффициента Фишера приведены в приложении 3 для уровня значимости 0,05 с и степенями свободы), то связь существенна.

В рассматриваемом примере при = 2 и = 17 имеем = 3,59 и 657,7. Следовательно, связь между функцией и совокупностью аргументов в анализируемой модели достоверна.

3. Составление и решение уравнений регрессии

Следующим этапом корреляционно-регрессионного анализа является выбор математической формы связи фактора-функции с каждым фактором-аргументом, включенным в экономико-математическую модель, и решение соответствующего уравнения связи (уравнения регрессии).

В общем виде уравнение регрессии записывается в виде: , где - расчетное значение функции , соответствующее заданным значениям аргументов ;

- одномерная зависимость и .

Наиболее распространены следующие функции: линейные: степенные: ;

линейно-логарифмические: где - искомые коэффициенты регрессии для выбранной формы связи (=2,3,…,p), показывающие к какому изменению функции приводит изменение на единицу i -го аргумента.

Ориентировочное представление о форме связи функции с каждым аргументом можно получить, анализируя соответствующее поле корреляции и эмпирическую линию регрессии. Этот путь основан на действии закона больших чисел, поэтому может дать удовлетворительный результат только при значительном числе наблюдений. При малом числе наблюдений такой путь невозможен. [1]

Относительно рассматриваемой в нашей зависимости числа пользователей Интернета и его скоростью (рисунок 3) можно предположить, что связь имеет степенную форму (число наблюдений крайне мало, выбор именно данной формы для уравнения регрессии рискован).

Часто при выборе формы связи двух переменных приходится решать, является связь линейной или нет. Ответить на этот вопрос можно, сравнивая вычисленные коэффициент парной корреляции и корреляционное отношение . Если , то предположение о прямолинейной форме связи оправдано. Если , оценивают существенность различий и .

В рассматриваемом примере: =-0,97, =0,94

=0,825, =0,819

Таким образом,связь между х1 и х2 и х1 и х3 линейная.

Выбор формы связи осуществляется попарно для функции и каждого аргумента, т.е. вначале происходит установление линейности одномерных зависимостей , а затем в соответствии с удельным весом линейных и нелинейных одномерных зависимостей в формируемой функции определяется ее вид. Целесообразно составить и решить оба уравнения, а затем выбрать наиболее адекватное исследуемому процессу по результатам решения: F-критерию. Т-критерию, остаточной сумме квадратов, средней ошибке аппроксимации. [1]

К степенному виду уравнение приводим путем логарифмирования данных с последующим потенцированием (приложение 4).

В рассматриваемом примере первым включается в уравнение регрессии x3 (=0,82).

Вид уравнения регрессии: - линейный: (приложение 5);

- степенной: (приложение 6).

Далее включается переменная x2 (=-0,97): - линейный: (приложение 7);

- степенной: (приложение 8).

Необходимо выбрать из этих уравнений одно, более адекватно описывающее моделируемый процесс зависимости числа пользователей Интернета от цены за доступ в сеть, и скорость предоставляемой услуги.

4. Экономико-статистический анализ уравнений регрессии

Следующим этапом корреляционно-регрессионного анализа является экономико-статистический анализ уравнений регрессии, в ходе которого осуществляется проверка адекватности полученных уравнений регрессии моделируемому процессу.

Экономико-статистический анализ корреляционно-регрессионной модели на адекватность реальным условиям включает в себя математическую проверку: 1) целесообразности включения выбранных факторов в уравнение регрессии;

2) правомерности распространения свойств модели, полученных по данным выборок, на генеральную совокупность. [1]

Проверим целесообразность включения каждого фактора в модель по данным шаговой регрессии. О значимости введенного фактора можно судить по изменениям коэффициента множественной корреляций и среднеквадратического отклонения от регрессии : , где - фактическое значение функции в j-м наблюдении;

- значение функции, рассчитанное по уравнению регрессии для фактических значений в j-м наблюдении.

Среднеквадратическое отклонение показывает меру «приближения» рассчитанного уравнения регрессии к моделируемому процессу. Среднеквадратическое отклонение для разных видов уравнения представлено в таблице 15.

Таблица 15 - Среднеквадратическое отклонение от регрессии

Уравнение регрессии

6,76

1,85

2,63

1,67

Если на анализируемом шаге регрессии произошло увеличение коэффициента множественной корреляции и уменьшение , то, следовательно, введенный фактор увеличил общее влияние факторов-аргументов на функцию и повысил точность расчетных значений функции.

В рассматриваемом уравнении линейной регрессии введение х2 на втором шаге привело к росту на 17% и уменьшению , следовательно, введенный фактор увеличил общее влияние факторов-аргументов на функцию и повысил точность расчетных значений функции.

В нелинейной регрессии введение х2 также привело к росту на 1,5%) и уменьшению . Следовательно, введение х2 в модель можно пока предположить целесообразным.

Более строгую оценку полезности для уравнения введенного фактора дает сравнение расчетного F-значения для дисперсионного анализа с табличным , приведенным в приложении 3 при и степенях свободы.

В рассматриваемом примере: при =1 и =18 имеем =4,41;

при =2 и =17 имеем =3,59.

Расчетные значения F сведены в таблицу 16.

Таблица 16 - Анализ факторов корреляционно-регрессионных уравнений по значению F для дисперсионного анализа

Шаги регрессии Включаемые переменные Расчетное значение F для уравнений регрессии линейной нелинейной

1 4,41 38,34 358,41

2 3,59 657,68 473,18

Анализ таблицы 16 показывает правомерность включения по имеющимся исходным данным выборок и переменной х3, и переменной х2 в линейное и нелинейное уравнения регрессии. При этом более сильное влияние аргументов на функцию наблюдается в линейном уравнении.

Широко известным критерием оценки качества полученного уравнения регрессии (по имеющимся данным выборок) является средний коэффициент (ошибка) аппроксимации:

Ее допустимая величина колеблется в пределах 12-15%. В рассматриваемом примере для линейного уравнения =3,53%, для нелинейного =2,71%. Данные значения средней ошибки аппроксимации говорит о том, что нелинейное уравнение лучше описывает моделируемый процесс.

Наконец, в качестве одного из критериев правильности полученного уравнения регрессии можно использовать отношение среднеквадратического отклонения от регрессии к коэффициенту, характеризующему нормальность распределения отклонений . В случае хорошего согласия уравнения с исходами данными это отношение должно стремиться к единице, т.е. В рассматриваемое примере имеем: для линейного уравнения: ;. для нелинейного уравнения: Очевидно, предпочтительнее взять лилейное уравнение.

Выполненный анализ обоих уравнений по изменению множественного коэффициента корреляции , F-значению и, наконец, по и позволяет: 1) выбрать в качестве уравнения регрессии, наиболее адекватного исследуемому процессу влияния субъективных факторов на изменение численности пользователей Интернета, линейное уравнение:

2) признать его полную адекватность имеющимся данным исходных выборок.

Выполним теперь проверку правомерности распространения найденного уравнения регрессии на генеральную совокупность, т.е. проверку правомерности его практического использования.

В качестве такого критерия можно использовать проверку значимости коэффициентов полученного уравнения регрессии по Т-значению: , где - стандартная (среднеквадратическая) ошибка коэффициента регрессии при i-й переменной, i = 2, 3, …, р.

Если , то проверяемый коэффициент регрессии является значимым. Значения приведены в приложении 2 при степенях свободы и различном уровне значимости.

В данном примере примем наиболее употребительный уровень значимости 0,05 (таблица 16).

Таблица 17 - Анализ значимости коэффициентов регрессии в уравнениях шаговой регрессии

Шаги регрессии Включаемые переменные V Расчетное значение T для уравнений регрессии линейной нелинейной

1 19 2,09 6,192 18,932

2 18 2,10 8,125 12,196

-20,216 5,391

В линейном и нелинейном уравнении все коэффициенты значимы, следовательно, можно применять на практике оба уравнения.

При исследовании адекватности уравнения регрессии нельзя забывать о таком явлении, как автокорреляция. Под автокорреляцией понимается корреляция между членами одного и того же динамического ряда. Ее наличие в исходных данных приводит к низкой надежности получаемого уравнения регрессии.

Для обнаружения автокорреляции воспользуемся методом, предложенным Дарбином и Уотсоном. Ими был сконструирован критерий, связанный с гипотезой о существовании автокорреляции первого порядка, т.е. автокорреляции между соседними членами ряда, составленного из разностей фактических и расчетных (по уравнению регрессии) значений функции . Соответствующая критерию Дарбина-Уотсона статистика (отношение Дарбина) имеет вид:

Где - остатки модели регрессии в наблюдении t.

При отсутствии автокорреляции , а при полной автокорреляции =0 или=4.

Для -статистики найдены критические границы, позволяющие принять или отвергнуть гипотезу о существовании автокорреляции. Верхние и нижние границы -статистики при уровне значимости 0,05 и числе независимых переменных приведены в таблице 18.

Если величина расчетной -статистики находится в пределах или , то нет статистических оснований ни принять, ни отвергнуть эту гипотезу.

Таблица 18 - Значение критерия Дарбина-Уотсона при уровне значимости 0,05

Число наблюдений

15 1,08 1,36 0,95 1,54 0,82 1,75 0,69 1,97 0,56 2,21

16 1,10 1,37 0,98 1,54 0,86 1,73 0,74 1,93 0,62 2,15

17 1,13 1,38 1,02 1,54 0,90 1,71 0,78 1,90 0,67 2,10

18 1,10 1,39 1,05 1,53 0,93 1,69 0,82 1,87 0,71 2,06

19 1,18 1,40 1,08 1,53 0,97 1,63 0,86 1,85 0,75 2,02

20 1,20 1,41 1,10 1,54 1,00 1,68 0,90 1,83 0,79 1,99

22 1,24 1,43 1,15 1,54 1,05 1,66 0,96 1,80 0,86 1,94

24 1,27 1,45 1,19 1,55 1,10 1,66 1,01 1,78 0,93 1,90

26 1,30 1,46 1,22 1,55 1,14 1,65 1,06 1,76 0,98 1,88

28 1,33 1,48 1,26 1,56 1,18 1,65 1,10 1,75 1,03 1,85

30 1,35 1,49 1,28 1,57 1,21 1,65 1,14 1,74 1,07 1,83

35 1,40 1,52 1,34 1,58 1,28 1,65 1,22 1,73 1,16 1,80

40 1,44 1,54 1,39 1,60 1,34 1,66 1,29 1,72 1,23 1,79

50 1,50 1,59 1,46 1,63 1,42 1,67 1,38 1,72 1,34 1,77

60 1, 55 1,62 1,51 1,65 1,48 1,69 1,44 1,73 1,41 1,77

70 1,56 1,64 1,55 1,67 1,52 1,70 1,49 1,74 1,46 1,77

80 1,61 1,66 1,59 1,69 1,56 1,72 1,53 1,74 1,51 1,77

90 1,63 1,68 1,61 1,70 1,69 1,73 1,57 1,75 1,54 1,78

100 1,65 1,69 1,63 1,72 1,61 1,74 1,59 1,76 1,57 1,78

Расчетное значение -статистики для рассматриваемого линейного уравнения (отношение Дарбина) равно 1,08. Для двух независимых переменных (m = 2) и 20 наблюдений верхняя и нижняя границы критерия Дарбина - Уотсона = 1,10; = 1,54. Проверив зависимости (под * на стр. 30), получается, что автокорреляция положительна: 1,081,10

Таким образом, окончательная экономико-математическая модель зависимости числа пользователей Интернета х1 от его доступности х2 и скорости х3, представлена следующей линейной функцией:

Завершающим этапом корреляционно-регрессионного моделирования является интерпретация уравнения, т.е. перевод его с языка статистики и математики на язык экономиста. Интерпретация начинается с выяснения того, как каждый аргумент влияет на функцию. Характеристикой этого влияния является соответствующий коэффициент регрессии . Если он положителен, то с увеличением аргумента происходит рост функции, если отрицателен, - то уменьшение функции. Полученный знак коэффициентов должен быть проанализирован с точки зрения здравого смысла и экономической теории. Если наблюдается противоречие между полученными результатами и теорией, необходимо проверить возможность появления ошибок на всех этапах экономико-математического моделирования. [1]

В уравнении, , коэффициент регрессии при показателе доступность Интернета х2 отрицателен, а при показателе скорость Интернета х3 положителен. Это значит, что при снижении стоимости доступа в Интернет на 1 руб. за 1 Мбит/сек. предполагаемое число пользователей Интернета увеличится на 0,02%, а при увеличении скорости Интернета на 1 Мбит/сек - на 0,4%. Данный вывод не противоречит здравому смыслу и, следовательно, полученное уравнение регрессии может быть использовано в практических расчетах.

Далее необходимо определить силу и долю влияния на функцию каждого из вошедших в модель аргументов.

Силу влияния каждого аргумента на функцию можно найти о помощью -коэффициентов. Связь коэффициентов множественной регрессии bi со стандартизированными коэффициентами описывается отношением:

В рассматриваемом уравнении () =-0,69; =2,59. Следовательно, сила влияния на функцию третьей переменной в 3,75 раза выше, чем второй.

Для определения доли влияния аргументов на функцию находятся произведения парных коэффициентов корреляции функции с каждым аргументом ( = 2, 3,…, р) и -коэффициентов (таблица 19). Полученные произведения представляют собой частные коэффициенты детерминации, которые измеряют долю в общей вариации функции от вариации признака . Сумма коэффициентов частной детерминации равна коэффициенту совокупной детерминации. Она принимается за 100% и по частным коэффициентам детерминации определяется доля каждого фактора в этой сумме.

Таблица 19 - Определение доли влияния каждого фактора на функцию

Фактор Условное обозначение Исходные данные Расчет

Доля влияния, %

Доступность -0,968 -0,69 0,668 23,8

Скорость 0,825 2,59 2,137 76,2

Итого 2,805 100

Изменение числа пользователей Интернета на 76,2% вызвано изменением скорости Интернета и на 23,8% - цены за используемую услугу (из числа учтенных факторов).

Уравнение регрессии позволяет прогнозировать значения функции в зависимости от значений аргументов . Можно предсказать общее число пользователей Интернета, если известна средняя скорость Интернета (Мбит/сек.) и цена за 1Мбит/сек. При практической работе с полученным уравнением может возникнуть необходимость прогноза изменения функции при изменении того или иного аргумента,

Список литературы
1. Сычева И.В. Экономико-математическое моделирование производственных систем. Уч. пособие для студентов. - Тула: ТПИ, 1985. - 80 с.

2. Яndex. Развитие интернета в регионах России 2009. - 14 с., URL: - Яndex. Информационный бюллетень (Дата обращения 20.04.2013).

3. Яndex. Информационный бюллетень. Развитие интернета в регионах России 2010. - 14 с., URL: -Яndex. Информационный бюллетень (Дата обращения 20.04.2013).

4. Яndex. Информационный бюллетень. Развитие интернета в регионах России 2011. - 16 с., URL:http://download.yandex.ru/company/ya_regions_report_spring_2011.pdf -Яndex. Информационный бюллетень (Дата обращения 20.04.2013).

5. Яndex. Информационный бюллетень. Развитие интернета в регионах России 2012. - 19 с., URL:http://download.yandex.ru/company/ya_regions_report_spring_2012.pdf -Яndex. Информационный бюллетень (Дата обращения 20.04.2013).

6. Яndex. Информационный бюллетень. Развитие интернета в регионах России 2013. - 27 с., URL: http://download.yandex.ru/company/ya_regions_report_2013.pdf

-Яndex. Информационный бюллетень (Дата обращения 20.04.2013).
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?