Уравнение линейной парной регрессии. Качественная оценка тесноты связи величин на основе шкалы Чеддока. Алгоритм оценки статистической значимости уравнения регрессии в целом. Методика расчета гиперболической, полулогарифмической и степенной моделей.
Аннотация к работе
Если в естественных науках большей частью имеют дело со строгими (функциональными) зависимостями, при которых каждому значению одной переменной соответствует единственное значение другой, то между экономическими переменными, в большинстве случаев, таких зависимостей нет. В зависимости от количества факторов, включенных в уравнение регрессии, принято различать простую (парную) и множественную регрессии. Коэффициент детерминации характеризует долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака (квадрат коэффициента корреляции): . Имеются таблицы критических (табличных) значений F-критерия: F(a; k1; k2), где , . Для линейной парной регрессии выполняется равенство , поэтому проверки гипотез о значимости коэффициента регрессии при факторе и коэффициента корреляции равносильны проверке гипотезы о статистической значимости уравнения регрессии в целом.
Введение
Цемент - искусственное неорганическое вяжущее вещество, как правило, гидравлическое, одно из основных строительных материалов. При растворении водой, водными растворами солей и другими жидкостями образует пластичную массу, которая затем затвердевает и превращается в камневидное тело. В основном используется для изготовления бетона и строительных растворов.
Цемент принципиально отличается от других минеральных вяжущих (гипса, воздушной и гидравлической извести), которые твердеют только на воздухе.
Натуральный цемент представляет из себя совмещение известняка и глины. Исключительно эта смесь, затвердевая, формирует надежный, прочнейший материал. Еще его обозначают как клинке.
Целью данной курсовой работы является выявление динамики выработки натурального цемента в расчет на одного работника на Рижском цементном заводе.
1. Линейная регрессия
Если в естественных науках большей частью имеют дело со строгими (функциональными) зависимостями, при которых каждому значению одной переменной соответствует единственное значение другой, то между экономическими переменными, в большинстве случаев, таких зависимостей нет. Поэтому в экономике имеют дело с корреляционными зависимостями.
В зависимости от количества факторов, включенных в уравнение регрессии, принято различать простую (парную) и множественную регрессии.
Регрессия - зависимость среднего значения какой-либо случайной величины от некоторой другой величины (парная регрессия) или нескольких величин (множественная регрессия).
Уравнение линейной парной регрессии имеет вид: .
Для оценки параметров a, b методом наименьших квадратов (МНК) необходимо решить систему нормальных уравнений:
Можно воспользоваться готовыми формулами решения системы: , ,
где - среднее значение фактора X; - среднее значение результативной переменной Y; - среднее значение произведения переменных X и Y; - среднее значение квадрата переменной Х; - ковариация переменных Х и Y; - дисперсия переменной Х.
Коэффициент регрессии b показывает, на сколько единиц в среднем по совокупности изменится результирующая переменная Y, если факторная переменная Х увеличится на одну единицу.
Для оценки тесноты линейной связи между переменными используют линейный коэффициент парной корреляции: , где - среднеквадратическое отклонение (СКО) переменной Х; - среднеквадратическое отклонение (СКО) переменной Y.
Можно считать, что: 1) если , то имеется прямая линейная связь между переменными Х и Y;
2) если , то имеется обратная линейная связь между переменными Х и Y;
3) если ( ), то линейная связь между переменными Х и Y отсутствует.
Качественная оценка тесноты связи величин Х и Y может быть выявлена на основе шкалы Чеддока: Табл. 1
Тестона связи Значение коэффициента корреляции
Слабая 0,1-0,3
Умеренная 0,3-0,5
Заметная 0,5-0,7
Высокая 0,7-0,9
Весьма высокая 0,9-0,99
Для оценки качества уравнения регрессии использую коэффициент детерминации .
Коэффициент детерминации характеризует долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака (квадрат коэффициента корреляции): .
Коэффициент детерминации показывает, какую часть вариации (изменения) результативной переменной Y объясняет вариация (изменение) фактора X. Чем ближе к единице, тем лучше регрессионная модель.
Оценка статистической значимости уравнения регрессии в целом осуществляется с помощью F-критерия Фишера. Проверяется гипотеза Н0 о статистической незначимости уравнения регрессии. Для этого рассчитывается фактическое значение критерия по формуле:
, где n - число единиц совокупности; m - число параметров при переменных х.
Если применяется линейное уравнение регрессии, то расчет Fфакт упрощается: .
Fтабл - это максимально возможное значение критерия, которое могло сформироваться под влиянием случайных факторов при данных степенях свободы и уровне значимости a. Уровень значимости a - вероятность отвергнуть правильную гипотезу при условии, что она верна. Имеются таблицы критических (табличных) значений F-критерия: F(a; k1; k2), где , . Для линейного уравнения парной регрессии с уровнем значимости a = 0,05 необходимо в таблице значений (приложение №4) найти значение F(0,05; 1; n - 2).
Если Fтабл < Fфакт, то гипотеза Н0 о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность.
Для оценки статистической значимости коэффициентов регрессии и коэффициента корреляции рассчитывается t-критерий Стьюдента. Выдвигается гипотеза H0 о случайной природе показателей, т.е. о незначимом их отличии от нуля. Наблюдаемые значения t-критерия рассчитываются по формулам:
, , , где - случайные ошибки параметров линейной регрессии и коэффициента корреляции.
Для линейной парной регрессии выполняется равенство , поэтому проверки гипотез о значимости коэффициента регрессии при факторе и коэффициента корреляции равносильны проверке гипотезы о статистической значимости уравнения регрессии в целом.
Вообще, случайные ошибки рассчитываются по формулам: , , . где - остаточная дисперсия на одну степень свободы: .
Табличное (критическое) значение t-статистики находят по таблицам распределения t-Стьюдента при уровне значимости ? = 0,05 и числе степеней свободы . Если ттабл < тфакт, то H0 отклоняется, т.е. коэффициенты регрессии не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора.
2. Постановка и решение задачи
Постановка задачи: выявить динамику выработки натурального цемента в расчете на одного человека на Рижском цементном заводе.
По данным таблицы проанализируем следующие модели: гиперболическую, полулогарифмическую и степенные модели, рассчитаем прогнозное значение при Х=
Табл. 2
X Y
1 673
2 694
3 711
4 786
5 797
6 782
7 810
8 832
9 834
10 878
11 900
12 890
13 931
14 915
15 938
16 927
17 950
18 958
19 940
20 961
X - года.
Y - Динамика выработки.
Рис. 1
3. Гиперболическая модель: y=a b/x
Regression Summary for Dependent Variable: Y (Spreadsheet1)
R= ,80659089 R?= ,65058887 Adjusted R?= ,63117714
F(1,18)=33,515 p<,00002 Std.Error of estimate: 55,652