Оценка математического ожидания, дисперсии, среднего квадратического отклонения, коэффициента корреляции случайных величин. Построение регрессионной модели и интервальная оценка. Нахождение доверительного интервала для условного математического ожидания.
Аннотация к работе
Основной задачей корреляционного (или регрессионного) анализа является построение статистической модели связи между различными величинами (параметрами) и получение метода косвенного оценивания одних параметров через другие, которые измеряются раньше по времени или значения которых измерить проще (дешевле). Оценить математические ожидания, дисперсии, средние квадратические отклонения и коэффициент корреляции случайных величин Х и Y. Используя методы корреляционного анализа построить (аналитически и графически) регрессионные модели , причем в качестве эмпирического уравнения регрессии взять линейную функцию и параболу.Для линейного случая прямым методом построить два уравнения регрессии (Y на X и X на Y),причем среднее квадратическое отклонение случайной величины найти двумя способами. Найти доверительный интервал для условного математического ожиданиям М[Y/x] с доверительной вероятностью 1-?=0,98 при предположении о нормальном условном распределении случайной величины Y.Для параболической регрессии оценить корреляционное отношение. Дать интервальную оценку случайной величины Y с вероятностью попадания в интервал p=0.96, если взятое из той же генеральной совокупности значение xn 1=8, при предположении, что эмпирическое уравнение регрессии построено точно.В ходе выполнения курсовой работы мною был сделан вывод о том, что изменение испарений (в %) к количеству выпавших осадков и изменение температуры воздуха тесно взаимосвязаны.
Введение
В наши дни мы все чаще сталкиваемся с обработкой больших массивов данных. Статистика стала неотъемлемой частью различных сфер деятельности, и в особенности экономики. Потребность всестороннего и эффективного анализа данных послужила толчком к развитию различных специальных методов обработки информации. Корреляционно-регрессионный анализ относятся к числу таких методов.
Основной задачей корреляционного (или регрессионного) анализа является построение статистической модели связи между различными величинами (параметрами) и получение метода косвенного оценивания одних параметров через другие, которые измеряются раньше по времени или значения которых измерить проще (дешевле).
Однако, не все факторы, влияющие на экономические процессы, являются случайными величинами, поэтому при анализе экономических явлений обычно рассматриваются связи между случайными и неслучайными величинами. Такие связи называются регрессионными, а метод математической статистики, их изучающий, называется регрессионным анализом.
К целям регрессионного анализа относятся: 1. Определение степени детерминированности вариации зависимой переменной независимыми переменными;
2. Предсказание значения зависимой переменной с помощью независимой(-ых)
3. Определение вклада отдельных независимых переменных в вариацию зависимой
Постановка задачи
При проведении исследований о выпадении осадков была выявлена зависимость, представленная в таблице, где t - температура воздуха, а у - количество испарений (в %) к количеству выпавших осадков за апрель 2014 года.
Таблица 1
Выборка из генеральной совокупности t воздуха (градусы) -2 0 2 3 4 5 7 10 испарение (%) -11 -2 9 14 19 25 37 56
Увеличение испарений осадков происходит с увеличением температуры воздуха.
1. Оценить математические ожидания, дисперсии, средние квадратические отклонения и коэффициент корреляции случайных величин Х и Y. На координатную плоскость нанести точки из таблицы.
2. Используя методы корреляционного анализа построить (аналитически и графически) регрессионные модели , причем в качестве эмпирического уравнения регрессии взять линейную функцию и параболу.Для линейного случая прямым методом построить два уравнения регрессии (Y на X и X на Y),причем среднее квадратическое отклонение случайной величины найти двумя способами. Найти доверительный интервал для условного математического ожиданиям М[Y/x] с доверительной вероятностью 1-?=0,98 при предположении о нормальном условном распределении случайной величины Y.Для параболической регрессии оценить корреляционное отношение.
3. Дать интервальную оценку случайной величины Y с вероятностью попадания в интервал p=0.96, если взятое из той же генеральной совокупности значение xn 1=8, при предположении, что эмпирическое уравнение регрессии построено точно. Определить толерантный интервал.
Решение задачи
Данные в виде выборки из генеральной совокупности представлены в Таблице 2.
Таблица 2
Выборка из генеральной совокупности xi -2 0 2 3 4 5 7 10 yi -11 -2 9 14 19 25 37 56
Оценивание математических ожиданий, дисперсий, средних квадратических отклонений и коэффициента корреляции случайных величин Х, Y.
1.Оценки математических ожиданий:
=3,625
= 18,375
2.Несмещенные оценки дисперсий:
= 14,552
= 455,981
3.Оценки средних квадратических отклонений (С.К.О).
= 3,814
= 21,353
4.Несмещенная оценка ковариации.
= 81,303
5.Оценка коэффициента корреляции.
= 0,9983
Полученный коэффициент корреляции, близкий по модулю к единице, говорит о наличии сильной связи между х и у.
Рис. 1 Исходные данные на координатной плоскости
I. Построение регрессионных моделей
Вычисленные показатели указывают на наличие линейной зависимости между случайными величинами. Построение регрессионной модели заключается в оценивании параметров и вида функции , распределения и параметров случайной величины , поэтому регрессионную модель записывают в виде: , где конкретная зависимость называется эмпирическим уравнением регрессии:
=5,589x-1.85 - для уравнения Y на X;
- для уравнения X на Y, где , , , и были вычислены заранее.
= 0,178y 0,355
Построим прямые по полученным уравнениям на одном графике (Рис.2)
После построения линейных регрессионных моделей в качестве эмпирического уравнения регрессии выберем параболу
8460=13395* 1559* 207*
1102=1559* 207* 29*
147=207* 29* 8*
Находим неизвестные нам параметры методом Крамера: =0,0857; =4,9057; =-1,6274;
Уравнение параболы: =0.0857x2 4.9057x-1.6274
Подставляем значения в уравнение и по полученным результатам строим график.(Рис.3)
Оценка среднего квадратического отклонения величины
Нахождение доверительного интервала для условного математического ожидания с доверительной вероятностью 1-?=0,98 (нормальное условное распределение случайной величины Y) для линейной регрессионной модели.
Сначала в качестве эмпирического уравнения регрессии выберем линейную функцию с 1,4414
Для вычисления доверительного интервала воспользуемся формулой:
Итак, имеем следующие данные: ; n=8; =3,625; , t? = 3 (находим это значение в таблице квантилей распределения Стьюдента)
5,589*8-1,85-3*1,4414/ * = 40,44284
5,589*8-1,85 3*1,4414/ * = 45,28116
При использовании линейной функции , где , , а также n=8, , =3,625 и , получаем следующий доверительный интервал:
При использовании параболической модели
=0.0857x2 4.9057x-1.6274, и , доверительный интервал:
Таким образом, устанавливаем, что эти доверительные интервалы накрывают истинное среднее значение изменения общего измерения испарения осадков (в %) к количеству выпавших осадков.Можно сказать, что истинное среднее значение находится в этом интервале (интервале, вычисленном по линейной модели или по параболической) с вероятностью 0,98.
Рис. 4 Доверительный интервал для условного математического ожидания на основе линейной регрессионной модели
Рис. 5 Доверительный интервал для условного математического ожидания на основе параболической модели
Определение толерантного интервала (при x9=8)
Регрессионные модели используются для косвенного оценивания значения по информации о значении , то есть x9=8 при подстановке в выражение мы оценили только среднее значение величины y с некоторым доверительным интервалом: (линейная регрессионная модель), (параболическая регрессионная модель).
Для того, чтобы получить оценку индивидуального значения необходимо определить толерантный интервал, в который с заданной вероятностью р=0,96 и ? =0,98 попадает значение : , где , - квантиль стандартного нормального распределения, находящийся по таблице.
Ф ( )= , то есть, используя таблицу «Функция стандартного нормального распределения» устанавливаем, что =1,812.
3*1,4414/ * 1,812*1,4414=5,030978623
Если в качестве регрессионной модели берется линейная модель , где и , тогда толерантный интервал:
Для нахождения толерантного интервала можно также использовать параболическую регрессионную модель =0.0857x2 4.9057x-1.6274, где и . В этом случае толерантный интервал примет следующий вид: , 3*0.327219/ * 1,812*0.327219=1,204528374
Вывод
В ходе выполнения курсовой работы мною был сделан вывод о том, что изменение испарений (в %) к количеству выпавших осадков и изменение температуры воздуха тесно взаимосвязаны.
Найдены оценки математического ожидания, дисперсии, среднего квадратичного отклонения и коэффициента корреляции. Были построены эмпирические уравнения регрессии: линейное и параболическое. Результаты вычислений показали наличие сильной связи.
На последнем этапе анализа были построены доверительные интервалы с вероятностью 1- =0,98, были найдены толерантные интервалы, зависящие от двух вероятностей: 1- =0,98 и p=0,96 для значения y9 = 42,862 для линейной модели и y9 = 43,103 для параболической.
Список литературы
1. В.Н. Маслов, Теория вероятностей и математическая статистика: Учебное пособие. ВВАГС, 1999. 107 с.
2. Гмурман В.С. Теория вероятностей и математическая статистика. М.: «Высшее образование», 2008. 405 с.