Доверительные интервалы. Проверка гипотез. Множественная и нелинейная регрессия. Двухпараметрическое и простое экспоненциальное сглаживание. Когнитивный анализ: графы. CRM и OLAP – технологии (Оперативная система аналитической обработки данных).
Аннотация к работе
Курс лекций для заочного отделения по дисциплине «Анализ данных» Содержание ТЕМА 1: Статистика выводов 1.1 Доверительные интервалы 1.2 Проверка гипотез ТЕМА 2: Регрессия и корреляция 2.1 Регрессия 2.2 Корреляция 2.3 Множественная регрессия 2.4 Нелинейная регрессия ТЕМА 3: Временные ряды 3.1 Простое экспоненциальное сглаживание 3.2 Двухпараметрическое экспоненциальное сглаживание ТЕМА 4: Когнитивный анализ. Графы ТЕМА 5: Системы аналитической обработки данных 5.1 OLAP - технология (Оперативная система аналитической обработки данных) 5.2 CRM - технология (Customer Relationship Management) 5.3 Интеллектуальный анализ данных (Data Mining) ТЕМА 1: Статистика выводов Основные компоненты статистики выводов являются: - Доверительные интервалы; - Критерии проверки гипотез. 1.1 Доверительные интервалы Доверительные интервалы помогают определить точность оценки истинного среднего на основе выборочного среднего. Полученное значение удовлетворяет стандартному нормальному распределению и называется z-статистикой: . Для случайной переменной Z должно выполняться условие: (1.1) Формула расчета доверительного интервала с учетом z-статистики: (1.2) где m - среднее отклонение; s - стандартное отклонение; n - размер выборки; P - вероятность попадания в центр распределения; a - вероятность попадания в один из хвостов распределения (которая равна 1-P); Z - случайная переменная. P=0,95 и a=0.05 ? Рис. 1.1. Формулировка нулевой гипотезы . 2. Вероятность того, что некое значение так же экстремально, как и наблюдаемое заданное значение, называется p-значением и вычисляется при помощи z-значения: . p-значение для одностороннего теста вычисляется как: р-зачение=НОРМСТРАСП(z). Величина линейной зависимости между двумя переменными измеряется посредством простого коэффициента корреляции, величина линейной зависимости одной переменной от нескольких измеряется множественным коэффициентом корреляции. Функции Excel для оценки регрессии на основе метода наименьших квадратов Например, если значения переменной у находятся в ячейках диапазона А2:А11, а значения переменной x - в ячейках диапазона В2:В11, то функция ОТРЕЗОК (А2:А11, В2:В11) вернет значение коэффициента а, а функция НАКЛОН(А2:А11, В2:В11) - значение коэффициента b.