Исследование математических моделей, методов и средств бизнес-аналитики СУБД SQL Server - Дипломная работа

бесплатно 0
4.5 154
Обобщенная архитектура системы поддержки принятия решений. Особенности технологии реляционного хранения данных. Представление информации в виде гиперкуба. Графическая иллюстрация задачи кластеризации. Описание математических основ бизнес-аналитики.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
Кроме описания методов анализа приводятся экспериментальные результаты. Кроме хранения данных и поиска новых значений, появляются новые задачи, связанные с анализом и поиском в них закономерностей. Характер выполняемых запросов Стандартные, настроенные заранее Нерегламентированные, формируемые аналитиком «на лету» в зависимости от требуемого анализа OLAP-системы предоставляют аналитику средства проверки гипотез при анализе данных. OLAP (Online Analytical Processing) - технология оперативной аналитической обработки данных, использующая методы и средства для сбора, хранения и анализа многомерных данных в целях поддержки процессов принятия решений.Для интеллектуального анализа данных: Службы Microsoft SQL Server Analysis Services содержат функции и средства для создания сложных решений по интеллектуальному анализу данных. · Конструктор интеллектуального анализа данных, который предназначен для создания и просмотра моделей интеллектуального анализа данных, для управления моделями и для составления прогнозов с помощью этих моделей. Язык сценариев служб Analysis Services (ASSL) также может использоваться для управления объектами базы данных служб Analysis Services. Например, можно использовать алгоритм дерева принятия решений (Майкрософт) не только для прогнозирования, но также в качестве способа уменьшения количества столбцов в наборе данных, поскольку дерево принятия решений может идентифицировать столбцы, не влияющие на конечную модель интеллектуального анализа данных. Здесь - кластер, содержащий похожие друг на друга объекты из множества : , где ? - величина, определяющая меру близости для включения объектов в один кластер; - мера близости между объектами, называемая расстоянием.

Введение
Повсеместное использование компьютеров привело к пониманию важности задач, связанных с анализом накопленной информации для извлечения новых знаний.

Управление предприятием, банком, различными сферами бизнеса, немыслимо без процессов накопления, анализа, выявления определенных закономерностей и зависимостей, прогнозирования тенденций и рисков.

Бизнес-аналитика - мультидисциплинарная область, находящаяся на стыке информационных технологий, баз данных, алгоритмов интеллектуальной обработки данных, математической статистики и методов визуализации.

Решения принимаются руководителями, а задача бизнес-аналитики - сделать все, чтобы эти решения были оптимальными и своевременными.

Целью работы является исследование математических моделей, методов и средств бизнес-аналитики СУБД SQL Server. Данная тема является актуальной, так как на сегодняшний день средства бизнес-аналитики применяются почти во всех сферах жизнедеятельности человека: · в Интернет-технологиях средства BI применяются для построения рекомендательных систем интернет-магазинов и для решения проблемы персонализации посетителей Web-сайтов;

· в торговле технологии бизнес-аналитики позволяют успешно продвигать товары и непосредственно управлять спросом на различные товары путем анализа рыночных корзин;

· в телекоммуникациях средства BI позволяют решать проблему доходности и риска клиентов, а также проблему защиты от мошенничества;

· в промышленном производстве примером использования технологий бизнес-аналитики может быть прогнозирование качества изделия в зависимости от замеряемых параметров технологического процесса;

· примером использования средств бизнес-аналитики в медицине может служить построение диагностической системы или исследование эффективности хирургического вмешательства;

· классическим примером применения на практике методов анализа данных является решение проблемы о возможной некредитоспособности клиентов в банковской сфере.

В работе представлены наиболее перспективные направления анализа данных: хранение информации, оперативный и интеллектуальный анализ данных. Кроме описания методов анализа приводятся экспериментальные результаты.

Для достижения поставленной цели в работе решаются следующие задачи: - обзор архитектуры СУБД SQL Server и подсистемы бизнес-аналитики;

- описание и анализ областей применения средств бизнес-аналитики, таких как многомерный анализ данных и интеллектуальный анализ данных;

- обзор языковых средств бизнес-аналитики;

- экспериментальное применение полученных сведений.

1. Постановка задачи и обзор литературы

1.1 Постановка задачи

1. Необходимо выполнить обзор различных технологий в бизнес-аналитике на примере СУБД SQL Server.

2. Также надо обозначить перечень используемых математических моделей и описать их сущность.

3. Произвести анализ языковых средств, с помощью которых будут реализованы методы и алгоритмы для СУБД SQL Server.

4. Выполнить демонстрацию возможностей технологий на примере учебной базы.

1.2 Цели и задачи бизнес-аналитики

В настоящее время задача поиска неявных взаимосвязей, имеющихся в наборах данных, стала очень актуальной благодаря широкому распространению технологий автоматизированной обработки информации и накоплению в компьютерных системах больших массивов данных. Для извлечения информации нужно использовать методы математической статистики, теории баз данных, теории искусственного интеллекта и интеллектуального анализа данных.

Кроме хранения данных и поиска новых значений, появляются новые задачи, связанные с анализом и поиском в них закономерностей. Собранная информация может быть полезной в процессе управления организацией, поиска путей совершенствования деятельности и получения посредством этого конкурентных преимуществ. Таким образом, появляется потребность в информационных системах, которые позволили бы проводить глубокую аналитическую обработку.

Благодаря преимуществам интеллектуального анализа появляется новый класс программных систем - системы поддержки принятия решений (далее СППР). Основные задачи СППР - это ввод, хранение и анализ данных в определенной предметной области с целью поиска решений. Обобщенная архитектура СППР представлена на рисунке 1.

Рис. 1. Обобщенная архитектура системы поддержки принятия решений

В подсистеме ввода данных, называемых OLTP (Online transaction processing), выполняется операционная обработка данных. Для реализации этих подсистем используют обычные системы управления базами данных (СУБД).

Современная подсистема анализа может быть построена на основе: 1) подсистемы информационно-поискового анализа на базе реляционных СУБД и статических запросов с использованием языка структурных запросов SQL (Structured Query Language);

2) подсистемы оперативного анализа. Для реализации таких подсистем применяется технология оперативной аналитической обработки данных OLAP (Online Analytical Processing), использующая концепцию многомерного представления данных;

3) подсистемы интеллектуального анализа. Эта подсистема реализует методы и алгоритмы Data Mining («интеллектуальный анализ данных»).

Одной из самых важных особенностей современных систем поддержки принятия решений является отсутствие возможности оптимизации и ранжирования значений групп показателей на основе их полной совокупности, изза невозможности существующим математическим методам проводить данные операции. Современные методы требуют предварительного приведения всех критериев к единой числовой оценке.

В процессе разработки систем анализа информации и методологии их применения обнаружилось, что для эффективного функционирования такие системы должны быть организованы иным способом, тот, который применяется в OLTP-системах.

Можно выделить ряд принципиальных отличий СППР и OLTP-систем: Таблица 1. Сравнение свойств OLTP-системы и СППР

Свойство OLTP-система СППР

Цели использования данных Быстрый поиск, простейшие алгоритмы обработки Аналитическая обработка с целью поиска скрытых закономерностей, построения прогнозов и моделей и т.д.

Уровень обобщения (детализации) данных Детализированные Как детализированные, так и обобщенные (агрегированные)

Требования к качеству данных Возможны некорректные данные (ошибки регистрации, ввода и т.д.) Ошибки в данных не допускаются, поскольку могут привести к некорректной работе аналитических алгоритмов.

Формат хранения данных Данные могут храниться в различных форматах в зависимости от приложения, в котором они были созданы Данные хранятся и обрабатываются в едином формате.

Время хранения данных Как правило, не более года (в пределах отчетного периода) Годы, десятилетия.

Изменение данных Данные могут добавляться, изменяться и удаляться Допускается только пополнение; ранее добавленные данные изменяться не должны, что позволяет обеспечить их хронологию.

Периодичность обновления Часто, но в небольших объемах. Редко, но в больших объемах.

Доступ к данным Должен быть обеспечен доступ ко всем текущим (оперативным) данным Должен быть обеспечен доступ к историческим (то есть накопленным за достаточно длинный период времени) данным с соблюдением их хронологии.

Характер выполняемых запросов Стандартные, настроенные заранее Нерегламентированные, формируемые аналитиком «на лету» в зависимости от требуемого анализа

Время выполнения запроса Несколько секунд До нескольких минут

Как видно из таблицы 1, требования к СППР и OLTP-системам существенно отличаются. Поэтому для объединения в одной системе OLTP и СППР для реализации подсистемы хранения используются концепция хранилищ данных (ХД).

В основе концепции хранилищ данных (ХД) лежат следующие положения: · интеграция и согласование данных из различных источников, таких как обычные системы оперативной обработки, базы данных, учетные системы, офисные документы, электронные архивы, расположенные как внутри предприятия, так и во внешнем окружении;

· разделение наборов данных, используемых системами выполнения транзакций и СППР.

В концепции хранилищ данных (ХД) нет постановки вопросов, связанных с организацией эффективного анализа данных и предоставления доступа к ним. Эти задачи решаются подсистемами анализа.

Сокращение затрат на проектирование и разработку ХД может быть достигнуто путем создания витрин данных (ВД). ВД - это упрощенный вариант ХД, содержащий только тематически объединенные данные.

Рис. 2. Структура СППР с самостоятельными ВД

В настоящее время разработано несколько архитектур хранилищ: · реляционные ХД;

· многомерные ХД;

· гибридные ХД;

· виртуальные ХД;

· одноплатформенные ХД;

· кросс-платформенные ХД.

Реляционные ХД используют классическую реляционную модель, характерную для оперативных регистрирующих OLTP-систем. Данные хранятся в реляционных таблицах, но образуют специальные структуры, эмулирующие многомерное представление данных. Такая технология обозначается аббревиатурой ROLAP - Relational OLAP.

Многомерные ХД реализуют многомерное представление данных на физическом уровне в виде многомерных кубов. Данная технология получила название MOLAP - Multidimensional OLAP.

Гибридные ХД сочетают в себе свойства как реляционной, так и многомерной модели данных. В гибридных ХД детализированные данные хранятся в реляционных таблицах, а агрегаты - в многомерных кубах. Такая технология построения ХД называется HOLAP - Hybrid OLAP.

Виртуальные ХД не являются хранилищами данных в привычном понимании. В таких системах работа ведется с отдельными источниками данных, но при этом эмулируется работа обычного ХД. Иначе говоря, данные не консолидируются физически, а собираются непосредственно в процессе выполнения запроса.

Кроме того, все ХД можно разделить на одноплатформенные и кросс-платформенные. Одноплатформенные ХД строятся на базе только одной СУБД, а кросс-платформенные могут строиться на базе нескольких СУБД.

В процессе принятия решений пользователь генерирует некоторые гипотезы. Для превращения их в законченные решения эти гипотезы должны быть проверены. Проверка гипотез осуществляется на основании информации об анализируемой предметной области. В процессе анализа данных, поиска решений часто возникает необходимость в построении зависимостей между различными параметрами. Кроме того, число таких параметров может варьироваться в широких пределах.

OLAP-системы предоставляют аналитику средства проверки гипотез при анализе данных. При этом основной задачей аналитика является генерация гипотез. Он решает ее, основываясь на своих знаниях и опыте. Однако знания есть не только у человека, но и в накопленных данных, которые подвергаются анализу. Такие знания часто называют "скрытыми", т. к. они содержатся в гигабайтах и терабайтах информации, которые человек не в состоянии исследовать самостоятельно. В связи с этим существует высокая вероятность пропустить гипотезы, которые могут принести значительную выгоду.

Очевидно, что для обнаружения скрытых знаний необходимо применять специальные методы автоматического анализа, при помощи которых приходится практически добывать знания из "завалов" информации. За этим направлением прочно закрепился термин добыча данных или Data Mining.

Таким образом, подсистема анализа может быть построена на основе оперативного анализа, для реализации которой используется технология оперативной аналитической обработки данных OLAP. А также подсистема анализа строится на базе интеллектуального анализа, реализующего методы и алгоритмы Data Mining.

Реляционная модель данных, которая была предложена Э.Ф. Коддом в 1970 году служит основой современной многомиллиардной отрасли баз данных. За последние десять лет сложилась многомерная модель данных, которая используется, когда целью является именно анализ данных, а не выполнение транзакций. Технология многомерных баз данных - ключевой фактор интерактивного анализа больших массивов данных с целью поддержки принятия решения. Подобные базы данных трактуют данные как многомерные кубы, что очень удобно именно для их анализа.

Основное назначение многомерных ХД - поддержка систем, ориентированных на аналитическую обработку данных, так как такие хранилища лучше справляются с выполнением сложных нерегламентированных запросов.

Многомерная модель данных, лежащая в основе построения многомерных хранилищ данных, опирается на концепцию многомерных кубов, или гиперкубов. Они представляют собой упорядоченные многомерные массивы, которые также часто называют OLAP-кубами.

OLAP (Online Analytical Processing) - технология оперативной аналитической обработки данных, использующая методы и средства для сбора, хранения и анализа многомерных данных в целях поддержки процессов принятия решений.

Основное назначение OLAP-систем - поддержка аналитической деятельности, произвольных запросов пользователей - аналитиков. Цель OLAP-анализа - проверка возникающих гипотез.

У истоков технологии OLAP стоит основоположник реляционного подхода Э.Кодд. В 1993 году он опубликовал статью под названием «OLAP для пользователей-аналитиков: каким он должен быть».

Полномасштабная OLAP-система должна выполнять сложные и разнообразные функции, включающие сбор данных из различных источников, их согласование, преобразование и загрузку в хранилище, хранение аналитической информации, регламентную отчетность, поддержку произвольных запросов, многомерный анализ и др.

В настоящее время существуют фактические стандарты построения OLAP-систем, основанных на концепции ХД. Эти стандарты опираются на современные исследования и общемировую практику создания хранилищ данных и аналитических систем.

В общем виде архитектура корпоративной OLAP-системы описывается схемой с тремя выделенными слоями (рисунок 2).

Рис. 3. Архитектура корпоративной OLAP-системы

В процессе анализа данных часто возникает необходимость построения зависимостей между различными параметрами, число которых может быть значительным.

Измерение (Dimensions) - последовательность значений одного из анализируемых параметров. Например, для параметра «время» это - последовательность дней, месяцев, кварталов, лет.

Возможность анализа зависимостей между различными параметрами предполагает возможность представления данных в виде многомерной модели - гиперкуба (рисунок 2), или OLAP-куба.

Рис. 4. Представление данных в виде гиперкуба

На пересечениях осей измерений располагаются данные, количественно характеризующие анализируемые факты, - меры (Measures). Это могут быть объемы продаж, остатки на складе и т.п.

Ребрами такого гиперкуба являются измерения, а ячейками - меры.

В простейшем случае двумерного куба получается таблица, показывающая значения уровней продаж по товарам и месяцам.

Дальнейшее усложнение модели данных возможно по нескольким направлениям: 1. увеличение числа измерений - данные о продажах не только по месяцам и товарам, но и по регионам. В этом случае куб становится трехмерным;

2. усложнение содержимого ячейки - например, нас может интересовать не только уровень продаж, но и чистая прибыль или остаток на складе. В этом случае в ячейке будет несколько значений;

3. введение иерархии в пределах одного измерения - общее понятие «время» связано с иерархией значений: год состоит из кварталов, квартал из месяцев и т.д.

OLAP-система включает в себя два основных компонента: OLAP-клиент и OLAP-сервер.

OLAP-клиент предоставляет пользователю интерфейс к многомерной модели данных, обеспечивая его возможностью удобно манипулировать данными для выполнения задач анализа.

Клиентские OLAP-средства применяются, как правило, при малом числе измерений (обычно рекомендуется не более шести) и небольшом разнообразии значений этих параметров, - ведь полученные агрегатные данные должны умещаться в адресном пространстве подобного средства, а их количество растет экспоненциально при увеличении числа измерений. Поэтому даже самые примитивные клиентские OLAP-средства, как правило, позволяют произвести предварительный подсчет объема требуемой оперативной памяти для создания в ней многомерного куба.

OLAP-сервер обеспечивает хранение данных, выполнение над ними необходимых операций и формирование многомерной модели на концептуальном уровне.

Некоторые клиентские OLAP-средства (в частности, Microsoft Excel) позволяют обращаться к серверным OLAP-хранилищам, выступая в этом случае в роли клиентских приложений, выполняющих подобные запросы.

OLAP-системы, описанные выше, предоставляют аналитику средства проверки гипотез при анализе данных. При этом основной задачей аналитика является генерация гипотез. Очевидно, что для обнаружения скрытых знаний необходимо применять специальные методы автоматического анализа, при помощи которых приходится практически добывать знания из «завалов» информации.

Возникает потребность поиска взаимосвязей между отдельными событиями среди больших объемов данных.

За этим направлением прочно закрепился термин «интеллектуальный анализ данных» или Data Mining. Классическим считается определение, данное основателем направления в 1996 году Григорием Пятецким-Шапиро: Data Mining - исследование и обнаружение «машиной» в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком.

В ходе интеллектуального анализа данных проводится исследование множества объектов (или вариантов). В большинстве случаев его можно представить в виде таблицы, каждая строка которой соответствует одному из вариантов, а в столбцах содержатся значения параметров, его характеризующих.

Data Mining - это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (patterns) с целью достижения преимуществ в бизнесе (определение SAS Institute).

Рис. 5. Мультидисциплинарный характер Data Mining

Основными задачами, с которыми сталкивается аналитик являются - классификация, регрессия, поиск ассоциативных правил и кластеризация.

Задача классификации заключается в том, что для каждого варианта оперделяется категория или класс, которому он принадлежит. В качестве примера можно привести оценку кредитоспособности потенциального заемщика: назначаемые классы здесь могут быть «кредитоспособен» и «некредитоспособен». Для решения задачи требуется, чтобы множество классов было известно заранее и было бы конечным и счетным. Другим примером задачи классификации является фильтрация электронной почты. В этом случае программа фильтрации должна классифицировать входящее сообщение как спам (spam - нежелательная электронная почта) или как письмо. Данное решение принимается на основании частоты появления в сообщении определенных слов (например, имени получателя, безличного обращения, слов и словосочетаний: "приобрести", "заработать", "выгодное предложение" и т.п.).

Рис. 6. Иллюстрация задачи классификации

Задача регрессии во многом схожа с задачей классификации, но в ходе ее решения производится поиск шаблонов для определения непрерывного числового значения.

Рис. 7. Иллюстрация задачи регрессии

Отдельно выделяется задача прогнозирования новых значений на основании имеющихся значений числовой последовательности. При этом могут учитываться имеющиеся тенденции (тренды), сезонность, другие факторы. Классическим примером является прогнозирование цен акций на бирже.

Все задачи интеллектуального анализа по способу решения можно разделить на два класса: обучение с учителем и обучение без учителя.

В первом случае, требуется обучающий набор данных, на котором создается и обучается модель интеллектуального анализа. Готовая модель тестируется и используется для предсказания значений в новых наборах данных.

Во втором случае, целью является выявление закономерностей, имеющихся в существующем наборе данных. При этом обучающая выборка не требуется. Достоинством таких задач является возможность их решения без каких-либо предварительных знаний об анализируемых данных.

Задача кластеризации заключается в поиске независимых групп и их характеристик во всем множестве анализируемых данных. Решение этой задачи помогает лучше понять данные. Группировка однородных объектов позволяет сократить их число и облегчить анализ.

Другое название этой задачи - сегментация, деление множества объектов на группы, схожие по параметрам.

Рис. 8. Иллюстрация задачи кластеризации

Задача определения взаимосвязей (задача поиска ассоциативных правил) заключается в определении часто встречающихся наборов объектов среди множества подобных наборов. Классическим примером является анализ потребительской корзины.

Анализ последовательностей или сиквенциальный анализ - целью служит обнаружение закономерностей в последовательностях событий.

Анализ отклонений позволяет отыскать среди множества событий те, которые существенно отличаются от нормы.

Поставленные задачи по назначению делятся на описательные и предсказательные.

Описательные (descriptive) задачи уделяют внимание улучшению понимания анализируемых данных. Ключевой момент в таких моделях - легкость и прозрачность результатов для восприятия человеком. К такому виду задач относятся кластеризация и поиск ассоциативных правил.

Решение предсказательных (predictive) задач разбивается на два этапа. На первом этапе, на основании набора данных с известными результатами строится модель. На втором этапе она используется для предсказания результатов на основании новых наборов данных. При этом требуется, чтобы построенные модели работали максимально точно. К данному виду задач относят задачи классификации и регрессии.

Потенциал Data Mining дает «зеленый свет» для расширения границ применения этой технологии. Относительно перспектив Data Mining возможны следующие направления развития: • выделение типов предметных областей с соответствующими им эвристиками, формализация которых облегчит решение соответствующих задач Data Mining, относящихся к этим областям;

• создание формальных языков и логических средств, с помощью которых будет формализованы рассуждения и автоматизация которых станет инструментом решения задач Data Mining в конкретных предметных областях;

• создание методов Data Mining, способных не только извлекать из данных закономерности, но и формировать некие теории, опирающиеся на эмпирические данные;

• преодоление существенного отставания возможностей инструментальных средств Data Mining от теоретических достижений в этой области.

К базовым методам Data Mining принято относить, прежде всего, алгоритмы, основанные на переборе. Для сокращения вычислительной сложности в таких алгоритмах, как правило, используют разного вида эвристики, приводящие к сокращению перебора. Оптимизация подобных алгоритмов сводится к приведению зависимости количества операций от количества исследуемых данных к функции линейного вида.

Основным достоинством данных алгоритмов является их простота, как с точки зрения понимания, так и реализации.

К недостаткам можно отнести отсутствие формальной теории, на основании которой строятся такие алгоритмы, а, следовательно, и сложности, связанные с их исследованием и развитием.

К базовым методам Data Mining можно отнести также и подходы, использующие элементы теории статистики. В связи с тем, что Data Mining является развитием статистики, таких методов достаточно много. Их основная идея сводится к корреляционному, регрессионному и другим видам статистического анализа.

Главным недостатком является усреднение значений, что приводит к потере информативности данных. Это в свою очередь приводит к уменьшению количества добываемых знаний.

Построение модели интеллектуального анализа данных можно представить как последовательность следующих шести базовых шагов.

1. Постановка задачи.

2. Подготовка данных.

3. Просмотр данных.

4. Построение моделей.

5. Исследование и проверка моделей.

6. Развертывание и обновление моделей.

Рис. 9. Этапы интеллектуального анализа данных

Процесс является циклическим, то есть создание аналитической модели данных является динамическим и повторяющимся процессом.

Первым шагом интеллектуального анализа данных является четкое определение проблемы и рассмотрение способов использования данных для решения проблемы. Этот шаг включает анализ бизнес-требований, определение области проблемы, метрик, по которым будет выполняться оценка модели, а также определение задач для проекта интеллектуального анализа данных.

Вторым шагом является объединение и очистка данных, определенных во время шага Постановка задачи. Очистка данных - это не только удаление недопустимых данных или интерполяция отсутствующих значений, но и поиск в данных скрытых зависимостей, определение источников самых точных данных и подбор столбцов, которые больше всего подходят для использования в анализе.

Третьим шагом процесса является просмотр подготовленных данных. Для принятия правильных решений при создании моделей интеллектуального анализа данных необходимо понимать данные.

Четвертым шагом процесса является построение моделей интеллектуального анализа данных. Модель интеллектуального анализа данных перед обработкой структуры и модели является просто контейнером, который задает столбцы, используемые для входных данных, прогнозируемый атрибут и параметры, управляющие алгоритмом обработки данных. Обработку модели часто называют обучением.

Пятым шагом процесса является исследование построенных моделей интеллектуального анализа данных и проверка их эффективности. Перед развертыванием модели в рабочей среде необходимо проверить эффективность работы модели. Кроме того, во время построения модели обычно создается несколько моделей с различной конфигурацией, а затем проверяются все модели, чтобы определить, какая из них обеспечивает лучшие результаты для поставленной задачи и имеющихся данных.

Последним шагом процесса является развертывание наиболее эффективных моделей в рабочей среде. После развертывания моделей интеллектуального анализа данных в рабочей среде можно выполнять множество задач, соответствующих потребностям пользователя.

1.3 Архитектура СУБД SQL Server

В SQL Server реализовано несколько технологий управления и анализа данных. На рисунке 10 схематично представлены компоненты СУБД MS SQL Server 2008.

Для многомерных данных (OLAP): Службы MICROSOFTSQL SERVERANALYSIS Services - многомерные данные позволяют проектировать, создавать и управлять многомерными структурами, которые содержат детализирующие и статистические данные из нескольких источников данных, таких как реляционные базы данных, в одной унифицированной логической модели, поддерживаемой встроенными средствами проведения вычислений.

Службы Analysis Services - многомерные данные обеспечивают возможность быстрого, доступного для понимания пользователя, нисходящего анализа крупных количеств данных, основанного на этой унифицированной модели данных, результаты которого могут доставляться пользователям на нескольких национальных языках, с пересчетом на несколько разных валют.

Рис. 10. Службы и компоненты СУБД MS SQL Server 2008

Службы Analysis Services - многомерные данные применяются для работы с хранилищами данных, рынками данных, производственными базами данных и хранилищами оперативных данных, поддерживая анализ данных с предысторией и данных, поступающих в реальном времени.

Логическая архитектура: Службы Microsoft SQL Server Analysis Services используют как серверные, так и клиентские компоненты для предоставления приложениям бизнес-аналитики функций оперативной аналитической обработки (OLAP) и интеллектуального анализа данных.

· Серверный компонент служб Analysis Services реализован в виде службы Microsoft Windows. Службы SQL Server Analysis Services поддерживают работу нескольких экземпляров на одном компьютере, при этом каждый экземпляр служб Analysis Services реализован как отдельный экземпляр службы Windows.

· Клиенты обмениваются данными со службами Analysis Services с помощью общедоступного стандарта XML для аналитики (XMLA), который представляет собой протокол на базе SOAP для выполнения команд и получения ответов и предоставляется в виде веб-службы. Клиентские модели объектов также предоставляются через XML для аналитики, и доступ к ним производится через управляемый поставщик, например ADOMD.NET, или через собственный поставщик OLE DB.

· Команды запросов могут быть выражены на следующих языках. SQL; многомерных выражений - языка запросов отраслевого стандарта, ориентированного на анализ; расширений интеллектуального анализа данных - языка запросов отраслевого стандарта, ориентированного на интеллектуальный анализ данных. Также язык сценариев служб Analysis Services (ASSL) можно использовать для управления объектами базы данных служб Analysis Services.

Экземпляр служб Analysis Services может содержать несколько баз данных, а в базе данных могут одновременно присутствовать объекты OLAP и объекты интеллектуального анализа данных. Приложения подключаются к указанному экземпляру служб Analysis Services и к указанной базе данных. На серверном компьютере может эксплуатироваться несколько экземпляров служб Analysis Services. Экземпляры служб Analysis Services именуются как «\». На рисунке 11 показаны все упомянутые связи между объектами служб Analysis Services.

Рис. 11. Связи между объектами служб Analysis Services

Основные классы представляют собой минимальный набор объектов, требуемый для формирования куба. Этот минимальный набор объектов включает измерение, группу мер и секцию. Определение статистической обработки является необязательным.

Измерения создаются на основе атрибутов и иерархий. Иерархии формируются с использованием упорядоченного набора атрибутов, такого, что каждый атрибут соответствует одному из уровней в иерархии.

Кубы создаются на основе измерений и групп мер. Измерения в коллекции измерений куба принадлежат к коллекции измерений базы данных. Группы мер - это коллекции мер, которые имеют одно и то же представление источника данных и одно и то же подмножество измерений в кубе. Группа мер имеет одну или несколько секций, предназначенных для управления физическими данными. Группа мер может иметь применяемую по умолчанию статистическую схему. Статистическая схема по умолчанию может использоваться во всех секциях в группе мер; кроме того, каждая секция может иметь собственную статистическую схему.

Исходя из рисунка 11, можно сделать следующие выводы.

Каждый экземпляр служб SSAS рассматривается как отдельный объект сервера и подключается к нему с помощью отдельного соединения. Каждый объект сервера содержит один или несколько источников данных, представление источника данных и объекты базы данных, а также сборки и роли безопасности.

Каждый объект базы данных содержит несколько объектов измерения. Каждый объект измерения содержит один или несколько атрибутов, которые организованы в виде иерархий.

Каждый объект базы данных содержит один или несколько объектов куба. Куб задается его мерами и измерениями. Меры и измерения куба выводятся из таблиц и представлений в представлении источника данных, на котором основан куб или который создан из определений мер и измерений.

Физическая архитектура может быть представлена следующей таблицей.

Таблица 2. Физическая архитектура многомерных данных (OLAP)

Список литературы
1. Барсегян А.А. Анализ данных и процессов: учеб. пособие / А.А. Барсегян, М.С. Куприянов, И.И. Холод, М.Д. Тесс, С.И. Елизаров. ? 3-е изд., перераб. и доп. ? СПБ.: БХВ-Петербург, 2009. ? 512с.

2. Полубояров В.В. Использование MS SQL Server Analysis Services 2008 для построения хранилищ данных.

3. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям: учебное пособие. 2-е изд., испр. - СПБ.: Питер, 2013. - 704с.

4. Нестеров С.А. Базы данных. Интеллектуальный анализ данных: учеб. пособие / С.А. Нестеров - Спб.: Изд-во Политехн. ун-та, 2011. - 272с.

5. Семченков С.Ю. Формальное представление структуры систем аналитической обработки данных, основанных на OLAP-технологии.

6. Миронов В.В., Макарова Е.С. Агрегация показателей в OLAP-кубе при сведении по зависимым измерениям.

Размещено на .ru

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?