Разработка системы поддержки принятия решений, позволяющую установить взаимосвязи между корпоративными факторами в управлении и желанием человеческих ресурсов покинуть организацию, для определения негативных факторов, влияющих на уход персонала.
Аннотация к работе
Задача поиска высококвалифицированных сотрудников обычно выносятся на аутсорсинг, а задачей эффективного управления сотрудниками обычно занимается сама организация и управляется лишь изменениями заработной платы и лишь тогда, когда сотрудник явно выказывает свое недовольство. Естественно, необходимо собирать данные для анализа о сотрудниках, их положении, уровнях заработной платы, неудовлетворенностях, начальниках, показателях эффективности труда и т.д. Опираясь на свой опыт, интуицию и результаты анализа аналитики принимают какие-либо решения, и полностью автоматизировать этот процесс, передать функцию принятия решения какой-либо системе, невозможно. 1) OLAP - категория ПО, позволяющая аналитикам, менеджерам и руководителям вникать в данные посредством быстрого, постоянного, интерактивного доступа к широкому разнообразию способов представления информации, полученной из сырых данных, в разрезе измерений предприятия, в понятном для пользователя виде [3]. Для определения необходимого метода анализа данных необходимо определиться с целью анализа, т.к. одни и те же методы могут использоваться совсем в разных контекстах и давать совершенно разные результаты.В данной работе рассматривается проблема эффективности управления персоналом на предприятиях. Для управления персоналом обычно используют лишь изменения заработной платы. Целью данной работы является разработать систему поддержки принятия решений, позволяющую установить взаимосвязи между внутрикорпоративными факторами организации и желанием человеческих ресурсов покинуть организацию, для определения негативных факторов, влияющих на уход персонала, а так же для определения сотрудников, вероятность ухода которых высока. В работе рассмотрена On-Line Analytical Processing-технология анализа данных, подход к анализу Knowledge Discovery in Databases, совокупности методов анализа - Data и Visual Mining. Затем, были рассмотрены OLAP-системы и два вида систем анализа данных: Информационно-аналитические системы и системы поддержки принятия решений и приведены их различия.
Введение
Современное общество характеризуется рыночными отношениями и высокой степенью глобализации, что предполагает огромное количество организаций различных размеров. Независимо от размеров организаций, у них есть схожие проблемы, например, управление ресурсами. Одним из главных ресурсов организации является человеческий капитал. Так как сегодня работник является не просто исполнителем, а стратегическим ресурсом компании, инвестирование в который, даст конкурентное преимущество. управление персонал корпоративный
Основные изменения в организации труда на современном предприятии продиктованы необходимостью учитывать как внешние, так и внутренние аспекты деятельности, не только приоритеты потребителей, но и потребности и достоинства работников. Само предприятие уже не может с легкостью заменять одного работника другим, т.к. именно индивидуальные способности составляющих его личностей служат залогом выживания предприятия и успеха на рынке. Результат этого - возрастающая зависимость компании от ее персонала. Неслучайно в последние годы возникла новая сфера деловых услуг - «охота за головами» связанная с переманиванием топ-менеджеров и высококлассных специалистов в компанию заказчика. Но после того как сотрудник уже работает в компании, как сделать так, чтобы его таким же образом не переманили обратно или он просто не ушел?
Задача поиска высококвалифицированных сотрудников обычно выносятся на аутсорсинг, а задачей эффективного управления сотрудниками обычно занимается сама организация и управляется лишь изменениями заработной платы и лишь тогда, когда сотрудник явно выказывает свое недовольство. Не каждый сотрудник будет просить повышения заработной платы, улучшения рабочих условий, повышения квалификации или смену прямого начальника, некоторые, так и не дождавшись этого, просто уйдут.
Встает очевидный вопрос, как предотвратить такие ситуации или хотя-бы предвидеть их? Естественно, необходимо собирать данные для анализа о сотрудниках, их положении, уровнях заработной платы, неудовлетворенностях, начальниках, показателях эффективности труда и т.д. Но после сбора таких данных, как их необходимо анализировать? Существует множество методов анализа данных позволяющих найти различные зависимости в сырых данных из якобы не зависящих друг от друга показателей. Однако не существует универсальных методов, позволяющих определить зависимости между множеством разнородных показателей одновременно, именно поэтому, необходимо провести комплексный анализ полученных данных и выявить зависимости между ними.
Но одних лишь методов анализа данных мало для крупных организаций, к ним необходимо средство, которое будет поддерживать реализацию этих методов и нахождение новых зависимостей. Такой программный продукт нуждается в большом количестве входных данных и может быть построен на основе уже существующей на предприятии, либо на отдельной, «собственной» базе данных.
После проведения анализа, необходимо каким-то образом интерпретировать результаты. Обычно, это делается в виде таблиц, графиков или отчетов, которые затем просматриваются аналитиками. Опираясь на свой опыт, интуицию и результаты анализа аналитики принимают какие-либо решения, и полностью автоматизировать этот процесс, передать функцию принятия решения какой-либо системе, невозможно.
Противоречие между большим спросом на методы и системы анализа причин текучести персонала с одной стороны, и недостаточной разработанностью таковых с другой.
Проблема состоит в недостаточной разработанности методов анализа причин текучки кадров и систем, эти методы реализующих.
Объект исследования: процесс управления персоналом.
Предмет исследования: повышение эффективности управления персоналом за счет разработки системы поддержки принятия решений.
Цель исследования: разработать систему поддержки принятия решений, позволяющую установить взаимосвязи между внутрикорпоративными факторами организации и желанием человеческих ресурсов покинуть организацию, для определения негативных факторов, влияющих на уход персонала, а так же для определения сотрудников, вероятность ухода которых высока.
Задачи исследования: 1. выполнить обзор существующих методов анализа данных;
2. исследовать существующие методы анализа, применяемые для управления персоналом;
3. спроектировать и заполнить базу данных для хранения информации о внутрикорпоративных изменениях компании и личных данных сотрудников;
4. на основе изученных методов и имеющихся данных разработать подход к анализу, позволяющий находить взаимосвязи между внутрикорпоративными факторами и желанием сотрудников уйти из компании;
5. формализовать полученные методы в виде алгоритмов;
6. спроектировать и реализовать систему поддержки принятия решений, позволяющую использовать предложенные методы анализа данных для управления персоналом.
1. Обзор существующих методов и систем анализа данных
В данной главе представлен понятийный аппарат, определяющий смысл основных, используемых в работе определений, а так же анализ методов и систем управления персоналом.
1.1 Понятийный аппарат
Перед тем как приступить к непосредственному анализу существующих методов анализа данных и систем управления персоналом, необходимо определить основные понятия, используемые в работе, для исключения непонимания между читателем и текстом работы.
Аббревиатура OLAP (On-Line Analytical Processing) дословно переводится как оперативный анализ данных. В последнее время эту аббревиатуру используют довольно часто в различных контекстах, поэтому существует огромное количество определений данного понятия, в той или иной степени подходящего для конкретной предметной области. Поэтому, необходимо выбрать одно из определений.
1) OLAP - категория ПО, позволяющая аналитикам, менеджерам и руководителям вникать в данные посредством быстрого, постоянного, интерактивного доступа к широкому разнообразию способов представления информации, полученной из сырых данных, в разрезе измерений предприятия, в понятном для пользователя виде [3].
2) OLAP - системы, организующие и представляющие данные в различных формах для удовлетворения нужд различных пользователей [4].
3) OLAP - процесс использования баз данных с целью извлечения информации в основном с помощью механизма агрегации [5].
В работе под аббревиатурой OLAP мы будем понимать первое определение, т.к. оно более полно отражает суть процессов реализующихся в OLAP-системах.
Существует множество понятий Data Mining, которые отличаются не только смыслом, но и методами, в него входящие. Но для начала необходимо выбрать наиболее подходящее к данному контексту определение, а используемые в Data Mining методы рассмотреть в основной части работы.
1) Data Mining - это процесс обнаружения в "сырых" данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности [1].
2) Data Mining - автоматический или удобный для пользователя процесс извлечения шаблонов, имеющих информационную значимость, из баз данных, хранилищ данных, веб ресурсов или в информационных потоков [4].
3) Data Mining - анализ наборов данных с целью нахождения ранее неизвестных взаимосвязей и изложения данных в новом виде, который будет понятен и практически полезен для субъекта анализа [5].
4) Data Mining- исследование и обнаружение "машиной" (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее небыли известны, нетривиальны, практически полезны, доступны для интерпретации человеком [7].
В работе под Data Mining будем понимать последнее определение, данное Григорием Пятецким-Шапиро в 1989 году, так как оно более точно объясняет смысл процесса Data Mining.
Под понятием управление персонала, будет подразумеваться - область знаний и практической деятельности, направленная на обеспечение организации качественным персоналом, способным выполнять возложенные на него трудовые функции и оптимальное его использование. Оптимальное использование персонала с точки зрения управления персоналом достигается за счет выявления положительных и отрицательных мотивов индивидуумов и групп в организации и соответствующего стимулирования положительных мотивов и погашения отрицательных мотивов, а также анализа таких воздействий [5].
1.2 Анализ данных
В настоящее время разработано большое количество методов анализа данных, применяемых в самых разрозненных контекстах. Для определения необходимого метода анализа данных необходимо определиться с целью анализа, т.к. одни и те же методы могут использоваться совсем в разных контекстах и давать совершенно разные результаты. Также, некоторые методы позволяют извлекать данные в виде визуализаций, отчетов, многомерного анализа, способствующие дальнейшему анализу экспертом. Иной вариант - использование методов для проведения предобработки данных и последующего применения математических методов анализа данных. В таком варианте, пользователь (лицо принимающее решение) получает не сырые, а подготовленные данные (модели), ценность которых намного выше [1].
Первый случай, подразумевает, что ЛПР сам будет принимать все решения, такие как выбор подходящей модели и подбор методов анализа данных т.е. он будет полагаться либо на интуицию, либо на принятые в организации стандартные методы. Такой метод анализа можно применять для решения оперативных задач, но ни в коем случае для стратегических.
Часто при описании аналитических систем применяют термины типа прогнозирование, риск-менеджмент, сегментация рынка и т.д. На самом деле, решение этих задач реализовывается одними и теми же методами анализа. Например, прогнозирование - это задача регрессии, сегментация рынка - это кластеризация, управление рисками - это комбинация классификации и кластеризации. Данный набор методов позволяет решать практически все реальные задачи. Иными словами, они являются атомарными элементами, из которых строятся решения других задач [1].
Многомерная структура данных
Процедура принятия решений включает в себя генерацию некоторых гипотез и для преобразования их в законченные решения они должны быть подтверждены. Исследование гипотез производится основываясь на данных об анализируемой предметной области. Довольно часто, информация такого рода изображается в виде зависимостей между параметрами, число которых может сильно колебаться.
Стандартные инструменты анализа, опирающиеся на данные, представленные в виде реляционных таблиц, не могут удовлетворить таким требованиям. В 1993 г. Е. Кодд рассмотрел недостатки реляционной модели БД, указав в первую очередь на невозможность “объединять, просматривать и анализировать данные с точки зрения множественности измерений, т. е. самым лучшим для аналитиков способом”. Под понятием измерение понимают последовательность значений одной из анализируемых характеристик [7].
Под множественностью измерений подразумевается представление данных в виде многомерной модели. Различные совокупности данных могут быть проанализированы вдоль наборов измерений, описывающих предметные области. Измерение может представляться в виде иерархической структуры [7].
На пересечениях осей измерений располагаются данные, количественно характеризующие анализируемые факты, - меры. Это могут быть затраченные усилия персонала, выраженные в единицах времени или в денежном выражении, заработная плата и т.д.
Таким образом, многомерную модель данных можно представить как гиперкуб. Ребрами такого гиперкуба являются измерения, а ячейками - меры.
Над таким гиперкубом могут выполняться следующие операции: 1. Срез - создание подмножества многомерного массива данных, которое будет соответствовать одному значению нескольких элементов измерений, не состоящих в этом подмножестве.
2. Вращение - изменение порядка представления измерений, расположенных на странице либо в отчете. Операция вращения может заключаться, например, в перемещении измерений в строки либо в столбцы. Также с помощью вращения можно придать таблице желаемый вид, путем перестановки местами столбцов и строк таблицы.
3. Консолидация и детализация - две противоположные операции, первая приводит данные к агрегированному виду, вторая, наоборот. Направление детализации можно задать вдоль иерархии отдельных измерений, отношений, установленных между и в рамках измерений.
Общий подход к анализу данных
Стандартная схема анализа и обработки данных в качестве первичного источника данных выступает ХД, на основе которой будет создаваться аналитическая система. В ХД могут поступать самые разнородные данные, ее задача - объединить все данные в одном месте. Источниками данных могут выступать как базы данных систем управления предприятия, офисные документы, а также такие внешние источники как демографические данные, макроэкономические показатели, конкурентная среда и т.п. В процессе добавления новых данных в ХД их необходимо систематизировать [1].
Вторым элементом в схеме обработки и анализа данных является семантический слой. Вне зависимости от способа дальнейшего анализа, необходимо чтобы поступающая на вход информация была понятна ЛПР. Довольно часто данных находятся в разрозненных БД, а пользователь не должен разбираться с устройством работы с СУБД. Таким образом, семантический слой должен быть единым для всех инструментов анализа и должен содержать механизм трансформирующий термины предметной области в вызовы механизмов доступа к БД [1].
После того, как данные стали понятны для пользователя, с ними можно начинать работать и получать ценную информацию с помощью систем отчетности. Системы отчетности позволяют дать ответ на вопрос: что происходит в организации. Первый вариант их использования: регулярные отчеты, использующиеся для мониторинга оперативной ситуации и анализа отклонений. Так, например, система может ежемесячно подготавливать отчеты об использованных ресурсах и остатках на складе, и когда значение остатков на складе меньше средней месячной нормы использования ресурсов, необходимо подготовить заказ на поставку, т.е. во многих случаях это стандартизированные бизнес операции. Обычно, некоторые элементы такого подхода в каком-либо виде используются в компаниях.
Иной вариант использования систем отчетности - обработка нерегламентированных запросов. Когда аналитик пытается проверить какую-либо гипотезу, он хочет получить пищу для размышлений, опровергающую либо подтверждающую идею. Изза того, что эти идеи носят спонтанный характер, и у человека не успевает складываться точная картина того, какого рода информация ему потребуется для дальнейшего анализа, необходим инструмент, позволяющий быстро и в интуитивном виде получить эту информацию. Извлеченные данные обычно отображаются в виде таблиц, либо в виде графиков и диаграмм [1].
On-Line Analytical Processing
Для построения систем отчетности можно применять различные подходы, но самый распространенный на сегодня - это механизм OLAP. Основной идеей является представление информации в виде гиперкубов (многомерных кубов), где оси представляют собой измерения, а в ячейках помещаются меры (показатели). Пользователь манипулирует измерениями и получает, необходимую для решения конкретных задач, информацию [2].
Благодаря легкости понимания OLAP получил обширное распространение в качестве механизма анализа данных, но следует понимать, что его возможности в разделе более глубокого анализа, например, классификации, очень ограничены. Главной проблемой при решении, задач глубокого анализа является вовсе не возможность извлечения необходимых данных в виде таблиц, графиков и диаграмм, а построение адекватной модели. На вход существующей модели подается новая информация, проходит через нее, а результат и есть классифицированные объекты. Однако построение модели является крайне сложной задачей. Конечно, можно задать в системе несколько готовых и не сложных моделей, например, логистическую регрессию или аналогичную, зачастую именно так и происходит, но это не решает поставленный вопрос, и реальные задачи практически всегда выходят за рамки таких тривиальных моделей. Таким образом, подобная модель будет обнаруживать лишь видимые зависимости, ценность обнаружения которых второстепенна, т.е. то, что и так хорошо известно, или будет строить излишне грубые сценарии, что тоже совершенно неинтересно [7].
Аналитику часто приходится рассматривать процессы, которые оказываются слишком запутанными и не поддающимися точному анализу с помощью строгих аналитических методов. Но можно все же получить представление о его поведении в различных обстоятельствах, подходя к задаче с различных точек зрения, руководствуясь знанием предметной области, опытом, интуицией и используя различные эвристические подходы [20].
Верным подходом к генерации моделей является их пошаговое усовершенствование. Начав с пробной, полученной на основе исследований и опыта эксперта, сравнительно грубой модели, необходимо по мере накапливания новых данных и использования модели на практике улучшать ее. В конечном счете задача классификации выходит за границы механизмов систем отчетности, поэтому не стоит ждать положительных результатов в этом направлении при применении OLAP-технологии. Для решения задач более сложного анализа применяется совсем иной набор технологий - KDD.
Knowledge Discovery in Databases KDD - это процесс преобразования данных в знания. KDD занимается вопросами подготовки данных, очистки данных, выбора информативных признаков, применения методов Data Mining (DM), постобработки данных, интерпретирование извлеченных результатов.
Прелесть этого подхода состоит в том, что вне зависимости от предметной области выполняются одни и те же операции: 1. Подготовка данных
1.1. Вникание в предметную область. Инициирующий процесс, в рамках которого необходимо выстроить четкое понимание предметной области, целей проведения этой работы, то, для каких нужд и кем будут использоваться результаты. На основании этого, можно сделать множество решений, по поводу трансформации данных, используемых алгоритмах и способах выдачи результатов [21].
1.2. Подготовка исходных данных. Цель данного этапа - создать набор данных, состоящий из различных источников, а также разделение этого набора на обучающую и тестирующую выборки. Для использования бизнес понятий, а не технических терминов, необходимо наличие семантического слоя и поддержка работы с хранилищем данных.
2. Отчистка данных или предобработка данных. Необходимо проверить исходные данные на наличие аномальных значений, пустых значений, шумов и при необходимости исправить эти данные. Также на этом этапе могут применяться различные алгоритмы понижения размерности данных.
3. Трансформация данных. Трансформация данных позволяет привести исходные данные к корректному, для используемого метода DM виду. Это может быть сделано путем квантования, приведения типов, приведения к "скользящему окну" и т.д.
4. Data Mining: 4.1. Выбор типа используемых методов DM. На этом этапе выбирается тип методов DM, которые в дальнейшем будут использоваться, например, классификация, регрессия или кластеризация. В большей степени это зависит от целей KDD, а так же от предыдущих этапов. DM используется для двух основных целей: прогнозирование и описание. Большая часть методов DM основывается на индуктивном обучении, т.е. модель строится косвенно либо на прямую, путем обобщения множеств обучающих выборок. Возможность применения полученной модели в будущих анализах является основополагающим допущением индуктивной модели обучения.
4.2. Выбор алгоритма DM. На этом этапе происходит выбор конкретных методов анализа для анализируемой модели. Например, в сравнении точности и простоты интерпретации, первое легче достичь, используя нейронные сети, в то время как последнее, используя деревья решений. Каждый алгоритм имеет различные параметры и способы обучения. На основе этого необходимо понять, какой алгоритм наиболее подходящий для решения поставленной задачи [21].
4.3. Применение DM алгоритма. На этом этапе необходимо применить выбранный алгоритм несколько раз, до получения удовлетворяющих результатов, например, изменяя параметры алгоритмов, таких как минимальное количество сущностей в одной ветке дерева решений.
4.4. Оценивание. На этом этапе необходимо оценить и интерпретировать основные параметры полученной модели (правила, надежность), относительно поставленных целей, определенных на первом шаге. Также необходимо оценить предшествующие этапы на предмет их воздействия на результаты DM алгоритма. На этом этапе основное внимание уделяется доступности для понимания и полезности построенной модели, а так же проводится ее документация.
5. Постобработка данных. На данном этапе производится интерпретация результатов и применение полученных знаний. Успешность применения полученных результатов является определяющим фактором эффективности всего процесса KDD [21].
Интерпретация результатов обработки данных возлагается на человека (ЛПР). Результаты, полученные после такого анализа, в самом обычном варианте - это таблицы, графики и диаграммы, а в усложненном - правила и модели. Целиком избежать участия человека невозможно. Любой результат не будет иметь никакой стоимости, пока он не будет использован к определенной предметной области.
Решение любой из перечисленных задач, может состоять из разнообразных методик, от статистических методов и до самообучающихся алгоритмов. Практические задачи почти всегда разрешимы перечисленным списком методов или их комбинацией, т.е. практически любая задача решается путем приспосабливания этих методов. Таким образом, система, решающая приведенный список задач, позволяет ЛПР решить большинство задач бизнес анализа.
Data Mining
Основной задачей аналитика является генерация гипотез. Он решает ее, основываясь на своих знаниях и опыте. Однако знания можно также извлекать из, накопленных данных, подвергающихся анализу. Такие знания часто называют “скрытыми”, т. к. они содержатся в гигабайтах и терабайтах информации, которые человек не в состоянии исследовать самостоятельно. В связи с этим существует высокая вероятность пропустить гипотезы, которые могут принести значительную выгоду. Для обнаружения скрытых знаний необходимо применять специальные методы автоматического анализа, объединенные термином Data Mining (добыча данных) [25].
Data Mining - это процесс обнаружения в “сырых” данных ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности [1].
Задачи Data Mining
Методы DM помогают решить многие задачи, с которыми сталкивается аналитик. Из них основными являются: классификация, регрессия, поиск ассоциативных правил и кластеризация.
Задача классификации сводится к определению класса объекта по его характеристикам. Требуется заметить, что в данной задаче множество классов, к которым может быть отнесен объект, известно заранее.
Задача регрессии аналогично задаче классификации позволяет определить по имеющимся характеристикам объекта значение его неизвестного параметра. В отличие от задачи классификации значением характеристики есть не дискретное множество классов, а множество действительных чисел.
Задача кластеризации заключается в нахождении независимых групп (кластеров) и их параметров во всем множестве рассматриваемых данных. Решение этой задачи помогает лучше понять данные. Кроме того, группировка однотипных объектов позволяет уменьшить их число, таким образом, и облегчить анализ.
При поиске ассоциативных правил главной целью является нахождение зависимостей (или ассоциаций) между объектами или событиями. Найденные зависимости изображаются в виде правил и могут быть применены как для лучшего понимания анализируемых данных, так и для предсказания появления будущих событий [7].
Методы решения задач Data Mining
По способам решения задачи делятся на Supervised Learning (обучение c учителем) и Unsupervised Learning (обучение без учителя).
Supervised Learning подразумевает построение модели с участием человека. Построение модели происходит в несколько этапов. На первом, строится модель анализируемых данных, на основе какого-либо алгоритма DM. Затем, эта модель проходит этап обучения, на котором проверяется качество ее работы и в случае необходимости проводится дополнительное обучение [7].
В случае Unsupervised Learning генерируются описательные модели, например, взаимосвязи покупок клиентов в магазине. Несомненно, что если такая зависимость существует, то обучаемая модель должна их обнаружить. Главной идеей данного подхода является возможность решения различных задач без предварительных знаний об анализируемых данных. К такому типу задач относятся задачи кластеризации и поиска ассоциативных правил [7].
Модели Data Mining
В Data Mining для отображения извлеченных знаний служат модели, виды которых, находятся в прямой зависимости от методов их разработки. Наиболее популярными являются: математические функции, правила, кластеры и деревья решений. Выделяют два вида моделей: предсказательные и описательные [7].
Описательные модели рассматривают суть зависимостей в наборе данных, всеобъемлющее влияние разнообразных факторов, т. е. генерация эмпирических моделей всяческих систем. Существенный момент в описательных моделях - доступность для понимания пользователем. Вероятно, что найденные закономерности будут отличительной чертой именно конкретных рассматриваемых данных и более нигде не встретятся. Однако даже такая информация может быть полезна, и поэтому должна быть известна [7].
К описательным моделям относятся следующие виды: 1. регрессионные модели, изображающие функциональные взаимосвязи между зависимыми и независимыми характеристиками и параметрами в понятной ЛПР форме;
2. модели кластеров, описывающие кластеры, на которые можно разделить объекты, на основе данных, которые используются в анализе. Группируются объекты на основании данных, описывающих содержание объектов;
3. ассоциативные модели, разъясняющие закономерности между зависимыми событиями;
4. итоговые модели, описывающие ограничения на анализируемые данные массива. Генерация итоговых моделей состоит в нахождении каких-либо фактов, которые верны для всех или почти всех записей в анализируемой выборке [7].
Построение предсказательных моделей происходит на основании набора данных с известными результатами. Они могут использоваться для предсказания результатов, основываясь на иных наборах данных. При этом, очевидно необходимо, чтобы модель функционировала максимально точно, была статистически значима и оправданна [7].
К предсказательным моделям относятся модели классификации, описывающие наборы правил, в соответствии с которыми можно произвести описание иного объекта к одному из классов и модели последовательностей, описывающие функции, позволяющие прогнозировать изменение непрерывных числовых параметров [7].
Визуальный анализ данных
Модели, получаемые при анализе данных с помощью методов DM, обычно не удобны для восприятия пользователем. Во множестве классификационных или ассоциативных правил, в математических формулах достаточно проблематично легко и быстро найти ранее не известные и полезные знания. Вследствие многообразности информации это не всегда возможно и в таких простейших графических видах представления знаний как двумерные графики, деревья решений, дейтограммы и т. п. В связи с этим возникает потребность в более сложных инструментах интерпретации результатов анализа. К ним относятся средства визуального анализа данных (Visual Mining) [7].
Главной идеей визуального анализа данных является описание данных в некоторой визуальной форме, позволяющей ЛПР погрузиться в данные, работать с их визуальным представлением, выявить их суть, сделать выводы и напрямую взаимодействовать с данными.
До недавних пор визуальный анализ ограничивался лишь двумерными и простыми трехмерными графиками. Впрочем, при помощи новых технологий пользователи способны оценивать на графических изображениях: большие объекты или маленькие, далеко они располагаются или близко. ЛПР в реальном времени может передвигаться вокруг объектов или кластеров объектов и оценивать их со всех сторон. Такой подход позволяет использовать в анализе естественные человеческие навыки обнаружения неопределенных образцов в визуальном трехмерном представлении данных [7].
Визуальный анализ данных преимущественно полезен, когда информации о самих данных достаточно мало и цели анализа до конца непонятны. Поэтому, под визуальным анализом данных можно понимать процесс генерации гипотез. При этом полученные гипотезы можно проверять методами DM, или, опять же, средствами визуального анализа. Вместе с тем, прямое вовлечение ЛПР в процесс визуального анализа имеет два основных преимущества перед автоматическими методами: 1. визуальный анализ данных позволяет с легкостью работать с гетерогенными и зашумленными данными, в то время как многие автоматические методы требуют предобработки данных;
2. визуальный анализ данных интуитивно понятен и не требует нетривиальных математических или статистических алгоритмов.
Результатом этих достоинств является более высокая скорость выполнения анализа, нежели автоматическими средствами [7].
1.3 Системы анализа данных
Решения бизнес-аналитики для предприятий уже давно перестали быть простым управленческим инструментом, обеспечивающим доступ к данным. В современных условиях они должны обладать гораздо большей функциональностью - от мониторинга производительности и процессов до принятия решений на основе полученных данных [17]. Создать инструмент, позволяющий удовлетворять всем возможным требованиям предприятия невозможно, поэтому все системы разделены на некоторые подклассы, различающиеся архитектурой, реализуемыми методами и соответственно, решающими ими задачами.
On-Line Analytical Processing-системы
С идеей многомерного анализа данных тесно пересекается оперативный анализ, выполняемый инструментами OLAP-систем. Основная цель OLAP-систем - возможность проведения произвольных запросов аналитиков для поддержания их деятельности. Цель OLAP-анализа - проверка возникающих гипотез [7].
В 1993 году Э. Кодд опубликовал работу под названием “OLAP для пользователей-аналитиков: каким он должен быть”, в которой изложены основные концепции OLAP-систем. Также в этой работе расписаны 12 требований, которым должны удовлетворять OLAP-системы [26]. Затем, в 1995 году, он дополнил, прибавил к изначальным двенадцати требованиям еще шесть, и определил все требования по четырем группам: основные особенности, специальные особенности, особенности представления отчетов, управление измерениями [4].
Существует и иная трактовка OLAP-систем, предложенная в 1995 г. Н. Пендсом и Р. Критом на основе анализа правил Кодда - FASMI (Fast of Analysis Shared Multidimensional Information). Данная концепция опирается на скорость вычисления, многопользовательский доступ, релевантность информации, наличие средств статистического анализа и многомерность, т. е. на представление анализируемых фактов как функций от большого числа их характеризующих параметров [7].
Архитектура On-Line Analytical Processing-систем
OLAP-система состоит из двух основных компонент: 1. OLAP-сервер - система, предоставляющая возможность выполнять над хранимыми данными необходимые операции и создавать многомерные модели на концептуальном уровне. Обычно OLAP-серверы объединяют с ХД или ВД;
2. OLAP-клиент - система, позволяющая аналитику совершать все возможные действия над многомерной моделью данных через специальный интерфейс.
Реализация многомерной модели в ХД скрывается OLAP-серверами от пользователя. Они формируют гиперкуб, над которым аналитики совершают различные действия, с целью выполнения задач анализа. Несмотря на то, что способ реализации многомерной модели скрывается, это является очень важной информацией, от которой зависит как производительность, так и занимаемые ресурсы [7].
Выделяют три основных способа реализации таких систем: MOLAP, ROLAP, HOLAP, и четыре дополнительных WOLAP, DOLAP, MOLAP, SOLAP [27].
MOLAP - многомерный (multivariate) OLAP. Для реализации многомерной модели используют многомерные БД (см. рисунок 1.7). Данные хранятся в виде многомерных упорядоченных массивов. Таким образом, куб можно представить в виде плоской таблицы, строчками которой, будут являться все комбинации значений всех характеристик с соответствующими им значениями мер [7].
К основным преимуществам использования MOLAP можно отнести следующее: 1. поиск и выборка данных производится значительно быстрее, чем при многомерном концептуальном взгляде на реляционную БД;
2. многомерные БД легко справляются операциями включения в информационную модель разнообразных встроенных функций.
Однако, также имеются и значительные недостатки использования многомерной схемы БД: 1. за счет денормализации и заранее выполненной агрегации объем данных в многомерной БД, обычно, соответствует (по оценке Кодда) в 0,025 раз меньшему объему исходных детализированных данных [7];
2. в большинстве случаев многомерный куб является сильно разреженным, а изза того, что данные хранятся в упорядоченном виде, неопределенные значения можно удалить только за счет выбора оптимального порядка сортировки.
Многомерные БД чувствительны к изменениям в многомерной модели. Так, при добавлении нового измерения, всю структуру БД необходимо изменить, а это влечет за собой большие временные затраты [7].
ROLAP - реляционный (relational) OLAP. Для реализации многомерной модели используют реляционные БД. Наибольшее распространение получили две схемы реализации многомерного представления данных с помощью реляционных таблиц: звезда и снежинка.
Использование реляционных БД в OLAP-системах имеет следующие достоинства: 1. во многих случаях корпоративные ХД реализованы с помощью реляционных СУБД, и инструменты ROLAP позволяют проводить анализ непосредственно над ними;
2. ROLAP-системы являются оптимальным решением, в случае, переменной размерности задачи, т.к. в таких задачах необходимо часто вносить изменения в структуру, а такие модификации не потребуют физического перестроения БД;
3. реляционные СУБД обеспечивают гораздо более высокий уровень защиты данных и широкие возможности разграничения прав доступа.
Главный недостаток ROLAP по сравнению с MOLAP - меньшая производительность. ROLAP-системам необходимо провести тщательную проработку схемы БД и настройку индексов, для того, чтобы обеспечить сравнимую производительность с MOLAP [7].
HOLAP - гибридный (hybrid) OLAP. Для реализации многомерной модели используют и многомерные, и реляционные БД. В случаях, когда данные более плотные, может использоваться MOLAP, а для более разреженных данных - ROLAP. Серверы HOLAP применяют подход ROLAP для разреженных областей многомерного пространства и подход MOLAP для плотных областей. Серверы HOLAP разделяют запрос на несколько подзапросов, направляют их к соответствующим фрагментам данных, комбинируют результаты, а затем предоставляют результат пользователю [7].
Информационно-аналитические системы
Период времени быстрых, в значительной мере интуитивных, импровизационных, а зачастую и силовых решений меняется на зону продуманных, просчитанных выводов и решений - оперативных, стратегических.
Для выработки и принятия соответствующих необходимы информация и знания, которые должны удовлетворять требованиям полноты, достоверности, своевременности (актуальности) и полезности.
Основополагающую роль в подготовке принятия решений играет его обоснование по имеющейся у ЛПР информации. Ее, как правило, получают из различных внутренних и внешних источников.
Для выработки адекватного решения используются внутренние информационные ресурсы, которые складываются из отражения деятельности объекта в документах, других видах и способах сбора, обработки, хранения информации. Вдобавок внешние по отношению к объекту информационные ресурсы, например, если это предприятие - корпорации, отрасли, региона, а также глобальные - из средств массовой информации, специальной литературы, всемирной информационной сети и т.д. [22].
Одной из первостепенных з
Вывод
В данной работе рассматривается проблема эффективности управления персоналом на предприятиях. Данная работа является достаточно актуальной для больших и средних предприятий любой отрасли. В особенности для высокотехнологичных предприятий, в которых обучение персонала занимает длительное время.
Для управления персоналом обычно используют лишь изменения заработной платы. В некоторых компаниях для этого могут, например, улучшить условия труда или отправить сотрудника на тренинг. Но управленцы не знают, на какого сотрудника воздействовать и на что воздействовать с большей эффективностью. Такого рода информацией может обладать только непосредственный начальник, но может сложиться ситуация, что начальник не заинтересован в продвижение какого-либо сотрудника, хотя это прибыльно компании. Таким образом, такая информация должна быть доступна для всех звеньев управления, что и позволяет сделать разработанная система поддержки принятия решений.
Целью данной работы является разработать систему поддержки принятия решений, позволяющую установить взаимосвязи между внутрикорпоративными факторами организации и желанием человеческих ресурсов покинуть организацию, для определения негативных факторов, влияющих на уход персонала, а так же для определения сотрудников, вероятность ухода которых высока.
В работе рассмотрена On-Line Analytical Processing-технология анализа данных, подход к анализу Knowledge Discovery in Databases, совокупности методов анализа - Data и Visual Mining. Затем, были рассмотрены OLAP-системы и два вида систем анализа данных: Информационно-аналитические системы и системы поддержки принятия решений и приведены их различия. Также были исследованы методы анализа, применяемые для управления персоналом, методы управления мотивацией персонала и оценки текучести кадров, с возможным экономическим ущербом, вызванным текучестью персонала. В целях получения информации, о данных, доступных для анализа предприятиям, были изучены стандартные средства ведения кадрового учета на предприятии.
Результатом работы является система поддержки принятия решений, которая будет рассчитывать вероятность ухода каждого из работающих сотрудников, а так же возможные потери, которые при этом понесет организация. Реализованная система позволит менеджерам по персоналу сократить текучесть кадров, за счет информации о потенциальных желаниях сотрудников покинуть организацию, и своевременной реакции на них. Также менеджеру будут осведомлены о возможных потерях, связанных с уходом сотрудников, и может быть тогда, начнут осознавать их ценность.
Стоит отметить, что данная система является лишь прототипом, на основе которого, можно протестировать подход к анализу, и убедиться, можно ли его использовать в промышленных системах. В дальнейшем, планируется расширить спектр охватываемых в анализе факторов, добавив к уже анализируемым факторам внешние факторы, такие как, действия конкурентов, общеэкономические и политические факторы и т.д.
Список литературы
1. Анализ бизнес информации - основные принципы // Технологии анализа данных. [Электронный ресурс] [Режим доступа: http://www.basegroup.ru/library/methodology/analysisbusinessdata] [Проверено: 20.03.2014].
2. Business intelligence technology and platforms // Search Business Analytics. [Электронный ресурс] [Режим доступа: свободный,http://searchbusinessanalytics.techtarget.com/resources/Business-intelligence-technology-and-platforms] [Проверено: 20.03.2014].
3. OLAP Research and Technology // OLAP Council. [Электронный ресурс] [Режим доступа: http://www.olapcouncil.org] [Проверено: 20.03.2014].
4. Han J. Data Mining: Concepts and Techniques Second edition /Jiawei Han, Micheline Kamber // University of Illinois at Urbana-Champaign, 2006. - 772 p.
5. Hand D. Principles of Data Mining / David Hand, Heikki Mannila, Padhraic Smyth// Massachusetts Institute of Technology-Cambridge, 2001. - 546 p.
6. Иванова-Швец Л.Н. Управление персоналом /Л.Н .Иванова-Швец, А.А. Корсакова. // Учебно-методический комплекс. - М.: Изд. Центр ЕАОИ, 2009. - 311 с.
7. Барсегян А.А. Анализ данных и процессов: учеб. пособие / А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. - 3-е изд., перераб. и доп. - СПБ.: БХВ-Петербург, 2009. -512 с.
8. Текучесть кадров // Группа компания «Баланс». [Электронный ресурс] [Режим доступа: http://www.balans.ru/ru/library/print/8/article_39.html] [Проверенно: 23.03.2014].
9. Зайцева Н.В. Построение системы поддержки принятия решений по управлению человеческим капиталом предприятия // Modern problems and ways of their solution in science, transport, production and education 2013, Июнь, 2013г.
10. Ключко В.И., Шумков Е.А., Власенко А.В., Карнизьян Р.О. Архитектуры систем поддержки принятия решений// Научный журнал КУБГАУ, №86(02), 2013г.
11. Лычкина Н.Н. Современные технологии имитационного моделирования и их применение в информационных бизнес-системах и системах поддержки принятия решений // ИММОД-2005, - М., 2005. - С. 25-31.
12. Цвиркун А.Д. Имитационное моделирование в задачах синтеза структуры сложных систем. Оптимизационно-имитационный подход/А.Д. Цвиркун, В.К. Акинфиев и др. М.: Наука,1985. - 176 с.
13. Каймакова М.В. Анализ использования человеческих ресурсов: текст лекций / М. В. Каймакова. - Ульяновск: УЛГТУ, 2008. - 80 с.
14. Банько Н. А. Управление персоналом / Н. А.Банько, Б. А. Карташов, Н. С. Яшин // Часть I: Учеб.пособие, Волгоград: ВОЛГГТУ, 2006. - 96 с.
15. Садовникова Н.О.Развитие кадрового потенциала организации / Н.О. Садовникова // Учеб.пособие, Екатеринбург, УРГПУ, 2011 - 70 с.
16. Hersey P. Management of Organizational Behavior / Paul Hersey, Kenneth H. Blanchard // Prentice-Hall, 1988. - 474p.
17. Oracle business intelligence foundation suite // Oracle. [Электронный ресурс] [Режим доступа: http://www.oracle.com/us/obiee-11g-technical-overview-078853.pdf] [Проверено: 24.04.2014].
18. Базаров Т.Ю. Управление персоналом // Т.Ю. Базаров, Б.Л. Еремин. Е.Л. Аксенова, Н.М. Малиновская - 2-е изд., перераб. и доп. - М: ЮНИТИ, 2002. - 560 с.
19. Кибанов А.Я. Управление персоналом организации / А.Я. Кибанов, И.А. Баткаева, Д.К. Захаров, Л.В. Ивановская, Е.В. Каштанова, В.Г. Коновалова, Е.А. Митрофанова, К.Э. Оксинойд, В.М. Свистунов, Г.В. Слуцкий - 3-е изд. - М.: ИНФРА-М, 2005. - 638 с.
20. Методика анализа данных - подход к решению // Технологии анализа данных. [Электронный ресурс] [Режим доступа: http://www.basegroup.ru/library/methodology/base/] [Проверено: 14.04.2014].
21. Maimom O. Introduction to Knowledge Discovery in Databases / Oden Maimom, LIORROKACH // Tell-Aviv University, 2006 - 17 p.
22. Белов В.С. Информационно-аналитические системы. Основы проектирования и применения: учебное пособие, руководство, практикум / Московский государственный университет экономики, статистики и информатики. - М., 2005. - 111 с.
23. Ballard C. Data Modeling Techniques for Data Warehousing / Chuck Ballard, Dirk Herreman, Don Schau, Rhonda Bell, Eunsaeng Kim, Ann Valencic // International Technical Support Organization, 1998 - 216 p.
24. Мальцев П.А., Воронина Т.В. Онтология Business Intelligence // Научный фонд НИУ ВШЭ, 2012г. - с. 150-160.
25. Бериков В.Б., Лбов Г.С. Современные тенденции в кластерном анализе // Институт математики им. С.Л. Соболева СО РАН, 2009г. - С. 1-26.
27. Types of OLAP Systems // OLAP.com. [Электронный ресурс] [Режим доступа: http://olap.com/types-of-olap-systems/] [Проверено: 18.04.2014].
28. 1С:Зарплата и управление персоналом 8 // 1С: Предприятие 8 [Электронный ресурс] [Режим доступа: http://v8.1c.ru/hrm/] [Проверено: 21.04.2014].
29. Постановление Госкомстата РФ от 05.01.2004 N 1 «Об утверждении унифицированных форм первичной учетной документации по учету труда и его оплаты» // Консультант Плюс [Электронный ресурс] [Режим доступа: http://www.consultant.ru/document/cons_doc_LAW_47274/] [Проверено: 21.04.2014].
31. Воронцов К. В. Лекции по статистическим (байесовским) алгоритмам классификации // Учебно-методический комплекс. - М.: ИПР-ЖР, 2008. - С. 32.
32. Воронцов К. В. Математические методы обучения по прецедентам (теория обучения машин) // Учебно-методический комплекс. - М.: ИПР-ЖР, 2008. - С. 133.