Изучение технологии решения задач интеллектуального анализа данных. Определение типа вина, обнаружение кишечной палочки методами "нейронная сеть", "байесовский классификатор", "линейная регрессия", "деревья принятия решений"," k-ближайших соседей".
Аннотация к работе
Тема: Применение методов интеллектуального анализа данных для решения задач классификации в программной среде RAPIDMAINERЦенны знания, которые можно получить, при помощи правильной обработки и анализа этой информации. Научное направление, которое занимается подобного рода задачами носит название Интеллектуальный анализ данных (Data Mining). Для изучения и тестирования технологий Data Mining была выбрана программная система Rapidminer, которая является средой для проведения экспериментов и решения задач машинного обучения и интеллектуального анализа данных. Задачи: Ознакомиться с описанием основных технологий решения задач Data Mining: Выбрать три задачи для решения;Задачи Data Mining: Для практического изучения технологий интеллектуального анализа данных необходимо выбрать задачи для решения. Data Mining занимается решением следующих типов задач: Классификация. В результате решения задачи классификации обнаруживаются признаки, которые характеризуют группы объектов исследуемого набор данных - классы; по этим признакам объект можно отнести к тому или иному классу; Технологии Data Mining: В программной системе Rapidminer реализовано большое количество технологий, при помощи которых можно достаточно эффективно решать задачи Data Mining. деревья принятия решений - метод, позволяющий принимать решения на основании правил, представленных в виде иерархической структуры;Имеется два набора данных связанных с красными и белыми вариантами португальского вина "Вино Верде". Необходимо классифицировать на основании значений атрибутов к какой разновидности относится конкретный образец. На выборке при помощи методов, выбранных ранее, и их ансамблей было протестировано решение задачи классификации. В Таблице 1 приведены результаты тестирования. Для оценки полученных результатов была выполнена проверка критерия Стьюдента посредством проведения Т-теста, который показывает статистическую значимость результатов работы алгоритмов.Имеется набор данных, связанный с местами скопления белков. Необходимо классифицировать на основании значений атрибутов к какой части кишечной палочки относится конкретный образец. chg: наличие заряда на конце предсказанных N-липопротеинов. ALM 2: оценка ALOM программы после исключения предполагаемых расщепляемых областей сигнала из последовательности. На выборке при помощи методов, выбранных ранее, и их ансамблей было протестировано решение задачи классификации.Имеется набор данных, связанный с изображениями банкнот. На выборке при помощи методов, выбранных ранее, и их ансамблей было протестировано решение задачи классификации. В Таблице 5 приведены результаты тестирования. Для оценки полученных результатов была выполнена проверка критерия Стьюдента посредством проведения Т-теста, который показывает статистическую значимость результатов работы алгоритмов. Из результатов тестирования видно, что высокую эффективность по критерию Стьюдента имеют методы: нейронная сеть и k-ближайших соседей.Были изучены на практике технологии решения задач интеллектуального анализа данных на примере решения трех задач в программной системе Rpidminer. В процессе анализа результатов работы было выявлено, что в большинстве случаев ансамбль из нескольких методов решения задачи справляется с ней лучше, чем каждый из них в отдельности, пусть даже это будут алгоритмы не с самой высокой эффективностью, что обуславливается тем, что области, в которых методы не ошибаются «перекрывают» области ошибок других методов, но при использовании методов с низкой эффективностью есть опасность, что при голосовании большинство вынесет ошибочное решение.