Анализ применения технологии Data Mining для построения полных и непротиворечивых баз знаний в интегрированных экспертных системах. Процедуры комбинированного метода приобретения знаний. Расширенные таблицы решений для сравнения продукционных правил.
Аннотация к работе
В рамках КМПЗ концепция Data Mining реализована тремя способами [1]: генерация начального поля знаний (ПЗ) из БД с последующей модификацией его экспертом; верификация ПЗ, полученного в процессе интервьюирования эксперта, а так же его частичная модификация, связанная с нахождением коэффициентов уверенности для уже выявленных знаний; слияние ПЗ, полученных в результате применения двух методологий. В ходе сеанса интервьюирования эксперта осуществляется структурирование полученной информации в виде ПЗ, выполняющего важную функцию в процессе структурирования полученной от эксперта информации о проблемной области (ПРО), обеспечивая внутреннее представление основных понятий и отношений ПРО, выявленных из системы знаний эксперта как первый шаг к формализации на конкретном языке представления знаний (ЯПЗ). В соответствии с [1] множество процедур, применяемых рамках КМПЗ на этапе извлечения знаний из БД, представлено как FD = , где: FD1 - процедура генерации SQL-запроса к СУБД; FD2 - процедура извлечения данных из БД; FD3 - процедура фильтрации некоторого подмножества данных; FD4 - процедура преобразования данных; FD5 - процедура извлечения знаний из БД; FD6 - процедура оценки точности полученной модели; FD7 - процедура определения алгоритма и его параметров; FD8 - процедура конвертации полученных правил в необходимый формат. Одной из особенностей применения Data Mining в рамках КМПЗ является необходимость организации доступа к конкретной БД, содержащей информацию по анализируемой предметной области, а также ее предобработки, поэтому КМПЗ включает в себя множество процедур для работы с БД, таких как процедура генерации SQL-запроса к СУБД (FD1), процедура извлечения данных из БД в соответствии с запросом, сформированным процедурой FD1 (FD2), процедура фильтрации некоторого подмножества данных, которое в дальнейшем будет использоваться для построения набора правил (FD3), процедура преобразования данных, осуществляющая конвертацию в тот формат, который может напрямую использоваться алгоритмами извлечения знаний (FD4). Заключительными являются процедуры: FD6 - процедура оценки точности полученной модели с использованием тестовых данных; FD7 - процедура определения алгоритма и его параметров, обеспечивающих наилучший результат в процессе извлечения знаний, и процедура конвертации полученных правил в необходимый формат (FD8).
Список литературы
1. Рыбина Г.В. Теория и технология построения интегрированных экспертных систем. - М: «Научтехлитиздат», 2008.
2. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP. - СПБ: БХВ-Петербург, 2007.
3. Clark P., Niblett T. The CN2 induction algorithm //Machine Learning Journal. 1988. №4.
4. Quinlan J.R. Induction of Decision Trees //Machine Learning Journal. 1986. №1.
5. Sreerama K.Murthy, Simon Kasif, Steven Salzberg. A System for Induction of Oblique Decision Trees//Journal of Artificial Intelligence Research. 1994. №8.
6. Breiman L., Friedman J.H., Olshen R.A., Stone C.T. Classification and Regression Trees.- Wadsworth, Belmont, California, 1984.
7. Загоруйко Н.Г. Прикладные методы анализа данных и знаний.-Новосибирск: Издательство института математики,1999. - 210 с.
8. Рыбина Г.В., Смирнов В.В. Планирование процедур верификации баз знаний в интегрированных экспертных системах // Инженерная физика. 2006. № 3.С.53-65.