Параллельная обработка таблиц решения для задач распознавания - Статья

бесплатно 0
4.5 116
Презентация нового алгоритма параллельной предварительной обработки таблиц, основанного на теории приближенных множеств. Решение обобщенной задачи разбиения значений качественных и количественных атрибутов в условиях отсутствия некоторых значений.


Аннотация к работе
Одной из основных задач, решаемых данными системами и возникающей в таких областях как маркетинг, розничная торговля, банковское дело, телекоммуникации, страхование, медицина, молекулярная генетика и генная инженерия, является задача распознавания (задача формирования решающего правила, на основании которого объекты, принадлежащие классу, могут быть отделены от остальных). Классификация методов дискретизации и группировки: · Методы дискретизации/группировки, ограниченные обработкой отдельных атрибутов, называются локальными, в то время как методы, которые обрабатывают одновременно все атрибуты сразу, называются глобальными. · Методы дискретизации/группировки, которые не используют информацию о метках класса в процессе дискретизации/группировки по аналогии с алгоритмами индукции без учителя называются методами дискретизации/группировки без учителя, в отличие от методов, которые используют данную информацию и называются методами дискретизации/группировки с учителем. Очевидно, чтобы пара объектов , различимая атрибутами условий в исходной системе, была различима атрибутами условий в результирующей системе, необходимо, чтобы значения хотя бы одного различающего атрибута объектов переходили в неравные в результирующей системе решения. алгоритм обработка таблица множество Очевидно, что эта задача сводится к задаче раскрашивания графов, построенных для атрибутов , , у каждого из которых множество вершин - это множество значений атрибута , а множество ребер равно множеству всех цепочек в атрибута .Тщательное тестирование на 55 на базах данных известного хранилища UC Irvine Repository, специально созданного из реальных баз данных разных областей для тестирования и сравнения алгоритмов обобщения [ML Repository], показало, что использование предложенного алгоритма увеличило точность классификации (главного критерия качества обучения) известных алгоритмов обобщения: ID3, C4.5, Naive Bayes, Instance Based почти для всех случаев.

Введение
В современном обществе все большие объемы информации сохраняются в базах данных. Общим для этих данных является то, что они содержат большое количество скрытых закономерностей, являющихся весьма важными для принятия стратегических решений. Решить эту проблему были призваны системы обнаружения знаний в базах данных. Одной из основных задач, решаемых данными системами и возникающей в таких областях как маркетинг, розничная торговля, банковское дело, телекоммуникации, страхование, медицина, молекулярная генетика и генная инженерия, является задача распознавания (задача формирования решающего правила, на основании которого объекты, принадлежащие классу, могут быть отделены от остальных).

Хотя ограничения модели представления извлеченных знаний на основе решающих правил могут существенно снизить точность аппроксимации, в пользу ее использования можно выдвинуть следующие доводы: она легка для понимания; системы, основанные на решающих правилах, по ряду критериев занимают лидирующие позиции; даже простые правила позволяют добиться приемлемой точности классификации - главного критерия качества обучения.

Обнаружение знаний в базах данных - это итеративный процесс, одной из основных стадий которого является предварительная обработка таблиц, в процессе которой происходят: дискретизация числовых значений полей, группировка качественных значений полей и обработка отсутствующих значений.

Необходимость дискретизации и группировки диктуется следующими факторами: многие алгоритмы обобщения могут работать только в дискретном пространстве, использование дискретизации и группировки обычно позволяет добиться существенного увеличения скорости работы и точности классификации.

Также большинство алгоритмов обобщения не может непосредственно работать с таблицами с отсутствующими значениями.

Классификация методов дискретизации и группировки: · Методы дискретизации/группировки, ограниченные обработкой отдельных атрибутов, называются локальными, в то время как методы, которые обрабатывают одновременно все атрибуты сразу, называются глобальными.

· Методы дискретизации/группировки, которые не используют информацию о метках класса в процессе дискретизации/группировки по аналогии с алгоритмами индукции без учителя называются методами дискретизации/группировки без учителя, в отличие от методов, которые используют данную информацию и называются методами дискретизации/группировки с учителем.

Было показано, что: · При использовании глобальных методов дискретизации/ группировки точность классификации выше, чем при использовании локальных.

· При использовании методов дискретизации/группировки с учителем точность классификации выше, чем при использовании методов без учителя.

На основе данных наблюдений и теории приближенных множеств авторами была предложена параллельная версия алгоритма [Akchurina et al., 2004, Vagin et al., 2004], позволяющая одновременно обработать разнородные атрибуты (качественные и количественные) в том числе и с отсутствующими значениями.

1. Алгоритм параллельной предварительной обработки таблиц, основанный на теории приближенных множеств

Информационной системой называется пара , где - непустое конечное множество объектов, названное универсумом и - непустое конечное множество атрибутов такое, что : для каждого . Множество называется множеством значений . Система решений (таблица решений) - это информационная система вида: , где - атрибут решения. Элементы называются атрибутами условия.

С каждым множеством атрибутов ассоциировано отношение эквивалентности , называемое отношением - неразличимости: .

Обозначим: .

Через обозначим классы эквивалентности отношения .

Обобщенное решение в - это функция: .

Таблица решений называется непротиворечивой (детерминированной), если для любого , иначе называется противоречивой (недетерминированной).

Представим формальное определение обобщенной задачи разбиения значений атрибутов [Akchurina et al., 2004, Vagin et al., 2004].

Пусть

- таблица решений, где для . Любая функция называется разбиением . Ранг определяется как .

Любое семейство разбиений определяет из новую систему решений

,

для любого объекта , . Семейство разбиений - непротиворечиво, если , где и - обобщенные решения и соответственно. - непротиворечивое семейство разбиений называется -оптимальным, если для любого -непротиворечивого семейства разбиений . Обобщенная задача разбиения атрибутов состоит в том, чтобы найти - оптимальное семейство разбиений и получить таблицу решений .

Очевидно, чтобы пара объектов , различимая атрибутами условий в исходной системе, была различима атрибутами условий в результирующей системе, необходимо, чтобы значения хотя бы одного различающего атрибута объектов переходили в неравные в результирующей системе решения. алгоритм обработка таблица множество

Для сохранения информации о значениях этого атрибута объектов в исходной системе решения введем понятие цепочки.

Пусть

- система решений, где: , и .

Тройка называется цепочкой, где для и .

Необходимо найти наименьшее множество цепочек , которые бы различали все пары объектов из разных классов, различимые хотя бы одним атрибутом условия в исходной системе. В результирующей системе решений для каждой цепочки из найденного множества, значения должны переходить в разные значения атрибута . Очевидно, что эта задача сводится к задаче раскрашивания графов, построенных для атрибутов , , у каждого из которых множество вершин - это множество значений атрибута , а множество ребер равно множеству всех цепочек в атрибута .

Для поиска на каждой итерации необходимо выбирать цепочку, которая различает как можно больше пар объектов из разных классов решения, неразличимых цепочками, найденными на предыдущих итерациях.

Для подсчета таких пар объектов используем понятие - относительной матрицы различимости для цепочек, основанное на понятии - относительной матрицы различимости.

- относительной матрицей различимости для цепочек будем называть симметричную матрицу с элементами: .

Задача нахождения цепочки , которая различает наибольшее число пар объектов из разных классов, сводится к нахождению наиболее часто встречающейся цепочки в элементах - относительной матрицы различимости для цепочек.

На базе этих понятий был разработан параллельный алгоритм, решающий обобщенную задачу разбиения значений атрибутов в условиях отсутствия некоторых значений. Стратегия нахождения отсутствующих значений базируется на идеи наибольшей согласованности данных относительно решения.

Шаг 1. Производим наивную дискретизацию, которая заключается в разделении непрерывных областей значений атрибутов на заданное число равных интервалов.

Шаг 2. Каждое отсутствующее значение заменяем на уникальное значение. Обозначим - множество уникальных значений атрибута , .

Шаг 3. Для каждого процесса из

Формируем матрицу из -ого столбца - относительной матрицы для цепочек.

Шаг 4. Находим наиболее часто встречающуюся цепочку в элементах .

Шаг 5. Цепочка добавляется к множеству цепочек .

Шаг 6. Все ячейки , содержащие заменяем пустыми множествами.

Шаг 7. Если все ячейки матрицы являются пустыми множествами, то переходим к шагу 4, иначе к шагу 8.

Шаг 8. Формируем множество цепочек из наиболее часто встречающихся цепочек в .

Шаг 9. Для каждого процесса из .

Проверяем, различает ли все объекты из различных классов решений при помощи матриц .

Если различает все объекты из различных классов решений, то переходим к шагу 10, иначе добавляем наиболее часто встречающуюся, еще не добавленную цепочку к и переходим к шагу 9.

Шаг 10. определяет из новую систему решений: ,

для любого объекта , .

Шаг 11. Разделяем числовые атрибуты на интервалы. Шкалированые качественные атрибуты на подмножества.

2. Анализ результатов

Предложенный алгоритм был реализован на Ассемблере и протестирован на базах данных известного хранилища UC Irvine Repository, специально созданного из реальных баз данных разных областей для тестирования и сравнения алгоритмов обобщения [ML Repository]. Таблица показывает увеличение точности классификации, известных алгоритмов обобщения: ID3 [Quinlan, 1993], C4.5 [Quinlan, 1993], Naive Bayes [Langley et al., 1992], Instance Based [Wettschereck, 1994] на 35 таблицах этого хранилища (тестирование было проведено для 55 таблиц), предварительно обработанных при помощи предложенного алгоритма, и характеристики таблиц: train/test - число объектов в обучающем/экзаменационном множестве;

С - отмечено, если соответствующая таблица содержит количественные атрибуты;

Q - отмечено, если соответствующая таблица содержит качественные атрибуты;

M - отмечено, если некоторые значения в таблице отсутствуют.

Ячейки в таблице выделены, если точность классификации увеличилась или осталась неизменной при предварительной обработке таблиц предложенным алгоритмом.

Предложенный алгоритм при наличии ресурсов также позволяет существенно увеличить скорость предварительной обработки по сравнению с последовательной версией [Akchurina et al., 2004, Vagin et al., 2004].

В подавляющем числе случаев точность классификации при использовании предложенного в рамках данной работы алгоритма увеличилась для всех алгоритмов обобщения в независимости от типов атрибутов.

Train Test C Q M ID3 (%) VG > ID3 (%) C4.5 (%) VG > C4.5 (%) NB (%) VG > NB (%) IB (%) VG > IB (%)

1 audiology 151 77 v 73,68 68,42 76,32 73,68 53,95 69,74 71,05 67,11

2 australian 461 231 v v 81,30 76,96 86,96 88,70 77,83 87,83 80,87 76,52

3 balance-scale 417 210 v 78,47 72,73 77,03 69,86 89,47 88,04 66,03 66,03

4 banding 138 100 v v v 82,00 64,00 77,00 67,00 86,00 81,00 66,00 61,00

5 breast 466 233 v v 94,42 93,99 93,99 91,42 96,57 94,85 95,28 92,27

6 breast-cancer 191 95 v v 71,58 66,32 74,74 73,68 74,74 76,84 57,89 61,05

7 cars1 262 132 v 81,68 73,28 74,81 72,52 63,36 62,60 71,76 63,36

8 chess 2130 1066 v 98,69 96,62 99,53 97,37 87,15 86,77 90,43 90,53

9 cleve 202 101 v v v 64,36 77,23 76,24 80,20 82,18 84,16 71,29 71,29

10 corral 34 128 v 87,50 100,0 81,25 100,0 90,63 87,50 86,72 100,0

11 crx 490 200 v v v 72,50 76,50 83,00 81,50 76,50 81,00 74,00 73,00

12 DNA-nominal 2000 1186 v 90,30 91,32 92,41 92,58 94,60 94,10 74,20 87,27

13 echocardiogram 88 45 v v v 63,64 59,09 63,64 65,91 68,18 75,00 54,55 61,36

14 flare 711 357 v v 81,46 82,30 85,11 85,11 81,18 72,19 75,28 83,99

15 german 667 335 v v 66,77 73,95 73,05 73,95 77,55 73,95 67,96 65,87

16 german-org 667 335 v v 71,56 71,56 74,55 72,46 74,85 72,46 69,16 69,16

17 glass 142 72 v 62,50 65,28 62,50 61,11 50,00 59,72 65,28 61,11

18 glass2 108 55 v 69,09 85,46 69,09 78,18 65,46 78,18 50,91 78,18

19 hayes-roth 132 28 v 82,14 92,86 82,14 92,86 64,29 89,29 75,00 85,71

20 heart 181 91 v 76,67 80,00 83,33 80,00 85,56 85,56 76,67 74,44

21 hepatitis 103 52 v v v 78,85 80,77 71,15 75,00 76,92 78,85 84,62 82,69

22 ionosphere 235 118 v 91,45 91,45 88,03 88,89 84,62 91,45 75,21 88,03

23 iris 100 50 v 94,00 94,00 92,00 92,00 94,00 96,00 78,00 96,00

24 labor-neg 40 17 v v v 94,12 82,35 76,47 82,35 88,24 88,24 88,24 94,12

25 led24 200 3000 v 55,33 33,87 65,57 39,63 64,10 42,37 36,93 28,20

26 led7 200 3000 v 66,53 61,20 67,40 43,37 68,93 66,33 60,90 46,97

27 lenses 17 9 v 62,50 62,50 62,50 62,50 37,50 62,50 75,00 62,50

28 lenses-full 24 24 v 100,0 100,0 91,67 91,67 95,83 95,83 100,0 100,0

29 liver-disorder 231 116 v 53,04 61,74 60,87 63,48 55,65 59,13 62,61 62,61

30 lung-cancer 29 5 v 50,00 50,00 50,00 50,00 50,00 50,00 75,00 75,00

31 lymphography 98 50 v v 78,00 72,00 74,00 76,00 82,00 84,00 66,00 70,00

32 mofn-3-7-10 301 1025 v 91,02 100,0 85,55 91,41 86,43 85,94 89,06 100,0

33 monk1 124 432 v 81,02 100,0 75,69 100,0 71,30 75,00 78,70 100,0

34 monk2 169 432 v 69,91 95,60 64,58 88,43 61,57 56,02 73,84 98,15

35 monk3 122 432 v 91,67 95,37 97,22 97,22 97,22 97,22 82,87 89,35

Но как можно заранее узнать принесет ли какие-нибудь положительные результаты использование предложенной стратегии для конкретной задачи?

Также как нет алгоритма обобщения, который работал бы определенно лучше других алгоритмов обобщения для всех задач, так и здесь нельзя заранее ответить.

Лучшим решением является реализация разнообразных алгоритмов, основанных на разных подходах и разбиение модельного множества на три, а не, как раньше предлагалось, на два множества: обучающее для обучения всех алгоритмов с/без предварительной обработкой, подтверждающее множество для выбора наилучшего варианта и экзаменационное множество для оценки точности при дальнейшей работе.

Вывод
Предложен новый параллельный алгоритм для решения актуальной задачи машинного обучения [Akchurina et al., 2004, Vagin et al., 2004] совместной обработки качественных и количественных атрибутов с отсутствующими значениями. Тщательное тестирование на 55 на базах данных известного хранилища UC Irvine Repository, специально созданного из реальных баз данных разных областей для тестирования и сравнения алгоритмов обобщения [ML Repository], показало, что использование предложенного алгоритма увеличило точность классификации (главного критерия качества обучения) известных алгоритмов обобщения: ID3, C4.5, Naive Bayes, Instance Based почти для всех случаев. Предложенный алгоритм при наличии ресурсов также позволяет существенно увеличить скорость предварительной обработки по сравнению с последовательной версией.

Список литературы
1. [Akchurina et al., 2004] Akchurina N.R., Vagin V.N., Generalized Value Partition Problem: A Rough Set Approach / Journal of Computer and Systems Sciences International. Vol. 43, No. 2. 2004, pp. 223-238.

2. [Vagin et al., 2004] Vagin V.N., Akchurina N.R., New Techniques for Handling Missing Data and Feature Extraction for Knowledge Discovery / Knowledge-Based Software Engineering // Stefanuk V. and Kaijiri K. (eds.), IOS Press, 2004, pp. 169-176.

3. [ML Repository] http://www.ics.uci.edu/~mlearn/MLREPOSITORY.html.

4. [Quinlan, 1993] Quinlan J.R., C 4.5: Programs for Machine Learning, Morgan Kaufmann Publishers, Inc., Los Altos, California, 1993.

5. [Langley et al., 1992] Langley P., Iba W., Thompson K., An analysis of bayesian classifiers / Proceedings of the tenth national conference on artificial intelligence, AAAI Press and MIT Press, 1992, pp. 223-228.

6. [Wettschereck, 1994]Wettschereck D., A Study of Distance-Based Machine Learning Algorithms, PHD thesis, Oregon State University, 1994.

Размещено на .ru
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?