Особенности адаптивного увеличения размерности пространства признаков - Статья

бесплатно 0
4.5 133
Разделимость описаний объектов из разных классов - метод успешного решения задачи классификации. Применение эволюционного подхода для преобразования входного пространства признаков с целью повышения вероятности обучения искусственной нейронной сети.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
В наиболее сильной формулировке требование разделимости совпадает с гипотезой компактности, в соответствии с которой расстояние между любыми объектами из одного класса должно быть меньше, чем расстояние между любыми объектами разных классов. В большинстве случаев, говоря о разделимости объектов из разных классов, рассматривают базовый вариант: количество классов ограничено двумя (дихотомия), поскольку он проще с точки зрения анализа и может быть легко расширен на случай большего числа классов. Один из основных результатов, касающихся разделимости объектов, получен в работе Ковера [Cover, 1965], в которой показано, что вероятность неоднозначного обобщения для обучаемого классификатора (т.е. вероятность неверной классификации объекта находящегося близко к разделяющей поверхности) уменьшается с ростом размерности пространства. Увеличение размерности пространства признаков размерности N, которое для вектора осуществляется с использованием матрицы размерностью MXN, , путем преобразования , в реальности не способствует увеличению размерности входного пространства, несмотря на увеличение размерности вектора признаков. Можно сделать предположение, что разделимость двух и более множеств может быть косвенно оценена по результатам обучения классификатора, поскольку, если множества разделимы, то объекты, им принадлежащие являются различимыми, и вероятность успешного обучения выше.Рассматривается ряд задач из набора Proben1 [Prechelt, 1994], а именно: cancer1, card1, diabetes1, glass1, heart1, horse1. Результаты экспериментов показывают, что в ряде случаев (задачи card1, diabetes1, glass1) удается добиться повышения точности классификации, а в других случаях (задачи cancer1, heart1, horse1) точность классификации падает. При этом если в задачах heart1 и horse1 «отставание» рассматриваемого подхода небольшое (хотя и статистически значимое, с уровнем значимости 0,05), то для задачи horse1 разница в точности классификации весьма существенная и составляет 7-9 процентов в зависимости от длительности обучения ИНС-2. Для задач cancer1 и horse1 эта закономерность также наблюдается, но улучшений недостаточно, чтобы показать результаты, превосходящие таковые из [Prechelt, 1994]. Отметим, что для задач, в которых были показаны сравнительно хорошие результаты, в ряде случаев имеется тенденция к снижению точности классификации с ростом числа поколений для обучения ИНС-1, что, вероятно, можно объяснить переобучением этой сети.

Вывод
Целью экспериментов является проверка влияния эволюционной настройки преобразования входных векторов на результат решения задачи классификации. Рассматривается ряд задач из набора Proben1 [Prechelt, 1994], а именно: cancer1, card1, diabetes1, glass1, heart1, horse1.

В качестве эволюционного алгоритма используется вещественный генетический алгоритм с турнирной селекций, BLX-alpha кроссинговером, гауссовской мутацией и элитаризмом. Размер популяции равен 20 особям; вероятность кроссинговера и мутации соответственно 0,7 и 0,01; размер турнира - 4 особи.

Функции активации в ИНС-1 и ИНС-2 - сигмоидные, вида: , где - константа, - взвешенная сумма входных сигналов нейрона.

Результаты экспериментов для ИНС-1: средняя и среднеквадратическое отклонение (СКО) точности классификации на тестовом множестве по 10 ИНС-2 для данной ИНС-1, представлены в табл. 1. Жирным шрифтом выделены лучшие результаты. Производилось сравнение с «базовыми» результатами для набора Proben1 из статьи [Prechelt, 1994], полученными при ручной настройке структуры ИНС, обучаемой по алгоритму RPROP.

Табл. 1. Результаты тестирования ИНС: средняя ошибка классификации на тестовом множестве (в скобках - СКО), - при длительности эволюции ИНС-1 10 поколений

Задача Длительность обучения ИНС-2, эпох Результаты из [Prechelt, 1994]

100 200 300 400 500 cancer1 2,36 (0,18) 2,70 (0,28) 2,64 (0,30) 2,64 (0,30) 2,59 (0,30) 1,38 (0,49) card1 10,17 (0,63) 11,51 (0,66) 11,74 (0,77) 11,51 (0,86) 11,86 (0,74) 14,05 (1,03) diabetes1 22,34 (1,05) 21,98 (0,59) 21,93 (0,46) 21,51 (0,43) 21,41 (0,16) 24,10 (1,91) glass1 28,68 (1,73) 26,98 (1,55) 26,98 (1,79) 26,41 (0) 26,60 (0,60) 32,70 (5,34) heart1 21,00 (1,26) 21,87 (0,98) 21,70 (0,69) 21,43 (0,58) 21,26 (0,52) 19,72 (0,96) horse1 36,15 (3,38) 37,25 (3,04) 37,25 (1,90) 38,02 (2,85) 36,48 (1,85) 29,19 (2,62)

Результаты экспериментов показывают, что в ряде случаев (задачи card1, diabetes1, glass1) удается добиться повышения точности классификации, а в других случаях (задачи cancer1, heart1, horse1) точность классификации падает. При этом если в задачах heart1 и horse1 «отставание» рассматриваемого подхода небольшое (хотя и статистически значимое, с уровнем значимости 0,05), то для задачи horse1 разница в точности классификации весьма существенная и составляет 7-9 процентов в зависимости от длительности обучения ИНС-2.

Дополнительное исследование зависимости ошибки классификации от длительности обучения ИНС-1 (10, 20, 30, 40 и 50 поколений), при 100 эпохах обучения ИНС-2, показали (табл. 2), что для задачи heart1 точность классификации с ростом количества поколений обучения ИНС-1 повышается, а затем начинает уменьшаться. Для задач cancer1 и horse1 эта закономерность также наблюдается, но улучшений недостаточно, чтобы показать результаты, превосходящие таковые из [Prechelt, 1994].

Табл. 2. Зависимость средней и СКО ошибки классификации на тестовом множестве от длительности обучения ИНС-1. Длительность обучения ИНС-2 равнялась 100 эпохам

Задача Длительность обучения ИНС-1, поколения Результаты из [Prechelt, 1994]

10 20 30 40 50 cancer1 2,36 (0,18) 2,76 (0,53) 2,24 (0,18) 3,05 (0,39) 2,41 (0,24) 1,38 (0,49) card1 10,17 (0,63) 11,16 (0,86) 11,16 (0,90) 10,99 (1,14) 11,40 (0,68) 14,05 (1,03) diabetes1 22,34 (1,05) 23,39 (0,57) 22,08 (0,56) 22,81 (0,77) 23,45 (0,74) 24,10 (1,91) glass1 28,68 (1,73) 35,28 (1,55) 34,34 (1,73) 33,40 (2,68) 36,23 (1,95) 32,70 (5,34) heart1 21 (1,26) 17,74 (1,02) 18,65 (1,29) 18,87 (0,80) 17,87 (0,95) 19,72 (0,96) horse1 36,15 (3,38) 39,89 (3,20) 34,40 (3,84) 40,44 (4,88) 40,44 (3,83) 29,19 (2,62)

Отметим, что для задач, в которых были показаны сравнительно хорошие результаты, в ряде случаев имеется тенденция к снижению точности классификации с ростом числа поколений для обучения ИНС-1, что, вероятно, можно объяснить переобучением этой сети.

Исследование зависимости результатов классификации от размеров выходного слоя ИНС-1, количества t1 поколений обучения ИНС-1 и эпох t2 для обучения ИНС-2 (табл. 3), выявило, что увеличение ? приводит к повышению точности классификации, в частности, во многих случаях результаты улучшились при ? = 2,5. Однако в ряде случаев этого улучшения недостаточно, чтобы показать результат, превосходящий «традиционное» обучение ИНС.

Табл. 3. Зависимость средней и СКО ошибки классификации на тестовом множестве для задач cancer1 и horse1 от размеров выходной слоя ИНС-1. Длительность обучения ИНС-2 равнялась 100 эпохам

Задача Значение ?

0,5 1,0 1,5 2,0 2,5 3,0 cancer1, t1=10, t2=100 3,33 (0,53) 3,91 (0,24) 5,80 (0,42) 2,36 (0,18) 2,07 (0,73) 2,59 (0,49) cancer1, t1=20, t2=100 3,56 (0,24) 2,36 (0,33) 2,87 (0,27) 2,76 (0,53) 2,07 (0,30) 2,53 (0,30) cancer1, t1=10, t2=200 3,98 (0,18) 3,39 (0,18) 6,32 (0,27) 2,70 (0,28) 2,36 (0,33) 3,74 (0,62) cancer1, t1=20, t2=200 3,16 (0,30) 2,99 (0,24) 2,64 (0,40) 2,36 (0,33) 1,78 (0,18) 2,30 (0) horse1, t1=10, t2=100 35,16 (1,94) 42,18 (2,21) 34,84 (3,66) 36,15 (3,38) 34,18 (3,29) 36,04 (2,12) horse1, t1=20, t2=100 39,89 (1,94) 42,31 (1,49) 36,15 (2,95) 39,89 (3,20) 37,25 (4,62) 40,55 (2,61) horse1, t1=10, t2=200 38,68 (1,78) 40,22 (1,73) 36,15 (2,16) 37,25 (3,04) 36,04 (3,06) 38,68 (4,17) horse1, t1=20, t2=200 39,01 (2,50) 40,22 (3,12) 36,15 (3,17) 41,54 (2,19) 36,92 (4,12) 40,33 (1,72)

Таким образом, в 2 задачах из 6 рассматриваемых не удалось добиться улучшения результатов классификации. И если для задачи cancer1 во многих случаях разница точности классификации с результатом из [Prechelt, 1994] в абсолютном выражении была небольшой, то для задачи horse1, она иногда превышала 10 %.

Результаты исследований показали, что возможно улучшение точности классификации при преобразовании пространства входных признаков, с помощью ИНС, обучаемой эволюционным алгоритмом.

Отметим, что наилучшие результаты для рассматриваемого подхода достигались, как правило, при небольшом количестве поколений и эпох для обучения соответственно ИНС-1 и ИНС-2. С ростом значений этих параметров в ряде случаев наблюдалось падение точности классификации.

Полученные в проведенном исследовании результаты неполны и оставляют немало открытых вопросов. В частности: 1. Результаты получены по однократному обучению ИНС-1 и поэтому могут не являться объективными.

2. Как изменятся результаты, если добавить скрытые слои в ИНС-1 и ИНС-2 и рассмотреть большие диапазоны длительности обучения и значения коэффициента?

В [Cover, 1965] показано, что разделяющая емкость дискриминантной функции порядка k для случайных образов пропорциональна , поэтому можно предположить, что использование функций активации порядка выше 1 способно дать большую различимость объектов из разных классов. Однако, следует заметить, что среди всех возможных дихотомий только малая часть может оказаться «полезной».

В целом, можно сделать вывод, что увеличение размерности входного пространства даже в случае адаптации преобразования не гарантирует повышение точности классификации и в некоторых случаях способно существенно снизить результаты нейросетевой классификации.

Список литературы
1. Bengio Y., LECUN Y. Scaling Learning Algorithms towards AI / In Bottou L., Chapelle O., De Coste D., and Weston J. (Eds): Large-Scale Kernel Machines. - MITPRESS, 2007.

2. Cover T.M. Geometrical and Statistical Properties of Systems of Linear Inequalities with Applications in Pattern Recognition // IEEE Transactions on Electronic Computers. 1965. EC Vol. 14(3).

3. Jaeger H., Haas H. Harnessing Nonlinearity: Predicting Chaotic Systems and Saving Energy in Wireless Communication // Science. 2004. Vol. 304 (5667).

4. Prechelt L. PROBEN1 - a set of neural network benchmark problems and benchmarking rules. Technical Report 21/94. - Fakultat fur Informatik, Universitat Karlsruhe, Karlsruhe, Germany, 1994.

5. Suganthan P.N. Pattern classification using multiple hierarchical overlapped self-organising maps // Pattern Recognition. 2001. Vol. 34(11).

6. Vapnik V. Statistical Learning Theory. - New York: Wiley-Interscience, 1998.

7. Yogananda A.P., M Narasimha M., Lakshmi G. A fast linear separability test by projection of positive points on subspaces // Proc. of the 24-th International Conference on Machine Learning, Corvallis, OR. 2007.

Размещено на .ru

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?