Разделимость описаний объектов из разных классов - метод успешного решения задачи классификации. Применение эволюционного подхода для преобразования входного пространства признаков с целью повышения вероятности обучения искусственной нейронной сети.
Аннотация к работе
В наиболее сильной формулировке требование разделимости совпадает с гипотезой компактности, в соответствии с которой расстояние между любыми объектами из одного класса должно быть меньше, чем расстояние между любыми объектами разных классов. В большинстве случаев, говоря о разделимости объектов из разных классов, рассматривают базовый вариант: количество классов ограничено двумя (дихотомия), поскольку он проще с точки зрения анализа и может быть легко расширен на случай большего числа классов. Один из основных результатов, касающихся разделимости объектов, получен в работе Ковера [Cover, 1965], в которой показано, что вероятность неоднозначного обобщения для обучаемого классификатора (т.е. вероятность неверной классификации объекта находящегося близко к разделяющей поверхности) уменьшается с ростом размерности пространства. Увеличение размерности пространства признаков размерности N, которое для вектора осуществляется с использованием матрицы размерностью MXN, , путем преобразования , в реальности не способствует увеличению размерности входного пространства, несмотря на увеличение размерности вектора признаков. Можно сделать предположение, что разделимость двух и более множеств может быть косвенно оценена по результатам обучения классификатора, поскольку, если множества разделимы, то объекты, им принадлежащие являются различимыми, и вероятность успешного обучения выше.Рассматривается ряд задач из набора Proben1 [Prechelt, 1994], а именно: cancer1, card1, diabetes1, glass1, heart1, horse1. Результаты экспериментов показывают, что в ряде случаев (задачи card1, diabetes1, glass1) удается добиться повышения точности классификации, а в других случаях (задачи cancer1, heart1, horse1) точность классификации падает. При этом если в задачах heart1 и horse1 «отставание» рассматриваемого подхода небольшое (хотя и статистически значимое, с уровнем значимости 0,05), то для задачи horse1 разница в точности классификации весьма существенная и составляет 7-9 процентов в зависимости от длительности обучения ИНС-2. Для задач cancer1 и horse1 эта закономерность также наблюдается, но улучшений недостаточно, чтобы показать результаты, превосходящие таковые из [Prechelt, 1994]. Отметим, что для задач, в которых были показаны сравнительно хорошие результаты, в ряде случаев имеется тенденция к снижению точности классификации с ростом числа поколений для обучения ИНС-1, что, вероятно, можно объяснить переобучением этой сети.
Вывод
Целью экспериментов является проверка влияния эволюционной настройки преобразования входных векторов на результат решения задачи классификации. Рассматривается ряд задач из набора Proben1 [Prechelt, 1994], а именно: cancer1, card1, diabetes1, glass1, heart1, horse1.
В качестве эволюционного алгоритма используется вещественный генетический алгоритм с турнирной селекций, BLX-alpha кроссинговером, гауссовской мутацией и элитаризмом. Размер популяции равен 20 особям; вероятность кроссинговера и мутации соответственно 0,7 и 0,01; размер турнира - 4 особи.
Функции активации в ИНС-1 и ИНС-2 - сигмоидные, вида: , где - константа, - взвешенная сумма входных сигналов нейрона.
Результаты экспериментов для ИНС-1: средняя и среднеквадратическое отклонение (СКО) точности классификации на тестовом множестве по 10 ИНС-2 для данной ИНС-1, представлены в табл. 1. Жирным шрифтом выделены лучшие результаты. Производилось сравнение с «базовыми» результатами для набора Proben1 из статьи [Prechelt, 1994], полученными при ручной настройке структуры ИНС, обучаемой по алгоритму RPROP.
Табл. 1. Результаты тестирования ИНС: средняя ошибка классификации на тестовом множестве (в скобках - СКО), - при длительности эволюции ИНС-1 10 поколений
Задача Длительность обучения ИНС-2, эпох Результаты из [Prechelt, 1994]
Результаты экспериментов показывают, что в ряде случаев (задачи card1, diabetes1, glass1) удается добиться повышения точности классификации, а в других случаях (задачи cancer1, heart1, horse1) точность классификации падает. При этом если в задачах heart1 и horse1 «отставание» рассматриваемого подхода небольшое (хотя и статистически значимое, с уровнем значимости 0,05), то для задачи horse1 разница в точности классификации весьма существенная и составляет 7-9 процентов в зависимости от длительности обучения ИНС-2.
Дополнительное исследование зависимости ошибки классификации от длительности обучения ИНС-1 (10, 20, 30, 40 и 50 поколений), при 100 эпохах обучения ИНС-2, показали (табл. 2), что для задачи heart1 точность классификации с ростом количества поколений обучения ИНС-1 повышается, а затем начинает уменьшаться. Для задач cancer1 и horse1 эта закономерность также наблюдается, но улучшений недостаточно, чтобы показать результаты, превосходящие таковые из [Prechelt, 1994].
Табл. 2. Зависимость средней и СКО ошибки классификации на тестовом множестве от длительности обучения ИНС-1. Длительность обучения ИНС-2 равнялась 100 эпохам
Задача Длительность обучения ИНС-1, поколения Результаты из [Prechelt, 1994]
Отметим, что для задач, в которых были показаны сравнительно хорошие результаты, в ряде случаев имеется тенденция к снижению точности классификации с ростом числа поколений для обучения ИНС-1, что, вероятно, можно объяснить переобучением этой сети.
Исследование зависимости результатов классификации от размеров выходного слоя ИНС-1, количества t1 поколений обучения ИНС-1 и эпох t2 для обучения ИНС-2 (табл. 3), выявило, что увеличение ? приводит к повышению точности классификации, в частности, во многих случаях результаты улучшились при ? = 2,5. Однако в ряде случаев этого улучшения недостаточно, чтобы показать результат, превосходящий «традиционное» обучение ИНС.
Табл. 3. Зависимость средней и СКО ошибки классификации на тестовом множестве для задач cancer1 и horse1 от размеров выходной слоя ИНС-1. Длительность обучения ИНС-2 равнялась 100 эпохам
Таким образом, в 2 задачах из 6 рассматриваемых не удалось добиться улучшения результатов классификации. И если для задачи cancer1 во многих случаях разница точности классификации с результатом из [Prechelt, 1994] в абсолютном выражении была небольшой, то для задачи horse1, она иногда превышала 10 %.
Результаты исследований показали, что возможно улучшение точности классификации при преобразовании пространства входных признаков, с помощью ИНС, обучаемой эволюционным алгоритмом.
Отметим, что наилучшие результаты для рассматриваемого подхода достигались, как правило, при небольшом количестве поколений и эпох для обучения соответственно ИНС-1 и ИНС-2. С ростом значений этих параметров в ряде случаев наблюдалось падение точности классификации.
Полученные в проведенном исследовании результаты неполны и оставляют немало открытых вопросов. В частности: 1. Результаты получены по однократному обучению ИНС-1 и поэтому могут не являться объективными.
2. Как изменятся результаты, если добавить скрытые слои в ИНС-1 и ИНС-2 и рассмотреть большие диапазоны длительности обучения и значения коэффициента?
В [Cover, 1965] показано, что разделяющая емкость дискриминантной функции порядка k для случайных образов пропорциональна , поэтому можно предположить, что использование функций активации порядка выше 1 способно дать большую различимость объектов из разных классов. Однако, следует заметить, что среди всех возможных дихотомий только малая часть может оказаться «полезной».
В целом, можно сделать вывод, что увеличение размерности входного пространства даже в случае адаптации преобразования не гарантирует повышение точности классификации и в некоторых случаях способно существенно снизить результаты нейросетевой классификации.
Список литературы
1. Bengio Y., LECUN Y. Scaling Learning Algorithms towards AI / In Bottou L., Chapelle O., De Coste D., and Weston J. (Eds): Large-Scale Kernel Machines. - MITPRESS, 2007.
2. Cover T.M. Geometrical and Statistical Properties of Systems of Linear Inequalities with Applications in Pattern Recognition // IEEE Transactions on Electronic Computers. 1965. EC Vol. 14(3).
3. Jaeger H., Haas H. Harnessing Nonlinearity: Predicting Chaotic Systems and Saving Energy in Wireless Communication // Science. 2004. Vol. 304 (5667).
4. Prechelt L. PROBEN1 - a set of neural network benchmark problems and benchmarking rules. Technical Report 21/94. - Fakultat fur Informatik, Universitat Karlsruhe, Karlsruhe, Germany, 1994.
6. Vapnik V. Statistical Learning Theory. - New York: Wiley-Interscience, 1998.
7. Yogananda A.P., M Narasimha M., Lakshmi G. A fast linear separability test by projection of positive points on subspaces // Proc. of the 24-th International Conference on Machine Learning, Corvallis, OR. 2007.