Параметрическая оптимизация нелинейных нейронных сетей - Статья

бесплатно 0
4.5 104
Задача оптимальной настройки параметров искусственной нейронной сети произвольной структуры. Аппроксимация или построение моделей нелинейных статических и динамических объектов. Условия оптимальности нейронных сетей со скалярным или векторным выходом.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
Наукові записки Українського науково-дослідного інституту звязку.Розглянуті умови оптимальності нейронних мереж з скалярним або векторним виходом Для обчислення оптимального набору параметрів персептрона необхідно обчислювати або градієнт функціонала якості, що мінімізується, або градієнт векторного виходу нейронної мережі і градієнт нелінійного функціонала по вектору невязності. Показано, що для широкого класу штучних нейронних мереж можна застосовувати модифіковані градієнтні методи пошуку оптимальних параметрів для роботи мережі в умовах наявності помилок вимірювання і зовнішніх завад. Крім того, при застосуванні інформаційної функції втрат у задачі оптимізації, яка є досить гладкою для широкого кола статистичних (у тому числі полі модальних) розподілів, ризик зациклення на локальних екстремумах функціонала зводиться до мінімуму, прийнятного для різних областей практичного застосування штучних нейронних мереж з поточною оптимізацією параметрів. Для вычисления оптимального набора параметров персептрона необходимо вычислять либо градиент минимизируемого функционала качества, либо градиент векторного выхода нейронной сети и градиент нелинейного функционала по вектору невязки. Показано, что для широкого класса искусственных нейронных сетей можно применять модифицированные градиентные методы поиска оптимальных параметров для работы сети в условиях наличия ошибок измерения и внешних помех.Интеллектуальные системы на основе искусственных нейронных сетей (ИНС) позволяют с успехом решать проблемы распознавания образов, выполнения прогнозов, оптимизации, ассоциативной памяти и управления [1, 2]. Несмотря на то, что при построении таких сетей обычно делается ряд допущений и значительных упрощений, отличающих их от биологических аналогов, искусственные нейронные сети демонстрируют удивительное число свойств, присущих мозгу, - это обучение на основе опыта, обобщение, извлечение существенных данных из избыточной информации. Потенциальными областями применения искусственных нейронных сетей являются те, где человеческий интеллект малоэффективен, а традиционные вычисления трудоемки или физически неадекватны (т.е. не отражают или плохо отражают реальные физические процессы и объекты). В такой системе искусственная нейронная сеть может реагировать на большинство относительно простых случаев, а все остальные передаются для рассмотрения экспертной системе. В статье сделана попытка применения регулярных статистических методов для построения ИНС с оптимальной настройкой параметров для некоторых классов задач, решаемых с помощью искусственных нейронных сетей.Для решения задачи оптимизации нелинейных нейронных сетей рассмотрена задача настройки НС как задача идентификации нелинейной системы.

Введение
Данная статья посвящена разработке методов оптимизации параметров нейронных сетей. Интеллектуальные системы на основе искусственных нейронных сетей (ИНС) позволяют с успехом решать проблемы распознавания образов, выполнения прогнозов, оптимизации, ассоциативной памяти и управления [1, 2]. Известны и иные, более традиционные подходы к решению этих проблем, однако они не обладают необходимой гибкостью за пределами ограниченных условий. ИНС дают многообещающие альтернативные решения, и многие приложения выигрывают от их использования. ИНС - функциональная имитация упрощенной модели биологических нейронов и ее цель - воспроизвести интеллектуальные

Стор. 16

Наукові записки Українського науково-дослідного інституту звязку. - 2014. - №1(29) ------------------------------------------------------------------------------- методы оценок данных подобно распознаванию образов, классификация и обобщение, используя простые, распространенные и ясные единицы обработки ?3?.

Следует отметить, что нейронная сеть (НС) является частью техносферы і частью социума. Создание и внедрение НС способствует повышению коэффииента полезного действия социума, усилению его творческой и предпринимательской активности, ускорению операций, расчетов и договоренностей, ликвидации бюрократизма и повышения ответственности [4, 5]. НС имеют широкий и разнотипный состав пользователей, которые владеют разными организационными и финансовыми возможностями: государственные структуры и ведомства, производственные и предпринимательские структуры, банки, биржи и торговля, культура, образование и здравоохранение, индивиды, зарубежные партнеры.

Искусственные нейронные сети, подобно биологическим, являются вычислительной системой с огромным числом параллельно функционирующих простых процессоров с множеством связей. Несмотря на то, что при построении таких сетей обычно делается ряд допущений и значительных упрощений, отличающих их от биологических аналогов, искусственные нейронные сети демонстрируют удивительное число свойств, присущих мозгу, - это обучение на основе опыта, обобщение, извлечение существенных данных из избыточной информации.

Главное преимущество подхода ИНС - это знание проблемной области распространяется через нейроны, и обработка информации осуществляется параллельным методом ?6?.

Потенциальными областями применения искусственных нейронных сетей являются те, где человеческий интеллект малоэффективен, а традиционные вычисления трудоемки или физически неадекватны (т.е. не отражают или плохо отражают реальные физические процессы и объекты). Действительно, актуальность применения нейронных сетей многократно возрастает тогда, когда появляется необходимость решения плохо формализованных задач. Уже сегодня искусственные нейронные сети используются во многих областях. В последнее время предпринимаются активные попытки объединения искусственных нейронных сетей и экспертных систем. В такой системе искусственная нейронная сеть может реагировать на большинство относительно простых случаев, а все остальные передаются для рассмотрения экспертной системе. В результате сложные случаи принимаются на более высоком уровне, при этом, возможно, со сбором дополнительных данных или даже с привлечением экспертов.

Для эффективного построения моделей практически любых нелинейных структур искусственные нейронные сети (НС) представляются универсальным средством. С их помощью можно решать задачи распознавания образов, оптимизации, идентификации, управления динамическими объектами ?7, 8?. Они обучаются на основе опыта, обобщают предыдущие прецеденты на новые случаи и извлекают существенные свойства из поступающей информации, содержащей излишние данные.

Задачи распознавания образов и классификации признаков объектов, принятия решений и управления, кластеризации - разбиения множества входных сигналов на классы, аппроксимации и прогнозирования, сжатия данных и т.д. весьма близки друг к другу как по принципиальным особенностям, так и по методам решения. Процесс решения перечисленных задач с помощью ИНС основан на итерационном подборе некоторых параметров, доставляющих экстремум функции качества, которая, как правило, не обладает свойствами непрерывности и гладкости. Поэтому существенным недостатком такого подхода является не только невозможность обеспечения каких бы то ни было гарантий оптимальности применяемых методов и алгоритмов, но даже отсутствие предпосылок получения хотя бы асимптотических оценок сходимости к оптимальному решению.

В статье сделана попытка применения регулярных статистических методов для построения ИНС с оптимальной настройкой параметров для некоторых классов задач, решаемых с помощью искусственных нейронных сетей.

Стор. 17

Наукові записки Українського науково-дослідного інституту звязку. - 2014. - №1(29) ------------------------------------------------------------------------------- k

? ?

II. Постановка задачи

Основными элементами ИНС являются формальные аналоги нейрона - адалина Уидроу или персептрон Розенблатта ?4, 9? - нелинейные элементы с симметричной или несимметричной относительно оси ординат амплитудной характеристикой активационной функции в самых разных структурах сети. Следует заметить, что структурно эти элементы идентичны, и единственное отличие заключается в характере нелинейности характеристики активационной функции.

Персептрон — элемент с N входами xk ?t?, k ?1,N и одним выходом y?t?, которые связаны между собой зависимостью y?t?? ???ck xk ?t??, k?1

N

? ?

?

? где c - k-й настраиваемый параметр персептрона; t - момент времени воздействия входного сигнала xk ?t? на персептрон; ??t?- нелинейная характеристика персептрона. k

Обычно

?1?exp???? ??t?? ?1?exp????

?

?

1

?

?

?1?exp????

для симметричного случая;

для симметричного случая.

По существу, персептрон (или адалина) представляют собой настраиваемые или самонастраивающиеся системы. Настройка (самонастройка) осуществляется по множеству параметров ck , статистические характеристики которых - моменты, вероятностные распределения - или неизвестны вообще (непараметрическая априорная неопределенность), или известны с точностью до параметров (параметрическая априорная неопределенность).

Определение условий оптимальности прежде всего является необходимым для преодоления априорной неопределенности ?10? и синтеза ИНС. В многочисленной литературе по нейронным сетям данная проблема даже не затрагивается. Единственным исключением является работа Я. З. Цыпкина ?11?, в которой рассмотрены условия оптимальности и синтезированы алгоритмы настройки нейронной сети, т.е. решена задача статистического синтеза ИНС как информационной системы.

Элементы (адалина или персептрон), образующие нейронную сеть, вообще говоря, могут быть соединены самым произвольным образом, образуя практически неограниченное число возможных структур. Как известно, наиболее широко распространенными являются слоистые структуры, в которых сигналы передаются отслоя с меньшим номером к ближайшему слою с большим номером, т.е. слои в такой структуре соединены последовательно. Входом первого слоя является внешнее воздействие, а выход последнего слоя является выходом всей НС. Далее для определенности будем рассматривать персептрон в качестве базового элемента НС.

Пусть число слоев НС равняется K . Число персептронов в k -м слое, k ?1,K , полагаем равным Mk . Размерность вектора входных сигналов Xk?1 ?m? для k -го слоя будет равна Mk?1, а размерность вектора входных сигналов Xk ?m?, соответственно, Mk . Соотношение между Xk?1 ?m? и Xk ?m? имеет вид: Xk ?m?? ??WT Xk?1 ?m?? , где W ? ?wk1 wk2 ? wk,Mk ? - матрица размерностью ?Mk?1 ?Mk ? коэффициентов; T - символ транспонирования.

? ? k

(1) весовых

Стор. 18

Наукові записки Українського науково-дослідного інституту звязку. - 2014. - №1(29) -------------------------------------------------------------------------------

Столбцами матрицы W являются векторы wkm весовых коэффициентов m -го k персептрона из k -го слоя. Размерность вектора wkm равна Mk?1 . Оператор ? есть оператор нелинейного преобразования вектора Wk Xk?1 ?m? в соответствии с выбранной (симметричной или несимметричной) активационной функцией.

T

Для построения сложных, как правило, нелинейных систем обработки информации очень эффективно используют нейронные сети. Связь между входом X t и выходом Y t

? ? ? ?

ИНС описывается соответствующим нелинейным функционалом вида: Y?t?? ??X?t?,PN ?t?? ???t?, ? ? где PN ?t? - вектор параметров сети; ?T ?t?? ?n?t?, ??t?? - вектор шумов и помех. Допущение об аддитивности помех и шумов вследствие их статистической

? ? независимости можно принять в большинстве практических задач, хотя если учитывать, что аддитивная смесь помех и шумов проходит через нелинейную ИНС, необходимо проводить дополнительные исследования в этом направлении.

Для решения задачи параметрической оптимизации нелинейных нейронных сетей необходимо рассмотреть условия оптимальности нейронной сети как модели сложной нелинейной системы, работающей в условиях внутренних и внешних помех. В соответствии с этим рассмотрим дискретную динамическую K -слойную НС, построенную в соответствии с алгоритмом (1). Схема k -го слоя нейронной сети изображена на Рис. 1.

Весовые коэффициенты k -го слоя НС определяются вектором весовых коэффициентов wk ? ?wk1,wk2,?,wk,Mk ?, k ?1,K .

? ?

Применим соотношение (1) для рекуррентного вычисления выходного сигнала всей НС: XK ?m?? ??WK ??WK?1???X0 ?m????? . (2) Здесь X0 ?m? - вектор входных сигналов сети, имеющий размерность M0 . Уравнением

T T

? ?

? ?

? ?

(2), по существу, определяется передаточная функция НС.

wk1 ? (?) xk1(m)

Формирователь выходного wk2 ? (?) xk2(m) Xk(m) вектора k-го слоя

Xk-1(m) wk2 ? (?) xk,M k(m)

z-1

Рис. 1. Нейронная сеть (схема k -го слоя)

Стор. 19

Наукові записки Українського науково-дослідного інституту звязку. - 2014. - №1(29) -------------------------------------------------------------------------------

III. Оптимальный алгоритм настройки параметров нейронной сети

Поскольку в реальных нелинейных системах присутствуют как внутренние ошибки измерения, так и внешние шумы и помехи, то в этом случае связь между входным сигнальным вектором X0 ?m? и выходным вектором XK ?m? описывается уравнением: XK ?m?? ??WK ??WK?1???X0 ?m????? ? ??m????m?, T T

? ?

? ?

? ? где ??m? и ??m? - векторы ошибок измерений и внешних шумов соответственно. Вектор ??m? имеет размерность MK , а вектор ??m? - размерность M0 .

Логично предположить, что ошибки измерения и внешние шумы представляют собой последовательности взаимно некоррелированных случайных величин с нулевыми математическими ожиданиями. Обозначим плотность распределения вектора ??m? через p? ?x?, а плотность распределения вектора ??m? - через p? ?x?. Без потери общности можно сделать допущение о принадлежности распределений p? ?x? и p? ?x? к гауссовскому семейству.

Допустим, что существует одна и только одна матрица весовых коэффициентов НС

~

? ?

~ ~ ~

Wk ? wk1 wk2 ... wk,Mk , такая, что оператор нелинейного преобразования ??X0 ?m?? однозначно воспроизводит выходной вектор XK ?m?: ? ?

??

? ?

~ ~

T T

?

??X0 ?m??=Ф WKФ WK-1...Ф?X0 ?m?... .

? ?

Можно построить оптимальный алгоритм настройки весовых коэффициентов НС, при которых средние потери будут минимальными, при наличии априорной информации о семействе распределений ошибок измерения и внешних помех: ? ?

? ?

G?w?? E C???X0 ?m?,w?? ?min , w где C??? - функция потерь; ??X0 ?m?,w?? XK ?m????WK ??WK?1???WT X0 ?m????? -

1

T T

? ?

? ?

? ? вектор невязки размерности Mk .

Используем информационную функцию потерь вида: C??,s?? ?ln p?s |??, где p?s |?? - условная плотность вероятности параметра

(3) s , если принято решение с оценкой ?, в качестве функции потерь, которую интерпретируем как меру неопределенности относительно параметра ?12?.

Если, как в рассматриваемом случае, условная плотность вероятности описывается гауссовской кривой или другой четной функцией относительно некоторой фиксированной точки s? , функция вида (3) является симметричной функцией разности ? ?s . Отметим, что гауссовская плотность вероятности имеет максимальную энтропию на всей прямой ???,?? в классе распределений с фиксированными математическим ожиданием и дисперсией. В этом смысле она представляет наименее благоприятную плотность распределения изданного класса.

~

Условие существования оптимального решения w ? w имеет вид: ?G?w?? E??C ???X0 ?m?,w????

? ?

? E???T ?WK??WK?1???WT X0 ?m??????C???X0 ?m?,w???? 0. (4)

1

T T

? ?

? ?

? ?

? ?

Соответственно, из условия (4) следует, что для определения оптимального решения w необходимо вычислять либо градиент функционала ?C ???X0 ?m?,w??, либо градиент

~

? ?

Стор. 20

Наукові записки Українського науково-дослідного інституту звязку. - 2014. - №1(29) ------------------------------------------------------------------------------- выходного сигнального вектора ??T ??? и градиент функционала по вектору невязки ??X0 ?m?,w?.

Вычисление ?C ???X0 ?m?,w?? можно выполнять методом обратного пересчета или так ? ? называемого обратного распространения ошибки ?13?. Суть метода заключается в том, что общий градиент функционала по вектору весовых коэффициентов НС рассматривается как последовательность частных градиентов по матрице W весовых коэффициентов слоев от K k

-го до первого. Результаты расчетов градиента по матрице весов текущего слоя используются в качестве исходных данных для вычисления градиента по матрице весов предыдущего слоя. Таким образом, задача оптимальной настройки НС по существу сводится к задаче типа динамического программирования.

Вывод
Для решения задачи оптимизации нелинейных нейронных сетей рассмотрена задача настройки НС как задача идентификации нелинейной системы. Введением информационной функции потерь можно получить асимптотически оптимальные алгоритмы настройки, обладающие хорошей сходимостью и устойчивостью. При этом, априорная информация об ошибках измерения и внешних шумах дает возможность однозначно задать функцию потерь и добиться максимально возможной скорости сходимости. Так же появляется возможность замены градиента средних потерь на псевдоградиент и достаточно простой модификации алгоритмов настройки нелинейных НС.

Список литературы
1. Саймон Х. Нейронные сети: полный курс / Х. Саймон ; пер. с англ. - [2-е изд., испр.]. - М.: ООО «И.Д. Вильямс», 2006. - 1104 с.

2. Скопа О. О. Глобальні властивості нейронних мереж / О. О. Скопа, Н. Ф. Казакова // Наукові записки Українського науково-дослідного інституту звязку. - 2008. - №3(5).

- С. 13-18.

3. Task force 38-06-06 of study committee 38, “Artificial neural networks for power systems,” Electra No.159, pp. 78-101, April 1995.

4. Калан Р. Основные концепции нейронных сетей ; пер. с англ. / Р. Калан. - М.: Издательский дом «Вильямс», 2001. - 287 с.

5. Скопа О. О. Концептуальні положення розвитку нейронних мереж в Україні / О. О. Скопа // Наукові записки Українського науково-дослідного інституту звязку. - 2008. - №1(3). - С. 3-18.

6. Narendranath Udapa A., D. Thukaram and K. Parthasarathy, “An ANN based approach for voltage stability assessment,” International Conf. on computer applications in electrical engineering, recent advances, pp. 666-670, 8-11 Sept. 1997.

7. Хайкин С. Нейронные сети: Полный курс. - [2-е изд., испр.] / С. Хайкин. - М.: Издательский дом Вильямс, 2008. - 1103 с.

8. Уоссермен Ф. Нейрокомпьютерная техника / Ф Уоссермен. - М., Мир, 1992. - 184 с.

9. Осовский С. Нейронные сети для обработки информации / С. Осовский. - М.: Финансы и статистика, 2002. - 344 с.

10. Репин В. Г. Статистический синтез при априорной неопределенности и адаптация информационных систем / В. Г. Репин, Г. П. Тартаковский. - М.: Сов. радио, 1977. - 432 с.

11. Цыпкин Я. 3. Информационная теория идентификации / Я. З. Цыпкин. - М.: Наука. Физматлит, 1995. - 336 с.

12. Куликов Е. И. Оценка параметров сигнала на фоне помех / Е. И. Куликов, А. П. Трифонов. - М.: Сов. радио, 1978. - 296 с.

13. Галушкин А. И. Синтез многослойных систем распознавания образов : монография / А. И. Галушкин. - М.: Энергия, 1974. - 368 с.

Стор. 21

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?