Воспроизведение поведения человека, перестройка системы управления на примере обхода препятствий при попутном движении - Дипломная работа

бесплатно 0
4.5 223
Анализ функционирования известных систем управления движением. Связь динамического программирования с вариационным исчислением и принципом максимума. Синтез алгоритма безопасного движения речного транспорта. Цена предложения. Экономическая эффективность.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
Беллман очень точно подметил связь между причинностью и оптимальностью для динамических систем в том смысле, что если изменение состояния любой динамической системы под воздействием входного управляющего сигнала можно описать функциональным уравнением, характеризующим причинность то у оптимальной системы для описания изменения ее состояния, характеризуемого некоторой функцией как степень достижения подавленной цели, существует по аналогии такого же типа функциональной уравнение лишь с той разницей, что достигается минимум или максимум целевой функции при выборе управления : При этом выбор управления на отдельном шаге производится с точки зрения интересов не только данного шага, но и всего процесса в целом, как на текущем, так и на всех последующих шагах. Теперь осталось связать функции и , друг с другом, представив последствия от выбираемого управления в промежуток времени в виде двух слагаемых - потерь внутри данного шага и потерь на всех последующих шагах вплоть до конца решения задачи, зависящих от и , потому что последствия в будущем определяются новым состоянием , которое согласно формуле (3.1) описывается выражением В результате для каждого из вариантов конечного состояния определяется единственное управление на последнем шаге (в предположении, что управления на остальных шагах будут найдены позже), поскольку при заданном только от него зависит последнее слагаемое в функции (1.3): Эта операция проводится также численно, например путем разбиения каждого из диапазонов возможных значений и на (М-1) участков, что образует вариантов управления. С учетом того, что функции и от управления на зависят как результаты уже проведенной оптимизации и могут быть вынесены за фигурные скобки, уравнение (3.8) можно представить в виде Вычислив частные производные подставим их в уравнение (1.20): Учитывая, что , уравнение (1.22) можно преобразовать к виду что соответствует равенству нулю выражения в квадратных скобках, имеющего вид системы линейных неоднородных дифференциальных уравнений с граничным условием : Уравнение (1.23) называется матричным уравнение Риккати, решение которого обычно находят численно на ЭВМ до начала работы системы.Дисплей на рабочем месте имеет диагональ 17’’ и находится ниже уровня глаз оператора, угол наблюдения составляет 20? относительно горизонта. Монитор оборудован поворотной площадкой, позволяющей перемещать его в горизонтальной и вертикальной плоскости и изменять угол наклона экрана. При определении оптимального режима восприятия информации с экрана монитора устанавливается уровень яркости, контраста и соотношение яркостей в поле зрения экрана согласно ГОСТ Р50923-96. В противном случае у персонала отмечаются значительное напряжение зрительного аппарата с появлением жалоб на неудовлетворенность работой, головные боли, раздражительность, нарушение сна, усталость и болезненные ощущения в глазах, в пояснице, в области шеи и руках. При этом он делает перерыв на обед и небольшие перерывы для зрительных упражнений, таким образом его работа соответствует требованиям САНПИН 2.2.2/24.1340-03 в части режима труда и отдыха.При синтезе линейных регуляторов управления попутным движением для обхода препятствий необходимо учитывать в штрафной функции интегрального критерия факт сближения с препятствием; В математической модели относительного встречного движения необходимо учитывать факт подвижности препятствия; Сравнение текущего риска с допустимым порогом позволяет сформировать нужный сигнал тревоги для управления поступательным движениям, чтобы регулировать путевую скорость, снижая ее в опасных ситуациях; Предложена объединенная двухуровневая система контроля и управления, способная адаптивным путем обеспечить необходимую безопасность движения; Полученная система может использоваться как в автоматическом режиме, если доступна нужная измерительная информация об относительном сближении с препятствием, так и в тренажерах обучения операторов ручного управления при использовании сигналов тревоги в качестве подсказки.

Введение
При управлении подвижными объектами различного класса, такими как наземный городской транспорт, летательные аппараты при маловысотном полете, речные и морские суда, возникает проблема обеспечения безопасности движения при встрече с различными препятствиями. Существующие методы автоматического управления позволяют синтезировать структуры линейных регуляторов в аналитической форме, однако они не дают оценки степени риска при опасном сближении с препятствием.

Между тем при ручном управлении человек испытывает реальные ощущения нарастания тревоги в случае недопустимого снижения безопасности движения, что вызывает последующую перестройку способа обхода препятствий. Поэтому целью настоящей работы являет воспроизведения поведения человека путем количественной оценки текущего риска в движении с помощью предложенной системы контроля и, главное, последующей перестройки системы управления на примере обхода препятствий при попутном движении.

1.

Специальная часть

1.1 Анализ функционирования известных систем управления движением

Функционирование систем управления безопасным движением речным транспортом невозможно без автоматического контроля за безопасным движением и применения САУ в аварийных критических ситуациях. Поскольку в речном флоте в настоящее время используется ручное управление, то основные принципы автоматического управления можно заимствовать из достигнутого опыта в авиации.

Одно из похожих задач автоматического управления является управление воздушным движением при попадании самолетов на заданную линию пути во время захода на посадку.

В ряде важных практических случаев оживленного воздушного движения при подлете к аэродрому возникает необходимость принятия авиадиспетчерской службой ответственных решений по введению воздушных судов в каждый из разрешенных воздушных эшелонов, имеющих заданную линию пути, или в решении о временном отказе в обслуживании и команды об уходе на повторный круг. К таким случаем относится, в частности, ситуация внезапного изменения условий посадки на различные ВПП по метеорологическим или техническим причинам.

Другим случаем является приближение судов с аварийно низким запасом топлива или возможными техническими отказами борта, что требует внеочередного обслуживания при одновременном стремлении уступить им место судами с нормальным состоянием.

Это означает, что в состав координат текущего состояния судна, помимо оценки его положения в пространстве должно входить, по крайней мере, значение оставшейся части топлива, необходимого на дополнительное маневрирование.

Таким образом, естественно, указать в текущий момент времени очередность или приоритет в обслуживании каждого судна и последовательно вводить их в заданных эшелон, проверяя при этом возможность соблюдения гарантированной безопасности полета.

В данной работе этот подход предложен, реализовать путем вычисления динамических приоритетов в виде некоторых количественных оценок, учитывающих удаленность воздушного судна от заданной трассы, ожидаемую его близость к судам, движущимися уже в эшелоне, также от курсового угла и оставшегося запаса топлива. При этом, если очередной приоритет мал, то это означает существование такого риска несоблюдения безопасности совместного движения в эшелоне, при котором происходит отказ от попытки введения судна в эшелон и дается команда ухода на повторный круг.

Постановка задачи.

Рассмотрим решение задачи назначения динамических приоритетов при следующих допущениях: 1. Рассматривается задача введения воздушных судов на заданную линию пути, при их безопасном заходе на посадку, как это показано на рис.1. При этом анализируется только горизонтальный полет на заданной постоянной высоте.

Рис. 1. Картина выведения воздушных судов на заданную линию попутного движения при заданной дистанции безопасности x = 6 км

2. В данной работе решается задача управления полетом при одной заданной линии пути, поскольку полученные результаты легко рассматриваются на несколько линий пути при заданном множестве ВПП на различных соседних аэродромах.

3. Каждое судно (ЛА) характеризуется в текущий момент времени вектором состояния, характеризуемым координатами: - кратчайшим расстоянием х1 от ЛА до линии пути;

- минимальным расстоянием х2 до ближайшего в эшелоне судна, уже находящегося на заданной линии пути;

- курсовым углом х3 отсчитываемым по отношению к заданному курсу линии пути;

- потраченным запасом топлива х4, предусмотренным для выполнения дополнительных маневров, для обеспечения безопасных дистанций от соседних ЛА в эшелоне.

Каждая из трех координат х1,х2,х3 - знакопеременная, координата х4 неотрицательная.

4. Положение ЛА к положению к точке принятия окончательного решения характеризуется пятой координатой D - расстояние между ними, но в данной работе ввиду удаленности ЛА от аэродромов в период входе в эшелон этот параметр пока не учитывается.

5. В качестве постоянных параметров принимаются, как известные скорость полета V, максимальное допустимое боковое ускорение а при разворотах, минимальная дистанция r безопасного движения судов в эшелоне и запас топлива , отведенной на маневрирование и определяющий оставшейся на последующие действия запас топлива как ( -х4). В частности, принято V=0.1 км/сек, а=1 м/сек*сек, r=6 км.

6. Принимаемое окончательное решении относится к одной из двух альтернатив (j=1,2)

- При j=1 принимается решение о введении ЛА в воздушный эшелон, если соответствующий ему риск невелик.

- При j=2 дается команда об уходе ЛА на повторный круг, если существует угроза возникновения аварийной ситуации в воздухе изза опасного сближения судов.

7. Каждая из координат хі текущего состояния ЛА меняется в соответствии с известными дифференциальными уравнениями движения, описывающими динамику полета. При этом для простоты каждой координате хі соответствует одно дифференциальное уравнение. Эти дифференциальные уравнения имеют следующий вид.

Для координаты х1 принято

(1)

В данной работе ориентировочно было принято Т1=90 сек, Т2=180 сек.

Формула (1) показывает, что при «втягивании» ЛА на линию пути воздушное судно апериодически постепенно стремится обеспечить безопасную дистанцию r, при этом постоянная времени (Т1 Т2) апериодического процесса есть время Т2 попадания ЛА на саму линию пути плюс время Т1 ускоренного движения по линии пути до точки (х1 r), имеющей безопасное расстояние r до соседнего ЛА0 (см. рис.1)

Для координаты х2 принято

(2), Где Т0>T2 - время движения ЛА на повторном круге.

В данной работе это время было принято равным Т0=2ПV .

Координата х3 курсового угла стремится к нулю (к курсу заданной линии пути) примерно с той же динамикой, что и в (2).

(3).

Расход топлива для обеспечения полета должен определяться с учетом того, что на самой линии пути изменение дистанции между летящими ЛА осуществится на форсированном режиме тяги двигателей, при этом расход увеличится в (l ) раз, а «скорость догона» одного ЛА по отношению к соседнему ЛА будет лишь V . Поэтому в первом приближении можно записать

(4), где w0 - заданная скорость расхода топлива в обычном режиме работы двигателя, в частности при уходе на повторный круг.

В данной работе принято , что соответствует также повышению скорости полета по линии пути на 20% для увеличения безопасной дистанции.

8. Одним из наиболее важных допущений является выбор интегрального критерия оптимальности управления воздушным движением, который должен в свертке оценивать одновременно безопасность и экономичность полета. В данной работе в качестве такого критерия принят минимум интегрального функционала, который учитывает как штрафные нежелательные отклонения х2 от линии пути и снижение дистанции х1 между соседними ЛА на самой линии, так и опасные чрезмерные затраты топлива х4 на маневрирование, что в целом позволяет предложить следующую модель критерия

(5)

Поясним формулу (5). При j=1, т.е. при «втягивании» ЛА на линию пути, в каждый момент времени штрафуются квадрат отклонения от безопасной точки, квадрат отклонения от линии пути и относительный расход топлива . Чем меньше эти слагаемые, тем лучше и тем быстрее ЛА войдет в эшелон с малыми затратами топлива.

Нужно сразу заметить, что правильность назначения самих весомых коэффициентов k1, k2, k3 всегда вызывало дискуссию в теории и практике оптимального управления. В данной работе было принято пойти по пути неизменного достижения заданных гарантированных дистанций между ЛА безопасного движения, поэтому фактически штрафуется время, а значит израсходованное топливо для достижения нужной полетной ситуации, что очень важно.

При j=2 отклонения х1 и х2 от линии пути при полете по повторному кругу значения не имеют, но есть опасность пересечения полета с траекториями движения других судов.

Чем больше радиус R= этого круга по сравнению с дистанцией r безопасного движения, тем хуже, поэтому функцию введена величина L штрафов встречи с другими судами, равная

Кроме того ввиду большого времени полета по повторному кругу в формулу (5) введено дополнительное слагаемое , имеющее существенную поправку при

Отдельно заметим, что фактически штраф за пересечение траекторий полета пока не рассматривается, а учитывается лишь в среднем значении L. Затем в полученных ниже выводах предлагается при фактической встречи двух судов нужным образом понижать динамический приоритет этой пары и проводить планирование полетов повторно.

1.2 Анализ известных методов синтеза законов управления

1.2.1 Динамическое программирование

Метод динамического программирования, разработанный в 50-х годах американским математиком Р.Беллманом, представляет собой новый подход к решению вариационных задач. Идея этого подхода состоит в том, что оптимальное поведение рассматривается как функция состояния системы, описываемого с помощью значения фазовых координат в текущий момент времени t. Беллман очень точно подметил связь между причинностью и оптимальностью для динамических систем в том смысле, что если изменение состояния любой динамической системы под воздействием входного управляющего сигнала можно описать функциональным уравнением, характеризующим причинность то у оптимальной системы для описания изменения ее состояния, характеризуемого некоторой функцией как степень достижения подавленной цели, существует по аналогии такого же типа функциональной уравнение лишь с той разницей, что достигается минимум или максимум целевой функции при выборе управления :

При этом выбор управления на отдельном шаге производится с точки зрения интересов не только данного шага, но и всего процесса в целом, как на текущем, так и на всех последующих шагах.

Исходя из этого, Беллманом был сформулирован принцип оптимальности, каковы бы ни были начальное состояние и начальное управление, последующие управления должны быть оптимальными относительно состояния, являющегося результатом применения первого управления. Принцип оптимальности можно также сформулировать следующим образом: оптимальное поведение не зависит от предыстории системы, а определяется только начальным (к данному моменту времени) условием и конечной целью, и текущее управление должно выбираться с учетом последствий в будущем. Классическим примером оптимального поведения является стратегия бегуна на дальнюю дистанцию. На старте бегун составляет график своего бега так, чтобы пройти дистанцию за минимальное время. Это не значит, что каждый участок он должен бежать как можно быстрее. Наоборот, находясь на дистанции, он в каждый момент времени должен распределять свои силы так, чтобы с учетом своего состояния пробежать оставшийся участок за минимальное время, чему может соответствовать и бурный финиш в конце дистанции.

Динамическому программированию органически присуще решение задач, дискретных по своей природе в силу рекуррентности последовательного выбора управления в многошаговой процедуре оптимизации. Заметим, что принцип оптимальности справедлив как для непрерывных детерминированных, так и для стохастических процессов управления, благодаря чему динамическое программирование может широко применяться в ряде кибернетических задач.

Несмотря на кажущуюся простоту принципа оптимальности из него можно вывести ряд нетривиальных условий оптимальной траектории.

Дискретная форма динамического программирования.

Изучение метода начнем с решения одномерной задачи, когда управляемый автономный одномерный объект описывается либо в дискретной форме либо в дифференциальной форме которой соответствует разностное уравнение где u - ограниченное в общем случае управление, т.е.

; - Дискрет времени, равный .

При заданном начальном состояний объекта и свободном правом конце необходимо за фиксированное время обеспечить минимум заданного функционала или в виде аддитивной целевой функции

Таким образом, J есть функция (к 1) выбираемых переменных , присутствующих в (к 1) уравнениях связи, т.е. можно попытаться решить задачу с помощью множителей Лагранжа. Однако это сложно изза большой размерности задачи, поэтому применим иной подход.

Выведем сначала функциональное уравнение Беллмана [11], рассуждая следующим образом. Пусть минимизируемое значение функционала J в начальный момент времени определенным образом зависит от начального состояния системы, т.е. от и х ( ). Обозначим эту зависимость через , называемую функцией Беллмана, понимая под этим не любое значение функционала, а его минимум при оптимальном поведении системы.

Представим теперь, что система функционировала некоторое время , в результате чего к моменту она пришла в новое состояние . Тогда, согласно принципу оптимальности, оставшееся значение минимизируемого функционала как результат последующих оптимальных действий есть также функция Беллмана , но уже зависящая от новых значений и . Теперь осталось связать функции и , друг с другом, представив последствия от выбираемого управления в промежуток времени в виде двух слагаемых - потерь внутри данного шага и потерь на всех последующих шагах вплоть до конца решения задачи, зависящих от и , потому что последствия в будущем определяются новым состоянием , которое согласно формуле (3.1) описывается выражением

Поэтому, преследуя цель минимизации суммарных потерь, как текущих так и последующих, можно записать

Рассуждая аналогичным образом при переходе к следующему шагу от момента к моменту и т.д. к моменту , можно записать следующее функциональное уравнение:

Развивая этот же подход применительно к многомерному неавтономному объекту, можно получить функциональное уравнение Беллмана:

Пошаговый выбор управления с помощью уравнения (1.5) удобен для расчетов на ЭВМ. В этом случае численное решение обычно осуществляют с правого конца задари. Поскольку краевые условия на правом конце не определены однозначно, то расчеты начинают, задавшись множеством значений вектора , разбивая, например, диапазон возможных значений на R- 1 участков. В результате для каждого из вариантов конечного состояния определяется единственное управление на последнем шаге (в предположении, что управления на остальных шагах будут найдены позже), поскольку при заданном только от него зависит последнее слагаемое в функции (1.3):

Эта операция проводится также численно, например путем разбиения каждого из диапазонов возможных значений и на (М-1) участков, что образует вариантов управления. Результаты наилучшего варианта запоминаются, а именно для каждого из вариантов фиксируются три величины - вектор состояния , оптимальное управление и минимум целевой функции . Таким образом, в памяти ЭВМ хранится чисел.

На следующем шаге, являющемся уже типичным для расчетов, снова формируются варианты состояния , а затем для каждого из них численно определяется управление , но уже исходя из минимума суммы двух слагаемых, причем второе слагаемое отыскивается в памяти ЭВМ в соответствии с переходом из B ;

где,

Результаты расчета для нового шага также запоминаются в ЭВМ. Эта процедура повторяется, двигаясь от конца к началу для всех шагов, кроме первого. При этом необходимый объем памяти непрерывно растет. Наконец на первом шаге, воспользовавшись единственным вариантом заданного начального состояния, численно определяют оптимальное управление , но именно ради этого необходимо было запомнить итоги оптимизации на втором шаге, а это приводит к необходимости помнить результаты на предыдущих шагах.

Теперь, поскольку управление найдено и, значит, определено значение , представляющее собой минимизируемое значение функционала, осталось выявить конкретные значения , соответствующие данной оптимальной траектории. Для этого на основании уравнения (1.7) и известного управления определяется состояние , которому соответствует свое запомненное управление . Продолжая теперь движение слева направо, последовательно восстанавливают всю программу управления и оптимальную траекторию за все к шагов.

Рис.2. Иллюстрация численного решения с правого конца задачи при дискретной форме динамического программирования

Рассмотренным методом решаются задачи, когда на правом конце часть фазовых координат закреплена. Например, на рис.2 представлен случай перехода из точки А в точку В с произвольной конечной скоростью; Тогда движение справа налево, как это показано на рис.2, при к=3 требует переменного объема запоминаемых результатов, поскольку по координатам и вначале оценивается малое число вариантов, а потом число растет, вплоть до момента достижения точки А. При этом основное содержание расчета на каждом шаге остается прежним.

Нужно отметить, что, несмотря на определенную утомительность рассмотренной вычислительной процедуры, метод динамического программирования сводит задачу минимизации функции переменных отдельным шагам расчетами минимизации функции Беллмана, зависящей только от г переменных. Это экономит время расчета, требуя, правда, значительного объема памяти ЭВМ. Достоинством метода при численных расчетах является также и снижение объема вычислений при сужении области допустимых управлений или допустимого множества значений . Однако с увеличением размерности задачи дискретизация увеличивает число вариантов расчета запоминаемых результатов в степени п, что известно как «проклятие размерности», и требует иных подходов к применению динамического программирования.

Непрерывная форма динамического программирования

Принцип оптимальности Беллмана дает достаточно общее условие, которое можно применять как для дискретных, так и для непрерывных систем управления.

Рассмотрим следующий предельный случай, когда дискретность времени бесконечно мало, т.е. . Обратимся к функциональному уравнению Беллмана для одномерного объекта, заменив в нем дискретный момент времени ( на текущее время ) и согласно (1.2) и (1.3) функции и соответственно на и . Тогда можно получить выражение

При этом функция S во втором слагаемом правой части уравнения также имеет бесконечно малые приращения. Допустим, что функция Беллмана S непрерывна и, кроме того, существуют частные производные . Тогда можно разложить функцию ряд Тейлора в точке (х,t) и, пренебрегая членами второго порядка малости, получить

Заметим, что последнее слагаемое может быть учтено, если переменная х (t) есть случайный процесс, в котором присутствует составляющая типа белого шума с бесконечно большой дисперсией D, равной где - коэффициент диффузии. Подставим полученный результат в правую часть уравнения (1.8). С учетом того, что функции и от управления на зависят как результаты уже проведенной оптимизации и могут быть вынесены за фигурные скобки, уравнение (3.8) можно представить в виде

Перенеся первые два члена в левую часть, разделим уравнение на :

Последними двумя слагаемыми при можно пренебречь изза их малости. Тогда с учетом случайного характера оптимизируемого процесса получим уравнение.

.

Если рассматривать детерминированный случай при и, наконец, исследовать поведение системы с п координатами и r управлениями ,то можно получить известное уравнение Беллмана в частных производных

Очень важно подчеркнуть, что уравнение Беллмана (1.10) является нелинейным дифференциальным уравнением, поскольку в нем присутствует операция минимизации. В векторной форме его можно записать так:

где,

Поясним теперь смысл слагаемых, входящих в правую часть уравнения (1.10). Первое слагаемое характеризует потери на текущем шаге, второе слагаемое в виде суммы членов оценивает последствия от принятого решения в будущем. Причем каждый член учитывает изменение текущего состояния по координате , возникающее за счет управления , с помощью производной , которая умножается на свой весовой коэффициент . Таким образом, производные есть своего рода «коэффициенты чувствительности» оставшегося значения минимизируемого функционала к изменениям текущих значений фазовых координат . Это соображение иллюстрирует дальновидность метода и оживляет представление о функции Беллмана как о некоторой функции отклика критерия оптимальности на измененные вектора состояния . Часто в технических задачах можно физически уяснить себе характер зависимости функции S от фазовых координат системы. Поэтому удается найти управление в функции от состояния фазовых координата , что позволяет прийти к замкнутой системе управления с обратной связью и тем самым ускорить решение задачи, что будет показано ниже в примерах.

С помощью динамического программирования можно решать задачи и с незакрепленным временем управления . В частности, для автономных систем можно получить уравнение Беллмана в виде где функция от времени не зависит. Для задач максимального быстродействия в уравнении (1.11) нужно ввести замену .

В заключение отметим, что вывод уравнений (1.10) и (1.11) требовал дифференцируемости функции S. Однако существуют задачи, где эта функция не является дифференцируемой, а оптимальное управление существует. Поясним на примере, что на линии переключения функция S всегда не дифференцируема.

Связь динамического программирования с вариационным исчислением и принципом максимума

Метод динамического программирования носит более универсальный характер, чем методы, основанные на принципе максимума и вариационном исчислении, поскольку он был разработан для оптимального управления процессами, не обязательно описываемыми системой дифференциальных уравнений. Вместе с тем этот метод не имеет строгого обоснования в ряде случаев по сравнению с принципом максимума и вариационным исчислением, хотя и тесно связан с ними.

Связь метода динамического программирования с вариационным исчислением. Пусть целевая функция зависит от скорости изменения фазовых координат. Тогда уравнение (3.10) можно записать в виде

Продифференцируем уравнение (1.12) по с учетом того, что функция Беллмана от не зависит:

Затем запишем полную производную по t:

Продифференцируем теперь уравнение (1.14) по ;

Вычитая из полученного результата предыдущее уравнение, приходим к уравнению Эйлера в вариационном исчислении

Заметим это соотношение было получено в предположении о непрерывности частных производных второго порядка.

Пусть теперь граничное условие задачи в конечный момент времени есть соотношение [8]

Тогда с учетом равенства (1.13) получим из (1.12) следующее соотношение, идентичное условию задачи с подвижным концом в вариационном исчислении:

Кроме того, можно убедиться, что уравнение (1.13) есть необходимое условие минимума для выражения в правой части (1.13), поскольку, во-первых, уравнение (1.13) есть частная производная от этого выражения по , приравненная к нулю. Во-вторых, дифференцируя по уравнение (1.13) вторично и учитывая равенство нулю производной от первого слагаемого, получаем еще одно необходимое условие минимума, состоящее в положительной определенности матрицы частных производных второго порядка, что совпадает с условием Лежандра в вариационном исчислении.

Можно также показать [8], что если экстремум в точке совпадает с абсолютным минимумом, т.е.

то это соответствует известному условию Вейерштрасса.

Связь метода динамического программирования с принципом максимума. Геометрическая интерпретация динамического программирования. Связь с функцией Ляпунова. Классическое описание данной взаимосвязи строится на том, что из уравнений динамического программирования при определенных допущениях выводятся результат ты, соответствующие принципу максимума [9, 10]. Основной смысл этих сопоставлений состоит в том, чтобы показать, что для применения динамического программирования нужны излишне жесткие требования, связанные с существованием непрерывных частных производных . Действительно, если для задачи с закрепленным временем ввести (п 2)-мерную вектор-функцию то уравнение Беллмана (1.10) можно записать в виде [7]

или тах , что соответствует принципу максимума, если ввести функцию .

Если рассмотреть задачу максимального быстродействия, то, воспользовавшись уравнением (1.14) для автономных систем и продифференцировав его по , получим

Первое слагаемое можно преобразовать, учитывая очевидное соотношение откуда получаем следующий результат:

Видно, что в оба слагаемых входят одни и те же функции которые мы теперь «обозначим через .

Тогда условие (1.14) для оптимального процесса приобретет вид, что сразу же позволяет левую часть этого равенства обозначить через гамильтониан Н, а из соотношения (1.15) получить используемую в принципе максимума систему дифференциальных уравнений относительно вспомогательных переменных

Таким образом, результаты динамического программирования и принципа максимума совпадают, если ввести обозначения или в векторной форме .

Рис. 3. Геометрическая интерпретация динамического программирования в задаче максимального быстродействия.

Это позволяет дать следующую геометрическую интерпретацию динамического программирования. На рис. 3 представлены поверхности изохрон S = const для задачи максимального быстродействия, причем величина S, по смыслу равная оставшемуся минимизируемому времени убывает по мере приближения к конечной точке, т.е.

При этом движение должно осуществляться в направлении убывания функции S, т.е. в направлении, противоположном ее градиенту внутрь изоповерхностей S = const. Из физических соображений очевидно, что движение вдоль нормали - самое быстрое по времени, так как движение вдоль изоповерхности не дает приближения к конечной точке.

С помощью функции Беллмана S можно дать и другую трактовку процессу ее убывания, связав ее с функцией Ляпунова.

Действительно, если целевая функция положительно определена, то, выразив уравнение (1.12) в виде или видим, что функция S есть функция Ляпунова.

Значит, если функция S положительно определена, то оптимальная система обладает еще одним замечательным свойством - она асимптотически устойчива, что особенно важно для нелинейных систем.

Отличие динамического программирования от других методов состоит в том, что если принцип максимума есть необходимое условие оптимальности, то уравнения динамического программирования при соблюдении всех требуемых допущений понимаются как достаточное условие. Необходимо также подчеркнуть, что в принципе максимума переменные мыслятся как функции времени, а в динамическом программировании это функции от фазовых координат, характеризующие чувствительность минимизируемого значения функционала к изменению текущего состояния .

Формально это требует решения нелинейных дифференциальных уравнений вида (1.9) или (1.10) в частных производных, что так же сложно, как и решение краевых задач в принципе максимума.

Аналитическое конструирование регуляторов и применение для их синтеза динамического программирования

Поскольку динамическое программирование наиболее близко к получению оптимального управления в замкнутой форме, нужно подробнее остановиться на задаче синтеза систем автоматического управления, удовлетворяющего при существующих ограничениях требуемому качеству. Одним из направлений в этой области является разработанный у нас в стране А.М.Летовым подход, названый аналитическим конструированием регуляторов [З1], когда алгоритм управляющего устройства замкнутой системы находится аналитически в соответствии с определенным функционалом качества, соответствующим квадратическому критерию вида

Минимизация функционала (1.16) соответствует задаче о регуляторе состояния, когда важно удерживать около нуля все компоненты вектора состояния. Возможны другие варианты удержания около нуля некоторой ошибки, представляющей собой разность между желаемым и выходным сигналами в задачах слежения [28], но смысловое содержания структуры критерия остается неизменным. Первое слагаемое характеризует терминальную ошибку в конечный момент, второе слагаемое преследует цель обеспечить малость ошибки при удерживании системы в заданном положении. Последнее слагаемое представляет «штраф за большие управления» и оценивает затрачиваемую на управление энергию.

Соответственно положительно полуопределенные матрицы М, Р и положительно определенная матрица R выбираются с учетом значимости указанных факторов, преимущественно с ненулевыми диагональными элементами, либо, по желанию проектировщика, можно положить некоторые из матриц нулевыми.

При этом, как правило, рассматривается линейный нестационарный объект, описываемый уравнениями где на управление никаких прямых ограничений не наложено. В связи с этим для аналитического решения можно применять как вариационное исчисление, так и принцип максимума, но для получения решения в замкнутой форме воспользуемся методом динамического программирования. С учетом терминального члена функцией Беллмана S является функция которая при не равна нулю.

С учетом (1.16) и (1.17) уравнение Беллмана имеет вид

При отсутствии ограничений на оптимальное управление вычислим производную от выражения в фигурных скобках и, приравняв ее нулю, получим

Поскольку матрица Д положительно определена, можно найти, во-первых, оптимальное управление и, во-вторых, записать уравнение Беллмана без операции минимизации:

Уравнение (3.20) можно решить при условии .Можно показать [31], что уравнение (3.20) имеет точное аналитическое решение, которое представляет собой квадратичную форму

Где К(t) - симметричная нестационарная матрица с искомыми элементами.

Вычислив частные производные подставим их в уравнение (1.20):

Учитывая, что , уравнение (1.22) можно преобразовать к виду что соответствует равенству нулю выражения в квадратных скобках, имеющего вид системы линейных неоднородных дифференциальных уравнений с граничным условием :

Уравнение (1.23) называется матричным уравнение Риккати, решение которого обычно находят численно на ЭВМ до начала работы системы. Оптимальному управлению соответствует в общем случае линейный закон управления с переменным коэффициентом передачи

И снова, возникает закономерный вопрос - при каких условиях структура и параметры регулятора будут неизменны. В работах Калмана доказывается, что при М= 0 и для стационарных объектов, т.е. при постоянных матрицах А, В, К и Р, решение уравнения Риккати есть постоянная матрица К, соответствующая уравнению

В этом случае оптимальная замкнутая система является стационарной и асимптотически устойчивой вследствие установившегося поведения при , несмотря на то, что объект управления может быть неустойчив.

1.2.2 Принципы самоорганизации в сложных динамических системах

Академиком А.А. Красовским около 30 лет назад была поставлена крупная проблема создания физической теории управления, которая «базируется на фундаменте физических законов, учете ресурсов и приоритетах реального мира [18].

Были введены такие базовые понятия, как «притягивающие инвариантные многообразия», «макропеременные», «принцип расширения - сжатия фазового пространства», которые, как оказалось, идентичны основным понятиям синергетики - теории самоорганизации, а именно: «аттракторам», «параметрам порядка» и «принципу подчинения». Более того, введенные нами понятия были исходно положены в основу синергетической теории нелинейного системного синтеза.

Эта теория была сначала обобщена в монографиях [14, 15] в форме метода аналитического конструирования агрегированных регуляторов (АКАР), а затем в монографии [4], в которой нелинейный системный синтез фактически приобрел завершенную форму в виде СТУ, построенной по схеме: «инварианты - самоорганизация - синтез», т.е. полностью в русле идеологии синергетики. В последующие годы СТУ и метод АКАР получили дальнейшее развитие применительно, в первую очередь, к решению сложных прикладных нелинейных проблем управления в машиностроении и энергетике.

На основе метода АКАР были решены нелинейные проблемы синтеза систем скалярного, векторного, разрывного, дискретного, селективно-инвариантного, многокритериального, терминального и адаптивного управлений многомерными и многосвязными объектами.

Так, метод АКАР был весьма успешно применен для синтеза базовых законов векторного управления нелинейными техническими объектами - летательными аппаратами (ЛА), роботами, турбогенераторами, теплоэнергетическими агрегатами, электромеханическими системами постоянного и переменного тока, решена важная проблема синтеза базовых законов координирующего управления пространственным движением ЛА, обеспечивающих их текущую структурную адаптацию к режимам и условиям полета.

Понятие об организации системы предполагает определенное согласование состояний и деятельности ее подсистем и составляющих элементов. Способность к адаптации путем самоорганизации основывается как на множественности элементов системы и разветвленности связей между ними, способствующих возникновению целостности, так и на наличии гибкого взаимодействия между элементами по типу обратных связей. Отрицательные обратные связи (ОС) обеспечивают стабильность функций системы, постоянство ее параметров, устойчивость к внешним воздействиям. Положительные ОС играют роль усилителей процессов и имеют особое значение для развития, накопления изменений. Наличие отрицательных и положительных ОС приводит к возможности развития по некоторому закону с использованием внешних и внутренних ресурсов.

Сложная динамическая организация целенаправленной функционирующей системы требует непрерывного управления, без которого система не может существовать. Особенность этого управления состоит в том, что оно служит причиной ряда процессов в самой системе и, прежде всего процессов внутреннего саморегулирования по законам организации системы [3]. Управляющие моменты принято рассматривать в проекциях на оси связанной системы координат.

Крестообразная схема размещения управляющих органов при повороте их на угол вращения равный 45° превращается в иксообразную схему, в которой моменты тангажа и рыскания создаются согласованным отклонением всех четырех управляющих органов. Если предположить, что все управляющие органы отклонены на одинаковый угол, то развиваемый при этом момент, например, тангажа будет больше в раз, чем при отклонении на тот же угол двух управляющих органов в крестообразной схеме. Аналогичный вывод справедлив и для момента рыскания. Таким образом, иксообразная схема может быть более эффективна, особенно при отработке больших по величине возмущений. Однако, анализ зависимости моментов УО от угла вращения показывает, что разворот корпуса на определенный угол вращения приводит к увеличению момента по одной оси, но при этом управляющий момент по другой оси может значительно уменьшиться и даже стать равным нулю. При законе управления по углу и угловой скорости управляющие сигналы могут быть в виде: , . (16)

С учетом эффективности управляющих органов и получим значения моментов и их проекции на оси стартовой системы координат

. (17)

Анализ выражения показывает, что управляющий момент по оси Z будет уменьшаться. Зависимость моментов рулей от угла вращения нарушает нормальную работу СС каналов тангажа и рыскания, приводя к взаимосвязи между этими каналами и потере устойчивости. Решение данной проблемы осуществляют либо путем изменения полосы пропускания замкнутой системы стабилизации п

Вывод
На основании проведенных исследований можно сделать следующие выводы: 1. При синтезе линейных регуляторов управления попутным движением для обхода препятствий необходимо учитывать в штрафной функции интегрального критерия факт сближения с препятствием;

2. В математической модели относительного встречного движения необходимо учитывать факт подвижности препятствия;

3. Контроль безопасности движения возможен при вычислении функции текущего риска в виде правой части уравнения Беллмана, что справедливо в случае оптимального управления объектом;

4. Сравнение текущего риска с допустимым порогом позволяет сформировать нужный сигнал тревоги для управления поступательным движениям, чтобы регулировать путевую скорость, снижая ее в опасных ситуациях;

5. Предложена объединенная двухуровневая система контроля и управления, способная адаптивным путем обеспечить необходимую безопасность движения;

6. Полученная система может использоваться как в автоматическом режиме, если доступна нужная измерительная информация об относительном сближении с препятствием, так и в тренажерах обучения операторов ручного управления при использовании сигналов тревоги в качестве подсказки.

В разделе «Охрана труда и окружающей среды» изложены основные требования к безопасности и комфорту и анализ сформированных условий труда на соответствие требуемым. Сделан вывод о соблюдении в помещении правил электробезопасности, пожарной безопасности, соответствии электромагнитного и ионизирующего излучений, шума, вибрации и освещенности нормам.

Фактор освещенности признан основным. Произведен анализ условий труда и расчет освещенности кабинета. Оптимальными для освещения помещения являются лампы ЛБ-40 (лампы люминесцентные белого света, мощность - 40 Вт, световой поток - 3120 лм). Показатель освещенности в данном помещении не отклоняется от нормы. Оценка соответствия размещения устройств управления на рабочем месте и устройств отображения информации показала, что основные значения параметров по этим факторам не противоречат нормативным.

Шум и вибрация в помещении соответствуют нормам.

Созданные условия должны обеспечить комфортную работу, что позволит сохранить хорошую работоспособность в течение всего рабочего дня.

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?