Подход к повышению устойчивости рационального агента, функционирующего в жёстком реальном времени, к возникновению непредвиденных ситуаций, связанных с его функционированием. Использование концепции метапознания, их реализация средствами активных логик.
Аннотация к работе
Повышение устойчивости к аномалиям интеллектуального агента с ограниченным временным ресурсом: метакогнитивный подходВ обоих случаях можно говорить о возникновении угрозы превышения времени, отпущенного на решение задачи, то есть о катастрофическом ухудшении качества функционирования как самого агента, так и всей многоагентной системы в целом. Ясно, что в многоагентных системах жесткого реального времени временной ресурс каждого агента строго ограничен. Таким образом, логическая система, формализующая рассуждения агента с ограниченными ресурсами, должна давать ему возможность оценивать имеющийся у агента временной ресурс в каждый момент времени таким образом, чтобы в зависимости от результатов оценки агент мог менять ход своих рассуждений (темпоральная чувствительность Elgot-Drapkin, 1998). Для того чтобы дать возможность наблюдать за процессом рассуждения агента и оценивать этот процесс во время его осуществления, была предложена концепция, получившая название «шаговая логика» Elgot-Drapkin, 1988, впоследствии переименованная в «активную логику», хотя это, скорее, семейство различных логик, объединенных общими принципами. Сохраняя возможность рассуждать об агентах, как бы «глядя на них со стороны» (как это имеет место, например, в случае динамической эпистемической логики Fagin et al., 1988), в то же время, активная логика позволяет самому агенту соотносить процесс своего рассуждения с событиями, происходящими во внешней среде в результате деятельности этого агента или помимо нее.Опыт практического применения метакогнитивного подхода к построению различных интеллектуальных систем уже показал, что устойчивость таких систем к аномалиям выше, чем у аналогичных систем, в которых данный подход не применялся Anderson et al., 2006.
Введение
метапознание логика рациональный
Одной из наиболее важных и сложных проблем теории интеллектуальных многоагентных систем является обеспечение устойчивости («неуязвимости») интеллектуальных агентов к непредвиденным заранее ситуациям («аномалиям» Anderson et al., 2005). Аномалии возникают как изза непредусмотренных изменений, происходящих во внешней среде (частью которой являются другие агенты многоагентной системы), так и изза несовершенства имеющихся у агента знаний о ней и отрицательно влияют на его функционирование. Особенно важна устойчивость агентов к аномалиям в так называемых системах жесткого реального времени, для которых характерно существование критического временного порога (deadline) решения стоящей перед многоагентной системой задачи, превышение которого чревато катастрофическими последствиями. Типичным примером аномалии для таких систем является ситуация, когда событие, ожидаемое в назначенное время, тем не менее, не наступило. Это событие может быть связано не только с состоянием внешней среды, но и с текущим состоянием знаний агента. В обоих случаях можно говорить о возникновении угрозы превышения времени, отпущенного на решение задачи, то есть о катастрофическом ухудшении качества функционирования как самого агента, так и всей многоагентной системы в целом. Ясно, что в многоагентных системах жесткого реального времени временной ресурс каждого агента строго ограничен. В докладе далее речь пойдет о подходе к повышению устойчивости к аномалиям агентов с ограниченным ресурсом времени на основе использования концепции метапознания, реализованной средствами специально разработанного для этой цели семейства так называемых активных логик.
1. Метапознание в когнитивной психологии
Термин «метапознание» (metacognition) был введен Д. Флэйвеллом Flavell, 1979, Flavell, 1987 и определен им как осведомленность индивидуума о своих когнитивных процессах и связанных с ними стратегиях, или, говоря его словами, как "знание и познание относительно познавательных явлений". В других источниках метапознание часто определяют просто как размышления о размышлениях (например, в Metcalfe et al., 1994), имея в виду при этом «познание второго порядка». В дальнейшем в докладе вместо термина «размышление» (thinking) будет использоваться термин «рассуждение» (reasoning), более привычный в использовании применительно к проблематике систем искусственного интеллекта.
Исследования метапознания расширили теорию обработки информации, которая была представлена, прежде всего, в теоретических работах таких исследователей как Ньюэлл Newell, 1990. Ключевым в этой новой психологической парадигме было представление о мышлении как о потоке информации внутри и вне системы ментальных структур. Вопросы относительно того, как информация сохраняется и восстанавливается в ментальных структурах, как эти структуры развиваются с возрастом, как происходит управление хранением и коррекцией, привлекали внимание многих исследователей.
Модель метапознания и познавательного контроля, предложенная Флэйвеллом, позволяет ответить на многие из этих вопросов. Согласно его модели, способность человека управлять "широким разнообразием познавательных инициатив происходит через действия и взаимодействия между четырьмя классами явлений " Flavell, 1979: · метакогнитивное знание, · метакогнитивное ощущение, · цели (или задачи), · действия (или стратегии).
Модель включает знание трех общих факторов: знание особенностей функционирования “когнитивного процессора”;
знание задачи, ее требований и как эти требования могут быть выполнены при изменении условий;
знание стратегий для выполнения этой задачи, (познавательные стратегии, призванные достигать целей, и метапознавательные стратегии, призванные контролировать продвижение (прогресс) познавательных стратегий).
Метакогнитивное знание может влиять на направление познавательных инициатив через преднамеренный и сознательный поиск в памяти или через несознательные и автоматические когнитивные процессы.
Следует отметить разницу между познавательными и метапознавательными стратегиями. Первые помогают индивиду достичь специфической познавательной цели (например, понять текст), а вторые используются для контроля достижения этой цели (например, самоопрос на предмет понимания этого текста). Метакогнитивные компоненты, как правило, активизируются, когда познание терпит неудачу (в данном случае это может быть непонимание текста с первого прочтения). Такая неудача активизирует метакогнитивные процессы, позволяющие индивиду исправить ситуацию. Таким образом, метапознание отвечает за активный контроль и последовательное регулирование познавательных процессов.
2. Метакогнитивный цикл
Понятие «метакогнитивный» цикл было предложено в Anderson et al., 2006 в контексте использования принципов метапознания для улучшения устойчивости к аномалиям рационального агента с ограниченным временным ресурсом. Он определяется как циклическое выполнение следующих трех этапов: 1. самонаблюдение (мониторинг);
Заметим, что и в других работах, посвященных метарассуждениям или, более обще, метапознанию в многоагентных системах (Brown, 1987, Cox et al., 2007, Raja et al., 2007), метакогнитивный цикл указанного вида также подразумевается. Общим во всех перечисленных работах является подход, основанный на том, что этап самонаблюдения, на котором выявляется наличие аномалий, строится с привязкой возможных действий агента, влияющих на внешнюю среду, к ожидаемым последствиям этих действий. Признаком наличия аномалии при этом является несоответствие ожиданий агента с поступающей информацией о внешней среде. Заметим, что выполнение этапов метакогнитивного цикла ни в коем случае не предполагает каких-либо изощренных раздумий, таких глубоких, что агент может «увязнуть» в них самих. Метарассуждения агента таковыми не должны быть. На этапе самонаблюдения они сводятся к проверке на наличие в рассуждениях агента формальных признаков присутствия аномалий в рассуждениях агента, решающего некоторую задачу. Этими формальными признаками нередко являются так называемые прямые противоречия в знаниях агента. Формально прямым противоречием называется наличие контрарной пары формул, выражающих текущие знания агента. В связи с тем, что, как указывалось во введении, в системах жесткого реального времени аномалии в основном связаны с запаздыванием появления ожидаемых реакций внешней среды на действия агента, то именно такого рода ситуации должны выявляться в процессе мониторинга в первую очередь. На этапе самооценки устанавливается степень угрозы для качества функционирования агента, которую таит в себе выявленная аномалия, а на этапе самосовершенствования, если угроза реальна, происходит выбор новой стратегии решения задачи, стоящей перед агентом. Типовым выходом из такого рода ситуаций, является переход к новой стратегии, требующей для своего осуществления меньшего временного ресурса, но обеспечивающий хотя и приемлемый, но меньший по сравнению со «старой» стратегией, уровень качества решения стоящей перед агентом задачи.
Таким образом, логическая система, формализующая рассуждения агента с ограниченными ресурсами, должна давать ему возможность оценивать имеющийся у агента временной ресурс в каждый момент времени таким образом, чтобы в зависимости от результатов оценки агент мог менять ход своих рассуждений (темпоральная чувствительность Elgot-Drapkin, 1998). Кроме того, агент должен быть толерантен к противоречиям в своих знаниях и быть способен их выявлять. Необходимым условием также является способность агента оценивать в каждый момент времени полноту имеющихся у него знаний и осознавать не только то, что он знает, но и то, чего именно он не знает. Логические системы, дающие агентам такие возможности, будут рассмотрены ниже.
3. Рассуждения во времени и метарассуждения на основе активной логики
Для того чтобы дать возможность наблюдать за процессом рассуждения агента и оценивать этот процесс во время его осуществления, была предложена концепция, получившая название «шаговая логика» Elgot-Drapkin, 1988, впоследствии переименованная в «активную логику», хотя это, скорее, семейство различных логик, объединенных общими принципами. Сохраняя возможность рассуждать об агентах, как бы «глядя на них со стороны» (как это имеет место, например, в случае динамической эпистемической логики Fagin et al., 1988), в то же время, активная логика позволяет самому агенту соотносить процесс своего рассуждения с событиями, происходящими во внешней среде в результате деятельности этого агента или помимо нее.
Систему активной логики образуют пары вида , где SLN - метатеория поведения агента, соответствующая его «внутренней» (далее собственной) теории, SLN (n - параметр, характеризующий уровень сложности теорий, о котором будет сказано ниже). Как модель дедукции, активная логика характеризуется языком, множеством дедуктивных правил, а также множеством «наблюдений». Использование так называемой функции наблюдения позволяет моделировать динамическую среду, информация о которой поступает к агенту по мере происходящих в этой среде изменений.
Рассуждение во времени характеризуется выполнением циклов дедукции, называемых шагами. Так как в основе активной логики лежит дискретная модель времени, то эти шаги играют роль временного эталона - время измеряется в шагах. Знания агента ассоциируются с индексом шага, на котором они были впервые получены.
Принципиальное отличие активной логики от других темпоральных эпистемических логик состоит в том, что темпоральные аргументы введены в язык собственных теорий агентов Elgot-Drapkin, 1988. Таким образом, временной параметр связывается не только с каждым утверждением (формулой), которое эксплицитно знает агент, но и с дедуктивными правилами вывода. То, что узнал агент на шаге t (t-знания), используется для вывода новых знаний на шаге (t 1). Дедуктивные правила вывода в активной логике имеют следующий вид: наследование, modus ponens.
Для иллюстрации осуществляемого по шагам процесса рассуждений предположим, что агент изначально знает (на шаге t), что f ® y и y ® c и на шаге (t 1) он наблюдает f. В приведенной ниже таблице показано, какие новые формулы появляются на каждом шаге при использовании агентом дедуктивных правил наследования и modus ponens. t : … f ® y , y ® c … t 1 : … f … t 2 : … y … t 3 : … c …
Различные уровни сложности теорий активной логики связаны с вовлечением в процесс рассуждения агентов трех различных механизмов: отсчета времени, обеспечивающего темпоральную чувствительность рассуждений агентов, самопознания (способности агентов осознавать как то, что они на данный момент времени знают, так и то, чего они на данный момент времени не знают), и обнаружения противоречий в текущих знаниях.
Отсчет времени достигается благодаря специальному одноместному предикату now (.). В отношении его действует следующее правило вывода: , причем, now (t) не наследуется на шаге t 1 обычным образом. Самопознание достигается благодаря правилу вывода: , где f - любая формула, не известная агенту i на шаге t, но являющаяся подформулой некоторой известной ему формулы j, то есть осознаваемая агентом, sub (.,.) - двухместный метапредикат, выражающий отношение «быть подформулой», f - нотация, означающая, что формула f отсутствует в текущих знаниях агента на шаге t. K(.,.) - двухместный метапредикат, выражающий тот факт, что агенту известна некоторая формула в некоторый момент времени.
Обнаружение и устранение противоречий достигается благодаря правилу вывода:
Ниже приведен пример процесса метарассуждений, когда факт, что вопреки ожиданиям агента, некоторое событие А не стало вовремя ему известно (момент времени 2), проявляется в виде прямого противоречия.
Пример 3.1.
0: … now (0), now (1) ® K (2, A ) …
1: … now (1), now (1) ® K (2, A ), O K (0, A ) …
2: … now (2), now (1) ® K (2, A ), O K (0, A ) , O K (1, A ), K (2, A ) …
3: … now (3), now (1) ® K (2, A ), O K (0, A ) , O K (1, A ), K (2, A ), O K (2, A ) …
4: … now (4), now (1) ® K (2, A ), O K (0, A ) , O K (1, A ), K (2, A ), O K (2, A ), contra (3, K (2, A ), O K (2, A ) ) …
В моменты времени 0, 1, 2, 3 сработало правило самопознания, в результате чего были последовательно выведены формулы O K (0, A ) , O K (1, A ), K (2, A ), O K (2, A ). В момент времени 1 сработало правило now (1) ® K (2, A ) , выражающее ожидание, что в момент времени 2 агент будет знать, что произошло событие А. В момент времени 4 сработало правило обнаружения противоречия, в данном случае, между ожиданием агента , что он узнает о наступлении события А в момент времени 2 и фактом, что в указанный момент времени информации о наступлении события А агенту не поступила.
Таким образом, концепции активной логики отвечают логические системы, которые могут быть охарактеризованы следующими свойствами, в совокупности отличающими их от других логических систем: 1. Формализация рассуждений, протекающих во времени (reasoning situated in time).
2. Темпоральная чувствительность.
3. Самопознание.
4. Допустимость противоречий.
Указанные свойства не встречаются одновременно в логических системах, не отвечающих концепции активной логики. Метакогнитивный подход, основанный на концепции активной логики, был успешно применен в ряде проблемных областей, среди которых: 1. Планирование действий в жестком реальном времени Purang et al., 1999;
2. Обучение с подкреплением Anderson et al., 2006;
3. Исправление ошибок диалога Anderson et al., 2004;
4. Рассуждение о других агентах Elgot-Drapkin, 1998.
5. Управление потоками ресурсов Емельянов, 1999.
Вывод
Рассмотренный в данном докладе метакогнитивный подход, ориентирован для применения в многоагентных системах жесткого реального времени, чем и обусловлена его специфика. Опыт практического применения метакогнитивного подхода к построению различных интеллектуальных систем уже показал, что устойчивость таких систем к аномалиям выше, чем у аналогичных систем, в которых данный подход не применялся Anderson et al., 2006. Вместе с тем, этот подход нельзя рассматривать в качестве панацеи, решающей все проблемы, связанные с обеспечением устойчивости к аномалиям интеллектуальных систем. Однако не вызывает сомнений, что на пути решения этих проблем метакогнитивный подход является необходимым звеном.
Список литературы
1.Емельянов, 1999 Емельянов В.В. Многоагентная модель децентрализованного управления потоком производственных ресурсов// Труды Международной конференции "Интеллектуальное управление: новые интеллектуальные технологии в задачах управления" (ICIT"99, Переславль-Залесский, 6-9 декабря, 1999). - М.: Наука. Физматлит, 1999.
2.Anderson et al., 2005 Anderson M. L., Perlis D. Logic, self-awareness and self-improvement: The metacognitive loop and the problem of brittleness, in Journal of Logic and Computation. 2005. №15 (1).
3.Anderson et al., 2004 Anderson M. L., Lee B. Empirical results for the use of metalanguage in dialog management. // Proceedings of the 26th Annual Conference of the Cognitive Science Society. 2004.
4.Brown, 1987 Brown A. Metacognition, executive control, self control, and other mysterious mechanisms. In F. Weinert and R. Kluwe (Eds.), Metacognition, Motivation, and Understanding. Hillsdale, NJ: Erlbaum. 1987.
5.Cox et al., 2007 Cox, Raja. Metareasoning: Manifesto, in BBN Technical Memo TM-2028, 2007.
6.Elgot-Drapkin, 1998 J. Elgot-Drapkin. Step Logic: Reasoning situated in time. PHD thesis. Department of computer science, University of Maryland, Colledge-Park, Maryland, 1988.
7.Fagin et al., 1988 Fagin R. and. Halpern J. Y. Belief, awareness and limited easoning, Artificial Intelligence 34 (1988).
8.Flavell, 1979 Flavell J. H. Speculations about the nature and development of metacognition. In F. Weinert & R. Kluwe, eds., Metacognition and Motivation. Hillsdale, NJ: Lawrence Erlbaum Associates. 1979.
9.Flavell, 1987 Flavell J. H. Metacognition and cognitive monitoring: A new era in cognitive-developmental inquiry. American Psychologist. 1987. №34(10)
10.Metcalfe et al., 1994 Metcalfe J. & Shimamura A. P. Metacognition: knowing about knowing. Cambridge, MA: MIT Press. 1994.
11.Newell, 1990 Newell F. Unified Theories of Cognition. Cambridge, MA: Cambridge University Press, 1990.
12.Purang et al., 1999 Purang K., Purushothaman D., Traum D., Andersen C., Traum D., Perlis D. // Practical Reasoning and Plan Executing with Active Logic. 1999. Proceedings of the IJCAI"99 Workshop on Practical Reasoning and Rationality