Организация интеллектуального интерфейса с системами автоматизации проектирования. Интеграция лингвистической трансляции с онтологиями и средствами визуализации. Переход от онтологического описания конструкции до ее визуализации в графическом изображении.
При низкой оригинальности работы "Интеграция на базе онтологии естественного языка и изображений в системе Text-to-Picture", Вы можете повысить уникальность этой работы до 80-100%
Высокая степень актуальности проблемы синтеза графических изображений по текстам на естественном языке (ЕЯ) во многом определяется понятностью ЕЯ-описаний подавляющему большинству людей и наглядностью соответствующего графического образа. Основные подходы в решении отмеченной выше проблемы связаны с созданием систем класса Text-To-Picture (TTP), в общем случае отображающих описание на ЕЯ в графический объект. Любая Text-To-Picture (TTP) система реализует три этапа работы: анализ входного текста; выделение графических описателей, соответствующих представлению входного текста; синтез изображения. Система LAT&CSI (Language Analyzes of Text & Conceptual Syntheses of Images) представляет собой TTP-систему синтеза изображений по ЕЯ-выражениям через общую, интегрированную онтологию, включающую лингвистические знания о языке общения, знания о предметной области и знания о возможностях подсистемы визуализации. В системе LAT&CSI процесс синтеза изображения по тексту проходит в три этапа: •лингвистический анализ исходного ЕЯ-описания и получение онтологического представления текста;Это касается как визуализации конструкций по ЕЯ-описаниям из фрагментов технического задания на конструкцию, так и использование онтологии для поиска аналогичных конструкций.
Введение
Высокая степень актуальности проблемы синтеза графических изображений по текстам на естественном языке (ЕЯ) во многом определяется понятностью ЕЯ-описаний подавляющему большинству людей и наглядностью соответствующего графического образа. Это создает предпосылки для ряда предметных областей, где понятность и наглядность представления играют главную роль.
Примерами таких областей являются: изучение родных и иностранных языков, организация общения с людьми ограниченных возможностей (например, глухонемые и аутисты), реконструкция дорожно-транспортных происшествий (для страховых компаний), восстановление сцен преступлений по текстовому описанию очевидцев. Важной тенденцией последнего времени является организация интеллектуального интерфейса с системами автоматизации проектирования (САПР), что было намечено еще в работе [9]. Основные подходы в решении отмеченной выше проблемы связаны с созданием систем класса Text-To-Picture (TTP), в общем случае отображающих описание на ЕЯ в графический объект.
В связи с прикладными областями обучения и общения возникла даже новая парадигма для трансляции [10]: трансляция текстов на ЕЯ с помощью картинок (pictorial translation). Эта парадигма основана на присущей людям способности понимать содержание картинки независимо от языка, на котором они говорят. Например, слово ‘яблоко’ различно в разных языках, но картинка яблока может быть понята всеми людьми одинаково.
Очевидно, что автоматическая трансляция входного текста в изображения - это нетривиальная задача, поскольку есть ограничения, присущие использованию визуальных представлений для целей коммуникации. Например, фразу типа “Ингаляционная форма инсулина вчера получила федеральное одобрение” маловероятно адекватно представить с помощью картинок. Высокий уровень абстракции или культурные различия также могут препятствовать адекватности визуализации, в частности, понятия политика, схоластика, доминация и т.п.
1. Анализ области TTP-систем
Любая Text-To-Picture (TTP) система реализует три этапа работы: анализ входного текста; выделение графических описателей, соответствующих представлению входного текста; синтез изображения.
Существующие (и разрабатываемые) TTP-системы отличаются друг от друга в зависимости от имеющихся средств реализации каждой составляющей, и области приложения.
Если анализатор текста реализует только выделение ключевых слов и фраз, важных для "рисования", то в этом случае графическими описателями являются понятия, соответствующие лексемам или стандартным формам словосочетаний, с которыми связаны заранее выделенные изображения из коллекции изображений. Тогда синтез изображений по тексту заключается в выборе из коллекции соответствующих картинок (фотографий) и их компоновки на поле визуализации в зависимости от строения ЕЯ-текста.
Эта схема обычно включает словари, комбинирующие лингвистическое представление и представление в картинках, например, система PICNET [10]. Аналогично создаются системы "усиления" коммуникации, делающие акцент на выделение блоков изображений и их компоновки. Последние зависят от структуры текста и общих правил расположения, повышающих интуитивно очевидное восприятие картинки [15].
Для конвертирования текста на ЕЯ в графическую сцену необходим уже синтаксический и семантический анализ текста. Примером такой системы является система WORDSEYE [2].
Преобразование текста в динамическую 3D сцену (например, для графической реконструкции дорожно-транспортного происшествия по его естественно-языковому описанию) требует модуль извлечения из текста информации, существенной для визуализации данных, и модуль визуализации, который интерпретирует эти данные и показывает в динамике трехмерную сцену ДТП (система CARSIM [12]).
Из современных отечественных разработок интересны подходы, развитые в работах [13, 3]. В этих подходах декларируется обработка естественного языка, использование онтологии и синтез графики.
Интеграция лингвистической трансляции с онтологиями и средствами визуализации является сложной проблемой, требующей комплексного подхода [6]. Если программные средства визуализации получили достаточное развитие, количество онтологий весьма велико, обработка естественного языка достигла определенного уровня, то интеграция результатов перечисленных исследований в рамках целостной системы пока далека от концептуальной и технологической зрелости. Отдельные аспекты этой проблемы исследованы в работах [6, 8, 5].
В большинстве TTP систем изображение составляется путем комбинации готовых изображений из библиотек, подобранных и взаимно расположенных по смыслу исходного естественно языкового описания. Недостатком такого подхода является его фиксированность - в подобных системах нельзя сгенерировать произвольное изображение вне библиотеки готовых картинок (галереи графических изображений) [4, 11, 14, 2, 7].
2. Система LAT&CSI
Система LAT&CSI (Language Analyzes of Text & Conceptual Syntheses of Images) представляет собой TTP-систему синтеза изображений по ЕЯ-выражениям через общую, интегрированную онтологию, включающую лингвистические знания о языке общения, знания о предметной области и знания о возможностях подсистемы визуализации.
В системе LAT&CSI процесс синтеза изображения по тексту проходит в три этапа: •лингвистический анализ исходного ЕЯ-описания и получение онтологического представления текста;
•формирование из онтологического описания специализированных структур для визуализации;
•синтез изображения - визуализация изображения в соответствии с онтологическим представлением исходного текста.
Хотя это и стандартные этапы TTP-системы, однако, развиваемый в данной работе подход отличается наполнением каждого этапа, большей общностью, наличием онтологии и возможностью действительного синтеза изображений с вкраплениями готовых картинок.
2.1 Лингвистический анализ предметно-ориентированного креолизованного текста
Креолизованный текст характеризуется сочетанием вербализованных и невербализованных (иконических) компонентов, что наблюдается в научных и особенно научно-технических текстах. К иконическим элементам в этих текстах относятся таблицы, символические изображения, названия и марки деталей, формулы и т.п. С учетом такой специфики лингвистический анализ предложений креолизованного текста реализуется полным морфологическим анализом и редуцированным и контекстно-ориентированным семантическим анализатором.
Примером текста на предметно-ориентированном креолизованном естественном языке может быть следующее описание: (1) Арматура типа B с числом блоков 5. В точке 0 арматуры присоединена цистерна Tank_B через точку 0. К цистерне прикреплена солнечная панель типа C, точки сцепления 1 и 0. В точке 1 арматуры присоединена вторая цистерна Tank_B через точку 0. Через точку 16 с арматурой сцеплен стыковочный элемент типа B, точка сцепки 0. Переходник типа B соединен с арматурой, точки сцепки 8 и 0, соответственно. Через точки 1 и 0 к переходнику подцеплена арматура типа B с числом блоков 2. На эту арматуру подцеплены три стыковочных элемента типа Б, точки сцепки 2:0,3:0 и 6:0 соответственно.
В рамках данной работы реализован работоспособный вариант лингвистической трансляции, который основан на базе концепции, аналогичной известному методу перифразирования, развитому в лаборатории Апресяна [1] и адаптированной для данной системы.
Вводится понятие канонического (стандартного) описания объектов и их сцеплений. Исходный текст, описывающий конструкцию, с помощью последовательного (многократного) применения правил перифразирования приводится к каноническому виду. Достоинством такого метода является наглядность процедуры перифразирования, позволяющей на каждом шаге контролировать процесс обработки (выдача диагностики на естественном языке), что существенно облегчает отладку.
Схему обработки поясним на примере одного из предложений ЕЯ-текста (1). В предложении: (2) В точке 0 арматуры присоединена цистерна Tank_B через точку 0. осуществляется поиск именных групп, задающих объекты, свойства и значения. После перифразирования получаем предложение: (3) В точке 0 (Арматура типа B [1]) присоединена (Цистерна типа B [1]) через точку 0., где объекты визуализации подчеркнуты, а в квадратных скобках стоят их номера. Общее правило перифразирования для нового предложения: В точке {N1} {OB1} {СЦЕПКА} {OB2} через точку {N2}. В фигурных скобках стоят переменные, обобщающие объекты, номера точек сцепки и предикат, задающий отношение сцепки (присоединена, присоединен, подцеплена, подцеплен, прикреплен, подсоединена, сцеплен и т.д.). После успешного означивания этих переменных предложение транслируется в канонический вид: (4) Арматура типа B [1] сцеплен с цистерна типа B [1] через точки 0 и 0.
Общая схема канонического представления: {OB1} сцеплен с {OB2} через точки {N1} и {N2} .
Окончательно каноническое представление отображается в лингвистическую онтологию.
2.2 Прикладная онтология
Онтологическое представление визуализируемых объектов базируется на языке представления знаний (ЯПЗ), позволяющем описывать сущности с помощью структурированной семантической сети. На этом языке описываются как предметные сущности (визуализируемые объекты), так и результаты лингвистической трансляции.
Предполагаемая для использования онтология обладает достаточным набором функциональных возможностей - создание вершин семантической сети, свойств/значений вершин, отношений между вершинами, операциями редактирования и т.д. Механизмы работы с онтологией позволяют описать в предметно-ориентированной онтологии визуализируемые объекты с учетом наследования свойств, корректности устанавливаемых между объектами отношений и т.д. Инструментальная СУБД (Progress) обеспечивает развитые средства индексации и быстрого создания приложений для отладки декларированной технологической цепочки: естественный язык ® онтология ® синтез и визуализация объекта.
2.3 Концептуальный синтез изображений
Для реализации перехода от онтологического описания конструкции до ее визуализации естественно должны присутствовать сведения об отображении объектов этой конструкции в программные конструктивы средств визуализации. Такой переход предполагает использование базовых функций для работы с онтологией, включающих доступ к экземплярам, их свойствам и отношениям. С помощью этих базовых функций вычленяется древовидная структура конструкции для визуализации и в процессе обхода этой структуры формируется текст на специально разработанном языке алгоритмического описания графики GRASP (GRAPHICS Situation Planner) [8]. Этот переход определяет интерфейс между онтологией и визуализацией. Основными задачами интерфейса являются: вычленение из онтологического описания информации, необходимой для визуализации; формирование по этой информации программы на GRASP; вызов интерпретатора GRASP для выполнения собственно визуализации.
GRASP - полноценный язык программирования с синтаксисом, результат интерпретации которого визуализируется средствами OPENGL. Процедурная часть (П-язык) задает алгоритм синтеза объекта, по элементам которого он синтезируется, а декларативная часть (Д-язык) задает связи (сцепки) между элементами и параметры элементов для процедурной части.
Язык GRASP обладает следующими характеристиками, совокупность которых отличает его от наиболее известных программных средств для визуализации: •Повышенный уровень описаний, ориентация на элементы вида ”объект”, ”отношение”, ”свойство”.
•Тесное взаимодействие с онтологией.
•Адаптивность и расширяемость.
Подчеркнем, что описание изображения на естественном языке не влечет автоматически наличие высокого уровня представления. ”Понятность” описания естественный язык обеспечивает, а вот ”высокий уровень” не обязательно. Например, описание изображения на естественном языке в виде множества фраз типа: (5) Точка N125 объекта имеет координаты X = 2543, Y=5439, Z=8799, и синий цвет понятно большинству носителей языка, но оно отнюдь не является высокоуровневым.
Разумеется, это связано с универсальностью естественного языка, допускающего описание изображения на любом уровне сложности. Выбор же блоков, обеспечивающих разумный компромисс между универсальностью и высоким уровнем описания, является весьма нетривиальной задачей. Предлагаемый в языке GRASP подход разбивает эту задачу на две подзадачи, два подуровня, описываемых разными способами [8].
Первый подуровень образует Д-язык, описывающий конструкцию из достаточно крупных объектов, связанных отношением сцепление. Физически это отношение интерпретируется как прочная скрепленность объектов, образующих единое целое. Это отношение имеет более общий характер, чем отношения типа находится справа, находится над и т.д. Действительно, если два сцепленных объекта вращаются как целый объект, то перечисленные выше отношения изменяются во времени, а отношение сцепление сохраняется.
При этом эти крупные объекты рассматриваются как экземпляры классов, обладающие набором различных свойств (не выводящих за пределы, определенные классом). Эти свойства могут задавать размеры объектов, особенности формы, цвет, элементы текстуры и т.д. Специальное свойство - ”точка сцепки” определяет локализацию и особые характеристики (тип, ориентация) отношения ”сцепление”. При формировании этих экземпляров выполняется обращение к П-языку, с указанием имени класса и конкретного набора характеристик.
П-язык образует второй подуровень описания и для каждого класса содержит стандартные выполняемые операторы (например, оператор цикла - for i=…). В результате выполнения операторов формируется конкретный экземпляр объекта визуализации. Базовые элементы нижнего уровня включают цилиндр, дуга и т.д., служащих минимальными блоками для формирования экземпляра класса. Детали и нюансы, связанные с группировкой, категориями и особенностями анимации графического объекта, приводятся в описании П-языка [8].
Наличие этих подъязыков позволяет, с одной стороны, предложить весьма высокий уровень описания, а с другой стороны, обеспечить большое разнообразие изображений. Это разнообразие тем больше, чем удачнее выбраны базовые объекты и чем мощнее комбинаторика значений синтезируемых объектов.
3. Эксперименты
Для экспериментов была выбрана предметная область, содержащая классы объектов, ориентированных на визуализацию. Каждый объект имеет свойства и может находиться в отношении с другими объектами. Объекты и их свойства имеют естественно-языковые описания: арматура, цистерна, адаптер, переходной элемент, число блоков, радиус и т.п. Основным отношением между объектами является сцепление. Каждый объект имеет несколько точек, через которые осуществляется сцепление. К каждой точке может быть подцеплен только один объект. В онтологии классы объектов представлены концептами, допускающими произвольные свойства и отношения, а не только те, которые доступны для визуализации.
Приведенный выше ЕЯ-текст (1) демонстрирует возможности лингвистического транслятора и языка GRASP. ЕЯ-описание, фрагмент предметной онтологии и текст на языке GRASP приведены на рис. 1.
Рис.1. ЕЯ-описание конструкции, фрагмент онтологии и программа на GRASP интеллектуальный интерфейс лингвистический онтологический
Вывод
Одним из перспективных направлений исследований является развитие возможностей дальнейшей интеграции с САПР. Это касается как визуализации конструкций по ЕЯ-описаниям из фрагментов технического задания на конструкцию, так и использование онтологии для поиска аналогичных конструкций.
Список литературы
1. Апресян Ю.Д. и др. Лингвистическое обеспечение системы ЭТАП-2 - М.: Наука, 1988.
2. Coyne Bob and Sproat Richard. Wordseye: an automatic text-to-scene conversion system. In Proceedings of the 28th annual conference on Computer graphics and interactive techniques, pages 487-496. ACM Press, 2001.
3. Ермилов В. В. Вариационное параметрическое геометрическое моделирование в САПР на основе онтологий, Дис. . канд. техн. наук - Н.Новгород, 2007. - 170 с.
4. Goldberg A., Rosin J., Zhu X. Dyer C. Toward Text-to-Picture Synthesis //In NIPS 2009 Mini-Symposia on Assistive Machine Learning for People with Disabilities, 2009.
5. Khakhalin G., Kurbatov S., Naidenova K., Lobzin A. (2012), Integration of the Image and NL-text Analysis/Synthesis Systems. In book: Intelligent Data Analysis for Real-Life Applications: Theory and Practice (Eds. Rafael Magdalena at al.) - USA: IGI Global, pp. 160-185.
6. Курбатов С.С., Литвинович А.В., Лобзин А.П., Хахалин Г.К. Концептуальный синтез графических образов по структурам прикладной онтологии // Тринадцатая национальная конференция по искусственному интеллекту с международным участием (КИИ-2012), Т. 2.. - Белгород: БГТУ, 2012. - С. 120-127.
7. Li Haojie, Tang Jinhui, Li Guangda, Chua Tat-Seng. (2008), Word2Image: Towards Visual Interpreting of Words. School of Computing, National University of Singapore // MM’08.
8. Литвинович А.В. Язык описания графических объектов GRASP // Нейрокомпьютеры: разработка, применение, № 10, 2012, С. 26-30.
9. Литвинцева Л.В., Поспелов Д.А. Визуализация пространственных сцен по текстовым описаниям для интеллектуальных систем, Известия АН СССР, Техническая кибернетика, 1991, N5.
10. Mihalcea Rada, Chee Wee Leong. Toward communicating simple sentences using pictorial representations, Springer Science Business Media B.V. 2009.
11. Rouhizadeh Masoud, Sproat Richard, Coyne Bob. Collecting Spatial Information for Locations in a Text-to-Scene Conversion System, Department of Computer Science, Columbia University, 2012.
12. Svensson Hans, Akerberg Ola. Development and Integration of Linguistic Components for an Automatic Text-to-Scene Conversion System, Department of Computer Science Lund Institute of Technology, Sweden, 2002.
13. Ustalov D. A text-to-picture system for russian language, VI Russian Summer School in Information Retrieval, Proceedings of the Sixth Russian Young Scientists Conference in Information Retrieval / B. Sokolov, P. Braslavski (Eds.), Yaroslavl, 2012, pp. 35-44.
14. Yamada Atsushi et al. Reconstructing Spatial Image from Natural Language Texts // Proc. OF COLING-92, NANTES, AUG. 23-28, Kyoto University, Japan, 1992, pp. 1279-1283.
15. Zhu X., Goldberg A., Eldawy M., Dyer C. A text-to-picture synthesis system for augmenting communication // Proceedings of The National Conference of the Artificial Intelligence, 2007. Vol.22, pp. 1590-1595.
Размещено на .ru
Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность своей работы