Экспериментальные результаты подхода, ориентированного в основном на фундаментальные аспекты проблемы обработки естественного языка. Автоматизация процесса формирования баз знаний путем сканирования соответствующих текстов на естественном языке.
Аннотация к работе
Подход предполагает автоматизацию процесса формирования и сопровождения баз знаний по произвольным предметным областям путем сканирования соответствующих текстов на естественном языке. В настоящее время акцент в автоматической обработке естественного языка (ЕЯ) переместился от задач машинного перевода и систем общения с ЭВМ (в частности ЕЯ-интерфейсов к базам данных) к задачам структуризации больших объемов текстовой информации. Одна из основных целей анализа такой информации - высокорелевантный поиск в сети Интернет и представление неструктурированной текстовой информации из сети Интернет в структурированном виде, позволяющем осуществить последующую обработку (в частности оперативный анализ - OLAP и интеллектуальный анализ - Data Mining) для систем принятия решений. Из года в год подчеркивается актуальность проблемы анализа больших объемов текстовой информации из глобальной сети в связи с постоянным ростом объемов информации не только в Интернет, но и в масштабе отдельных организаций. При впечатляющем обилии систем для анализа больших объемов текстовой информации проблема семантической структуризации выявила ряд трудностей, которые пока далеки от удовлетворительного решения, в частности: - использование единого информационного пространства взаимосвязанных фактов или гипотез вне зависимости от типа содержимого источников информации;Механизмы автоматического формирования базы знаний могут резко снизить трудоемкость, как создания базы, так и ее сопровождения. Концепция априорной базы с понятиями очень высокого уровня может послужить целям разработки соответствующих стандартов представления знаний. 1 приведена общая схема обработки текстов больших объемов для систем принятия решений и намечено место развиваемого подхода в рамках этой схемы. На рисунке подчеркнутым курсивом отмечены фрагменты, где использование результатов подхода представляется перспективным. Если достаточно таблиц или семантической сети, то ЛПР получает аналитическую информацию с помощью интерфейса к базе знаний или стандартного интерфейса к СУБД.
Введение
естественный язык сканирование текст
В данной статье описываются экспериментальные результаты подхода, ориентированного в основном на фундаментальные аспекты проблемы обработки естественного языка. Отмечаются прикладные аспекты современных исследований данной проблемы и позиционирование развиваемого подхода в контексте этих исследований. Подход предполагает автоматизацию процесса формирования и сопровождения баз знаний по произвольным предметным областям путем сканирования соответствующих текстов на естественном языке.
В настоящее время акцент в автоматической обработке естественного языка (ЕЯ) переместился от задач машинного перевода и систем общения с ЭВМ (в частности ЕЯ-интерфейсов к базам данных) к задачам структуризации больших объемов текстовой информации. Одна из основных целей анализа такой информации - высокорелевантный поиск в сети Интернет и представление неструктурированной текстовой информации из сети Интернет в структурированном виде, позволяющем осуществить последующую обработку (в частности оперативный анализ - OLAP и интеллектуальный анализ - Data Mining) для систем принятия решений.
Экспресс-анализ данной проблемы приведен в [1], где кратко охарактеризованы некоторые из наиболее продвинутых разработок в данном направлении: Fact Extractor, CONEXT, Excalibur [2,3]. Из года в год подчеркивается актуальность проблемы анализа больших объемов текстовой информации из глобальной сети в связи с постоянным ростом объемов информации не только в Интернет, но и в масштабе отдельных организаций. Аналитические отделы как в государственных учреждениях (например, ФАПСИ), так и в крупных коммерческих структурах ежедневно получают десятки мегабайт текстовой информации (например, из СМИ). По этой информации достаточно оперативно (обычно также ежедневно) аналитики представляют руководству обобщенные сводки, в концентрированном виде отображающие суть текстов.
Автоматизация анализа позволяет существенно облегчить задачу аналитика и такие системы были разработаны и используются по настоящее время, но их качество уже не удовлетворяет пользователей по мере роста объемов текстов. Кроме того, c появлением систем извлечения знаний (Data Mining) аналитика интересуют автоматически выявляемые скрытые закономерности в данных. Однако системы Data Mining работают со структурированной информацией (в базах данных, точнее в хранилищах данных - Data Warehouse). Поэтому помимо получения оперативных сводок по массивам текстов, результат автоматического анализа целесообразно представить в структурированном виде и далее использовать средства извлечения знаний. OLAP-технология (оперативный анализ данных) также работает лишь со структурированной информацией и, следовательно, результаты анализа больших объемов текстовой информации целесообразно использовать и для нее.
В обзоре [1] отмечено, что результаты анализа полученной структурированной семантически значимой информации помогают решению общих задач в сферах политики и экономики, а именно в политике: общие тенденции развития политической ситуации; выявление реальных намерений политиков; выявление специфики потенциально-опасных ситуаций. в экономике: конкурентный анализ; информационная разведка; управление репутацией; изучение отраслевого рынка; оперативный мониторинг; выявление критических новостей.
При впечатляющем обилии систем для анализа больших объемов текстовой информации проблема семантической структуризации выявила ряд трудностей, которые пока далеки от удовлетворительного решения, в частности: - использование единого информационного пространства взаимосвязанных фактов или гипотез вне зависимости от типа содержимого источников информации;
- связь фактов или гипотез с релевантными источниками информации, то есть аргументированность фактов и гипотез;
- применение исторически-пространственной информационной модели баз данных фактов и гипотез;
- преобразования различных форм представления знаний;
- понятийный разрыв между результатами работы систем типа Knowledge Discovery и Data Mining и входом систем поддержки принятия решений;
- возможность тиражирования онтологий.
На уровне коммерческих приложений разрабатываются инструментальные программные средства для преодоления указанных трудностей. Особый интерес представляет язык OWL (Ontology Web Language), разработанный с целью описания и представления объектов в Семантической Сети на более высоком уровне, чем средства XML и RDF. В обзоре [1] отмечено, что OWL включает ряд интересных особенностей (логический вывод, развитые средства работы с онтологиями, в частности с их версиями; поддержку теоретико-множественных операций; организацию иерархий, как классов, так и свойств), однако вопрос о преодолении в реализациях языка недостатков, присущих внутренним механизмам логического программирования, остается открытым.
Развиваемый подход ориентирован на частичное преодоление вышеперечисленных трудностей с акцентом на фундаментальную проработку вопросов автоматического формирования и сопровождения баз знаний. Подход предполагает «раскрутку» базы знаний с помощью разработки некоторого фундаментального концептуального ядра и сервисов, позволяющих путем сканирования произвольных ЕЯ-текстов строить предположения о взаимосвязи ЕЯ-объектов и структур ядра, а также искать для них подтверждения (опровержения). Стиль такой раскрутки намечен в работах [4,5].
Ядро должно включать априорную базу знаний с понятиями и отношениями высокого уровня (время, пространство, материальный объект, абстрактный объект и т.п.). Дополнительно априорная база включает базисные знания о естественном языке (в основном, на уровне морфологии).
В качестве корпусов текстов первоначально были взяты ЕЯ-описания объектов реляционной СУБД в предметной области «Розничная торговля» (РТ), далее корпус был существенно расширен текстами из Большой Советской Энциклопедии (БСЭ). Выбор БСЭ мотивировался следующим: - энциклопедия обеспечивает разнообразие и полноту знаний (разумеется, с учетом ограничений объема, хронологии и политической ангажированности);
- энциклопедический текст обладает естественной структурированностью (входы и статьи).
ЕЯ-описания из РТ были относительно специализированы, они включали описания товаров (с развитой иерархией), наименования торговых предприятий и поставщиков, описания бизнес-процессов и т.д. Априорная база знаний для данной области включала абстрактные объекты, ориентированные на реляционную СУБД: , , , , и т.п.
На первом этапе были разработаны механизм и эвристики, позволяющие автоматически выдвигать предположения о морфологических и синтаксических характеристиках словоформ из области РТ. Далее для этих предположений путем сканирования разнообразных ЕЯ-текстов отыскивались контексты, увеличивающие (или уменьшающие) правдоподобие предположений.
Далее была разработана логика анализа схемы и содержимого СУБД, позволяющая выдвигать предположения, как о связях объектов реляционной базы, так и о ЕЯ-описаниях этих объектов.
На втором этапе были разработаны механизм и эвристики для автоматического выдвижения предположений о иерархии понятий в БСЭ и разработаны структуры для представления ряда высокоуровневых объектов априорной базы знаний. Общая логика построения такой иерархии предполагает выделение понятия (именной группы), описывающей вход в статью и поиск этого понятия как нового входа. В случае удачи процесс поиска повторяется до тех пор, пока либо не удается найти вход, либо вход уже использовался ранее.
Эксперимент
В рамках подхода был разработан комплекс программных средств (КПС), в экспериментальном варианте реализующих вышеописанную логику и обеспечивающих исследователю удобную для экспериментов среду. КПС позволяет в автоматизированном режиме строить предположения о морфологических, синтаксических и примитивных семантических характеристиках незнакомых слов, исходя из контекста и соответствующих эвристик. КПС объясняет исследователю свои предположения, предъявляя контексты и использованные эвристики. Типичный пример эвристики для выдвижения предположения, что некоторая словоформа является существительным: ЕСЛИ два слова стоят рядом И первое слово - прилагательное И слова согласуются в роде, числе и падеже, ТО можно предположить, что второе слово - существительное. Более детально вопросы формирования такого рода предположений и их верификации приведены в [7].
Первоначально автоматическое получение свойств естественно-языковых (ЕЯ) объектов было ориентировано на построение ЕЯ-интерфейса к реляционным базам данных [4]. При этом семантика задавалась в основном элементами реляционной СУБД (таблицы, атрибуты, первичные ключи и т.д.) и контрукциями языка SQL. Постулировалось, что ЕЯ-описание имеет смысл, если оно может быть формализовано в виде корректного SQL-текста. Инструментальные программные средства использовали схему реляционной СУБД и ее содержимое как исходные данные для автоматизированного формирования ЕЯ-интерфейса. Иерархические отношения при этом определялись иерархиями сущностей, задаваемых объектами СУБД.
В дальнейшем подход в качестве основного корпуса текстов, на которых проводились эксперименты, были выбраны статьи Большой Советской Энциклопедии (БСЭ). Статьи БСЭ рассматривались как эталонный источник знаний (неявных для КПС). Суть работы КПС - сделать эти знания явными, не дублируя их в базе знаний, а создавая компактную концептуальную надстройку. В процессе экспериментов среди всех словоформ БСЭ были автоматически выявлены предполагаемые существительные и прилагательные. На основе этих предположений выполнялось выявление именных групп, описывающих вход в статьи БСЭ. Далее формировались предположения об элементах иерархии статей в соответствии с общей логикой, намеченной в разделе 2.
Автоматически выявленные понятия на высшем уровне иерархии предполагается связать с понятиями априорных знаний обычным редактированием. Эксперимент показал интересные (с учетом морфологических ошибок КПС и трудностями текстов реальной сложности) результаты при автоматическом построении иерархии, выявленные ошибки позволили существенно уточнить и дополнить используемые эвристики.
Развиваемый подход использует комбинированную схему представления знаний: семантическую сеть и реляционную СУБД (Progress 9). Эксперименты позволили выявить не только преимущества, но и ряд слабых звеньев используемого представления (в основном, технического, а не идейного характера). В силу этого основные усилия в настоящее время направлены как на усовершенствование программных компонент, так и на дальнейшую углубленную проработку фундаментальных вопросов представления знаний (в частности, онтологий). Направление такой проработки намечено в [7].
Вывод
Описанные результаты носят экспериментальный характер, однако они могут быть полезны не только для выбора направления дальнейших НИР и ОКР, но и для прикладных разработок. Механизмы автоматического формирования базы знаний могут резко снизить трудоемкость, как создания базы, так и ее сопровождения. Концепция априорной базы с понятиями очень высокого уровня может послужить целям разработки соответствующих стандартов представления знаний. На рис. 1 приведена общая схема обработки текстов больших объемов для систем принятия решений и намечено место развиваемого подхода в рамках этой схемы. На рисунке подчеркнутым курсивом отмечены фрагменты, где использование результатов подхода представляется перспективным. Глобальная сеть как источник информации объединяет данные, доступные по Интернет, данные СМИ, корпоративные данные и т.п.
Системы, формирующие структурные данные из текстов глобальной сети (например, CONEXT, FACTEXTRACTOR, Uima), условно названы “структуризатором”. В процессе обработки структуризатор существенно использует базу знаний. Структуризаторы могут формировать результаты как в виде таблиц реляционной базы, так в виде семантической сети. Если достаточно таблиц или семантической сети, то ЛПР получает аналитическую информацию с помощью интерфейса к базе знаний или стандартного интерфейса к СУБД. Если требуется более глубокий анализ, то из семантической сети информация также отображается в таблицы базы данных (например, в системе UIMA это выполняется с помощью сервисов SUKI[1]). Далее из структурированных в таблицах данных извлекается аналитическая информация (технологии Data Mining и OLAP), поступающая для ЛПР.
Возможное использование результатов подхода отражено на схеме фрагментами “Инструментальные средства для автоматизированного построения и сопровождения базы знаний” и “Естественно-языковый интерфейс”. Первый фрагмент ориентирован на формирование онтологий, обладающих как концептами максимально высокого уровня, программно поддержанных соответствующей аксиоматикой, так и механизмами автоматического пополнения иерархии концептов путем сканирования произвольных ЕЯ-текстов. Второй фрагмент ориентирован на доступ к структурированной на предшествующем этапе информации, представленной либо в реляционной СУБД, либо в некоторой семантической сети.
Рис. 1. Общая схема обработки больших объемов текстовой информации для ЛПР
2. А.В.Нечипоренко, А.О. Русин Система автоматизированного извлечения знаний из текстов на естественном языке. Международная конференция «Информационные системы и технологии», Новосибирск, Россия, 3. Чибисов А. Поисковые возможности Excalibur RETRIEVALWARE// Открытые системы. - 1996. - №5.
4. Курбатов С.С., Автоматический анализ схемы и данных реляционных баз// Новости искусственного интеллекта. - 2004. - № 1. - С.77-81.
5. Курбатов С.С., Априорная модель данных в реляционных базах// Новости искусственного интеллекта. - 2004. - № 1. - С.77-81.
6. Гринева М., Гринев М., Лизоркин Д. Анализ текстовых документов для извлечения тематически сгруппированных ключевых терминов// Труды Института системного программирования РАН.