Инструментальные средства для автоматизированного формирования баз знаний - Статья

бесплатно 0
4.5 140
Экспериментальные результаты подхода, ориентированного в основном на фундаментальные аспекты проблемы обработки естественного языка. Автоматизация процесса формирования баз знаний путем сканирования соответствующих текстов на естественном языке.


Аннотация к работе
Подход предполагает автоматизацию процесса формирования и сопровождения баз знаний по произвольным предметным областям путем сканирования соответствующих текстов на естественном языке. В настоящее время акцент в автоматической обработке естественного языка (ЕЯ) переместился от задач машинного перевода и систем общения с ЭВМ (в частности ЕЯ-интерфейсов к базам данных) к задачам структуризации больших объемов текстовой информации. Одна из основных целей анализа такой информации - высокорелевантный поиск в сети Интернет и представление неструктурированной текстовой информации из сети Интернет в структурированном виде, позволяющем осуществить последующую обработку (в частности оперативный анализ - OLAP и интеллектуальный анализ - Data Mining) для систем принятия решений. Из года в год подчеркивается актуальность проблемы анализа больших объемов текстовой информации из глобальной сети в связи с постоянным ростом объемов информации не только в Интернет, но и в масштабе отдельных организаций. При впечатляющем обилии систем для анализа больших объемов текстовой информации проблема семантической структуризации выявила ряд трудностей, которые пока далеки от удовлетворительного решения, в частности: - использование единого информационного пространства взаимосвязанных фактов или гипотез вне зависимости от типа содержимого источников информации;Механизмы автоматического формирования базы знаний могут резко снизить трудоемкость, как создания базы, так и ее сопровождения. Концепция априорной базы с понятиями очень высокого уровня может послужить целям разработки соответствующих стандартов представления знаний. 1 приведена общая схема обработки текстов больших объемов для систем принятия решений и намечено место развиваемого подхода в рамках этой схемы. На рисунке подчеркнутым курсивом отмечены фрагменты, где использование результатов подхода представляется перспективным. Если достаточно таблиц или семантической сети, то ЛПР получает аналитическую информацию с помощью интерфейса к базе знаний или стандартного интерфейса к СУБД.

Введение
естественный язык сканирование текст

В данной статье описываются экспериментальные результаты подхода, ориентированного в основном на фундаментальные аспекты проблемы обработки естественного языка. Отмечаются прикладные аспекты современных исследований данной проблемы и позиционирование развиваемого подхода в контексте этих исследований. Подход предполагает автоматизацию процесса формирования и сопровождения баз знаний по произвольным предметным областям путем сканирования соответствующих текстов на естественном языке.

В настоящее время акцент в автоматической обработке естественного языка (ЕЯ) переместился от задач машинного перевода и систем общения с ЭВМ (в частности ЕЯ-интерфейсов к базам данных) к задачам структуризации больших объемов текстовой информации. Одна из основных целей анализа такой информации - высокорелевантный поиск в сети Интернет и представление неструктурированной текстовой информации из сети Интернет в структурированном виде, позволяющем осуществить последующую обработку (в частности оперативный анализ - OLAP и интеллектуальный анализ - Data Mining) для систем принятия решений.

Экспресс-анализ данной проблемы приведен в [1], где кратко охарактеризованы некоторые из наиболее продвинутых разработок в данном направлении: Fact Extractor, CONEXT, Excalibur [2,3]. Из года в год подчеркивается актуальность проблемы анализа больших объемов текстовой информации из глобальной сети в связи с постоянным ростом объемов информации не только в Интернет, но и в масштабе отдельных организаций. Аналитические отделы как в государственных учреждениях (например, ФАПСИ), так и в крупных коммерческих структурах ежедневно получают десятки мегабайт текстовой информации (например, из СМИ). По этой информации достаточно оперативно (обычно также ежедневно) аналитики представляют руководству обобщенные сводки, в концентрированном виде отображающие суть текстов.

Автоматизация анализа позволяет существенно облегчить задачу аналитика и такие системы были разработаны и используются по настоящее время, но их качество уже не удовлетворяет пользователей по мере роста объемов текстов. Кроме того, c появлением систем извлечения знаний (Data Mining) аналитика интересуют автоматически выявляемые скрытые закономерности в данных. Однако системы Data Mining работают со структурированной информацией (в базах данных, точнее в хранилищах данных - Data Warehouse). Поэтому помимо получения оперативных сводок по массивам текстов, результат автоматического анализа целесообразно представить в структурированном виде и далее использовать средства извлечения знаний. OLAP-технология (оперативный анализ данных) также работает лишь со структурированной информацией и, следовательно, результаты анализа больших объемов текстовой информации целесообразно использовать и для нее.

В обзоре [1] отмечено, что результаты анализа полученной структурированной семантически значимой информации помогают решению общих задач в сферах политики и экономики, а именно в политике: общие тенденции развития политической ситуации; выявление реальных намерений политиков; выявление специфики потенциально-опасных ситуаций. в экономике: конкурентный анализ; информационная разведка; управление репутацией; изучение отраслевого рынка; оперативный мониторинг; выявление критических новостей.

При впечатляющем обилии систем для анализа больших объемов текстовой информации проблема семантической структуризации выявила ряд трудностей, которые пока далеки от удовлетворительного решения, в частности: - использование единого информационного пространства взаимосвязанных фактов или гипотез вне зависимости от типа содержимого источников информации;

- связь фактов или гипотез с релевантными источниками информации, то есть аргументированность фактов и гипотез;

- применение исторически-пространственной информационной модели баз данных фактов и гипотез;

- преобразования различных форм представления знаний;

- понятийный разрыв между результатами работы систем типа Knowledge Discovery и Data Mining и входом систем поддержки принятия решений;

- возможность тиражирования онтологий.

На уровне коммерческих приложений разрабатываются инструментальные программные средства для преодоления указанных трудностей. Особый интерес представляет язык OWL (Ontology Web Language), разработанный с целью описания и представления объектов в Семантической Сети на более высоком уровне, чем средства XML и RDF. В обзоре [1] отмечено, что OWL включает ряд интересных особенностей (логический вывод, развитые средства работы с онтологиями, в частности с их версиями; поддержку теоретико-множественных операций; организацию иерархий, как классов, так и свойств), однако вопрос о преодолении в реализациях языка недостатков, присущих внутренним механизмам логического программирования, остается открытым.

Развиваемый подход ориентирован на частичное преодоление вышеперечисленных трудностей с акцентом на фундаментальную проработку вопросов автоматического формирования и сопровождения баз знаний. Подход предполагает «раскрутку» базы знаний с помощью разработки некоторого фундаментального концептуального ядра и сервисов, позволяющих путем сканирования произвольных ЕЯ-текстов строить предположения о взаимосвязи ЕЯ-объектов и структур ядра, а также искать для них подтверждения (опровержения). Стиль такой раскрутки намечен в работах [4,5].

Ядро должно включать априорную базу знаний с понятиями и отношениями высокого уровня (время, пространство, материальный объект, абстрактный объект и т.п.). Дополнительно априорная база включает базисные знания о естественном языке (в основном, на уровне морфологии).

В качестве корпусов текстов первоначально были взяты ЕЯ-описания объектов реляционной СУБД в предметной области «Розничная торговля» (РТ), далее корпус был существенно расширен текстами из Большой Советской Энциклопедии (БСЭ). Выбор БСЭ мотивировался следующим: - энциклопедия обеспечивает разнообразие и полноту знаний (разумеется, с учетом ограничений объема, хронологии и политической ангажированности);

- энциклопедический текст обладает естественной структурированностью (входы и статьи).

ЕЯ-описания из РТ были относительно специализированы, они включали описания товаров (с развитой иерархией), наименования торговых предприятий и поставщиков, описания бизнес-процессов и т.д. Априорная база знаний для данной области включала абстрактные объекты, ориентированные на реляционную СУБД: , , , , и т.п.

На первом этапе были разработаны механизм и эвристики, позволяющие автоматически выдвигать предположения о морфологических и синтаксических характеристиках словоформ из области РТ. Далее для этих предположений путем сканирования разнообразных ЕЯ-текстов отыскивались контексты, увеличивающие (или уменьшающие) правдоподобие предположений.

Далее была разработана логика анализа схемы и содержимого СУБД, позволяющая выдвигать предположения, как о связях объектов реляционной базы, так и о ЕЯ-описаниях этих объектов.

На втором этапе были разработаны механизм и эвристики для автоматического выдвижения предположений о иерархии понятий в БСЭ и разработаны структуры для представления ряда высокоуровневых объектов априорной базы знаний. Общая логика построения такой иерархии предполагает выделение понятия (именной группы), описывающей вход в статью и поиск этого понятия как нового входа. В случае удачи процесс поиска повторяется до тех пор, пока либо не удается найти вход, либо вход уже использовался ранее.

Эксперимент

В рамках подхода был разработан комплекс программных средств (КПС), в экспериментальном варианте реализующих вышеописанную логику и обеспечивающих исследователю удобную для экспериментов среду. КПС позволяет в автоматизированном режиме строить предположения о морфологических, синтаксических и примитивных семантических характеристиках незнакомых слов, исходя из контекста и соответствующих эвристик. КПС объясняет исследователю свои предположения, предъявляя контексты и использованные эвристики. Типичный пример эвристики для выдвижения предположения, что некоторая словоформа является существительным: ЕСЛИ два слова стоят рядом И первое слово - прилагательное И слова согласуются в роде, числе и падеже, ТО можно предположить, что второе слово - существительное. Более детально вопросы формирования такого рода предположений и их верификации приведены в [7].

Первоначально автоматическое получение свойств естественно-языковых (ЕЯ) объектов было ориентировано на построение ЕЯ-интерфейса к реляционным базам данных [4]. При этом семантика задавалась в основном элементами реляционной СУБД (таблицы, атрибуты, первичные ключи и т.д.) и контрукциями языка SQL. Постулировалось, что ЕЯ-описание имеет смысл, если оно может быть формализовано в виде корректного SQL-текста. Инструментальные программные средства использовали схему реляционной СУБД и ее содержимое как исходные данные для автоматизированного формирования ЕЯ-интерфейса. Иерархические отношения при этом определялись иерархиями сущностей, задаваемых объектами СУБД.

В дальнейшем подход в качестве основного корпуса текстов, на которых проводились эксперименты, были выбраны статьи Большой Советской Энциклопедии (БСЭ). Статьи БСЭ рассматривались как эталонный источник знаний (неявных для КПС). Суть работы КПС - сделать эти знания явными, не дублируя их в базе знаний, а создавая компактную концептуальную надстройку. В процессе экспериментов среди всех словоформ БСЭ были автоматически выявлены предполагаемые существительные и прилагательные. На основе этих предположений выполнялось выявление именных групп, описывающих вход в статьи БСЭ. Далее формировались предположения об элементах иерархии статей в соответствии с общей логикой, намеченной в разделе 2.

Автоматически выявленные понятия на высшем уровне иерархии предполагается связать с понятиями априорных знаний обычным редактированием. Эксперимент показал интересные (с учетом морфологических ошибок КПС и трудностями текстов реальной сложности) результаты при автоматическом построении иерархии, выявленные ошибки позволили существенно уточнить и дополнить используемые эвристики.

Развиваемый подход использует комбинированную схему представления знаний: семантическую сеть и реляционную СУБД (Progress 9). Эксперименты позволили выявить не только преимущества, но и ряд слабых звеньев используемого представления (в основном, технического, а не идейного характера). В силу этого основные усилия в настоящее время направлены как на усовершенствование программных компонент, так и на дальнейшую углубленную проработку фундаментальных вопросов представления знаний (в частности, онтологий). Направление такой проработки намечено в [7].

Вывод
Описанные результаты носят экспериментальный характер, однако они могут быть полезны не только для выбора направления дальнейших НИР и ОКР, но и для прикладных разработок. Механизмы автоматического формирования базы знаний могут резко снизить трудоемкость, как создания базы, так и ее сопровождения. Концепция априорной базы с понятиями очень высокого уровня может послужить целям разработки соответствующих стандартов представления знаний. На рис. 1 приведена общая схема обработки текстов больших объемов для систем принятия решений и намечено место развиваемого подхода в рамках этой схемы. На рисунке подчеркнутым курсивом отмечены фрагменты, где использование результатов подхода представляется перспективным. Глобальная сеть как источник информации объединяет данные, доступные по Интернет, данные СМИ, корпоративные данные и т.п.

Системы, формирующие структурные данные из текстов глобальной сети (например, CONEXT, FACTEXTRACTOR, Uima), условно названы “структуризатором”. В процессе обработки структуризатор существенно использует базу знаний. Структуризаторы могут формировать результаты как в виде таблиц реляционной базы, так в виде семантической сети. Если достаточно таблиц или семантической сети, то ЛПР получает аналитическую информацию с помощью интерфейса к базе знаний или стандартного интерфейса к СУБД. Если требуется более глубокий анализ, то из семантической сети информация также отображается в таблицы базы данных (например, в системе UIMA это выполняется с помощью сервисов SUKI[1]). Далее из структурированных в таблицах данных извлекается аналитическая информация (технологии Data Mining и OLAP), поступающая для ЛПР.

Возможное использование результатов подхода отражено на схеме фрагментами “Инструментальные средства для автоматизированного построения и сопровождения базы знаний” и “Естественно-языковый интерфейс”. Первый фрагмент ориентирован на формирование онтологий, обладающих как концептами максимально высокого уровня, программно поддержанных соответствующей аксиоматикой, так и механизмами автоматического пополнения иерархии концептов путем сканирования произвольных ЕЯ-текстов. Второй фрагмент ориентирован на доступ к структурированной на предшествующем этапе информации, представленной либо в реляционной СУБД, либо в некоторой семантической сети.

Рис. 1. Общая схема обработки больших объемов текстовой информации для ЛПР

Список литературы
1. Курбатов С.С., html-страница - http://eia-dostup.ru/exp_anal.htm.

2. А.В.Нечипоренко, А.О. Русин Система автоматизированного извлечения знаний из текстов на естественном языке. Международная конференция «Информационные системы и технологии», Новосибирск, Россия, 3. Чибисов А. Поисковые возможности Excalibur RETRIEVALWARE// Открытые системы. - 1996. - №5.

4. Курбатов С.С., Автоматический анализ схемы и данных реляционных баз// Новости искусственного интеллекта. - 2004. - № 1. - С.77-81.

5. Курбатов С.С., Априорная модель данных в реляционных базах// Новости искусственного интеллекта. - 2004. - № 1. - С.77-81.

6. Гринева М., Гринев М., Лизоркин Д. Анализ текстовых документов для извлечения тематически сгруппированных ключевых терминов// Труды Института системного программирования РАН.

7. Курбатов С.С., html-страница - http://eia-dostup.ru/ head_doc_01.htm.

Размещено на .ru
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?