Сравнительный анализ организации систем синтаксических парсеров - Статья

бесплатно 0
4.5 121
Суть автоматического анализа естественно-языковых текстов. Изучение организации систем, принимавших участие в состязании синтаксических парсеров. Решение проблемы избыточности словаря в программе LinkParser. Особенность разбиения предложения на сегменты.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
Сравнительный анализ организации систем синтаксических парсеровАвтоматический анализ естественно-языковых текстов является востребованной технологией, которая находит применение в текстовых процессорах (например: Microsoft Word, OPENOFFICE.org Writer) и поисковых системах, системах реферирования, системах классификации и кластеризации текстов [1] и, наконец, в системах поиска дубликатов в текстах. Другими словами, качество синтаксического парсера определяет во многих случаях качество решения задачи, стоящей перед системой анализа текста. ABBYY Syntactic and Semantic Parser [3] при анализе текста использует словарь синтаксических парадигм слов, задающий правила употребления лексемы в зависимости от ее класса, а также - дерево универсальных семантических значений и отношений между ними. Судя по описанию, изложенному в [3], система основана на лексическом подходе, который использует грамматику управляемых вершинами фразовых категорий - Head-driven Phrase Structure Grammar (HPSG). Приведенный базовый компонент грамматических правил обладает тремя недостатками: (а) жесткий линейный порядок составляющих в правой части правила, что не позволяет использовать такого рода правила в языках с относительно свободным порядком синтаксических составляющих, каким является русский (то же относится и к структурным свойствам лексикона HPSG, где строго определен порядок следования комплементов лексемы, так [COMPS ] означает, что в линейной цепочке предложения именная группа, управляемая данной лексемой, должна стоять перед предложной);Создана система семантико-синтаксического анализа предложений русского и английского языка, которая позволяет выделить предикатные структуры предложений текста и построить деревья синтаксического подчинения предложений. На всех этапах работы системы используется многоуровневое представление текста (слова, словосочетания, предложения), допускающее несколько интерпретаций элементов текста, каждое из которых сохраняется. На шаге 3 «Бессловарный морфологический анализ, результаты которого фильтруются с помощью словарей начальных форм», интерпретациями слова считаются только те результаты бессловарного морфологического анализа, которые принадлежат хотя бы одному словарю начальных форм. Метод декларативного морфологического анализа слов состоит в явном задании парадигмы слова как набора словоформ, каждая из которых представлена написанием и морфологической информацией. Значение определенной грамматической категории для слова по его морфологической информации находятся с помощью масок категорий (см. табл.В результате проведенных исследований была разработана система синтаксического анализа, в которой реализованы методы автоматической обработки текста на русском и английском языках, позволяющие проводить его морфологический и семантико-синтаксический анализ. Предложено использовать многоуровневое представление текста, которое, с одной стороны, сохраняет все данные, полученные на более ранних этапах обработки, а с другой - позволяет получить представление о минимальных структурных элементах текста: лексических (слова) и нелексических (сокращения, аббревиатуры, адреса, даты и т.п.) единицах текста. Кроме того, оно дает возможность изменить интерпретацию отдельных структурных элементов текста или их перечень, если такая необходимость возникнет на более поздних этапах обработки текста (синтаксический, семантический, прагматический), что сделает лингвистический процессор более гибким и надежным. Введенные понятия структурных единиц предложения как обобщенный базовый элемент и сегмент, разработанные структуры данных для их описания, а также процедура выделения в отдельные сегменты последовательностей слов фрагмента предложения позволяют: - эффективно выделять атрибутивные связи в словосочетаниях, включая проблемный случай нахождения связи в группах вида «прилагательное прилагательное существительное», упомянутый в работе [5]; Использование минимальных структурных схем предложения позволяет избежать вопросов с главными членами предложения, в которых предикат выражен не формой глагола, а для русского языка - учитывать связку типа есть, кроме того, не допускать ошибок при обработке идиоматических конструкций «малого синтаксиса».

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?

Что-то пошло не так...
Похоже, вы используете блокировщик рекламы.