Программная обработка текстов на естественном языке - Дипломная работа

бесплатно 0
4.5 97
Функциональные возможности, преимущества и недостатки существующих лингвистических процессоров. Проектирование интерфейса взаимодействия облачного хранилища с лингвистическим процессором и компонентов доступа к сервисам. Программный продукт IKVM.NET.


Аннотация к работе
Впервые вопрос машинной обработки естественного языка возник в 1960-70гг. [1], и с тех пор такие задачи не потеряли своей актуальности. Напротив, программная обработка естественного языка постоянно развивается, что помогает решать огромное количество актуальных задач анализа текста, таких как извлечение информации, информационный поиск, анализ высказываний, анализ тональности и пр. Несмотря на это, существует большое количество систем программной обработки естественного языка - лингвистических процессоров. Задача такого процессора заключается в преобразовании текста на естественном языке в некий набор семантических структур.Лингвистический процессор выполняет роль посредника между пользователем и базой данных и преобразовывает естественный текст в набор семантических структур, которые используются в качестве исходных данных для поисковых механизмов. В данной работе для анализа и сравнения было выбрано 4 процессора: проект АОТ - автоматическая обработка текста, набор инструментов WORDSMITH Tools, лингвистический процессор GATE и инструментарий ANTCONC. Для сравнения вышеуказанных систем были выделены определенные критерии. На основе проведенного анализа необходимо будет выбрать один из процессоров, а затем создать компоненты прикладного уровня для доступа к сервисам данного программного продукта. Для этого была создана таблица условий (см. таблицу 1.1), которым должен отвечать необходимый нам для дальнейшей работы лингвистический процессор.Отечественный проект АОТ (Автоматическая Обработка Текста) был разработан под руководством Алексея Сокирко. Группа разработки, в основном, нацелена на машинную обработку русского языка, однако они предлагают комплекс программ, который включает в себя морфологические словари для русского, немецкого и английского языков, синтаксические словари, систему лингвистического поиска [6] и пр.Программный пакет был разработан британским лингвистом Майком Скоттом в университете Ливерпуля, версия 1.0 была выпущена в 1996 году. Модуль «Concord» используется для создания конкордансов, то есть списка всех употреблений заданного языкового выражения (например, слова) в контексте. Модуль «WORDLIST» содержит список всех слов или словоформ, включенных в выбранный корпус, а также статистические данные отличия от корпуса текстов.GATE - General Architecture for Text Engineering - система обработки естественного языка с открытым исходным кодом, использующая наборы компонентов на языке Java. Система решает такие задачи, как извлечение информации, ручная и автоматическая семантическая аннотация, анализ кореферентности, работа с онтологиями, машинное обучение, анализ потока сообщений в блогах [5]. GATE поддерживает большое количество форматов текстов: Plain Text, Email, PDF, форматы Microsoft Office и т.д., а также имеет свое хранилище данных, необходимое для хранения документов, корпусов текстов и дальнейшего их использования. GATE упоминается в огромном количестве публикаций, статей, книг и журналов, например, в работе Грэхема Уилкока «Лингвистическая аннотация и анализ текста» [11], выпущенной в 2009г. Семейство GATE состоит из следующих продуктов: · IDE GATE Developer - интегрированная среда разработки для компонентов языковой обработки, поставляется совместно с широко используемой системой «Information Extraction» и комплексным набором других плагинов.«Concordance Tool», отображает результаты в формате «ключевое слово в контексте». «Concordance Plot Tool», отображает результаты в формате «штрих-код», то есть выделяет позиции результатов поиска в первоначальном тексте. «File View Tool», позволяет более подробно исследовать результаты, полученные при помощи других инструментов. Однако, данный инструмент также сканирует весь корпус для кластеров различной длины, что позволяет найти общие выражения в корпусе.Как было сказано в начале главы, мы выделили 7 характеристик для сравнения программных продуктов АОТ, WORDSMITH Tools, GATE и ANTCONC. В ходе анализа процессоров было установлено, что всем необходимым для данной работы условиям удовлетворяет только лингвистический процессор GATE. GATE поддерживает большое количество форматов входных документов, а также помогает решать множество задач, помимо требуемой семантической аннотации. Архитектура GATE состоит из взаимосвязанных компонентов: программного обеспечения с четко определенными интерфейсами, написанными на языке программирования Java. Поддержка языков Русский Английский Немецкий Языки, поддерживаемые используемым ПК Английский Русский и 10 других Языки, поддерживаемые используемым ПКПроект не просто клонирует платформу .NET, в нем существуют свои собственные технологии, библиотеки и пр. Основная цель Mono - упрощение переноса приложений, написанных для платформы .NET, на другие операционные системы. Например, как было сказано выше, приложение ikvm, которое включено в комплект поставки - это виртуальная машина Java, созданная на .NET. Например, чтобы запустить приложение с названием «myapp», вместо команды «java-jar myapp.jar» необходимо будет вв

План
Оглавление

Введение

Глава 1. Обзор реализаций лингвистических процессоров и инструментальных средств

1.1 Обзор лингвистических процессоров

1.1.1 Проект АОТ

1.1.2 Набор инструментов WORDSMITH Tools

1.1.3 Лингвистический процессор GATE

1.1.4 Инструментарий ANTCONC

1.2 Выбор лингвистического процессора для разработки программных компонентов

1.3 Программный продукт IKVM.NET

Глава 2. Проектирование компонентов

2.1 Требования к функциональным характеристикам

2.1.1 Модуль для GATE API

2.1.2 Модуль для взаимодействия с облачным хранилищем

2.1.3 Модуль для взаимодействия с пользователем

2.2 Выбор технологии для разработки программных компонентов

Глава 3. Разработка программных компонентов

3.1 Разработка модуля для GATE API

3.2 Разработка модуля для взаимодействия с облачным хранилищем

3.3 Разработка модуля для взаимодействия с пользователем

Заключение

Библиографический список

Основные обозначения и сокращения

Приложение А. Диаграмма вариантов использования

Приложение Б. Диаграмма компонентов

Приложение В. Скриншоты программы

Приложение Г. Код программы

Введение
Впервые вопрос машинной обработки естественного языка возник в 1960-70гг. [1], и с тех пор такие задачи не потеряли своей актуальности. Напротив, программная обработка естественного языка постоянно развивается, что помогает решать огромное количество актуальных задач анализа текста, таких как извлечение информации, информационный поиск, анализ высказываний, анализ тональности и пр. Основные трудности обработки естественного языка - это достаточно строгие требования к синтаксису, сложность в распознавании фраз, а также затраты времени и программных ресурсов, необходимых для работы системы. Несмотря на это, существует большое количество систем программной обработки естественного языка - лингвистических процессоров. Лингвистический процессор выполняет роль посредника между пользователем и базой данных, чья информация интересует пользователя. Задача такого процессора заключается в преобразовании текста на естественном языке в некий набор семантических структур. Данные структуры представляют собой формальный «смысл» исходного текста и используются в качестве исходных данных для поисковых механизмов СУБД.

Корпусная лингвистика - это раздел языкознания, который занимается разработкой, созданием и использованием корпусов текстов. Корпус текстов - это некоторое собрание текстов, в основе которых лежит логический замысел, идея, объединяющая данные тексты. Данная совокупность используется в качестве базы для исследования языка [2]. Так, корпусная лингвистика описывает отдельные естественные языки, индивидуальные лингвистические качества. Она отражает речевой материал в корпусе текстов, и этот материал может в дальнейшем использоваться другими лингвистическими дисциплинами [3].
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?