Разработка системы сбора статистики использования маркеров стиля в научных публикациях на английском языке - Дипломная работа

бесплатно 0
4.5 200
Анализ бизнес-процесса сбора статистики и создания отчета. Сравнительный анализ средств обработки языка. Обзор существующих плагинов для программы Gate Developer. Проектирование и разработка программного модуля для сбора статистики и генерации отчетов.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
Пермский филиал федерального государственного автономного образовательного учреждения высшего образования Факультет экономики, менеджмента и бизнес-информатики Разработка системы сбора статистики использования маркеров стиля в научных публикациях на английском языке по направлению подготовки 38.03.05 Бизнес-информатика образовательная программа «Бизнес-информатика»С помощью корпусов лингвисты решают широкий спектр задач, например, подсчитывают статистику использования различных языковых единиц, представление лингвистических данных, реализация математического анализа текста и т.д. Проведение анализа текста без использования компьютерных инструментальных средств - это достаточно затратный по времени и силам процесс, поэтому необходимо использовать программные инструментальные средства. Наиболее распространенными являются ANTCONC[1], WORDSMITH Tools[2], Gate Developer[3], Sketch Engine[4] и CQPWEB[5], каждая из которых предоставляет пользователю возможность хранить и редактировать корпуса текстов. Так же, как и в системах упомянутых выше, в программе Gate Developer нет инструментария, позволяющего генерировать отчеты о собранной статистике. Таким образом, целью данной работы является разработка средства сбора статистики на базе программы Gate Developer для отображения информации о корпусе текстов, обладающего такими свойствами как генерация отчетов о собранных данных, на основе параметров, введенных пользователем, и формирование структуры отчета.В данной главе приводится анализ бизнес-процесса сбора статистики и создания отчета и анализ существующих на данный момент инструментов для обработки естественного языка.Для разработки программного обеспечения необходимо тщательно рассмотреть процесс, который автоматизируется с помощью программы. С помощью анализа бизнес-процесса можно определить его «слабые места» и вывести функциональные требования к программному модулю. Диаграмма AS-IS, представленная на рисунке 1.1, содержит двух актеров: пользователя и систему Gate Developer. Первое что делает пользователь, это загружает текстовый корпус в систему Gate Developer, используя пользовательский интерфейс программы. После чего, пользователь вручную вычленяет необходимые данные из полученного документа и создает отчет с помощью каких-либо текстовых или табличных редакторов.На данный момент реализовано огромное количество систем по обработке естественного языка. Для выяснения необходимого функционала для разрабатываемого программного модуля, необходимо провести обзор систем-аналогов, выявить существующие средства для сбора статистики и генерации отчетов, и каким образом они реализованы. Для сравнительного анализа систем были сформулированы следующие критерии: 1.Программа является настольным приложением, подходит под такие операционные системы как MS Windows, Linux и Mac. Система содержит в себе 7 инструментов: 1. Конкорданс. Показывает, как ключевое слово используется в разных контекстах исследуемого текста. График позволяет увидеть, какие файлы содержат искомое ключевое слово. Данный инструмент производит подсчет всех слов в корпусе и представляет упорядоченный список, с помощью которого можно посмотреть наиболее употребляемые элементы.Приложение «WORDSMITH Tools» [18] является настольным, платным, требующим установки программным обеспечением, которое ориентировано на многоцелевой анализ корпусов текстов. Также существует бесплатная версия данного приложения с ограниченным функционалом и сроком работы. Стоит отметить, что система работает только под MS Windows, что является существенным недостатком в сравнении с другими системами [20]. Программа реализована на языке программирования Python и не поддерживает расширения функционала. Компонент WORDLIST, который позволяет формировать список отдельных слов и кластеров слов, также отсортировать их по алфавиту или частоте.Система «Sketch Engine» [22] - это веб-система, которая позволяет изучать текстовые корпуса и извлекать из них нужную информацию. Инструмент предоставляет бесплатную пробную версию на 30 дней с возможностью использования полного функционала (рис 1.7). После окончания пробного периода, пользователю предлагается выбрать несколько видов платных подписок, с разными наборами функций. Система поддерживает загрузку текстовых корпусов разных форматов (.doc, .docx, .htm, .html, .pdf, .ps,. tar.bz2,.tar.gz, .tei, .tgz, .tmx, .txt, .vert, .xml, .zip.) [22]. Для анализа текстов пользователю доступен большой спектр инструментов, начиная от обычного поиска слова в тексте, заканчивая специальными фильтрами для поиска предложений по определенной схеме.Gate Developer - это бесплатное настольное приложение, требующее установки, которое позволяет создавать, изменять и обслуживать программные компоненты по обработке языка [2]. Программа предоставляется с открытым исходным кодом и имеет множество примеров реализованных программных модулей. Подсчет статистических данных программа не осуществляет, но подготавливает хорошую базу для подобных вычислений.

План
Содержание

Введение

Глава 1. Анализ существующих систем и инструментов для обработки естественного языка

1.1 Анализ бизнес-процесса сбора статистики и создания отчета

1.2 Сравнительный анализ средств обработки языка

1.2.1 Система ANTCONC

1.2.2 Система WORDSMITH Tools

1.2.3 Система Sketch Engine

1.2.4 Система Gate Developer

1.2.5 Веб-система CQPWEB

1.3 Обзор существующих плагинов для программы Gate Developer

1.3.1 Система ANNIE

1.3.2 Группа компонентов OPENNLP

1.3.3 Плагины Academic Corpus Tagger

1.4 Обзор средств для генерации отчетов

1.4.1 Генератор отчетов Crystal Reports Server

1.4.2 Система Stimulsoft Reports

1.4.3 Генератор отчетов Jasper Report

1.4.4 Генератор отчетов Next Report

1.4.5 Программа BIRT

Вывод по первой главе

Глава 2. Проектирование программного модуля для сбора статистики и генерации отчетов

2.1 Формирование требований к плагину

2.1.1 Требования к программному модулю от заказчика

2.1.2 Обработанные функциональные требования

2.2 Разработка архитектуры плагина

2.3 Выбор средств разработки

2.3.1 Выбор языка программирования

2.3.2 Обзор интегрированных сред разработки

Выводы по второй главе

Глава 3. Разработка программного модуля

3.1 Описание параметров входа и выхода

3.2 Описание процесса создания плагина

3.3 Особенности реализации плагина в среде Gate Developer

3.3 Разработка шаблонов для генерации отчетов

3.4 Результаты реализации программного модуля

Заключение

Библиографический список

Приложение А. USECASE диаграмма для описания функциональных требований

Приложение Б. Листинг программы

Приложение В. Руководство пользователя по установке и настройке программного модуля STATSCOLLECTOR

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?