Разработка высокопроизводительной системы для работы с языковыми корпусами русского языка. Словосочетания русского языка с дополнительной информацией по частоте их использования в текстах в основе модели данных системы. Проектирование структуры данных.
Аннотация к работе
Данная магистерская диссертация посвящена разработке высоконагруженного web-приложения, которое предназначено для хранения и поиска информации о сочетаемости слов русского языка. В ходе работы будет проведен анализ способов хранения данных, разработка и тестирование компонентов системы. После создания и тестирования системы будет проведена демонстрация работы. Результатом разработки системы будет являться веб-приложение, в котором пользователи смогу осуществлять поиск информации по словосочетаниям, а также создавать новые словосочетания и вносить правки в существующие.Представляет собой распределенную систему предоставляющую доступ к документам расположенных на разных машинах, подключенных к сети Интернет. Но сейчас Интернет - это не только html документы, это всевозможная информация, социальные сети, фотографии, даже документы и наша социальная активность такая как запись ко врачу или обращение в налоговую службу перебирается во всемирную паутину, денежные переводы и покупки давно стали обыденностью. Сейчас слово интернет у всех на слуху и его популярность набирает обороты. Компании Яндекс в 2015 году провела исследование по росту популярности и проникновении интернета в России. Что в свою очередь ведет к увеличению нагрузки на популярные ресурсы в Интернете.В данной работе передо мной поставлена задача спроектировать и разработать высокопроизводительное и отказоустойчивое веб приложение. · Приложение должно обладать веб интерфейсом и работать с большинством современных браузеров.F - Разрабатываемая система x - данные введенные пользователем t - Время за которое система ответила пользователю время должно находится в интервале tmax - максимальное время ответа системы таким образом можно посчитать KPI системы k - Ключевые показатели эффективностиЦелью разработки приложения является создание системы, которая хранит словарные корпуса, а в частности словосочетания и позволяет пользователю искать словосочетания по главному или зависимому слову, а также находить тексты где эти словосочетания встречаются. Система должна иметь возможность создать словосочетание Система должна иметь возможность осуществлять поиск словосочетаний по главному или зависимому словуРазработать пользовательский интерфейсТестирование один из важных этапов в жизненном цикле системы и для тестирования отводится значительное количество ресурсов · Проверка производительности системыОсновываясь на этой методике извлекается информация о синтаксической сочетаемости слов и моделях глагольного управления. Под синтаксической сочетаемостью слов понимаются разрешенные (и употребляемые) в языке пары слов, которые могут быть синтаксически связаны друг с другом в тексте. Под моделью глагольного управления понимается список предлогов, при помощи которых существительные могут присоединяться к данному глаголу, а также список разрешенных падежей, в которых могут находиться эти существительные. Использование указанной методики позволяет быстро создать базу данных синтаксической сочетаемости слов русского языка используя автоматизацию и сохраняя при этом сопоставимый уровень качества при резком росте объемов базы. Из предметной области и технического задания были выявлены следующие сущности: · ПользовательОчень часто необходимо получить информацию о синтаксической сочетаемости слов в корпусе, для выделения правил анализа и синтеза текстов, генерации зависимостей с использованием методов машинного обучения, извлечения и описания различных явлений в языке. Так, например, словарь "Словарь сочетаемости слов русского языка" содержит в себе лишь 2500 статей (при наличии в русском языке около 30 000 глаголов), а словарь. Таким образом, существующие словари требуют существенного пополнения для их внедрения в процессы автоматической обработки текстов или их внедрения в процесс изучения русского языка. работа [Денисов 2002] содержит только 2500 статей, но они весьма весомы, в их приведена не только информация о сочетании слов с другими, но и толкования слов, а также их грамматические характеристики. Тем самым данный проект имеет меньше информации, но информация в нем находится на более продвинутом уровне. извлечение модели сочетаемости, автоматизированным путем, уже есть нескольких работах для многих языков в том числе и русского. Словосочетаний возможно огромное количество и хранить их в исходном виде не удобно для поиска и работы, так как их объем на начало проектирование системы составляет 813096796 строк, и каждый раз даже используя алгоритмы полнотекстового поиска искать, в такие огромных количествах, не оптимально.Для хранения данных необходимо использовать хранилище, так как, исходя из модели данных, лучше всего подойдет реляционная БД. Базы данных используются уже довольно давно. Чтобы осуществлять хранение данных и производить над ними различные манипуляции, система управления базами данных должна использовать подходящую для этих целей структуру (табличную).
План
Оглавление
Введение
1. Постановка задачи
1.1 Формальная постановка задачи
1.2 Постановка задачи проектирования
1.3 Постановка задачи разработки
1.4 Постановка задачи тестирования
2. Исследовательская часть
2.1 Описание предметной области
Сущности в предметной области
2.2 Обзор существующих аналогов
2.3 Исследование проектных решений
Модель данных
Проектирование структуры данных
Сравнение структур данных
Проектирование модулей системы
Клиентская часть
Модули логики приложения
Модуль работы с хранилищем
Описание взаимодействия модулей
Проектирование системы интерфейсов
Проектирование архитектуры системы
Архитектура резервирования
3. Разработка системы
3.1 Выбор хранилища данных
3.2 Разработка структуры данных
3.3 Выбор языка программирования
3.4 Выбор КТС
3.5 Выбор среды разработки
3.6 Взаимодействие пользователя и приложения
3.7 Требования к профессиональному уровню пользователя