Разработка облачного хранилища корпусов текстов в гетерогенных форматах и веб-сервисов для работы с хранилищем - Курсовая работа

бесплатно 0
4.5 206
Аннотация как текстовый файл, который был обработан лингвистическим процессором с применением шаблонов. Выявление прецедентов для работы с базой данных. Анализ основных программных платформ, используемых для реализации веб-сервисов и их компонентов.


Аннотация к работе
Далее лингвисты исследуют корпуса текстов, чтобы получить статическую информацию об интересующем их явлении, например, какие слова, морфемы, словосочетания наиболее чаще используются в тексте, какие семантические и синтаксические конструкции преобладают в тексте и т.д. Большинство популярных систем для работы с корпусами текстов предоставляют возможности хранения текстов, аннотирования текстов, сохранения результатов в текстовый файл, поиска слов, словосочетаний, предложений по заданному шаблону, однако эти системы имеют ряд недостатков. В-третьих, пользователь должен хранить файл текста, этот же текст без форматирования, аннотации данного текста, правила, по которым производилась аннотация текста, в некотором хранилище, чтобы иметь возможность использовать их в дальнейших исследованиях. Приложение может работать с аннотированными документами в форматах «xml» и «html», однако при аннотировании таких файлов не существует возможности использовать внутренние теги или информацию, которая храниться в свойствах тегов, в данных случаях приложение просто читает текстовые данные, которые хранятся между тегами. Вывод: приложение «ANTCONC» является хорошим настольным приложением для исследования небольших, узкоспециализированных корпусов текстов, к сожалению, такая программа не подходит для исследования больших корпусов текстов, которые включают в себя тысячи текстов.Разработанное хранилище и веб-сервисы позволяют другим программистам, которые занимаются разработкой приложений для корпусов текстов, использовать его в своих разработках. В процессе анализа существующих хранилищ выявлено, что рассматриваемые хранилища не являются адаптивными, гетерогенными и не предоставляют возможности другим программистам обращаться к хранилищу через интерфейсы прикладного уровня. Данные недостатки не относятся к разработанному хранилищу, т.к. были созданы веб-сервисы, которые предоставляют возможность другим разработчикам взаимодействовать с хранилищем, а само хранилище позволяет хранить различные форматы документы и создавать динамически добавляемые атрибуты к текстовому корпусу, текстовому файлу и аннотации. При составлении требований к данным хранилища было выявлено, что данное хранилище должно содержать информацию о пользователях, корпусах текстов, текстовых файлов, аннотациях, шаблонах и связях между ними. На стадии проектирования веб-сервисов приведены диаграммы активностей всех веб-сервисов, чтобы понять, как обеспечить совместную работу реляционной базы данных и BLOB хранилища, для того чтобы пользователь работал с ними как с единым хранилищем.
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?