Онтология маркеров стиля - Курсовая работа

бесплатно 0
4.5 46
Создание онтологии маркеров стиля, отражающей основные положения предметной области и определяющей отношения между ними. Генерация правил поиска маркеров стиля при анализе текстов. Выбор инструментальных средств для проектирования. Типовые запросы.

Скачать работу Скачать уникальную работу
Аннотация к работе
Научный стиль в английском языке, как и в русском, сильно отличается от разговорного, литературного, делового и любых других стилей. Научный стиль в английском языке обладает рядом отличительных черт, которые называются маркеры стиля. Наличие маркеров стиля помогает эксперту оценить качество работы с точки зрения ее академичности и научности, помогает оценить, насколько работа удовлетворяет требованиям письменного академического английского. Функционал данной программы обширен: программа выполняет функцию поиска маркеров в тексте, разделяет текст на токены, каждому из которых предписывается его тип, осуществляет семантическую аннотацию и т.д. В качестве способа классификации набора маркеров было решено создать онтологию.В данной главе представлена предметная область в виде описания направлений прикладной лингвистики, таких как компьютерная и корпусная лингвистика.Развитие вычислительной техники привело к соединению двух наук «Лингвистика» и «Информационные технологии» и, как результат, получению нового направления прикладной лингвистики «Компьютерная лингвистика» (1950-е гг.)[20]. Стало ясно, что вычислительная техника - мощное средство для работы с текстами, которое сможет решить проблемы автоматизации трудоемких процессов. Для того чтобы ответить на вопрос, что такое компьютерная лингвистика стоит взглянуть на спектр задач, которые она решает. Боярскому [14] компьютерная лингвистика решает следующий ряд задач: - распознавание и синтез речи по тексту; Таким образом, главная задача компьютерной лингвистики - разработка программ, которые позволили бы автоматизировать обработку текстов на естественном языке.Корпусная лингвистика - раздел прикладной лингвистики, имеющий дело с разработкой, созданием и использованием корпусов текстов (массивов текстов), собранных по определенному принципу, например, объединенных общим признаком. Так как данного рода исследования проводятся с целью выявить какие-то закономерности или подтвердить или опровергнуть определенную теорию, корпусные исследования, используя большой объем материала, позволяют это сделать. Чтобы решить поставленные задачи с помощью корпуса текстов, мало лишь наличия подобного корпуса. Так, необходимым этапом в работе с корпусом стало проставление разметки. Экстралингвистический тип разметки имеет дело с касающейся текста информацией, а не непосредственно текстом.Основанием для написания этой работы стала необходимость классификации маркеров стиля, выделенных в ходе обучения академическому английскому студентов и работы с корпусом, собранным экспертами. Этот корпус представляет собой работы (Research Proposal) студентов 4 курса направления менеджмента НИУ ВШЭ - Пермь, посвященные их ВКР. Для формализации маркеров стиля было решено создать онтологию, которая сможет детально и полно описать предметную область с помощью концептуальной схемы. Так как эксперты по совместительству являются и преподавателями дисциплины Академическое письмо на английском языке, посвященной написанию Research Proposal, им важно знать, какую же именно программу изучения курса использовать, какие аспекты являются наиболее важными в изучении академического английского.Специалисты в области компьютерной и корпусной лингвистики создают специальные пакеты автоматического анализа текста, включая всю технологическую цепочку лингвистической обработки, примером такой системы обработки естественного языка может служить GATE и NLTK. Специалисты, работающие в рамках данной темы с собранным корпусом, используют систему GATE. General Architecture for Text Engineering (GATE) - система обработки естественного языка с открытым исходным кодом, способное решить почти все лингвистические проблемы, возникающие при работе с текстами [2]. Табл.1.1 содержит описание семейства GATE. Она используется во всех системах, основанных на принципах GATE, а также формирует основные элементы GATE Developer. GATE Embedded позволяет использовать функционал по обработке естественного языка в различных приложениях.WORDNET - это большая лексическая база данных английского языка, в которой существительные, глаголы, прилагательные, наречия сгруппированы в наборы синонимов (синсеты), каждый из которых выражает определенный концепт [12]. Каждый синсет содержит список синонимов или синонимичных словосочетаний и указатели, описывающие отношения между ним и другими синсетами. Каждый из синсетов связан с другим синсетом с помощью небольшого набора концептуальных отношений. Самое часто используемое отношение среди синсетов это отношение класс-подкласс (также называемое гипоним). Гипоним - транзитивное отношение, это значит, что если кресло является подклассом стула, а стул - подклассом мебели, то и кресло - подкласс мебели.В качестве критериев сравнения были выбраны следующие позиции: - общее описание инструмента (включая информацию о разработчике и возможностях); архитектура приложения (включая информацию об архитектуре инструментального средства: автономное приложение, приложение клиент-сервер, многоуровневое приложение; объясня

План
ОГЛАВЛЕНИЕ онтология маркер генерация поиск

Введение

Глава 1. Онтологический подход в решении задач компьютерной и корпусной лингвистики

1.1 Компьютерная лингвистика

1.2 Корпусная лингвистика

1.3 Постановка задачи

1.4 Обзор основного средства при работе с существующим корпусом

1.5 Примеры использования онтологического подхода в лингвистике

1.6 Обзор инструментальных средств для построения онтологий

1.7 Среда для разработки онтологий Protege

1.8 Среда для разработки онтологий ONTOSTUDIO

1.9 Редактор онтологий Swoop

1.10 Среда разработки TOPBRAID Composer

1.11 Итоги сравнения

Глава 2. Разработка онтологии

2.1 Онтологический инжиниринг

2.2 Методологии и методы построения онтологий

2.3 Требования к разрабатываемой онтологии

2.4 Аналитический обзор онтологии лингвистики GOLD

2.5 Пошаговая разработка онтологии

Глава 3. Генерация правил поиска маркеров стиля при анализе текстов

Заключение

Библиографический список

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?