Создание онтологии маркеров стиля, отражающей основные положения предметной области и определяющей отношения между ними. Генерация правил поиска маркеров стиля при анализе текстов. Выбор инструментальных средств для проектирования. Типовые запросы.
Аннотация к работе
Научный стиль в английском языке, как и в русском, сильно отличается от разговорного, литературного, делового и любых других стилей. Научный стиль в английском языке обладает рядом отличительных черт, которые называются маркеры стиля. Наличие маркеров стиля помогает эксперту оценить качество работы с точки зрения ее академичности и научности, помогает оценить, насколько работа удовлетворяет требованиям письменного академического английского. Функционал данной программы обширен: программа выполняет функцию поиска маркеров в тексте, разделяет текст на токены, каждому из которых предписывается его тип, осуществляет семантическую аннотацию и т.д. В качестве способа классификации набора маркеров было решено создать онтологию.В данной главе представлена предметная область в виде описания направлений прикладной лингвистики, таких как компьютерная и корпусная лингвистика.Развитие вычислительной техники привело к соединению двух наук «Лингвистика» и «Информационные технологии» и, как результат, получению нового направления прикладной лингвистики «Компьютерная лингвистика» (1950-е гг.)[20]. Стало ясно, что вычислительная техника - мощное средство для работы с текстами, которое сможет решить проблемы автоматизации трудоемких процессов. Для того чтобы ответить на вопрос, что такое компьютерная лингвистика стоит взглянуть на спектр задач, которые она решает. Боярскому [14] компьютерная лингвистика решает следующий ряд задач: - распознавание и синтез речи по тексту; Таким образом, главная задача компьютерной лингвистики - разработка программ, которые позволили бы автоматизировать обработку текстов на естественном языке.Корпусная лингвистика - раздел прикладной лингвистики, имеющий дело с разработкой, созданием и использованием корпусов текстов (массивов текстов), собранных по определенному принципу, например, объединенных общим признаком. Так как данного рода исследования проводятся с целью выявить какие-то закономерности или подтвердить или опровергнуть определенную теорию, корпусные исследования, используя большой объем материала, позволяют это сделать. Чтобы решить поставленные задачи с помощью корпуса текстов, мало лишь наличия подобного корпуса. Так, необходимым этапом в работе с корпусом стало проставление разметки. Экстралингвистический тип разметки имеет дело с касающейся текста информацией, а не непосредственно текстом.Основанием для написания этой работы стала необходимость классификации маркеров стиля, выделенных в ходе обучения академическому английскому студентов и работы с корпусом, собранным экспертами. Этот корпус представляет собой работы (Research Proposal) студентов 4 курса направления менеджмента НИУ ВШЭ - Пермь, посвященные их ВКР. Для формализации маркеров стиля было решено создать онтологию, которая сможет детально и полно описать предметную область с помощью концептуальной схемы. Так как эксперты по совместительству являются и преподавателями дисциплины Академическое письмо на английском языке, посвященной написанию Research Proposal, им важно знать, какую же именно программу изучения курса использовать, какие аспекты являются наиболее важными в изучении академического английского.Специалисты в области компьютерной и корпусной лингвистики создают специальные пакеты автоматического анализа текста, включая всю технологическую цепочку лингвистической обработки, примером такой системы обработки естественного языка может служить GATE и NLTK. Специалисты, работающие в рамках данной темы с собранным корпусом, используют систему GATE. General Architecture for Text Engineering (GATE) - система обработки естественного языка с открытым исходным кодом, способное решить почти все лингвистические проблемы, возникающие при работе с текстами [2]. Табл.1.1 содержит описание семейства GATE. Она используется во всех системах, основанных на принципах GATE, а также формирует основные элементы GATE Developer. GATE Embedded позволяет использовать функционал по обработке естественного языка в различных приложениях.WORDNET - это большая лексическая база данных английского языка, в которой существительные, глаголы, прилагательные, наречия сгруппированы в наборы синонимов (синсеты), каждый из которых выражает определенный концепт [12]. Каждый синсет содержит список синонимов или синонимичных словосочетаний и указатели, описывающие отношения между ним и другими синсетами. Каждый из синсетов связан с другим синсетом с помощью небольшого набора концептуальных отношений. Самое часто используемое отношение среди синсетов это отношение класс-подкласс (также называемое гипоним). Гипоним - транзитивное отношение, это значит, что если кресло является подклассом стула, а стул - подклассом мебели, то и кресло - подкласс мебели.В качестве критериев сравнения были выбраны следующие позиции: - общее описание инструмента (включая информацию о разработчике и возможностях); архитектура приложения (включая информацию об архитектуре инструментального средства: автономное приложение, приложение клиент-сервер, многоуровневое приложение; объясня
План
ОГЛАВЛЕНИЕ онтология маркер генерация поиск
Введение
Глава 1. Онтологический подход в решении задач компьютерной и корпусной лингвистики
1.1 Компьютерная лингвистика
1.2 Корпусная лингвистика
1.3 Постановка задачи
1.4 Обзор основного средства при работе с существующим корпусом
1.5 Примеры использования онтологического подхода в лингвистике
1.6 Обзор инструментальных средств для построения онтологий