Параллельный конкорданс: поиск и ранжирование переводных контекстов для иллюстрации переводов - Дипломная работа

бесплатно 0
4.5 176
Основные задачи и направления работы в компьютерной лексикографии. Задачи и методы их решения, общие для корпусной лингвистики, машинного перевода и компьютерной лексикографии. Русско-английский словарь под общим руководством проф. А.И. Смирницкого.


Аннотация к работе
Можно предположить, что машинные словари в этом отношении следуют принципам классических «бумажных» словарей, но в действительности словарь, создаваемый «с нуля» или на основе бумажного издания и предназначенный для той или иной системы автоматического понимания текстов, - это реализация модели семантического, морфологического, синтаксического и других уровней естественного языка, основанной на идеях искусственного интеллекта [Караулов и др. С другой стороны, та же проблема наблюдается и в лексикографии в целом и связана с разрывом между лингвистической теорией и лексикографической практикой. Так, в словарях может описываться слово и его значение, восстанавливаемое на основе наблюдений за употреблением слова с текстах, слово и его происхождение, слово и его прагматические характеристики, например, сфера употребления. Словари предназначаются обычно для широкой аудитории (носителей языка, изучающих язык) и при создании рассчитываются на долговременное использование. Сложность разработки лексикографических принципов обусловлена и трудностью создания словаря вообще (некоторые толковые словари создаются десятилетиями, например, Словарь современного русского литературного языка издавался с 1948 по 1965 год, а работы по его созданию начались в 1937 году): словарь невозможно быстро переработать, чтобы принять во внимание новую трактовку какого-либо явления.Инструментами и материалом компьютерной лексикографии являются базы данных, компьютерные картотеки, инструменты анализа текста, которые позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать ее. Развитие компьютерных методов в лексикографии началось в середине 1960 годов: с одной стороны, возникла необходимость перевести в машиночитаемый формат существующие словари, с другой стороны, стало возможным использование электронных корпусов при составлении новых словарей. Одним из первых словарей в машиночитаемом виде стал Longman Dictionary of Contemporary English [LDOCE; Proctor, 1978], который до сих пор является одним из наиболее популярных словарей английского языка. Поначалу электронные словари представляли собой копии бумажных (Oxford English Dictionary), но постепенно были разработаны специальные представления и форматы, позволяющие, например, хранить содержательную часть словаря отдельно от информации о графическом формате словарных статей. Также следует упомянуть серию Collins English Dictionary, словари которой с 1979 года полностью создавались с использование электронных баз данных и корпусов.Прежде чем перейти к направлениям компьютерной двуязычной лексикографии, следует ввести группу понятий, относящихся скорее к области корпусной лингвистики и машинного перевода, которые в дальнейшем будут использоваться при описании различных словарей. Двуязычный словарь предполагает описание лексики двух языков: входного языка - языка, с которого производится перевод, и выходного - языка перевода. Переводным эквивалентом называют перевод, приписываемый лексеме входного языка, или пару «слово входного языка слово выходного языка», которые являются переводами друг друга.В области компьютерной двуязычной лексикографии постепенно выделилось несколько направлений: - создание традиционных двуязычных словарей с помощью компьютерных технологий, - разработка алгоритмов составления переводных эквивалентов для систем машинного перевода, - автоматическое составление словарей, надстройки к параллельным и сопоставимым корпусам, параллельные конкордансы.Так, Webster’s Seventh New Collegiate Dictionary (1967) и New Merriam-Webster Pocket Dictionary стали первыми словарями, электронная версия которых была подготовлена параллельно с бумажной. Компьютерный набор и некоторые другие средства подготовки статей использовались в Longman Dictionary of Contemporary English (1978) и первом издании Collins English Dictionary (1979). В то же время ведутся разработки по созданию так называемых карманных словарей и переводчиков (hand held dictionaries) - специализированных устройств, выполняющих поиск по словарю, представленному в машиночитаемом виде. Такой формат позволял мгновенно устанавливать словарь на любой компьютер и быстро распространять его. Среди многочисленных изданий словарей на CD-дисках нужно отметить издание Oxford English Dictionary (1988, использовалось издание 1928 года), The American Heritage Dictionary of the English Language (1992).Словарями систем машинного перевода (фразовыми таблицами, моделями перевода, phrase table) обычно называют автоматически составленные таблицы переводов последовательностей слов с весами, которые затем учитываются при машинном переводе текста. Переводы извлекаются из параллельного корпуса на основании выравнивания предложений. Для построения модели перевода были предложены алгоритмы, известные как модели IBM [Brown и др. Они оценивают вероятности перевода с помощью EM-алгоритма, который позволяет итеративно оценить модель на неполных данных. Изначально в корпусе нет информации о пословном выравнива

План
Оглавление

Введение

1. Компьютерная двуязычная лексикография

1.1 Основные задачи и направления работы в компьютерной лексикографии

1.2 Задачи и методы их решения, общие для корпусной лингвистики, машинного перевода и компьютерной лексикографии

1.3 Компьютерная двуязычная лексикография

1.4 Электронные двуязычные словари

1.5 Словари систем машинного перевода

1.6 Автоматически составленные (машинные) двуязычные словари: методология составления и применение

1.7 Параллельные конкордансы

1.8 Выводы

2. Иллюстративный блок одно- и многоязычных словарей

2.1 Принципы формирования иллюстративного блока в словарях

2.2 Практическая реализация иллюстративного блока в двуязычных словарях

2.3 Выводы

3. Устойчивые сочетания различных типов и опыт их лексикографирования

3.1 Основные концепции устойчивых сочетаний

3.2 Представление коллокаций в словарях сочетаний

3.3 Выводы

4. Поиск и ранжирование контекстов для англо-русского машинного словаря

4.1 Материал и инструменты исследования

4.2 Описание процедуры поиска контекстов

4.3 Подготовка обучающей и тестовой выборки

4.4 Анализ ошибок в контекстах-кандидатах

4.5 Общий алгоритм ранжирования параллельных контекстов

4.6 Факторы (признаки) ранжирования

4.7 Методы классификации

4.8 Оценка качества классификации

4.9 Результаты классификации

4.10 Сравнение ранжирования с простыми эвристическими методами

4.11 Значимость признаков классификации

4.12 Выводы

Заключение

Лексикографические источники

Литература

Приложение А. Сравнение и оценка ранжирования иллюстрирующих контекстов с помощью разных методов

Ранжирование контекстов на основе меры MI

Ранжирование контекстов на основе частоты перевода

Ранжирование RF1

Ранжирование RF2

Ранжирование RF3

Ранжирование RF4

Введение
Работа посвящена поиску и ранжированию переводных контекстов для иллюстрации переводов в машинном словаре. Создание словарей автоматическими методами - сравнительно молодое направление компьютерной лексикографии, поэтому неудивительно, что исследования, посвященные автоматическому составлению иллюстративного блока, очень редки. Можно предположить, что машинные словари в этом отношении следуют принципам классических «бумажных» словарей, но в действительности словарь, создаваемый «с нуля» или на основе бумажного издания и предназначенный для той или иной системы автоматического понимания текстов, - это реализация модели семантического, морфологического, синтаксического и других уровней естественного языка, основанной на идеях искусственного интеллекта [Караулов и др. 1982].

С другой стороны, та же проблема наблюдается и в лексикографии в целом и связана с разрывом между лингвистической теорией и лексикографической практикой. Лингвистическая описательная и аналитическая работа направлена на регистрацию широкого спектра явлений - нормы и отклонения от нормы, кода и узуса. Особенно это касается грамматики, то есть явлений морфологии и синтаксиса.

В лексикографической работе также проводится анализ наблюдаемых явлений языка и речи, но регистрации и систематизации подлежит не все, а определенный класс явлений. В одних случаях описывается только норма, которая может быть в некоторых случаях результатом сознательного выбора специалистов, в других - параметры, характеризующие единицу языка с определенной точки зрения. Так, в словарях может описываться слово и его значение, восстанавливаемое на основе наблюдений за употреблением слова с текстах, слово и его происхождение, слово и его прагматические характеристики, например, сфера употребления.

Словари предназначаются обычно для широкой аудитории (носителей языка, изучающих язык) и при создании рассчитываются на долговременное использование. Лингвистические теории, в том числе касающиеся лексикографических проблем, разрабатываются специалистами для специалистов. Кроме того, они часто охватывают лишь конкретное языковое явление или класс случаев, тогда как словарь (в первую очередь, общего типа) должен охватить все разнообразие одного или нескольких языков. Сложность разработки лексикографических принципов обусловлена и трудностью создания словаря вообще (некоторые толковые словари создаются десятилетиями, например, Словарь современного русского литературного языка издавался с 1948 по 1965 год, а работы по его созданию начались в 1937 году): словарь невозможно быстро переработать, чтобы принять во внимание новую трактовку какого-либо явления. Все это приводит к тому, что составители словарей часто опираются либо на уже сложившуюся практику, либо на общепринятую теорию, а большинство теоретических разработок не используется вообще. Исключением является проект Толково-комбинаторного словаря, о котором подробнее будет сказано ниже. Следует лишь отметить, что в данном случае речь идет о лексикографическом произведении, полностью основанном на лингвистической теории (модели «Смысл Текст»).

Лингвистические теории, касающиеся сочетаемости лексем, практически не употребляются в лексикографической практике. Говоря же об иллюстративных контекстах в двуязычном словаре, неизбежно приходится упоминать понятие сочетаемости. Поэтому в дальнейшем мы будем рассматривать и теоретические работы, возможно, отчасти отраженные в существующих словарях, и особенности лексикографической практики (то есть существующие словари).

Целью работы является разработка алгоритма ранжирования иллюстрирующих контекстов для англо-русского машинного переводного словаря. Исходя из данной цели, а также учитывая указанные выше проблемы, формулируются следующие задачи: 1) анализ принципов составления и особенностей существующих электронных словарей различных типов;

2) описание и анализ реализации иллюстративного блока в современной лексикографической практике;

3) описание подходов к сочетаемости и анализ их отражения в лексикографической практике;

4) выделение необходимых признаков для описания двуязычных контекстов, подходящих для иллюстрации статей в переводном словаре.

Предполагается также решение следующих практических задач: 1) разметка потенциальных иллюстраций для создания обучающей выборки и дополнения набора признаков ранжирования;

2) реализация алгоритма ранжирования параллельных контекстов;

3) оценка качества ранжирования и релевантности выделенных признаков.

Для ранжирования параллельных контекстов, описанных с помощью набора признаков, используются такие методы машинного обучения, как метод случайного леса и нейронная сеть прямого распространения.

Материалом для исследования реализации иллюстративного блока послужили существующие англо-русские словари и словари сочетаемости английского и русского языка. Параллельные контексты для машинного переводного словаря, которые используются при ранжировании, извлечены из параллельного англо-русского интернет-корпуса.

Актуальность работы обусловлена тем, что, как сказано выше, проблема иллюстративного блока практически не разработана в машинной лексикографии вообще, а особенно - в двуязычной. С другой стороны, компьютерная лексикография практически не учитывает опыт «безмашинной» лексикографии и многочисленные лингвистические исследования. Наша работа направлена на восполнение этого пробела.

Практические результаты работы используются в рамках сервиса «Яндекс. Переводчик» и обсуждались в статье [Protopopova и др. 2015], а также в докладе на конференции «Диалог’2015».

1.
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?