Исследование параметров сегментации при статистическом машинном переводе с арабского на русский язык - Магистерская работа

бесплатно 0
4.5 189
Этапы построения модели статистического машинного перевода. Построение фразовой таблицы и создание модели перестановок. Основные варианты сегментации. Принципы работы декодера. Перевод с помощью системы Moses. Оценки переводов по метрике BLEUScore.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
Технологии машинного перевода позволяют получать моментальные переводы значительных объемов текста, тем самым позволяя переводчикам экономить время, а компаниям - сокращать затраты на перевод нужных им текстов. Помимо корпоративного сегмента, машинный перевод также широко применяется для личных целей - общения между людьми, перевода интересующих пользователя текстов и изучения иностранных языков. Статистический машинный перевод - один из наиболее популярных видов машинного перевода, наряду с переводом, основанным на правилах и гибридном переводом (сочетающим в себе элементы статистического перевода и перевода, основанного на правилах). Таким образом, использование статистического машинного перевода позволяет компаниям значительно сокращать издержки на разработку моделей перевода требуемых языковых пар и делает возможным такую разработку в крайне сжатые сроки. Несмотря на то, что лингвистические задачи в статистическом машинном переводе решаются алгоритмически, у разработчика системы перевода все равно остаютя возможности улучшить качество продукта для выбранной пары языков.Статистический машинный перевод (SMT) - одна из базовых разновидностей машинного перевода наряду с машинным переводом, основанным на правилах (RBMT). Основной особенностью статистического перевода в его классическом виде является то, что в нем не используются разработанные вручную правила перевода между двумя конкретными языками. Вместо этого перевод текста создается на основе обученной ранее модели. На первом этапе происходит выравнивание корпусов по словам, затем алгоритм высчитывает вероятности соответствий между образованными из токенов фразами обоих текстов. Для того, чтобы текст выглядел более естественно, используется также модель языка - корпус текста на целевом языке, позволяющий узнать вероятности фраз в этом языке.Изучение статистического машинного перевода началось в конце 1980-х годов в исследовательском центре компании IBM. В то время модели перевода были способны лишь находить соответствия между словами двух языков. К удивлению многих специалистов, результаты оказались достаточно приемлемыми: смысл почти половины предложений передавался правильно. Впоследствии, упор был сделан на поиск соответствий между фразами двух параллельных корпусов.Построение фразовой таблицы для машинного перевода обычно начинается с установления соответствий между словами в двух параллельных корпусах. Наиболее популярным иенструментом, используемым, в том числе, в системе Moses, является GIZA . Одним из основных недостатков базовых моделей IBM являлось то, что они позволяли установить соответствие лишь одного английского слова с каждым из слов иностранного языка.Какое-то время доминирующим подходом к статистическому машинному переводу был перевод, основывавшийся на взаимных соответствиях слов. Преимуществами этого нового взгляда на машинный перевод является то, что он позволяет: - переводить фразы, значение которых может быть неочевидно из состовляющих их слов, - использовать местный контекст, - запоминать длинные фразы при наличии достаточного количества данных. В этом примере мы можем увидеть: - лексическую вариативность (proposal и suggestion), - грамматическую вариативность (proposal и proposals), - запоминание служебных слов (the и a), - шум (it). Для претворения в жизнь фразового статистического машинного перевода нужно разделить строку с иностранным текстом на фразы, перевести каждую фразу на целевой язык и переставить фразы местами для того, чтобы лучше отражать естественный порядок слов нужного языка. После этого, происходит извлечение пар фраз: соответствующими друг другу мы называем те фразы, в которых все слова одной фразы соответствуют лишь словам другой фразы, и не соответствуют словам за пределами той фразы.Согласно правилу Байеса, наилучший перевод ebest для фразы f можно рассчитать следующим образом: ebest = argmaxe p(e|f) = argmaxe p(f|e) plm(e)Действительно, порядок слов существенно различается во многих языках, особенно если речь идет о языках из разных семей. Часто проблема отличающегося порядка слов решается с помощью такого инструмента, как языковая модель. Чаще всего языковые модели строятся на основе триграмм, так что такие перестановки могут происходить в пределах окна из трех слов. Например, при переводе французского выражения affaires exterieures на английский в языковой модели будет содержаться external affairs намного чаще, чем affairs external (вероятнее всего, такой фразы не будет вообще), поэтому external и affairs будут переставлены местами. Изза того, что сказуемое будет стоять в конце предложения, расстояние между сказуемым в переводе без перестановок и в правильном с точки зрения целевого языка переводе в таких случаях может существенно отличаться.В хорошей языковой модели вероятность первого высказывания будет значительно выше, чем вероятность второго, поэтому должен быть выбран вариант с таким порядком слов. Таким образом, вероятность каждого слова равна произведение вероятностей предшествующих ему слов - ист

План
Оглавление

Введение

Глава I. Статистический машинный перевод

1.1 Основные принципы

1.2 История SMT

1.3 Основные этапы и компоненты SMT

1.3.1 Выравнивание по словам

1.3.2 Фразовая таблица

1.3.3 Вероятностная модель

1.3.4 Модель перестановок

1.3.5 Языковые модели

1.4 Декодер

1.4.1 Основной алгоритм

1.4.2 Рекомбинация гипотез

1.4.3 Прореживание

1.4.4 Генерация N-лучших списков

1.5 Тюнинг

Глава II. Поиск оптимальной сегментации

2.1 Обзор исследований

2.2 Способы сегментации

2.2.1 Местоимения

2.2.2 Определенный артикль

2.2.3 Предлоги и союзы

2.2.4 Будущее время

2.2.5 ’inna

2.3 Диакритики

2.4 Описание эксперимента

2.5 Инструменты

2.6 Эксперименты

2.7 Результаты

Заключение

Список использованной литературы

Приложение 1. Фрагменты тестового корпуса

Приложение 2. Фрагменты фразовых таблиц

Введение
Машинный перевод является динамично развивающейся областью обработки естественного языка, широко представленной на современном рынке информационных технологий. Технологии машинного перевода позволяют получать моментальные переводы значительных объемов текста, тем самым позволяя переводчикам экономить время, а компаниям - сокращать затраты на перевод нужных им текстов.

С помощью машинного перевода в наше время решаются многие задачи, которые раньше требовали значительно большего времени и ресурсов. В качестве примера таких ситуаций можно привести локализации вебсайтов и программного обеспечения, перевод техической документации, анализ медиапространства интересующих компании регионов, ускорение деловой переписки. Помимо корпоративного сегмента, машинный перевод также широко применяется для личных целей - общения между людьми, перевода интересующих пользователя текстов и изучения иностранных языков.

Кроме непосредственного перевода текстов, машинный перевод применяется также и в ряде смежных областей, связанных с обработкой естественного языка. Например, в последнее время все более пристальное внимание обращает на себя идея сочетать машинный перевод с автоматическим распознаванием и синтезом речи, что в перспективе позволяет решить многие коммуникативные проблемы. Кроме того, важным направлением для занимающихся машинным переводом компаний является его интеграция с автоматическим распознованием текста, предоставляющая возможность перевода текста, размещенного на неэлектронных носителях. В-третьих, машинный перевод можно применять вместе с семантико-синтаксическими парсерами либо инструментами для извлечения мнений для того, чтобы анализировать интересующие компанию документы.

Статистический машинный перевод - один из наиболее популярных видов машинного перевода, наряду с переводом, основанным на правилах и гибридном переводом (сочетающим в себе элементы статистического перевода и перевода, основанного на правилах). Основной идеей статистического машинного перевода является обучение модели с помощью параллельного корпуса на целевом и исходном языке. При этом, такие лингвистические задачи, как установления соответствий между словами двух языков, определение правильно порядка слов в генерируемом тексте и обеспечение его «естественности» с точки зрения носителя решаются алгоритмически.

Важным преимуществом статистического машинного перевода является возможность быстрой разработки решений для пары языков. В самом деле, для обучения модели достаточно иметь параллельный корпус достаточного размера и вычислительные мощности для запуска программного обеспечения. При этом, для разработки систем перевода, основанных на правилах, необходимо потратить достаточно большое количество средств на специалистов, владеющих языками рассматриваемой пары. Кроме того, создание системы, способной генерировать сколько-либо приемлемые тексты на целевом языке, займет большое количество времени изза сложности и многообразия естественного языка. Вдобавок к этому, сама задача поиска лингвистов, специализирующихся в изучении некоторых языков (либо просто их носителей) часто бывает достаточно затруднительной, если ареал распространения языка далек от физического местоположения занимающейся машинным переводом компании. Статистический машинный перевод избавлен от данных недостатков: благодаря высокой степени автоматизации процесса, разрабатывать системы перевода и, в определенной степени, оценивать получившиеся результаты могут даже специалисты, не владеющие языками выбранной пары. Таким образом, использование статистического машинного перевода позволяет компаниям значительно сокращать издержки на разработку моделей перевода требуемых языковых пар и делает возможным такую разработку в крайне сжатые сроки.

Несмотря на то, что лингвистические задачи в статистическом машинном переводе решаются алгоритмически, у разработчика системы перевода все равно остаютя возможности улучшить качество продукта для выбранной пары языков. Одним из способов добиться этого является предобработка текста на исходном языке. Практическая реализация этой идеи выбирается на основе особенностей рассматриваемых языков. В частности, если в исходном языке существует тенденция включать ряд морфем в состав других слов, а в целевом - записывать их отдельно, то проведение морфологической сегментации способно улучшить поиск соответствий между словами и снизить недостаточность данных, что, в свою очередь, может благоприятно сказаться на переводе. Кроме того, в некоторых языках текст в принципе не делится на слова каким-либо явным образом. Арабскому языку свойственна запись некоторых частей речи слитно с другими словами в качестве клитиков, поэтому при переводе арабских текстов на языки, в которых не наблюдается такой особенности - к примеру, на русский - логичной кажется идея использовать морфологическую сегментацию арабской части треиноровочного корпуса.

Арабский язык является одним из наиболее распространенных в мире. Согласно некоторым оценкам, на нем разговаривает около 295 миллионов человек, что делает его пятым языком мира по численности носителей. Важности этому языку добавляет тот факт, что арабский является государственным языком ряда экономически развитых государств - экспортеров углеводородов и международным экономических центров. Кроме того, многие арабские страны традиционно предоставляют большое количество информационных поводов изза напряженной внутренней обстановки. При этом, было опубликовано достаточно малое количество исследований о машинном переводе с арабского на русский язык, что обуславливает актуальность данной работы. В частности, работы по изучению различных вариантов предобработки арабского текста для статистического машинного перевода на русский язык практически отсутствуют.

Практическая значимость исследования заключается в том, что его результаты могут помочь улучшить качество статистического машинного перевода с арабского на русский язык. Также, рассмотренные идеи могут применяться в гибридных системах перевода. Кроме того, они могут использоваться в дальнейших исследованиях по арабско-русскому машинному переводу.

Основой целью данной работы является изучение того, как морфологическая сегментация арабского текста влияет на его перевод на русский язык.

В задачи работы входило: · рассмотреть следующие этапы, необходимые для построения модели статистического машинного перевода: § выравнивание по словам параллельного корпуса на исходном и целевом языке, § построение фразовой таблицы, § создание модели перестановок, § обучение языковой модели, § работа декодера, § тюнинг, · сформулировать основные варианты сегментации, · изучить инструменты для осуществления требуемой обработки, · подготовить систему перевода, в том числе: § удалить диакритические знаки в арабском тексте, § сегментировать тесксты согласно выбранным схемам, § обучить модели перевода с помощью системы Moses, § провести тюнинг получившихся моделей, § получить оценки переводов по метрике BLEUSCORE, · проанализировать результаты.

Материалом для исследований стал корпус лекций платформы TED, доступный и на арабском, и на русском языке. Объем корпуса составлял 117 987 строк. Из данного корпуса были выделены тренировочный, тюнинговый и тестовый корпуса.

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?