Разработка учебного мульмодального подкорпуса немецкого языка - Курсовая работа

бесплатно 0
4.5 117
Введение основных понятий корпусной лингвистики. Понятие учебного корпуса и лингвистической разметки. Обзор разработок мультимодальных корпусов и изучение их структуры. Создание русско-немецкого подкорпуса. Разметка текстов и аннотирование данных.


Аннотация к работе
Работа с корпусами, то есть с массивами текстов, представленными в компьютерном виде, давно уже стала одним из основных методов лингвистических исследований, при помощи которого могут решаться самые разные задачи. Одним типом таких корпусов являются учебные корпусы, которые используются при обучении иностранному языку и в лингвистической педагогике. Корпусный подход, или метод лингвистического исследования, основанный на корпусах текстов, ориентирован на прикладное изучение языка, его функционирование в реальных средах и текстах, что важно для преподавания языка. Еще одним новым и перспективным направлением является создание мультимодальных (мультимедийных) корпусов текстов, или корпусов текстов звучащей речи, включающих аудио-и видеозаписи. Данные корпусы решают самые разнообразные лингвистические и экстралингвистические задачи, например, фиксирование особенностей фонетической, грамматической системы исследуемого языка, взаимосвязь между речью говорящего и его мимикой/жестами/телодвижениями и т.д.Корпусная лингвистика - раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий [Захаров В.П., Богданова С.Ю. Термин «корпусная лингвистика» был введен в употребление в 60-х годах XX века в связи с развитием практики создания корпусов, которому, начиная с 80-х, способствовало развитие вычислительной техники. Как социальный феномен язык проявляет себя в текстах, которые можно записать, описать и проанализировать. Для корпусной лингвистики, язык - это виртуальное функционирующее явление, которое может быть зафиксировано и представлено в виде модели человеческой речи в текстах. В центре внимания корпусной лингвистики лежит языковая личность, т.е. ее речевая деятельность, массовая коммуникация, проблема ее описания.Одним из таких перспективных приложений является разработка учебных корпусов текстов (Learner Corpora), ориентированных на лингводидактический формат и применимых для анализа языка и речи тех, кто изучает иностранный язык. Под учебным корпусом (Learner Corpus) понимается электронный корпус текстов группы лиц, изучающих иностранных язык [25]. Корпусные технологии позволили обнаружить наиболее распространенные ошибки в словоупотреблении и словообразовании, характер которых заставил пересмотреть содержание многих учебных материалов, поскольку выявленные отклонения от нормы свидетельствовали о влиянии интерференции родных языков инофонов и так называемой «промежуточных грамматик» или, от чего не предупреждает ни один традиционный учебник или учебный словарь. Разметка дает возможность идентифицировать тексты по различным параметрам, позволяя осуществлять осмысленный поиск по корпусу. Разметка должна быть независима от текста: должна быть возможность убрать разметку и просмотреть текст без нее и, наоборот, вычленить только разметку.Корпус включает в себя аргументативные эссе, написанные студентами 3-4 курсов продвинутого языкового уровня. Версия 1.1 ICLE, изданная на CD-ROM в 2002, содержала более чем 2.5 миллиона слов в форме 3 640 текстов, располагающихся между 500-1 000 словами по длине. Корпус все еще расширяется дополнительными подкорпусами (каждый содержит по 200 000 слов) студентами из восьми других стран, включая Бразилию, Китай, Японию, Литву, Норвегию, Португалию, Турции, а также студентами Южной Африки носителями языка Тсвана. Более чем восемь миллионов слов (или приблизительно 25 000 подлинников) были закодированы для ошибок, используя Учебную Кодирующую Систему Ошибок, развитую издательством Кембриджского университета. В настоящее время получить доступ к корпусу могут только авторы текстов и авторы, работающие на издательство Кембриджского университета, а также члены штата в Кембридже ESOL ().Мультимодальный корпус - это «аннотированная коллекция взаимосвязанного контента (выровненных текстов, аудио-и видеозаписей актов коммуникации), используемая в качестве модели дискурса». [29] Корпус такого рода, кроме текстовой составляющей, включает видео-или аудиозаписи процесса коммуникации с привязкой к тексту. Являясь «аннотированной коллекцией взаимосвязанного контента, мультимодальный корпус может быть использован в качестве модели дискурса» .Первым учебным корпусом устной речи стал корпус LINDSEI. Технология подготовки материалов для корпуса предполагает расшифровку видео и аудиоматериалов, произведенную с высокой степенью подробности (т.е. включая не только собственно слова, но и междометия, возгласы, а также оговорки); фрагментирование видео и аудио материалов на относительно самостоятельные отрезки (длительностью от10 до 20секунд); фрагментирование текстовых расшифровок, или транскриптов; выравнивание мультимедийных и текстовых фрагментов между собой. Что касается корпуса, то в нем аудио-и видеоматериалы, выровненные с текстом, снабжены сложной лингвистической и металингвистической разметкой и снабжены инструментом поиска - и это расширяет возможности их использования. Корпус

План
ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

ГЛАВА I. ПОНЯТИЕ УЧЕБНЫХ И МУЛЬТИМОДАЛЬНЫХ КОРПУСОВ

1.1 Введение основных понятий корпусной лингвистики

1.2 Понятие учебного корпуса и лингвистической разметки

1.3 Краткий обзор разработок по созданию учебных корпусов текстов

1.4 Мультимодальные корпусы текстов

1.5 Обзор разработок мультимодальных корпусов и изучение их структуры

1.6 Учебный Мультимодальный Корпус

ВЫВОДЫ ПО ПЕРВОЙ ГЛАВЕ

ГЛАВА II. РУССКО-НЕМЕЦКИЙ ПОДКОРПУС УМКО

2.1 Подготовка материалов и создание русско-немецкого подкорпуса

2.2 Разметка текстов и аннотирование данных

2.3 Анализ ошибок

2.4 Установление причин возникновения ошибок и поиск решения их устранения

ВЫВОДЫ ПО ВТОРОЙ ГЛАВЕ

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

ПРИЛОЖЕНИЕ 1

ПРИЛОЖЕНИЕ 2

ПРИЛОЖЕНИЕ 3
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?