Измерение лексической диалектности носителей. Совершенствование словаря нераспознанных лексем и создание грамматического словаря на основе всех слов корпуса. Сравнение лексических и фонетических показателей. Улучшение интерфейса для работы со словарем.
Аннотация к работе
В данной работе можно выделить три задачи, которые необходимы для дальнейших исследований, основанных на Устьянском корпусе. В них входят измерение лексической диалектности всех носителей, совершенствование словаря нераспознанных лексем и создание грамматического словаря на основе всех слов корпуса. Первая задача, измерение диалектности, необходима для того, чтобы увидеть, какие поколения и носители более диалектны. Совершенствование словаря нераспознанных лексем также важно для будущих исследований на основе корпуса, так как в нем имеются определения слов, которые встречаются в корпусе. Работа над словарем началась еще в прошлом году, но осталось еще некоторое количество нерешенных проблем.Диалектность здесь понимается как количество диалектных слов, употреблявшихся носителем.Несмотря на то, что данный раздел нельзя полностью отнести к диалектометрии, так как использованные в работе статистические методы гораздо проще, и основной подсчет диалектности выполнялся в программе на языке Python, хотелось бы остановиться на существующих подходах в диалектометрии, чтобы оценить разницу в задачах и методах их решения. Для обзора существующих подходов была выбрана работа (Nerbonne, Kretzschmar 2003), так как она содержит материалы, представленные на конференции Methods in Dialectology XI в 2002 году. В статье (Heeringa, Braun 2003) измеряется расстояние между диалектами (dialect distances). В работе используется алгоритм Левенштейна для сравнения слов с двумя вариантами произношения. Кроме того, исследование показало, что использование логарифмических расстояний между звуками (logarithmic sound distances) улучшаает результаты по сравнению с использованием постоянных расстояний между звуками (constant sound distances).Для измерения диалектности использовались программа на языке Python, список диалектных слов, полученный в работе (Калашникова 2016) и все тексты Устьянского звукового корпуса, предоставленные Рупрехтом фон Вальденфельсом. Кроме того, существовал "мусор" вроде "оборванных" слов, примечаний расшифровщиков и слов, которые расшифровщик не расслышал. Кроме того, в список входили только нераспознанные лексемы, поэтому, например, в списке диалектных слов отсутствует слово "бают", но присутствует слово "бает". Например, в списке последовательно идут слова "аржаная", "аржаной", "аржаные", и каждое слово считалось программой за уникальное вхождение. Далее программа для каждого информанта искала диалектные слова из списка в текстах данного конкретного говорящего.В статье указано, что у информантов егп1928 и кип1931 доля перехода ниже, чем у других информантов этого поколения. Кроме того, у информанта пфп1928 была отмечена самая большая сохранность диалектного варианта реализации рефлекса, однако диалектность этого информанта не самая высокая (1,76%), хотя сам информант входит в число носителей с высоким показателем диалектности. Примечательно, что слово "люля" можно назвать относительно частотным (33 употребления), однако употреблялось оно только одним информантом (епл1926). Однако для таблицы 4 были просмотрены все употребления слова "робят" и случаи, когда это слово являлось формой существительного, не заносились в таблицу. Примечательно, что все эти слова в корпусе помечались треугольными скобками, что свидетельствует о том, что слово могло быть неправильно затранскрибировано (либо плохое качество записи, и слова просто не слышно, либо расшифровщик текста был не уверен в том, что он услышал).Данная работа посвящена Устьянскому звуковому корпусу. Работа охватывает широкий круг задач: от подсчета диалектности информантов до создания грамматического словаря, включающего в себя все слова из корпуса. В первом разделе описан процесс измерения диалектности, который производился с помощью программы на языке Python. Результаты показали, что особой корреляции между возрастом носителя и его диалектностью у представителей "среднего" поколения нет, но самое старшее поколение (1922-1930 годов рождения) более диалектное по сравнению с остальными, а особенно с младшим поколением. Это информанты старшего поколения, использующие большее количество диалектных слов, чем другие представители этого же поколения, или представители более молодого поколения, использующие большое количество диалектной лексики.
План
Оглавление
Введение
1. Измерение диалектности
1.1 Обзор существующих подходов
1.2 Измерение диалектности
1.3 Сравнение лексических и фонетических показателей
1.4 Частотный список
2. Работа над словарем нераспознанных лексем
3. Создание грамматического словаря
Введение
В данной работе можно выделить три задачи, которые необходимы для дальнейших исследований, основанных на Устьянском корпусе. В них входят измерение лексической диалектности всех носителей, совершенствование словаря нераспознанных лексем и создание грамматического словаря на основе всех слов корпуса.
Все эти задачи имеют практическое значение.
Первая задача, измерение диалектности, необходима для того, чтобы увидеть, какие поколения и носители более диалектны. Это в свою очередь может помочь исследователям устьянского диалекта, так как создаст возможность получить готовую информацию о лексической диалектности носителей. В основе этой задачи лежит гипотеза о том, что старшее поколение более диалектное. Проблема состоит в том, что невозможно точно определить, какое поколение считать более консервативным. Для этого и нужен автоматическое измерение диалектности, чтобы понять, какое поколение использует больше диалектных слов. Кроме того, были рассмотрены некоторые работы по диалектометрии, а также работа (Daniel et al. 2017), результаты которой сравнивались с результатами измерения лексической диалектности.
Совершенствование словаря нераспознанных лексем также важно для будущих исследований на основе корпуса, так как в нем имеются определения слов, которые встречаются в корпусе. Работа над словарем началась еще в прошлом году, но осталось еще некоторое количество нерешенных проблем. Так, собственные толкования в словаре были неточными, и для их уточнения была совершена поездка в поселок Октябрьский Архангельской области. Кроме того, были сделаны некоторые улучшения интерфейса для более удобной работы со словарем.
Наконец, грамматический словарь будет полезен для исследователей, так как будет возможность увидеть парадигмы для всех слов, представленных в корпусе.
Для всех представленных выше задач использовались разные методы, в основном программные. Для первой задачи была написана программа на языке Python, которая считает количество диалектных слов во всех текстах корпуса. Для грамматического словаря использовалась программа, преобразующая данные из таблицы excel в html-разметку. Кроме того, использовалась программа автоматического морфологического анализа русских письменных текстов Mystem, разработанная компанией Яндекс. Систематизирование данных производилось в программе Microsoft Excel. Для совершенствования словаря нераспознанных лексем не использовалось никаких новых программных методов. Данные собирались в поселке Октябрьский и далее систематизировались в программе Microsoft Excel. Затем данные были преобразованы в html-разметку с помощью программы на языке Python, которая использовалась для первой версии словаря.
В первой главе описана процедура измерения диалектности, во второй - работа над совершенствованием словаря нераспознанных лексем, и, наконец, в третьей главе описан процесс создания грамматического словаря.
Вывод
Данная работа посвящена Устьянскому звуковому корпусу. Основные направления работы касаются диалектологии и лексикографии. Работа охватывает широкий круг задач: от подсчета диалектности информантов до создания грамматического словаря, включающего в себя все слова из корпуса.
В первом разделе описан процесс измерения диалектности, который производился с помощью программы на языке Python. Результаты показали, что особой корреляции между возрастом носителя и его диалектностью у представителей "среднего" поколения нет, но самое старшее поколение (1922-1930 годов рождения) более диалектное по сравнению с остальными, а особенно с младшим поколением. Однако выделились инновационные и консервативные носители диалекта. Это информанты старшего поколения, использующие большее количество диалектных слов, чем другие представители этого же поколения, или представители более молодого поколения, использующие большое количество диалектной лексики. Результаты измерения лексической диалектности сравнивались с результатами, представленными в работах (Daniel et al. 2017) и (Левин 2014). В этих работах также были отмечены консервативные и инновационные носители. Кроме того, был создан частотный список, который позволяет увидеть, какие словоформы употребляются носителями чаще всего и каким количеством носителей.
Вторая часть работы сосредоточена на словаре нераспознанных лексем, который был создан в работе (Калашникова 2016). В словарь были добавлены новые толкования из обновленного "Устьянского народного словаря", кроме того, были улучшены собственные толкования, которые уточнялись в поездке в поселок Октябрьский Архангельской области.
В третьей части описан процесс создания грамматического словаря. Самым важным в создании словаря был выбор морфологического анализатора, поэтому выбор описан и обоснован достаточно подробно. Кроме того, были произведены улучшения интерфейса сайта, где располагаются словарь нераспознанных лексем и грамматический словарь. Оба словаря доступны по ссылке http://pushkinodict.pe.hu/.
Все задачи, решенные в данной работе, имеют значение для будущих исследований устьянского диалекта. Так, подсчет диалектности позволит иметь точные данные для всех носителей, и диалектность информантов не придется прикидывать. Улучшение словаря нераспознанных лексем необходимо не только для будущих исследований, но и для пользователей корпуса, так как позволит видеть определения неизвестных слов с ссылками на полные контексты. И, наконец, грамматический словарь может оказаться полезным, так как в нем можно увидеть парадигмы всех слов, вошедших в корпус.
Список литературы
1. Даниэль М.А., Добрушина Н. Р., фон Вальденфельс Р. Говор бассейна Устьи. Корпус севернорусской диалектной речи. Берн, Москва. 2013-2014. Электронный ресурс. http://slavist.de/Pushkino/login.php
2. Истомин А.А., Мамонов В.П., Силин В.П. и др. Устьянский народный словарь. П. Октябрьский, 2013.
3. Калашникова 2016 - Д.Б. Калашникова. Словарь к звуковому корпусу устьянского диалекта. Курсовая работа. М., 2016.
4. Левин 2014 - И.С. Левин. Реализация ударного этимологического* e между мягкими согласными в говоре Устьянского района Архангельской области. // Е. М. Девяткина (ред.) Проблемы языка: Сборник научных статей по материалам Третьей конференции-школы "Проблемы языка: взгляд молодых ученых". М., 2014.
5. Ляшевская и др. 2010 - Ляшевская О. Н., Астафьева И., Бонч-Осмоловская А. А., Гарейшина А., Гришина Ю., Дьячков В., Ионов М., Королева А. Н., Кудринский М., Литягина А., Лучина Е., Сидорова Е., Толдова С. Ю., Савчук С. О., Коваль С. А. Оценка методов автоматического анализа текста: морфологические парсеры русского языка // Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной Международной конференции "Диалог". Вып. 9 (16) - М.: РГГУ, 2010. С. 318-326.
6. Сичинава 2002 - Д.В. Сичинава. К задаче создания корпусов русского языка //Электронная публикация: http://www. mccme.ru/ling/mitrius/article.html. - 2002.
7. Daniel et al. 2017 (submitted) - M. Daniel, N. Dobrushina, P. Kazakova, E. Gerasimenko, D. Ignatenko, E. Makhlina, M. Ovsjannikova, S. Say, I. Shurov, A. Ter-Avanesova, M. Tsfasman, S. Verhees, A. Vinyar, R. von Waldenfels, V. Zhigulskaya. Dialect loss in the Russian North: modelling change across variables (submitted to publication).
8. Heeringa, Braun 2003 - W. Heeringa, A. Braun. The Use of the Almeida-Braun System in the Measurement of Dutch Dialect Distances. Computers and the Humanities, 37(3). P. 257-271.
9. Heeringa, Gooskens 2003 - W. Heeringa, C. Gooskens. Norwegian Dialects Examined Perceptually and Acoustically. Computers and the Humanities, 37(3). P. 293-315.
10. Kondrak 2003 - G. Kondrak. Phonetic Alignment and Similarity. Computers and the Humanities, 37(3). P. 273-291.
11. Nerbonne, Kleiwg 2003 - J. Nerbonne, P. Kleiweg. Lexical Distance in LAMSAS. Computers and the Humanities, 37(3). P. 339-357.
12. Nerbonne, Kretzschmar 2003 - J. Nerbonne, W. Kretzschmar. Introducing Computational Techniques in Dialectometry. Computers and the Humanities, 37(3). P. 245-255.
13. Palander et al. 2003 - M. Palander, L. Opas-Hanninen, F. Tweedie. Neighbours or Enemies? Competing Variants Causing Differences in Transitional Dialects. Computers and the Humanities, 37(3). P. 359-372.
14. R. v Waldenfels et al. 2014 - Ruprecht von Waldenfels, Michael Daniel, Nina Dobrushina Why Standard Orthography? Building the Ustya River Basin Corpus, an online corpus of a Russian dialect. Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции "Диалог". Вып. 13 (20) - М., 2014.
15. Segalovich 2003 - I.A. Segalovich. Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine. // MLMTA. - 2003. - P. 273-280.
16. Speelman et al. 2003 - D. Speelman, S. Grondelaers, D. Geeraerts. Profile-Based Linguistic Uniformity as a Generic Method for Comparing Language Varieties. Computers and the Humanities, 37(3). P. 317-337.