Сопоставление русских поэтических текстов на основе их частотных характеристик - Дипломная работа

бесплатно 0
4.5 148
Ключевые характеристики частотного и рангового анализа. Исследование применимости авторского инварианта к анализу поэзии. Алгоритм поиска авторского инварианта. Частотный анализ русских поэтических текстов. Характеристики, подозрительные на инвариант.


Аннотация к работе
Выпускная квалификационная работа посвящена решению проблемы по сопоставлению русских поэтических текстов на основе их частотных характеристик. Одной из сравнительных характеристик может выступать авторский инвариант. Как показали предыдущие исследования, авторским инвариантом для прозаических текстов выступает частота употребления служебных слов: предлогов, союзов, частиц. Таким образом, в общем случае, можно определить автора текста, вычислив долю служебных слов в тексте, и сопоставив ее с уже имеющимися данными по авторам. В результате было получено, что частота употребления служебных слов не может являться авторским инвариантом для поэтических текстов.Данная работа относится к сфере автоматической обработки текстов. Данное исследование посвящено другой проблеме автоматической обработки текстов, а именно выявлению сходства между поэтическими текстами. Актуальность данного исследования определяется необходимостью решения проблем искусственного интеллекта в области моделирования поэзии, а также разработки методов частотного анализа русских текстов. Баевский в своей книге «Лингвистические, математические, семиотические и компьютерные модели в истории и теории литературы» рассмотрел сходство между авторами XIX-XX веков. Фоменко в работе «Авторский инвариант русских литературных текстов»[3] решают задачу поиска авторского инварианта, т.е. некоторой количественной характеристики, которая однозначно характеризует произведения одного автора или небольшого числа «близких» авторов и принимает существенно отличающееся значение для групп других авторов.Процедура частотного анализа заключается в построении частотного словаря по данному тексту. На первом шаге частотного анализа необходимо привести все словоупотребления в тексте к начальным формам, т.е. к леммам. Для этого необходимо разделить количество вхождений каждой леммы на общее количество лемм в тексте. Если леммы ранжировать по убыванию частоты, то полученный список будет представлять собой частотный словарь данного текста. В 1963 году, спустя десять лет, в Таллине был издан «Частотный словарь современного русского литературного языка», содержащий всего 2500 слов.Входными данными программы являются: морфологический словарь, анализируемый текст и конфигурационный файл модуля построения словарей. Конфигурационный файл «config.cfg» включает в себя набор признаков, по которым анализируется текст, т.е. набор частей речи. Значение 1 - включать данный тип признака в частотный словарь, 0 - не включать данный тип признака в частотный словарь. Ниже приведен список возможных параметров: · NGRAM1 = 1 - n-граммы длины 1 · CARDINALINITIALS = 1 - начальные формы количественных числительныхВ основе рангового анализа лежит вычисление коэффициента ранговой корреляции Спирмена между частотными словарями. На основе частотных словарей поэтов Баевский определял сходство между поэтами. «Мы поставили перед собой задачу вычисления расстояний (в математическом смысле слова) между этими частотными словарями или, что почти одно и то же, между тематикой отдельных книг или всего творчества поэтов или, несколько более условно, между их художественными мирами. Он оказал значительное влияние на русскую литературу, следовательно, ожидалось, что наиболее частотные слова у других поэтов должны совпадать или почти совпадать со словами Пушкина. Исследование показало, что среди 30 частотных слов Пушкина только два слова не встречаются среди 30 частотных слов других поэтов.В данном главе рассматривается метод анализа текстов, разработанный Валентиной Поликарповной Фоменко и Тимофеем Григорьевичем Фоменко. Таким образом, такая характеристика позволит определить плагиат в текстах и установить авторство. Однако эксперименты показали, что использование отдельных слов не позволяет обнаружить инвариант, так как при больших объемах текстов, оно начинает подчиняться общим законам языка, что не позволяет различить авторов. Под авторским инвариантом понимается количественная характеристика литературных текстов (некий параметр), которая: 1) Однозначно характеризует своим поведением произведения одного автора или небольшого числа "близких авторов"; Из этого определения следует, что авторский инвариант позволяет установить «близость» авторов.Если данная характеристика может служить авторским инвариантом, то, по второму свойству, ее значения должны слабо колебаться в разных фрагментах. Фоменко для обнаружения авторского инварианта выбрали следующие параметры: средняя длина предложений, средняя длина слов (слогов в слове), процент служебных слов, частота употребления существительных, глаголов, прилагательных, предлога «в», частицы «не» и количество служебных слов в предложении. Другие параметры либо «склеивают всех авторов», т.е. их значения подчиняются общим законам языка, а не являются индивидуальной особенностью писателя, либо не стабилизируются. Но параметр 2 не может служить авторским инвариантом, так как его значения для большинства разных авторов чрезвычайно близки.

План
Содержание частотный инвариант поэзия

Введение

Глава 1. Частотный анализ

1.1 Частотный анализ

1.2 Программное обеспечение

1.3 Ранговый анализ

Глава 2. Исследование применимости авторского инварианта к анализу поэзии

2.1 Авторский инвариант Фоменко

2.2 Алгоритм поиска авторского инварианта

2.3 Применение авторского инварианта к поэзии

2.4 Характеристики, подозрительные на инвариант

Глава 3. Частотный анализ русских поэтических текстов

3.1 Частотный анализ имен существительных

3.2 Частотный анализ имен прилагательных

Заключение

Список литературы

Аннотация
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?