Требования к функционалу программной реализации, предварительная обработка текстовых данных. Программная реализация, описание логической структуры. Зависимость качества от числа авторов и от объёма текстов. Особенности и значение индексации документов.
Аннотация к работе
С ростом объемов хранимой и обрабатываемой информации, представленной в виде текстов на естественных языках, остро встает проблема идентификации и определения авторства того или иного текстового источника - задача авторской атрибуции. Подобная задача может быть успешно решена посредством профессиональной лингвистической экспертизы, однако такой метод характеризуется высокой стоимостью и большими трудозатратами лингвиста, вследствие чего не представляется возможным масштабировать такой подход применительно к большим объемам информации, и актуальным является создание автоматических методов лингвистической экспертизы. В настоящее время реализовано и апробировано большое количество методов по автоматизированному определению авторства текстов на естественных языках с использованием статистического анализа и подходов машинного обучения. Программная реализация предложенного метода должна быть апробирована на экспериментальной выборке из русских литературных произведений с установлением показателей качества атрибуции текстов.Идентификация подразумевает проверку документа на истинность авторства и необходима в случаях, когда требуется удостовериться в истинности авторства.Программа использует метод энтропийного анализа, суть метода заключается в том, что к анонимному документу последовательно добавляются фрагменты документов с известным авторством, после чего модифицированные тексты обрабатываются алгоритмами сжатия. Анонимному тексту присваивается авторство того документа, фрагмент которого в совокупности с исходным текстом показал наибольшую степень сжатия. Наибольший результат в 89 % был продемонстрирован на выборке из 1813 статей 50 авторов, однако для оценки точности использовалась лишь десятая часть от исходной выборки. Эксперименты были поставлены на выборках до 900 слов, однако авторы в явном виде не приводят результаты экспериментов, по которым можно было бы оценить их качество. Автор данной системы извлекает из каждого текста выборки различные признаковые описания, далее решение сводится к задаче классификации текстов по этим признакам.В общем случае построение модели машинного обучения принято делить на основные этапы, которые включают в себя сбор данных, очистку данных, извлечение признаков данных, алгоритмическую обработку признакового описания и оценку результата. В группе задач по классификации текстов принято придерживаться подобных подходов [8], на рисунке 1 представлена диаграмма последовательности этапов построения подобной модели применительно к задаче АА.В области классификации текстов, как правило, проводят следующие этапы предварительной обработки [9]. · Удаление стоп-слов, к ним относят союзы, междометия, местоимения, предлоги, а также самые часто встречающиеся слова. Все слова текста приводятся в их начальные формы так, например, слово «люди» превращается в «человек». В рамках задачи АА данный шаг может ухудшить качество алгоритма в связи с уменьшением числа разных словоформ, которые могут описывать авторский стиль.Индексация документов является обязательным шагом любой классификации, данная задача представляет собой присваивание метки класса каждому тексту, при АА в качестве класса выступает автор произведения.В задаче АА необходимо выделить такие числовые характеристики каждого текста, которые будут максимально полно описывать стиль автора. В работе [11] было проведено сравнительное исследование большого числа признаков, извлекаемых из текстовых документов, и их влияние на качество АА методами классификации текстов. В результате, наилучшие показатели точности в задаче определения авторства текстов были продемонстрированы такими признаковыми описаниями как распределение слов («Мешок слов») и распределение N-грамм символов исходного документа. При большом количестве и объеме текстовой выборки размер векторного описания может достигать значения в 10000-15000, что является недостатком данного признака, однако именно «Мешок слов» наиболее полно описывает текстовый документ. Распределение N-грамм похоже на признак «Мешок слов» и также представлено вектором на пространстве словаря всех возможных комбинаций символов текста, где значение на каждой координате равно количеству той или иной N-граммы, встречающейся в данном тексте.В задачах АА при подборе алгоритма классификации обычно используют следующие методы [8, 11]: наивный байесовский классификатор, линейная и нелинейная формы метода опорных векторов, а также метод k-ближайших соседей.
План
Оглавление
Введение
1. Анализ существующих решений
1.1 Обзор готовых программных продуктов
1.2 Общие подходы
1.2.1 Текстовые документы
1.2.2 Предварительная обработка текстовых данных
1.2.3 Индексация документов
1.2.4 Извлечение признаков
1.2.5 Алгоритм классификации
1.2.6 Оценка результатов
2. Описание предлагаемого метода АА
2.1 Требования к реализуемому методу
2.2Требования к функционалу программной реализации