Проект системы поддержки принятия решений для рубрикации научных текстов с учетом их особенностей. Исследование искусственных нейронных сетей, логистической регрессии. Анализ данных, извлечение признаков из текстов, разработка настольного приложения.
Аннотация к работе
Федеральное государственное автономное образовательное учреждение высшего образования Национальный исследовательский университет «Высшая школа экономики» Тема: Разработка системы поддержки принятия решений для рубрикации научных текстовЗадача автоматической рубрикации текстов с каждым годом становится все более и более актуальной в связи с возрастающим количеством текстовой информации, хранимой в сети Интернет. Для решения этой задачи успешно применяются алгоритмы машинного обучения, в частности, обучения с учителем. Данное исследование нацелено на разработку приложения, использующего модель данных, которая обладала бы возможностью определять вероятность принадлежности текста к категориям определенного рубрикатора, то есть работала в режиме системы поддержки принятия решений (СППР).Настройка параметров модели классификации текста (обучение модели), требует наличия размеченных обучающих данных, содержащих список текстов и меток классов, к которым относятся тексты. Ее характеристики, такие как средняя длина текста и распределение текстов по рубрикам, играют важную роль при выборе модели машинного обучения и подборе ее гиперпараметров. В исследовании используется представление текста в виде вектора усредненных семантических признаков на базе контекста. Как только этот этап пройден, модели готовы к обучению и тестированию, на основе результатов которого проводится анализ и делаются выводы о применимости той или иной модели к решаемой задаче. Приложение должно генерировать рекомендацию по рубрикации входного текста, то есть определять возможные рубрики и вероятность принадлежности текста к этим рубрикам, работая как система поддержки принятия решений.Рассмотрим ключевые среди них на предмет применимости для решения задач классификации в ВИНИТИ РАН. В функционал приложения входит классификация по произвольному рубрикатору, семантический анализ текста, а также множество вспомогательных функций. С точки зрения программной реализации, Smart Classifier SDK требует достаточно много вычислительных ресурсов (64-разрядный 4-х ядерный процессор с тактовой частотой 2 ГГЦ или выше), а также большого объема памяти (8 Гб, для каждого ядра процессора рекомендуется иметь по 2 Гб дополнительной оперативной памяти). IBM Watson Natural Language Classifier [3] - это облачная платформа, позволяющая задействовать вычислительную мощность суперкомпьютера IBM Watson для решения задачи классификации текста. Инструмент LPU (Learning from Positive and Unlabeled data) [4], разработанный в Университете Иллинойса и Чикаго, позволяет использовать EM-алгоритм и метод опорных векторов для бинарной классификации текста по произвольному рубрикатору.Алгоритмы машинного обучения с учителем способны работать с числовыми векторами, а не с текстами на естественном языке. В ряде недавних исследований было продемонстрировано преимущество word2vec в сравнении с ранее использовавшимися статистическими подходами, например, при ее применении в тандеме с LSTM сетями [7], хотя в другом недавнем исследовании [8] авторы не смогли экспериментально продемонстрировать существенное преимущество семантического подхода по сравнению со статистическим в экспериментах по классификации текстов с различным числом меток классов.На сегодняшний день в ряде исследований была продемонстрирована эффективность применения различных моделей классификации к текстам на естественном языке. Одним из важных направлений в последних исследованиях классификации текста является эксперимент с алгоритмами на основании использования центроидов, которые считаются перспективными для многоклассовой классификации.В исследованиях, посвященному этому алгоритму [10, 11], уделяется внимание основному преимуществу этого алгоритма - возможности построения нелинейной разделяющей поверхности при помощи ядер.В работах, посвященных применению нейронных сетей (ИНС) для классификации текста [12, 13], делается акцент на эффективность рекуррентных нейронный сетей. В частности, архитектура LSTM [13] рассматривается как перспективный выбор для проектирования нейросети для решения данной задачи.Сивакумар [15] наивный байесовский классификатор рассматривается как быстрый и легкий в реализации алгоритм, который, тем не менее, показывает низкие результаты при высокой корреляции между признаками входных данных. Причиной этой проблемы является предположение о независимости слов между собой, лежащее в основе наивного байесовского подхода. В обзоре утверждается, что в большинстве случаев наивный байесовский классификатор позволяет проводить быструю категоризацию текстов с достаточным качеством.В последнее время применение алгоритмов бустинга для улучшения результатов простых классификаторов также пользуется интересом в академической среде.В статье [16] рассмотрены публикации в социальной сети Twitter и статьи из Википедии со средней длиной 18 и 65 слов соответственно.
План
Оглавление
Введение
1. Постановка задачи
2. Обзор существующих решений
2.1 Программные продукты
2.2 Предобработка
2.3 Извлечение признаков
2.4 Классификация
2.4.1 Метод центроидов и алгоритм K ближайших соседей
2.4.2 Метод опорных векторов
2.4.3 Искусственные нейронные сети
2.4.4 Наивный байесовский классификатор
2.4.5 Алгоритмы бустинга
2.5 Особенности задачи, рассмотренные в других работах
2.5.1 Влияние длины текста на качество классификации
2.5.2 Влияние количества классов на качество классификации
2.5.3 Влияние языка текста на качество классификации
2.5.4 Заключение обзора решений
3. Анализ данных для обучения
4. Подходы к интерпретации задачи и оценке качества классификации
5. Методы проведения экспериментов
5.1 Предобработка данных
5.2 Извлечение признаков из текста
5.3 Классификация
5.3.1 Логистическая регрессия
5.3.2 Случайный лес
5.3.3 Искусственная нейронная сеть
5.3.4 Метод опорных векторов
6. Разработка функциональной составляющей ATC
6.1 Среда работы приложения и используемые программные компоненты
6.2 Структура приложения
6.3 Графический интерфейс пользователя
6.4 Консольный режим работы
6.5 Анализ производительности
7. Анализ результатов
7.1 Результат работы классификатора на кодах отделов
7.2 Результат работы классификатора для кодов реферативных журналов
7.3 Результат работы классификатора на кодах ГРНТИ