Обзор технологии Text Mining. Алгоритмы для многоклассовой классификации текстов для выделения тега. Моделирование нейронной сети с использованием среды программирования Python для анализа данных и построения предсказательных моделей и библиотек.
Аннотация к работе
В результате развития и совершенствования возможностей автоматизированных вычислений происходит активное развитие методов автоматической обработки данных или интеллектуального анализа данных, который называется Data Mining. Составляющие Data Mining Сферы, в которых применяются методы Data Mining не ограничены, и в последние годы это подтверждается все большим распространением Data Mining в разные сферы деятельности. С помощью технологий Data Mining можно анализировать поведение пользователей и принимать решения о выдаче им кредитов, а также анализировать и уменьшать риски, связанные с его невозвратом. Благодаря методам Data Mining страховые компании научились выявлять мошенничество, за счет анализа заявлений о выплате страхового возмещения, которые были признаны мошенническими.Основной особенностью технологии Text Mining является возможность анализировать большой объем неструктурированной и неупорядоченной текстовой информации, также он может использоваться для обработки текстов в структурированный текстовый блок данных, с которым уже будет возможность применять классические методы Data Mining. Технология Text Mining с помощью математических методов анализирует полученную информацию и позволяет получать результат с элементами знания. Программы, которые решают задачи Text Mining должны оперировать естественным человеческим языком и при этом понимать семантику анализируемого текста. Далее детально рассмотрим задачу классификации текстов, так как целью данной работы является выделение тега в тексте, а это задача многоклассовой классификации. Классификация заключается в определении принадлежности объекта к одному из заданных классов.В 1943 году Мак-Каллоком и Питтсом была разработана одна из первых компьютерных моделей нейронной сети, в основе которой находились математические алгоритмы и теория деятельности головного мозга человека [9, 22]. В основе двух подходов исследований нейронных сетей находится модель Мак-Каллока-Питтса. При объединении большого количества нейронов в одну сеть можно добиться системы, которая способна решать сложные задачи. Искусственный нейрон представляет собой структурную единицу нейронной сети и является аналогом естественного нейрона, математически нейрон представляет из себе определенную простую функцию, которую он применяет к входящему сигналу. Синапс - это однонаправленные входные связи, которые соединены с выходами других нейронов, и обладают аксоном - выходной связью данного нейрона, благодаря чему сигнал подается на синапсы других нейронов.Для выполнения кодирования слов сначала необходимо обучить словарь всех используемых в наборе данных слов, который будет использоваться для всех дальнейших шагов. Например, слово class, которое как мы уже выяснили из графика на рисунке 22, является самым популярным, получит числовой идентификатор 1, слово name - 2 и так далее. Данный метод, используя словарь, который мы получили на предыдущем шаге с помощью метода Tokenizer(), заменяет слова в объекте на их числовой идентификатор. Метод texts_to_sequences(), будет оставлять в последовательности только те слова, идентификатор которых меньше или равен значению num_words. Применив метод texts_to_sequences() к предложению, мы получили последовательность идентификаторов слов, которые попали в указанный порог в параметре num_words.Значения полученных метрик качества классификации c помощью Vowpal Wabbit приведены в таблице 3. На рисунке 29 можно посмотреть этапы обучения нейронной сети: Рисунок 29. Проведем небольшой анализ допущенных ошибок в модели, проанализировав в каких классах нейронная сеть наиболее часто ошибается. Проанализируем, метки каких классов модель выбирает вместо данного класса. Наиболее часто модель выбирает классы jquery, angularjs, которые являются дополнительными модулями для языка javascript, поэтому данные ошибки нельзя назвать серьезным промахом в классификации, так как вопросы с данными темами так или иначе относятся к теме javascript.Сделан обзор технологии Text Mining и задач, решаемых с помощью данной технологии. Произведен обзор нейросетевых технологий: как устроена искусственная нейронная сеть, какие задачи можно решать с помощью нейросетей. На основе проделанного обзора нейронных сетей реализованы архитектуры нейронных сетей типа LSTM, GRU и полносвязной нейронной сети для решения задачи выделения тега в тексте.