Исследование отличий классификации текстов от кластеризации. Особенность построения некоторой числовой модели текстовой системы. Анализ байесовской концепции как вероятностного метода обучения. Суть нахождения наиболее вероятного класса документа.
Аннотация к работе
МИНИСТЕРСТВО образования и науки, молодежи и спорта Украины Одесский национальный политехнический университет Кафедра экономической кибернетики и информационных технологийКлассификация документов - одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа. Классификация может осуществляться полностью вручную, либо автоматически с помощью созданного вручную набора правил, либо автоматически с применением методов машинного обучения. Специалист, знакомый с предметной областью и обладающий навыком написания регулярных выражений, может составить ряд правил, которые затем автоматически применяются к поступающим документам для их классификации. В машинном обучении сохраняется необходимость ручной разметки (термин разметка означает процесс приписывания класса документу). Знаменатель опущен, так как не зависит от c и, следовательно, не влияет на нахождение максимума; P(c) - вероятность того, что встретится класс c, независимо от рассматриваемого документа; P(d|c) - вероятность встретить документ d среди документов класса количество документов в классе c, N - общее количество документов в обучающем множестве.Следует отличать классификацию текстов от кластеризации, в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют.