Характеристика классификации документов - Реферат

бесплатно 0
4.5 76
Исследование отличий классификации текстов от кластеризации. Особенность построения некоторой числовой модели текстовой системы. Анализ байесовской концепции как вероятностного метода обучения. Суть нахождения наиболее вероятного класса документа.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
МИНИСТЕРСТВО образования и науки, молодежи и спорта Украины Одесский национальный политехнический университет Кафедра экономической кибернетики и информационных технологийКлассификация документов - одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа. Классификация может осуществляться полностью вручную, либо автоматически с помощью созданного вручную набора правил, либо автоматически с применением методов машинного обучения. Специалист, знакомый с предметной областью и обладающий навыком написания регулярных выражений, может составить ряд правил, которые затем автоматически применяются к поступающим документам для их классификации. В машинном обучении сохраняется необходимость ручной разметки (термин разметка означает процесс приписывания класса документу). Знаменатель опущен, так как не зависит от c и, следовательно, не влияет на нахождение максимума; P(c) - вероятность того, что встретится класс c, независимо от рассматриваемого документа; P(d|c) - вероятность встретить документ d среди документов класса количество документов в классе c, N - общее количество документов в обучающем множестве.Следует отличать классификацию текстов от кластеризации, в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют.

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?