Изучение классификации моделей информационного поиска. Рассмотрение булевой, векторной и вероятностной моделей. Описание схемы вычисления весов термов и метода нормализации весов по длине в байтах. Изучение критериев точности запроса и качества индекса.
Аннотация к работе
Классификация моделей Булева модель (теория множеств и булева алгебра) Векторная модель (векторные пространства и линейная алгебра) Вероятностная модель (множества , теория вероятностей) Классические модели подразумевают независимость слов (термов)Булевы модели Модель на нечетких множествах (с термом запроса ассоциировано нечеткое множество документов) Расширенная булева модель Расширяет булеву модель для использования весов термов Обобщает модель на нечетких множествах и векторную модель (выбирая метрику)Векторные модели - вычисление весов термов Частота терма в документе Обратная частота термов в коллекции Вычисление ВЕСОВНОРМАЛИЗАЦИЯ весов Преимущества длинных документов : Больше различных термов Выше частоты термов Методы нормализации : по максимальной частоте по длине вектора весов всех термов в данном документе по длине в БАЙТАХВЕРОЯТНОСТНЫЕ модели Вероятностный принцип Оценить вероятность того , что документ будет интересен пользователю Модель сетей вывода (inference networks ) На основе сети Байеса Могут имитировать булеву модель , некоторые векторные модели , обратную связь Реализована в INQUERYМОДЕЛИРОВАНИЕ языка Zipf’s Law Heaps’ Law Слова F V Размер ТЕКСТАПРЕДВАРИТЕЛЬНАЯ обработка текста Лексический анализ Исключение стоп-слов Выделение основ слов (stemming) Выбор термов для индексирования (например только существительных) Тезаурусы (выделение категорий термов)Уточнение запросов: Изменение весов термов запроса Добавление новых термов в запрос Основные подходы : Обратная связь (Relevance feedback ) Автоматический локальный анализ Автоматический глобальный АНАЛИЗКРИТЕРИИ оценки Точность Полнота Процент мусора.