Общая характеристика закона Хипса и Ципфа. Особенности ранжированного поиска. Рассмотрение примеров косинусной близости. Анализ основных способов сокращения индекса. Знакомство с основными моделями векторного пространства. Проблемы отсечения кластеров.
Аннотация к работе
Для европейских языков ? принимает значение от 10 до 100, а ? - от 0.4 до 0.6.Закон Хипса (Heaps’ law ) Reuters-RCV1 Пунктирная линия построена по методу наименьших квадратов log 10 M = 0.49 ? log 10 T 1.64 Получаем: M = 10 1.64 T 0.49 k = 10 1.64 ? 44 b = 0.49.Закон Ципфа (Zipf’s law ) Моделирование распределения терминов Наиболее частый термин встречается cf 1 раз , второй по частоте , третий и т.д. 2223 Частота терминов tf Частотой терминов tf t,d термина t в документе d называют количество появлений термина t в d . Документ, содержащий эти термины, более релевантен , чем документ, в котором этих терминов нет . 32 слово Частота в коллекции Документная частота INSURANCE TRY 10440 10422 3997 876033 tf-idf взвешивание tf-idf вес термина определяется его tf-весом и его idf - весом . tf - вес idf - вес “-” в tf-idf не минус, а дефис ! tf.idf, tf x idf 3334 Итог : tf-idf Определим tf-idf вес для каждого термина t в каждом документе document d : tf-idf вес . 35 Quantity Symbol Definition term frequency (частота термина) document frequency (документная частота) collection frequency (частота в коллекции) tf t,d df t cf t Количество появлений термина t в d Количество документов в коллекции, в которых есть t Общее количество появлений термина t в коллекции36 Бинарная матрица инциденции Каждый документ представлен двоичным вектором ? {0, 1} | V |.