Изучение векторной и линейной моделей индексирования и поиска документов. Коррекция запросов по релевантности. Зависимость между типами поиска и подходами к ним. Определение формата и кодировки документа. Бинарное и морфологическое индексирование.
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Санкт-Петербургский государственный университет сервиса и экономики» Кафедра «Общеобразовательные и технологические дисциплины сферы обслуживания»Наряду с организацией хранения документов, их необходимо также быстро и эффективно искать. Первый состоит в том, что в процессе поиска вы ищете документ, который точно существует в системе, и ваша задача - свести процесс к его нахождению. Второй подход состоит в том, что вы ищете все документы, которые могут относиться к интересующему вас вопросу. Для него характерны такие термины, как полнота поиска - соответствие между найденными документами по данному запросу и действительному списку документов; шум при поиске - соотношение (соответствие) соответствующих и несоответствующих запросу документов. При сохранении документа в архив поля заполняются определенными значениями, в дальнейшем при поиске проверяется совпадение значений этих полей запросу.Ниже приведен разработанный алгоритм процесса индексирования документа: Присвоение документу уникального идентификатора, внесение в файл идентификаторов Определение формата документа Определение кодировки документа При индексировании нового документа в уже существующий индекс напротив слов добавляется идентификатор нового документа и номера данного слова в нем. В модели информационного потока вообще можно выделить несколько основных понятий: словарь, документ, поток и процедуры поиска и коррекции запросов.Другим важным способом улучшения качества поиска в информационно-поисковых системах стала процедура коррекции запроса по релевантности. Пользователю предоставлялась возможность отметить документы, которые являлись релевантными его запросу. После этого запрос расширялся терминами этих документов и снова вычислялось выражение для поисковых образов документов всего массива. В рамках линейной модели индексирования и поиска эта процедура может быть также выражена через матричные выражения.
План
Содержание
1. Проблема поиска и индексирования документов
2. Векторная и линейная модель индексирования и поиска документов
3. Коррекция запросов по релевантности
Список использованной литературы
1. Проблема поиска и индексирования документов поиск индексирование запрос кодировка
Список литературы
1. Методическое пособие по дисциплине «Информационные технологии в экономике».
2. Бэрри Н. «Компьютерные сети» Пер. с англ. - М. БИНОМ, 1995.
3. Андреева В.И. «Делопроизводство» - М. «Бизнес-школа «Интел-Синтез»», 1997.
4. Стенюков М.В. «Образцы документов по делопроизводству (руководство к составлению)» - М. «ПРИОР», 1996.
Размещено на .ru
Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность своей работы