Анализ гипертекстовых документов с различных сайтов с целью автоматизированного сбора данных - Дипломная работа

бесплатно 0
4.5 174
Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
Известно наличие существенного рассогласования между информационными потребностями конкретного пользователя и их выражением в виде запросов на поиск информации, подготовленных для той или иной информационной системы. Далеко не каждый пользователь способен четко выразить свои информационные потребности. Первая, более простая, связана с необходимостью овладеть языком запросов конкретной информационной системы. Более серьезным является необходимость сбора статистики о конкретной поисковой системе. Включаемые в запрос термины должны обладать значительной дискриминационной силой, иными словами, не разумно включать в запрос те термины, которые в данной коллекции являются общеупотребительными, т.е. встречаются почти в каждом документе. Далее, необходимо оценить реальную пользу от использования различных возможностей поиска, предоставляемых данной системой. В отличие от языка запросов к реляционной базе данных, например, SQL, которые позволяют получить именно те данные, которые запрашиваются, в документальных поисковых системах результат поиска зависит от огромного числа факторов. Понятие релевантность используется в мире информационного поиска очень широко. Для проведения тестирования в TREC используются подготовленные экспертами запросы, для которых заранее известны номера релевантных документов. Актуальность задачи, связанной с созданием поисковых систем определяется рядом факторов: в связи с растущим объёмом информации требуются новые поисковые средства; необходимо повысить качество (релевантность) находимой информации Цель дипломной работы: - изучить существующие поисковые системы, - разработка структуры и реализовать новую поисковую систему в Интернет, - разработка алгоритмов поиска информации и определения релевантности найденных документов, - исследование разработанных алгоритмов. Назначение системы - обеспечение более качественного (релевантного) нахождения информации. Основными задачами, решаемыми в работе, являются: анализ и исследование существующих поисковых систем в Интернет; разработка структуры поисковой системы; разработка алгоритмов поиска и определения релевантности документов; исследование разработанных алгоритмов. Дипломная работа состоит из введения, обзора состояния проблемы и постановки задачи, теоретической части, программной части, исследовательской части, организационно-экономической части, раздела охраны труда, заключения, списка литературы и приложений. В разделе охрана труда и безопасность жизнедеятельности освещены вопросы, связанные с условиями труда и требованиями, предъявляемыми к организации рабочего места оператора ЭВМ. Обзор состояния проблемы и постановка задачи 1.1 Обзор поисковых систем Будем представлять Web как совокупность сайтов, каждый из которых содержит множество документов. В этом случае информационная потребность должна быть выражена в виде фразы (запроса) на специальном информационно-поисковом языке (ИПЯ) [7]. Рисунок 1.1 - Информационно-поисковая система. Например, сравнивая классификаторы многих ИПС Интернет (таких, как Yahoo, Excite, Look Smart), замечаем, что во многих из них нет раздела Наука. В частности, одним из обязательных требований становится поддержка любой поисковой системой единых команд запросов, локализующих узел по его доменному имени, а документ - по URL [14]. К ведущим российским словарным ИПС относятся: Яndex ( Рамблер ( Апорт ( Наиболее развитый сервис поиска русскоязычной информации предоставляет сервер Яndex ( В Яndex пользователь может просто написать по-русски фразу, описывающую то, что он хочет найти. Достаточно удачная архитектура продукта позволяет Рамблеру иметь для поисковика количество серверов в 2 раза меньшее, чем у Яндекса, и в 3 раза меньшее, чем у Апорта. 1) Самым простым методом является поиск куска текста в документах - аналог тому поиску, что используется в документах Microsoft Office или Windows Commander.

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?