Изучение методов успешного поиска информации в сети Интернет без построения индекса, основываясь только на локальной информации. Описание технологии извлечения содержимого веб-страниц. Характеристика преобразования содержимого страниц с помощью TF-IDF.
Аннотация к работе
С развитием структуры сети Интернет, количество информации растет с поражающей скоростью. В рамках работы было интересно посмотреть, насколько успешно можно осуществить поиск информации в сети Интернет без построения индекса, основываясь только на локальной информации. Альтернативный взгляд на проблему - представить население в качестве графа социальной сети и предпринять попытку найти среднюю длину пути между двумя любыми вершинами. Навигационный Тесный Мир-граф, в котором имеется возможность от каждой вершины алгоритмом, использующем только локальную информацию, найти любую другую заданную вершину, на основании информации содержащейся в каждой вершине. Необходимо смоделировать ситуацию, в которой web-crawler сможет найти страницу, которая будет максимально релевантная заданному запросу, переходя от одного сайта к другому, на основании ссылок, содержащихся на каждой странице.Данный датасет представляет из себя слепок интернета за 2012 год, Он состоит из 733 019 372 страниц на английском языке, собранных в период с 10 февраля 2012 года по 10 мая 2012 года. Датасет представляет из себя собранные веб-документы в формате WARC, собранные следующим способом: большая часть документов была собрана с помощью программы Internet Archive"s Heritrix Web Crawler, распределенной между пятью серверами со стандартными настройками. Также были предоставлены 5 950 ссылок на сайты, связанные с туризмом и путешествиями. Также были отсортированы сайты, распространяющие спам, вирусы и прочие ссылки, которые не могут быть востребованы для исследовании и анализа структуры Web. Web-crawler фильтровал ссылки, содержащие спам, фишинг, вирусы, ресурсы для хранения файлов (файловые хостинги).Для обработки данного датасета был выбран язык Java. Для обработки архивов формата WARC изначально была выбрана библиотека JWAT Изза невозможности разархивировать всю коллекцию (как было описано раннее, размер составляет более 27 Терабайт) было отдано предпочтение реализации webarchive-commons с небольшими дополнениями, так как архивы WARC в данном датасете содержат дополнительные нестандартные поля). Датасет сопровождается дополнительными данными: Таблица соответствия номера ноды в Веб-графе с URL, таблица соответствия URL с уникальным идентификатором внутри датасета, Веб-граф в расширенной версии (с содержанием нод, которые не входят в датасет).WARC (Web ARCHIVE) - формат, который предлагает “связывание” множество записей ресурсов (в нашем случае ресурсы-это веб-страницы), каждый из которых представляет набор простых текстовых заголовков и обязательных блоков данных в одном файле. Формат типа WARC является расширением формата ARC, который традиционно использовался программами типа web-crawler для хранения результатов как последовательность блоков содержимого, извлеченного из Всемирной Сети Интернет. Основанием для расширения формата ARC послужили множественные дискуссии и опыт организации International Internet Preservation Consortium (IIPC), куда входят национальные библиотеки Австралии, Канады, Дании, Финляндии, Франции, Исландии, Италии, Норвегии, Швеции, Великобритании и США. Помимо основного содержимого, который записан в формате ARC, расширенный формат WARC вмещает дополнительное (второстепенное) содержимое, такое как назначенные метаданные, событие, определяющие наличие дубликата в записях, сегментация больших веб-ресурсов.В общем случае, содержимое записи является результатом прямого запроса страницы с сервера, или попытку запроса на извлечение - веб-страницы, встроенные изображения, информация о редиректе на другой ресурс, результаты поиска имени хоста по протоколу DNS. Запись WARC состоит из заголовка и блока содержимого записи. Основные и обязательные записи, которые должна содержать каждая WARC запись: 1) WARC-Record-ID = "WARC-Record-ID" ":" uri URI (Uniform Resource Identifier) - строка, определяющая уникальное имя ресурса, содержимое которого хранится в данной записи. 5) Content-Type = "Content-Type" ":" media-type media-type = type "/" subtype *( ";" parameter ) type = token subtype = token parameter = attribute "=" value attribute = token value = token | quoted-stringРазмер их датасета уже переходит на Петабайты информации, в их коллекции более 5 000 000 000 сохраненных веб-ресурсов на разных языках, в то время как CLUEWEB12 преследовал более скромные цели - около 733 000 000 сайтов, исключительно на английском. Например, построение Веб-графа ложится на плечи исследователей, к тому же, несмотря на возможность выкачать весь датасет, который обновляется раз в несколько месяцев (последний раз - в феврале 2016 года), трудно представить, сколько ресурсов понадобится лишь для хранения такого огромного объема информации. Ранее Lemur Project предпринимал амбициозную попытку создать слепок интернета на нескольких языках, это был датасет CLUEWEB09. В нагрузку к самому архиву, проект представляет дополнительные материалы, такие как Веб-граф (более 6 000 000 вершин, дл
План
Содержание
Введение
1. Описание исходных данных
2. Технологии
3. Описание формата WARC
3.1 Файл и модель запись
4. Работа с исходными данными
4.1 Предварительная подготовка коллекции документов
4.2 Извлечение содержимого веб-страниц
4.3 Преобразование содержимого страниц с помощью TF-IDF