История развития поисковой системы русскоязычной части интернета "Апорт". Перевод запроса и ответа на английский язык и обратно. Изменение алгоритмов работы, виды поиска. Сайты, документы, их сортировка. Специальные операторы для работы в поисковике.
Поисковая система Апорт на сегодняшний день (по статистике Openstat за декабрь 2011 года) находится на 16 месте по популярности поисковых машин Рунета. Поисковая система Апорт впервые была презентована на пресс-конференции компании "Агама" в феврале 1996 года. К моменту официальной презентации, 11 ноября 1997 года, в поисковой системе Апорт был проиндексирован первый миллион документов, расположенных на 10 тысячах серверов. Конец 1999 года - в поисковую систему Апорт вложен первый миллион долларов, это позволило, некоторое время спустя, представить на компьютерных выставках "Апорт - 2000". Для разделения ресурсов на сайты Апорт использует информацию, которую предоставляет каталог ATRUS, или владельцы ресурсов. www.aport.ru - первым из поисковых систем Рунета реализовал базовые технологии Google.
План
Содержание
Апорт. История развития
История изменения алгоритмов работы
"Апорт" предоставляет несколько видов поиска
Сайты, документы, сортировка
Поиск информации с помощью системы Апорт
Заключение
Список литературы
Апорт дает весьма информативное представление найденных при поиске страниц. В блоке каждого сайта Апорт приводит информацию об одной из наиболее релевантных найденных на сайте страниц: адрес, заголовок, дата и цитата из документа. Важно, что цитаты выбираются из полного текста документа и содержат слова запроса.
Также имеется ссылка на реконструкцию полного текста документа. Она нужна, если документ недоступен на самом сайте (упал сервер, документ уже удалили и т.п.) Если нужно получить информацию о всех остальных страницах, которые Апорт нашел на сайте, то можно воспользоваться ссылкой, которая замыкает блок результатов. По этой ссылке выдается дополнительное окно, в котором отображаются результаты поиска только по данному сайту. Они состоят из блоков, данных по отдельным страницам.
Сортировка
Общие принципы Задача ранжирования результатов поиска является определяющей с точки зрения качества работы поисковой системы. Разработка хорошей функции ранжирования весьма непростая задача, в частности, изза большой неоднородности ранжируемых документов и изза попыток сознательного искажения результатов поиска с помощью поискового спама. Мощным средством повышения качества ранжирования является учет гипертекстовой структуры Интернета: ссылочное ранжирование и индекс цитируемости позволяют (хотя и не всегда) отличить качественный контент от сходного по содержанию "мусора”, а также (что особенно важно для владельцев сайтов) оригинальные материалы от их копий. Однако и здесь приходится иметь дело с теми же проблемами: неоднородностью ссылочной структуры и ее сознательным искажением спамерами.
Еще одним важным средством повышения релевантности является использование информации из каталога Апорта, которая обладает высокой степенью достоверности, так как составлена или проверена профессионально подготовленными редакторами.
Принципиальным моментом в ранжировании результатов поиска в Апорте является стремление к учету максимального количества критериев ранжирования в их взаимосвязи. В частности, заметное преимущество получают документы, имеющие высокий вес сразу по нескольким независимым критериям (например, по частотности слов запроса в тексте и ссылочному ранжированию).
Ранжирование производится исключительно автоматическими методами, мы не осуществляем специальной корректировки результатов поиска для каких-либо запросов или сайтов.
Критерии ранжирования Апорт применяет следующие критерии при ранжировании документов: * частота и взаимное расположение слов запроса в тексте документа;
* размер документа;
* присутствие и взаимное расположение слов запроса в выделенном (размером шрифта или html-тегами , , . ) тексте;
* присутствие и расположение слов запроса в заголовке документа;
* присутствие и расположение слов запроса в мета-тегах "keywords" и "description";
* присутствие и расположение слов запроса в ссылках на ранжируемый документ и авторитетность этих ссылок;
* присутствие и взаимное расположение слов запроса в названии и описании сайта в каталоге Апорта (учитывается при вычислении веса главной страницы сайта);
* взвешенный индекс цитирования документа;
* количество страниц сайта, имеющих высокую релевантность запросу.
Результирующий вес документа рассчитывается по специальному алгоритму, различным образом учитывающему сочетания разных критериев.
Частотные характеристики. Учитывается как абсолютная, так и относительная частота слова в тексте документа.
И для той и для другой величины существуют пороговые значения, после достижения, которых дальнейшее увеличение частоты не влияет на вес документа. Для небольших документов, размер которых (в словах) меньше заданной константы, относительная частота рассчитывается не от их фактического размера, а от этой константы.
В заголовке, мета-тегах, а также в названии и описании сайта из каталога частота слов не учитывается.
Ссылочное ранжирование Алгоритмы ссылочного ранжирования в Апорте учитывают не более одной ссылки с каждого домена второго уровня для отдельного запроса (то есть, для разных запросов могут учитываться разные ссылки).
Вес каждой ссылки зависит (помимо ее текста) от взвешенного индекса цитирования ссылающейся страницы.
Взвешенный индекс цитирования Алгоритм вычисления взвешенного индекса цитируемости является модификацией классического алгоритма PAGERANK. В качестве одной из наиболее существенных особенностей следует отметить, что учитывается не более одной ссылки на документ с каждого домена второго уровня.
Индексом цитирования сайта считается взвешенный индекс цитирования страницы, самый высокий среди всех страниц сайта (в большинстве случаев это бывает взвешенный индекс цитирования главной страницы сайта).
Мета-теги "keywords" и description" Ключевые слова (meta keywords) учитываются Апортом даже в случае их отсутствия в тексте документа. Индексируется не более 16 ключевых слов для каждого документа. Мета-тег description также учитывается при ранжировании, однако, в большинстве случаев, имеет очень небольшой вес.
Поиск информации с помощью системы Апорт
Для поиска информации в данной системе можно воспользоваться специальными операторами: операторы расстояния
" - кавычки позволяют находить словосочетание, указанное в них, или близкое к нему. Пример: по запросу "яблоки на снегу" будут найдены документы, содержащие следующие фрагменты: "яблоки на снегу", "яблоки и снег", "яблокам под снегом", "яблоко снег" и т.п. сл2 (.) - Данный оператор позволяет ограничить расстояния в словах (двойка указана как пример). Если вы хотите потребовать, чтобы заданные вами слова встречались, скажем, в пределах 5 слов, то надо написать: сл5 (университет студент зачет). При этом будут найдены документы, где между словами "университет", "студент" и "зачет" стоит не более двух других слов (то есть общее число слов во фрагменте не более 5). логические операторы и - оператор И подразумевает, что его можно опускать: запрос поисковая система полностью эквивалентен запросу поисковая И система. И в первом и во втором случае будут найдены документы, содержащие оба слова. или - данный оператор позволяет искать документы, содержащие хотя бы одно из заданных в поиске слов. По запросу поисковая ИЛИ система будут найдены документы, содержащие любое из указанных слов или оба слова одновременно. не - оператор логическое НЕ ограничивает поиск документами, не содержащими слово, указанное после оператора. По запросу звери НЕ группа будут найдены документы, содержащие слово "звери", но не содержащие слово "группа".
() - с помощью этого оператора, по запросу быстрая ИЛИ качественная покраска будут выданы документы, содержащие либо слово "быстрая", либо одновременно слова "качественная" и "покраска". По запросу (быстрая ИЛИ качественная) покраска будут выданы документы, где встречаются одновременно слова "быстрая" "покраска", либо "качественная" и "покраска". операторы позволяющие искать по адресам url= - данный оператор позволяет получить список документов, проиндексированных поисковой системой на заданном сайте. Например, по запросу url=www.diary.ru будут выданы все документы, найденные на сайте www.diary.ru. операторы, осуществляющие поиск по определенным полям title= - указанное после равенства слово или словосочетания в круглых скобках будут искаться в заголовках документов. По запросу title= (фрукты или овощи) будут найдены документы, содержащие в заголовке слово фрукты или слово овощи, или оба слова одновременно. keywords= - указанное после равенства слово или словосочетания в круглых скобках должны искаться в поле META KEYWORDS документов. По запросу keywords (фрукты и овощи) будут найдены документы, для которых автор в ключевых словах указал оба слова: фрукты и овощи. alt= - указанное после равенства слово или словосочетания в круглых скобках должны искаться в полях ALT (комментарии к картинкам). По запросу alt (Дмитрий Медведев) будут найдены документы, в которых есть картинка с комментарием, содержащим как минимум два слова: Дмитрий и Медведев. anchor= - указанное после равенства слово или словосочетания в круглых скобках должны искаться в тексте ссылок. По запросу anchor (ненавижу эмо) будут найдены документы, в тексте ссылок на которые, встречаются оба слова: ненавидеть и эмо. поисковая система апорт интернет
Заключение
В настоящее время возможности поисковой системы "Апорт" не так обширны, но все-таки значительны. На официальном сайте поисковика можно найти каталог, охватывающий добрую часть русскоязычных Интернет-ресурсов, с удобным рубрикатором и системой выдачи. Также, на "Апорт" представлена актуальная информация различного рода: это и программа телевидения, и новости, и прогноз погоды, и котировки валют.
Особый блок сервисов поисковика составляют почта, справочная информация (в разделе "Словари") и поиск объекта по адресу (для Москвы, Санкт-Петербурга, а также для федеральных округов РФ: Дальневосточного, Приволжского, Северо-Западного, Сибирского, Уральского, Центрального и Южного).
С помощью "Доски объявлений" от "Апорт" можно приобрести, продать, подарить или принять в дар все, что угодно: от котят до земельных участков. Данный сервис предлагает еще и поиск работы, однако найти здесь настоящие вакансии среди сомнительных объявлений довольно сложно.