Браузер как программное обеспечение для просмотра веб-сайтов, то есть для запроса веб-страниц, их обработки, вывода и перехода от одной страницы к другой. Теги a, img, Script и Style. Используемые технологии Java. Разработка и реализация программы.
Аннотация к работе
Часть браузеров поддерживают кроме онлайн-режима, когда браузер пытается получить страницы с веб-сервера, оффлайн-режим, при котором можно просматривать сохраненные копии ранее посещенных страниц. Страницы либо неявно сохраняются в кэше браузера при посещении веб-сервера, либо браузер специально настраивается на сохранение и поддержание локальных копий определенных сайтов. Целью задачи данной работы является создание оффлайн-браузера, способного сохранять HTML страницы со всем их содержимым из Сети. Таким образом, при необходимости, можно будет сохранить не одну страницу, а все страницы, к которым мы можем получить доступ, переходя по ссылке с предыдущей. В случае же, когда на странице присутствует контент, требующий для своей работы подгрузку дополнительных элементов, программа будет загружать и их.Считывает исходный файл, загруженный по ссылке page, и заменяет ссылки, найденные в base[href], a[href], img[src], link[href], script[src], на ссылки на загружаемые файлы. // Если ссылка на документ того же домена, то добавляет в глобальный список ссылок для скачивания if (! dm.GLOBALINFO.contains(url) && page.GETLEVEL() <Common.DEFAULTLEVEL) { // Если ссылка на документ того же домена, то добавляет в глобальный список ссылок для скачивания if (! dm.GLOBALINFO.contains(url) && page.GETLEVEL() <Common.DEFAULTLEVEL) { // Если ссылка на документ того же домена, то добавляет в глобальный список ссылок для скачивания if (! dm.GLOBALINFO.contains(url) && page.GETLEVEL() <Common.DEFAULTLEVEL) { // Если ссылка на документ того же домена, то добавляет в глобальный список ссылок для скачивания if (! dm.GLOBALINFO.contains(url) && page.GETLEVEL() <Common.DEFAULTLEVEL) {В рамках данной дипломной работы мы постарались создать приложение, которое может быть использовано для сохранения данных с Интернет страниц. Было разработано приложение, достоинствами которого является: 1.
План
Все содержимое, помещенное между открывающим и закрывающим тэгами, является содержимым тэга.
Введение
Браузер (Веб-обозреватель) (от англ. Web browser) - программное обеспечение для просмотра вебсайтов, то есть для запроса веб-страниц (преимущественно из Сети), их обработки, вывода и перехода от одной страницы к другой.
Часть браузеров поддерживают кроме онлайн-режима, когда браузер пытается получить страницы с веб-сервера, оффлайн-режим, при котором можно просматривать сохраненные копии ранее посещенных страниц. Оффлайн-режим полезен, когда по какой-либо причине нет соединения с интернетом. Страницы либо неявно сохраняются в кэше браузера при посещении веб-сервера, либо браузер специально настраивается на сохранение и поддержание локальных копий определенных сайтов. Копии обновляются либо при восстановлении соединения, либо по расписанию.
Целью задачи данной работы является создание оффлайн-браузера, способного сохранять HTML страницы со всем их содержимым из Сети. Одной из особенностей программы будет загрузка страниц с заданным уровнем вложенности, то есть с заданным количеством переходов по ссылкам «вглубь». Таким образом, при необходимости, можно будет сохранить не одну страницу, а все страницы, к которым мы можем получить доступ, переходя по ссылке с предыдущей. В итоге у нас будет возможность сохранять весь сайт целиком.
В случае же, когда на странице присутствует контент, требующий для своей работы подгрузку дополнительных элементов, программа будет загружать и их.
Ниже приведена схема, показывающая принцип работы программы:
1. HTML
1.1 Общие сведения по HTML
HTML (HYPERTEXT Markup Language/язык гипертекстовой разметки) - это язык, который позволяет представлять информацию в Internet. То, что вы видите при просмотре страницы в Internet, это интерпретация вашим браузером HTML-текста.
· Hyper противоположно linear/построчно. Ранее компьютерные программы работали построчно: программа выполняла одну строку, затем переходила к выполнению следующей, и т.д. Но HTML работает по-иному - вы можете перейти куда и когда захотите.
· Text - собственно, текст.
· Mark-up - это разметка, то, что вы можете делать с текстом. Размечается текст так же, как это делается в текстовых редакторах: выставление заголовка, списков, выделение текста жирным шрифтом и т.д.
· Language - это язык HTML. В нем используется много английских слов, что заметно облегчает работу с ним.
Изначально язык HTML был задуман и создан как средство структурирования и форматирования документов без их привязки к средствам воспроизведения (отображения). В идеале, текст с разметкой HTML должен был без стилистических и структурных искажений воспроизводиться на оборудовании с различной технической оснащенностью. Однако современное применение HTML очень далеко от его изначальной задачи.
1.2 Структура HTML-документа
HTML - теговый язык разметки документов. Любой документ на языке HTML представляет собой набор элементов, причем начало и конец каждого элемента обозначается специальными пометками - тегами. Элементы могут быть пустыми, то есть не содержащими никакого текста и других данных (например, тег перевода строки ). В этом случае обычно не указывается закрывающий тег. Кроме того, элементы могут иметь атрибуты, определяющие какие-либо их свойства (например, размер шрифта для элемента font). Атрибуты указываются в открывающем теге.
Тэги - это метки, которые используются для указания браузеру, как он должен показывать web-сайт.
Все тэги имеют одинаковый формат: они начинаются знаком «».
Обычно имеются два тэга - открывающий: и закрывающий: . Различие в том, что в закрывающем имеется слеш «/».
Вывод
В рамках данной дипломной работы мы постарались создать приложение, которое может быть использовано для сохранения данных с Интернет страниц. Было разработано приложение, достоинствами которого является: 1. Возможность дозагрузки не полностью загруженных файлов.
2. Обработка файлов различных типов.
3. Поддержка многопоточной обработки.
4. Кроссплатформенность.
5. Поддержка обработки содержащихся в файлах ссылок на другие ресурсы, что позволяет скачивать содержимое сайта с заданным уровнем вложенности.
Помимо вышеперечисленного, приложение спроектировано таким образом, что пользователь может изменять программу в соответствии со своими требованиями.
Список литературы
1. Герберт Шилдт, Джеймс Холмс - Искусство программирования на JAVA. Москва: издательский дом «Вильямс». 2005 г., 336 стр.
2. Брюсс Эккель - Философия Java. Библиотека программиста. 4-е издание. Санкт-Петербург. 2009 г., 640 стр.
3. Учебник по HTML: http://ru.html.net/tutorials/html/
4. Герберт Шилдт - Полный справочник по JAVA. Под редакцией Т.Н. Артеменко, В.Г. Павлютин. 7-е издание - Москва: Издательский дом «Вильямс», 2007 г., 1024 стр.
5. Jonathan Hedley - «Jsoup: Java HTML Parser». http://jsoup.org/
6. Майкл Эферган - Java: справочник. Издательство «Питер Ком», 1998 г.
7. Кен Арнольд, Джеймс Гослинг - Язык программирования Java. Издательство «Питер-Пресс», 1997 г.
8. Патрик Нотон, Герберт Шилдт - Полный справочник по Java. Издательство «Диалектика», 1997 г.