Разработка оффлайн-браузера, способного сохранять HTML-страницы со всем их содержимым из Сети - Дипломная работа

бесплатно 0
4.5 169
Браузер как программное обеспечение для просмотра веб-сайтов, то есть для запроса веб-страниц, их обработки, вывода и перехода от одной страницы к другой. Теги a, img, Script и Style. Используемые технологии Java. Разработка и реализация программы.


Аннотация к работе
Часть браузеров поддерживают кроме онлайн-режима, когда браузер пытается получить страницы с веб-сервера, оффлайн-режим, при котором можно просматривать сохраненные копии ранее посещенных страниц. Страницы либо неявно сохраняются в кэше браузера при посещении веб-сервера, либо браузер специально настраивается на сохранение и поддержание локальных копий определенных сайтов. Целью задачи данной работы является создание оффлайн-браузера, способного сохранять HTML страницы со всем их содержимым из Сети. Таким образом, при необходимости, можно будет сохранить не одну страницу, а все страницы, к которым мы можем получить доступ, переходя по ссылке с предыдущей. В случае же, когда на странице присутствует контент, требующий для своей работы подгрузку дополнительных элементов, программа будет загружать и их.Считывает исходный файл, загруженный по ссылке page, и заменяет ссылки, найденные в base[href], a[href], img[src], link[href], script[src], на ссылки на загружаемые файлы. // Если ссылка на документ того же домена, то добавляет в глобальный список ссылок для скачивания if (! dm.GLOBALINFO.contains(url) && page.GETLEVEL() <Common.DEFAULTLEVEL) { // Если ссылка на документ того же домена, то добавляет в глобальный список ссылок для скачивания if (! dm.GLOBALINFO.contains(url) && page.GETLEVEL() <Common.DEFAULTLEVEL) { // Если ссылка на документ того же домена, то добавляет в глобальный список ссылок для скачивания if (! dm.GLOBALINFO.contains(url) && page.GETLEVEL() <Common.DEFAULTLEVEL) { // Если ссылка на документ того же домена, то добавляет в глобальный список ссылок для скачивания if (! dm.GLOBALINFO.contains(url) && page.GETLEVEL() <Common.DEFAULTLEVEL) {В рамках данной дипломной работы мы постарались создать приложение, которое может быть использовано для сохранения данных с Интернет страниц. Было разработано приложение, достоинствами которого является: 1.

План
Все содержимое, помещенное между открывающим и закрывающим тэгами, является содержимым тэга.

Введение
Браузер (Веб-обозреватель) (от англ. Web browser) - программное обеспечение для просмотра вебсайтов, то есть для запроса веб-страниц (преимущественно из Сети), их обработки, вывода и перехода от одной страницы к другой.

Часть браузеров поддерживают кроме онлайн-режима, когда браузер пытается получить страницы с веб-сервера, оффлайн-режим, при котором можно просматривать сохраненные копии ранее посещенных страниц. Оффлайн-режим полезен, когда по какой-либо причине нет соединения с интернетом. Страницы либо неявно сохраняются в кэше браузера при посещении веб-сервера, либо браузер специально настраивается на сохранение и поддержание локальных копий определенных сайтов. Копии обновляются либо при восстановлении соединения, либо по расписанию.

Целью задачи данной работы является создание оффлайн-браузера, способного сохранять HTML страницы со всем их содержимым из Сети. Одной из особенностей программы будет загрузка страниц с заданным уровнем вложенности, то есть с заданным количеством переходов по ссылкам «вглубь». Таким образом, при необходимости, можно будет сохранить не одну страницу, а все страницы, к которым мы можем получить доступ, переходя по ссылке с предыдущей. В итоге у нас будет возможность сохранять весь сайт целиком.

В случае же, когда на странице присутствует контент, требующий для своей работы подгрузку дополнительных элементов, программа будет загружать и их.

Ниже приведена схема, показывающая принцип работы программы:

1. HTML

1.1 Общие сведения по HTML

HTML (HYPERTEXT Markup Language/язык гипертекстовой разметки) - это язык, который позволяет представлять информацию в Internet. То, что вы видите при просмотре страницы в Internet, это интерпретация вашим браузером HTML-текста.

· Hyper противоположно linear/построчно. Ранее компьютерные программы работали построчно: программа выполняла одну строку, затем переходила к выполнению следующей, и т.д. Но HTML работает по-иному - вы можете перейти куда и когда захотите.

· Text - собственно, текст.

· Mark-up - это разметка, то, что вы можете делать с текстом. Размечается текст так же, как это делается в текстовых редакторах: выставление заголовка, списков, выделение текста жирным шрифтом и т.д.

· Language - это язык HTML. В нем используется много английских слов, что заметно облегчает работу с ним.

Изначально язык HTML был задуман и создан как средство структурирования и форматирования документов без их привязки к средствам воспроизведения (отображения). В идеале, текст с разметкой HTML должен был без стилистических и структурных искажений воспроизводиться на оборудовании с различной технической оснащенностью. Однако современное применение HTML очень далеко от его изначальной задачи.

1.2 Структура HTML-документа

HTML - теговый язык разметки документов. Любой документ на языке HTML представляет собой набор элементов, причем начало и конец каждого элемента обозначается специальными пометками - тегами. Элементы могут быть пустыми, то есть не содержащими никакого текста и других данных (например, тег перевода строки ). В этом случае обычно не указывается закрывающий тег. Кроме того, элементы могут иметь атрибуты, определяющие какие-либо их свойства (например, размер шрифта для элемента font). Атрибуты указываются в открывающем теге.

Тэги - это метки, которые используются для указания браузеру, как он должен показывать web-сайт.

Все тэги имеют одинаковый формат: они начинаются знаком «».

Обычно имеются два тэга - открывающий: и закрывающий: . Различие в том, что в закрывающем имеется слеш «/».

Вывод
В рамках данной дипломной работы мы постарались создать приложение, которое может быть использовано для сохранения данных с Интернет страниц. Было разработано приложение, достоинствами которого является: 1. Возможность дозагрузки не полностью загруженных файлов.

2. Обработка файлов различных типов.

3. Поддержка многопоточной обработки.

4. Кроссплатформенность.

5. Поддержка обработки содержащихся в файлах ссылок на другие ресурсы, что позволяет скачивать содержимое сайта с заданным уровнем вложенности.

Помимо вышеперечисленного, приложение спроектировано таким образом, что пользователь может изменять программу в соответствии со своими требованиями.

Список литературы
1. Герберт Шилдт, Джеймс Холмс - Искусство программирования на JAVA. Москва: издательский дом «Вильямс». 2005 г., 336 стр.

2. Брюсс Эккель - Философия Java. Библиотека программиста. 4-е издание. Санкт-Петербург. 2009 г., 640 стр.

3. Учебник по HTML: http://ru.html.net/tutorials/html/

4. Герберт Шилдт - Полный справочник по JAVA. Под редакцией Т.Н. Артеменко, В.Г. Павлютин. 7-е издание - Москва: Издательский дом «Вильямс», 2007 г., 1024 стр.

5. Jonathan Hedley - «Jsoup: Java HTML Parser». http://jsoup.org/

6. Майкл Эферган - Java: справочник. Издательство «Питер Ком», 1998 г.

7. Кен Арнольд, Джеймс Гослинг - Язык программирования Java. Издательство «Питер-Пресс», 1997 г.

8. Патрик Нотон, Герберт Шилдт - Полный справочник по Java. Издательство «Диалектика», 1997 г.

Размещено на
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?