Разработка структуры данных и алгоритмов управления информационными ресурсами - Курсовая работа

бесплатно 0
4.5 147
Создание сайта-каталога программного обеспечения с поиском на основе булевой модели. Достоинства и недостатки булевой модели. Алгоритм поиска по слову в базе данных системы. Разработка руководства пользователя и администратора по работе с системой.


Аннотация к работе
Многие поисковые системы позволяют искать информацию не только в Web-страницах, но и в группах новостей и хранилищах файлов. Под документом подразумеваются Web-страница, сообщение или файл, содержащие различную информацию. Для начала рассмотрим основные функции сайта, позволяющие хранить информацию и производить поиск в ней. Каждый терм представлен как булева переменная: 0 (терм из запроса не присутствует в документе) или 1 (терм из запроса присутствует в документе). Происходит обращение к словарной таблице, по которой определяется, входит ли слово в состав словаря базы данных, и если входит, то определяется ссылка в инверсной таблице на цепочку появлений этого слова в документах.Из поискового запроса удаляются короткие предлоги и знаки препинания; логические функции И, ИЛИ, НЕ заменяются на OR, AND, NOT; запрос приводится к верхнему регистру; в запрос добавляется оператор AND там, где он явно не указан но подразумевается. Для индексации документов и формирования поисковых запросов необходимо разработать алгоритм, который позволяет привести все слова в некотором наборе слов к исходной форме. Таблица Article_items - таблица, содержащая полное описание программного обеспечения, включает следующие поля: Section_id - id_раздела; Таблица INDEX_TABLE - хранит соответствие термов и статей. Таблица ISPELL_DICTIONARY - содержит слово в базовой форме и флаги применяемых правил.Для отладки создаваемого сайта используется Denwer3_Base_2008, который использует Apache 2.2.4, PHP 5.2.4, PHPMYADMIN 2.6.1 и MYSQL 5.0.45. Каталог программного обеспечения распределен по разделам. Навигация по разделам осуществляется с помощью ссылок в верхней части окна по вкладкам. Если выбрать какой-либо раздел, то на странице отображаются все программные обеспечения с их полным описанием (название, описание, ссылка на официальный сайт, скриншоты).Для того чтобы редактировать содержание сайта, необходимо выполнить вход администратора. Для этого нажимаем ссылку "Редактировать материал", и переходим на страницу авторизации администратора. Рассмотрим добавление статьи в раздел "Офис", для этого необходимо перейти по ссылке "Добавить статью".В результате выполнения курсовой работы была реализована поисковая система программного обеспечения. В курсовой работе проанализированы средства разработки, такие как архитектура информационной системы, способы ее реализации, различные серверы и системы управления базами данных, а также языки программирования. На основании анализа технического задания произведено проектирование, а впоследствии и реализация базы данных, а также администрирования системы в целом. Информационная система реализована в виде интернет-сайта.

План
Содержание

Введение

1. Анализ требований к заданию

2. Разработка структуры данных и алгоритмов управления информационными ресурсами

3. Разработка сайта информационной системы

4. Руководства по работе с системой

4.1 Руководство пользователя

4.2 Руководство администратора

Заключение

Список литературы сайт булевой поиск алгоритм

Введение
Пополнение информационных ресурсов Интернета происходит высокими темпами, и найти необходимую информацию становиться все труднее. Различные печатные справочники устаревают еще до выхода в свет. Единственным надежным способом поиска информации является использование различных поисковых систем, которые постоянно отслеживают изменение информации в сети.

За время существования Интернета предпринимались различные попытки организации поисковых средств. Многие из этих попыток оказались неудачными, другие же привели к созданию удобных средств поиска информации. Наиболее удачные проекты появились в последние пять лет.

Многие поисковые системы позволяют искать информацию не только в Web-страницах, но и в группах новостей и хранилищах файлов. Таким образом, в результате поиска вы можете найти сообщение в группе новостей или какой-то файл. Поэтому чаще применяют вместо термина страница более общий термин - документ. Под документом подразумеваются Web-страница, сообщение или файл, содержащие различную информацию.

Процесс поиска довольно прост: задавая ключевые слова, характерные для искомой информации, мы найдем нужный нам документ. Вне зависимости от того, какой поисковой системой вы пользуетесь, примерный алгоритм поиска информации практически одинаковый.

Темой курсовой работы является разработка сайта-каталога программного обеспечения с поиском на основе булевой модели. Создаваемая поисковая система будет хранить информацию о различных программных обеспечениях: все программы будут классифицированы по видам разделам.

1. Анализ технического задания

Цель курсовой работы - разработать поисковую систему программного обеспечения, имеющую web-интерфейс. Во введении было показано, чем полезны поисковые системы для пользователя. В соответствии с этим надо создать максимально удобный с подробной информацией для пользователя сайт.

Для начала рассмотрим основные функции сайта, позволяющие хранить информацию и производить поиск в ней.

- Добавление данных разных категорий - разделов и сведений о программных продуктах;

- Автоматическое индексирование при добавлении;

- Работа с логическими операторами "И", "ИЛИ", "НЕ";

- Вывод поисковой информации.

В сайте необходимо реализовать поисковую систему.

Информационный поиск занимается представлением, хранением, организацией и обеспечением доступа к информационным объектам. Представление и организация информации должны предоставлять пользователю удобный доступ к интересующей его информации. Основной целью системы ИП является получение информации, которая может быть полезна и релевантна для пользователя, с использованием его запроса.

Моделями информационного поиска являются булевая, вероятностная и векторная. При выполнении курсовой работы используется булева модель.

Достоинства булевой модели: · Логические выражения имеют точную семантику;

· Используются структурированные запросы;

· Для опытных пользователей она интуитивна;

· Простой и аккуратный формализм позволял принять ее во многих ранних коммерческих библиографических системах;

Недостатки булевой модели: · Не осуществляется ранжирование. Стратегия поиска основана на двоичном критерии решения, т.е. документ предполагается либо релевантным, либо нерелевантным;

· Не просто перевести информационное требование в логическое выражение;

В рамках булевой модели документы и запросы представляются в виде множества термов - ключевых слов и устойчивых словосочетаний. Каждый терм представлен как булева переменная: 0 (терм из запроса не присутствует в документе) или 1 (терм из запроса присутствует в документе). При этом весовые значения терма в документе принимает лишь два значения: .

В булевой модели запрос пользователя представляет собой логическое выражение, в котором термы связываются логическими операторами конъюнкции (AND, ?) дизъюнкции (OR, ?) и отрицания (NOT, ¬). Известно, что любое логическое выражение можно представить дизъюнкцией некоторых выражений, соединенных между собой операцией конъюнкции (дизъюнктивной нормальной формой, ДНФ - dnf).

Поиск по слову в базе данных системы такой архитектуры осуществляется в соответствии с алгоритмом: 1. Происходит обращение к словарной таблице, по которой определяется, входит ли слово в состав словаря базы данных, и если входит, то определяется ссылка в инверсной таблице на цепочку появлений этого слова в документах.

2. Происходит обращение к инверсной таблице, по которой определяются номера документов, содержащих данное слово, и координаты всех вхождений слова в текстах базы данных.

3. По номеру документа происходит обращение к записи таблицы указателей текстов. Каждая запись этого файла соответствует одному документу в базе данных.

4. По номеру документа происходит прямое обращение к фрагменту текстовой таблицы - документу, после чего следует вывод найденного документа.

Приведенный алгоритм охватывает случай, когда запрос состоит из одного слова. Если же в запрос входит не одно слово, а некоторая их комбинация, то в результате выполнения поиска по каждому из этих слов запроса формируется массив записей, которые соответствуют вхождению этого слова в базу данных. После окончания формирования массивов результатов поиска происходит выявление релевантных документов путем выполнения теоретико-множественных операций над записями этих массивов в соответствии с правилами булевой логики.

В сайте производится расчет PAGERANK (далее просто PR) - числовой величины - мера "важности" страницы в поисковой системе Google, которая зависит от числа внешних ссылок на данную страницу и от их веса (важности). Другими словами от количества и качества ссылающихся страниц. А если говорить математическим языком, то PR это алгоритм расчета авторитетности страницы, используемый поисковой системой Google. PR не является основным, но является одним из вспомогательных факторов при ранжировании сайтов в результатах поиска.

Следует отметить, что при расчете PR Google учитывает не все ссылки, а отфильтровывает ссылки с сайтов, специально предназначенных для скопления ссылок. Некоторые ссылки могут не только не учитываться, но и отрицательно сказаться на ранжировании ссылающегося сайта (такой эффект назвается поисковой пессимизацией).

Существует множество способов повышения веса своих страниц, но главная идея - это качественные ссылки с других сайтов. Для этого можно использовать каталоги, социальные закладки, статьи, форумы, блоги и другие типы сайтов.

Для разработки web-сайта выбрана операционная система Windows 7. Поводом для этого стала широкая распространенность этой операционной системы, наличие большого количества прикладных программ необходимых для разработки сайта, удобный графический интерфейс.

Выбор языка разметки документа и выбор технологии реализации запросов, функций, сведем к выбору технологии РНР. РНР - язык описания сценариев, выполняемых на сервере, встроенный в HTML. РНР обладает значительным набором функций и относительно большой гибкостью. РНР-скрипт представляет собой обычный html-документ со вставками тэгов РНР - команд.

Возможно самая сильная и значимая возможность в РНР - уровень интеграции с базами данных (Oracle, Sybase, MSQL, Informix, DBASE). РНР - наиболее простой и удобный язык для написания Web-страницы, работающей с базой данных. При программировании на РНР наиболее часто используется база данных MYSQL, которая характеризуется большой скоростью, устойчивостью и легкостью в использовании. Краткий перечень возможностей MYSQL: 1)Поддерживается неограниченное количество пользователей, одновременно работающих с базой данных.

2)Количество строк в таблицах может достигать 50млн. 3)Быстрое выполнение команд.

4)Простая и эффективная система безопасности [3].

Так как выбрана технология построения Web-страниц (РНР), можно сделать некоторые дополнения о дизайне сайта. Для того чтобы страницы отображались в одном стиле и были единым целым, проще не описывать каждый стиль отображения на HTML, а подключить каскадную таблицу стилей. Каскадные таблицы стилей, или CSS, позволяют разделить смысловое содержимое страницы и его оформление. Стиль определяет внешний вид документа HTML при его отображении в окне браузера: шрифты и цвета заголовков разных уровней, шрифт и разрядка основного текста, задаваемого в тэге абзаца и т.д. Таблица стилей - это шаблон, который управляет форматированием тэгов HTML в Web-документе. Поэтому для упрощения и следования логике разработки сайта целесообразно включить css-таблицы.

Для создания и редактирования сайта мною была использована версия HTML-редактора Dreamweaver CS5.5.

Программное обеспечение Adobe Dreamweaver CS5.5 - передовое средство разработки и редактирования вебсайтов на базе отраслевых стандартов, которое позволяет создавать проекты для настольных ПК, смартфонов, планшетов и других устройств в визуальном режиме и с помощью кода. Богатый инструментарий, открытость приложения для всевозможных настроек, удобный интерфейс и другие особенности сделали Dreamweaver одним из наиболее популярных HTML-редакторов в мире. Недостатком считается добавление "лишнего" кода.

Для отладки создаваемого сайта будем использовать Denwer3_Base_2008, который использует Apache 2.2.4, PHP 5.2.4, PHPMYADMIN 2.6.1 и MYSQL 5.0.45.

После установки Денвера web-сервер полностью готов к использованию. Для отладки сайта и дальнейшей работы с ним нужно будет скопировать его в /home/localhost/www . Для того чтобы запустить его в браузере необходимо набрать следующий URL-адрес: http://localhost/. [3]

Важным требованием является простота в эксплуатации для сокращения времени, затрачиваемого на ознакомление и работу с приложением, а также надежность в работе, которая на сегодняшний день является одним из определяющих факторов работы любого приложения.

Итак, на данном этапе были поставлены задачи для того чтобы сайт отвечал реальным требованиям и были выбраны способы решения поставленных перед нами задач.

Вывод
В результате выполнения курсовой работы была реализована поисковая система программного обеспечения.

В курсовой работе проанализированы средства разработки, такие как архитектура информационной системы, способы ее реализации, различные серверы и системы управления базами данных, а также языки программирования. На основании анализа технического задания произведено проектирование, а впоследствии и реализация базы данных, а также администрирования системы в целом.

Информационная система реализована в виде интернет-сайта. Во время работы над проектом проанализированы аналогичные сайты в сети Internet.

Поиск статей на сайте осуществляется на основе булевой системы поиска. В модели были реализованы логические функции И, ИЛИ, НЕ. Результатом поиска является список статей, отсортированные в порядке уменьшения релевантности.

Тестирование произведено на различных браузерах: Opera, Mozilla Firefox, Google Chrome. Тестирование информационной системы показало, что вся информация, содержащаяся на сайте, отображается корректно, и правильно выполняются все операции.

Разработанная информационная система отличается интуитивно понятным интерфейсом, хорошо представленной и структурированной информацией, простотой и удобством в эксплуатации.

Все требования, поставленные на начальном этапе разработки, были успешно выполнены.

Список литературы
1. Береговой В.А., Крачун Г.П., Леонова Н.Г. Поиск знаний в информационных сетях: базовые модели и технологии.

2. Кириченко К.М., Герасимов М.Б. Обзор методов кластеризации текстовых документов. матер.межд.конф. Диалог,2001

3. Ланде Д.В. Поиск знаний в Интернет. Профессиональная работа. М.: "Вильямс", 2005, 272 с.

4. Фомин А.А. Управление информационными ресурсами. Курс лекций

5. Программы, разработанные командой SOFTPORTAL// [Электронный ресурс]. - Режим доступа: http://www.softportal.com/screenshot-19646-prevent-restore.html

6. Softline - каталог программного обеспечения // [Электронный ресурс]. - Режим доступа: http://store.softline.ru/subcategory/vosstanovlenie-dannih/

7. А. В. Астрахов Научно-образовательный материал "Технология информационного поиска", 2011// [Электронный ресурс]. - Режим доступа: http://do.gendocs.ru/docs/index-212707.html

8. Булевая модель поиска// [Электронный ресурс]. - Режим доступа: http://www.webground.su/services.php?param=book&part=chapter 2_1.htm

9. Концепции информационного поиска// [Электронный ресурс]. - Режим доступа: http://knowledge..ru/programming/2c0b65625a3ac68b4d43a88421316c36_0.html

Размещено на .ru
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?