Описание принципов построения хороших логических моделей данных. Представление знаний с использованием семантических сетей. Оценка различных способов поиска и обмена информацией в Интернет. Преимущества и недостатки поисковых машин, принцип их работы.
Аннотация к работе
К базовым понятиям относятся: данные, информация и знания. Знания - это вид информации, которая хранится в базе знаний и отображает знания в конкретной предметной области. Инженеры, подготовленные по специальности «прикладная математика», и специалисты по информатике, работающие в прикладных областях, должны владеть основными, уже устоявшимися методами поиска решения задач, разработанными в исследованиях по искусственному интеллекту. Так как знание используется для достижения разумного поведения, фундаментальной целью дисциплины представления знаний является поиск таких способов представления, которые делают возможным процесс логического вывода, то есть создание выводов из знаний. В информатике (главным образом в области искусственного интеллекта) для структурирования информации, а также организации баз знаний и экспертных систем были предложены несколько способов представления знаний.Целью практики являлось изучение в реальных условиях способов представления знаний в интернете, а также проведение работ и выполнение заданий, связанных с темой практики, для получения соответствующих практических навыков. В процессе прохождения данной практики мною был выполнен следующий перечень работ и заданий: я изучала на практике основы представления данных в Интернет и способы эффективной публикации данных; занималась настройкой и отладкой работы сайтов и публиковала данные на web сервере; Впервые дни прохождения моей практики руководителем было поручено изучить самые необходимые служебные инструкции практикантов по месту прохождения практики для надлежащего их выполнения, не нарушая правил данной организации. Также я был ознакомлена с правилами поведения в офисе о конфиденциальности компании и работой с важной информацией - паролями, важными базами данных и файлами.
Введение
К базовым понятиям относятся: данные, информация и знания. Эти понятия используются как синонимы, однако между ними существуют различия.
Данные - это совокупность сведений, пригодной для постоянного хранения, передачи и обработки. Преобразование и обработка данных позволяет получить информацию.
Информация - это результат преобразования и анализа данных. Отличие информации от данных состоит в том, что данные - это сведения о событиях и явлениях, которые хранятся на определенных носителях, а информация появляется в результате обработки данных при решении конкретных задач.
А может быть, информация - это сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний.
Знания - это зафиксированная и проверенная практикой обработанная информация, которая использовалась и многократно для принятия решений.
Знания - это вид информации, которая хранится в базе знаний и отображает знания в конкретной предметной области. Знания - это интеллектуальный капитал.
Формальные знания могут быть в виде документов (стандартов, нормативов), регламентирующих принятие решений или учебников, инструкций с описанием задач.
Неформальные знания - это знания и опыт специалистов в определенной предметной области.
Необходимо отметить, что универсальных определений этих понятий нет, они трактуются по-разному.
Принятия решений осуществляются на основе полученной информации и имеющихся знаний.
Принятие решений - это выбор наилучшего в некотором смысле варианта решения из множества допустимых на основании имеющейся информации.
Для решения поставленной задачи фиксированные данные обрабатываются на основании имеющихся знаний, далее полученная информация анализируется с помощью имеющихся знаний.
Практика сконцентрирована вокруг ответа на вопрос: как знания и умения человека выразить в виде программы для компьютера? И прежде чем отвечать на этот вопрос нужно дать ответ на вопрос: зачем представлять знания в компьютере? Ответ прост в последнее время это стало экономически выгодно. Кроме того, это довольно трудно, а потому просто чрезвычайно интересно. Современный компьютер - это информационная машина, которая обрабатывает знания, представленные в виде данных. Инженерные расчеты - это собирательное название для таких приложений, как расчеты полеты ракеты, начисление зарплаты, и т.д., а обработка знаний - это информационный поиск в интернете, телекоммуникаций.
Инженеры, подготовленные по специальности «прикладная математика», и специалисты по информатике, работающие в прикладных областях, должны владеть основными, уже устоявшимися методами поиска решения задач, разработанными в исследованиях по искусственному интеллекту. Мы ожидаем, достигнуть следующих результатов: знание сравнительных достоинств и недостатков методов; наиболее известных способов представления знаний: правил продукции, формул исчисления предикатов, семантических сетей. Умение выбрать подходящий способ представления знаний конкретной задачи в простых случаях; умение оценить адекватность использования для конкретной задачи того или иного метода поиска решения.
1. Изучение способов представления знаний и данных Интернет
Представление знаний - вопрос, возникающий в когнитологии (науке о мышлении), в информатике и в искусственном интеллекте. В когнитологии он связан с тем, как люди хранят и обрабатывают информацию. В информатике - основная цель - подбор представления конкретных и обобщенных знаний, сведений и фактов для накопления и осмысленной обработки информации в ЭВМ.
В искусственном интеллекте основная цель - научиться хранить знания таким образом, чтобы программы могли обрабатывать их и достигнуть подобия человеческого интеллекта. Исследователи используют теории представления знаний из когнитологии. Такие методы как фреймы, правила, и семантические сети пришли в ИИ из теорий обработки информации человеком. Так как знание используется для достижения разумного поведения, фундаментальной целью дисциплины представления знаний является поиск таких способов представления, которые делают возможным процесс логического вывода, то есть создание выводов из знаний.
В информатике (главным образом в области искусственного интеллекта) для структурирования информации, а также организации баз знаний и экспертных систем были предложены несколько способов представления знаний. Одно из них представление данных и сведений в рамках логической модели баз знаний, на основе языка логического программирования
Существуют два типа методов представления знаний: Формальные модели;
Неформальные (семантические, реляционные) модели.
Очевидно, все методы представления знаний, которые рассмотрены выше, включая продукции, относятся к неформальным моделям. В отличие от формальных моделей, в основе которых лежит строгая математическая теория, неформальные модели такой теории не придерживаются. Каждая неформальная модель годится только для конкретной предметной области и не обладает универсальностью, которая присуща моделям формальным. Логический вывод - основная операция - в формальных системах строг и корректен, поскольку подчинен жестким аксиоматическим правилам. Вывод в неформальных системах во многом определяется самим исследователем, который и отвечает за его корректность.
Каждому из методов ПЗ соответствует свой способ описания знаний.
1. Логические модели.
Цель данной главы - описать некоторые принципы построения хороших логических моделей данных. Хороших в том смысле, что решения, принятые в процессе логического проектирования приводили бы к хорошим физическим моделям и в конечном итоге к хорошей работе базы данных.
Для того чтобы оценить качество принимаемых решений на уровне логической модели данных, необходимо сформулировать некоторые критерии качества в терминах физической модели и конкретной реализации и посмотреть, как различные решения, принятые в процессе логического моделирования, влияют на качество физической модели и на скорость работы базы данных.
Конечно, таких критериев может быть очень много и выбор их в достаточной степени произволен. Мы рассмотрим некоторые из таких критериев, которые являются, безусловно, важными с точки зрения получения качественной базы данных: Адекватность базы данных предметной области
Легкость разработки и сопровождения базы данных
Скорость выполнения операций обновления данных (вставка, обновление, удаление кортежей)
Скорость выполнения операций выборки данных
2. Сетевые модели. В основе моделей этого типа лежит конструкция, названная ранее семантической сетью. В зависимости от типов связей, используемых в модели, различают классифицирующие сети, функциональные сети и сценарии. В классифицирующих сетях используются отношения структуризации. Такие сети позволяют в базах знаний вводить разные отношения между информационными единицами. Функциональные сети характеризуются наличием функциональных отношений. Их часто называют вычислительными моделями, они позволяют описывать процедуры «вычислений» одних информационных единиц через другие. Если в сетевой модели допускаются связи различного типа, то ее обычно называют семантической сетью.
3. Продукционные модели. В моделях этого типа используются некоторые элементы логических и сетевых моделей. Из логических моделей заимствована идея правил вывода, которые здесь называются продукциями, а из сетевых моделей - описание знаний в виде семантической сети. В результате применения правил вывода к фрагментам сетевого описания происходит трансформация семантической сети за счет смены ее фрагментов, наращивания сети и исключения из нее ненужных фрагментов. Таким образом, в продукционных моделях процедурная информация явно выделена и описывается иными средствами, чем декларативная информация.
4. Фреймовые модели. В отличие от моделей других типов во фреймовых моделях фиксируется жесткая структура информационных единиц, которая называется протофреймом.
Представление знаний в виде правил. Такой способ является наиболее понятным и популярным методом формального представления знаний. Правила обеспечивают формальный способ представления рекомендаций, знаний или стратегий. Они чаще подходят в тех случаях, когда предметные знания возникают из эмпирических ассоциаций, накопленных за годы работы по решению задач в данной области.
Представление знаний с использованием фреймов. Системы, базы знаний иногда насчитывают тысячи правил, и для инженера знаний при такой сложности системы, процесс обновления состава правил и контроль связей между ними становится весьма затруднительным, поскольку добавляемые правила могут дублировать имеющиеся знания или вступать с ними в противоречие.
Для выявления подобных фактов можно использовать программные средства, но включение их в работу системы приводит к еще более тяжелым последствиям - потере работоспособности, так как в этом случае инженер знаний теряет представление о том, как взаимодействуют правила.
Так как возрастает количество связей между понятиями, инженеру знаний трудно их контролировать.
Представление знаний, основанных на фреймах, является альтернативным по отношению к системам, основанным на правилах: оно дает возможность хранить иерархию понятий в базе знаний в явной форме.
Фреймом называется структура для описания стереотипной ситуации, состоящая из характеристик этой ситуации и их значений. Характеристики называются слотами, а значения - заполнителями слотов. Слот может содержать не только конкретное значение, но и имя процедуры, позволяющей вычислить его по заданному алгоритму, а также одно или несколько правил, с помощью которых это значение можно найти. В слот может входить не одно, а несколько значений. Иногда слот включает компонент называемый фасетом, который задает диапазон или перечень его возможных значений. Как уже отмечалось, помимо конкретного значения, в слоте могут храниться процедуры и правила, которые вызываются при необходимости вычисления этого значения.
Представление знаний с использованием семантических сетей. Семантическая сеть используется для описания метода представления знания, основанного на сетевой структуре. Этот метод является одним из наиболее эффективных методов хранения знаний. Семантические сети состоят из: узлов, соответствующих объектам, понятиям и событиям; дуг, связывающих узлы и описывающих отношения между ними.
Иными словами, семантическая сеть отображает совокупность объектов предметной области и отношений между ними. При этом, объектам соответствуют вершины сети, а отношениям - соединяющие их дуги. В семантическую сеть включаются только те объекты предметной области, которые необходимы для решения прикладных задач. В качестве объектов могут выступать события, действия, обобщенные понятия или свойства объектов.
Представление знаний в виде нечетких высказываний. Методы построения математических моделей часто основан на неточной, но в объективной информации об объекте. Когда при построении моделей решающее значение имеют сведения, полученные от эксперта, обычно качественного характера. Они отражают содержательные особенности изучаемого объекта и формулируются на естественном языке. Описание объекта в таком случае носит нечеткий характер.
2 Оценка различных способов поиска и обмена информацией в Интернет
Интернет - это глобальная компьютерная сеть, охватывающая весь мир. Она составлена из разнообразных компьютерных сетей, объединенных стандартными соглашениями о способах обмена информацией и единой системой адресации. Интернет образует ядро, обеспечивающее связь различных информационных сетей, принадлежащих различным учреждениям во всем мире.
Для того, чтобы различные компьютеры в Интернете могли сообщаться друг с другом, используются протоколы, то есть правила или условия коммуникации. Язык Интернета называется TCP/IP, что означает протокол Управления передачей. Любой компьютер для того, чтобы общаться в Интернете, должен уметь использовать ЯЗЫКЕТСР/IP. Этот стандарт является «открытым», что означает, что он не является фирменным продуктом какой-либо одной компании. Стандарты Интернета приспособлены для использования на всех наиболее распространенных системах, таких как UNIX, Windows и Macintosh.
Интернет состоит из взаимосвязанных сетей, эксплуатируемых университетами, государственными учреждениями, военными, корпорациями и другими организациями, а также физическими лицами. Эти сети связаны друг с другом различными видами оборудования такими, как маршрутизаторы, мосты и коммутаторы, а также посредством различного беспроводного оборудования. Маршрутизаторы решают, в каком направлении отослать сетевые данные, предварительно посылая пакеты по нужному адресу и затем данные в направлении соответствующего компьютера, где эти пакеты собираются вновь. Мосты предназначены для соединения двух каких-либо сегментов кабельной проводки внутри сети; коммутаторы - это приспособления для замыкания и размыкания цепей.
Одной из наиболее распространенных и одновременно наиболее сложных задач, с которыми приходится сталкиваться в Сети любому пользователю является поиск информации в интернете. Причина сложностей, возникающих при информационном поиске в Интернет, определяется двумя главными факторами. Во-первых, число источников в Сети очень много. Во-вторых, массив информации в Сети не только колоссален по объему, но еще и крайне динамичен.
Важность проблемы информационного поиска привела к образованию в самом Интернете целой отрасли, задача которой заключается именно в оказании помощи пользователю. Составляет эту отрасль специальные поисковые службы или сервисы. Условно их можно разделить на: каталоги и поисковые машины.
Внешне они очень похожи, поскольку каждый каталог, как правило, обладает собственной поисковой машиной, а каждая поисковая машина - собственным каталогом. Однако принципы их работы базируются на абсолютно разных подходах и технологиях. Каждый из этих инструментов имеет определенные преимущества, а основная разница между ними заключается в участии или неучастии человека. Поисковые машины запускают в web-программных, которые путешествуют со страницы на страницу и на каждой индексируют ее полный текст. Каталоги же формируются людьми-редакторами, которые прочитывают страницы, отсеивают неподходящие и классифицируют узлы по темам. При этом каждая разновидность поисковых сервисов применяется для решения определенного типа задач. Правильным выбором инструмента во многом определяется стратегия поисковой деятельности и, в конечном итоге, результат разысканий.
Приступая к информационному поиску в Интернет, следует всегда помнить несколько основных моментов. Прежде всего, никакие средства навигации - каталоги или поисковые машины - не охватывают всего текущего информационного массива Интернет. По некоторым оценкам, даже такие признанные лидеры сетевого поиска как Google, отражают не более трети содержания Сети. Причина этого - постоянный объем информации в Интернете, который, несмотря на все усилия навигационных служб, содержит огромное число ненужного.
Помимо быстрого роста и изменения местоположения документов, большинство поисковых систем имеют внутренние ограничения на отражение материалов одного сайта и на объем индексируемой части страницы. Программы-роботы зачастую не идут дальше определенной директории, что также сокращает число отраженных материалов.
В тоже время многие крупные сайты имеют собственную систему поиска, которая отражает весь их информационный массив. Таким образом, для достижения наиболее полных результатов следует применять каталоги и поисковые машины в сочетании друг с другом.
Существует также ряд общих требований к поисковой деятельности, соблюдение которых повышает эффективность и экономит время, затрачиваемое на разыскание данных.
Для поиска материалов по крайне узкой специфической тематике стоит начинать с каталогов.
Для получения более полных результатов по сложному запросу поиск рекомендуется проводить отдельно в каждой поисковой машине. Поисковые системы имеют сильный разнос в отражении документов, и их последовательное использование в значительной степени расширяет охват материала.
При разыскании документов об отдельной стране или на конкретном языке следует отдать предпочтение национальным и региональным поисковым средствам.
Формировать запрос надо максимально точно, используя все возможности механизма составления запроса. Затраты времени на детальное составление поискового предписания окупаются при анализе результатов поиска. При точном формировании запроса информационного шума будет намного ниже.
При систематическом обращении к поисковым средствам, необходимо постоянно следить за новостями, относящимися к поисковому сервису. В цифровом мире нет ничего вечного. Каждая поисковая система переживает периоды зарождения, расцвета и упадка. В этом случае следует перейти на использование новых поисковых инструментов, обладающих большей эффективностью.
Это наиболее простая Интернет-услуга. Поисковые каталоги имеют структуру и больше напоминают систематические каталоги обычных библиотек. Открывая каталог на титульную часть вынесены основные разделы; работа, дом, дача, машины, спорт, здоровье, новости и развлечения. Большинство каталогов создаются путем добавления web-страниц своего сайта к существующему списку ссылок.
Поисковые каталоги создаются вручную, то есть информация в них заносятся людьми. Высококвалифицированные редакторы лично просматривают информационное пространство WWW, отбирают то, что, по их мнению, представляет общественный интерес, и заносят в каталог. В каталоги попадают лишь лучшие страницы. Поэтому найти достаточно специфическую информацию в каталоге зачастую очень сложно.
Кроме основных разделов многие каталоги имеют дополнительные, в которых сайты классифицированы по другому основанию: региону, стране; алфавиту; популярности.
Особенность каталогов в том, что они более эффективны при поиске подборок информации на определенную тему. Каталоги могут быть: специализированными и включать только ссылки на сайты определенной, узкой тематики. Информация сгруппирована по разделам. Каждый раздел имеет несколько подразделов. Это уже более современный и удобный способ навигации и поиска в Сети. В отличие от каталогов, поисковая система - это полностью автоматизированная структура.
К преимуществам поисковых машин следует отнести: малое количество в результатах поиска устаревших ссылок; намного большее количество Web-узлов, по которым производится поиск; более высокая скорость поиска; высокая релевантность поиска; наличие дополнительных сервисных функций, облегчающих работу пользователя.
В основу работы поисковых машин заложены совершенно иные технологические принципы. Задача поисковых машин - обеспечивать детальное разыскание информации в электронной вселенной, что может быть достигнуто только за счет учета всего содержания максимально возможного числа web-страниц. В отличие от каталогов, поисковые машины функционируют в автоматизированном режиме и имеют одинаковый принцип действия. Поисковые системы состоят из двух базовых компонентов. Первый компонент представляет собой программу-робот, задача которого путешествовать с сервера на сервер, находить там новые или изменившиеся документы и скачивать их на главный компьютер системы. При этом робот, просматривая содержимое документа, находит новые ссылки, как на другие документы данного сервера, так и на внешние сайты. Программа самостоятельно направляется по указанным ссылкам, находит новые документы и ссылки в них, после чего процесс повторяется вновь. Выявленные документы обрабатываются вторым компонентом поисковой системы. При этом, как правило, учитывается все содержание страницы, включая текст, иллюстрации, аудио и видеофайлы. Индексации подвергаются все слова в документе, что как раз и дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые гигантские индексные файлы, хранящие информацию о том, какое слово, сколько раз, в каком документе и на каком сервере употребляется, к которой происходит обращение пользователей, вводящих в строку запроса сочетания ключевых слов.
Выдача результатов осуществляется с помощью специального модуля, который производит интеллектуальных результатов. При этом берется в расчет местоположение термина в документе (название, заголовок, основной текст), частота его повторения, процентное соотношение искомого термина к остальному тексту. логический данные интернет поиск
Однако у поисковых машин существуют некоторые недостатки: ограниченная область поиска. Для того чтобы составленный запрос на поиск точно соответствовал тому, что именно требуется найти, нужно хотя бы немного представлять, как работает поисковая машина, и уметь использовать простейшие логические операторы. Поисковые каталоги в этом смысле проще и привычнее; менее наглядная форма представления результатов запроса. Каталог выдает название сайта с его краткой аннотацией и другой полезной информацией.
Вывод
Тема моей практики «Изучение способов представления знаний и данных в интернет».
Целью практики являлось изучение в реальных условиях способов представления знаний в интернете, а также проведение работ и выполнение заданий, связанных с темой практики, для получения соответствующих практических навыков.
В процессе прохождения данной практики мною был выполнен следующий перечень работ и заданий: я изучала на практике основы представления данных в Интернет и способы эффективной публикации данных;
конфигурировала Web сервер;
занималась настройкой различных систем на виртуальном хостинге;
научилась работать с наиболее популярными, на данный момент CMS и Drupal;
занималась настройкой и отладкой работы сайтов и публиковала данные на web сервере;
и наработала необходимый практический материал для выпускной квалификационной работы.
Впервые дни прохождения моей практики руководителем было поручено изучить самые необходимые служебные инструкции практикантов по месту прохождения практики для надлежащего их выполнения, не нарушая правил данной организации.
Мое рабочее время длилось с 9:00 до 17:00 часов, рабочие дни с понедельника по пятницу включительно.
Также я был ознакомлена с правилами поведения в офисе о конфиденциальности компании и работой с важной информацией - паролями, важными базами данных и файлами.
Мне были разъяснены и правила общения с клиентами компании, правила работы с различными документами, порядком их хранения, системой учета заказов и контролем качества. Меня также ознакомили и с общими принципами работы компаниями в сети Интернет, созданием, публикацией и продвижением Интернет сайтов и веб сервисов.
Как я сразу выяснил, Drupal оказался весьма требовательным к системным ресурсам виртуального сервера, требования же у этой системы управления сайтом были следующие: - Веб-сервер: Apache (рекомендовался), Nginx, Lighttpd, или Microsoft IIS
- СУБД (система управления базами данных): MYSQL версии 5.0.15 или выше, POSTGRESQL 8.3 или выше, или SQLITE 3.x
- Версия PHP: 5.2.4 и выше.
Итак, подведу итоги своей практики, при прохождении который я приобрел не только ряд практических навыков, но и закрепил большое количество знаний, которые были получены на различных занятиях.
Лично меня же практика сделала еще более ответственной, профессиональным для своего начального уровня работником. Я овладела множеством нужных мне практических навыков, научилась быть более усидчивым и усердным, что очень важно. Благодаря практике я нашла много свежего практического материала для дипломной работы.