Профилирование пользователей в сети Интернет - Статья

бесплатно 0
4.5 84
Особенности создания профиля пользователя на основе наблюдения за его поведением. Профилирование пользователей в семантической паутине. Источники данных, их обработка. Классификация профилей пользователя. Использование интеллектуального анализа в сети.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
Профилирование пользователей в сети Интернет Студенты Казаков Сергей Константинович, Ярлыкова Светлана Михайловна, Кандидат технических наук, Заведующая кафедры информационной безопасности, Телемтаев Руслан Андреевич Данная статья рассматривает проблему анализа данных, а также разбирает различные подходы и виды реализации профилей пользователя.Мы живем в обществе, в котором компьютеры и интернет широко используется для доступа к различным видам информации. Веб-персонализация, в широком смысле этого термина означает процесс персонализации вебсайтов в соответствии с профилем конкретного пользователя, чтобы достичь наиболее эффективного просмотра веб-страниц. Профиль пользователя создается на основе наблюдения за поведением пользователя (переход по гиперссылки на веб-странице, предпочтение в просматриваемом содержимом и т.д.), пользователь может обеспечить обратную связь с системой (например маркировка веб-страницы, оценка контента, что очень важно в совместной фильтрации).Технически говоря, семантическая паутина - это данные, представленные в некоторой форме, которые позволяют компьютерам эффективно обмениваться информацией между собой, целью которых, является создание более качественного конечного интерфейса пользователя. Информация о пользователе может быть представлена несколькими способами.Эти данные разделены на четыре основные категории: (I) данные из журналов веб-доступа, (II) данные контента, (III) веб-структура данных сайта, и (IV) демографические данные. Веб-журналы содержат информацию о пользователях, имеющих доступ к сайту. Журналы в основном хранятся просто в виде текстовых файлов. Веб-журнал содержит следующую информацию: (I) IP-адрес пользователя, (II) имя аутентификации пользователя, (III) время доступа, (IV) запрос HTTP, (V) статус ответа, (VI) размер запрашиваемого ресурса, и, возможно, (VII) URL-адрес ссылающейся страницы и (VIII) браузер пользователя. Здесь мы не имеем в виду только текстовую информацию, также к данному понятию относятся изображения и другой мультимедийный контент.Веб-боты в автоматическом режиме просматривают множество различных страниц в сети. Можно применять информацию о зарегистрированных пользователях, по средствам cookie-файлов для определения предпочтений каждого пользователя. Также система пытается оценить, когда пользователь покинул вебсайт. Кроме того, многие пользователи могут иметь доступ к одному компьютеру. Страницы, которые пользователь посещает в течение сеанса могут быть классифицированы в качестве вспомогательных или содержательных (страниц с контентом) страниц.Большой объем информации приносит ряд проблем пользователю, а также научному сообществу.Последние исследования предлагают новые решения, помогая пользователям принять правильное и быстрое решение в выборе информации, в которой он заинтересован. Некоторые из аспектов интеллектуального анализа данных включают в разработку моделей для распознавания текстовых документов на основе слов, фраз, лингвистических и грамматических свойств текста, а также извлечения информации из больших объемов данных. Часто используется векторное представление, где все слова из документа берутся в словаря, игнорируя порядок слов или структуру текста. Другой способ, это удалить повторяющиеся слова и слова имеющие общее однокоренное слово.Существуют различные системы, которые генерируют профиль пользователя и использовают его для помощи в веб-браузинге. Проблема определяется как предсказать нажатие гиперссылки из набора веб-документов, посещенных пользователем. Каждой ссылке назначается один из двух значений класса: положительный (пользователь нажал на ссылку), либо отрицательным (пользователь не нажимает на ссылку).Автоматическая классификация текста документа является давно известной проблемой, которой занимается множество исследователей. Каждая категория обозначается ключевыми словами, которые указывают на пути от корня дерева к узлу, представляющего категорию. Некоторые узлы в нижней части дерева содержат в основном гиперссылки на фактические веб-документы, в то время как другие узлы в основном содержат только ссылки на другие узлы в иерархии.Совместное профилирование пользователя основано на нахождении пользователей, которые похожи на активного пользователя и подобны их предпочтения, то система может предсказать предпочтения активного пользователя для некоторых предметов и определить ранжированный список предметов, которые активный пользователь наиболее вероятно предпочтет.К примеру мы хотим посмотреть фильм, тогда мы смотрим отзывы и рейтинг на одном из общедоступных вебсайтов. То есть предсказание происходит на основе рейтингов, которые присваивают этому фильму другие пользователи, и при условии, что их вкусы схожи с нашими. Совместная фильтрации сравнивает пользователей в соответствии с их предпочтениями.

План
Содержание

1. Введение

2. Профилирование пользователей в семантической паутине

3. Работа с веб-данными

3.1 Источники данных

3.2 Обработка данных

4. Содержимое на основе профиля пользователя

4.1 Управление данными

4.2 Профилирование пользователя для веб-просмотра

4.3 Классификация профилей пользователя

5. Совместное Профилирование Пользователя

5.1 Проблема совместной фильтрации

5.2 Типы коллаборативной фильтрации

5.3 Подход основанный на модели

5.4 Гибридный подход

5.5 Другие подходы

6. Использование интеллектуального анализа в сети

6.1 Методы анализа данных с точки зрения решаемых задач и реализуемых подходов

6.2 Выявление знаний из веб-ресурсов

7. Заключение

Библиографический список

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?