Основные методы построения рекомендательных систем. Характеристика качества построенных моделей на основе базы данных MovieLens. Создание прогнозов с помощью коллаборативного метода фильтрации. Главная особенность вычисления коэффициента Пирсона.
Аннотация к работе
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ НАЦИОНАЛЬНЫИ ИССЛЕДОВАТЕЛЬСКИИ УНИВЕРСИТЕТ «ВЫСШАЯ ШКОЛА ЭКОНОМИКИ» Факультет бизнеса и менеджментаВ связи с тем, что люди теряются в больших объемах информации и не могут найти то, что им действительно нужно, многие веб сервисы стали предлагать своим пользователям рекомендации о различных объектах на основе сведений, которые имеются о пользователе и его интересах. Программы, которые пытаются предсказать в каких объектах будет заинтересован пользователь, и называются рекомендательными системами. Рекомендательные системы анализируют большой объем данных для получения потенциальных предпочтений пользователей. Довольно часто пользователи, выбирая продукт для покупки, ориентируются на рекомендации из надежных источников или на отзывы и предпочтения людей, которым они доверяют. В связи с высоким ростом потребительского спроса и разнообразности предоставляемого ассортимента, пользователи теряются в спектре вариантов, а продавцы сталкиваются с проблемой персонализации предлагаемых рекомендаций.Рекомендательная система - это программа, предоставляющая рекомендации на основе данных о пользователях и о приобретаемых ими предметах [1]. Такие системы, обрабатывая полученную информацию, предполагают, какой именно объект вызовет наибольший интерес у пользователя. Рекомендательная система включает в себя цикл действий по работе с данными, начиная от получения сырых данных о пользователе, объектах и предпочтениях пользователя и заканчивая предоставлением рекомендации потребителю. При явном способе сборе данных пользователей сам предоставляет данные о себе, которые затем используются в работе рекомендательной системе. Главным недостатком такого типа сбора информации о пользователях является нежелание многих пользователей делится персональной информацией, поэтому слишком навязчивое требование заполнить профиль или выставить оценку объекту может даже их отпугнуть.Пользователям предлагают персонализированные предложения, а также дополнения к ним, стимулируя клиентов совершить несколько покупок, тем самым пользователям не придется тратить большое количество времени на поиски товаров среди множества прочих, а магазин при этом увеличивает свои продажи. Если же пользователь купил необходимый ему продукт, но не приобрел никаких дополнительных позиций, которые ему предлагали, рекомендательные системы могут напомнить ему об этом позднее посредствам персонализированной рекламной рассылки. Это сервис крупнейшей в мире базы данных фильмов, на котором пользователи могут оценивать фильмы по десятибалльной шкале, после чего оценки масштабируются и фильму присваивается средний балл, который является рейтингом фильма. Данный сервис по прослушиванию онлайн музыки предлагает своим пользователям новые композиции и альбомы анализируя музыку, которая нравится данному пользователю. Данная социальная сеть анализирует информацию о пользователе и его друзьях и на основании полученной информации предлагает пользователю список контактов, с которыми пользователь может быть знаком или могут его заинтересовать.Выбор типа рекомендательной системы зависит от специфики сервиса, для которого будут строится рекомендации, поэтому определяющую роль играет предметная область. Коллаборативная фильтрация основывается на собранной информация о пользователях и о продуктах, которые оценили данные пользователи. Для каждого пользователя (объекты) найти, насколько похожи другие пользователи (объекты) похожи на данный. По оценкам других пользователей (объектов) предсказать, какую оценку пользователь даст этому объекту, больше принимая во внимание мнение тех пользователей (объектов), которые больше похожи на данного. При применении данного подтипа рассчитывается значение подобия одного пользователя к другому на основе тех объектов, которые оценили оба пользователя.При построении рекомендательных систем любых типов используются различные меры сходства для определения сходства между объектами или признаками, однако наибольшую роль мера сходства будет играть в рекомендательных система коллаборативной фильтрации, так как именно от этого значения полностью зависит результат предсказанной оценки. Меры сходства можно разделить на несколько типов: · Сходство, основанное на расстоянии Расстояние будет равно количеству разных координат сравниваемых векторов: , Также в качестве меры сходства, основанной на расстоянии может использоваться Манхэттенское расстояние. Данная мера хорошо подходит в том случае, если оценки пользователей по объектам неизвестны, однако известен сам факт «потребления» пользователем того или иного объекта, за счет этого она может использоваться в рекомендательных системах, основанных на контенте. Теперь чтобы предсказать оценку пользователя для объекта необходимо взять некий вектор - набор параметров пользователя из матрицы U, и вектор (параметры объекта из матрицы V), и выполнить их скалярное произведение.
План
Оглавление
Введение
Глава 1. Рекомендательные системы
1.1 Определение рекомендательных систем
1.2 Примеры успешных рекомендательных систем
1.3 Типы рекомендательных систем
1.4 Методы построения рекомендательных систем
1.5 Критерии оценки качества рекомендательной системы
1.6 Проблемы
Глава 2. Разработка систем. Описание методов и их особенностей реализации в данной работе
2.1 Описание используемых данных
2.2 Практическая реализация рекомендательных систем
Глава 3. Результаты применения рекомендательных систем