Post on 02-Jul-2015
description
Введение в Data ScienceЗанятие 7. Ноунейм
Николай Анохин Михаил Фирулик
18 апреля 2014 г.
Работа в группе
Задача. Оценить, какой вклад внес в общий результат каждыйучастник группы
Шаг 1. Каждый студент анонимно и независимо распределяет 100очков между всеми участниками своей группы в зависимости того,какую пользу (по его/её мнению) каждый из участников принес
Пример.
Студент ВкладГеральт 50Лютик 10Мильва 20Регис 20
Шаг 2. Из всех оценок вычисляется общая аггрегированная оценкана основе алгоритма PageRank
План занятия
PageRank
Задача модуля
Жизнь до Google
1. Поисковые роботы используютсядля парсинга интернет-страниц
2. Составляется обратный индекс, вкотором каждому словусоответствовал набор страниц
3. Слова из поискового запросапользователя используются дляпоиска страниц в индексе
4. Из близких к запросу страницформируется выдача
Проблема: Term Spam
Что придумали парни из Google
Дополнительно1. Страницы ранжируются в
соответствии с их“важностью” с помощьюалгоритма PageRank
2. О релевантности страницсудят не только по словам,находящимся на текущейстранице, но и по словам“соседних” страниц
Random Surfer
ИнтуицияПользователь начинает с просмотра случайной страницы, после чегос равной вероятностью переходит по одной из ссылок на этойстранице. Процесс продолжается до бесконечности. PageRankстраницы – вероятность обнаружить пользователя на этой странице.
I Пользователь с большей вероятностью посещает “полезные”страницы, чем “бесполезные”
I Создатели страниц размещают ссылки на “полезные” страницы
PageRank
Представим интернет, как направленный граф со страницами вкачестве вершин и ссылками между страницами в качестве ребер
Матрица вероятностей перехода
M =
0 1/2 1 01/3 0 0 1/21/3 0 0 1/21/3 1/2 0 0
PageRank
Элементы матрицы перехода
mij = P(v(k)i |v
(k−1)j )
Изначально все страницыравновероятны
v(0) =(1/n . . . 1/n
)>Вектор вероятностей на k шаге
v(k) = Mv(k−1)
Предельное значение v – собственный вектор M, соответствующийсобственному числу λ = 1. Процесс сходится, если из любойвершины можно попасть в любую.
Структура Интернета
Проблемы PageRank
Dead End Spider Trap
Решение. разрешим пользовалю “телепортироваться” на случайнуюстраницу с вероятностью 1− β
v(k) = βMv(k−1) + (1− β)en
Пример
Матрица перехода
M =
0 1/2 0 01/3 0 0 1/21/3 0 1 1/21/3 1/2 0 0
Без телепортов
v =(0 0 1 0
)С телепортами β = 0.8
v =(
15148
19148
95148
19148
)
Spider Trap
Методика оценки
Геральт Лютик Мильва Регис ИндивидуальноГеральт 50 10 30 30 20Лютик 10 70 10 5 5Мильва 20 10 30 30 15Регис 20 10 30 35 15
Матрица перехода, β = 0.9
M =
0.5 0.1 0.3 0.30.1 0.7 0.1 0.050.2 0.1 0.3 0.30.2 0.1 0.3 0.35
v =
0.310.230.230.24
Групповая оценка: 30/40
Итог:Геральт: 29, Лютик: 12, Мильва: 22, Регис: 22