L8: Л7 Em-алгоритм

12
Введение в Data Science Занятие 7. Ноунейм Николай Анохин Михаил Фирулик 18 апреля 2014 г.

description

L8: Л7 Em-алгоритм

Transcript of L8: Л7 Em-алгоритм

Page 1: L8: Л7 Em-алгоритм

Введение в Data ScienceЗанятие 7. Ноунейм

Николай Анохин Михаил Фирулик

18 апреля 2014 г.

Page 2: L8: Л7 Em-алгоритм

Работа в группе

Задача. Оценить, какой вклад внес в общий результат каждыйучастник группы

Шаг 1. Каждый студент анонимно и независимо распределяет 100очков между всеми участниками своей группы в зависимости того,какую пользу (по его/её мнению) каждый из участников принес

Пример.

Студент ВкладГеральт 50Лютик 10Мильва 20Регис 20

Шаг 2. Из всех оценок вычисляется общая аггрегированная оценкана основе алгоритма PageRank

Page 3: L8: Л7 Em-алгоритм

План занятия

PageRank

Задача модуля

Page 4: L8: Л7 Em-алгоритм

Жизнь до Google

1. Поисковые роботы используютсядля парсинга интернет-страниц

2. Составляется обратный индекс, вкотором каждому словусоответствовал набор страниц

3. Слова из поискового запросапользователя используются дляпоиска страниц в индексе

4. Из близких к запросу страницформируется выдача

Проблема: Term Spam

Page 5: L8: Л7 Em-алгоритм

Что придумали парни из Google

Дополнительно1. Страницы ранжируются в

соответствии с их“важностью” с помощьюалгоритма PageRank

2. О релевантности страницсудят не только по словам,находящимся на текущейстранице, но и по словам“соседних” страниц

Page 6: L8: Л7 Em-алгоритм

Random Surfer

ИнтуицияПользователь начинает с просмотра случайной страницы, после чегос равной вероятностью переходит по одной из ссылок на этойстранице. Процесс продолжается до бесконечности. PageRankстраницы – вероятность обнаружить пользователя на этой странице.

I Пользователь с большей вероятностью посещает “полезные”страницы, чем “бесполезные”

I Создатели страниц размещают ссылки на “полезные” страницы

Page 7: L8: Л7 Em-алгоритм

PageRank

Представим интернет, как направленный граф со страницами вкачестве вершин и ссылками между страницами в качестве ребер

Матрица вероятностей перехода

M =

0 1/2 1 01/3 0 0 1/21/3 0 0 1/21/3 1/2 0 0

Page 8: L8: Л7 Em-алгоритм

PageRank

Элементы матрицы перехода

mij = P(v(k)i |v

(k−1)j )

Изначально все страницыравновероятны

v(0) =(1/n . . . 1/n

)>Вектор вероятностей на k шаге

v(k) = Mv(k−1)

Предельное значение v – собственный вектор M, соответствующийсобственному числу λ = 1. Процесс сходится, если из любойвершины можно попасть в любую.

Page 9: L8: Л7 Em-алгоритм

Структура Интернета

Page 10: L8: Л7 Em-алгоритм

Проблемы PageRank

Dead End Spider Trap

Решение. разрешим пользовалю “телепортироваться” на случайнуюстраницу с вероятностью 1− β

v(k) = βMv(k−1) + (1− β)en

Page 11: L8: Л7 Em-алгоритм

Пример

Матрица перехода

M =

0 1/2 0 01/3 0 0 1/21/3 0 1 1/21/3 1/2 0 0

Без телепортов

v =(0 0 1 0

)С телепортами β = 0.8

v =(

15148

19148

95148

19148

)

Spider Trap

Page 12: L8: Л7 Em-алгоритм

Методика оценки

Геральт Лютик Мильва Регис ИндивидуальноГеральт 50 10 30 30 20Лютик 10 70 10 5 5Мильва 20 10 30 30 15Регис 20 10 30 35 15

Матрица перехода, β = 0.9

M =

0.5 0.1 0.3 0.30.1 0.7 0.1 0.050.2 0.1 0.3 0.30.2 0.1 0.3 0.35

v =

0.310.230.230.24

Групповая оценка: 30/40

Итог:Геральт: 29, Лютик: 12, Мильва: 22, Регис: 22