L8: Л7 Em-алгоритм

Post on 02-Jul-2015

133 views 0 download

description

L8: Л7 Em-алгоритм

Transcript of L8: Л7 Em-алгоритм

Введение в Data ScienceЗанятие 7. Ноунейм

Николай Анохин Михаил Фирулик

18 апреля 2014 г.

Работа в группе

Задача. Оценить, какой вклад внес в общий результат каждыйучастник группы

Шаг 1. Каждый студент анонимно и независимо распределяет 100очков между всеми участниками своей группы в зависимости того,какую пользу (по его/её мнению) каждый из участников принес

Пример.

Студент ВкладГеральт 50Лютик 10Мильва 20Регис 20

Шаг 2. Из всех оценок вычисляется общая аггрегированная оценкана основе алгоритма PageRank

План занятия

PageRank

Задача модуля

Жизнь до Google

1. Поисковые роботы используютсядля парсинга интернет-страниц

2. Составляется обратный индекс, вкотором каждому словусоответствовал набор страниц

3. Слова из поискового запросапользователя используются дляпоиска страниц в индексе

4. Из близких к запросу страницформируется выдача

Проблема: Term Spam

Что придумали парни из Google

Дополнительно1. Страницы ранжируются в

соответствии с их“важностью” с помощьюалгоритма PageRank

2. О релевантности страницсудят не только по словам,находящимся на текущейстранице, но и по словам“соседних” страниц

Random Surfer

ИнтуицияПользователь начинает с просмотра случайной страницы, после чегос равной вероятностью переходит по одной из ссылок на этойстранице. Процесс продолжается до бесконечности. PageRankстраницы – вероятность обнаружить пользователя на этой странице.

I Пользователь с большей вероятностью посещает “полезные”страницы, чем “бесполезные”

I Создатели страниц размещают ссылки на “полезные” страницы

PageRank

Представим интернет, как направленный граф со страницами вкачестве вершин и ссылками между страницами в качестве ребер

Матрица вероятностей перехода

M =

0 1/2 1 01/3 0 0 1/21/3 0 0 1/21/3 1/2 0 0

PageRank

Элементы матрицы перехода

mij = P(v(k)i |v

(k−1)j )

Изначально все страницыравновероятны

v(0) =(1/n . . . 1/n

)>Вектор вероятностей на k шаге

v(k) = Mv(k−1)

Предельное значение v – собственный вектор M, соответствующийсобственному числу λ = 1. Процесс сходится, если из любойвершины можно попасть в любую.

Структура Интернета

Проблемы PageRank

Dead End Spider Trap

Решение. разрешим пользовалю “телепортироваться” на случайнуюстраницу с вероятностью 1− β

v(k) = βMv(k−1) + (1− β)en

Пример

Матрица перехода

M =

0 1/2 0 01/3 0 0 1/21/3 0 1 1/21/3 1/2 0 0

Без телепортов

v =(0 0 1 0

)С телепортами β = 0.8

v =(

15148

19148

95148

19148

)

Spider Trap

Методика оценки

Геральт Лютик Мильва Регис ИндивидуальноГеральт 50 10 30 30 20Лютик 10 70 10 5 5Мильва 20 10 30 30 15Регис 20 10 30 35 15

Матрица перехода, β = 0.9

M =

0.5 0.1 0.3 0.30.1 0.7 0.1 0.050.2 0.1 0.3 0.30.2 0.1 0.3 0.35

v =

0.310.230.230.24

Групповая оценка: 30/40

Итог:Геральт: 29, Лютик: 12, Мильва: 22, Регис: 22