Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information...

53
Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar Raghavan Lecture 18: Link analysis

Transcript of Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information...

Page 1: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Introduction to

Information Retrieval

CS276Information Retrieval and Web Search

Christopher Manning and Prabhakar RaghavanLecture 18: Link analysis

Page 2: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Aula de Hoje Texto âncora. Link análise para o ranking.

Pagerank e variantes. HITS.

Page 3: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

A Web como um Grafo direcionado

Hipótese 1: Um hyperlink entre as páginas mostra a relevância percebida pelo autor (qualidade do sinal).

Hipótese 2: O texto âncora do hyperlink descreve o destino da página (contexto textual).

Pag. Ahyperlink Pag Bâncora

Sec. 21.1

Page 4: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Texto âncora WWW Worm - McBryan [Mcbr94]

Para ibm como a distinção entre: IBM’s home page (amostra grafica). IBM’s copyright page (alta frequencia de termo para ‘ibm’). Rival’s spam page (arbitrariamente alta freq. termo.)

www.ibm.com

“ibm” “ibm.com” “IBM home page”

Um milhão de partes para texto âncora para “ibm” mandando um sinal forte.

Sec. 21.1.1

Page 5: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Indexação do texto âncora Ao indexar um documento D, incluir o texto âncora

de links que apontam para D.

www.ibm.com

Armonk, NY-based computergiant IBM announced today

Joe’s computer hardware linksSunHPIBM

Big Blue today announcedrecord profits for the quarter

Sec. 21.1.1

Page 6: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Indexação de texto âncora Pode as vezes ter efeitos colaterais inesperados- e.g.,

império do mal. Pode marcar o texto âncora com peso dependendo

da entidade âncora da página do site. E.x., se fôssemos assumir que o conteúdo de cnn.com ou

yahoo.com seja autoritário, e em seguida seja o texto âncora de confiança deles.

Sec. 21.1.1

Page 7: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Texto âncora Outras aplicações:

Ponderação / links de filtragem no gráfico. Gerando a partir de descrições de página de

texto âncora.

Sec. 21.1.1

Page 8: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Análise de Citações Frequência da Citação. Co-citação de frequência de acoplamento.

Cocitação com medidas de um determinado autor de “impacto”.

Análise de Cocitação. Frequência Bibliographica de acoplamento.

Artigos que fazem co-citação de artigos relacionados. Indexação de Citação.

Quem é o autor sitado por? (Garfield 1972). Vizualizando Pagerank : Pinsker and Narin ’60s.

Page 9: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Consulta independente da ordenação

Primeira Geração: através da contagem de link como medidas simples de popularidade.

Duas sugestões básicas: Popularidade indireta:

Cada página recebe uma pontuação = o número de in-links mais os números de ligações out-links (3+2=5).

Direcionando a popularidade: Resultado de uma página = número de in-links (3).

Page 10: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Processamento de Consultas Primeiro recupera todas as páginas da reunião da

consulta de texto (digamos capital de risco). Ordenar estes pela popularidade do link (qualquer

variante do slide anterior). Mais sutil – a utilização do link conta como uma boa

medida estática (Aula7), combinando com o resultado do texto.

Page 11: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Spamming popularidade simples Exercício: How do you spam each of the following

heuristics so your page gets a high score? Cada página recebe uma pontuação fixa = ao número

de in-links mais o número de out-links. Contagem fixa de uma página = aos números dos in-

links.

Page 12: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Pontuação Pagerank Imagine um navegador fazendo um passeio aleatório

em páginas da Web: Estartar uma página randômicamente. Em cada etapa, saia da página atual ao longo de um dos

links da página, equacionadamente. “Em um estado parado” cada página tem um long-

term na taxa de visita – use isso como pontuação da página.

1/31/31/3

Sec. 21.2

Page 13: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Não é o Bastante A web é cheia de becos sem saidas.

Random walk podem ficar presos em becos sem saida. Não faz sentido falar de long-term para taxas de visitas.

??

Sec. 21.2

Page 14: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Teleporting Em um beco sem saida, salta

aleatóriamente para uma pág. Web. Em todo final non-dead, com probabilidade

de 10%, salta para uma página randomicamente. Com o restante da probabilidade (90%), sair

para um link aleatório. 10% - um parâmetro.

Sec. 21.2

Page 15: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Resultado do teleporting

Agora não podem ficar presos no local. Existe uma taxa para long-term onde

uma página é visitada (não é óbvio, mostrar isso).

Como podemos calcular essa taxa de visita?

Sec. 21.2

Page 16: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Cadeias de Markov Uma cadeia de Markov consiste em n estados, mais

nn probabilidade de transição da matriz P. A cada passo estamos em um dos estados. For 1 i,j n, a entrada da matriz Pij temos a

probalidade de j ser o próximo estado, dado que estão atualmente no estado i.

i jPij

Pii>0is OK.

Sec. 21.2.1

Page 17: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

.11

ij

n

j

P

Cadeias de Markov Evidente , para todo i, Cadeias de Markov são abastrações de passeios

aleatórios. Exercise: represent the teleporting random walk from

3 slides ago as a Markov chain, for this case:

Sec. 21.2.1

Page 18: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Cadeia de Markov Ergodic Uma cadeia de Markov é ergodic se

se você tem um caminho a partir de qualquer estado para qualquer outro.

Para qualquer estado inicial , após um tempo finito T0, a probablidade de ser em qualquer estado em um tempo fixo T>T0 é diferente de zero.

Notergodic(even/odd).

Sec. 21.2.1

Page 19: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Cadeias de Markov Ergodic

Para qualquer cadeia de Markov ergótica existe uma taxa de visita long-term para cada estado. Probabilidade de distribuição Steady-

state(estado-equilibrio). Durante um tempo, visitamos cada estado na

proporção desta taxa. Não importa o ponto de partida.

Sec. 21.2.1

Page 20: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Vetor de Probabilidade Uma probabilidade (linha) do vetor x = (x1, … xn)

nos diz que o caminho é qualquer ponto. Ex.., (000…1…000) significa que estamos em estado i.

i n1

Mais genéricamenteo o vetor x = (x1, … xn) significa que o andar esta em estados de i com a probab. xi. .1

1

n

iix

Sec. 21.2.1

Page 21: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Mudança na probalidade de vetores Se a prob do vetor é x = (x1, … xn) nesta

etapa , é a próxima? Lembre-se que a linha i da transição prob.

Matriz P onde vamos ao próximo estado i. Apartir de x, o próximo estado é distribuido

como xP.

Sec. 21.2.1

Page 22: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Exemplo do estado estável

O estado estacionário parece um vetor de probabilidade a = (a1, … an): ai é a probabilidade de estarmos no estado i.

1 23/4

1/4

3/41/4

Para esse exemplo, a1=1/4 e a2=3/4.

Sec. 21.2.1

Page 23: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Como calcular esse vetor? Dado a = (a1, … an) mostrar o vetor linha das

probabilidades de estado estacionário. Se a posição atual é descrita por a, o próximo passo é

distribuir aP. Mas a é o estado de equilíbrio , tal que a=aP. Resolvendo essa matriz de equação temos a.

Assim a (esquerda) de autovetor para P. (Corresponde para o “principal” autovetor de P com o

maior autovalor) Matrizes de transição de probalidade sempre tem o maior

autovalor como 1.

Sec. 21.2.2

Page 24: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Uma forma de calcular a Lembre-se que independente de onde começar

eventualmente pode atingir o estado fixo a. Comece com a distribuição (say x=(10…0)). Depois de um step estamos em xP; Depois de dois steps xP2 , em seguida xP3 e assim por

diante. “Eventualmente” para “grande” de k, xPk = a. Algoritimo: multiplicar x pelo valor incrementado de

P até que o produto seja estável.

Sec. 21.2.2

Page 25: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Resumo Pagerank Pré-processamento:

Dado o grafo de links, construir a matriz P. A partir dele calcular a. A entrada ai é um número entre 0 e 1: O pagerank da

pagina i. Processamento da Query:

Recuperar paginas da consulta. Classificar por pagerank. A ordenação é independente da consulta.

Sec. 21.2.2

Page 26: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

A Realidade Pagerank é usado no google, mas não é a história

completa do ranking. Muitos recursos sofisticados são utilizados. Alguns endereços específicos para consulta de classes. Ranking de máquina ja aprendido (aula 15) é muito

utilizado. Pagerank ainda é muito utilizado na politica de

indexação.

Page 27: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Pagerank: Questões e Variantes Quão realista é modelo surfar (surfer model)

randômico? (Isso é importante?). E se modelarmos o botão de voltar? O Comportamento de surfar constantemente desvia para trajetos

curtos. Motores de busca, bookmarks & directories fazem saltos não

aleatórios.

Tendenciosos Surfer Models A probabilidade da passagem do peso da borda baseado na passagem

do topic/query (borda selecionada não uniforme). Bias salta para páginas no tema (e.x., com base em pessoal

bookmarks & categorias de interesse).

Page 28: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Tópico Específico Pagerank Objetivo – Valores de pagerank que dependem da

consulta do tema (topic). Conceitualmente, utilizamos um surfista que se

teleporta aleatoriamente, com 10% de probabilidade, utilizando a seguinte regra:

Seleciona um tema(uma das 16 categorias do nivel superior ODP) baseado na consulta & usuário específico distribuido sobre as categorias.

Teleporte aleatório para uma página uniforme dentro do tema escolhido.

Parece dificil de implementar: não é possivel calcular o PageRank no momento da consulta!

Sec. 21.2.3

Page 29: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Offline: Compute pagerank para tópicos individuais. Consulta independente como antes. Cada página tem várias contagens do PageRank – uma para

cada categoria ODP, com teletransporte só para essa categoria. Online: Contexto de consultas classificados em (maior

distribuição de pesos) tópicos. Gerar pagerank dinamicamente com a pontuação para cada

página – soma ponderada de topic-specific para pageranks.

Tópico Específico Pagerank

Sec. 21.2.3

Page 30: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Influenciando PageRank (“Personalização”)

Input: Grafo Web W Influência do vetor v sobre temas

v : (página grau de influência) Output:

Rank do vetor r: (pagina importancia da página wrt v)

r = PR(W , v)

Sec. 21.2.3

Vector tem umComponente p/a

Cada tópico

Vector tem umComponente p/a

Cada tópico

Page 31: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Teletransporte Não Uniforme

Teleport com 10% de probabilidade para uma página de esportes.

Esporte

Sec. 21.2.3

Page 32: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Interpretação da Composição de Score

Dado um conjunto de vetores de personalização {vj}

j [wj · PR(W , vj)] = PR(W , j [wj · vj])

Considerando a preferência do usuário sobre o tema, expressa como a combinação de vetores “basis” vj.

Sec. 21.2.3

Page 33: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Interpretação

10% teletransporte Esporte.

Esporte

Sec. 21.2.3

Page 34: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Interpretação

Saúde

10% teletransporte saúde.

Sec. 21.2.3

Page 35: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Interpretação

Esporte

Saúde

pr = (0.9 PResporte + 0.1 PRsaúde) gera :9% teletransporte esporte, 1% teletransporte saúde.

Sec. 21.2.3

Page 36: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Hyperlink-Induced Topic Search (HITS) Em resposta a uma consulta, ao invés de uma lista

ordenada de cada consulta, encontra dois conjuntos de páginas inter-relacionadas: Páginas Hub são boas listas de links sobre o assunto.

ex., “Bob’s listas de links relacionadas ao cancer.” Authority pages ocorrem recorrentemente em bons hubs

para o assunto. Consultas mais adequadas para “termo amplo” do

que consultas para encontrar a página. Obtém uma ampla parte da opinião comum.

Sec. 21.3

Page 37: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Hubs e Autoridades Assim, uma boa página hub para um tópico

points para muitas páginas de autoridade para o tópico.

Uma página de boa autoridade para um tópico é apontada por muitos outros bons hubs sobre esse assunto.

Definição Circular – vai transformar isso em um cálculo interativo.

Sec. 21.3

Page 38: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

A Expectativa

AT&T Alice I TI M Bob O2

Empresas de telefonia Móvel

HubsAuthorities

Sec. 21.3

Page 39: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

High-level scheme

Extrair da web um conjunto básico de páginas que poderiam ser bons hubs de autoridade.

A partir destas, identificar um pequeno conjunto de hub e páginas de autoridade superior;Algoritimo interativo.

Sec. 21.3

Page 40: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Base set Atendendo a consulta de texto (say browser),

utilização de um indice de texto para obter todas as páginas que contém o browser. Chame uma root set (conjunto raiz) das

páginas. Adicionar em qualquer página que queira

Aponta para uma página do conjunto raiz, ou É apontada por uma página na raiz do jogo.

Chame essa base base set.

Sec. 21.3

Page 41: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Visualização

Conjraiz

Base set

Sec. 21.3

Page 42: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Montagem do Conjunto Básico Conjunto raíz tipico 200-1000 nós. Base set pode ter milhares de nós.

Tópicos dependentes. Como encontrar os nós na base set ?

Seguir as ligações ao analisar a raiz do conjunto de páginas.

Obter in-links (e out-links) da conectividade de servidores (Aula 17).

Sec. 21.3

Page 43: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Distribuindo hubs and authorities Calcular, para cada página x do base set, um hub

score h(x) e um authority score a(x). Inicializar : para todo x, h(x)1; a(x) 1; Atualizar iterativamente todos h(x), a(x); Depois das iterações.

Pag. saída com valor alto h() score para top hubs. valor alto a() scores com top authorities.

Key

Sec. 21.3

Page 44: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Atualização Iterativa Repita as seguintes atualizações para x:

yx

yaxh

)()(

xy

yhxa

)()(

x

x

Sec. 21.3

Page 45: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Scaling Para evitar que os valores h() e a() fiquem

muito grandes, pode-se diminuir o score a cada iteração.

O Fator de dimencionamento não importa: Deve-se preocupar apenas com os valores

relativos para o score.

Sec. 21.3

Page 46: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Quantas Iterações? Afirmação: Os valores relativos do scores irão

convergir após algumas iterações: De fato, devidamente dimensionados os pontos,

h() e a() estabelecer um score fixo! A prova disso vem depois.

É requerida a ordem relativa para o score de h() e a() - não sendo valores absolutos.

Na prática, ~5 iterações podem levar a estabilidade.

Sec. 21.3

Page 47: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Escoloas Fundamentais do Japan

The American School in Japan The Link Page ‰ªès—§ˆä“c¬ŠwZƒz[ƒƒy[ƒW � � � � � � � Kids' Space ˆÀés—§ˆÀ鼕”¬ŠwZ � � � � � � ‹{鋳ˆç‘åŠw•‘®¬ŠwZ � � � � KEIMEI GAKUEN Home Page ( Japanese ) Shiranuma Home Page fuzoku-es.fukui-u.ac.jp welcome to Miasa E&J school _“Þ쌧E‰¡•ls—§’†ì¼¬ŠwZ‚̃y� � � � � � � � http://www...p/~m_maru/index.html fukui haruyama-es HomePage Torisu primary school goo Yakumo Elementary,Hokkaido,Japan FUZOKU Home Page Kamishibun Elementary School...

schools LINK Page-13 “ú–{‚ÌŠwZ � a‰„¬ŠwZƒz[ƒƒy[ƒW � � � � � � 100 Schools Home Pages (English) K-12 from Japan 10/...rnet and Education ) http://www...iglobe.ne.jp/~IKESAN ‚l‚f‚j¬ŠwZ‚U”N‚P‘g•¨Œê � � ÒŠ—’¬—§ÒŠ—“Œ¬ŠwZ � � � � Koulutus ja oppilaitokset TOYODA HOMEPAGE Education Cay's Homepage(Japanese) –y“쬊wZ‚̃z[ƒƒy[ƒW � � � � � UNIVERSITY ‰J—³¬ŠwZ DRAGON97-TOP � � ‰ª¬ŠwZ‚T”N‚P‘gƒz[ƒƒy[ƒW � � � � � � ¶µ°é¼ÂÁ© ¥á¥Ë¥å¡¼ ¥á¥Ë¥å¡¼

Hubs Authorities

Sec. 21.3

Page 48: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Pertence a nota

Recupera páginas boas independente do idioma de conteúdo dessa página.

Utilize o link depois de analisar a base set montada. A pontuação iterativa é independente da

consulta. Cálculo iterativo depois de recuperar o texto

do índice – significativa sobrecarga.

Sec. 21.3

Page 49: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Prova da Convergência

nn adjacency matrix A: Cada uma das n páginas na base set tem uma linha e

coluna na matriz. Entry Aij = 1 if page i links to page j, else = 0.

1 2

3

1 2 31

2

3

0 1 0

1 1 1

1 0 0

Sec. 21.3

Page 50: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Vetor Hub/autoridade Ver o hub scores h() e a autoridade scores a() como

vetores com n components. Recall as atualizações iterativas.

yx

yaxh

)()(

xy

yhxa

)()(

Sec. 21.3

Page 51: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Reescreva na forma matriz h=Aa. a=Ath.

Recall At is the

transpose of A.

Substituting, h=AAth and a=AtAa.portanto, h é um autovetor de AAt e a é um autovetor de AtA.

Por outro lado, o algoritimo é um conhecido algoritimo para calcular autovetores: the power iteration method.

Guaranteed to converge.

Sec. 21.3

Page 52: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Questões Topic Drift.

Páginas Off-topic podem causar off-topic “autoridades” devolvidas. Ex., O gráfico de proximidade pode ser referente a um

“super topic”.

Reforçam Mutamente Afiliados. pages/sites afiliados podem retornar e aumentar

scores uns dos outros. Linkage entre páginas afiliadas não é um sinal útil.

Sec. 21.3

Page 53: Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Introduction to Information RetrievalIntroduction to Information Retrieval

Recursos IIR Chap 21. http://www2004.org/proceedings/docs/1p309.pdf http://www2004.org/proceedings/docs/1p595.pdf http://www2003.org/cdrom/papers/refereed/p270/

kamvar-270-xhtml/index.html http://www2003.org/cdrom/papers/refereed/p641/

xhtml/p641-mccurley.html