Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit...

80
Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014

Transcript of Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit...

Page 1: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Information Retrieval Modelle:Probabilistische Modelle

Kursfolien

Karin Haenelt

6.11.2010mit Korrekturen vom 1.11.2014

Page 2: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Inhalt

Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR)

Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion RobertsonSparckJones (RSV)

Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25

Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich

2© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

I

Page 3: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Probabilistische Retrievalmodelle

Ziel Schätzung der Wahrscheinlichkeit, dass ein Dokument dm

für eine Anfrage qk relevant ist

Erster Ansatz: Maron und Kuhns (1960) Das klassische probabilistische Retrievalmodell ist das

Binary Independence Retrieval (BIR) Modell(Robertson/Sparck Jones, 1976) Dokumentvektoren mit binären Werten

(Term kommt vor, kommt nicht vor) Annahme der Unabhängigkeit der einzelnen Terme

Weiterentwicklungen: Einbeziehung der Termfrequenzen

3© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 4: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Inhalt

Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR)

Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion

Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25

Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich

4

I

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 5: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelDarstellungen

Originalartikel Stephen E. Robertson und Karen Spärck Jones (1976).

Relevance weighting of search terms. In: Journal of the American Society for Information Science 27, May June 1976, S. 129-146. http://www.soi.city.ac.uk/~ser/papers/RSJ76.pdf

Beschreibungen Reginald Ferber (2003). Information Retrieval. Suchmodelle und

Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt-Verlag. http://information-retrieval.de/irb/ir.html

Norbert Fuhr (2003). Information Retrieval. Skriptum zur Vorlesung im SS03. 24. April 2003. http://www.is.informatik.uni-duisburg.de/courses/ir_ss03/folien/irskall.pdf

5© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 6: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelBeispiel: Aussortieren unerwünschter Werbe-Mails Lösungsschritte

1. Relevance Feedback eine Person markiert E-Mails in einem Lerncorpus

relevante Mails und nicht-relevante Mails ( = unerwünschte Werbe-Mails)

2. Gewichtungsfunktion als Lernaufgabe (Lerncorpus) das System berechnet Termgewichte für die einzelnen

Terme je nach ihrer Verteilung in relevanten und nicht-relevanten Mails

3. Klassifikation (Anwendungscorpus) das System berechnet die Wahrscheinlichkeit der Relevanz

neuer E-Mails auf der Basis der Termgewichte

6© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 7: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelBeispiel: Lösungsschritt: Relevance Feedback

7

t1 t2 t3 t4 t5 t6 R.Feedback1 0 1 1 0 0d1

1 1 0 1 1 0d2

0 0 1 0 1 1d3

0 0 1 1 1 1d4

0 0 0 1 1 0d5

0 0 1 0 0 0d6

1 1 1 0 0 1d7

0 0 0 0 1 0d8

2 1 3 3 3 2 rel=4reli1 1 2 1 2 1 nrel=4nreli

R

R

R

R

R

R

R

R

Relevanz-Angaben

reli relevante Dokumente mit Term inreli nicht-relevante Dokumente mit Term i

rel relevante Dokumentenrel nicht-relevante Dokumente

Ferber, 1998:120

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 8: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelBeispiel: Lösungsschritt: Gewichtungsfunktion (1)

8

3 1 3 9 3 3Term-Gewicht

)1(

)1(

relrel

nrelnrel

nrelnrel

relrel

ii

ii

t1 t2 t3 t4 t5 t6 R.Feedback1 0 1 1 0 0d1

1 1 0 1 1 0d2

0 0 1 0 1 1d3

0 0 1 1 1 1d4

0 0 0 1 1 0d5

0 0 1 0 0 0d6

1 1 1 0 0 1d7

0 0 0 0 1 0d8

2 1 3 3 3 2 rel=4reli1 1 2 1 2 1 nrel=4nreli

R

R

R

R

R

R

R

R

Ferber, 1998:120

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 9: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

3)

42

1(41

)41

1(42

Binary Independence Retrieval ModelBeispiel: Lösungsschritt: Gewichtungsfunktion (2)

9

t1 ti R.Feedback1 …d1

1 …d2

0 …d3

0 …d4

0 …d5

0 …d6

1 …d7

0 …d8

2 … rel=4reli1 … nrel=4nreli

3 …

)1(

)1(

relrel

nrelnrel

nrelnrel

relrel

ii

ii

)1(

)1(

relrel

nrelnrel

nrelnrel

relrel

ii

ii

Einsetzender WerteausRelevanceFeedback

Formel fürTermgewichtnachprobabilist.Modell

R

RRRR

R

RR

Term-Gewicht

Berechnung des Termgewichts für Term t1

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 10: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelBeispiel: Lösungsschritt: Klassifikation

10

t1 t2 t3 t4 t5 t6 Retrievalstatuswert1 1 0 0 0 1 log(3)+log(1)+log(3)=0.95d09

0 1 0 1 0 0 log(1)+log(9)=0.95d10

1 0 1 1 1 1 4log(3)+log(9)=2.86d11

0 0 1 0 1 0 log(3)+log(3)=0.95d12

3 1 3 9 3 3Term-Gewicht Ferber, 1998:121

Neue E-Mails und ihr Retrievalstatuswert

Berechnete Termgewichte

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 11: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Inhalt

Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR)

Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion

Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25

Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich

11

I

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 12: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelTheorie (1)

Das Modell ist formal hergeleitet nach Prinzipien der Wahrscheinlichkeitstheorie

Die Theorie beschreibt, wie Vorkommenswahrscheinlichkeiten einzelner Terme in

relevanten und nicht-relevanten Dokumenten zu einer Gesamtschätzung der Relevanz eines Dokuments

(Retrievalstatuswert eines Dokuments – RSV)

kombiniert werden

12

Robertson/Sparck Jones, 1976

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 13: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelTheorie (2)

Vorkommenswahrscheinlichkeiten der Terme und dasVerfahren der Relevanzschätzung eines Dokuments bilden eine theoretische Einheit: Termgewichtung und Ähnlichkeitsfunktion sind gemeinsam im Rahmen der Wahrscheinlichkeitstheorie

bestimmt können nicht unabhängig voneinander gewählt werden

13

Robertson/Sparck Jones, 1976© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 14: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelTheorie (3)

sie können in einer Funktion implementiert werden sie lassen sich aus praktischen Gründen der Systemmodularität

zerlegen in eine Termgewichtungsfunktion wti

eine Ähnlichkeitsfunktion sim(dm,qk)

wobei sim(dm,qk) den Retrievalstatuswert eines Dokuments (RSV) unter Verwendung der Termgewichte wti berechnet - sim(dm,qk) = RSV

14

Robertson/Sparck Jones, 1976© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 15: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence ModelDefinition

wi,m {0,1} Variablen der Index-Term-

wi,k {0,1} Gewichtung sind binär

T = {t1,..,tx} Menge der Index-Terme

x Anzahl der Index-Terme im System

X = {1,...,x} Menge d. Kennungen der I-Terme

Query-Vektor

Dokument-Vektor

15

),...,,( ,,2,1 kxkk wwwq ),...,,( ,,2,1 mxmmm wwwd

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 16: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence ModelDefinition

R Menge der relevanten Dokumente(bekannt oder anfangs geschätzt !!!)

R Komplementmenge zu RMenge der nicht-relevanten Dokumente

P(R|qk,dm) Wahrscheinlichkeit der Relevanz, wenneine Anfrage qk und ein Dokument dm gegeben sind

P(R|qk,dm) Wahrscheinlichkeit der Irrelevanz, wenn eine Anfrage qk und ein Dokument dm gegeben sind

16© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 17: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Inhalt

Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR)

Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion

Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25

Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich

17

I

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 18: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (1)

Ziel: Schätzung der Wahrscheinlichkeit, dass ein spezifisches Dokument dm für

eine Anfrage qk (genauer: für eine Suchsituation si mit einer Anfrage qk, also eine Instanz

einer Anfrage qk)

Relevanz (R) hat Grundannahme„Cluster-Hypothese“

Terme sind in relevanten und nicht relevanten Dokumenten unterschiedlich verteilt

18

Ziel Bestimmung von P(R|qk,dm)

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 19: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (2)

um P(R|qk,dm) zu schätzen, müssten zu allen Anfragen Dokumente mit Relevanzbestimmungen vorliegen

kaum realistisch daher Berechnung nicht für einzelne Dokumente, sondern für

Termmengen (i.e. Dokumentvektoren)

19

(1) Einsetzung von Dokumentrepräsentationen

),|( mk dqRP[1]

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 20: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (3)

20

(2) Umformung nach Bayes-Regeln

[2.1]

(a) P(A|B) = P(AB)/P(B)(b) P(AB) = P(A)⋅P(B|A) = P(B)⋅P(A|B)

[2.2]

)(

)(),|(

mk

mkmk

dqP

dqRPdqRP

)|()(

)|()(),|(

kmk

kmk

mkqdPqP

qRdPqRPdqRP

P(A|B) = P(AB)/P(B)

P(AB) = P(A)⋅P(B|A)

P(AB) = P(A)⋅P(B|A)

Ferber, 1998

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 21: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (4)

21

(2) Umformung nach Bayes-Regeln

[2.3]

(a) P(A|B) = P(AB)/P(B)(b) P(AB) = P(A)⋅P(B|A) = P(B)⋅P(A|B)

[2.4]

)|()(

)|()|()(),|(

kmk

kmkkmk

qdPqP

qRdPqRPqPdqRP

)|(

)|()|(),|(

km

kmk

mkqdP

qRdPqRPdqRP

Ferber, 1998

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 22: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (5)

22

(3) Quote (Odds) statt Wahrscheinlichkeiten

Weitere Darstellungsmöglichkeit für die Chance, dass ein Ereignis auftritt: Quote (Odds) eines Ereignisses

O(Y) < 1 für Wahrscheinlichkeiten < 0.5O(Y) > 1 für Wahrscheinlichkeiten > 0.5

Liefert dieselbe Rangreihe für Ereignisse wieWahrscheinlichkeit; erlaubt z.T. einfacheres Rechnen

)(1

)(

)(

)()(

YP

YP

YP

YPYO

Ferber, 1998

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 23: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (6)

23

(3) Quote (Odds) statt Wahrscheinlichkeiten

[3.1]

[3.2]

Ferber, 1998

)|(

)|()|(

)|(

)|()|(

),|(

),|(),|(

km

kkm

km

kkm

m

mkmk

qdP

qRPqRdP

qdP

qRPqRdP

dqkRP

dqRPdqRO

)|(

)|(

)|(

)|(),|(

km

km

k

k

mkqRdP

qRdP

qRP

qRPdqRO

[2.4]

[2.4]

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 24: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (7)

24

(4) Annahme der Unabhängigkeit der Terme

[3.2]

Sind A und B unabhängig, so giltP(AB) = P(A)⋅P(B)

[4]

Ferber, 1998

(Diese Annahme über Dokumente ist sehr vereinfachend)

)|(

)|(

)|(

)|(),|(

km

km

k

k

mkqRdP

qRdP

qRP

qRPdqRO

x

i kim

kimkmk

qRwP

qRwPqROdqRO

1 ),|(

),|()|(),|(

Auf der Basisder Annahme derUnabhängigkeit der Terme wird die Wahrscheinlichkeitdes Dokumentvektorsdargestellt durch dasProdukt der Wahrscheinlichkeitender Einzelterme

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 25: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (8)

25

(5) Aufspaltung des Produkts nach dem Vorkommen der Terme

[5]

Ferber, 1998

dqtXi kim

kim

i qRwP

qRwP

| ),|1(

),|1(

dqtXi kim

kim

i qRwP

qRwP

\| ),|0(

),|0(

qtXi kimim

kimim

i qRwwP

qRwwP

| ),|10(

),|10(

)|(),|( kmk qROdqRO

+/- -

- +

+ +

ti d q

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 26: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (9)

26

(6) Weitere vereinfachende Annahme

[5] dritter Faktor

Ferber, 1998

Es wird - nicht immer zutreffend - angenommen,dass alle Terme, die nicht in der Anfrage auftreten, mit derselben Wahrscheinlichkeit in relevanten und irrelevanten Dokumenten auftreten

),|(),|(\ qRwPqRwPgiltqTtfür imimi

qtXi kimim

kimim

i qRwwP

qRwwP

|

1),|10(

),|10(d.h.

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 27: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (10)

27

(6) Weitere vereinfachende Annahme

Ferber, 1998

So ergibt sich folgende vereinfachte Formel

[6])|(),|( kmk qROdqRO

dqtXi kim

kim

i qRwP

qRwP

| ),|1(

),|1(

dqtXi kim

kim

i qRwP

qRwP

\| ),|0(

),|0(

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 28: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (11)

28

(7) Komplementäre Umformung der Wahrscheinlichkeit

[7]

Ferber, 1998

1)()( APAP),|1(1),|0( kimkim qRwPqRwP

dqtXi kim

kimkmk

i qRwP

qRwPqROdqRO

| ),|1(

),|1()|(),|(

dqtXi kim

kim

i qRwP

qRwP

\| ),|1(1

),|1(1

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 29: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (12)

29

(8) Vereinfachung der Schreibweise

[8]

Ferber, 1998

),|1( kimi qRwPr ),|1( kimi qRwPn

dqtXi i

ikmk

i n

rqROdqRO

|

)|(),|(

dqtXi i

i

i n

r

\| 1

1

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 30: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

dqtXi ii

ii

i rn

nr

| )1()1(

)1()1(

Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (13)

30

(9) Herausarbeitung der dokumentabhängigen Faktoren

[9.1]

Ferber, 1998

[9.2]

)|(),|( kmk qROdqRO

dqtXi i

i

i n

r

\| 1

1

dqtXi i ni

ri

|

[8] multipliziert mit 1

qtXi i

i

dqtXi ii

iikmk

ii n

r

rn

nrqROdqRO

|| 1

1

)1(

)1()|(),|(

1

Geeignete Aufspaltung des Faktors

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 31: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (14)

31

(10) Ausblendung der nicht dokument-abhängigen Faktoren

[9.2]

Ferber, 1998

[10]

qtXi i

i

dqtXi ii

iikmk

ii n

r

rn

nrqROdqRO

|| 1

1

)1(

)1()|(),|(

nur die Faktoren, die für die Rangfolge der Dokumente relevantsind, werden weiter betrachtet

dqtXi ii

ii

i rn

nr

| )1(

)1(

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 32: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (15)

32

(11) Anwendung eines Logarithmus

Ferber, 1998

[10]

- zur logarithmischen Skalierung der Ergebnisse- zur Vermeidung mehrfacher Rundungsfehler auf dem Rechner

dqtXi ii

ii

i rn

nr

| )1(

)1(

))1(

)1(log(log

)1(

)1(log

|| i

i

dqtXi i

i

dqtXi i

ii

r

n

n

r

rn

nr

ii i

Retrievalstatuswert eines Dokuments (retrieval status value)

RSV =[11]

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 33: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Inhalt

Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR)

Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion

Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25

Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich

33

I

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 34: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelTermgewichtungsfunktion : Grundlagen (1)

Um aus Formel [11] den Retrievalstatuswert eines Dokuments berechnen zu können, werden die Parameter der Summanden ri und ni gebraucht

Term i im relevanten Dokument Term i im nicht-relevanten Dokument

Zwei Vorgehensweisen: Parameterschätzung durch interaktives Relevance Feedback automatische rekursive Verfeinerung im Suchprozess

34

),|1( kimi qRwPr ),|1( kimi qRwPn

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 35: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelTermgewichtungsfunktion : Grundlagen (2)

35

im Unterschied zum Booleschen Modell und zum Vektormodell werden probabilistische Termgewichte nicht anfrage-unabhängig auf der Dokumentbasis bestimmt sondern anfragespezifisch berechnet

nach der Relevanz der Dokumente für eine Anfrage auf der Basis der Verteilung in relevanten und nicht-

relevanten Dokumenten jede Anfrage ist ein Anfrage-Ereignis: stellen verschiedene

Leute dieselbe Anfrage, so sind verschiedene Relevanzbeurteilungen der Dokumente möglich (in der Praxis werden allerdings auch Mittelwerte über die Beurteilungen der Anfrage-Ereignisse gebildet)

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 36: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Basis der Parameterschätzung• Es wurden bereits Dokumente ausgewählt• Benutzende unterteilen Dokumente in „relevant“ und „nicht-

relevant“

Binary Independence Retrieval ModelTermgewichtungsfunktionParameterschätzung durch Relevance Feedback (1)

36© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 37: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Beobachtungsbasis

rel Anzahl der als relevant beurteilten

Dokumente

reli Anzahl der relevanten Dokumente mit Term ti

nrel Anzahl der nicht-relevanten Dokumente

nreli Anzahl der nicht-relevanten Dokumente mit Term ti

Schätzwerte

Binary Independence Retrieval ModelTermgewichtungsfunktionParameterschätzung durch Relevance Feedback (2)

37

rel

relrqRwP

iikim ),|1(

nrel

nrelnqRwP

iikim ),|1(

Ferber, 1998

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 38: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

[11]

Einsetzung der Schätzwerte in Formel [11]

Binary Independence Retrieval ModelTermgewichtungsfunktionParameterschätzung durch Relevance Feedback (3)

38

dqtXi i

ii

i irn

nr

| )1(

)1(log

Retrievalstatuswert eines Dokuments

RSV =

Termgewicht

wti =

[12]

)1(

)1(log

relrel

nrelnrel

nrelnrel

relrel

ii

ii

dqtXi ii

ii

i

relrel

nrelnrel

nrelnrel

relrel

| )1(

)1(logRSV =

Retrievalstatuswert eines Dokuments

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 39: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelBeispiel: Lösungsschritt: Relevance Feedback

39

t1 t2 t3 t4 t5 t6 R.Feedback1 0 1 1 0 0d1

1 1 0 1 1 0d2

0 0 1 0 1 1d3

0 0 1 1 1 1d4

0 0 0 1 1 0d5

0 0 1 0 0 0d6

1 1 1 0 0 1d7

0 0 0 0 1 0d8

2 1 3 3 3 2 rel=4reli1 1 2 1 2 1 nrel=4nreli

R

R

R

R

R

R

R

R

Relevanz-Angaben

reli relevante Dokumente mit Term inreli nicht-relevante Dokumente mit Term i

rel relevante Dokumentenrel nicht-relevante Dokumente

Ferber, 1998:120

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 40: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

3)

42

1(41

)41

1(42

Binary Independence Retrieval ModelBeispiel: Lösungsschritt: Gewichtungsfunktion (2)

40

t1 ti R.Feedback1 …d1

1 …d2

0 …d3

0 …d4

0 …d5

0 …d6

1 …d7

0 …d8

2 … rel=4reli1 … nrel=4nreli

3 …

)1(

)1(

relrel

nrelnrel

nrelnrel

relrel

ii

ii

)1(

)1(

relrel

nrelnrel

nrelnrel

relrel

ii

ii

Einsetzender WerteausRelevanceFeedback

Formel fürTermgewichtnachprobabilist.Modell

R

RRRR

R

RR

Term-Gewicht

Berechnung des Termgewichts für Term t1

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 41: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelBeispiel: Lösungsschritt: Klassifikation

41

t1 t2 t3 t4 t5 t6 Retrievalstatuswert1 1 0 0 0 1 log(3)+log(1)+log(3)=0.95d09

0 1 0 1 0 0 log(1)+log(9)=0.95d10

1 0 1 1 1 1 4log(3)+log(9)=2.86d11

0 0 1 0 1 0 log(3)+log(3)=0.95d12

3 1 3 9 3 3Term-Gewicht Ferber, 1998:121

Neue E-Mails und ihr Retrievalstatuswert

Berechnete Termgewichte

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 42: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Prinzip

Binary Independence Retrieval ModelTermgewichtungsfunktionrekursive Parameterschätzung im Suchprozess

Anfangsschätzung

Rekursion Ranking auf der Basis der Schätzung der Termgewichte Verwendung eines Schwellenwertes Annahme der Relevanz für alle Dokumente deren RSV über

dem Schwellenwert liegt Ermittlung der Termverteilungen in den Dokumenten und

Erzeugung neuer Termgewichte

42

N Gesamtzahl der Dokumente im Systemti Indextermni Anzahl der Dokumente, in denen Term ti vorkommt

5.0)|( RtP i

N

nRtP

ii )|(

Baeza-Yates/Ribeiro-Neto, 1999,33

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 43: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Formeln für die rekursive Verfeinerung

Binary Independence Retrieval ModelTermgewichtungsfunktionrekursive Parameterschätzung im Suchprozess

Annahme (a)P(ti|R,q)kann an Hand der Verteilung der Index-Terme

ti in den bisher ausgewählten Dokumenten approximiert werden

Annahme (b) P(ti|-R,q) kann unter der Annahme approximiert werden,

dass alle nicht ausgewählten Dokumente nicht relevant sind

43

Baeza-Yates/Ribeiro-Neto, 1999,33

rel

relqRtP

iki ),|(

relN

relnqRtP

iiki

),|(

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 44: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Binary Independence Retrieval ModelTermgewichtungsfunktionrekursive Parameterschätzung im Suchprozess

Die Formeln bereiten Probleme bei kleinen Werten von rel und reli (z.B. rel = 1 und reli = 0)

Korrekturwerte

44

Parameterkorrektur

relN

relnqRtP

iiki

),|(rel

relqRtP

iki ),|(

1

5.0),|(

rel

relqRtP

iki

1

5.0),|(

relN

relnqRtP

iiki

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 45: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Inhalt

Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR)

Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion

Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25

Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich

45

I

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 46: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

OkapiBedeutung

probabilistisches Retrievalsystem probabilistische Termgewichtungsfunktionen

für binäre Dokumentvektoren BM1 (Best Match) theoretische Fundierung: Robertson/Sparck Jones, 1976

Erweiterung: Parameter für Dokumentlänge und Termfrequenz in Anfrage und Dokument BM11, BM15, BM25 (auch kollektiv als Familie von

Gewichtungsfunktionen Okapi BM25 genannt) theoretische Fundierung: Robertson/Walker, 1994 BM25F Robertson/Zaragoza/Taylor, 2004

46© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 47: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

OkapiHistorie

Okapi 1982-1988: ursprünglich eine Familie bibliographischer

Retrievalsysteme, entwickelt unter Förderung der British Library an der Polytechnic of Central London (heute: University of Westminster)

1992-1997: City University, London 1998 ff: weitergeführt von Microsoft Research Laboratory in

Cambridge und eingebunden in die Keenbow-Evaluierungsumgebung für Retrievalsysteme (Robertson, Walker, 2000)

neue Experimente mit neuen Systemen (z.B. Indizes mit paralleler Architektur) und mehreren Gewichtungsfunktionen (z.B. BM25, BM25F; PageRank) (Craswell, Fetterly, Najork, Robertson, Yilmaz, 2009)

47© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 48: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

OkapiSuchtechniken

Gewichtung von Suchtermen Match-Funktion: Übereinstimmungswert eines Dokuments ist

die Summe der Gewichtung der zwischen der Suchanfrage und Dokument übereinstimmenden Terme

Relevance Feedback Query Expansion

48

Robertson, Walker, Hancock-Beaulieu, Gull, Lau, 1992

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 49: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Inhalt

Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR)

Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion

Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25

Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich

49

I

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 50: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Okapi-GewichtungsfunktionenNotation

50

N Anzahl der Dokumente in der Kollektion n Anzahl der Dokumente mit einem bestimmten Term ( Kollektionsfrequenz) R Anzahl der relevanten Dokumente für ein Thema r Anzahl der relevanten Dokumente mit einem bestimmten Term tf Vorkommenshäufigkeit eines Terms in einem Dokument qtf Vorkommenshäufigkeit eines Terms in einer Query dl Dokumentlänge (beliebige Einheiten) avdl durchschnittliche Dokumentlänge BMxx Best-match-Gewichtungsfunktion ki, b Konstanten

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 51: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Formel von Robertson / Sparck Jones (1976)

Okapi-GewichtungsfunktionenBasis: Robertson/Sparck Jones-Formel

51

RSJ

Robertson, S. Walker, S. Jones, M.M. Hancock-Beaulieu, M. Gatford (1994)

N Anzahl der Dokumente in der Kollektion n Anzahl der Dokumente mit einem bestimmten Term ( Kollektionsfrequenz) R Anzahl der relevanten Dokumente für ein Thema r Anzahl der relevanten Dokumente mit einem bestimmten Term

)5.0)(5.0(

)5.0)(5.0(log

rRrn

rRnNrw RSJ

i

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 52: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Formel der Experimente für TREC-1 ist die Robertson-Sparck Jones-Formel (RSJ) ohne Relevanzangaben, d.h. (R = r = 0)

in dieser Form entspricht die Formel der inversen Kollektionsgewichtung (idf)

Okapi-GewichtungsfunktionenBM1 / IDF

52

BM1

Robertson, S. Walker, S. Jones, M.M. Hancock-Beaulieu, M. Gatford (1994)

N Anzahl der Dokumente in der Kollektion n Anzahl der Dokumente mit einem bestimmten Term ( Kollektionsfrequenz) R Anzahl der relevanten Dokumente für ein Thema r Anzahl der relevanten Dokumente mit einem bestimmten Term

)5.0(

)5.0(log

n

nNw IDF

i

entspricht der AnnahmeP(t|relevant)=0.5

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 53: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Okapi-GewichtungsfunktionenBM25 Motivation

Binary Independence Model ursprünglich für Katalogeinträge und abstracts gleicher Länge entwickelt

Modell für freie Volltext-Kollektionen sollte berücksichtigen Termfrequenz Dokumentlänge Anfrage-Länge (Anfrage kann ein Beispieldokument sein)

BM 25 Okapi-Gewichtung theoretische Fundierung entwickelt von Stephen E.

Robertson und S. Walker (1994) benannt nach dem System Okapi, in dem es erstmals

verwendet wurde

53© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 54: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

tf Termfrequenz im Dokument qtf Termfrequenz in der Themenformulierung, die der Anfrage zu

Grunde liegt dl Dokumentlänge (ist geeignet festzusetzen) avdl durchschnittliche Dokumentlänge (ist geeignet festzusetzen) k1, b, k3 Parameter zur Anpassung an Eigenschaften einesTextcorpus

Okapi-GewichtungsfunktionenBM25

54

i

i

i

iRSJi

BMi qtfk

qtfk

tfavdldl

bbk

tfkww

3

3

1

125 )1(

)))1((

)1(

Robertson/Walker (2000), Sparck Jones/RoberstonWalker (1998)

- Grundform- allgemeinere Formen z.B. ohne qtf) - speziellere Varianten (z.B. BM11, BM15)

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 55: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

tf Termfrequenz im Dokument qtf Termfrequenz in der Themenformulierung, die der Anfrage zu

Grunde liegt dlnf Dokumentlängennormierungsfaktor k1, b, k3 Parameter zur Anpassung an Eigenschaften einesTextcorpus

Okapi-GewichtungsfunktionenBM25

55

i

i

i

iRSJi

BMi qtfk

qtfk

tfdlnfk

tfkww

3

3

1

125 )1()1(

Robertson/Walker (2000), Sparck Jones/RoberstonWalker (1998)

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 56: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

tf Termfrequenz im Dokument qtf Termfrequenz in der Themenformulierung, die der Anfrage zu

Grunde liegt dlnf Dokumentlängennormierungsfaktor k1, b, k3 Parameter zur Anpassung an Eigenschaften einesTextcorpus

Okapi-GewichtungsfunktionenBM25

56

i

i

i

iRSJi

BMi qtfk

qtfk

tfdlnfk

tfkww

3

3

1

125 )1()1(

Robertson/Walker (2000), Sparck Jones/Roberston/Walker (1998)

einfache Gewichtungs-Funktion (RSJ oder IDF)

Dokumentterm-frequenz-Faktor

Dokumentlängen-Normierungs-Faktor

Anfrageterm-frequenz-Faktor

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 57: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Okapi-GewichtungsfunktionenBM25 Termfrequenzfaktor

Robertson/Walker (1994) entwickeln eine komplexe Formel, die auf Überlegungen zu folgenden Eigenschaften beruht Verteilung 1: für jedes Thema gilt: es gibt Dokumente, die

das Thema behandeln, und solche, die es nicht behandeln Verteilung 2: für jeden Term gilt: er kann in einem Dokument

mit dem Thema, das mit dem Term assoziiert wird, vorkommen oder nicht

Verteilung 1 und Verteilung 2 sind beides Poisson-Verteilungen

Eliteness eines Terms: Term steht in Zusammenhang mit dem mit dem Term assoziierten Thema ( oder )

57

E ESparck Jones/Roberston/Walker (1998)

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 58: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Okapi-GewichtungsfunktionenBM25 Termfrequenzfaktor

Die Formel ist komplex algebraisch und bezüglich Interpretation und Abschätzung

Robertson/Walker (1994) untersuchen das Verhalten der Formel und schlagen eine einfachere Formel mit einem ähnlichen Verhalten vor

58

i

iRSJitf tfk

tfkww

i

1

1 )1(

Sparck Jones/Roberston/Walker (1998)

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 59: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Okapi-GewichtungsfunktionenBM25 Termfrequenzfaktor

Eigenschaften ist 0 bei Termfrequenz = 0 wächst monoton mit tfi

hat eine asymptotische Grenze (d.h. zusätzliche Vorkommen von t erhöhen das Gewicht, aber es gibt ein Limit des Erhöhungswertes)

k1: Modellierungsparameter zur Anpassung an Corpora

bestimmt, wie sehr das Gewicht wtfi auf eine Erhöhung von tfi reagiert

mit k=0 ist wtfi identisch mit wi (einfache Termpräsenz)

TREC-Erfahrung: Werte zwischen 1.2 und 2 sind effektiv

59

i

iRSJitf tfk

tfkww

i

1

1 )1(

Sparck Jones/Roberston/Walker (1998)

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 60: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Okapi-GewichtungsfunktionenBM25 Dokumentlängennormierungsfaktor

Annahme: Wortreichtum entsteht eher durch erweiterte Ausführungen

als durch Wiederholungen von Aussagen sollte also nicht einfach wegdividiert werden

einfache Version berücksichtigt Annahme nicht

erweiterte Version mit b = 1 ergibt sich einfache Version Werte b < 1 reduzieren den

Dokumentlängennormierungsfaktor TREC-Erfahrungen: ein Wert b = 0.75 ist gut

60

avdl

dldlnf

))1((avdl

dlbbdlnf

Sparck Jones/Robertson/Walker (1998)

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010; korr.1.11.2014

Page 61: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Okapi-GewichtungsfunktionenBM25

61

i

iRSJi

i

i

RSJidnlftf tfdnlfk

ktfw

dnlftf

k

dlnftf

kww

i

1

1

1

1 )1()1(

i

i

i

iRSJi

BMi qtfk

qtfk

tfavdldl

bbk

tfkww

3

3

1

125 )1(

)))1((

)1(

BM25F berücksichtigt zusätzlich die Stelle des Vorkommens (Feld)(Titel, 1. Satz, …)

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 62: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Inhalt

Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR)

Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion

Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25

Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich

62

I

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 63: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Synopse: Vektormodell und probabilistisches Modell

63

Anfrage q Termgewicht w Dokument d Vektormodell Dokumentterme werden nach

Corpuseigenschaften gewichtet, repräsentieren Dokument

wqj {0,1}

oder

wqj +

wdj +

probabilist. Modell

Dokumentterme werden nach Relevanzeigenschaften bezüglich einer Anfrage gewichtet repräsentieren Query

Dok.Freq. ggf. in BM berücksichtigt

wqj {0,1} oder wqj +

RSVqj +, BM

wdj {0,1}

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010; korr. 1.11.2014

Page 64: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

SynopseVektormodell und probabilistisches Modell

probabilistische Termgewichtungsschemata können auch im Vektormodell verwendet werden

Verknüpfung der Vektoren im Vektormodell: verschiedene Möglichkeiten der Vektorähnlichkeit im probabilistischen Modell: festgelegt durch die Theorie

(Wahrscheinlichkeit mehrerer Ereignisse – hier: Termvorkommen) nicht-logarithmische Form: Skalarprodukt logarithmische Form: Summe

probabilistische Gewichtung und Verknüpfung der Query- und Dokument-Vektoren durch Skalarprodukt ergibt im Wesentlichen den Retrieval-Status-Wert des probabilistischen Modells

64© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 65: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

SynopseVektormodell und probabilistisches Modell

Vorteil des probabilistischen Modells gegenüber dem Vektormodell: Bestimmung der Rangfolge von Dokumenten ohne den Umweg

über ad-hoc-Termgewichtungen

Ziele der Einführung von Termgewichtungen Einsparung eines relevance-feedback-Verfahrens

65© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 66: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Probabilistisches ModellAnwendungsbeispiele

Browsing

1. Relevance Feedback: für Beispiel-Dokumente für ein Themengebiet

2. Erlernen der Term-Gewichtungen für das Relevanz-anzeigende Vokabular des Themengebietes

3. Klassifikation: Suche ähnlicher Dokumente multilinguales Retrieval

1. Relevance Feedback: für Dokumente in mehreren Sprachen

2. Erlernen der Term-Gewichtungen erfolgt ohne besondere Verfahren multilingual

3. Klassifikation: erfolgt sprachübergreifend

66© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 67: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Vergleich der klassischen Information Retrieval Modelle

Boolesches Modell Schwächste Methode Keine partiellen Übereinstimmungen

• Vektormodell offenbar beste Ergebnisse für allgemeine Dokumentsammlungen Wachsende Popularität in Internetsuchmaschinen

Probabilistisches Modell Gute Ergebnisse für spezifische Dokumentsammlungen mit Relevanz-Feedback:

Bestimmung einer Rangfolge von Dokumenten ohne Umweg über ad-hoc Termgewichtungen

Trainingscorpus und Relevanz-Meldungen erforderlich

67

vgl. (Baeza-Yates/Ribeiro-Neto, 1999,34)

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 68: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Inhalt

Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR)

Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion

Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25

Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich

68

I

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 69: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Anhang 1Binary Independence ModelErgänzende Betrachtungen aus dem Originalartikel

Stephen E. Robertson und Karen Spärck Jones (1976).Relevance weighting of search terms. In: Journal of the American Society for Information Science 27, May June 1976, S. 129-146. http://www.soi.city.ac.uk/~ser/papers/RSJ76.pdf

Ergänzungen unter den Aspekten informelle Darstellung formale Ableitung Formel RSJ F4 (= BM1)

als Grundlage eines besseren Verständnisses verschiedener Darstellungen und Weiterentwicklungen

69© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 70: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

informelle Darstellung im Originalartikel von Robertson/Sparck Jones 1976 eine Kontingenztabelle zeigt die vier Möglichkeiten der

Termverteilung in relevanten und nicht-relevanten Dokumenten

aus dieser Tabelle leiten sich vier Varianten für Termgewichtungsformeln ab

Überlegungen zu Termunabhägigkeiten und Dokumentordnungsprinzipien führen zur Entscheidung für die vierte Variante (RSJ F4)

Anhang 1Binary Independence ModelErgänzende Betrachtungen: informelle Darstellung

70© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 71: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Kontingenztabelle der Dokumentverteilung für t

Anhang 1Binary Independence ModelErgänzende Betrachtungen: informelle Darstellung

71

Document Relevance + - Document Indexing

+ reli nreli reli+nreli - rel-reli nrel-nreli rel-reli+nrel-nreli

rel nrel rel+nrel

Document Relevance + - Document Indexing

+ r n-r n - R-r N-n-R+r N-n

R N-R N

rel

rel+nrel

nrel

reli nreli

rel-reli nrel-nreli

reli+nreli

rel-reli +nrel-nreli

R

N

N-R

r n-r

R-r N-n-R+r

n

N-n

Notation Robertson/Sparck Jones Notation Ferber

N Anzahl Dokumenten Anzahl Dokumente mit Term tR Anzahl relevanter Dokumenter Anzahl relevanter Dokumente mit Term t

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 72: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Anhang 1Binary Independence ModelErgänzende Betrachtungen: informelle Darstellung

72

Document Relevance + - Document Indexing

+ r n-r n - R-r N-n-R+r N-n

R N-R N

Kontingenztabelle und abgeleitete Termgewichtungsformeln

Robertson/Sparck Jones, 1976

r n-r n R-r N-n-R+r N-n R N-R N

r n-r n R-r N-n-R+r N-n R N-R N

r n-r n R-r N-n-R+r N-n R N-R N r n-r n R-r N-n-R+r N-n R N-R N

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 73: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Anhang 1Binary Independence ModelErgänzende Betrachtungen: informelle Darstellung

73

Überlegungen zu Termunabhängigkeiten

Robertson/Sparck Jones, 1976

favorisierte VarianteRSJ F4

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 74: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

formale Ableitung im Originalartikel von Robertson/Sparck Jones 1976 die Ableitung für Formel RSJ F4 nach der

Wahrscheinlichkeitstheorie wurde in der mit Beispielen und Zwischenschritten aufbereiteten Darstellung von Ferber auf den vorderen Folien gezeigt

Anhang 1Binary Independence ModelErgänzende Betrachtungen: formale Ableitung

74© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 75: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Formel RSJ F4 Robertson/Sparck Jones (1976) führen in die Formel

Korrekturwerte ein um Schätzwerte für neue Dokumente etwas zu

modulieren um Nullwerte in den Brüchen zu vermeiden

bis auf die Korrekturwerte sind die Formel RSJ F4 und Ferbers Formel äquivalent

Anhang 1Binary Independence ModelErgänzende Betrachtungen: Formel

75© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 76: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Anhang 1Binary Independence ModelErgänzende Betrachtungen: Formel

76

3)

42

1(41

)41

1(42

rRnNrnrR

r

3

243823

22

)1(

)1(

relrel

nrelnrel

nrelnrel

relrel

ii

ii

5.05.05.0

5.0

rRnNrnrR

r

RSJ F4 1976 RSJ F4ohne Korrekturwerte

Ferber, 1993

Beispiel

© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 77: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Literatur

Ricardo Baeza-Yates und Berthier Ribeiro-Neto (1999): Modern Information Retrieval.Essex: Addison Wesley Longman Limited

Nick Craswell, Dennis Fetterly, Marc Najork, Stephen Robertson, Emine Yilmaz (2009). Microsoft Research at TREC 2009. Web and Relevance Feedback Tracks. In Proceedings of the 18th Text REtrival Conference (TREC-18). http://trec.nist.gov/pubs/trec18/papers/microsoft.WEB.RF.pdf

Reginald Ferber (2003). Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt-Verlag. http://information-retrieval.de/irb/ir.html frühere Fassung (1998): Data Mining und Information Retrieval. Skript zur Vorlesung an der TH Darmstadt WS 1998/99

Norbert Fuhr (2003). Information Retrieval. Skriptum zur Vorlesung im SS03. 24. April 2003.

http://www.is.informatik.uni-duisburg.de/courses/ir_ss03/folien/irskall.pdf Norbert Fuhr und Chris Buckley (1991). A Probabilistic Learning Approach for Document

Indexing. In: ACM Transactions on Information Systems, 9, 3, 1991, S. 223-248. M.E. Maron, J.L. Kuhns (1960). On relevance, probabilistic indexing and information

retrieval. Journal of the ACM, 7, 216-244.

77© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 78: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Literatur

Stephen E. Robertson und Karen Spärck Jones (1976).Relevance weighting of search terms. In: Journal of the American Society for Information Science 27, May June 1976, S. 129-146. http://www.soi.city.ac.uk/~ser/papers/RSJ76.pdf

Stephen E. Robertson und Stephen Walker (2000). Okapi/Keenbow at TREC-8. In Proceedings of the 8th Text REtrival Conference (TREC-8), Gaithersburg, Maryland, USA: NIST Special Publication, pp. 151–161. http://trec.nist.gov/pubs/trec8/papers/okapi.pdf

Stephen E. Robertson, Stephen Walker (1994).Some simple effective approximations to the 2-Poisoon model for probabilistic weighted retrieval. In: Croft, W. B. und van Rijsbergen C.J. (eds.): Proceedings of the 17 th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, Dublin 1994. Springer-Verlag. S. 232-241. http://www.soi.city.ac.uk/~ser/papers/robertson_walker_sigir94.pdf

Stephen E. Robertson, Stephen Walker, S. Jones, Micheline Hancock-Beaulieu, M. Gatford (1994).Okapi at TREC-3. In: Proceedings of the Third Text Retrieval Conference (TREC-3), S. 103ff, http://trec.nist.gov/pubs/trec3/papers/city.ps.gz

78© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 79: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Literatur

Stephen E. Robertson, Stephen Walker, Micheline Hancock-Beaulieu, Aarron Gull, Marianna Lau (1992).Okapi at TREC. In: Proceedings of the First Text Retrieval Conference (TREC-1), S. 21 ff, http://trec.nist.gov/pubs/trec1/papers/02.txt

Stephen E. Robertson, Hugo Zaragoza (2009). The Probabilistic Relevance Framework BM 25 and Beyound. In: Foundations and Trends in Information Retrieval. Vol 3, No 4, 333-389. http://www.soi.city.ac.uk/~ser/papers/foundations_bm25_review.pdf

Stephen E. Robertson, Hugo Zaragoza, Michael Taylor (2004). Simple bm25 extension to multiple weighted fields. In Thirteenth Conference on Information and Knowledge Management (CIKM), 2004. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.9.5255

Karen Spärck Jones, Stephen Walker, Stephen E. Robertson (2000) .A probabilistic model of information retrieval: Development and comparative experiments. IP&M 36 (6): 779-808, 809-840.

Karen Spärck Jones, Stephen Walker, Stephen E. Robertson (1998) .A probabilistic model of information retrieval: Development and Status. TR 446, Computer Laboratory, University of Cambridge (via http://www.cl.cam.ac.uk/)..

C.T. Yu und G. Salton (1976). Precision Weighting. An effective automatic indexing method. Journal of the ACM, 23: 76-88, Juni 1976

79© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Page 80: Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Copyright

© Karin Haenelt, 2001-2010 All rights reserved. The German Urheberrecht (esp. § 2, § 13, § 63 , etc.). shall be applied to these slides.

In accordance with these laws these slides are a publication which may be quoted and used for non-commercial purposes, if the bibliographic data is included as described below.

Please quote correctly. If you use the presentation or parts of it for educational and scientific purposes, please include the

bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.).

please add a bibliographic reference to copies and quotations Deletion or omission of the footer (with name, data and copyright sign) is not permitted if slides are

copied Bibliographic data. Karin Haenelt. Information Retrieval Modelle. Probabilisitische Modell. Kursfolien.

16.3.2010 (1 26.10.2001) http://kontext.fraunhofer.de/haenelt/kurs/folien/Haenelt_IR_Modelle_ProbabV2.0.pdf

graphics, texts or other objects which have not been created by me are marked as quotations For commercial use: In case you are interested in commercial use please contact the author. • Court of Jurisdiction is Darmstadt, Germany

Versionen 2.1: 6.11.2010, 2.0: 16.3.2010, 1.2:18.10.2008, 1.1: 25.10.2006, 1.0: 26.10.2001

80© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010