Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

25
Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012

Transcript of Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Page 1: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Klassische Information Retrieval ModelleEinführung

Kursfolien

Karin Haenelt

21.10.2012

Page 2: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Themen

Information Retrieval Konzepte Grundkomponenten

Information Retrieval Modell Definition Die klassischen Modelle

Boolesches Modell, Vektormodell, Probabilistisches Modell Komponenten

Anfragen Dokumentrepräsentation Dokumentenanalyse / Vorverarbeitung Index Rankingfunktionen

2

Page 3: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Information Retrieval

Traditionelles Konzept Auffinden von Dokumenten, die für eine Suchanfrage

relevant sind Ranking von Dokumenten

3

Page 4: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Grundkomponenten des Information Retrieval

4

Doku-mente

D1

Anfrage

Analyse

Analyse

Reprä-sentation(Index)

Reprä-sentation

Ähnlichkeit:- Matching- Ranking

Doku-mente

D2

D2 D1

Page 5: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Grundkomponenten des Information Retrieval

5

Doku-mente

D1

Anfrage

Analyse

Analyse

Reprä-sentation(Index)

Reprä-sentation

Ähnlichkeit:- Matching- Ranking

Doku-mente

D2

D2 D1

D

R(qk,dm)

Q

Komponentender Modelldefinition

Page 6: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Information Retrieval ModellZweck

Ein Information Retrieval Modell bestimmt wie Dokumente repräsentiert werden (D) wie Anfragen repräsentiert werden (Q) wie die Relevanz eines Dokuments für eine Anfrage

bestimmt wird ( R(qk,dm) )

6© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Page 7: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

7

Information Retrieval-Modell Definition

(Baeza-Yates/Ribeiro-Neto, 1999,21)

D DokumentrepräsentationenMenge logischer Sichten auf Dokumente

Q QueriesMenge logischer Sichten auf Informationswünsche

F Framework / Modellierungsrahmenfür Dokumentrepräsentationen, Queries undBeziehungen zwischen D und Q

R(qk,dm) Ranking-Funktionordnet Query qk Q und Dokument dm D einen Wert zudefiniert Reihenfolge der Dokumente bezüglich Query qk

Ein Information Retrieval-Modell ist ein Quadrupel [D,Q,F,R(qk,dm)]

© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Page 8: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

8

Taxonomie der klassischen Modelle

Set Theoretic

FuzzyExtended Boolean

AlgebraicGeneralized VectorLat. Semant.Index.Neural Networks

Probabilistic

Inference NetworkBelief Network

Classic ModelsBoolean •Vector •Probabilistic •

Structured ModelsNon-Overlapping ListsProximal Nodes

BrowsingFlatStructure guidedHypertext

Retrieval

Ad hocFiltering

BrowsingFlatStructure guidedHypertext

User

Task

(Baeza-Yates/Ribeiro-Neto, 1999,21)© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Page 9: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Anfragen

Schlüsselwörter Phrasen Dokumente Fragen

Operatoren (Boolesche Operatoren)

9© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Page 10: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

DokumentrepräsentationDokumentvektoren

Klassisches Information Retrieval: Repräsentation der Inhalte von Dokumenten

durch Angabe einer Menge von Wörtern (Indexterme), die in den Dokumenten vorkommen (bag of words-Modell) und

Zuordnung von Termgewichten Darstellung als Vektoren

10© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

binär: (1,1,0)Termfrequenz: (4,3,0)

Term 1Öl

Term 2Preis

Term 3Alaska

1

4

1

3

0

0

Beispiele: Dokumentvektoren

bin-Dok1

tf- Dok1

Page 11: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

DokumentrepräsentationDokumentvektoren: Definition

geordnete Menge von Werten für Wortvorkommen, die konjunktiv verknüpft werden

11© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

binär: (1,1,0)Termfrequenz: (4,3,0)

Term 1Öl

Term 2Preis

Term 3Alaska

1

4

1

3

0

0

Beispiele: Dokumentvektoren

bin-Dok1

tf- Dok1

Page 12: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

DokumentrepräsentationTermvektor: Definition

Sei Dk eine Dokumentkollektion Sei V = {t1, t2, …, t|V|} die Menge der unterschiedlichen

Wörter/Terme in der Kollektion. V heißt das Vokabular. Ein Gewicht wij > 0 wird jedem Term ti eines Dokument dj ∊ Dk

zugewiesen. Das Gewicht eines Terms, der nicht im Dokument dj vorkommt, gilt wij = 0

Dann ist ein Termvektor dj = (w1j, w2j, …, w|V|j).

12© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Page 13: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

DokumentrepräsentationIndextermvektoren: Annahmen

Annahme: wechselseitige Unabhängigkeit der Indexterme

starke Vereinfachung ermöglicht einfachere Berechnung der Gewichtung eines Index-

Terms ermöglicht schnelle Berechnung der Rangfolge (Ranking) von

Dokumenten

(Baeza-Yates/Ribeiro-Neto, 1999,25)© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Page 14: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Dokumentanalyse / Vorverarbeitung

Indextermextraktion Stoppwortentfernung Stemming Berechnung von Termgewichten …

14© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Page 15: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Dokumentanalyse / VorverarbeitungAuswahl der Indexterme

Ziel: effiziente Auswahl von (Dokument-)Worten zur Anzeige von „Themen“

Varianten Volltext: alle Wörter verwendet Auswahl nach Wortarten

Nomina als wichtige Indikatoren betrachtet Adjektive, als weniger nützlich betrachtet

Adverbien, Verknüpfungen

Präpositionen, als Stoppwörter aussortiertKonjunktionen, Artikel

(Baeza-Yates/Ribeiro-Neto, 1999,24)© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Page 16: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Dokumentrepräsentation Relevanz

Index-Terme können unterschiedlich relevant sein zur Beschreibung des Inhalts von Dokumenten

Wörter, die in allen Dokumenten vorkommen nur in wenigen Dokumenten vorkommen

sind unterschiedlich signifikant

(Baeza-Yates/Ribeiro-Neto, 1999,24)© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Page 17: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Dokumentanalyse / VorverarbeitungStoppwortentfernung

Wörter werden im IR nicht interpretiert hochfrequente Wörter erscheinen daher aus Sicht des IR als

„bedeutungslos“ und „nutzlos“ „der, die, das, von, und , …“ (vgl. „to be or not to be“) ca. 400 – 500 Wörter / Sprache ca. 20-30% eines Textes zusätzlich anwendungsspezifische Terme

Ziel der Stoppwortentfernung Reduktion des Index Beschleunigung des Suchprozesses

17© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Page 18: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

IndexDatenstrukturen für die Termvektoren

sequentielle Speicherung und Suche der Indexterme ist ineffizient

gebräuchliche Datenstruktur: invertierter Index ein invertierter Index einer Dokumentkollektion ist eine

Datenstruktur, die der Repräsentation jedes Terms eine Liste aller Dokumente hinzufügt, in denen der Term vorkommt

erfordert konstante Zeit zum Auffinden eines Anfrageterms ermöglicht einfache Suche nach multiplen Termen

18© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

(Liu 2011,232)

Page 19: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Index - Datenstrukturen für die Termvektoren Invertierte Datei (inverted file) sequentiell

19© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Keyword Hits LinkIndex File

information 3

retrieval 2

LinksPostings File

.

.

Doc #.35

15

.5

15.

Documents File

Doc. # 5

Doc. # 15

(Harmann, Fox, Baeza-Yates, Lee 1992, 29)

Page 20: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Index - Datenstrukturen für die Termvektoren Invertierte Datei (inverted file) Vokabular-Trie mit invertiertem Index

20© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

(Liu 2011,236)

Page 21: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

IndexTrie - Erläuterung

Ein Trie ist ein Präfixbaum, der im Information Retrieval zur Repräsentation und Suche von Zeichenketten verwendet wird

21© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Page 22: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

IndexInvertierte Datei - Implementierungsvarianten

Vorteile gegenüber direkter Speicherung von Dokumentvektoren geringerer Speicherplatzbedarf (da die meisten Term-

Vektoren „dünn besetzt“ sind – sparse Matrix) schneller Zugriff

Implementierungsvarianten Baumstruktur / Trie Hashtabelle / Trie / endlicher Automat sortiertes Array (abgeleitet aus Baumstruktur)

Hauptspeicher vs. Festplatte Rechnerfarm Kompression

22© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Page 23: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Rankingfunktionen

inhaltsbasiert: Ähnlichkeitsberechnungen zwischen Anfragetermen und Dokumentvektoren Boolesches Modell: Mengenoperationen Vektormodell: Ähnlichkeitsbegriffe für Vektoren:

Vektoroperationen der linearen Algebra Probabilistisches Modell: Wahrscheinlichkeitsrechnung,

Bayes-Theoreme hyperlinkbasiert (HITS, PageRank) profilbasiert (Standort, Cookies, Soziale Netzwerke,

Klickverhalten, …)

23© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Page 24: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Literatur

Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (2010): Modern Information Retrieval.Essex: Addison Wesley Longman Limited

Bing Liu (2011). Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Heidelberg: Springer Verlag.

Ferber, Reginald (1998): Data Mining und Information Retrieval. Skript zur Vorlesung an der TH Darmstadt WS 1998/99http://www.darmstadt.gmd.de/~ferber/vorlesung/book_1.html

Kowalski, Gerald (1997): Information Retrieval Systems: Theory and Implementation. Kluwer Academic Publishers: Boston/Dordrecht/London.

Manning, Christopher, Prabhakar Raghavan, Hinrich Schütze (2007) . Introduction to Information Retrieval. Cambridge University Press.

Robertson, S.E.; Sparck Jones, Karen (1976): Relevance Weighting of Search Terms. In: Journal of the American Society for Information Science. May-June, 129-146

24© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Page 25: Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Copyright

© 2001-2012 Karin Haenelt All rights reserved. No part of these slides may be reproduced in any form by any electronic or nonelectronic means (including photocopying, recording, or information storage and retrieval) without permission in writing from the author.

Bibliographic data. Karin Haenelt, Information Retrieval Modelles. Kursfolien. 21.10.2012 (1. Fassung 26.10.2001) + URL

Please quote correctly. If you use the presentation or parts of it for educational and scientific purposes, please observe the laws (copyright, Urheberrecht, etc.). Please include the bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.).

For commercial use: No commercial use is allowed without written permission from the author. In case you are interested in commercial use please contact the author.

Versionen 21.10.2012, 17.6.2010, 26.10.2003, 26.10.2001

25© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012