Klassische Information Retrieval ModelleEinführung
Kursfolien
Karin Haenelt
21.10.2012
Themen
Information Retrieval Konzepte Grundkomponenten
Information Retrieval Modell Definition Die klassischen Modelle
Boolesches Modell, Vektormodell, Probabilistisches Modell Komponenten
Anfragen Dokumentrepräsentation Dokumentenanalyse / Vorverarbeitung Index Rankingfunktionen
2
Information Retrieval
Traditionelles Konzept Auffinden von Dokumenten, die für eine Suchanfrage
relevant sind Ranking von Dokumenten
3
Grundkomponenten des Information Retrieval
4
Doku-mente
D1
Anfrage
Analyse
Analyse
Reprä-sentation(Index)
Reprä-sentation
Ähnlichkeit:- Matching- Ranking
Doku-mente
D2
D2 D1
Grundkomponenten des Information Retrieval
5
Doku-mente
D1
Anfrage
Analyse
Analyse
Reprä-sentation(Index)
Reprä-sentation
Ähnlichkeit:- Matching- Ranking
Doku-mente
D2
D2 D1
D
R(qk,dm)
Q
Komponentender Modelldefinition
Information Retrieval ModellZweck
Ein Information Retrieval Modell bestimmt wie Dokumente repräsentiert werden (D) wie Anfragen repräsentiert werden (Q) wie die Relevanz eines Dokuments für eine Anfrage
bestimmt wird ( R(qk,dm) )
6© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012
7
Information Retrieval-Modell Definition
(Baeza-Yates/Ribeiro-Neto, 1999,21)
D DokumentrepräsentationenMenge logischer Sichten auf Dokumente
Q QueriesMenge logischer Sichten auf Informationswünsche
F Framework / Modellierungsrahmenfür Dokumentrepräsentationen, Queries undBeziehungen zwischen D und Q
R(qk,dm) Ranking-Funktionordnet Query qk Q und Dokument dm D einen Wert zudefiniert Reihenfolge der Dokumente bezüglich Query qk
Ein Information Retrieval-Modell ist ein Quadrupel [D,Q,F,R(qk,dm)]
© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012
8
Taxonomie der klassischen Modelle
Set Theoretic
FuzzyExtended Boolean
AlgebraicGeneralized VectorLat. Semant.Index.Neural Networks
Probabilistic
Inference NetworkBelief Network
Classic ModelsBoolean •Vector •Probabilistic •
Structured ModelsNon-Overlapping ListsProximal Nodes
BrowsingFlatStructure guidedHypertext
Retrieval
Ad hocFiltering
BrowsingFlatStructure guidedHypertext
User
Task
•
•
(Baeza-Yates/Ribeiro-Neto, 1999,21)© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012
Anfragen
Schlüsselwörter Phrasen Dokumente Fragen
Operatoren (Boolesche Operatoren)
9© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012
DokumentrepräsentationDokumentvektoren
Klassisches Information Retrieval: Repräsentation der Inhalte von Dokumenten
durch Angabe einer Menge von Wörtern (Indexterme), die in den Dokumenten vorkommen (bag of words-Modell) und
Zuordnung von Termgewichten Darstellung als Vektoren
10© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012
binär: (1,1,0)Termfrequenz: (4,3,0)
Term 1Öl
Term 2Preis
Term 3Alaska
1
4
1
3
0
0
Beispiele: Dokumentvektoren
bin-Dok1
tf- Dok1
DokumentrepräsentationDokumentvektoren: Definition
geordnete Menge von Werten für Wortvorkommen, die konjunktiv verknüpft werden
11© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012
binär: (1,1,0)Termfrequenz: (4,3,0)
Term 1Öl
Term 2Preis
Term 3Alaska
1
4
1
3
0
0
Beispiele: Dokumentvektoren
bin-Dok1
tf- Dok1
DokumentrepräsentationTermvektor: Definition
Sei Dk eine Dokumentkollektion Sei V = {t1, t2, …, t|V|} die Menge der unterschiedlichen
Wörter/Terme in der Kollektion. V heißt das Vokabular. Ein Gewicht wij > 0 wird jedem Term ti eines Dokument dj ∊ Dk
zugewiesen. Das Gewicht eines Terms, der nicht im Dokument dj vorkommt, gilt wij = 0
Dann ist ein Termvektor dj = (w1j, w2j, …, w|V|j).
12© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012
DokumentrepräsentationIndextermvektoren: Annahmen
Annahme: wechselseitige Unabhängigkeit der Indexterme
starke Vereinfachung ermöglicht einfachere Berechnung der Gewichtung eines Index-
Terms ermöglicht schnelle Berechnung der Rangfolge (Ranking) von
Dokumenten
(Baeza-Yates/Ribeiro-Neto, 1999,25)© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012
Dokumentanalyse / Vorverarbeitung
Indextermextraktion Stoppwortentfernung Stemming Berechnung von Termgewichten …
14© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012
Dokumentanalyse / VorverarbeitungAuswahl der Indexterme
Ziel: effiziente Auswahl von (Dokument-)Worten zur Anzeige von „Themen“
Varianten Volltext: alle Wörter verwendet Auswahl nach Wortarten
Nomina als wichtige Indikatoren betrachtet Adjektive, als weniger nützlich betrachtet
Adverbien, Verknüpfungen
Präpositionen, als Stoppwörter aussortiertKonjunktionen, Artikel
(Baeza-Yates/Ribeiro-Neto, 1999,24)© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012
Dokumentrepräsentation Relevanz
Index-Terme können unterschiedlich relevant sein zur Beschreibung des Inhalts von Dokumenten
Wörter, die in allen Dokumenten vorkommen nur in wenigen Dokumenten vorkommen
sind unterschiedlich signifikant
(Baeza-Yates/Ribeiro-Neto, 1999,24)© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012
Dokumentanalyse / VorverarbeitungStoppwortentfernung
Wörter werden im IR nicht interpretiert hochfrequente Wörter erscheinen daher aus Sicht des IR als
„bedeutungslos“ und „nutzlos“ „der, die, das, von, und , …“ (vgl. „to be or not to be“) ca. 400 – 500 Wörter / Sprache ca. 20-30% eines Textes zusätzlich anwendungsspezifische Terme
Ziel der Stoppwortentfernung Reduktion des Index Beschleunigung des Suchprozesses
17© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012
IndexDatenstrukturen für die Termvektoren
sequentielle Speicherung und Suche der Indexterme ist ineffizient
gebräuchliche Datenstruktur: invertierter Index ein invertierter Index einer Dokumentkollektion ist eine
Datenstruktur, die der Repräsentation jedes Terms eine Liste aller Dokumente hinzufügt, in denen der Term vorkommt
erfordert konstante Zeit zum Auffinden eines Anfrageterms ermöglicht einfache Suche nach multiplen Termen
18© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012
(Liu 2011,232)
Index - Datenstrukturen für die Termvektoren Invertierte Datei (inverted file) sequentiell
19© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012
Keyword Hits LinkIndex File
information 3
retrieval 2
LinksPostings File
.
.
Doc #.35
15
.5
15.
Documents File
Doc. # 5
Doc. # 15
…
(Harmann, Fox, Baeza-Yates, Lee 1992, 29)
Index - Datenstrukturen für die Termvektoren Invertierte Datei (inverted file) Vokabular-Trie mit invertiertem Index
20© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012
(Liu 2011,236)
IndexTrie - Erläuterung
Ein Trie ist ein Präfixbaum, der im Information Retrieval zur Repräsentation und Suche von Zeichenketten verwendet wird
21© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012
IndexInvertierte Datei - Implementierungsvarianten
Vorteile gegenüber direkter Speicherung von Dokumentvektoren geringerer Speicherplatzbedarf (da die meisten Term-
Vektoren „dünn besetzt“ sind – sparse Matrix) schneller Zugriff
Implementierungsvarianten Baumstruktur / Trie Hashtabelle / Trie / endlicher Automat sortiertes Array (abgeleitet aus Baumstruktur)
Hauptspeicher vs. Festplatte Rechnerfarm Kompression
22© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012
Rankingfunktionen
inhaltsbasiert: Ähnlichkeitsberechnungen zwischen Anfragetermen und Dokumentvektoren Boolesches Modell: Mengenoperationen Vektormodell: Ähnlichkeitsbegriffe für Vektoren:
Vektoroperationen der linearen Algebra Probabilistisches Modell: Wahrscheinlichkeitsrechnung,
Bayes-Theoreme hyperlinkbasiert (HITS, PageRank) profilbasiert (Standort, Cookies, Soziale Netzwerke,
Klickverhalten, …)
23© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012
Literatur
Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (2010): Modern Information Retrieval.Essex: Addison Wesley Longman Limited
Bing Liu (2011). Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Heidelberg: Springer Verlag.
Ferber, Reginald (1998): Data Mining und Information Retrieval. Skript zur Vorlesung an der TH Darmstadt WS 1998/99http://www.darmstadt.gmd.de/~ferber/vorlesung/book_1.html
Kowalski, Gerald (1997): Information Retrieval Systems: Theory and Implementation. Kluwer Academic Publishers: Boston/Dordrecht/London.
Manning, Christopher, Prabhakar Raghavan, Hinrich Schütze (2007) . Introduction to Information Retrieval. Cambridge University Press.
Robertson, S.E.; Sparck Jones, Karen (1976): Relevance Weighting of Search Terms. In: Journal of the American Society for Information Science. May-June, 129-146
24© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012
Copyright
© 2001-2012 Karin Haenelt All rights reserved. No part of these slides may be reproduced in any form by any electronic or nonelectronic means (including photocopying, recording, or information storage and retrieval) without permission in writing from the author.
Bibliographic data. Karin Haenelt, Information Retrieval Modelles. Kursfolien. 21.10.2012 (1. Fassung 26.10.2001) + URL
Please quote correctly. If you use the presentation or parts of it for educational and scientific purposes, please observe the laws (copyright, Urheberrecht, etc.). Please include the bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.).
For commercial use: No commercial use is allowed without written permission from the author. In case you are interested in commercial use please contact the author.
Versionen 21.10.2012, 17.6.2010, 26.10.2003, 26.10.2001
25© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012
Top Related