Download - Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Klassische Information Retrieval ModelleEinführung

Kursfolien

Karin Haenelt

21.10.2012

Themen

Information Retrieval Konzepte Grundkomponenten

Information Retrieval Modell Definition Die klassischen Modelle

Boolesches Modell, Vektormodell, Probabilistisches Modell Komponenten

Anfragen Dokumentrepräsentation Dokumentenanalyse / Vorverarbeitung Index Rankingfunktionen

2

Information Retrieval

Traditionelles Konzept Auffinden von Dokumenten, die für eine Suchanfrage

relevant sind Ranking von Dokumenten

3

Grundkomponenten des Information Retrieval

4

Doku-mente

D1

Anfrage

Analyse

Analyse

Reprä-sentation(Index)

Reprä-sentation

Ähnlichkeit:- Matching- Ranking

Doku-mente

D2

D2 D1

Grundkomponenten des Information Retrieval

5

Doku-mente

D1

Anfrage

Analyse

Analyse

Reprä-sentation(Index)

Reprä-sentation

Ähnlichkeit:- Matching- Ranking

Doku-mente

D2

D2 D1

D

R(qk,dm)

Q

Komponentender Modelldefinition

Information Retrieval ModellZweck

Ein Information Retrieval Modell bestimmt wie Dokumente repräsentiert werden (D) wie Anfragen repräsentiert werden (Q) wie die Relevanz eines Dokuments für eine Anfrage

bestimmt wird ( R(qk,dm) )

6© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

7

Information Retrieval-Modell Definition

(Baeza-Yates/Ribeiro-Neto, 1999,21)

D DokumentrepräsentationenMenge logischer Sichten auf Dokumente

Q QueriesMenge logischer Sichten auf Informationswünsche

F Framework / Modellierungsrahmenfür Dokumentrepräsentationen, Queries undBeziehungen zwischen D und Q

R(qk,dm) Ranking-Funktionordnet Query qk Q und Dokument dm D einen Wert zudefiniert Reihenfolge der Dokumente bezüglich Query qk

Ein Information Retrieval-Modell ist ein Quadrupel [D,Q,F,R(qk,dm)]

© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

8

Taxonomie der klassischen Modelle

Set Theoretic

FuzzyExtended Boolean

AlgebraicGeneralized VectorLat. Semant.Index.Neural Networks

Probabilistic

Inference NetworkBelief Network

Classic ModelsBoolean •Vector •Probabilistic •

Structured ModelsNon-Overlapping ListsProximal Nodes

BrowsingFlatStructure guidedHypertext

Retrieval

Ad hocFiltering

BrowsingFlatStructure guidedHypertext

User

Task

•

•

(Baeza-Yates/Ribeiro-Neto, 1999,21)© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Anfragen

Schlüsselwörter Phrasen Dokumente Fragen

Operatoren (Boolesche Operatoren)


DokumentrepräsentationDokumentvektoren

Klassisches Information Retrieval: Repräsentation der Inhalte von Dokumenten

durch Angabe einer Menge von Wörtern (Indexterme), die in den Dokumenten vorkommen (bag of words-Modell) und

Zuordnung von Termgewichten Darstellung als Vektoren


binär: (1,1,0)Termfrequenz: (4,3,0)

Term 1Öl

Term 2Preis

Term 3Alaska

1

4

1

3

0

0

Beispiele: Dokumentvektoren

bin-Dok1

tf- Dok1

DokumentrepräsentationDokumentvektoren: Definition

geordnete Menge von Werten für Wortvorkommen, die konjunktiv verknüpft werden


binär: (1,1,0)Termfrequenz: (4,3,0)

Term 1Öl

Term 2Preis

Term 3Alaska

1

4

1

3

0

0

Beispiele: Dokumentvektoren

bin-Dok1

tf- Dok1

DokumentrepräsentationTermvektor: Definition

Sei Dk eine Dokumentkollektion Sei V = {t1, t2, …, t|V|} die Menge der unterschiedlichen

Wörter/Terme in der Kollektion. V heißt das Vokabular. Ein Gewicht wij > 0 wird jedem Term ti eines Dokument dj ∊ Dk

zugewiesen. Das Gewicht eines Terms, der nicht im Dokument dj vorkommt, gilt wij = 0

Dann ist ein Termvektor dj = (w1j, w2j, …, w|V|j).


DokumentrepräsentationIndextermvektoren: Annahmen

Annahme: wechselseitige Unabhängigkeit der Indexterme

starke Vereinfachung ermöglicht einfachere Berechnung der Gewichtung eines Index-

Terms ermöglicht schnelle Berechnung der Rangfolge (Ranking) von

Dokumenten


Dokumentanalyse / Vorverarbeitung

Indextermextraktion Stoppwortentfernung Stemming Berechnung von Termgewichten …


Dokumentanalyse / VorverarbeitungAuswahl der Indexterme

Ziel: effiziente Auswahl von (Dokument-)Worten zur Anzeige von „Themen“

Varianten Volltext: alle Wörter verwendet Auswahl nach Wortarten

Nomina als wichtige Indikatoren betrachtet Adjektive, als weniger nützlich betrachtet

Adverbien, Verknüpfungen

Präpositionen, als Stoppwörter aussortiertKonjunktionen, Artikel


Dokumentrepräsentation Relevanz

Index-Terme können unterschiedlich relevant sein zur Beschreibung des Inhalts von Dokumenten

Wörter, die in allen Dokumenten vorkommen nur in wenigen Dokumenten vorkommen

sind unterschiedlich signifikant


Dokumentanalyse / VorverarbeitungStoppwortentfernung

Wörter werden im IR nicht interpretiert hochfrequente Wörter erscheinen daher aus Sicht des IR als

„bedeutungslos“ und „nutzlos“ „der, die, das, von, und , …“ (vgl. „to be or not to be“) ca. 400 – 500 Wörter / Sprache ca. 20-30% eines Textes zusätzlich anwendungsspezifische Terme

Ziel der Stoppwortentfernung Reduktion des Index Beschleunigung des Suchprozesses


IndexDatenstrukturen für die Termvektoren

sequentielle Speicherung und Suche der Indexterme ist ineffizient

gebräuchliche Datenstruktur: invertierter Index ein invertierter Index einer Dokumentkollektion ist eine

Datenstruktur, die der Repräsentation jedes Terms eine Liste aller Dokumente hinzufügt, in denen der Term vorkommt

erfordert konstante Zeit zum Auffinden eines Anfrageterms ermöglicht einfache Suche nach multiplen Termen


(Liu 2011,232)

Index - Datenstrukturen für die Termvektoren Invertierte Datei (inverted file) sequentiell


Keyword Hits LinkIndex File

information 3

retrieval 2

LinksPostings File

.

.

Doc #.35

15

.5

15.

Documents File

Doc. # 5

Doc. # 15

…

(Harmann, Fox, Baeza-Yates, Lee 1992, 29)

Index - Datenstrukturen für die Termvektoren Invertierte Datei (inverted file) Vokabular-Trie mit invertiertem Index


(Liu 2011,236)

IndexTrie - Erläuterung

Ein Trie ist ein Präfixbaum, der im Information Retrieval zur Repräsentation und Suche von Zeichenketten verwendet wird


IndexInvertierte Datei - Implementierungsvarianten

Vorteile gegenüber direkter Speicherung von Dokumentvektoren geringerer Speicherplatzbedarf (da die meisten Term-

Vektoren „dünn besetzt“ sind – sparse Matrix) schneller Zugriff

Implementierungsvarianten Baumstruktur / Trie Hashtabelle / Trie / endlicher Automat sortiertes Array (abgeleitet aus Baumstruktur)

Hauptspeicher vs. Festplatte Rechnerfarm Kompression


Rankingfunktionen

inhaltsbasiert: Ähnlichkeitsberechnungen zwischen Anfragetermen und Dokumentvektoren Boolesches Modell: Mengenoperationen Vektormodell: Ähnlichkeitsbegriffe für Vektoren:

Vektoroperationen der linearen Algebra Probabilistisches Modell: Wahrscheinlichkeitsrechnung,

Bayes-Theoreme hyperlinkbasiert (HITS, PageRank) profilbasiert (Standort, Cookies, Soziale Netzwerke,

Klickverhalten, …)


Literatur

Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (2010): Modern Information Retrieval.Essex: Addison Wesley Longman Limited

Bing Liu (2011). Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Heidelberg: Springer Verlag.

Ferber, Reginald (1998): Data Mining und Information Retrieval. Skript zur Vorlesung an der TH Darmstadt WS 1998/99http://www.darmstadt.gmd.de/~ferber/vorlesung/book_1.html

Kowalski, Gerald (1997): Information Retrieval Systems: Theory and Implementation. Kluwer Academic Publishers: Boston/Dordrecht/London.

Manning, Christopher, Prabhakar Raghavan, Hinrich Schütze (2007) . Introduction to Information Retrieval. Cambridge University Press.

Robertson, S.E.; Sparck Jones, Karen (1976): Relevance Weighting of Search Terms. In: Journal of the American Society for Information Science. May-June, 129-146


http://www.darmstadt.gmd.de/~ferber/vorlesung/book_1.html

Copyright

© 2001-2012 Karin Haenelt All rights reserved. No part of these slides may be reproduced in any form by any electronic or nonelectronic means (including photocopying, recording, or information storage and retrieval) without permission in writing from the author.

Bibliographic data. Karin Haenelt, Information Retrieval Modelles. Kursfolien. 21.10.2012 (1. Fassung 26.10.2001) + URL

Please quote correctly. If you use the presentation or parts of it for educational and scientific purposes, please observe the laws (copyright, Urheberrecht, etc.). Please include the bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.).

For commercial use: No commercial use is allowed without written permission from the author. In case you are interested in commercial use please contact the author.

Versionen 21.10.2012, 17.6.2010, 26.10.2003, 26.10.2001