A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.
-
Upload
cundrie-boerst -
Category
Documents
-
view
105 -
download
1
Transcript of A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.
A.Kaiser; WU-Wien 1
Information Retrieval Systeme
Suchverfahren im Web
A.Kaiser; WU-Wien 2
Information Retrieval Systeme
Komponenten eines IR-Systems
• Informationserschließung
• Informationswiedergewinnung (Retrieval)
• Informationsaufbereitung
Folie in Anlehnung an Womser-Hacker
Informationsmanagement I 3
Grundmodell: Information Retrieval
Texte
Match
Anfrage
Analyse
Ergebnis
1.Dok.62.Dok.83.Dok. 784.Dok.99
Repräsentationen
term1, term2,term3, term4...
Repräsentation
text text texttext text texttext text texttext text texttext text text
A.Kaiser; WU-Wien 4
Textmodellierung
Die Veranstaltungen aus MIS werden an der Wirtschaftsuni von zwei verschiedenen Abteilungen angeboten. Die Inhalte decken sich nur zu einem kleinen Prozentsatz
Veranstaltung
MIS
Wirtschaftsuni
verschiedene
Abteilungen
anbieten
Inhalte
decken
klein
Prozentsatz
Transfor-mation
Stoppwörter
A.Kaiser; WU-Wien 5
Informationserschließung
Ein Beispiel für eine Methode der Informa-tionserschließung ist der invertierte Index.
Erzeugung einer „Tabelle“, die in der 1.Spalte alle möglichen Suchbegriffe beinhaltet und in der 2.Spalte die Verweise auf diejenigen Dokumente (Adressen, etc.), die diese Suchbegriffe beinhalten.
A.Kaiser; WU-Wien 6
invertierter Index
Datenbank D1,D4,D7,D9
SQL D2,D4,D7,D8
Internet D5,D6,D7,D8,D9
Computer D3,D4,D9
Textverarbeitung D1
Berücksichtigung von Stoppwortlisten, d.s. Listen von Begriffen ohne Informationsgehalt (der, die, ...)
Vorteil: Massive Beschleunigung des Suchprozesses
A.Kaiser; WU-Wien 7
Informationserschließung
Indexierung
• Manuelle Indexierung
• Automatische Indexierung
• Computer-unterstützte Indexierung
Die Dokumente werden “aufbereitet”, um effizient nach Informationen suchen zu können.
Folie in Anlehnung an Womser-Hacker; Management der Informationssysteme
8
Das Matching-Paradigma des klassischen IR
• Klassisches Boolesches Retrieval
• Benutzer drücken ihr Suchproblem in einer exakten Retrievalsprache aus
• Verbindung von Termen und Boolescher Logik
• search (mess? OR pruef?) AND laser
A.Kaiser; WU-Wien 9
Boolesche Logik
Term1
• AND, OR, NOT
Term2
Term3
Folie in Anlehnung an Womser-Hacker; Management der Informationssysteme
10
Nachteile der Booleschen Systeme
• Disjunkte Unterteilung in relevant und nicht-relevant
• Erwünschter Umfang schwer kontrollierbar
• Benutzer haben Probleme mit der Booleschen Logik
• Visualisierbarkeit
Folie in Anlehnung an Womser-Hacker; Management der Informationssysteme
11
Ranking-Systeme
• Anordnung des Ergebnisses in einer nach Relevanz sortierten Reihenfolge
• notwendige Voraussetzung: gewichtete Indexierung
• cut-off kann vom Benutzer bestimmt werden
A.Kaiser; WU-Wien 12
Grundprinzip Ranking
Einfacher Match Gewichteter MatchAnfrage (1 1 0 1 0 1 1) Anfrage (1 1 0 1 0 1 1)Dok. 1 (1 1 0 1 0 1 0) Dok. 1 (2 3 0 5 0 3 0)
(1 1 0 1 0 1 0)=4 (2 3 0 5 0 3 0)=13
Anfrage (1 1 0 1 0 1 1) Anfrage (1 1 0 1 0 1 1)Dok. 2 (1 0 1 1 0 0 1) Dok. 2 (2 0 4 5 0 0 1)
(1 0 0 1 0 0 1)=3 (2 0 0 5 0 0 1)=8
Anfrage (1 1 0 1 0 1 1) Anfrage (1 1 0 1 0 1 1)Dok. 3 (1 0 0 0 1 0 1) Dok. 3 (2 0 0 0 2 0 1)
(1 0 0 0 0 0 1)=2 (2 0 0 0 0 0 1)=3
human factors in informa-tion retrieval systems(1 1 0 1 0 1 1)
factors information help human operation retrieval systems
Index
Anfrage
human, factors, information, retrieval(1 1 0 1 0 1 0)
human, factors, help, systems(1 0 1 1 0 0 1)
Dok. 2
factors, operation, systems(1 0 0 0 1 0 1)
Dok. 3
Dok. 1
A.Kaiser; WU-Wien 13
Boolesche Beispielrecherche
• „Intelligentes Information Retrieval im Internet“
• 1.Anfrage Information Retrieval 12.345
• 2.Anfrage IR 20.811
• 3.Anfrage Intelligent 45.123
• 4.Anfrage 1 AND 3 421
• 5.Anfrage 4 AND Internet 61
A.Kaiser; WU-Wien 14
Suche in Ranking-Systemen
• Anfrage Gewicht D1 D2 D3
• Information Retrieval 5 x x x• Intelligent 5 x• Internet 1 x x
Gewicht 5 11 6
Anordnung: 1. D2 2.D3 3. D1
-
Folie in Anlehnung an Womser-Hacker; Management der Informationssysteme
15
Vorteile von Ranking-Verfahren
• Die Rangordnung reiht die relevantesten Dokumente an den Anfang der Folge
• Der Benutzer bestimmt den Abbruch selbst, d.h. keine Mengenprobleme
• Experimente zeigen bessere Retrieval-qualität (bereits für sehr einfache Verfahren) cf. Salton et al. 1983
Folie in Anlehnung an Womser-Hacker; Management der Informationssysteme
16
Systemunterschiede
• Indexierungs- und Retrievalmodell
• Behandlung der Dokumente und Anfragen– Indexierungsvokabular– Gewichtung– Dokumentstruktur
• Ähnlichkeitsmaß
• Outputform: Ranking, Relevance Feedback
A.Kaiser; WU-Wien 17
Einsatz von IR-Systemen
• Literaturrecherche
• Suchmaschinen im Internet
• Suchverfahren im Multimediabereich
• ...
A.Kaiser; WU-Wien 18
Formatierte DBS vs IR-Systeme
formatierte DBS IR-Systeme
strukturierte, unformatierteformatierte Daten Daten
direkte Suche indirekte Suche
“Erfolg” ist objektiv “Erfolg” ist bestimmbar subjektiv (Nutzen)
A.Kaiser; WU-Wien 19
Ein konkretes Beispiel
XBIBSUCHE an der Abteilung für Informationswirtschaft:
Inhaltsverzeichnisse der Werke der Bibliotheken der Abteilung
Einscannen, Abspeichern als ASCII-DateiInformationserschließung mit GLIMPSEErzeugung eines invertierten IndexSuche über das WWW in allen Inhaltsverzeichnissen
A.Kaiser; WU-Wien 20
Xbibsuche
Die Adresse für Xbibsuche
http://wwwai.wu-wien.ac.at/~kaiser/xbibsuche/
A.Kaiser; WU-Wien 21
Suchverfahren im WWW
A.Kaiser; WU-Wien 22
Internet und WWW• Linearer Text - Hypertext - Multimedia
Hypermedia• World Wide Web: weltweit verteiltes
multimediales Informationssystem• HTTP (Hypertext Transfer Protocol)
– Connection - Request - Response - Close
• Caching: Zwischenspeicherung– Hauptspeicher/Platte - Proxy; Archivierung
• Client-Server Prinzip
A.Kaiser; WU-Wien 23
WWW vs. konventionelle, datenbankbasierte IS
• Verteilte Datenhaltung
• hohe Dynamik bezüglich neuer, entfernter und geänderter Inhalte
• heterogene Datenformate und unheitlich strukturierte Inhalte
• hohe Anzahl von Dokument-Dubletten
• gigantische Menge von Dokumenten
alle Eigenschaften erschweren die Suche und Lokalisierung von Infos im WWW
A.Kaiser; WU-Wien 24
Suchverfahren im WWW
• Suche in lokalen WWW-Servern
• Katalog- und verzeichnisbasierte Suche
• Roboterbasierte Suche
• Metasuchmaschinen
• Intelligente Agenten
A.Kaiser; WU-Wien 25
Suche in lokalen WWW-Servernund Datenbanken
• HTML
• Gateways zu Datenbanken– Literaturrecherche in Bibliotheken– ALEPH: österreichweiter Bibliotheksverbund– http://aleph.wu-wien.ac.at:4505/ALEPH– Web-Server (Oracle)
A.Kaiser; WU-Wien 26
Matching - Browsing
• Matching: Vergleich von Begriffen, die das Informationsbedürfnis des Suchenden umschreiben, mit Begriffen, die aus den indexierten Dokumenten gewonnen wurden.
• Browsing: (zielgerichtete) Navigation von einem Hyperlink zum anderen, so dass sich ein zurückgelegter Pfad von besuchten Seiten ergibt.
A.Kaiser; WU-Wien 27
Matching
• Matching: Vorgehensweise der klassischen Suchmaschine. Zwingt den Suchenden sein
Informationsproblem zu durchdenken und zu strukturieren
Suchender muß über Problemgebiet und Vokabular Bescheid wissen und auch wissen was sein/ihr Problem ist.
A.Kaiser; WU-Wien 28
Browsing• Browsing wird erst möglich mit dem Vorhanden-sein
von Hyperlinks. Ist das Suchverfahren in Katalogen– gerichtetes Browsing
– ungerichtetes Browsing
– assoziatives Browsing sukzessive Eingrenzung des Problembereichs, keine
exakte Beschreibung des Problembereichs notwendig weniger zielorientiert, oft aufwendig,
Risiko(? ) der Ablenkung
A.Kaiser; WU-Wien 29
Katalog- und verzeichnisbasierte Suche
• (manuell) aufgebaute Linksammlungen
• Navigation in hierarchisch aufgebauten Sachgebieten
• Eignen sich dann, wenn man zu einem bestimmten Gebiet einen (guten) Einstieg finden will.
• Yahoo, Dino, ...
A.Kaiser; WU-Wien 30
Kataloge
• Aufbau durch Betreiber (oftmals manuell)
• Anmelden eigener Webseiten durch Benutzer (Begutachtung und/oder Klassifikation durch Betreiber)
• Beispiel: VU (virtuelle Universität)
• http://vu.wu-wien.ac.at
A.Kaiser; WU-Wien 31
Kataloge
• Weitere Beispiele für Kataloge– Yahoo: http://yahoo.com– Dino: http://www.dino-online.de/– Euroseek:
http://www.euroseek.com/page?ilang=de– WWW Virtual Library:
http://vlib.org/Overview.html
A.Kaiser; WU-Wien 32
Portale vs. Kataloge
• Portale: Einstiegspunkt für den vereinfachten Zugang zu einer großen Menge an Informationen. Sie verwenden Informationsquellen und Suchwerkzeuge, den den wirtschaftlichen Interessen der Portal-Anbieter entsprechen (Suchmaschinen, Kataloge, Spezialsuchdienste, ...)
• Oftmals Möglichkeiten der Personalisierung = persönliche Anpassung der Seiten des Portals an Interessen und Präferenzen
A.Kaiser; WU-Wien 33
Portale
• Beispiele für Portale:– EXCITE: http://www.excite.de– NETSCAPE: http://my.netscape.de
A.Kaiser; WU-Wien 34
Roboterbasierte Suche / Suchmaschinen
• Roboter, Spider, Wanderer, Worm• rekursive Inhaltserschließung (über
Referenzen des gerade bearbeiteten Dokuments)
• Erschließung weiterer Dokumentformate (PDF, Word, Postscript, ...)
• Aufbau einer Indexdatenbank • “klassisches IR”
A.Kaiser; WU-Wien 35
Reichweite von Suchmaschinen
http://www.searchenginewatch.com
http://www.searchenginewatch.com/reports/sizes.html
Google (1,346,966.000 URLs),Alta Vista (350 Mio URLs), Excite (250 Mio URLs), HotBot (110 Mio URLs), Lycos (340 Mio URLs), WebCrawler (2 Mio URLs)
A.Kaiser; WU-Wien 36
Systemaufbau von Suchmaschinen
A.Kaiser; WU-Wien 37
Systemaufbau von Suchmaschinen
A.Kaiser; WU-Wien 38
Aufbau der Datenbank von Suchmaschinen
• bekannte WWW-Seiten (Startpunkt Kataloge, etc.)
• rekursive Erschließung
• explizit durch Benutzer
A.Kaiser; WU-Wien 39
Probleme beim Aufbau der DB
• WWW-Seiten mit Frames• Link-Bilder über CGI-Schnittstelle• Aktualisierung (neu erstellte / aktualisierte
Dokumente)• Nicht-verlinkte Dokumente• Zugriffsgeschützte Dokumente• Dynamische Dokumente• Geschützte Seiten nach dem Roboter-Exclusion-
Standard
A.Kaiser; WU-Wien 40
Indexierung von Dokumenten
• Oftmals unklar, Kernkompetenz der Anbieter
• Methoden des klassischen Information Retrievals– Wortextraktion mit mehrsprachigen Stoppwortlisten
– Position der Wörter
– Berechnung der Dokumentähnlichkeiten
– Funktion der Wörter (URL, Titel, Überschrift, Link, etc.)
– HTML-Elemente
– Verweisstrukturen
A.Kaiser; WU-Wien 41
Indexierung von Dokumenten
• Volltext-Indexierung– die gesamte HTML-Seite wird unter
Berücksichtigung von mehrsprachigen Stoppwortlisten indexiert
• Teilindex– nur ein Teil der Seite (meist URL, Titel,
Überschriften) werden indexiert
• Spezielle inhaltsbeschreibende Bereiche– META-Tags in HTML
A.Kaiser; WU-Wien 42
Anfragebearbeitung
• Verschiedene Suchmodi (einfache / erweiterte Suche)
• Formularbasierte Suchmasken mit diversen Einstellmöglichkeiten
• Voreinstellungen werden tw. Über Buttons, Menüs und Listen ausgewählt
• Java-basierte Suchmasken (selten)
A.Kaiser; WU-Wien 43
Relevanzberechnung
• Anzahl gefundener Suchbegriffe• Position der gefundenen Begriffe• Statistische Häufigkeit des Begriffs innerhalb eines
Dokuments• Nähe der Suchbegriffe untereinander innerhalb des Textes• Gesamtanzahl eines Suchbegriffs in der Datenbank• Popularität eines Dokuments• Anzahl und Qualität von Hyperlinks, die auf ein
Dokument verweisen und von einem Dokument ausgehen.
A.Kaiser; WU-Wien 44
Suchmaschinen
Beispiele für Suchmaschinen
• Google: http://www.google.com
• Altavista: http://www.altavista.com
A.Kaiser; WU-Wien 45
Metasuchmaschinen
• Gleichzeitige Suche bei mehreren Suchmaschinen über ein einziges Suchformular
• Die verschiedenen Suchdienste werden vorgegeben, tw. auch Auswahlmöglichkeiten für Benutzer
• Funktionalität und Operatoren der verschiedenen Suchdienste werden verwendet. Anpassung der Anfrage an die Metamaschine auf die einzelnen Suchdienste wird vorgenommen.
• Die spezifischen Eigenschaften der einzelnen Suchdienste bleiben dem Benutzer verborgen
A.Kaiser; WU-Wien 46
Metasuchmaschinen• Metasuchmaschinen die Duplikate eliminieren und eine fusionierte
Relevanzbeurteilung vornehmen– entweder Weiterführen des Rankings im Ursprungssuchdienst oder
komplette Neubeurteilung der Relevanz basierend auf den Worthäufigkeiten der Suchbegriffe in Angaben wie Titel, URL, Kurzbeschreibung)
• Metasuchmaschinen die Duplikate eliminieren, aber keine fusionierte Relevanzbeurteilung vornehmen
• Problem: Ranking der gemischten Treffermenge• Treffermenge meist nach Suchdiensten gruppiert• Duplikateliminierung lediglich über URL-Vergleich
A.Kaiser; WU-Wien 47
Metasuchmaschinen
• Sequentielle Suche in mehreren Suchdiensten– Ausgabe erst nach der Befragung des letzten
Suchdienstes
• Parallele Suche in mehreren Suchdiensten– Ausgabe, sobald einer der befragten
Suchdienste die Anfrage abgearbeitet hat
A.Kaiser; WU-Wien 48
Metasuchmaschinen
Erspart das Laden der Homepages einzelner Suchdienste
Guter Überblick über unterschiedliche DiensteZeitersparnis und größerer DokumentenraumBeschränkung bei der Formulierung der Suchanfrage,
weil Syntax der einzelnen Maschinen unterschiedlich (vgl. Informationsbedürfnis und Informationsnachfrage)
A.Kaiser; WU-Wien 49
Metasuchmaschinen
Beispiele für Metasuchmaschinen• MetaGer
http://meta.rrzn.uni-hannover.de/• Highway 61
http://www.highway61.com/• Metacrawler
http://www.metacrawler.com/index.html
A.Kaiser; WU-Wien 50
Eigene Webseiten und Suchmaschinen
• Wichtiger Text im oberen Bereich• Schlüsselbegriffe im TITLE-Element und
Überschrift (ev.auch in der Adresse)• Keine Frames bzw. alternative Seiten zu
Frames• Regelmäßige Überprüfung der eigenen Seiten• Verwendung von Metatags in HTML
A.Kaiser; WU-Wien 51
Eigene Webseiten und Suchmaschinen
Hilfswerkzeuge
• Webmasterplan.comhttp://de.webmasterplan.com/
• Makemetophttp://makemetop.com/
• Searchenginecheck.comhttp://searchenginecheck.com/
A.Kaiser; WU-Wien 52
Vorgehensweise bei der Suche
1) „Klärung“ des Informationsbedarfs
2) Auswahl der „richtigen“ Suchbegriffe
3) Auswahl geeigneter Suchverfahren
4) Durchführung der Recherche
A.Kaiser; WU-Wien 53
Klärung des Informationsbedarfs
• Gesamtüberblick über ein Thema?– Wahrscheinlich geringe Vorinformationen– Ziel: hohe Anzahl gefundener Web-Seiten
• Detailinformationen – wahrscheinlich gewisse Vorkenntnisse
vorhanden– Ziel: hohe Anzahl relevanter Web-Seiten
A.Kaiser; WU-Wien 54
Auswahl der Suchbegriffe
• Sprache der Suchbegriffe (eine oder mehrere)
• spezielle und allgemeinere Suchbegriffe verwenden
• Synonyme zu den Suchbegriffen überlegen
A.Kaiser; WU-Wien 55
Auswahl der Suchverfahren
Informationsbedürfnis
Allgemeines Interesse
Überblick über Thema
Detailinformationenüber ein Thema(man kennt die
Suchbegriffe)
Suchverfahren
Surfen,spezielle Seiten mit aktuellen
und interessanten Links
Kataloge
Suchmaschinen, Datenbanken
A.Kaiser; WU-Wien 56
Intelligente Agenten
• Programme, die Aufträge eines Benutzers oder eines anderen Programmes ausführen und dabei Wissen über die Ziele und Wünsche des Benutzers anwenden
• vgl. Intelligentes IR, Letizia, etc.
A.Kaiser; WU-Wien 57
Intelligentes Information Retrieval
A.Kaiser; WU-Wien 58
Konventionelles vs intelligentes IR
Konventionelles IR
• Informationsbedürfnis kann vor Recherche klar definiert werden
• Benutzer weiß was er/sie will
• Informationsbedürfnis ändert sich nicht im Dialog mit dem IR-System
Intelligentes IR• Benutzer weiß nicht
genau nach welchen Informationen er/sie sucht
• Benutzer lernt im Dialog mit dem IR-System über Informationsbedürfnis dazu
A.Kaiser; WU-Wien 59
Intelligentes Information Retrieval
• vergleiche Vorgehensweise beim Erstellen einer Diagnose beim Arzt
• Weg um in Kooperation mit dem IR-System („=Arzt“), das wahre Informationsbedürfnis zu eruieren und die relevanten Informationen zu finden („=Therapie“)
• „Es sind (oft) nicht die Antworten die erhellen, sondern die Fragen
A.Kaiser; WU-Wien 60
Intelligentes Information Retrieval
• Ziel: Angleich bzw. Annäherung Informationsbedürfnis und Informationsbedarf
• unterschiedliche Ansätze um dieses Ziel zu erreichen– Computerunterstütztes Indexieren mit Relevance
Feedback– Fallbasiertes Schließen– Intelligente Agenten– ...
A.Kaiser; WU-Wien 61
Dynamischer Dokumentenraum - Ziele
– Eliminierung von falschen Deskriptoren– Dokumente, die als relevant eingestuft wurden,
sollen der Suchanfrage ähnlicher gemacht werden– Dokumente, die als nicht relevant eingestuft
wurden, sollen der Suchanfrage unähnlicher gemacht werden
– Anpassung des Dokumentenraums an die Sprachentwicklung
– Anpassung des Dokumentenraums an die Benutzer
A.Kaiser; WU-Wien 62
Prototypen
• Guided Information Exploration
• Letizia
A.Kaiser; WU-Wien 63
Guided Information Exploration
• System als Assistent der dem Anwender „über die Schultern schaut“, was er tut, welche Informationen er verarbeitet und welche Informationen er übergeht.
• Basierend auf diesen Informationen stellt das System Hypothesen über das Informationsbedürfnis des Anwenders auf.
• Retrieval von relevanten Informationen basierend auf den aufgestellten Hypothesen
• Kein explizites Relevance-Feedback sondern implizites Ableiten dieser wichtigen Informationen durch Interpretation der Anwender-Aktionen
A.Kaiser; WU-Wien 64
Guided Information Exploration
• Das System schätzt die Relevanz jedes Dokuments in Bezug auf die aufgestellten Hypothesen
• iterativer und dynamischer Aspekt von GIE
• Präsentation der durch GIE ''gefundenen'' Dokumente sollte ''unaufdringlich'' sein.
• Der Anwender soll nicht unnötig in seinem Suchprozeß unterbrochen werden. Trotzdem sollte es das Interface dem Benutzer erlauben sich die angebotenen Dokumente schnell durchzusehen um deren Relevanz beurteilen zu können.
• Implementation mit neuronalen Netzen
A.Kaiser; WU-Wien 65
Letizia
• Software-Agent der einen Anwender beim Browsing assistiert
• verfolgt die Gewohnheiten des Benutzers und versucht basierend auf den gewonnenen Erfahrungen jeweils ausgehend von der aktuellen Position des Benutzers, weitere passende Links selbständig zu finden.
• Suche nach Information ist cooperatives Unternehmen zwischen dem Anwender und einem intelligenten Software-Agenten
A.Kaiser; WU-Wien 66
Letizia
• Schnelleres Erkunden möglicher relevanter Informationsknoten.
• Orientierung an den ''Bewegungen'' des Anwenders• einfache Heuristiken• Verknüpfung von Konzepten des Information Retrievals• und des Information Filterings• Nutzung der Idle-Time• Anwendung dann, wenn sich der Anwender unsicher ist,
welchen Schritt er als nächstes setzen soll.
A.Kaiser; WU-Wien 67
Letizia
• http://lieber.www.media.mit.edu/people/ lieber/Lieberary/Letizia/Letizia.html