Ontology-Focused Crawling of Documents and Relational
Metadata
Diplomvortrag
Marc Ehrig
Forschungszentrum Informatik
22.01.2002
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 2
Übersicht
1. Situation
2. Grundlagen des fokussierten Crawlings
3. Architektur
4. Implementierung
5. Evaluation
6. Zusammenfassung
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 3
1. Situation
• Entwickeltes weltweites Datennetz
• Viele Dokumente• Finden, Extrahieren
und Kombinieren von Informationen
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 4
2. Grundlagen des fokussierten Crawlings
• Crawling:– Laden eines Dokuments
– Extraktion der Links
– Nächstes Dokument laden
• Fokussiertes Crawling– Intelligente fokussierte Auswahl des nächsten Schritts
?
?
?
?
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 5
Prozess des ontologiefokussierten Crawlings
• Ontologie und Metadaten– Definitionen, Initialisierungen
– Metadatenextraktion
– Ausgabe, Evolution
• Crawler– Laden der Dokumente
– Überprüfung der Relevanz
– Festlegung der Reihenfolge der nächsten Dokumente
Ontology andMetadata
Management
FocusedCrawling ofDocuments
and Metadata
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 6
Wissensmodell
• Ontologie• Metadaten• Lexikon KAON/Lexicon
lexical entryvalue
lexicon:airline
"airline" "carrier"
references
lexicon:Lufthansa
"Lufthansa"
kaon
:va
l
kaon:val
ka:
val
T
T
SS
kaon
ref
kaon:refLufthansa
root
class property
airline
airplane
person
flies
pilot
owns
A340 J. Smith
S: subclassOfR: rangeD: domainT: instanceOf
T T
S
STT
T
T
R D
R
T
DT
RDFScheme
ontology
metadata
S
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 7
Linkauswahl
• Inhaltsbasiert • Strukturbasiert– Forward Link Count
– Backward Link Count
– Location Metric
– Page Rank
Webdokument Modell
ASCII-Text ASCII-Text (Keywords)
Graph Graph
Beliebig Beliebig
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 8
Welcher Dokumenteninhalt ist noch relevant für die Suche?
• Unterscheidung zwischen Zieldokumenten und Pfaddokumenten
• Überlegungen zu engem und weitem Fokus
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 9
3. Systemarchitektur
UserInteraction
Ontology andMetadataManagement
ComputationPreprocessing
Crawling
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 10
Ontologie- und Metadatenmanagement
UserInter-action
Ontology andMetadataManagement
ComputationPreprocessing
InstiantiatedOntology &MetadataStructure
ResultPresentation and
OntologyEvolvement
managing ontology and metadatastructures
inspect
RDF-metadata Maintenance
links textmeta-data
UserInteraction
Ontology andMetadataManagement
ComputationPreprocessing
Crawling
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 11
Web Crawler
Crawling
Crawler 1
URL Buffer(ranked)
RetrievedWeb DocumentsBuffer (ranked
by URL)
Crawler 2Crawler 3Crawler 4Crawler 5
Filter againstdoubles and
wrong file-types
URLs (rated)documents
Internet
Preprocessing Computation
UserInteraction
Ontology andMetadataManagement
ComputationPreprocessing
Crawling
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 12
Vorverarbeitung
Ontology andMetadataManagement
Preprocessing
textprocessor /natural language
processing:tags, stopwords,
stemming, parsing
Free-TextLookup
id ex-traction
AnchortextLookup
documents
matching
id ex-traction
instantiatedontology &metadatastructure
instantiatedontology &metadatastructure
lexicon
metadata list<sentence>
lan
gu
age
chec
k
file
ty
pe
chec
k an
dco
nve
rsio
n
rdf
me
tad
ata
sep
arat
or
lin
kse
par
ato
r
Web Crawler
Computation
documentrelevance
linkrelevance
UserInteraction
Ontology andMetadataManagement
ComputationPreprocessing
Crawling
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 13
Relevanzmengen
Single Taxonomic Relational
Dvehicle transports passenger
airplane
militaryairplane
commercialairplane
fliesflight
owned by
airline
Lufthansa A340 B747
S subClassOfD domainR rangeT instanceOf
R
S
S
D
RS
T
RT
D
T
Total
person
Marc Ehrig
T
S
UserInteraction
Ontology andMetadataManagement
ComputationPreprocessing
Crawling
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 14
airbus = 2
lufthansa = 1
airplane = 1
airbus = 1
lufthansa = 1
airplane = 4
airbu_
lufthansa
airplane
vers_
airbus = 1
lufthansa = 1
airplane = 0
airbus = 1
lufthansa = 1
airplane = 2
#airbus
#lufthansa
score = 6
Relevanzberechnung
text count rating
scoremetadata count rating
1. le
xico
n lo
okup 3. s
um
mar
izat
ion
1. v
alid
atio
n
ontology ontology
ontology ontology
Lufthansa just received itsnewest Airbus A340 from thebase in Toulouse. AirbusIndustries added some newfeatures to this version of the
airplane.
<f:Class rdf:about="&c;airbus"><c:airline rdf:about="lufthansa">
<c:ownsrdf:resource="airbus123"/></c:airline>
2. r
elev
ance
rela
tion
al,
sum
2. r
elev
ance
rela
tion
al,
sum
Beispiel:
UserInteraction
Ontology andMetadataManagement
ComputationPreprocessing
Crawling
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 15
Benutzer
• Eingabe– Initialisierung der Wissensbasis– Definition der Suche– Crawling Strategie– Start URLs
• Ausgabe– Besten Dokumente– URL-Liste– Metadaten– Wortvorschläge
UserInteraction
Ontology andMetadataManagement
ComputationPreprocessing
Crawling
user
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 16
4. Implementierung
CATERPYL
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 17
5. Evaluation
• Maße– Discovery Rate:
#Minimum/#Schritte– Harvest Rate:
#Relevant/#Gelesen
• Daten– University.kaon
– Airplane.kaon
– Tourism.kaon
• Strategien– Single für Dokument
– Breadth-First, Keyword, Single, Relational und Total für Pfad
• Szenarien– CIIR
– Prof. Deshmukh
– Boeing 747
– Hotel
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 18
Beispiel 1: Center for Intelligent Information Retrieval
• Institut an der University of Massachusetts
• Strategien Taxonomic, Relational und Total deutlich überlegen
0
0,2
0,4
0,6
0,8
1Discovery
Rate
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 19
Beispiel 2: Hotel Waterfront
• Hotel am Wasser• Total besser als alle
anderen• Keyword auf der x-
Achse
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0 200 400 600 800 1000 1200 1400
keyword taxonomic relational total
HarvestRate
Schritte
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 20
6. Zusammenfassung
• Ontologie und Metadaten– Definitionen, Initialisierungen– Metadatenextraktion– Ergebnisausgabe,
Fortentwicklung
• Crawler– Laden der Dokumente– Überprüfung der Relevanz
mittels Relevanzmengen– Festlegung der Reihenfolge der
nächsten Dokumente
Ontology andMetadata
Management
FocusedCrawling ofDocuments
and Metadata
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 21
Ergebnis
• Fokussiertes Crawling besser als unfokussiertes
• Verbesserung durch Nutzung eines möglichst großen Wissensmodells
• Fokus muss genau austariert sein
• Strategie weiter verfolgen
Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 22
leer
Top Related