Web Mining - Universität Hildesheim | Startseitemandl/Lehre/webmining/WebMining1.pdf · Data...
Transcript of Web Mining - Universität Hildesheim | Startseitemandl/Lehre/webmining/WebMining1.pdf · Data...
1
Web Mining
Übung
Wintersemester 2006/2007Universität Hildesheim
Thomas Mandl InformationswissenschaftUniversität Hildesheim [email protected]
2
Definitionen
Web MiningUnterschiede zu
Information RetrievalInformation Extraction
Data MiningMachine Learning
3
Web Mining
Erkennung von Wissen aus einer Sammlung von Web-Daten, die so nicht auf einer einzelnen Seite vorliegen
Switch
Router Stand-leitung
Router
Switch
KommunikationsServer(Unix)
Exchange-S(Windows NT)
File-Server(NovellN t )
PrimärerDomänen-C t ll(Windows NT)
Server fürPersonalverwaltun
(Windows NT)
15 Client-C t(Windows NT)
75 Client-C t(Windows NT)
Switch
Internet
Router
Firewall
BackupDomänen-C t ll(Windows NT)
40 Client-C t(Windows NT)Liegenschaft
BonnLiegenschaftBerlin
IP IP
4
Data Mining
„... Any algorithm that enumerates patterns from, or fits models to, data is a data mining algorithm“
(U. Fayyad 1997, in Heft 1 der Zeitschrift Data Mining and Knowledge Discovery)
Maschinelles Lernen: Definitionen
Anpassung des Verhaltens (Output) an die Umwelt (Input)
5
Data Mining
„... enumerates patterns ... models ...“Data Mining befasst sich mit Mustern und Modellen über Datend.h. Data Mining extrahiert Wissen, das nicht explizit in der Datenbasis gespeichert ist und abgefragt werden kannsondern dieses Wissen ergibt sich aus einer Gesamtschau auf sehr viele DatenData Mining fasst viele Wissenseinheiten zu neuem Wissen zusammen
6
• Log-Dateien von Web-Servern• Verhaltensdaten von Benutzern• Häufigkeiten von Zugriffen• Typische Pfade
• Analyse der Verlinkung zwischen Seiten und Sites
• Analyse von Inhalten• Text Mining• Community Erkennung
Web Usage Mining
Web StructureMining
Web Content Mining
Web Mining
Walther, Ralf (2001): Web Mining. In: Informatik Spektrum 24 (1). S. 16-18.
2
7
Web-Usage Mining
8
Log-File Format
Zugriffsdatum und -uhrzeit
Besucher IP
HTTP Befehl
Übertragenes Datenvolumen
Return Code
Zugegrifffene Web-Seite
HTTP Versionsnummer
Visitor1.org - - [01/Jan/2001:00:10:00 +0200] "GET H.html HTTP/1.1" 200 1000
Visitor1.org - - [01/Jan/2001:00:10:30 +0200] "GET G.html HTTP/1.1" 200 1000
Visitor2.org - - [02/Jan/2001:00:10:00 +0200] "GET H.html HTTP/1.1" 200 1000
Visitor2.org - - [02/Jan/2001:00:10:30 +0200] "GET G.html HTTP/1.1" 200 1000
Visitor2.org - - [02/Jan/2001:00:11:00 +0200] "GET X.html HTTP/1.1" 200 1000
Visitor2.org - - [02/Jan/2001:00:11:30 +0200] "GET G.html HTTP/1.1" 200 1000
Einfache Analysen in EXCEL möglich (Pivot-Tabellen)
9
The Web Utilization Miner (WUM)
System zum Web Usage MiningOpen Source, JAVA
Windows, Linux
Installation: DownloadIn Datei WUM.v70\bin\wumgui.bat zwei Pfade editierenStarten ...
http://hypknowsys.sourceforge.net/wiki/The_Web_Utilization_Miner_WUM
10
Ablauf der Web Log Analyse mit WUM
Log-Dateien einlesenImport Log File
Log-Dateien einlesenImport Log File
Anlegen Mining Base (Projekt)Create Mining Base
Anlegen Mining Base (Projekt)Create Mining Base
Benutzersitzungen festlegenCreate Visitor‘s Sessions
Benutzersitzungen festlegenCreate Visitor‘s Sessions
Einzelpfade verknüpfen Create Aggregated Log
Einzelpfade verknüpfen Create Aggregated Log
Summary, ReportSummary, Report
Einzelne Pfade betrachtenDraw Visitor‘s Sessions
Einzelne Pfade betrachtenDraw Visitor‘s Sessions
Alle Pfade betrachtenDraw Aggregated Log
Alle Pfade betrachtenDraw Aggregated Log
Abfragesprache für PfadeMINT Ad-hoc
Abfragesprache für PfadeMINT Ad-hoc
11
WUM Report
12
WUM GUI
3
13
MINT
Abfragesprache für PfadeIn Datei WUM.v70\bin\wumgui.bat Java-options editieren
Java mehr Speicher zuweisen
Xms256mXmx1g
14
MINT
15
ClickTracks.com
16
ClickTracks.com
17
heute
Web Structure Mining Analyse von einfachen Link-Strukturen mit einem Crawler http://www.cs.cmu.edu/~rcm/websphinx/
Web Content Mining Anwendungsbeispiel: WebXact
Analyse der Qualität
18
Crawler
Häufig auch bezeichnet als:Robot, Spider, Wanderer, Walker
Crawlers are programs (software agents) that traverse the Web sending new or updated pages to a main server where they areindexed. (Baeza-Yates/Ribeiro-Neto 2000, S.373)
sammeln Seiten im Web
4
19
Vorgehensweise
(Broder/Najork/Wiener 2003, S.679)
(a) Seite downloaden
(b) Seite parsen u. alle verlinkten URLs extrahieren
(c) Für alle noch nicht gesehenen URLs wiederhole (a)-(c)
20
Vorgehensweise
crawling frontierUnbesuchte Seiten, die als Links aus anderen Seiten
extrahiert wurden
Breadth-First-Ansatz (schichtenweise)Verfolgung aller Links der Ausgangsseite...
Depth-First-Ansatz:Verfolgung des ersten Links der AusgangsseiteVerfolgung des ersten Links der nächsten Seite
21
Dynamik
Crawler beobachten, wie häufig sich Seiten ändernDie Frequenz der Besuch wird der Änderungsfrequenz angepasstBest first Strategie
PageRank als „Wegweiser“ für das Crawling
22
Analyse der Link Struktur
23
Label folgen
24