Web Mining - Universität Hildesheim | Startseitemandl/Lehre/webmining/WebMining1.pdf · Data...

4
1 Web Mining Übung Wintersemester 2006/2007 Universität Hildesheim Thomas Mandl Informationswissenschaft Universität Hildesheim [email protected] 2 Definitionen Web Mining Unterschiede zu Information Retrieval Information Extraction Data Mining Machine Learning 3 Web Mining Erkennung von Wissen aus einer Sammlung von Web-Daten, die so nicht auf einer einzelnen Seite vorliegen Switch Router Stand- leitung Router Switch Kommunikations Server (Unix) Exchange- S(Windows NT) File-Server (Novell Nt ) Primärer Domänen- C t ll (Windows NT) Server für Personalverwaltun (Windows NT) 15 Client- C t (Windows NT) 75 Client- C t (Windows NT) Switch Internet Router Firewall Backup Domänen- C t ll (Windows NT) 40 Client- C t (Windows NT) Liegenschaft Bonn Liegenschaft Berlin IP IP 4 Data Mining „... Any algorithm that enumerates patterns from, or fits models to, data is a data mining algorithm(U. Fayyad 1997, in Heft 1 der Zeitschrift Data Mining and Knowledge Discovery) Maschinelles Lernen: Definitionen Anpassung des Verhaltens (Output) an die Umwelt (Input) 5 Data Mining „... enumerates patterns ... models ...“ Data Mining befasst sich mit Mustern und Modellen über Daten d.h. Data Mining extrahiert Wissen, das nicht explizit in der Datenbasis gespeichert ist und abgefragt werden kann sondern dieses Wissen ergibt sich aus einer Gesamtschau auf sehr viele Daten Data Mining fasst viele Wissenseinheiten zu neuem Wissen zusammen 6 Log-Dateien von Web-Servern Verhaltensdaten von Benutzern Häufigkeiten von Zugriffen Typische Pfade Analyse der Verlinkung zwischen Seiten und Sites Analyse von Inhalten Text Mining Community Erkennung Web Usage Mining Web Structure Mining Web Content Mining Web Mining Walther, Ralf (2001): Web Mining. In: Informatik Spektrum 24 (1). S. 16-18.

Transcript of Web Mining - Universität Hildesheim | Startseitemandl/Lehre/webmining/WebMining1.pdf · Data...

1

Web Mining

Übung

Wintersemester 2006/2007Universität Hildesheim

Thomas Mandl InformationswissenschaftUniversität Hildesheim [email protected]

2

Definitionen

Web MiningUnterschiede zu

Information RetrievalInformation Extraction

Data MiningMachine Learning

3

Web Mining

Erkennung von Wissen aus einer Sammlung von Web-Daten, die so nicht auf einer einzelnen Seite vorliegen

Switch

Router Stand-leitung

Router

Switch

KommunikationsServer(Unix)

Exchange-S(Windows NT)

File-Server(NovellN t )

PrimärerDomänen-C t ll(Windows NT)

Server fürPersonalverwaltun

(Windows NT)

15 Client-C t(Windows NT)

75 Client-C t(Windows NT)

Switch

Internet

Router

Firewall

BackupDomänen-C t ll(Windows NT)

40 Client-C t(Windows NT)Liegenschaft

BonnLiegenschaftBerlin

IP IP

4

Data Mining

„... Any algorithm that enumerates patterns from, or fits models to, data is a data mining algorithm“

(U. Fayyad 1997, in Heft 1 der Zeitschrift Data Mining and Knowledge Discovery)

Maschinelles Lernen: Definitionen

Anpassung des Verhaltens (Output) an die Umwelt (Input)

5

Data Mining

„... enumerates patterns ... models ...“Data Mining befasst sich mit Mustern und Modellen über Datend.h. Data Mining extrahiert Wissen, das nicht explizit in der Datenbasis gespeichert ist und abgefragt werden kannsondern dieses Wissen ergibt sich aus einer Gesamtschau auf sehr viele DatenData Mining fasst viele Wissenseinheiten zu neuem Wissen zusammen

6

• Log-Dateien von Web-Servern• Verhaltensdaten von Benutzern• Häufigkeiten von Zugriffen• Typische Pfade

• Analyse der Verlinkung zwischen Seiten und Sites

• Analyse von Inhalten• Text Mining• Community Erkennung

Web Usage Mining

Web StructureMining

Web Content Mining

Web Mining

Walther, Ralf (2001): Web Mining. In: Informatik Spektrum 24 (1). S. 16-18.

2

7

Web-Usage Mining

8

Log-File Format

Zugriffsdatum und -uhrzeit

Besucher IP

HTTP Befehl

Übertragenes Datenvolumen

Return Code

Zugegrifffene Web-Seite

HTTP Versionsnummer

Visitor1.org - - [01/Jan/2001:00:10:00 +0200] "GET H.html HTTP/1.1" 200 1000

Visitor1.org - - [01/Jan/2001:00:10:30 +0200] "GET G.html HTTP/1.1" 200 1000

Visitor2.org - - [02/Jan/2001:00:10:00 +0200] "GET H.html HTTP/1.1" 200 1000

Visitor2.org - - [02/Jan/2001:00:10:30 +0200] "GET G.html HTTP/1.1" 200 1000

Visitor2.org - - [02/Jan/2001:00:11:00 +0200] "GET X.html HTTP/1.1" 200 1000

Visitor2.org - - [02/Jan/2001:00:11:30 +0200] "GET G.html HTTP/1.1" 200 1000

Einfache Analysen in EXCEL möglich (Pivot-Tabellen)

9

The Web Utilization Miner (WUM)

System zum Web Usage MiningOpen Source, JAVA

Windows, Linux

Installation: DownloadIn Datei WUM.v70\bin\wumgui.bat zwei Pfade editierenStarten ...

http://hypknowsys.sourceforge.net/wiki/The_Web_Utilization_Miner_WUM

10

Ablauf der Web Log Analyse mit WUM

Log-Dateien einlesenImport Log File

Log-Dateien einlesenImport Log File

Anlegen Mining Base (Projekt)Create Mining Base

Anlegen Mining Base (Projekt)Create Mining Base

Benutzersitzungen festlegenCreate Visitor‘s Sessions

Benutzersitzungen festlegenCreate Visitor‘s Sessions

Einzelpfade verknüpfen Create Aggregated Log

Einzelpfade verknüpfen Create Aggregated Log

Summary, ReportSummary, Report

Einzelne Pfade betrachtenDraw Visitor‘s Sessions

Einzelne Pfade betrachtenDraw Visitor‘s Sessions

Alle Pfade betrachtenDraw Aggregated Log

Alle Pfade betrachtenDraw Aggregated Log

Abfragesprache für PfadeMINT Ad-hoc

Abfragesprache für PfadeMINT Ad-hoc

11

WUM Report

12

WUM GUI

3

13

MINT

Abfragesprache für PfadeIn Datei WUM.v70\bin\wumgui.bat Java-options editieren

Java mehr Speicher zuweisen

Xms256mXmx1g

14

MINT

15

ClickTracks.com

16

ClickTracks.com

17

heute

Web Structure Mining Analyse von einfachen Link-Strukturen mit einem Crawler http://www.cs.cmu.edu/~rcm/websphinx/

Web Content Mining Anwendungsbeispiel: WebXact

Analyse der Qualität

18

Crawler

Häufig auch bezeichnet als:Robot, Spider, Wanderer, Walker

Crawlers are programs (software agents) that traverse the Web sending new or updated pages to a main server where they areindexed. (Baeza-Yates/Ribeiro-Neto 2000, S.373)

sammeln Seiten im Web

4

19

Vorgehensweise

(Broder/Najork/Wiener 2003, S.679)

(a) Seite downloaden

(b) Seite parsen u. alle verlinkten URLs extrahieren

(c) Für alle noch nicht gesehenen URLs wiederhole (a)-(c)

20

Vorgehensweise

crawling frontierUnbesuchte Seiten, die als Links aus anderen Seiten

extrahiert wurden

Breadth-First-Ansatz (schichtenweise)Verfolgung aller Links der Ausgangsseite...

Depth-First-Ansatz:Verfolgung des ersten Links der AusgangsseiteVerfolgung des ersten Links der nächsten Seite

21

Dynamik

Crawler beobachten, wie häufig sich Seiten ändernDie Frequenz der Besuch wird der Änderungsfrequenz angepasstBest first Strategie

PageRank als „Wegweiser“ für das Crawling

22

Analyse der Link Struktur

23

Label folgen

24