Kapitel 1: EinleitungKapitel 1: Einleitungdann ist auch d in der Menge. Aufgabe: Fi d ll R l i i D t...

Post on 07-Jul-2020

0 views 0 download

Transcript of Kapitel 1: EinleitungKapitel 1: Einleitungdann ist auch d in der Menge. Aufgabe: Fi d ll R l i i D t...

DATABASESYSTEMSGROUP

Ludwig-Maximilians-Universität MünchenInstitut für InformatikLehr- und Forschungseinheit für Datenbanksysteme

GROUP

Skript zur Vorlesung

Knowledge Discovery in DatabasesKnowledge Discovery in Databasesim Sommersemester 2011

Kapitel 1: EinleitungKapitel 1: Einleitung

Vorlesung+Übungen:PD Dr. Matthias Schubert, Dr. Arthur Zimek

Skript © 2003 Johannes Aßfalg, Christian Böhm, Karsten Borgwardt, Martin Ester, EshrefJanuzaj, Karin Kailing, Peer Kröger, Jörg Sander, Matthias Schubert, Arthur Zimek

http://www.dbs.ifi.lmu.de/cms/Knowledge_Discovery_in_Databases_I_(KDD_I)

Knowledge Discovery in Databases I: Einführung 1

DATABASESYSTEMSGROUP

OrganisatorischesGROUP

• Aktuelles– Vorlesung: Dienstag, 9.00-12.00 Uhr (Raum E 216 Hauptgebäude)

– Übung: Dienstag, 16-18 Uhr (Raum D Z007 Hauptgebäude)

Donnerstag 16 18 Uhr (Raum C 113 Theresienstr 41)Donnerstag, 16-18 Uhr (Raum C 113 Theresienstr. 41)

• Anmeldung für die Klausur auf der Homepage unterhttp://www.dbs.ifi.lmu.de/cms/Knowledge_Discovery_in_Databases_I_(KDD_I)

• Klausur: Der Stoff der Klausur wird in der Vorlesungund in den Übungen besprochen.(D Sk i i l di li h i L hilf )(Das Skript ist lediglich eine Lernhilfe.)

Knowledge Discovery in Databases I: Einführung 2

DATABASESYSTEMSGROUP

MotivationGROUP

AstronomieKreditkarten Scanner-KassenDigitalkameras

Astronomie

Telefongesellschaft

WWW

• Riesige Datenmengen werden in Datenbanken gesammeltA l kö i h h ll d h füh d

WWW

Knowledge Discovery in Databases I: Einführung 3

• Analysen können nicht mehr manuell durchgeführt werden

DATABASESYSTEMSGROUP

Von den Daten zum WissenGROUP

Daten Methode Wissen

Verbindungsd.Rechnungserst.

Outlier Detection Betrug

TransaktionenKlassifikation Kreditwürdigkeit

Abrechnung

T kti

Klassifikation Kreditwürdigkeit

G iTransaktionenLagerhaltung

AssoziationsregelnGemeinsamgekaufte Produkte

BilddatenKataloge

Klassifikation Klasse eines Sterns

Knowledge Discovery in Databases I: Einführung 4

g

DATABASESYSTEMSGROUP

Definition KDDGROUP

[Fayyad, Piatetsky-Shapiro & Smyth 1996]

Knowledge Discovery in Databases (KDD) ist der Prozess der (semi-) automatischen Extraktion von Wissen aus Datenbanken, das( ) ,

• gültig• bisher unbekannt• und potentiell nützlich ist.

Bemerkungen:Bemerkungen:• (semi-) automatisch: im Unterschied zu manueller Analyse.Häufig ist trotzdem Interaktion mit dem Benutzer nötig. g g

• gültig: im statistischen Sinn.• bisher unbekannt: bisher nicht explizit, kein „Allgemeinwissen“.

ll l h f i b A d

Knowledge Discovery in Databases I: Einführung 5

• potentiell nützlich: für eine gegebene Anwendung.

DATABASESYSTEMSGROUP

Teilbereiche KDDGROUP

Statistik Machine Learningmodellbasierte Inferenzen Such /Optimierungsverfahrenmodellbasierte Inferenzen

Schwerpunkt auf numerischen DatenSuch-/OptimierungsverfahrenSchwerpunkt auf symbolischen Daten

[Berthold & Hand 1999] [Mitchell 1997]

KDD

DatenbanksystemeSk li b k it fü ß D tSkalierbarkeit für große Datenmengen

Neue Datentypen (Webdaten, Micro-Arrays, ...)Integration mit kommerziellen Datenbanksystemen

[Chen Han & Yu 1996]

Knowledge Discovery in Databases I: Einführung 6

[Chen, Han & Yu 1996]

DATABASESYSTEMSGROUP

Das KDD-ProzessmodellGROUP

V TF k i Data E l i

Prozessmodell nach Fayyad, Piatetsky-Shapiro & Smyth

Vorverar-beitung

Trans-formation

Fokussieren DataMining

Evaluation

Datenbank Muster Wissen

n e m.

-

Dat

enD

B)

ter

Dat

en

: aten

aus

Que

llen

g g umer

i-

Mer

kmal

ete

r M

erkm

Mus

ter

tere

ssan

t-nu

tzer

stis

che

elle

ren:

ung

der

Dng

(F

ile/

Dre

leva

nt

beit

ung:

on v

on D

aed

lich

en

ändi

gung

nzpr

üfun

g

mat

ion

ieru

ng n

urk

mal

eg

neue

r M

rele

vant

ing

ung

der

Mde

lle

n ng d

er I

nth

den

Ben

ng: S

tatis

der

Mod

e

okus

sier

Bes

chaf

fuV

erw

altu

nS

elek

tion

orve

rarb

nteg

rati

oun

ters

chie

Ver

voll

stä

Kon

sist

en

ansf

orm

Dis

kret

isi

cher

Mer

Abl

eitu

ngS

elek

tion

ata

Min

Gen

erie

rubz

w. M

od

valu

atio

Bew

ertu

nhe

it d

urch

Val

idie

run

Prü

fung

d

Knowledge Discovery in Databases I: Einführung 7

Fo

•B

•V

•S

Vo

•In u

•V

•K

Tra

•D sc

•A

•S

Da

•G b

Ev

•B h

•V P

DATABASESYSTEMSGROUP

Data Mining AufgabenGROUP

Die wichtigsten Data-Mining-Techniken:

Supervised: z.B. Klassifikation, Regression, Outlier DetectionEin Ergebnis-Merkmal soll aufgrund von Vorwissen gelernt/geschätzt werden.Das Vorwissen steht typischerweise als Trainingsdaten bereitDas Vorwissen steht typischerweise als Trainingsdaten bereit.

Unsupervised: z.B. Clustering, Outlier Detection, AssoziationsregelnDie Datenmenge soll ohne weiteres Vorwissen in Gruppen unterteilt werden.g ppDie Gruppen haben je nach Aufgabe unterschiedliche Charakteristika.

Die meisten Verfahren arbeiten auf sog. Merkmalsvektoren. DarüberDie meisten Verfahren arbeiten auf sog. Merkmalsvektoren. Darüber hinaus gibt es zahlreiche Verfahren, die nicht auf Merkmalsvektoren, sondern z.B. auf Texten, Mengen, Graphen arbeiten.

Knowledge Discovery in Databases I: Einführung 8

DATABASESYSTEMSGROUP

ClusteringGROUP

cm]

Höh

e [c

Cluster 1: KlammernCluster 2: NägelCluster 2: Nägel

Breite [cm]

Clustering heißt: Zerlegung einer Menge von Objekten (bzw. Feature-Vektoren) in Teilmengen (Cluster) ähnlicher Objekte) g ( ) j

Idee: Die verschiedenen Cluster repräsentieren meist unterschiedliche Klassen von Objekten; bei unbek. Anzahl und Bedeutung der Klassen

Knowledge Discovery in Databases I: Einführung 9

j ; g

DATABASESYSTEMSGROUP

Anwendung: Thematische KartenGROUP

Aufnahme der Erdoberflächein 5 verschiedenen Spektren

and

2

Pixel (x1,y1)

Pixel (x2,y2)

Wer

t in

Ba

Wert in Band 1

W

Cluster-Analyse

Ban

d 2

Rücktransformationin xy-Koordinaten

Wer

t in

Farbcodierung nachCluster-Zugehörigkeit

Knowledge Discovery in Databases I: Einführung 10

Wert in Band 1

DATABASESYSTEMSGROUP

Outlier DetectionGROUP

Datenfehler?Betrug?

Outlier Detection bedeutet:Ermittlung von untypischen DatenErmittlung von untypischen Daten

Idee: Outlier könnten hindeuten auf• Missbrauch etwa bei• Missbrauch etwa bei

• Kreditkarten• Telekommunikation

Knowledge Discovery in Databases I: Einführung 11

e e o u at o• Datenfehler

DATABASESYSTEMSGROUP

AnwendungGROUP

• Analyse der SAT.1-Ran-Fußball-Datenbank (Saison 1998/99)– 375 Spieler

– Primäre Attribute: Name, Einsätze, Tore, Spielposition (Torwart, Abwehr Mittelfeld Sturm)Abwehr, Mittelfeld, Sturm),

– Abgeleitetes Attribut: Tore pro Spiel

– Outlier Analyse auf (Spielposition, Einsätze, Tore pro Spiel)

• Ergebnis: Top 5 Outliers

Rang Name Einsätze Tore Position Erklärung

1 Michael Preetz 34 23 Sturm Torschützenkönig

2 Michael Schjönberg 15 6 Abwehr Abwehrspieler mit den meisten2 Michael Schjönberg 15 6 Abwehr Abwehrspieler mit den meisten Toren

3 Hans-Jörg Butt 34 7 Torwart Torwart mit den meisten Toren

4 Ulf Kirsten 31 19 Sturm 2. Torschützenkönig

Knowledge Discovery in Databases I: Einführung 12

g

5 Giovanne Elber 21 13 Sturm Hohe Tore-pro-Spiel Quote

DATABASESYSTEMSGROUP

KlassifikationGROUP

S h bSchraubenNägelKlammern

Trainings-daten

Neue Objekte

Aufgabe:L d b it kl ifi i t T i i d t di R lLerne aus den bereits klassifizierten Trainingsdaten die Regeln, um neue Objekte nur aufgrund der Merkmale zu klassifizieren

Das Ergebnismerkmal (Klassenvariable) ist nominal (kategorisch)

Knowledge Discovery in Databases I: Einführung 13

DATABASESYSTEMSGROUP

Anwendung: Neugeborenen-ScreeningGROUP

Blutprobe des Neugeborenen

Massenspektrometrie MetabolitenspektrumNeugeborenen

14 analysierte Aminosäuren:

b k

alanine phenylalaninearginine pyroglutamateargininosuccinate serine

Datenbankcitrulline tyrosineglutamate valineglycine leucine+isoleucine

Knowledge Discovery in Databases I: Einführung 14

g ymethionine ornitine

DATABASESYSTEMSGROUP

Anwendung: Neugeborenen-ScreeningGROUP

Ergebnis:N di ti h T t• Neuer diagnostischer Test

• Glutamin als bisher unbekannter Marker

Knowledge Discovery in Databases I: Einführung 15

DATABASESYSTEMSGROUP

Anwendung: GewebeklassifikationGROUP

• Schwarz: Ventrikel + Hintergrund• Blau: Gewebe 1• Grün: Gewebe 2

CBV

• Rot: Gewebe 3• Dunkelrot: Große Gefäße

Blau Grün Rot

TTP 20 5 18 5 16 5

TTP

TTP 20.5 18.5 16.5 (s)

CBV 3.0 3.1 3.6(ml/100g)

RV

( / g)

CBF 18 21 28(ml/100g/min)

RV 30 23 21RV

Ergebnis: Klassifikation cerebralen Gewebes anhand

RV 30 23 21

Knowledge Discovery in Databases I: Einführung 16

Ergebnis: Klassifikation cerebralen Gewebes anhandfunktioneller Parameter mittels dynamic CT möglich.

DATABASESYSTEMSGROUP

RegressionGROUP

0

Grad der Erkrankung

5

Grad der Erkrankung

Neue Objekte

Aufgabe:Ähnlich zur Klassifikation, aber das Ergebnis-Merkmal, das gelernt , g , gbzw. geschätzt werden soll, ist metrisch

Knowledge Discovery in Databases I: Einführung 17

DATABASESYSTEMSGROUP

Anwendung: Precision FarmingGROUP

E

Bodenparameter

Ertrag2D Ertrags-

kurve

Wasserkapazität

BodenparameterWetter

Düngemittel…

Düngemittel

• Erstellen einer Ertragskurve, die von mehreren Parametern wieBodenbeschaffenheit, Wetter und Düngemittelausbringung abhängt.

• Erst eine geeignete Anpassung der Düngemittelausbringung kann eine• Erst eine geeignete Anpassung der Düngemittelausbringung kann eineertragsoptimale Nutzung in Abhängigkeit von Umweltfaktoren bewirken.

• Das Thema ist auch wegen der Umweltbelastung durch Überdüngung wichtig.

Knowledge Discovery in Databases I: Einführung 18

Das Thema ist auch wegen der Umweltbelastung durch Überdüngung wichtig.

DATABASESYSTEMSGROUP

AssoziationsregelnGROUP

a,b,c,d,eb da,b,c,d,eb db,c,da,b,c,da,b,c,d,e

In 5 von 7 (ca. 71 %)der Fälle kommt b,c,d

b,c,da,b,c,da,b,c,d,e

In 5 von 5 Fällen(100 %) gilt:Wenn b,c in der Menge,

a,c,e,fd,c,e,fa,b,c,d,f

zusammen vor.a,c,e,fd,c,e,fa,b,c,d,f

gdann ist auch d in derMenge.

Aufgabe:Fi d ll R l i i D t b k di k t M dFinde alle Regeln in einer Datenbank von diskreten Mengen der folgenden Art: Wenn a, b, c in der Menge M enthalten sind, dann ist auch t mit einerWenn a, b, c in der Menge M enthalten sind, dann ist auch t mit einer Wahrscheinlichkeit vom >X % in der Menge enthalten.

Knowledge Discovery in Databases I: Einführung 19

DATABASESYSTEMSGROUP

Anwendung: WarenkorbanalyseGROUP

evtl. Verallgemeinerung:• Paprika-Chips Knabbereien• Anreichern mit Kundendaten

Warenkorb =

DataWarehouse

Menge der gleichzeitigbezahlten Waren

Ergebnis: Assoziationsregeln

• Häufig zusammen gekaufte Artikel können im Supermarkt besser zueinanderpositioniert werden: Windeln werden häufig mit Bierkästen zusammen gekauft

> Positioniere Bier auf dem Weg von Windeln zur Kasse=> Positioniere Bier auf dem Weg von Windeln zur Kasse

• Generiere Empfehlungen für Kunden mit ähnlichen Warenkörbe:Kunden die „Krieg der Sterne“ I-VI gekauft haben, sind vielleicht auch

Knowledge Discovery in Databases I: Einführung 20

Kunden die „Krieg der Sterne I VI gekauft haben, sind vielleicht auchan „Herr der Ringe“ I-III interessiert.

DATABASESYSTEMSGROUP

Überblick über die Vorlesung (Momentaner Stand der Planung)

GROUP

1. Einleitung

2 Merkmalsräume

6. Outlier Detection

7 Assoziationsregeln2. Merkmalsräume

3. Klassifikation

7. Assoziationsregeln

8. DB-Techniken zur

4. Regression Leistungssteigerung

9 A bli k KDD 2 d5. Clustering 9. Ausblick: KDD 2 und

Maschinelles Lernen und Data Mining

Knowledge Discovery in Databases I: Einführung 21

DATABASESYSTEMSGROUP

LiteraturGROUP

Lehrbuch zur Vorlesung (deutsch):Ester M., Sander J.K l d Di i D b T h ik d A dKnowledge Discovery in Databases: Techniken und Anwendungen Springer Verlag, September 2000

Weitere Bücher (englisch):Han J., Kamber M.Data Mining: Concepts and TechniquesMorgan Kaufmann Publishers, March 2006

Tan P.-N., Steinbach M., Kumar V.Introduction to Data MiningAddison-Wesley, 2006

Mitchell T. M.Machine LearningMcGraw-Hill, 1997

Witten I. H., Frank E.Data Mining: Practical Machine Learning Tools and Techniques2. Auflage. Morgan Kaufmann Publishers, 2005

Knowledge Discovery in Databases I: Einführung 22