Kapitel 1: EinleitungKapitel 1: Einleitungdann ist auch d in der Menge. Aufgabe: Fi d ll R l i i D t...

DATABASESYSTEMSGROUP

Ludwig-Maximilians-Universität MünchenInstitut für InformatikLehr- und Forschungseinheit für Datenbanksysteme

Skript zur Vorlesung

Knowledge Discovery in DatabasesKnowledge Discovery in Databasesim Sommersemester 2011

Kapitel 1: EinleitungKapitel 1: Einleitung

Vorlesung+Übungen:PD Dr. Matthias Schubert, Dr. Arthur Zimek

http://www.dbs.ifi.lmu.de/cms/Knowledge_Discovery_in_Databases_I_(KDD_I)

Knowledge Discovery in Databases I: Einführung 1

OrganisatorischesGROUP

• Aktuelles– Vorlesung: Dienstag, 9.00-12.00 Uhr (Raum E 216 Hauptgebäude)

– Übung: Dienstag, 16-18 Uhr (Raum D Z007 Hauptgebäude)

Donnerstag 16 18 Uhr (Raum C 113 Theresienstr 41)Donnerstag, 16-18 Uhr (Raum C 113 Theresienstr. 41)

• Anmeldung für die Klausur auf der Homepage unterhttp://www.dbs.ifi.lmu.de/cms/Knowledge_Discovery_in_Databases_I_(KDD_I)

• Klausur: Der Stoff der Klausur wird in der Vorlesungund in den Übungen besprochen.(D Sk i i l di li h i L hilf )(Das Skript ist lediglich eine Lernhilfe.)

MotivationGROUP

AstronomieKreditkarten Scanner-KassenDigitalkameras

Astronomie

Telefongesellschaft

• Riesige Datenmengen werden in Datenbanken gesammeltA l kö i h h ll d h füh d

• Analysen können nicht mehr manuell durchgeführt werden

Von den Daten zum WissenGROUP

Daten Methode Wissen

Verbindungsd.Rechnungserst.

Outlier Detection Betrug

TransaktionenKlassifikation Kreditwürdigkeit

Abrechnung

Klassifikation Kreditwürdigkeit

G iTransaktionenLagerhaltung

AssoziationsregelnGemeinsamgekaufte Produkte

BilddatenKataloge

Klassifikation Klasse eines Sterns

Definition KDDGROUP

[Fayyad, Piatetsky-Shapiro & Smyth 1996]

Knowledge Discovery in Databases (KDD) ist der Prozess der (semi-) automatischen Extraktion von Wissen aus Datenbanken, das( ) ,

• gültig• bisher unbekannt• und potentiell nützlich ist.

Bemerkungen:Bemerkungen:• (semi-) automatisch: im Unterschied zu manueller Analyse.Häufig ist trotzdem Interaktion mit dem Benutzer nötig. g g

• gültig: im statistischen Sinn.• bisher unbekannt: bisher nicht explizit, kein „Allgemeinwissen“.

ll l h f i b A d

• potentiell nützlich: für eine gegebene Anwendung.

Teilbereiche KDDGROUP

Statistik Machine Learningmodellbasierte Inferenzen Such /Optimierungsverfahrenmodellbasierte Inferenzen

Schwerpunkt auf numerischen DatenSuch-/OptimierungsverfahrenSchwerpunkt auf symbolischen Daten

[Berthold & Hand 1999] [Mitchell 1997]

DatenbanksystemeSk li b k it fü ß D tSkalierbarkeit für große Datenmengen

Neue Datentypen (Webdaten, Micro-Arrays, ...)Integration mit kommerziellen Datenbanksystemen

[Chen Han & Yu 1996]

[Chen, Han & Yu 1996]

Das KDD-ProzessmodellGROUP

V TF k i Data E l i

Prozessmodell nach Fayyad, Piatetsky-Shapiro & Smyth

Vorverar-beitung

Trans-formation

Fokussieren DataMining

Evaluation

Datenbank Muster Wissen

n e m.

: aten

g g umer

n ng d

•In u

•D sc

•G b

•B h

•V P

Data Mining AufgabenGROUP

Die wichtigsten Data-Mining-Techniken:

Supervised: z.B. Klassifikation, Regression, Outlier DetectionEin Ergebnis-Merkmal soll aufgrund von Vorwissen gelernt/geschätzt werden.Das Vorwissen steht typischerweise als Trainingsdaten bereitDas Vorwissen steht typischerweise als Trainingsdaten bereit.

Unsupervised: z.B. Clustering, Outlier Detection, AssoziationsregelnDie Datenmenge soll ohne weiteres Vorwissen in Gruppen unterteilt werden.g ppDie Gruppen haben je nach Aufgabe unterschiedliche Charakteristika.

Die meisten Verfahren arbeiten auf sog. Merkmalsvektoren. DarüberDie meisten Verfahren arbeiten auf sog. Merkmalsvektoren. Darüber hinaus gibt es zahlreiche Verfahren, die nicht auf Merkmalsvektoren, sondern z.B. auf Texten, Mengen, Graphen arbeiten.

ClusteringGROUP

Cluster 1: KlammernCluster 2: NägelCluster 2: Nägel

Breite [cm]

Clustering heißt: Zerlegung einer Menge von Objekten (bzw. Feature-Vektoren) in Teilmengen (Cluster) ähnlicher Objekte) g ( ) j

Idee: Die verschiedenen Cluster repräsentieren meist unterschiedliche Klassen von Objekten; bei unbek. Anzahl und Bedeutung der Klassen

Anwendung: Thematische KartenGROUP

Aufnahme der Erdoberflächein 5 verschiedenen Spektren

Pixel (x1,y1)

Pixel (x2,y2)

Wert in Band 1

Cluster-Analyse

Rücktransformationin xy-Koordinaten

Farbcodierung nachCluster-Zugehörigkeit

Wert in Band 1

Outlier DetectionGROUP

Datenfehler?Betrug?

Outlier Detection bedeutet:Ermittlung von untypischen DatenErmittlung von untypischen Daten

Idee: Outlier könnten hindeuten auf• Missbrauch etwa bei• Missbrauch etwa bei

• Kreditkarten• Telekommunikation

e e o u at o• Datenfehler

AnwendungGROUP

• Analyse der SAT.1-Ran-Fußball-Datenbank (Saison 1998/99)– 375 Spieler

– Primäre Attribute: Name, Einsätze, Tore, Spielposition (Torwart, Abwehr Mittelfeld Sturm)Abwehr, Mittelfeld, Sturm),

– Abgeleitetes Attribut: Tore pro Spiel

– Outlier Analyse auf (Spielposition, Einsätze, Tore pro Spiel)

• Ergebnis: Top 5 Outliers

Rang Name Einsätze Tore Position Erklärung

1 Michael Preetz 34 23 Sturm Torschützenkönig

2 Michael Schjönberg 15 6 Abwehr Abwehrspieler mit den meisten2 Michael Schjönberg 15 6 Abwehr Abwehrspieler mit den meisten Toren

3 Hans-Jörg Butt 34 7 Torwart Torwart mit den meisten Toren

4 Ulf Kirsten 31 19 Sturm 2. Torschützenkönig

5 Giovanne Elber 21 13 Sturm Hohe Tore-pro-Spiel Quote

KlassifikationGROUP

S h bSchraubenNägelKlammern

Trainings-daten

Neue Objekte

Aufgabe:L d b it kl ifi i t T i i d t di R lLerne aus den bereits klassifizierten Trainingsdaten die Regeln, um neue Objekte nur aufgrund der Merkmale zu klassifizieren

Das Ergebnismerkmal (Klassenvariable) ist nominal (kategorisch)

Anwendung: Neugeborenen-ScreeningGROUP

Blutprobe des Neugeborenen

Massenspektrometrie MetabolitenspektrumNeugeborenen

14 analysierte Aminosäuren:

alanine phenylalaninearginine pyroglutamateargininosuccinate serine

Datenbankcitrulline tyrosineglutamate valineglycine leucine+isoleucine

g ymethionine ornitine

Anwendung: Neugeborenen-ScreeningGROUP

Ergebnis:N di ti h T t• Neuer diagnostischer Test

• Glutamin als bisher unbekannter Marker

Anwendung: GewebeklassifikationGROUP

• Schwarz: Ventrikel + Hintergrund• Blau: Gewebe 1• Grün: Gewebe 2

• Rot: Gewebe 3• Dunkelrot: Große Gefäße

Blau Grün Rot

TTP 20 5 18 5 16 5

TTP 20.5 18.5 16.5 (s)

CBV 3.0 3.1 3.6(ml/100g)

( / g)

CBF 18 21 28(ml/100g/min)

RV 30 23 21RV

Ergebnis: Klassifikation cerebralen Gewebes anhand

RV 30 23 21

Ergebnis: Klassifikation cerebralen Gewebes anhandfunktioneller Parameter mittels dynamic CT möglich.

RegressionGROUP

Grad der Erkrankung

Neue Objekte

Aufgabe:Ähnlich zur Klassifikation, aber das Ergebnis-Merkmal, das gelernt , g , gbzw. geschätzt werden soll, ist metrisch

Anwendung: Precision FarmingGROUP

Bodenparameter

Ertrag2D Ertrags-

Wasserkapazität

BodenparameterWetter

Düngemittel…

Düngemittel

• Erstellen einer Ertragskurve, die von mehreren Parametern wieBodenbeschaffenheit, Wetter und Düngemittelausbringung abhängt.

• Erst eine geeignete Anpassung der Düngemittelausbringung kann eine• Erst eine geeignete Anpassung der Düngemittelausbringung kann eineertragsoptimale Nutzung in Abhängigkeit von Umweltfaktoren bewirken.

• Das Thema ist auch wegen der Umweltbelastung durch Überdüngung wichtig.

Das Thema ist auch wegen der Umweltbelastung durch Überdüngung wichtig.

AssoziationsregelnGROUP

a,b,c,d,eb da,b,c,d,eb db,c,da,b,c,da,b,c,d,e

In 5 von 7 (ca. 71 %)der Fälle kommt b,c,d

b,c,da,b,c,da,b,c,d,e

In 5 von 5 Fällen(100 %) gilt:Wenn b,c in der Menge,

a,c,e,fd,c,e,fa,b,c,d,f

zusammen vor.a,c,e,fd,c,e,fa,b,c,d,f

gdann ist auch d in derMenge.

Aufgabe:Fi d ll R l i i D t b k di k t M dFinde alle Regeln in einer Datenbank von diskreten Mengen der folgenden Art: Wenn a, b, c in der Menge M enthalten sind, dann ist auch t mit einerWenn a, b, c in der Menge M enthalten sind, dann ist auch t mit einer Wahrscheinlichkeit vom >X % in der Menge enthalten.

Anwendung: WarenkorbanalyseGROUP

evtl. Verallgemeinerung:• Paprika-Chips Knabbereien• Anreichern mit Kundendaten

Warenkorb =

DataWarehouse

Menge der gleichzeitigbezahlten Waren

Ergebnis: Assoziationsregeln

• Häufig zusammen gekaufte Artikel können im Supermarkt besser zueinanderpositioniert werden: Windeln werden häufig mit Bierkästen zusammen gekauft

> Positioniere Bier auf dem Weg von Windeln zur Kasse=> Positioniere Bier auf dem Weg von Windeln zur Kasse

• Generiere Empfehlungen für Kunden mit ähnlichen Warenkörbe:Kunden die „Krieg der Sterne“ I-VI gekauft haben, sind vielleicht auch

Kunden die „Krieg der Sterne I VI gekauft haben, sind vielleicht auchan „Herr der Ringe“ I-III interessiert.

Überblick über die Vorlesung (Momentaner Stand der Planung)

1. Einleitung

2 Merkmalsräume

6. Outlier Detection

7 Assoziationsregeln2. Merkmalsräume

3. Klassifikation

7. Assoziationsregeln

8. DB-Techniken zur

4. Regression Leistungssteigerung

9 A bli k KDD 2 d5. Clustering 9. Ausblick: KDD 2 und

Maschinelles Lernen und Data Mining

LiteraturGROUP

Lehrbuch zur Vorlesung (deutsch):Ester M., Sander J.K l d Di i D b T h ik d A dKnowledge Discovery in Databases: Techniken und Anwendungen Springer Verlag, September 2000

Weitere Bücher (englisch):Han J., Kamber M.Data Mining: Concepts and TechniquesMorgan Kaufmann Publishers, March 2006

Tan P.-N., Steinbach M., Kumar V.Introduction to Data MiningAddison-Wesley, 2006

Mitchell T. M.Machine LearningMcGraw-Hill, 1997

Witten I. H., Frank E.Data Mining: Practical Machine Learning Tools and Techniques2. Auflage. Morgan Kaufmann Publishers, 2005

Kapitel 1: EinleitungKapitel 1: Einleitungdann ist auch d in der Menge. Aufgabe: Fi d ll R l i i D t...

Documents

Transcript of Kapitel 1: EinleitungKapitel 1: Einleitungdann ist auch d in der Menge. Aufgabe: Fi d ll R l i i D t...

The Value of "DER" to "D": The Role of Distributed Energy ...

Imagebrosch Motoren 2013 d - MAN Engines...Technik (1997) und der Common-Rail-Technologie (2004) sind Highlights der Entwicklung. Der Pro-duktionsjahresrekord von über 120.000 Motoren

Der Begriff Der Eudaimonia in Platons Philebos - D. Frede

People & Projects e.K. Headhunting | Executive Search · 2020. 6. 4. · Unsere Headhunter sind ausgewiesene Experten auf dem Gebiet der gezielten und diskreten Abwerbung von Mitarbeitern

Modell der Diesellokomotive 218 143-6 D GB USA F 16280

· Digital Living Network Alliance (DLNA) ... Dolby Digital Hergestellt unter der Lizenz der Dolby Laboratories. Dolby und das Doppel-D-Symbol sind Marken der

The Value of “DER” to “D”€¦ · 30/3/2016 · The Value of “DER” to “D”: The Role of Distributed Energy Resources in Supporting Local Electric Distribution System

René van der Meer Lead Technologist Industrial printing R&D Océ …amsystemscenter.com/.../2018/08/Rene-van-der-Meer-Oce.pdf · 2018-10-16 · René van der Meer Lead Technologist

EPRI Smart Grid Demonstration Initiative – Integrating DER ... · EPRI Smart Grid Demonstration Initiative – Integrating DER with T&D Operations Round Table 4C – DER Integration

People & Projects e.K. Headhunting | Executive Search · 2020-06-04 · Unsere Headhunter sind ausgewiesene Experten auf dem Gebiet der gezielten und diskreten Abwerbung von Mitarbeitern

Zertifikatsrichtlinie der D-TRUST GmbH

KNOCHENMETASTASEN IN DER UROONKOLOGIE Dr. med. D. Wippermann.

Der, B., Glassey, E., Bartley, B., Enghuus, C., Goodman, D ...

L A N D D O W NU DER LESSONS P R I M ARY

Digital AIM “D-AIM” Sam Van der Stricht EUROCONTROL.

Data Warehousing in der Lehre - de.saswiki.orgde.saswiki.org/images/d/d6/6.KSFE...Roth-Data-Warehousing-in-der-Lehre.pdf · Data Warehousing in der Lehre – Tomas Benz, Alexander

Laurens van der Tak, PE, D

AResponse to Johan D. van der Vyver’s “The Jurisprudential ...

[D]er Keim fuer [...] die technische Organisation der Wissenschaft : OstÃ¢ÂÂ¦

Low Mass X-ray Binaries and Accreting Millisecond Pulsars A. Patruno R. Wijnands R. Wijnands M. van der Klis M. van der Klis P. Casella D. Altamirano D.