Vorlesung Data Mining Data Mining mit KXENfiedler/teaching/ws0607/dm/docs/... · Im Data Mining...

Post on 06-Feb-2018

216 views 0 download

Transcript of Vorlesung Data Mining Data Mining mit KXENfiedler/teaching/ws0607/dm/docs/... · Im Data Mining...

Vorlesung Data MiningData Mining mit KXEN

Überblick und Übungsvorbereitung

Gunar FiedlerCAU Kiel, Institut für InformatikArbeitsgruppe Technologie der InformationssystemeKontakt: fiedler@is.informatik.uni-kiel.de

Data Mining 2

Übersicht

• Motivationsbeispiel• Der Data-Mining-Prozess• KXEN Analytic Framework

–Komponenten–Nutzung

Data Mining 3

Motivationsbeispiel - Zensusdaten

1Female2042divorcedSome-college

Private31

1Male0separatedDoctoratePrivate25

0Female5178marriedBachelorsFederal-gov

40

1Female14084neverMastersPrivate38

1Male0marries-civ-spouse

HS-gradSelf-emp-not-inc

50

0Male2174neverBachelorsState-gov39

class…sexcaptial-gain

martial-statuseducationworkclassage

insgesamt 14 Merkmale und ca. 50.000 Beobachtungen

Data Mining 4

Motivationsbeispiel

Terminologie:

Wert Ausprägung, Wert

AttributVariable, Merkmal

TupelBeobachtung (observation)

TabelleData Set, Tabelle

im Vergleich zu Datenbankenim Data Mining

Typischerweise werden nur Daten in einer einzelnen „flachen“ Tabelle bearbeitet

Data Mining 5

Motivationsbeispiel

Typische Problemstellungen

- Kann man unbekannte Werte von Variablen aus den Werten der anderen Variablen bestimmen?

?Female5178marriedBachelorsFederal-gov

40

1Male14084neverMastersPrivate38

1Male0narries-civ-spouse

HS-gradSelf-emp-not-inc

50

0Male2174neverBachelorsState-gov39

class…sexcaptial-gain

martial-status

educationworkclassage

Data Mining 6

Motivationsbeispiel

Typische Problemstellungen

- Kann man unbekannte Werte von Variablen aus den Werten der anderen Variablen bestimmen? Klassifikation

?Female5178marriedBachelorsFederal-gov

40

1Female14084neverMastersPrivate38

1Male0marries-civ-spouse

HS-gradSelf-emp-not-inc

50

0Male2174neverBachelorsState-gov39

class…sexcaptial-gain

martial-status

educationworkclassage

Data Mining 7

Motivationsbeispiel

Typische Problemstellungen

- Lassen sich „ähnliche“ Beobachtungen in Gruppen einteilen? Wenn ja,was heißt in diesem Zusammenhang „ähnlich“?

0Female5178marriedBachelorsFederal-gov

40

1Female14084neverMastersPrivate38

1Male0marries-civ-spouse

HS-gradSelf-emp-not-inc

50

0Male2174neverBachelorsState-gov39

class…sexcaptial-gain

martial-status

educationworkclassage

Data Mining 8

Motivationsbeispiel

Typische Problemstellungen

- Lassen sich „ähnliche“ Beobachtungen in Gruppen einteilen? Wenn ja,was heißt in diesem Zusammenhang „ähnlich“? Clusterbildung

0Female5178marriedBachelorsFederal-gov

40

1Female14084neverMastersPrivate38

1Male0marries-civ-spouse

HS-gradSelf-emp-not-inc

50

0Male2174neverBachelorsState-gov39

class…sexcaptial-gain

martial-status

educationworkclassage

Data Mining 9

Motivationsbeispiel

Typische Problemstellungen

- Gibt es Zusammenhänge zwischen den Variablen, z.B. „martial-status = never captial-gain > 0“ ?

0Female5178marriedBachelorsFederal-gov

40

1Male14084neverMastersPrivate38

1Male0marries-civ-spouse

HS-gradSelf-emp-not-inc

50

0Male2174neverBachelorsState-gov39

class…sexcaptial-gain

martial-status

educationworkclassage

Data Mining 10

Motivationsbeispiel

Typische Problemstellungen

- Gibt es Zusammenhänge zwischen den Variablen, z.B. „martial-status = never captial-gain > 0“ ?

Assoziationsregeln

0Female5178marriedBachelorsFederal-gov

40

1Male14084neverMastersPrivate38

1Male0marries-civ-spouse

HS-gradSelf-emp-not-inc

50

0Male2174neverBachelorsState-gov39

class…sexcaptial-gain

martial-status

educationworkclassage

Data Mining 11

Motivationsbeispiel

Typische Problemstellungen

- Wie werden sich die Werte entwickeln, z.B.„Ist die Person hinter Beobachtung 4 in 5 Jahren immer noch verheiratet?“

0Female5178marriedBachelorsFederal-gov

40

1Male14084neverMastersPrivate38

1Male0marries-civ-spouse

HS-gradSelf-emp-not-inc

50

0Male2174neverBachelorsState-gov39

class…sexcaptial-gain

martial-status

educationworkclassage

Data Mining 12

Motivationsbeispiel

Typische Problemstellungen

- Wie werden sich die Werte entwickeln, z.B.„Ist die Person hinter Beobachtung 4 in 5 Jahren immer noch verheiratet?“ Zeitreihenanalysen

0Female5178marriedBachelorsFederal-gov

40

1Male14084neverMastersPrivate38

1Male0marries-civ-spouse

HS-gradSelf-emp-not-inc

50

0Male2174neverBachelorsState-gov39

class…sexcaptial-gain

martial-status

educationworkclassage

Data Mining 13

Motivationsbeispiel

„Ist die Person hinter Beobachtung 4 in 5 Jahren immer noch verheiratet?“

Datenbasis „Zielaussage“

Data Mining 14

Motivationsbeispiel

„Ist die Person hinter Beobachtung 4 in 5 Jahren immer noch verheiratet?“

?

Datenbasis „Zielaussage“

Data Mining 15

Übersicht

• Motivationsbeispiel• Der Data-Mining-Prozess• KXEN Analytic Framework

–Komponenten–Nutzung

Data Mining 16

Der Data-Mining-Prozess

Datenvorbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Data Mining 17

Der Data-Mining-Prozess

Datenvorbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Data Mining 18

Der Data-Mining-Prozess

Datenvorbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Datenzugriff

Datenmanipulation

Datenvorbereitung

Data Mining 19

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Datenzugriff

Datenmanipulation

Datenvorbereitung

- physischer Zugriff (relationale Datenbank, CSV,XML, SAS, …)

ODBC

Data Mining 20

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Datenzugriff

Datenmanipulation

Datenvorbereitung

-physischer Zugriff (relationale Datenbank, CSV,XML, SAS, …)

- Sichtenbildung

ODBC

Data Mining 21

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Datenzugriff

Datenmanipulation

Datenvorbereitung

- Zusammenfassen von Tupelnin Beobachtungen(Aggregation)

- Zusammenführen von Datenquellen

- Schemabereinigung- irreführende Beziehungen- triviale Beziehungen

- Schema-Annotation- Datentypen- Speicherformate- Variablen-Rollen

Data Mining 22

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Datenzugriff

Datenmanipulation

Datenvorbereitung

- Datenbereinigung- fehlende Werte- falsche Werte- konsistente Kodierung- Normierung,

Skalentransformation

Data Mining 23

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Der generelle Ablauf

- Aufteilung der Daten in- Trainingsdaten- Validierungsdaten- Testdaten

Data Mining 24

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Der generelle Ablauf

- Aufteilung der Daten in- Trainingsdaten- Validierungsdaten- Testdaten

- Algorithmus-Auswahl

Data Mining 25

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Der generelle Ablauf

- Aufteilung der Daten in- Trainingsdaten- Validierungsdaten- Testdaten

- Algorithmus-Auswahl- Erstellung einer Menge von Modellen aus den

Trainingsdaten

Data Mining 26

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Der generelle Ablauf

- Aufteilung der Daten in- Trainingsdaten- Validierungsdaten- Testdaten

- Algorithmus-Auswahl- Erstellung einer Menge von Modellen aus den

Trainingsdaten- Validierung der Modelle gegen die

Validierungsdaten und Auswahl des besten Modells

Data Mining 27

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Der generelle Ablauf

- Aufteilung der Daten in- Trainingsdaten- Validierungsdaten- Testdaten

- Algorithmus-Auswahl- Erstellung einer Menge von Modellen aus den

Trainingsdaten- Validierung der Modelle gegen die

Validierungsdaten und Auswahl des besten Modells- Test der „Performanz“ mit Hilfe der Testdaten und

ggf. Wiederholung des Prozesses

Data Mining 28

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Der generelle Ablauf

- Aufteilung der Daten in- Trainingsdaten- Validierungsdaten- Testdaten

- Algorithmus-Auswahl- Erstellung einer Menge von Modellen aus den

Trainingsdaten- Validierung der Modelle gegen die

Validierungsdaten und Auswahl des besten Modells- Test der „Performanz“ mit Hilfe der Testdaten und

ggf. Wiederholung des Prozesses

Modell?Welche Algorithmen?Performanz eines Modells?

Data Mining 29

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

„Modelle“ im Data Mining:

Im Data Mining beschreibt ein Modell die Zusammenhänge zwischen Eingabedaten („explanatory variables“) und Ausgabedaten („target variables“). Modelle dienen der Vorhersage oder der Beschreibung von Phänomenen.

“All models are wrong but some are useful”(George E.P. Box)

Data Mining 30

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Einige Algorithmen(-Klassen):

-Klassifikation- Regression

Data Mining 31

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Einige Algorithmen(-Klassen):

-Klassifikation- Regression- Entscheidungsbäume

martial-status = never

education = bachelor

j

j n

class=0 class=1

Workclass = Federal-gov

n

class=0 class=1

j n

Data Mining 32

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Einige Algorithmen(-Klassen):

-Klassifikation- Regression- Entscheidungsbäume- Entscheidungsregeln

Data Mining 33

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Einige Algorithmen(-Klassen):

-Klassifikation- Regression- Entscheidungsbäume- Entscheidungsregeln- Neuronale Netze (Perzeptrone,

Backpropagation-Netze)

Data Mining 34

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Einige Algorithmen(-Klassen):

-Klassifikation- Regression- Entscheidungsbäume - Entscheidungsregeln- Neuronale Netze (Perzeptrone,

Backpropagation-Netze)- Clusterbildung

Data Mining 35

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Einige Algorithmen(-Klassen):

-Klassifikation- Regression- Entscheidungsbäume (z.B. ID3, C4.5)- Entscheidungsregeln- Neuronale Netze (Perzeptrone,

Backpropagation-Netze)- Clusterbildung

- z.B. k-Means, neuronale Netze (SOMs)- Assoziationsregeln

- z.B A-priori- …

Data Mining 36

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Performanz eines Modells:

- Aussagekraft, d.h. gute Vorhersage bzw. Beschreibung der Zielvariablen( KXEN: Quality Indicator)

- Robustheit, d.h. gleich gute Ergebnisse auf neuen Datenmengen(KXEN: Robustness Indicator)

Data Mining 37

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Modellbereitstellung:

- Überprüfen der Performanz eines Modells durch Modellkurven,z.B. Gains Chart

Data Mining 38

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Modellbereitstellung:

- Überprüfen der Performanz eines Modells durch Modellkurven

- Extraktion von Modellparametern- Simulation des Modells

Data Mining 39

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Modellbereitstellung:

- Überprüfen der Performanz eines Modells durch Modellkurven,

- Extraktion von Modellparametern- Simulation des Modells- Generierung von Code (z.B. Klassifikatoren)

Data Mining 40

Der Data-Mining-Prozess

Datenaufbereitung

Modellbildung

Modell-bereitstellung

Anwendung

Anwendung:

- Nutzung des Modells im Geschäftsbetrieb,- Kreditwürdigkeit neuer Kunden- Einblendung adaptiver Werbung- …

Data Mining 41

Übersicht

• Motivationsbeispiel• Der Data-Mining-Prozess• KXEN Analytic Framework

–Komponenten–Nutzung

Data Mining 42

KXEN

- Kommerzielle Data Mining Suite- Klassifikation auf der Basis eines

proprietären Regressionsalgorithmus- Clusterbildung- Zeitreihenanalysen- Assoziationsregeln („Warenkorbanalysen“)

Data Mining 43

KXEN

Data Mining 44

KXEN

Demonstration:

- „Gezielte Werbung“: Klassifikation von Personen