Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

46
rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003

Transcript of Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

Page 1: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

Software e Grafici Interattivi

per il Visual Data Mining

IVDM 2003

Page 2: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Software Commerciali per il Data Mining

AIM distribuito da AbTechAUTOCLASS distribuito da NASACLEMENZINE distribuito da SPSSDatabase Mining distribuito da HNCDatalogic/R distribuito da Reduct SystInformation Harvesting distribuito da Ryan AssIntelligent Miner distribuito da IBMIXL/IDIS distribuito da IntelligWareKnowledgeSeeker distribuito da FirstMarkTechn NEXTRA distribuito da

Neuron DataPC-MARS distribuito da Data Patterns RECON for Data Mining distribuito da Lockheed

Page 3: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Software Commerciali per il Data Mining:

CLEMENTINE- SPSS

Page 4: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Software Commerciali per il Data Mining:

ROSETTA

Page 5: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Software Commerciali per il Data Mining:

STATISTICAThe most part of statistical software for Data Mining try to give a suitable final graphical representation of applied models

Page 6: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Software per il Data Mining: considerazioni generali

-Cosa dovrebbero fare?

-Cosa fanno davvero?

-Quali caratteristiche sono le piú rilevanti?

-Come influisce la Visualizzazione sulla ricerca dell´Informazione?

Page 7: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Il nostro Software per IVDM:The Rosuda`s Impressionistes

Page 8: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Interactive Visual Data Mining:

Implementazione**Graphics manipulation = Data manipulation**

Interazione condiziona non solo l´aspetto esteriore del display ma la sostanza dei dati!

Page 9: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Fisher Grains Data Set•Produzione di Grano presso i Campi Broadbalk a Rothamsted

•Fisher (1924)

•La matrice di dati è stata transposta, di modo che ciascun anno corrisponda ad un diverso anno

•18 time series osservate annualmente per un periodo di 76 anni

Page 10: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

PC anche dati temporali

Page 11: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Interactive Time Series

Page 12: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

…Collegare Tempo e Luogo

Page 13: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

…PC in generale e Mappe

Page 14: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Maps, selezione e Mondrian

Page 15: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Cos è una mappa

Dati Geografici possono essere collocati in base alla vera referenza geografica

Page 16: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Collegare le Mappe agli individui

Da dove viene? Che tipo di criminale é?

The Crime dataset and the Criminal face

Page 17: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

The Crime dataset and the Criminal face

Crime-Datatet: distribuito da JMP library, SAS

-7 tipi crimini

- in 50 stati USA

- in un anno

Page 18: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Glyphs, per Individui Multidimensionali

Page 19: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Fisher Iris dataset

4 misure (sepal width, sepal length, petal width, petal length) su 50 piante appartenti a 3 specie diverse.

Andrews, D. F., and Herzberg, A.M. (1985). Data. New York: Springer p5-8

Page 20: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Glyphs per strutture

Page 21: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Uomo o Donna? Setosa o Versicolor? Classificazione ed Alberi...

Page 22: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Trees, Klimt ed R Input:

-Tab spaces ASCII file

-Output of partition routine (rpart, cart, etc..)

Output:

-Interactive graphics

-Trees

Page 23: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Interactive Trees

Page 24: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

Interattivitá in dettaglio: basic Instruments

Linking: Variables or Individuals

Querying: Different levels

Selection: Single or Multiple Selection Hot Selection

Scaling: according to specific parameters

Zooming: Zoom or Logical Zoom

Rotating

Sorting: Automatical, ManualIVDM 2003

Page 25: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

Linking:

Variables

Individuals

Page 26: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosudaQuerying:

Different levels

In Manet variables are querable!

Page 27: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

Selection:

Single or Multiple Selection

Point selection

Rectanngle selection

Undo

Logical operation on selected items

Hot Selection

Page 28: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

Scaling:

according to specific parameters

Page 29: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

Zooming:

Zoom or Logical Zoom

Page 30: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

Sorting: Automatical, Manual

Page 31: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Requisiti fondamentali dell´Interattivitá

Buon CHI

Intuitivitá

Velocitá

Software intgration

Page 32: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Diversi concetti di Interattivitá

Page 33: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Tornare sempre ai dati!!

- Deve essere sempre chiaro o “chiaribile” quali dati stanno dietro ai grafici

- La “Linked-Selection” offre diverse viste dei medesimi dati

- I Dati devono essere facili da importare

- Il formato dei dati deve essere il piú semplice possibile

-Bassi livelli di manipolazione agiscono sui dati

- Alti livelli di manipolaziono influenzano solo il display

Page 34: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Quante taglie di dataset conosci?

Tiny ???

Small ???

Large ???

Very Large ???

Huge ???

Page 35: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Definizioni di taglia...

Tiny can be written on a blackboard 102 bytes

Small fits on a few printed pages 104 bytes

Medium fills a floppy disk 106 bytes

Large fills a tape 108 bytes

Huge requires many tapes 1010 bytes

Page 36: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Prerequisiti computazionali

Potente Memoria

Buono sfruttamento della memoria

Buoni algoritmi

Alta qualitá delle immagini

Importabilitá

Page 37: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Prerequisiti Grafici

Visualizzazioni non dipendenti dalla Taglia

Buoni Algoritmi

Buone Implementazioni

Interactivitá

Interfaccia intuitiva e chiara

Analisi oggettive o soggettive???

Page 38: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Large dataset Exploration: The Bank Dataset

Dataset finanziario

ottenuto da una banca tedesca

Dati raccolti per ragioni tecniche senza alcuno scopo speciale

Passati agli analisti per scoprire i fattori che influenzano maggiormente le transazioni

Consiste di piú di 600,000 transactions in 24 variabili (80 Mb ca.)

Page 39: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Amount vs. Profit

Le dimensioni rappresentate sono influenzate dai valori minimi e massimi rilevati

Spesso si tratta di outliers

Page 40: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Amount vs. Profit

Non è effetto di uno Zoom!

L´immagine è stata riparametrizzata

I valori anomali sono stati tagliati

Page 41: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Amount vs. Profit: Cluster?

Non nel senso classico…

Tuttavia speciali relazioni fra i dati sono identificabili e ragionevolmente giustificabili

Page 42: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Informazioni o “Informatione” ???

L´Informazione ottenuta dai dati è molto piú che la semplice giustapposizione di singoli dettagli o la somma di singole informazioni

Page 43: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Una schematica “Classificazione” dei dati

Number of Observations:-A few-Many

Kind of Observations:-Categorical-Continuous

Number of Variables:-One-two-A few-Many-Infinite

Page 44: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Come li rappresentereste?

Number of Observations:-A few-Many

Kind of Observations:-Categorical-Continuous

Number of Variables:-One-two-A few-Many-Infinite

Scatterplot

Trellis Display

Barchart

Mosaic Plot

Parallel Coordinate

Page 45: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

Rosuda: analisi interattiva per ogni tipo di dati

-Soluzioni Interattive differenziate ed Ottimali

-Design Consistente

-Buon CHI

-Gamma di soluzioni tale da consentire una completa EDA

-Ottimizzazione delle risorse informatiche e delle tecniche statistiche

Page 46: Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

rosuda

IVDM 2003

No Conclusion, c´è ancora parecchio da fare!

Commenti? Consigli? Domande?

bibliografia

http://stats.math.uni-augsburg.de