Sistemi di Elaborazione dell’Informazione: Complementi di ...
Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.
-
Upload
edda-battaglia -
Category
Documents
-
view
217 -
download
2
Transcript of Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.
rosuda
Interactive Visual Data Mining e la Ricerca
dell’Informazione Nascosta
IVDM 2003
rosuda ROSUDA:
IVDM 2003
Lehrtstuhl für Rechnerorientierte Statistik und Datenanalyse
Dipartimento di Statistica Computazionale ed Analisi dei Dati
rosuda IVDM by ROSUDA: Outline
IVDM 2003
I PARTE
Partiamo dai dati
Il Data Mining
I Grafici
Visualizzazione
Interattivitá
IVDM
MosaicPlot & MANET
ParallelCoordinates & CASSATT
II PARTE
Software per il DM
Software per l´ IVDM
Grafici Interattivi by Rosuda
Map & MONDRIAN
Glyphs&…
Trees & KLIMT
Interattivitá nello specifico
Torniamo ai dati
Information & “Informations”
IntGraphics per “tutti”
La ricerca Rosuda
Discussione
rosuda
IVDM 2003
What´s Data Mining?
Secondary analysis of (often large) observational data sets to
find unsuspected relationships and to summarize the data in a
novel ways that are both understandable and useful to the
data owner
(D.Hand)
rosuda
IVDM 2003
Cominciamo dai Dati: La Veritá dei DatiVeritá EvidenteDati nudi e crudi
Veritá Latente es. evoluzione del Info da estrarre fenomeno nel tempo
rosuda
IVDM 2003
Un case-study in generale
Punti da chiarire:
Un pò di storiaDa dove nasce l`esigenza di analizzare i dati…
Tipo di DatiDescrizione dei dati e delle variabilie
FonteRagione e tempi di raccolta dei dati
rosuda
IVDM 2003
Un Viaggio fra i dati…e l album di viaggio:
Di tappa in tappa si decide una nuova direzione
Chi Cosa, Dove e Quando
rosuda
IVDM 2003
Analisi parziale e nuovi obiettiviEvoluzione della conoscenza in merito al fenomeno
analizzato mano a mano che l’ analisi procede
Incidenza singoli fattori
Reintegrazione dell`Informazione estratta
Ripianificazione dell`analisi
Lettura e rilettura dei dati alla luce della nuova conoscenza
Rileggere il passato
Pianificare il cambiamento
informazione
rosuda
IVDM 2003
Obiettivi del Data Mining
- Analisi di dati raccolti per altre ragioni
- I migliori risultati non sono necessariamente quelli di maggiore interesse
- É comune trovare dati di Cattiva Qualitá -
- Interpretazione difficile
- Generalizzazione difficile
rosuda
IVDM 2003
Data Mining. L´Approccio (a)
Informatica Ricerca Automatica di Informazione Interessante
METODI VELOCI ED EFFICIENTI PER EDA
rosuda
IVDM 2003
Statistica Ricerca di risultati di qualunque interesse
DEFINIZIONE DI INTERESSE E POTENZIALITÁ DEI METODI STATISTICI
PER L´ANALISI DEI DATI
Data Mining. L´Approccio (b)
rosuda
IVDM 2003
Cosa sono i grafici?
* Oggetti che rappresentano sinteticamente i dati
* Valutabili con gli occhi….
FirstClass 325Secondclass 285ThirdClass 706Crew 885Adult 2092Child 109Male 1731Female 470Survived 711Not Survived 1490
rosuda
IVDM 2003
Class Age Sex Survived NrFirst Adult Male Yes 57First Adult Male No 118First Adult Female Yes 140First Adult Female No 4First Child Male Yes 5First Child Male No 0First Child Female Yes 1First Child Female No 0Second Adult Male Yes 14Second Adult Male No 154Second Adult Female Yes 80Second Adult Female No 13Second Child Male Yes 11Second Child Male No 0Second Child Female Yes 13Second Child Female No 0Third Adult Male Yes 75Third Adult Male No 387Third Adult Female Yes 76Third Adult Female No 89Third Child Male Yes 13Third Child Male No 35Third Child Female Yes 14Third Child Female No 17Crew Adult Male Yes 192Crew Adult Male No 670Crew Adult Female Yes 20Crew Adult Female No 3Crew Child Male Yes 0Crew Child Male No 0Crew Child Female Yes 0Crew Child Female No 0
Cosa sono i grafici?
rosuda
IVDM 2003
Cos è la Visualizzazione?- Non supportata da un´unica teoria
formale
- Collezione di utili strumenti per :
* condurre analisi
* verificare la qualitá dei dati
* identificare patterns
* suggerire strutture
- principale oggetto della rappresentazione sono i Grafici
rosuda
IVDM 2003
Becker et al. direct manipulation and instantaneous change
Unwin direct manipulation of plots and plotting elements in them
immediacy of place immediacy of action
Cos è l´ Interattività?
rosuda
IVDM 2003
Visual Interactive Data Mining
Collezione di strumenti GRAFICI per
* condurre analisi * verificare la qualitá dei dati
* identificare patterns * suggerire strutture
Con data sets anche molto grandi attraverso
diretta manipolazione delle rappresentazioni grafiche
collocazione estemporanea di nuovi elementi
rosuda
IVDM 2003
Interactive Visual Data Mining:
ImplementazioneGli oggetti grafici sono
direttamente collegati ai dati tramite ID
NON solo OUTPUT statici
**Graphics manipulation = Data manipulation**
rosuda
IVDM 2003
Interactive Visual Data Mining:
FeaturesTheus`s List:
Highlighting
Linking
Querying
Warnings
……..???
rosuda
IVDM 2003
Interactive Visual Data Mining:
IssuesInformation Extraction
Information Reintegration
attraverso
Graphical Data Representation
e
Data Manipulation
rosuda
IVDM 2003
Interactive Visual Data Mining:
dai dati agli Scatterplot...
rosuda
IVDM 2003
…dentro gli Scatterplot
rosuda
IVDM 2003
Bank Dataset
data set, ottenuto da una Banca Tedesca, per identificare i pricipali fattori condizionanti le transazioni
Dati raccolti per ragioni tecniche
ca. 600,000 transazioni in 24 variabili
rosuda
IVDM 2003
…agli Scatterplot indietro ai dati...
Si cominciano avedere dei gruppi
Questi Gruppi non sono individuabili da normali procedure di Clustering
rosuda
..poi la Regressione...
rosuda
IVDM 2003
…Istogrammi
rosuda
IVDM 2003
Titanic Datasetwww.amstat.org/publications/jse/v3n3/datasets.dawson.html
descritto nell´articolo:The "Unusual Episode" Data RevisitedRobert J. MacG. DawsonSaint Mary's UniversityJournal of Statistics Education v.3, n.3 (1995)
2201 casi and 4 variabili: Class, Sex, Age (Giovani o Anziani) e Survival.
rosuda
IVDM 2003
Barchart per dati Categorici....
Ogni oggetto deve poter essere interrogato
In questo caso la query riguarda la sola selezione
rosuda
IVDM 2003
Ogni pixel informativo deve essere visibile!
Sottolineature in rosso indicano effettiva presenza di (pochi) casi
Dalla query possiamo evincere la presenza di 6 bimbi in prima classe
rosuda
IVDM 2003
…per esplorare l´Associazione...
--C´è associazione fra suvival e (age, sex, class)?
--Chi avevauna probabilitá maggiore di sopravvivere?
Non indipendenti
Indipendenti
rosuda
IVDM 2003
...Mosaic Plot e Manet
rosuda
IVDM 2003
Cos è un MosaicPlot?
Funzione applicata a tavole di contingenza ad entrata multipla, che producono output graficiClass Age Sex Survived NrFirst Adult Male Yes 57First Adult Male No 118First Adult Female Yes 140First Adult Female No 4First Child Male Yes 5First Child Male No 0First Child Female Yes 1First Child Female No 0Second Adult Male Yes 14Second Adult Male No 154Second Adult Female Yes 80Second Adult Female No 13Second Child Male Yes 11Second Child Male No 0Second Child Female Yes 13Second Child Female No 0Third Adult Male Yes 75Third Adult Male No 387Third Adult Female Yes 76Third Adult Female No 89Third Child Male Yes 13Third Child Male No 35Third Child Female Yes 14Third Child Female No 17Crew Adult Male Yes 192Crew Adult Male No 670Crew Adult Female Yes 20Crew Adult Female No 3Crew Child Male Yes 0Crew Child Male No 0Crew Child Female Yes 0Crew Child Female No 0
f
rosuda
IVDM 2003
Costruire un MosaicPlotClass1st 2nd 3rd Crew
Sex f 145 106 196 23m 180 179 510 862
K=0 K=1P1 P4P1 P2 P3
P11 P21
P31
P41
P12 P22 P32 P42
K=2
rosuda
IVDM 2003
Interpretare un MosaicPlot:
Not indep
Independent
Interactive feature:
Highlighting
Editing structure (re-ordering, grouping, splitting)
Linking
Rotation
Querying
Reparametrisation
Zoom
rosuda
IVDM 2003
Mosaic Plot e 2
Che succede???
rosuda
IVDM 2003
Mosaic plot, 2 e Survival... La significativitá dell´Ipotesi di non indipendenza è evidente
Tuttavia, 2 = 671,96 suggerirebbe di rifiutare l´ipotesi di non Independenza
rosuda
IVDM 2003
Cosa vediamo da rappresentazioni diverse
rosuda
IVDM 2003
Missing Are Now Equally Treated
rosuda
IVDM 2003
E se il numero di variabili cresce?
rosuda
IVDM 2003
Soluzione “voluminosa” ed inefficiente
rosuda
IVDM 2003
Pensa in Parallelo!
rosuda
IVDM 2003
Parallel coordinates per…
Correlazione
N-dimensional clusters
outliers
Pensa in Parallelo!
rosuda
IVDM 2003
Parallel Coordinates e Cassatt
Dualismo punto-linea
rosuda
IVDM 2003
Stressing Parallel Coordinates
Si possono analizzare fino a qualche centinaio di variabili!
rosuda
IVDM 2003
Riassumendo…..
I dati sono “problematici”
I dati nascondono iformazione
Non esiste il miglior metodo in Assoluto
Visualizzazione ed Interattivitá sono strumenti innovativi, di grande utilitá ed interesse scientifico
rosuda
IVDM 2003
Come li rappresentereste?
Number of Observations:-A few-Many
Kind of Observations:-Categorical-Continuous
Number of Variables:-One-two-A few-Many-Infinite
Scatterplot
Trellis Display
Barchart
Mosaic Plot
Parallel Coordinate
rosuda
IVDM 2003
Rosuda: analisi interattiva per ogni tipo di dati
-Soluzioni Interattive differenziate ed Ottimali
-Design Consistente
-Buon CHI
-Gamma di soluzioni tale da consentire una completa EDA
-Ottimizzazione delle risorse informatiche e delle tecniche statistiche
rosuda
IVDM 2003
No Conclusion, c´è ancora parecchio da fare!
Commenti? Consigli? Domande?
bibliografia:
http://stats.math.uni-augsburg.de