Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.
-
Upload
corrado-donato -
Category
Documents
-
view
214 -
download
0
Transcript of Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.
rosuda
Software e Grafici Interattivi
per il Visual Data Mining
IVDM 2003
rosuda
IVDM 2003
Software Commerciali per il Data Mining
AIM distribuito da AbTechAUTOCLASS distribuito da NASACLEMENZINE distribuito da SPSSDatabase Mining distribuito da HNCDatalogic/R distribuito da Reduct SystInformation Harvesting distribuito da Ryan AssIntelligent Miner distribuito da IBMIXL/IDIS distribuito da IntelligWareKnowledgeSeeker distribuito da FirstMarkTechn NEXTRA distribuito da
Neuron DataPC-MARS distribuito da Data Patterns RECON for Data Mining distribuito da Lockheed
rosuda
IVDM 2003
Software Commerciali per il Data Mining:
CLEMENTINE- SPSS
rosuda
IVDM 2003
Software Commerciali per il Data Mining:
ROSETTA
rosuda
IVDM 2003
Software Commerciali per il Data Mining:
STATISTICAThe most part of statistical software for Data Mining try to give a suitable final graphical representation of applied models
rosuda
IVDM 2003
Software per il Data Mining: considerazioni generali
-Cosa dovrebbero fare?
-Cosa fanno davvero?
-Quali caratteristiche sono le piú rilevanti?
-Come influisce la Visualizzazione sulla ricerca dell´Informazione?
rosuda
IVDM 2003
Il nostro Software per IVDM:The Rosuda`s Impressionistes
rosuda
IVDM 2003
Interactive Visual Data Mining:
Implementazione**Graphics manipulation = Data manipulation**
Interazione condiziona non solo l´aspetto esteriore del display ma la sostanza dei dati!
rosuda
IVDM 2003
Fisher Grains Data Set•Produzione di Grano presso i Campi Broadbalk a Rothamsted
•Fisher (1924)
•La matrice di dati è stata transposta, di modo che ciascun anno corrisponda ad un diverso anno
•18 time series osservate annualmente per un periodo di 76 anni
rosuda
IVDM 2003
PC anche dati temporali
rosuda
IVDM 2003
Interactive Time Series
rosuda
IVDM 2003
…Collegare Tempo e Luogo
rosuda
IVDM 2003
…PC in generale e Mappe
rosuda
IVDM 2003
Maps, selezione e Mondrian
rosuda
IVDM 2003
Cos è una mappa
Dati Geografici possono essere collocati in base alla vera referenza geografica
rosuda
IVDM 2003
Collegare le Mappe agli individui
Da dove viene? Che tipo di criminale é?
The Crime dataset and the Criminal face
rosuda
IVDM 2003
The Crime dataset and the Criminal face
Crime-Datatet: distribuito da JMP library, SAS
-7 tipi crimini
- in 50 stati USA
- in un anno
rosuda
IVDM 2003
Glyphs, per Individui Multidimensionali
rosuda
IVDM 2003
Fisher Iris dataset
4 misure (sepal width, sepal length, petal width, petal length) su 50 piante appartenti a 3 specie diverse.
Andrews, D. F., and Herzberg, A.M. (1985). Data. New York: Springer p5-8
rosuda
IVDM 2003
Glyphs per strutture
rosuda
IVDM 2003
Uomo o Donna? Setosa o Versicolor? Classificazione ed Alberi...
rosuda
IVDM 2003
Trees, Klimt ed R Input:
-Tab spaces ASCII file
-Output of partition routine (rpart, cart, etc..)
Output:
-Interactive graphics
-Trees
rosuda
IVDM 2003
Interactive Trees
rosuda
Interattivitá in dettaglio: basic Instruments
Linking: Variables or Individuals
Querying: Different levels
Selection: Single or Multiple Selection Hot Selection
Scaling: according to specific parameters
Zooming: Zoom or Logical Zoom
Rotating
Sorting: Automatical, ManualIVDM 2003
rosuda
Linking:
Variables
Individuals
rosudaQuerying:
Different levels
In Manet variables are querable!
rosuda
Selection:
Single or Multiple Selection
Point selection
Rectanngle selection
Undo
Logical operation on selected items
Hot Selection
rosuda
Scaling:
according to specific parameters
rosuda
Zooming:
Zoom or Logical Zoom
rosuda
Sorting: Automatical, Manual
rosuda
IVDM 2003
Requisiti fondamentali dell´Interattivitá
Buon CHI
Intuitivitá
Velocitá
Software intgration
rosuda
IVDM 2003
Diversi concetti di Interattivitá
rosuda
IVDM 2003
Tornare sempre ai dati!!
- Deve essere sempre chiaro o “chiaribile” quali dati stanno dietro ai grafici
- La “Linked-Selection” offre diverse viste dei medesimi dati
- I Dati devono essere facili da importare
- Il formato dei dati deve essere il piú semplice possibile
-Bassi livelli di manipolazione agiscono sui dati
- Alti livelli di manipolaziono influenzano solo il display
rosuda
IVDM 2003
Quante taglie di dataset conosci?
Tiny ???
Small ???
Large ???
Very Large ???
Huge ???
rosuda
IVDM 2003
Definizioni di taglia...
Tiny can be written on a blackboard 102 bytes
Small fits on a few printed pages 104 bytes
Medium fills a floppy disk 106 bytes
Large fills a tape 108 bytes
Huge requires many tapes 1010 bytes
rosuda
IVDM 2003
Prerequisiti computazionali
Potente Memoria
Buono sfruttamento della memoria
Buoni algoritmi
Alta qualitá delle immagini
Importabilitá
rosuda
IVDM 2003
Prerequisiti Grafici
Visualizzazioni non dipendenti dalla Taglia
Buoni Algoritmi
Buone Implementazioni
Interactivitá
Interfaccia intuitiva e chiara
Analisi oggettive o soggettive???
rosuda
IVDM 2003
Large dataset Exploration: The Bank Dataset
Dataset finanziario
ottenuto da una banca tedesca
Dati raccolti per ragioni tecniche senza alcuno scopo speciale
Passati agli analisti per scoprire i fattori che influenzano maggiormente le transazioni
Consiste di piú di 600,000 transactions in 24 variabili (80 Mb ca.)
rosuda
IVDM 2003
Amount vs. Profit
Le dimensioni rappresentate sono influenzate dai valori minimi e massimi rilevati
Spesso si tratta di outliers
rosuda
IVDM 2003
Amount vs. Profit
Non è effetto di uno Zoom!
L´immagine è stata riparametrizzata
I valori anomali sono stati tagliati
rosuda
IVDM 2003
Amount vs. Profit: Cluster?
Non nel senso classico…
Tuttavia speciali relazioni fra i dati sono identificabili e ragionevolmente giustificabili
rosuda
IVDM 2003
Informazioni o “Informatione” ???
L´Informazione ottenuta dai dati è molto piú che la semplice giustapposizione di singoli dettagli o la somma di singole informazioni
rosuda
IVDM 2003
Una schematica “Classificazione” dei dati
Number of Observations:-A few-Many
Kind of Observations:-Categorical-Continuous
Number of Variables:-One-two-A few-Many-Infinite
rosuda
IVDM 2003
Come li rappresentereste?
Number of Observations:-A few-Many
Kind of Observations:-Categorical-Continuous
Number of Variables:-One-two-A few-Many-Infinite
Scatterplot
Trellis Display
Barchart
Mosaic Plot
Parallel Coordinate
rosuda
IVDM 2003
Rosuda: analisi interattiva per ogni tipo di dati
-Soluzioni Interattive differenziate ed Ottimali
-Design Consistente
-Buon CHI
-Gamma di soluzioni tale da consentire una completa EDA
-Ottimizzazione delle risorse informatiche e delle tecniche statistiche
rosuda
IVDM 2003
No Conclusion, c´è ancora parecchio da fare!
Commenti? Consigli? Domande?
bibliografia
http://stats.math.uni-augsburg.de