Classification ~ Mixture Modeling - INAFbrescia/documents/ASTROINFOEDU/brescia_L2-DM-AI... ·...

60
Classification ~ Mixture Modeling M. Brescia - Data Mining - lezione 2 1 A lot of DM involves automated classification or mixture modeling – How many kinds of data objects are there in my data set? – Which object belongs to which class with what probability? Different classes often follow different correlations – Or, correlations may define the classes which follow them • Classes/clusters are defined by their probability density distributions in a parameter space

Transcript of Classification ~ Mixture Modeling - INAFbrescia/documents/ASTROINFOEDU/brescia_L2-DM-AI... ·...

Classification ~ Mixture Modeling

M. Brescia - Data Mining - lezione 2 1

A lot of DM involves automated classification or mixture modeling – How many kinds of data objects are there in my data set? – Which object belongs to which class with what probability? • Different classes often follow different correlations – Or, correlations may define the classes which follow them • Classes/clusters are defined by their probability density distributions in a parameter space

Clustering: Definition

M. Brescia - Data Mining - lezione 2 2

Given a set of data points, each having a set of attributes, and a similarity measure among them, find clusters such that

Data points in one cluster are more similar to one another. Data points in separate clusters are less similar to one another.

Similarity Measures: Euclidean Distance if attributes are continuous. Other problem-specific Measures.

Clustering: Definition

M. Brescia - Data Mining - lezione 2 3

Suddivisione di un insieme di elementi, (rappresentati in forma varia all’interno di uno spazio di parametri), in clusters significa identificare dei sottogruppi accomunati da determinate caratteristiche (parametri).

Gli algoritmi che associano elementi a vari clusters possono essere probabilistici o deterministici. Nel primo caso, per ogni elemento vi è associata una probabilità o grado di appartenenza ad uno o più clusters. In questo tipo di associazione, generalmente, la somma delle probabilità associate ad un elemento è pari ad 1, ma non è sempre questo il caso. Altri algoritmi sono in grado di generare una struttura gerarchica di clusters (struttura ad albero), in cui sulla sommità della struttura lo spazio dei parametri viene suddivisa in un numero limitato di clusters, ciascuno dei quali a sua volta viene suddiviso in vari sub-clusters, proseguendo tale suddivisione fino al livello base con granularità massima

Un qualunque metodo di clustering consiste in una fase in cui si applica una regola o insieme di regole che associano (raggruppano) i vari elementi tra loro. In questo senso, il clustering può divenire una fase intermedia di un processo complesso di “esplorazione” di uno spazio di parametri, piuttosto che il suo fine ultimo (esempio tipico: un processo di “classificazione”)

Gaussian Mixture Modeling

M. Brescia - Data Mining - lezione 2 4

Data points are distributed in some N-dimensional parameter space, xj , j = 1, … N

There are k clusters, wi , i = 1, …, k, where the number of clusters, k, may be either given by the scientist, or derived from the data themselves

Each cluster can be modeled as an N-variate Gaussian with mean μi and covariance matrix Si

Each data point has an association probability of belonging to each of the clusters, Pi

An Example

M. Brescia - Data Mining - lezione 2 5

Original GMM result

Model density distribution

A Popular Technique: K-Means

M. Brescia - Data Mining - lezione 2 6

Start with k random cluster centers Assume a data model (e.g., Gaussian) – In principle, it can be some other type of a distribution Iterate until it converges Repeat for a different k if needed Determine the optimal k : – Monte-Carlo Cross-Validation – Bayesian Information Criterion (BIC)

Some Problems in Clustering Analysis

M. Brescia - Data Mining - lezione 2 7

Data heterogeneity, biases, selection effects … Non-Gaussianity of clusters (data models) Missing data, upper and lower limits Non-Gaussian (or non-Poissonian) noise Non-trivial topology of clustering Useful vs. “useless” parameters …

Outlier population, or a non-Gaussian tail?

Useful vs. “Useless” Parameters

M. Brescia - Data Mining - lezione 2 8

Clusters (classes) and correlations may exist/separate in some parameter subspaces, but not in others

Clustering and Classification

M. Brescia - Data Mining - lezione 2 9

Answering the questions like: – How many statistically distinct kinds of things are there in my data, and which data object belongs to which class? – Are there anomalies/outliers? (e.g., extremely rare classes) – I know the classes present in the data, but would like to classify efficiently all of my data objects • Clustering can be: 1. Supervised: a known set of data objects (“ground truth”) can be used to train and test a classifier – Examples: Artificial Neural Nets (ANN), Decision Trees (DT) 2. Unsupervised: the class membership (and the number of classes) is not known a priori; the program should find them – Examples: Kohonen Nets (SOM), Expectation Maximization (EM), various Bayesian methods…

searches for rare or new types of objects

M. Brescia - Data Mining - lezione 2 10

Now consider ~ 109 data vectors in ~ 102 - 103 dimensions …

Association: Definition

M. Brescia - Data Mining - lezione 2 11

Given a set of records each of which contain some number of items from a given collection;

Produce dependency rules which will predict occurrence of an item based on occurrences of other items.

Sequential Pattern Discovery

Given is a set of objects, with each object associated with its own timeline of events, find rules that predict strong sequential dependencies among different events:

Regression: Definition

M. Brescia - Data Mining - lezione 2 12

Predict a value of a given continuous valued variable based on the values of other variables, assuming a linear or nonlinear model of dependency.

Greatly studied in statistics, neural network fields.

Examples: Predicting sales amounts of new product based on expenditure.

Predicting wind speed as a function of temp., humidity, air pressure, etc.

Time series prediction of stock market indices.

Ricerca supervisionata di un’associazione da un dominio Rn ad uno Rm, con n>m

distinguiamo 2 tipi: curve fitting e function approximation. La prima tenta di validare un’ipotesi che la distribuzione dei dati segua una certa funzione; la seconda tenta di trovare una funzione che correli i dati senza alcuna assunzione a priori circa la forma funzionale della distribuzione dei dati;

•Curve fitting: date le coppie di vettori (x, y) e la forma funzionale che si vuole associare, il sistema trova i migliori parametri che identificano l’associazione ipotizzata; •Function approximation: date le coppie di vettori (x, y), il sistema trova il modello che meglio identifica la correlazione tra i dati (ad esempio una “black box” neurale che approssima una funzione analitica);

Data Mining and Induction Principle

M. Brescia - Data Mining - lezione 2 13

Induction vs Deduction

Deductive reasoning is truth-preserving:

1. All horses are mammals

2. All mammals have lungs

3. Therefore, all horses have lungs

Induction reasoning adds information:

1. All horses observed so far have lungs.

2. Therefore, all horses have lungs.

1. All horses are animals 2. All animals have lungs 3. Therefore, all horses have

lungs

Wrong deduction (the 2nd hypothesis is wrong)

Hypothesis-Based vs. Exploratory-Based

M. Brescia - Data Mining - lezione 2 14

The hypothesis-based method: Formulate a hypothesis of interest.

Design an experiment that will yield data to test this hypothesis.

Accept or reject hypothesis depending on the outcome.

Exploratory-based method: Try to make sense of a bunch of data without an a priori hypothesis! The only prevention against false results is significance:

ensure statistical significance (using train and test etc.) ensure domain significance (i.e., make sure that the results make sense to a domain expert)

Experimental Scientist: Assign level of fertilizer randomly to plot of land. Control for: quality of ground, amount of sunlight,... Compare mean yield of fertilized and unfertilized plots

Data Miner: Notices that the yield is somewhat higher under trees where birds roost. Conclusion: droppings increase yield. Alternative conclusion: moderate amount of shade increases yield. (“Identification Problem”)

Core methods and their scaling

M. Brescia - Data Mining - lezione 2 15

In modern data sets: DD >> 1, DS >> 1 Data Complexity Multidimensionality Discoveries But the bad news is …

The computational cost of clustering analysis: K-means: K × N × I × D Expectation Maximization: K × N × I × D2

Monte Carlo Cross-Validation: M × Kmax2 × N × I × D2

Some dimensionality reduction methods do exist (e.g., PCA, class prototypes, hierarchical methods, etc.), but more work is needed

Terascale (Petascale?) computing and/or better algorithms

N = no. of data vectors, D = no. of data dimensions K = no. of clusters chosen, Kmax = max no. of clusters tried I = no. of iterations, M = no. of Monte Carlo trials/partitions

Core methods and their scaling

M. Brescia - Data Mining - lezione 2 16

Querying: nearest-neighbor O(N), spherical range-search O(N), orthogonal range-search O(N) Density estimation: kernel density estimation O(N2), mixture of Gaussians O(N) Regression: linear regression O(D3), kernel regression O(N2), Gaussian process regression O(N3) Classification: nearest-neighbor classifier O(N2), nonparametric Bayes classifier O(N2), support vector machine O(N3D) Dimension reduction: principal component analysis O(D3), non-negative matrix factorization, kernel PCA O(N3), maximum variance unfolding O(N3) Outlier detection: by robust L2 estimation, by density estimation, by dimension reduction Clustering: k-means O(N), hierarchical clustering O(N3), by dimension reduction Time series analysis: Kalman filter O(D3), hidden Markov model, trajectory tracking 2-sample testing: n-point correlation O(Nn) Cross-match: bipartite matching O(N3)

Artificial Neural Nets (ANN)

M. Brescia - Data Mining - lezione 2 17

Input: various image shape parameters

Output: star, p(s) galaxy, p(g) Other, p(o)

Decision Trees (DTs)

M. Brescia - Data Mining - lezione 2 18

Unsupervised Classifiers

M. Brescia - Data Mining - lezione 2 19

Star Star+fuzz Gal1 (E?) Gal2 (Sp?)

No training data set - the program decides on the number of classes present in the data, and partitions the data set accordingly

Combined methods

M. Brescia - Data Mining - lezione 2 20

How to Incorporate external Knowledge?

M. Brescia - Data Mining - lezione 2 21

Still an open problem in the machine learning • In principle, it should lead to an improved classification • The problem occurs both in a “single pass” classification, and in combining of multiple passes • In machine learning approaches, must somehow convert the external or a priori knowledge into classifier inputs - but the nature of this information is qualitatively different from the usual input (individual measurement vectors)

Two Approaches Using ANN:

1. Include the external knowledge among the input parameters Object dependent Dataset dependent 2. A two-step classification:

Image Parameters {p1, …, pn}

External parameters coordinates, seeing, etc.

Image Parameters {p1, …, pn}

External parameters

Combining Multiple Classifications

M. Brescia - Data Mining - lezione 2 22

Metaclassifier, or a committee of machines with a chairman?

Combining functionalities

M. Brescia - Data Mining - lezione 2 23

Example of combined data mining

M. Brescia - Data Mining - lezione 2 24

Sistema SW in grado di rivelare la presenza di eventi di fumo (potenziale incendio) da video ricavati da telecamere ottiche fisse generiche in open space. Inoltre l’obiettivo comprende anche lo sviluppo e la verifica di un primo prototipo SW di rivelazione di fumo.

Modulare: composto da moduli SW indipendenti, ciascuno in grado autonomamente di effettuare una detection nell’ottico di eventi di fumo con un certo grado di confidenza, sfruttando specifiche e circoscritte peculiarità in open space; Incrementale: facilmente espandibile, mediante successive integrazioni di ulteriori moduli di detection che permettano di ottimizzarne le prestazioni. Particolare attenzione è quindi rivolta, in fase di progettazione SW, allo standard di interfaccia I/O per i vari moduli; Basato su uno schema “gated expert”: i moduli singoli di analisi forniscono in output un valore reale di confidenza (peso) rispetto al proprio esito di detection. Si prevede di combinare insieme i vari output dei moduli in un modulo finale di tipo supervisionato. Dal confronto di volta in volta tra output del sistema e valutazione dell’oracolo, il modulo finale è in grado di apprendere (training incrementale) dai propri errori (falsi positivi e/o falsi negativi), guadagnando in affidabilità e prestazione, fino ad acquisire l’autonomia decisionale (capacità di generalizzazione); Parametrizzato: il programma del prototipo è dotato di file esterni di configurazione, onde permettere a runtime di modificare ed adattare i parametri; Compatibile: sistema autonomo, ma potenzialmente in grado di essere opportunamente adattato alle esigenze di interfacciamento con altri sistemi SW di detection da camere ottiche;

Example of combined data mining

M. Brescia - Data Mining - lezione 2 25

GRD (Grayed Regions Detection): modulo che sfrutta informazioni sulla deviazione standard in RGB dei campioni video nel tempo; CBS (Chromaticity-based Background Subtraction): modulo per il confronto tra i valori di crominanza del frame video corrente e quello del modello di background. L’algoritmo CBS è utile sia per estrarre immagini di background di riferimento, da utilizzare in altri successivi moduli di detection, sia per l’operazione di background subtraction; SMRD (Slow Moving Regions Detection): modulo di background subtraction con estrazione delle regioni dinamiche. Si basa sul confronto tra immagini di background, corrispondenti alla scena rilevata con diversa (parametrizzata) frequenza di updating; SDR (Shadow Detection and Removal): modulo per identificare e rimuovere le zone d’ombra dinamiche proiettate nelle immagini da falsi eventi di fumo. Ad esempio passaggio di nuvole o banchi di nebbia compatti; SCRD (Smoke Colored Regions Detection): modulo per identificare in YUV le cosiddette regioni smoke-colored, in parte sfruttando la conoscenza delle regioni dinamiche estratte da altri moduli esterni;

Example of combined data mining

M. Brescia - Data Mining - lezione 2 26

Il modulo Moving Regions cross-check and validation fa il check fra output dei 2 moduli CBS e SMRD, per fornire le regioni corrette ai moduli successivi. L’output di ciascun modulo viene fornito al modulo CA (Compound Algorithm), che implementa il training adattivo, effettuando la combinazione pesata delle decisioni di tutti i moduli, in base al responso target dell’oracolo. Il modulo sfrutta il paradigma del machine learning e si basa sulla combinazione delle valutazioni dei singoli moduli di detection. La sua evoluzione è garantita da un training supervisionato mediante confronto (MSE) tra l’output dei vari moduli e quello corretto. L’identificazione di falsi positivi o negativi ottenuta da questo confronto viene utilizzata per adattare, tramite legge matematica, i pesi associati alle varie decisioni dei singoli moduli di detection, innescando un meccanismo virtuoso di trial-and-error guidato.

Example of combined data mining

M. Brescia - Data Mining - lezione 2 27

COLORE COMBUSTIBILE

bianco Fosforo, Paglia

Giallo/marrone Nitrocellulosa, Polvere da sparo, Acido nitrico,

Zolfo, Acido solforico

grigio /bianco residui vegetali secchi

marrone rossiccio cespugli o zone boscate

Grigio/marrone Carta, Legno, Stoffa

Marrone Olio da cucina

Marrone/nero Nafta, Diluente per vernici

Nero Benzina, Carbone, Catrame, Plastica, Cherosene,

Olio lubrificante

Viola Iodio

COLORE GRIGIO Il grigio su una scala RGB varia da un GRIGIO 5% (valore esadecimale = F7F7F7) R = 247 G=247 B =247 fino a GRIGIO 80% (valore esadecimale = 2F2F2F) R= 47 B=47 G=47 Inferiore a 5% viene considerato bianco (255 255 255 come valore massimo) e superiore ad 80% nero( 0 0 0 come massimo) In qualsiasi caso la tonalità di grigio ha un valore uguale per tutti e 3 i valori RGB COLORE MARRONE I colori marrone conosciuti sono MARRONE CHIARO(BF4200) MARRONE SCURO (824200) MARRONE AVANA (424200) La variazione sarebbe tecnicamente solo sulla scala di rosso ( BF , 82 , 42 )

ANALISI DEI COLORI

Example of combined data mining

M. Brescia - Data Mining - lezione 2 28

TIPO COMBUSTIBILE QUANTITA’ DI FUMO

Incendio radente a lettiera foglie secche, strobili,

frammenti di corteccia, rametti

morti

Fumo scarso

Incendio radente di strato

erbaceo

strato erbaceo secco senza

interessamento dei fusti di

eventuali piante presenti.

più alto è il livello di umidità

dello strato erbaceo, tanto

più bianco risulterà il colore

del fumo generato

Incendio radente di strato

arbustivo

Arbusti fumosità non è in genere

molto elevata.

Incendio a chioma passivo Alcune chiome degli alberi, fumo denso e alto

Incendio a chioma attivo Fronte unico delle chiome degli

alberi

Fumo denso e alto

Incendio a chioma

indipendente

Fronte delle fiamme

indipendente sulle chiome

Fumo denso e alto

Incendio a barriera Unione di incendio a chioma e

radente

Fumo denso ed alto

Incendio sotterraneo

superficiale

orizzonti organici: materia

organica in via di decomposizione

(foglie e radici morte, escrementi,

ecc...)

Si evidenziano zone nere più

o meno circolari che

emettono scarso fumo

bianco

Incendio sotterraneo

profondo

gli apparati radicali o gli strati di

torba

non si nota alcuna emissione

di fumo

l’incendio di ceppaia (evolve

in radente o sotterraneo)

Ceppi di castagno, ceppi di oliveti Fumo scarso

Densità e assorbanza del fumo Fumo vs Nebbia Variabilità indotta da condizioni meteo Tipologie di incendio fumo

Example of combined data mining

M. Brescia - Data Mining - lezione 2 29

GRD - Grayed Region Detection

Definiamo grigio un oggetto che nelle tre bande RGB ha valori uguali. 0 0 0 corrisponderà quindi al nero mentre 255 255 255 al bianco, esistono quindi 256 tipi di grigio e sono tutti generabili da un incendio boschivo. Definiamo una zona “ingrigita” quando i suoi pixel risultano più grigi (scarto quadratico medio più piccolo) la definiamo “degrigita” quando i suoi pixel risultano meno grigi (scarto quadratico medio più grande)

nel caso di fumo in una prima fase il fumo semi-trasparente si posiziona a ridosso del background rendendolo più grigio e in una seconda fase (fumo denso) copre completamente lo stesso. Nel secondo caso, i pixel che vanno a coprire la zona del fumo saranno dei grigi (con buona approssimazione) mentre nel primo caso, invece, l'immagine di sfondo sarà percepita come ingrigita, questo si traduce matematicamente in una riduzione dello scarto quadratico medio dei 3 canali che in buona sostanza cercano di appiattirsi su un solo valore, riducendo le differenze.

Example of combined data mining

M. Brescia - Data Mining - lezione 2 30

GRD - Grayed Region Detection

1. Per il primo frame calcola scarto quadratico medio di ogni riquadro e dell'intero frame; 2. Sposta i valori di scarto quadratico medio di ogni riquadro e dell'intero frame nelle variabili

relative al frame precedente; 3. Per il frame attuale calcola scarto quadratico medio di ogni riquadro e dell'intero frame; 4. Confronta i valori dei riquadri interni con quelli analoghi del frame precedente; 5. Se si manifesta un ingrigimento sopra soglia controlla:

1. Il comportamento dei riquadri vicini; 2. Il comportamento globale;

6. Se tutto è compatibile con i criteri sopra esposti segnala il riquadro come riquadro “affumicato”;

7. Ritorna al punto 2.

Example of combined data mining

M. Brescia - Data Mining - lezione 2 31

Il prototipo SW basato sul modulo GRD è stato verificato, in termini di capacità di detection di eventi di fumo con telecamera fissa, utilizzando campioni video generici individuati sul web. In tutti i casi risulta perfettamente funzionante. In generale, dato un video a telecamera fissa, è possibile configurare il modulo affinché riconosca correttamente le zone di fumo rendendolo customizzabile in base alle caratteristiche della zona monitorata (es. distanza del campo di vista della telecamera, zone di transito, etc…).

DM: Confluence of Multiple Disciplines

M. Brescia - Data Mining - lezione 2 32

Data Mining

Database Technology

Statistics

Other Disciplines

X-Informatics

Information Science

Machine Learning

Visualization

Data Mining and Data Warehousing

M. Brescia - Data Mining - lezione 2 33

RECALL: Data Warehouse: a centralized data repository which can be queried for business benefit. Data Warehousing makes it possible to extract archived operational data

overcome inconsistencies between different legacy data formats integrate data throughout an enterprise, regardless of location, format, or communication requirements incorporate additional or expert information

OLAP (On-line Analytical Processing) vs OLTP (On-line Transactional Processing) Multi-Dimensional Data Model (Data Cube) DW with intelligent data marts, based on metadata engineering, to enhance interoperability among different data centers

From OLAP to OLAM

M. Brescia - Data Mining - lezione 2 34

Data

Warehouse

Meta Data

MDDB

OLAM

Engine

OLAP

Engine

User GUI API

Data Cube API

Database API

Data cleaning

Data integration

Layer3

OLAP/OLAM

Layer2

MDDB

Layer1

Data

Repository

Layer4

User Interface

Filtering & Integration Filtering

Databases

Mining query Mining result

DBMS, OLAP, and Data Mining

M. Brescia - Data Mining - lezione 2 35

DBMS OLAP Data Mining

Task Extraction of detailed

and summary data

Summaries, trends and

forecasts

Knowledge discovery

of hidden patterns

and insights

Type of result Information Analysis Insight and Prediction

Method

Deduction (Ask the

question, verify

with data)

Multidimensional data

modeling,

Aggregation,

Statistics

Induction (Build the

model, apply it to

new data, get the

result)

Example question

Who purchased

mutual funds in

the last 3 years?

What is the average

income of mutual

fund buyers by

region by year?

Who will buy a

mutual fund in the

next 6 months and

why?

Example – weather data

M. Brescia - Data Mining - lezione 2 36

Day outlook temperature humidity windy play

1 sunny 85 85 false no

2 sunny 80 90 true no

3 cloudy 83 86 false yes

4 rainy 70 96 false yes

5 rainy 68 80 false yes

6 rainy 65 70 true no

7 cloudy 64 65 true yes

8 sunny 72 95 false no

9 sunny 69 70 false yes

10 rainy 75 80 false yes

11 sunny 75 70 true yes

12 cloudy 72 90 true yes

13 cloudy 81 75 false yes

14 rainy 71 91 true no

DBMS:

Example – weather data

M. Brescia - Data Mining - lezione 2 37

By querying a DBMS containing the above table we may answer questions like:

What was the temperature in the sunny days? {85, 80, 72, 69, 75}

Which days the humidity was less than 75? {6, 7, 9, 11}

Which days the temperature was greater than 70? {1, 2, 3, 8, 10, 11, 12, 13, 14}

Which days the temperature was greater than 70 and the humidity was less than 75? The intersection of the above two: {11}

OLAP: Using OLAP we can create a Multidimensional Model of our data (Data Cube).

For example using the dimensions: time, outlook and play we can create the following model.

sunny rainy cloudy

Week 1 0 / 2 2 / 1 2 / 0

Week 2 2 / 1 1 / 1 2 / 0

Example – weather data

M. Brescia - Data Mining - lezione 2 38

Data Mining:

we can produce the following decision tree:

outlook = sunny humidity = high: no

humidity = normal: yes

outlook = cloudy: yes

outlook = rainy windy = true: no

windy = false: yes

outlook

YES

sunny cloudy rainy

humidity

high

windy

normal false true

NO NO

Artificial Intelligence

M. Brescia - Data Mining - lezione 2 39

Identificazione ed emulazione dei processi mentali

Creare macchine che simulino il comportamento e le funzionalità della mente

Primo approccio

Esplicare i processi mentali paragonando la mente ad una macchina

Secondo approccio

AI – the two approaches

M. Brescia - Data Mining - lezione 2 40

C e r vel lo

M en te

A n a l is i e d

e s tr a p o la zio n e

d e l le

c a r a tte r is tic h e

b io lo g ic h e

fu n zio n a li

A n a l is i e d

e s tr a p o la zio n e d e i

m e c c a n is m i

e la b o r a tiv i e d i

p e n s ie r o

p rim o ap p ro ccio

p r oce s s o d i

e m u laz ion e

m ac c h in a

p e n s an te

seco n d o ap p ro ccio

M ac c h in a

A n a l is i e d

e s tr a p o la zio n e d e i

m e c c a n is m i d i

fu n zio n a m e n to

C e r vel lo +

M en te

A n a l is i e d

e s tr a p o la zio n e d e i

m e c c a n is m i

fu n zio n a li e d

e la b o r a tiv i

s in te s ip r oce s s o

c ogn i ti vo

Soft Computing

M. Brescia - Data Mining - lezione 2 41

Cibernetica Teoria dell’informazione

È la mente che deve indirizzare e suggerire la

creazione di macchine capaci di emulare

i suoi processi

Robotica Intelligenza Artificiale

Soft Computing

The Neurons

M. Brescia - Data Mining - lezione 2 42

NEURONE

potenziale di -70 millivolt

In un cervello umano vi sono

100 miliardi di neuroni Ciascuna e’ in contatto con circa

100.000 altre cellule nervose

~ 100.000.000.000.000 di connessioni

Transmission of thought

M. Brescia - Data Mining - lezione 2 43

assone : trasduzione segnale da elettrico a chimico

dendrite : trasduzione segnale da chimico ad elettrico

neurotrasmettitori

spazio sinaptico

sinapsi

neurone A

neurone B

bits (unità di trasmissione)

assone

dendrite

Synapsis

M. Brescia - Data Mining - lezione 2 44

Pensiero!

attraversamento dello spazio vuoto (spazio sinaptico)

dendrite (segnale chimico)

assone (segnale chimico)

Neurotrasmettitori (segnale elettrico)

In ogni istante decine di migliaia di messaggi, eccitatori e inibitori, afferiscono al neurone.

L’informazione totale è la somma algebrica dei segnali

afferenti al neurone. Se la somma è > della soglia, IL NEURONE SPARA!

1 millisecondo I segnali afferenti possono innescare fenomeni di inibizione (polarizzazione negativa), o eccitazione (polarizzazione positiva)

Specialization

M. Brescia - Data Mining - lezione 2 45

Zone circoscritte del cervello hanno sviluppato un autonomo livello di specializzazione in particolari funzionalità dell’organismo ospite

….e le informazioni?

The memory

M. Brescia - Data Mining - lezione 2 46

La corteccia è composta da alcune decine di miliardi di neuroni.

Si presenta sottoforma di una vasta ed estremamente uniforme disposizione di cellule preposte alla gestione di:

• carattere

• morale

• personalità

• idee

• comportamenti

• pensiero

memoria

La sua morfologia penalizza il paragone con le normali memorie di un computer, ben localizzate e circoscritte.

The memory

M. Brescia - Data Mining - lezione 2 47

MODELLO HEBBIANO

MODELLO REALE

Il processo di memorizzazione avviene tramite le sinapsi. L’elemento elementare di memorizzazione è il neurone!

Il processo di memorizzazione avviene tramite le sinapsi. L’elemento elementare di memorizzazione E’ LA SINAPSI!

spazio limitato!

NO LIMITS!

Natural Intelligence

M. Brescia - Data Mining - lezione 2 48

Il parallelo tra software e mente non è del tutto lecito!

A questo punto:

pensiero fisicamente identificabile come una reazione a catena di sinapsi

una concatenazione di pensieri porta ricorsivamente all’elaborazione di pensieri più complessi

l’insieme di queste reazioni si manifesta in comportamenti (risposte a stimoli esterni)

“L’intelligenza è la predisposizione e capacità ad adattarsi a nuove situazioni, mediante l’uso combinato di conoscenze innate e apprese attraverso l’esperienza accumulata durante l’esistenza!”

Natural Intelligence

M. Brescia - Data Mining - lezione 2 49

Adattamento

Auto

Riproduzione

Mutazioni

genetiche

ComportamentoApprendimento

IntelligenzaEsperienza

Selezione

naturale

Conoscenza

innata

Conoscenza

acquisita

Stimoli

esterni

Memoria

ottimizzazione

arricchimento

specializzazione

INPUT

OUTPUT

elaborazione

generalizzazione

Natural artificial intelligence

M. Brescia - Data Mining - lezione 2 50

….la nascita di una scienza dedicata all’emulazione del cervello è intimamente legata allo sviluppo teorico e tecnologico dell’informatica.

“L’informatica nasce come scienza in grado di risolvere problemi traducibili in sequenze finite di azioni, (algoritmo), in un tempo dipendente sia dalla complessità del problema, sia dalle capacità computazionali dello strumento utilizzato” Von Neumann

Il limite è l’incapacità di trattare problemi riconducibili a ragionamenti di tipo approssimativo ed associativo!

“quasi caldo” “quasi freddo”

Ragionamento approssimato

Ragionamento associativo

Artificial Intelligence

M. Brescia - Data Mining - lezione 2 51

….nasce dunque l’esigenza di estendere il paradigma di Von Neumann, basato sull’elaborazione dei dati, passando all’elaborazione della conoscenza!

….subito un problema:

<< l’idea di introdurre concetti come associatività e incertezza nel processo di elaborazione artificiale dell’informazione ci pone dinnanzi ad un drammatico quesito: una macchina è in grado di pensare? O la mente può essere ricondotta ad un programma di calcolo? >>

conseguenza: dicotomia di pensiero!

“ un programma al computer è una mente! ”

“ il pensiero è dunque riconducibile ad un processo di manipolazione di simboli! “

“ un programma al computer è parte di un sistema di analisi dei processi cognitivi, da cui comprendere i meccanismi della mente! “

IA “forte” SIMBOLISTI

IA “debole” CONNESSIONISTI

Artificial Intelligence

M. Brescia - Data Mining - lezione 2 52

“ L’ IA è l’insieme di modelli che simulano i meccanismi alla base del pensiero e del processo di apprendimento della mente umana, per comprenderne il funzionamento interno! “

L’approccio simbolista è confutabile!

• I processi mentali di un essere intelligente comprendono :

• logica

• razionalità

• sentimento

• fantasia

• intuito

traducibili in simboli

non traducibili in simboli

• L’unica forma di intelligenza che conosciamo è fondata su un sistema nervoso composto da una rete di “connessioni” tra cellule neuroniche!

Darwin ha vinto!

AI & Cybernetics

M. Brescia - Data Mining - lezione 2 53

Nel dopoguerra si avvertiva l’esigenza di unificare le forze, creando una ricerca interdisciplinare, basata sulla sintesi dei fenomeni legati alla mente e all’intelligenza, che portasse alla formulazione di un modello unico!

Nel 1947, Norbert Wiener scrive “ Cybernetics ” : “ La cibernetica consiste nell’instradamento dei processi mentali, basato sul controllo quantitativo dell’informazione trasmessa fra due elementi di calcolo, facenti parte di un unico organismo…”

Ispirano la sviluppo di

• informatica

• robotica

• bioingegneria

Nel 1980, Eduardo R. Caianiello scrive “ La Cibernetica “ : “L’analisi cibernetica è il metodo fondato sull’analisi graduale di un processo cognitivo in passi ben definiti, procedendo dall’osservazione del fenomeno, dalla comprensione del fenomeno, per scaturire nella decisione dell’azione da compiere, culminando nell’esecuzione del comportamento… “

Metodo della scatola grigia

Suddivisione del fenomeno in blocchi più piccoli di cui si conosce il funzionamento interno (blocchi grigi), conservando la “GESTALT” o globalità dei fenomeni percettivi

Conseguenza: creazione di modelli neurali basati sullo studio della rete di connessioni che costituisce il cervello (scatola nera) fino all’analisi delle singole sinapsi (scatole grigie)!

Some Data Mining Software & Projects

M. Brescia - Data Mining - lezione 2 54

General data mining software packages: • Weka (Java): http://www.cs.waikato.ac.nz/ml/weka/ • RapidMiner: http://www.rapidminer.com/ • Orange: http://orange.biolab.si/ • DAME: http://dame.dsf.unina.it/ • Knime: http://www.knime.org/ Packages: • FANN (C): http://leenissen.dk/fann/wp/ • SOM (Matlab): http://www.cis.hut.fi/somtoolbox/ • Netlab: http://www1.aston.ac.uk/eas/research/groups/ncrg/resources/netlab/ • LibSVM: http://www.csie.ntu.edu.tw/~cjlin/libsvm/

Examples of DM tools: DAME

M. Brescia - Data Mining - lezione 2 55

Web-based, distributed DM infrastructure specialized in Massive Data Sets exploration with machine learning methods Contains tools for classification, regression, clustering, visualization: Neural Networks, SOM, SVM, GA, etc. Lots of documentation

http://dame.dsf.unina.it/

Examples of DM tools: WEKA

M. Brescia - Data Mining - lezione 2 56

A collection of open source machine learning algorithms for data mining tasks Algorithms can either be applied directly to a dataset or called from your own Java code Comes with its own GUI Contains tools for data pre-processing, classification, regression, clustering, association rules, and visualization

http://www.cs.waikato.ac.nz/ml/weka/

Examples of DM tools: Orange

M. Brescia - Data Mining - lezione 2 57

Open source data visualization and analysis Data mining through visual programming or Python scripting components for machine learning extensions for bioinformatics and text mining Available for Windows, Mac, Linux

http://orange.biolab.si/

Examples of DM tools: Mirage

M. Brescia - Data Mining - lezione 2 58

Java Package for exploratory data analysis (EDA), correlation mining, and interactive pattern discovery

http://cm.bell-labs.com/who/tkh/mirage/

Examples of DM tools: Knime

M. Brescia - Data Mining - lezione 2 59

http://www.knime.org/

graphical workbench for the entire analysis process: data access, data transformation, initial investigation, powerful predictive analytics, visualisation and reporting. The open integration platform provides over 1000 modules (nodes),

REFERENCES

M. Brescia - Data Mining - lezione 2 60

I. Witten E, Frank & M. Hall, Data Mining: Practical Machine Learning Tools and Techniques, 3rd Ed., Morgan Kaufmann, 2011 P. Janert, Data Analysis with Open Source Tools, O’Reilly, 2010 J. Han, M. Kamber, & J. Pei, Data Mining: Concepts and Techniques, 2nd Ed., Morgan Kaufmann, 2005 P.-N. Tan, M. Steinbach, & V. Kumar, Introduction to Data Mining, Adisson Wesley, 2005 M. Dunham, Data Mining: Introductory and Advanced Topics, Prentice-Hall, 2002. ISBN: 9780130888921 R. J. Roiger & M. W. Geatz, Data Mining: A Tutorial-Based Primer, Addison-Wesley, 2002. ISBN: 9780201741285