Cours Apprentissage 3 : Arbres de décision

37
Cours Apprentissage 3 : Arbres de d´ ecision Ludovic DENOYER - [email protected] 30 mars 2012 Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de d´ ecision

Transcript of Cours Apprentissage 3 : Arbres de décision

Page 1: Cours Apprentissage 3 : Arbres de décision

Cours Apprentissage 3 : Arbres de decision

Ludovic DENOYER - [email protected]

30 mars 2012

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 2: Cours Apprentissage 3 : Arbres de décision

Contexte : Classification

Notations

On a N exemples notes xi qui contiennent P attributsqualitatifs ou quantitatifs

On a C categories possibles

On cherche la fonction de classification f (xi )→ y ou yy est l’unedes C categories

Differences

On parle de classification multiclasse (monolabel)

Les donnees d’entree peuvent etre qualitatives (pasuniquement vectorielles)

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 3: Cours Apprentissage 3 : Arbres de décision

Donnees

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 4: Cours Apprentissage 3 : Arbres de décision

Ensemble d’apprentissage

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 5: Cours Apprentissage 3 : Arbres de décision

Arbres de decision : principes

Definition

Un arbre de decision est un classifieur represente sous formed’arbre tel que :

Les noeuds de l’arbre testent les attributs

Il y a une branche pour chaque valeur possible de l’attributteste

Les feuilles specifient les categories (deux ou plus)

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 6: Cours Apprentissage 3 : Arbres de décision

Exemple

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 7: Cours Apprentissage 3 : Arbres de décision

Exemple

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 8: Cours Apprentissage 3 : Arbres de décision

Exemple

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 9: Cours Apprentissage 3 : Arbres de décision

Exemple

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 10: Cours Apprentissage 3 : Arbres de décision

Exemple

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 11: Cours Apprentissage 3 : Arbres de décision

Interet

Interets

Les arbres de decision sont des classifieurs interpretables -contrairement aux perceptrons ou KNN par exemple

Ils fonctionnent facilement sur donnees qualitatives

Ils fonctionnent bien (tant que le nombre de caracteristiquesn’est pas trop grand)

Inconvenients

Ils ne sont pas si interpretables que cela..

Ils sont lents et instables pendant l’apprentissage

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 12: Cours Apprentissage 3 : Arbres de décision

Interpretabilite

Avantage

Les Arbres de decisions permettent d’obtenir des fonctions dedecision utilisables ”par un humain”

d’ou utilisation de ces arbres pour la decouvertes de proprietes.

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 13: Cours Apprentissage 3 : Arbres de décision

Interpretabilite

Toute fonction booleenne peut se representer comme un arbrede decision

Selon les fonctions a representer les arbres sont plus ou moinsgrands

Un arbre peut se representer par une disjonction de regles

(Si Plumes = non Alors Classe= pas-oiseau)

ou (Si Plumes = oui ET Couleur= brun Alors Classe= pas-oiseau)

ou (Si Plumes = oui ET Couleur= BN Alors Classe=oiseau)

ou (Si Plumes = oui ET Couleur= jaune Alors Classe=oiseau)

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 14: Cours Apprentissage 3 : Arbres de décision

Interpretabilite....

Toute fonction booleenne peut se representer comme un arbrede decision

Rappel : avec 6 attributs booleens, on peut definir environ 2milliards de fonctions booleenes..

Selon les fonctions a representer les arbres sont plus ou moinsgrands

La taille de l’arbre peut grandir exponentiellement !

Un arbre peut se representer par une disjonction de regles

Limite a la logique des propositions (on ne represente pas derelations)

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 15: Cours Apprentissage 3 : Arbres de décision

Interpretabilite....

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 16: Cours Apprentissage 3 : Arbres de décision

Apprentissage

Apprentissage des DTs

A partir d’un jeu de donnees d’apprentissage, comment construireautomatiquement un arbre de decision efficace ?

Il y a le plus souvent de nombreux arbres de decision possiblescorrects.

Enumeration exhaustive impossible (NP-complet)

4 attributs et 3 valeurs = 55 296 arbres possibles

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 17: Cours Apprentissage 3 : Arbres de décision

Apprentissage

Soit la basse de donnee suivante :

Quel arbre est la plus approrie ?

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 18: Cours Apprentissage 3 : Arbres de décision

Apprentissage

Apprentissage des DTs

A partir d’un jeu de donnees d’apprentissage, comment construireautomatiquement un arbre de decision efficace ?

Enumeration NP-complet

Solution : Construction iterative de l’arbre (methode gloutonne, cfCours de RP)

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 19: Cours Apprentissage 3 : Arbres de décision

Apprentissage

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 20: Cours Apprentissage 3 : Arbres de décision

Idee

Construction de la racine vers les feuilles

l’attribut le plus informatif est selectionne pour construire unnœud de l’arbre

Utilisation d’une mesure de discriminationcas classique : entropie de Shannon, index de Gini,...

Criteres d’une bonne mesure de discrimination :

obtenir des nœuds coherentsminimiser la taille de l’arbrefounir de bons resultats en classification

Role de la mesure de discrimination :

mesure de la predictabilite de la valeur ck de C a partir d’unevaleur vi de Amesure du pouvoir de discrimination de l’attribut A envers laclasse C

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 21: Cours Apprentissage 3 : Arbres de décision

Idee

Construction de la racine vers les feuilles

l’attribut le plus informatif est selectionne pour construire unnœud de l’arbre

Utilisation d’une mesure de discriminationcas classique : entropie de Shannon, index de Gini,...

Criteres d’une bonne mesure de discrimination :

obtenir des nœuds coherentsminimiser la taille de l’arbrefounir de bons resultats en classification

Role de la mesure de discrimination :

mesure de la predictabilite de la valeur ck de C a partir d’unevaleur vi de Amesure du pouvoir de discrimination de l’attribut A envers laclasse C

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 22: Cours Apprentissage 3 : Arbres de décision

Construction d’un arbre

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 23: Cours Apprentissage 3 : Arbres de décision

Mesure de discrimination classique

Utilisation de l’entropie de Shannon :

HS(C |A) = −∑i

P(vi )∑k

P(ck |vi ) log(P(ck |vi ))

Mesure issue de la theorie de l’information

initiee par C.E. Shannon en 1948

Mesure un taux de desordre

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 24: Cours Apprentissage 3 : Arbres de décision

Mesure de discrimination classique : 2 Classes

Utilisation de l’entropie de Shannon - Si 2 classes :

HS(C |A) = −P+ logP+ − P− logP−

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 25: Cours Apprentissage 3 : Arbres de décision

Construction de l’arbre : cas general

Algorithme d’apprentissage

1 Calculer H(C |Aj) pour tous les attributs Aj

2 Choisir l’attribut Aj qui minimise H(C |Aj)

creer un nœud dans l’arbre de decision

3 A l’aide de Aj , partitionner la base d’apprentissage

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 26: Cours Apprentissage 3 : Arbres de décision

Exemple

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 27: Cours Apprentissage 3 : Arbres de décision

Exemple

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 28: Cours Apprentissage 3 : Arbres de décision

Exemple

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 29: Cours Apprentissage 3 : Arbres de décision

Exemple

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 30: Cours Apprentissage 3 : Arbres de décision

Entrees continues

Problematique

Que faire dans le cas d’entrees a valeurs continues i.e vecteurs ?

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 31: Cours Apprentissage 3 : Arbres de décision

Discretisation

Problematique

Que faire dans le cas d’entrees a valeurs continues i.e vecteurs ?

Solution :

On discretise : transformation d’une variable continue en une ouplusieurs variables discrete

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 32: Cours Apprentissage 3 : Arbres de décision

Discretisation

Problematique

Que faire dans le cas d’entrees a valeurs continues i.e vecteurs ?

Solution :

On discretise : transformation d’une variable continue en une ouplusieurs variables discrete

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 33: Cours Apprentissage 3 : Arbres de décision

Exemple

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 34: Cours Apprentissage 3 : Arbres de décision

Exemple

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 35: Cours Apprentissage 3 : Arbres de décision

Algorithme C4.5

Check for base cases

For each attribute a

Find the normalized information gain from splitting on a

Let a best be the attribute with the highest normalizedinformation gain

Create a decision node that splits on a best

Recurse on the sublists obtained by splitting on a best, andadd those nodes as children of node

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 36: Cours Apprentissage 3 : Arbres de décision

Sur-Apprentissage

Elagage a posteriori

Idee : Elaguer apres la construction de l’arbre entier, en remplacantles sous-arbres optimisant un critere d’elagage par un noeud.Nombreuses methodes. Encore beaucoup de recherches.

Minimal Cost-Complexity Pruning (MCCP) (Breiman etal.,84)

Reduced Error Pruning (REP) (Quinlan,87,93)

Minimum Error Pruning (MEP) (Niblett & Bratko,86)

Critical Value Pruning (CVP) (Mingers,87)

Pessimistic Error Pruning (PEP) (Quinlan,87)

Error-Based Pruning (EBP) (Quinlan,93) (utilise dans C4.5)

...

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision

Page 37: Cours Apprentissage 3 : Arbres de décision

Conclusion

Approprie pour :

Classification de formes decrites en attributs-valeurs

Attributs a valeurs discretes

Resistant au bruit

Strategie :

Recherche par construction incrementale d’hypothese

Critere local (gradient) fonde sur critere statistique

Engendre

Arbre de decision interpretable (e.g. regles de production)

Necessite controle de la taille de l’arbre

Ludovic DENOYER - [email protected] Cours Apprentissage 3 : Arbres de decision