apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du...
Transcript of apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du...
AntoineCornuéjols
AgroParisTech–INRAMIA518
Cours
apprentissage avancé
2 / 122 Course « InductionS » (A. Cornuéjols)
Lecours
n Documents
– Le livre "L'apprentissage artificiel. Deep Learning, concepts et algorithmes" A. Cornuéjols & L. Miclet & V. Barra
Eyrolles. 3ème éd. 2018
– Les transparents + Informations sur :
hBp://www2.agroparistech.fr/ufr-info/membres/cornuejols/Teaching/Master-AIC/M2-AIC-advanced-ML.html
3 / 122 Course « InductionS » (A. Cornuéjols) 4 / 122 Course « InductionS » (A. Cornuéjols)
Planducours
Construire un critère inductif • Apprentissage semi-supervisé • Apprentissage de modèles parcimonieux
L’induction • Comment ça marche ? • Quelles garanties ? • Le no-fre-lunch theorem
Apprentissage en-ligne • Approche théorique : nouveau critère inductif • Approche pratique : autre type de critère inductif • Classification précoce de séries temporelles
Apprentissage par transfert • Scénarios • Quels échanges d’information ? • Comment trouver des garanties ?
Méthodes d’ensemble • Comment construire l’algorithme • Quels échanges d’information ? • Et dans le cas non supervisé ?
5 / 122 Course « InductionS » (A. Cornuéjols)
OrganisaMonducours
6Cours
1séanced’exposésd’arMcles
n 5quizz (5x5=25%)
n Projets :75%
– 06/12/2018:descrip4onduprojetretenu(2pages)
– 31/01/2019:rapportdemi-parcours(5à8pages)
– 28/02/2019:rapportfinal(10pagesstrict.FormatpapierICML)
n DontrapportcriMquesurarMcles :25%
A.Cornuéjols
AgroParisTech–INRAMIA518
ReflecMonson
INDUCTION-S
hBp://www.agroparistech.fr/ufr-info/membres/cornuejols/Teaching/Master-AIC/M2-AIC-advanced-ML.html
7 / 122 Course « InductionS » (A. Cornuéjols)
Outline
1. InducMon
2. ThestaMsMcalTheoryofLearning
3. Otherscenarios
4. Theno-free-lunchtheorem
5. ExplanaMon-Basedlearning:whatkindofvalidaMon?
6. QuesMons
8 / 122 Course « InductionS » (A. Cornuéjols)
9 / 122 Course « InductionS » (A. Cornuéjols)
SupervisedinducMon
10 / 122 Course « InductionS » (A. Cornuéjols)
Learningbyheart
11 / 122 Course « InductionS » (A. Cornuéjols) 12 / 122 Course « InductionS » (A. Cornuéjols)
Whentherearefewdatapoints
n Learningatable
Exemple x1 x2 x3 x4 Etiquette
1 0 0 1 0 0
2 0 1 0 0 0
3 0 0 1 1 1
4 1 0 0 1 1
5 0 1 1 0 0
6 1 1 0 0 0
7 0 1 0 1 0
13 / 122 Course « InductionS » (A. Cornuéjols)
Whenthereisahugenumberofdatapoints
n LearningafuncMonf:x->y
Buthow?
WhichfuncMon?
14 / 122 Course « InductionS » (A. Cornuéjols)
Supervisedlearning:
Simpleornotsosimple?
15 / 122 Course « InductionS » (A. Cornuéjols)
n Examplesdescribedusing:
Number(1or2);size(smallorlarge);shape(circleorsquare);color(redorgreen)
n Theybelongeithertoclass‘+’ortoclass‘-’
Oneexamplethattellsalot…
16 / 122 Course « InductionS » (A. Cornuéjols)
Description Your answer True answer
1largeredsquare -
1largegreensquare
2smallredsquares
2largeredcircles
1largegreencircle
1smallredcircle
1smallgreensquare
1smallredsquare
2largegreensquares
+
+
+
-
+
+
+
-
Yet another exercise n Examplesdescribedusing:
Number(1or2);size(smallorlarge);shape(circleorsquare);color(redorgreen)
n Theybelongeithertoclass‘+’ortoclass‘-’
17 / 122 Course « InductionS » (A. Cornuéjols)
Description Your prediction True class
1 large red square -
n Examplesdescribedusing:
Number(1or2);size(smallorlarge);shape(circleorsquare);color(redorgreen)
1largegreensquare
2smallredsquares
2largeredcircles
1largegreencircle
1smallredcircle
+
+
+
-
+
Oneexamplethattellsalot…
HowmanypossiblefuncMonsaltogetherfromXtoY?
HowmanyfuncMonsdoremainaner8trainingexamples?
22=216=65,5364
26=1024
18 / 122 Course « InductionS » (A. Cornuéjols)
n Examplesdescribedusing:
Number(1or2);size(smallorlarge);shape(circleorsquare);color(redorgreen)
Oneexamplethattellsalot…
Description Yourprediction Trueclass1largeredsquare -1largegreensquare +2smallredsquares +2largeredcircles -1largegreencircle +1smallredcircle +1smallgreensquare -1smallredsquare +2largegreensquares +2smallgreensquares +2smallredcircles +1smallgreencircle -2largegreencircles -2smallgreencircles +1largeredcircle -2largeredsquares ?
Howmany
remaining
func4ons?
15
?
19 / 122 Course « InductionS » (A. Cornuéjols)
Description Your prediction True class
1 large red square -
n Examplesdescribedusing:
Number(1or2);size(smallorlarge);shape(circleorsquare);color(redorgreen)
1largegreensquare
2smallredsquares
2largeredcircles
1largegreencircle
1smallredcircle
+
+
+
-
+
Oneexamplethattellsalot…
HowmanypossiblefuncMonswith2descriptorsfromXtoY?
HowmanyfuncMonsdoremainaner3≠trainingexamples?
22=24=162
21=2
20 / 122 Course « InductionS » (A. Cornuéjols)
InducMon:animpossiblegame?
n Abiasisneed
n Typesofbias
– Representa4onbias (declaraMve)
– Researchbias (procedural)
21 / 122 Course « InductionS » (A. Cornuéjols)
InterprétaMon–compléMondepercepts
22 / 122 Course « InductionS » (A. Cornuéjols)
InterprétaMon–compléMondepercepts
!"#$%&'()%*+,-./01%-2%3#4/1-5-64/701%85697,5%-:%#0;9.2%$97-<2/=-23%>?@%#91/11-A%
&)B'CB&'()%
ED%
6R(&,(-%"U8"-,"%&(7&'!"&"%%"-'.+#.%'&+%%81$'.(-&.-&;i&
!/2*29924#&'(&9#* '##&#"32*/'9*/'3* #1$*0'>$%* -$492Z"24-29*1/&-/*8%2'#(@*-$4#%&J"#23*#$*9/'?2*#/2*?'##2%4*%2-$84&#&$4*V2(3*&4*#/2*?'9#*A21*32-'329B**
!! &#* /'9* (23* #/2* -$00"4&#@* #$* A$-"9* 0'&4(@* $4* 7"+'8)"_*",'()&)"$)"%"-'+'.(-%+* 1/2%2+* 2'-/* $J>2-#* &9* 329-%&J23* &4* #2%09* $A* '*C2-#$%*$A*4"02%&-'(*'##%&J"#29*'43*&9*#/2%2A$%2*0'??23*#$*'*?$&4#*&4*'*S"-(&32'4*G82$02#%&-I*C2-#$%*9?'-2**
!! &#*/'9*(23*%292'%-/2%9*#$*0'&4#'&4*'*)"98,'.(-.%'&$(%.'.(-+*1/2%2J@*$J>2-#9*'%2*9224* &4* &9$('#&$4*'43*1/&-/*#/2%2A$%2*#2439*#$*$C2%($$.*#/2*%$(2*$A*-$4#2a#"'(+*$%*%2('#&$4'(+*&4A$%0'#&$4*
Y(-'"='&!"#$%&]&
!"#$%&'()%*+,-./01%-2%3#4/1-5-64/701%85697,5%-:%#0;9.2%$97-<2/=-23%>?@%#91/11-A%
&)B'CB&'()%
ED%
6R(&,(-%"U8"-,"%&(7&'!"&"%%"-'.+#.%'&+%%81$'.(-&.-&;i&
!/2*29924#&'(&9#* '##&#"32*/'9*/'3* #1$*0'>$%* -$492Z"24-29*1/&-/*8%2'#(@*-$4#%&J"#23*#$*9/'?2*#/2*?'##2%4*%2-$84&#&$4*V2(3*&4*#/2*?'9#*A21*32-'329B**
!! &#* /'9* (23* #/2* -$00"4&#@* #$* A$-"9* 0'&4(@* $4* 7"+'8)"_*",'()&)"$)"%"-'+'.(-%+* 1/2%2+* 2'-/* $J>2-#* &9* 329-%&J23* &4* #2%09* $A* '*C2-#$%*$A*4"02%&-'(*'##%&J"#29*'43*&9*#/2%2A$%2*0'??23*#$*'*?$&4#*&4*'*S"-(&32'4*G82$02#%&-I*C2-#$%*9?'-2**
!! &#*/'9*(23*%292'%-/2%9*#$*0'&4#'&4*'*)"98,'.(-.%'&$(%.'.(-+*1/2%2J@*$J>2-#9*'%2*9224* &4* &9$('#&$4*'43*1/&-/*#/2%2A$%2*#2439*#$*$C2%($$.*#/2*%$(2*$A*-$4#2a#"'(+*$%*%2('#&$4'(+*&4A$%0'#&$4*
Y(-'"='&!"#$%&]&
!"#$%&'()%*+,-./01%-2%3#4/1-5-64/701%85697,5%-:%#0;9.2%$97-<2/=-23%>?@%#91/11-A%
&)B'CB&'()%
ED%
6R(&,(-%"U8"-,"%&(7&'!"&"%%"-'.+#.%'&+%%81$'.(-&.-&;i&
!/2*29924#&'(&9#* '##&#"32*/'9*/'3* #1$*0'>$%* -$492Z"24-29*1/&-/*8%2'#(@*-$4#%&J"#23*#$*9/'?2*#/2*?'##2%4*%2-$84&#&$4*V2(3*&4*#/2*?'9#*A21*32-'329B**
!! &#* /'9* (23* #/2* -$00"4&#@* #$* A$-"9* 0'&4(@* $4* 7"+'8)"_*",'()&)"$)"%"-'+'.(-%+* 1/2%2+* 2'-/* $J>2-#* &9* 329-%&J23* &4* #2%09* $A* '*C2-#$%*$A*4"02%&-'(*'##%&J"#29*'43*&9*#/2%2A$%2*0'??23*#$*'*?$&4#*&4*'*S"-(&32'4*G82$02#%&-I*C2-#$%*9?'-2**
!! &#*/'9*(23*%292'%-/2%9*#$*0'&4#'&4*'*)"98,'.(-.%'&$(%.'.(-+*1/2%2J@*$J>2-#9*'%2*9224* &4* &9$('#&$4*'43*1/&-/*#/2%2A$%2*#2439*#$*$C2%($$.*#/2*%$(2*$A*-$4#2a#"'(+*$%*%2('#&$4'(+*&4A$%0'#&$4*
Y(-'"='&!"#$%&]&
23 / 122 Course « InductionS » (A. Cornuéjols)
InterprétaMon–compléMondepercepts
24 / 122 Course « InductionS » (A. Cornuéjols)
Illusionsd’opMque
25 / 122 Course « InductionS » (A. Cornuéjols)
InducMonanditsillusions
IllustraMon
26 / 122 Course « InductionS » (A. Cornuéjols)
Clustering
27 / 122 Course « InductionS » (A. Cornuéjols)
Clustering
28 / 122 Course « InductionS » (A. Cornuéjols)
IwillbequesMonedon
onenewpoint
(Transduc/velearning)
29 / 122 Course « InductionS » (A. Cornuéjols)
TransducMvelearning
n IknowinadvancewhereIwillbequeried
x
y
!
30 / 122 Course « InductionS » (A. Cornuéjols)
Vous connaissez la question à l’avance.
n Quelle est l’étiquette pour la question ?
Transduction (1)
Description Étiquette
1 grand carré rouge ≠1 grand carré vert +
2 petits carrés rouges +
2 grands cercles rouges ≠1 grand cercle vert +
1 petit cercle rouge +
1 petit carré vert ≠1 petit carré rouge +
Nb Taille Forme Couleur Étiquette
1 grand carré rouge ≠1 grand carré vert +
2 petit carré rouge +
2 grand cercle rouge ≠1 grand cercle vert +
1 petit cercle rouge +
1 petit carré vert ≠1 petit carré rouge +
Négatif : (petit & vert) ‚ (grand & rouge)
Positif : (grand & vert) ‚ (petit & rouge)
Positif (plus spécifique) : (grand & carré) & vert) ‚ (1 & petit & rouge) ‚(2 & petit & carré & rouge)
Nb Taille Forme Couleur Étiquette
1 grand carré rouge ≠1 grand carré vert +
2 petit carré rouge +
2 grand cercle rouge ≠1 grand cercle vert +
1 petit cercle rouge +
1 petit carré vert ≠1 petit carré rouge +
2 petit cercle rouge ?
Nb Taille Forme Couleur Étiquette
1 grand carré rouge ≠1 grand carré vert +
2 petit carré rouge +
2 grand cercle rouge ≠1 grand cercle vert +
1 petit cercle rouge +
1 petit carré vert ≠1 petit carré rouge +
2 petit cercle vert ?
2
31 / 122 Course « InductionS » (A. Cornuéjols)
Vous connaissez la question à l’avance.
n Quelle est l’étiquette pour la question ?
Transduction (2)
Description Étiquette
1 grand carré rouge ≠1 grand carré vert +
2 petits carrés rouges +
2 grands cercles rouges ≠1 grand cercle vert +
1 petit cercle rouge +
1 petit carré vert ≠1 petit carré rouge +
Nb Taille Forme Couleur Étiquette
1 grand carré rouge ≠1 grand carré vert +
2 petit carré rouge +
2 grand cercle rouge ≠1 grand cercle vert +
1 petit cercle rouge +
1 petit carré vert ≠1 petit carré rouge +
Négatif : (petit & vert) ‚ (grand & rouge)
Positif : (grand & vert) ‚ (petit & rouge)
Positif (plus spécifique) : (grand & carré) & vert) ‚ (1 & petit & rouge) ‚(2 & petit & carré & rouge)
Nb Taille Forme Couleur Étiquette
1 grand carré rouge ≠1 grand carré vert +
2 petit carré rouge +
2 grand cercle rouge ≠1 grand cercle vert +
1 petit cercle rouge +
1 petit carré vert ≠1 petit carré rouge +
2 petit cercle rouge ?
Nb Taille Forme Couleur Étiquette
1 grand carré rouge ≠1 grand carré vert +
2 petit carré rouge +
2 grand cercle rouge ≠1 grand cercle vert +
1 petit cercle rouge +
1 petit carré vert ≠1 petit carré rouge +
2 petit cercle vert ?
2
32 / 122 Course « InductionS » (A. Cornuéjols)
Vous connaissez la question à l’avance.
Transduction (3)
Nb Taille Forme Couleur Étiquette
1 grand carré rouge ≠1 grand carré vert +
2 petit carré rouge +
2 grand cercle rouge ≠1 grand cercle vert +
1 petit cercle rouge +
1 petit carré vert ≠1 petit carré rouge +
1 - cercle - ?
Supposons que nous considérions une tâche de discrimination entre deux
classes, et qu’après apprentissage, on observe sur un ensemble de test constitués
de 105 exemples positifs et 60 exemples négatifs, les performances suivantes :
Remarque : on a besoin des packages : array et slashbox
SVM :
XXXXXXXXXXEstimé
Réel
+ ≠
+ 94 37
≠ 11 23
Bayésien naïf :
XXXXXXXXXXEstimé
Réel
+ ≠
+ 72 29
≠ 33 31
Apparemment, le système SVM (voir chapitre ??) est plus performant sur
cette tâche, puisque son taux d’erreur est de :
11+37165 = 0.29 au lieu de
29+33165 =
0.375 pour le classifieur bayésien naïf (voir chapitre ??). Pourtant, ce critère
d’erreur n’est peut-être pas celui qui nous intéresse en priorité.
Date 5/31 6/1 6/2 6/3 6/4
Room
Meeting Room
Auditorium
Seminar Room
Table 1 – Room availability vs dates.
2.2 Et maintenant quelques figures
3 Résultats
4 Conclusion
3
33 / 122 Course « InductionS » (A. Cornuéjols)
Vous connaissez la question à l’avance.
Transduction (3)
Nb Taille Forme Couleur Étiquette
1 grand carré rouge ≠1 grand carré vert +
2 petit carré rouge +
2 grand cercle rouge ≠1 grand cercle vert +
1 petit cercle rouge +
1 petit carré vert ≠1 petit carré rouge +
1 - cercle - ?
Supposons que nous considérions une tâche de discrimination entre deux
classes, et qu’après apprentissage, on observe sur un ensemble de test constitués
de 105 exemples positifs et 60 exemples négatifs, les performances suivantes :
Remarque : on a besoin des packages : array et slashbox
SVM :
XXXXXXXXXXEstimé
Réel
+ ≠
+ 94 37
≠ 11 23
Bayésien naïf :
XXXXXXXXXXEstimé
Réel
+ ≠
+ 72 29
≠ 33 31
Apparemment, le système SVM (voir chapitre ??) est plus performant sur
cette tâche, puisque son taux d’erreur est de :
11+37165 = 0.29 au lieu de
29+33165 =
0.375 pour le classifieur bayésien naïf (voir chapitre ??). Pourtant, ce critère
d’erreur n’est peut-être pas celui qui nous intéresse en priorité.
Date 5/31 6/1 6/2 6/3 6/4
Room
Meeting Room
Auditorium
Seminar Room
Table 1 – Room availability vs dates.
2.2 Et maintenant quelques figures
3 Résultats
4 Conclusion
3
Iamgoingtobequeriedthere,
sothisistheimportantaspect
34 / 122 Course « InductionS » (A. Cornuéjols)
WhichprincipleshouldguidetransducMon?
n Shouldwefeelmorecertainabouttheinducedanswerif
1. thequeryisclosetosomedatapoints?
2. theanswerdoesnotchangewhenthequerypointischanged
aliBlebit?
3. theanswerdoesnotchangewhenthedatapointsarechangeda
liBlebit?
4. …
35 / 122 Course « InductionS » (A. Cornuéjols)
WhichprincipleshouldguidetransducMon?
1-Proximitytodatapoints
h(xm+1) =mX
i=1
↵i (xi,xm+1) yi
h(xm+1) = sign
⇢ mX
i=1
↵i (xi,xm+1) yi
�
HowtochooseK ?
36 / 122 Course « InductionS » (A. Cornuéjols)
WhichprincipleshouldguidetransducMon?
2-theanswerdoesnotchangewhenthequerypointischanged
aliBlebit?
– CapacityofH
– RegularizaMononthehypotheses
!
!! !!
!
!!
!
!
!!
!
! !!
!
!
!
!!! !
""
"""
""
""
"
"""
"
"
"
"
""
"
"
"
""
"
"
"""
"
"
" "
"
"
"
!
!! !!
!
!!
!
!
!!
!
! !!
!
!
!
!!! !
""
"""
""
""
"
"""
"
"
"
"
""
"
"
"
""
"
"
"""
"
"
" "
"
"
"
!
!! !!
!
!!
!
!
!!
!
! !!
!
!
!
!!! !
""
"""
""
""
"
"""
"
"
"
"
""
"
"
"
""
"
"
"""
"
"
" "
"
"
"
!
!! !!
!
!!
!
!
!!
!
! !!
!
!
!
!!! !
""
"""
""
""
"
"""
"
"
"
"
""
"
"
"
""
"
"
"""
"
"
" "
"
"
"
37 / 122 Course « InductionS » (A. Cornuéjols)
WhichprincipleshouldguidetransducMon?
3-theanswerdoesnotchangewhenthetrainingdatapointsare
changedaliBlebit?
– CapacityofH
– RegularizaMononthehypotheses
!
!! !!
!
!!
!
!
!!
!
! !!
!
!
!
!!! !
""
"""
""
""
"
"""
"
"
"
"
""
"
"
"
""
"
"
"""
"
"
" "
"
"
"
!
!! !!
!
!!
!
!
!!
!
! !!
!
!
!
!!! !
""
"""
""
""
"
"""
"
"
"
"
""
"
"
"
""
"
"
"""
"
"
" "
"
"
"
!
!! !!
!
!!
!
!
!!
!
! !!
!
!
!
!!! !
""
"""
""
""
"
"""
"
"
"
"
""
"
"
"
""
"
"
"""
"
"
" "
"
"
"
!
!! !!
!
!!
!
!
!!
!
! !!
!
!
!
!!! !
""
"""
""
""
"
"""
"
"
"
"
""
"
"
"
""
"
"
"""
"
"
" "
"
"
"
38 / 122 Course « InductionS » (A. Cornuéjols)
WhichprincipleshouldguidetransducMon?
1-2-3-closenessorrobustnesstosmallchangesinthetestortraining
datapointsCHAPITRE 1. UNE VUE D’ENSEMBLE DE LA SCIENCE DES DONNÉES
Figure 1.8 – À gauche, la fonction de démarcation entre les deux groupes est très ir-régulière, mais très fine : elle “colle au données”, mais ne sera pas bien généralisableà d’autres situations, au contraire de celle de droite, beaucoup plus régulière.
changer (cela correspond à une situation de forte variance, mais de faible biais). Enrevanche, une minimisation moins fine et plus régulière se généralisera mieux (biaisplus important, mais variance faible), tel qu’illustré sur la Fig. 1.8.
Maintenant, faisons le lien avec la malédiction de la dimensionnalité, brièvementdécrite plus haut : dès que la dimensionnalité augmente un peu, il devient beaucoupplus di�cile d’avoir un échantillonnage su�sant de X , de sorte que le compromisbiais-variance prend toute son importance. Ainsi, dans les premières analyses géno-miques du milieu des années 90, l’objectif était d’apprendre une fonction permettantde discriminer les patients atteints d’une maladie génétique des personnes saines, surla base de la liste de leurs gènes. Face aux milliers de gènes humains, qui dans notreproblèmes d’apprentissage, correspondent à autant de variables, le nombre de pa-tients atteints d’une maladie et dont on dispose du génome peut être incroyablementfaible (une dizaine), notamment pour des maladies rares. Dans un tel contexte, il estimpossible d’espérer des performances correctes. La solution consiste donc à réduirela dimensionnalité de F , en forçant une certaine régularité dans la fonction apprise,tel qu’illustré sur la Fig. 1.8. Concrètement, la complexité de chaque fonction can-didate doit être prise en compte, et incluse dans l’optimisation, afin de choisir, àrisque empirique égal, le modèle le plus simple, et donc le plus généralisable :
f = mingœF
Re(g) + fl(g) (1.28)
où fl pénalise les fonctions de F en fonction de leur complexité. Dans un tel contexte,le minimiseur f sera naturellement de complexité moindre, et se généralisera mieux.Historiquement, dans les premières études génomiques susnommées, fl pénalisait lesfonctions en proportion du nombre de variables qu’elles faisaient intervenir [Tib96],et la pénalité correspondante, dénommée LASSO (Least Absolute Shrinkage andSelection Operator) est encore de nos jours parmi les pénalités les plus populaires.
Finalement, la réduction de dimensionnalité peut soit être explicite, soit passerpar la recherche d’un modèle parcimonieux, avec peu de degrés de liberté. Cettedernière option nous permet un ultime lien vers l’analyse harmonique (Sec. 4) : afinde remplacer une famille génératrice quelconque par un dictionnaire spécifique, onapprend ce dernier en optimisant son pouvoir expressif pénalisé par sa complexité.
33
x?
39 / 122 Course « InductionS » (A. Cornuéjols)
WhichprincipletoguidetransducMon?
Howtoformallytranslate:
– Ifthisistheques4on,Iknowthisis
• Important
• Irrelevant
40 / 122 Course « InductionS » (A. Cornuéjols)
OtherscenariosforlaterexaminaMon
– Semi-supervisedlearning
– On-linetransducMon<->tracking
– On-linelearning
– Transferlearningandlearningbyanalogy
41 / 122 Course « InductionS » (A. Cornuéjols)
InducMoneverywhere
42 / 122 Course « InductionS » (A. Cornuéjols)
Lerôledel’inducMon
n [LeslieValiant,«ProbablyApproximatelyCorrect.Nature’sAlgorithmsforLearningandProsperinginaComplexWorld»,BasicBooks,2013]
«Fromthis,wehavetoconcludethatgeneraliza4onorinduc4onis
apervasivephenomenon(…).ItisasrouMneandreproduciblea
phenomenonasobjectsfallingundergravity.
Itisreasonabletoexpectaquan4ta4vescien4ficexplana4on
ofthishighlyreproduciblephenomenon.»
43 / 122 Course « InductionS » (A. Cornuéjols)
Lerôledel’inducMon
n [EdwinT.Jaynes,«Probabilitytheory.Thelogicofscience»,CambridgeU.
Press,2003],p.3
«Wearehardlyabletogetthroughonewakinghourwithoutfacingsome
situaMon(e.g.willitrainorwon’tit?)wherewedonothaveenough
informa4ontopermitdeduc4vereasoning;butsMllwemustdecide
immediately.
Inspiteofitsfamiliarity,theformaMonofplausibleconclusionsisavery
subtleprocess.»
44 / 122 Course « InductionS » (A. Cornuéjols)
Sequences
n 1123581321…
n 1235...
n 1 1 1 2 1 1 2 1 1 1 1 1 2 2 1 3 1 2 2 1 1 …
– Comment?
– Pourquoiserait-ilpossibledefairedel’inducMon?
– Est-cequ’unexemplesupplémentaire
doitaugmenterlaconfiancedanslarègleinduite?
– Combienfaut-ild’exemples?
45 / 122 Course « InductionS » (A. Cornuéjols)
InducMonsupervisée
n CommentchoisirlafoncMondedécision?
x
y
46 / 122 Course « InductionS » (A. Cornuéjols)
InterrogaMons
Àchaquefois:
CasparMculiers=>loigénéraleouadaptaMonànouveaucas
1. Qu’est-cequiautorisecepassage?
2. Est-cequel’onpeutgaran4rquelquechose?
47 / 122 Course « InductionS » (A. Cornuéjols)
WhatkindoftheoreMcalguarantees
oninducMoncanweget?
48 / 122 Course « InductionS » (A. Cornuéjols)
Analysisoftheperceptron
49 / 122 Course « InductionS » (A. Cornuéjols)
Leperceptron
{ biais
x
y
w1w2
w3 w4 w5
w0
wd
1
x1 x2 x3 x4 x5 xd
x0
neurone de biais
1
yi
x(1)
x(2)
x(3)
x(d)
w1i
w2i
w3i
wdi
σ(i) =d∑
j=0
wjix(j)w0i
– Rosenblatt (1958-1962)
50 / 122 Course « InductionS » (A. Cornuéjols)
Leperceptron:undiscriminantlinéaire
w
51 / 122 Course « InductionS » (A. Cornuéjols)
Leperceptron
n Appren4ssagedespoids
– Principe(règledeHebb):encasdesuccès,ajouteràchaqueconnexionquelquechosedeproporMonnelàl’entréeetàlasorMe
Règleduperceptron:apprendreseulementencasd’échec
+
52 / 122 Course « InductionS » (A. Cornuéjols)
Despropriétésremarquables!!
n Convergenceenunnombrefinid’étapes
– Indépendammentdunombred’exemples
– Indépendammentdeladistribu4ondesexemples
– (quasi)indépendammentdeladimensiondel’espaced’entrée
Siilexisteaumoinsuneséparatricelinéairedesexemples
!!!
53 / 122 Course « InductionS » (A. Cornuéjols)
GaranMedegénéralisaMon??
n Théorèmessurlaperformance
parrapportàl’échanMllond’apprenMssage
n Maisqu’enest-ilpourdesexemplesàvenir?
54 / 122 Course « InductionS » (A. Cornuéjols)
– RosenblaB(1958-1962)
LePerceptron
55 / 122 Course « InductionS » (A. Cornuéjols)
PAClearning
ProbablyApproximaMvelyCorrect
56 / 122 Course « InductionS » (A. Cornuéjols)
Targetclass:rectanglesinR2
n Sample
– PosiMveinstances
– NegaMveinstances
P+X
P�X
x
y
57 / 122 Course « InductionS » (A. Cornuéjols)
Targetclass:unknown
n Whatdowewanttolearn?
AdecisionfoncMon(predic4on)
x
y
!
58 / 122 Course « InductionS » (A. Cornuéjols)
Targetclass:unknown
n Howtolearn?
x
y
59 / 122 Course « InductionS » (A. Cornuéjols)
Targetclass:rectanglesinR2
n Howtolearn?
– IfIknowthatthetargetconceptisarectangle
x
y
60 / 122 Course « InductionS » (A. Cornuéjols)
Targetclass:rectanglesinR2
n Howtolearn?
– IfIknowthatthetargetconceptisarectangle
x
y
Most general hypotheses
61 / 122 Course « InductionS » (A. Cornuéjols)
Targetclass:rectanglesinR2
n Howtolearn?
– IfIknowthatthetargetconceptisarectangle
x
y
Most specific hypotheses
62 / 122 Course « InductionS » (A. Cornuéjols)
Targetclass:rectanglesinR2
n Howtolearn?
– Choiceofonehypothesish
Version
space
63 / 122 Course « InductionS » (A. Cornuéjols)
Targetclass:rectanglesinR2
n Learning:choicedeh
– Whichperformancetoexpect?
x
y
h
64 / 122 Course « InductionS » (A. Cornuéjols)
ThestaMsMcaltheoryoflearning
Whichperformance?
n CostforapredicMonerror
– Thelossfunc3on
n WhichexpectedcostifIchooseh?
– The«realrisk»(ortruerisk)
R(h) =�
X�Y��h(x), y
�pXY(x, y) dx dy
��h(x), y
�
65 / 122 Course « InductionS » (A. Cornuéjols)
ThestaMsMcaltheoryoflearning
n Whichexpectedcostwhenhischosen?
– AssumingthatthereisnotrainingerroronS
x
y
h
The«empiricalrisk»
R(h) =1m
m�
i=1
��h(xi), yi
�
66 / 122 Course « InductionS » (A. Cornuéjols)
StaMsMcaltheoryoflearning:theERM
n Learningstrategy:
– Selectanhypothesiswithnullempiricalrisk(notrainingerror)
– WhichgeneralizaMonperformancetoexpectforh?
x
y
h
x
y
f
h
67 / 122 Course « InductionS » (A. Cornuéjols)
StaMsMcaltheoryoflearning:theERM
– Selectanhypothesiswithnullempiricalrisk(notrainingerror)
– WhichgeneralizaMonperformancetoexpectforh?
– WhatistheriskofgeTngerrorR(h)>ε?
x
y
f
h
h � f
x
y
f
h
68 / 122 Course « InductionS » (A. Cornuéjols)
69 / 122 Course « InductionS » (A. Cornuéjols)
QuesMoncentrale:leprincipeinducMf
n LeprincipedeminimisaMondurisqueempirique(ERM)
…est-ilsain?
– Sijechoisishtelleque
– Est-cequehestbonnerelaMvementaurisqueréel?
– Est-cequej’auraispufairebeaucoupmieux?
R(h)? ! R(h)
70 / 122 Course « InductionS » (A. Cornuéjols)
Théoriesta4s4quedel’apprenMssage
Le1ertemps
Unindividu
71 / 122 Course « InductionS » (A. Cornuéjols)
Étudesta4s4quepourUNEhypothèse
– choixd’unehypothèsederisqueempiriquenul(pasd’erreursur
l’échanMllond’apprenMssageS)
– QuelleperformanceaBenduepourh?
– Quelestlerisqued’avoiruneerreurR(h)>ε?
x
y
f
h
h � f
x
y
f
h
72 / 122 Course « InductionS » (A. Cornuéjols)
Étudesta4s4quepourUNEhypothèse
n Supposonshtq.(h«mauvaise»)
n QuelleestlaprobabilitéquepourtanthaitétésélecMonnée?
x
y
f
h
h � f
R(h) � �
R(h) = pX (h � f)
Aprèsunexemple: p�R(h
�= 0) � 1� �
Aprèsmexemple(i.i.d.):
pm�R(h
�= 0) � (1� �)m
Onveut: � ⇥, � � [0, 1] : pm�R(h
�� ⇥) � �
«tombe»endehorsdeh � f
73 / 122 Course « InductionS » (A. Cornuéjols)
Étudesta4s4quepourUNEhypothèse
n Oncherche:
x
y
f
h
h � f
Soit:
D’où:
� ⇥, � � [0, 1] : pm�R(h
�� ⇥) � �
(1 � �)m � �
e�� m � �
�⇥ m � ln(�)
m � ln(1/�)⇥
<
74 / 122 Course « InductionS » (A. Cornuéjols)
Théoriesta4s4quedel’apprenMssage
Le2èmetemps
QuelindividudanslaFoule
75 / 122 Course « InductionS » (A. Cornuéjols)
Étudesta4s4quepour|H|hypothèses
n Quelleestlaprobabilitéquejechoisisseunehypothèseherrderisqueréel>ε
etquejenem’enaperçoivepasaprèsl’observaMondemexemples?
n Probabilitédesurviedeherraprès1exemple:
n Probabilitédesurviedeherraprèsmexemples:
n Probabilitédesurvied’aumoinsunehypothèsedansH:
– OnuMliselaprobabilitédel’union
n Onveutquelaprobabilitéqu’ilresteaumoinsunehypothèsede
risqueréel>εdansl’espacedesversionssoitbornéeparδ:
76 / 122 Course « InductionS » (A. Cornuéjols)
L’analyse«PAClearning»
n Onarriveà:
=0
Casréalisable:ilexisteaumoinsunefoncMonhderisque0
LeprincipedeminimisaMondurisqueempirique
n’estsainquesiilyadescontraintessurl’espacedeshypothèses
77 / 122 Course « InductionS » (A. Cornuéjols)
PAClearning:definiMon
n Worstcaseanalysis
– Againstalldistribu4onsP
– Foranytargethypothesisinaclassofhypotheses
n NoMonofcomputa/onalcomplexity
Given 0 < �, " < 1, a concept class C is learnable by a polynomial time algorithm A if,
for any distribution P of samples and any concept c 2 C,
there exists a polynomial p(·, ·, ·) such that
A will produce with probability at least 1� � a hypothesis h 2 C whose error is "
when given at least p(m, 1/�, 1") independent random examples drawn according to P .
[Valiant,1984]
78 / 122 Course « InductionS » (A. Cornuéjols)
ThestaMsMcaltheoryoflearning
Uniformconvergencebounds
(fortheunrealizablecase)
79 / 122 Course « InductionS » (A. Cornuéjols)
Generalizingthelawoflargenumbers:uniformconvergence
Theoreme 1 (Inegalite de Hoe�ding). Si les �i sont des variables aleatoires,tirees independamment et selon une meme distribution et prenant leurvaleur dans l’intervalle [a, b], alors :
P
�����1m
m�
i=1
�i � E(�)���� � ⇥
�� 2 exp
�� 2 m ⇥2
(b� a)2
�
Appliquee au risque empirique et au risque reel, cette inegalite nous donne :
P�|REmp(h)�RReel(h)| ⇤ �
�⇥ 2 exp
�� 2 m �2
(b� a)2�
(1)
si la fonction de perte ⇥ est definie sur l’intervalle [a, b].
Pm[⌅h ⇤ H : RReel(h)�REmp(h) > ⇥] ⇥|H|�
i=1
Pm[RReel(hi)�REmp(hi) > ⇥]
⇥ |H| exp(�2 m ⇥2) = �
en supposant ici que la fonction de perte ⇤ prend ses valeurs dans l’intervalle[0, 1].
« H fini »
80 / 122 Course « InductionS » (A. Cornuéjols)
Boundingthetrueriskwiththeempiricalrisk+…
n Hfinite,realizablecase
n Hfinite,nonrealizablecase
⌅h ⇤ H,⌅� ⇥ 1 : Pm
�RReel(h) ⇥ REmp(h) +
�log |H|+ log 1
�
2 m
�> 1� �
⌅h ⇤ H,⌅� ⇥ 1 : Pm
�RReel(h) ⇥ REmp(h) +
log |H|+ log 1�
m
�> 1� �
81 / 122 Course « InductionS » (A. Cornuéjols)
Tosumup:for|H|finite
n Nonrealizablecase
� =
�log |H|+ log 1
�
2 m and
� =log |H|+ log 1
�
mm �
log |H|+ log 1�
�
m �log |H|+ log 1
�
2 �2
n Realizablecase
and
82 / 122 Course « InductionS » (A. Cornuéjols)
83 / 122 Course « InductionS » (A. Cornuéjols)
|H|infinite!!
n EffecMvedimensionofH=theVapnik-Chervonenkisdimension
– Combinatorialcriterion
– Sizeofthelargestsetofpoints(ingeneralconfiguraMon)thatcanbelabeledinanywaybyhypothesesdrawnfrom H
Boundonthetruerisk
dV C(H) = max�m : �H(m) = 2m
�
⌅h ⇤ H,⌅� ⇥ 1 : Pm
�RReel(h) ⇥ REmp(h) +
�8 dV C(H) log 2 e m
dV C(H) + 8 log 4�
m
�> 1� �
84 / 122 Course « InductionS » (A. Cornuéjols)
VCdim:illustraMons
n dVC(linearseparator)=?
+
+ -
+
+
--
+
+
-
+
+
(a) (b) (c)
• dVC(rectangles) = ?
+
+
-- +
+
-
++
+
-
+
+
-
(a) (b) (c) (d)
+
85 / 122 Course « InductionS » (A. Cornuéjols)
Théoriesta4s4quedel’apprenMssage
Le3èmetemps
QuelleFoule?
86 / 122 Course « InductionS » (A. Cornuéjols)
SRM:StructuralRiskMinimizaMon
n Stra4fica4ondesespaces
d’hypothèses
– Faiteapriori(indépendam-
mentdesdonnées)
– ParexempleenuMlisantladVC
H1 H2 H3 H4
Risque
H
Risque réel
Risque
empirique
Intervalle
de confiance
Optimum
87 / 122 Course « InductionS » (A. Cornuéjols)
L’analyse«PAClearning»oustaMsMque
n Nouveaucritèreinduc/f:
– Lerisqueempiriquerégularisé
1. SaMsfairelescontraintesposéesparlesexemples
2. Choisirlemeilleurespaced’hypothèses(capacitédeH)
88 / 122 Course « InductionS » (A. Cornuéjols)
Lecompromisbiais-variance
n IllustraMon
H
F
×
×
×
f
h*
fb = f + bruit
×h
Erreur d'estimation
(Variance)
Erreur d'approximation
(Biais)
Erreur totale
Erreur intrinsèque
{hS}S^
^
89 / 122 Course « InductionS » (A. Cornuéjols)
Théoriesta4s4quedel’apprenMssage
Le4èmetemps
Maissil’espacedesFoules
dépenddesexemples?
90 / 122 Course « InductionS » (A. Cornuéjols)
The«luckinessframework»
n Principe:définirunordresurHquidépenddesdonnées(≠SRM)
– Sinousavonsdelachance
– Alors,iln’yaurapastropd’hypothèsesmauvaises
aussicompaMblesaveclaciblequelesbonnes
[Shawe-Tayloretal.,1998],[Mendelsson&Philips,2003]
91 / 122 Course « InductionS » (A. Cornuéjols)
L’apprenMssagedevient…
1. Lechoixdel’espacedeshypothèsesH
– Nécessairementcontraint
2. Lechoixd’uncritèreinduc4f
– Risqueempiriquenécessairementrégularisé
3. Unestratégied’explora4ondeHpourminimiser
lerisqueempiriquerégularisé
– Fairecequ’ilfautpourquel’exploraMonsoitefficace
• Rapide• SipossibleunseulopMmum
92 / 122 Course « InductionS » (A. Cornuéjols)
Unparadigmetriomphant
ApprenMssage=choixdenormes+opMmisaMon
(~1995-~20??)
93 / 122 Course « InductionS » (A. Cornuéjols)
n Poserunproblèmed’appren4ssage,c’est:
1. L’exprimersousformed’uncritèreinduc4fàopMmiser
• Risqueempirique
– avecunefonc4ond’erreuradéquate
• Untermederégularisa4on
– exprimantlescontraintes
– etconnaissancesapriori– sipossibleconduisantàproblèmeconvexe
2. Trouverunalgorithmed’op4misa4onadapté
NouvelleperspecMve
94 / 122 Course « InductionS » (A. Cornuéjols)
Cadreséduisant
n Algorithmed’appren4ssage
– Générique:minimisa3ondurisqueempiriquerégularisé
– ApprenMssage=opMmisaMon
n Faibleapriorisurlemonde
– Supposedonnées(etquesMons)i.i.d.
– f∈Houf∉H
– Valabledanslepirecas:contretoutedistribuMoncible
n BornesengénéralisaMon
– FormalisaMonmathémaMquesupportantsonbien-fondé
95 / 122 Course « InductionS » (A. Cornuéjols)
Unparadigmegénéral
n BoosMng
n Arbresdedécisions(randomforests)
n RégressionlogisMque
n Réseauxdeneurones
n SéparateursàVastesMarges(SVM)
n …
96 / 122 Course « InductionS » (A. Cornuéjols)
«TraducMon»:préférencepourleshypothèsesparcimonieuses
n Recherched’hypothèselinéaireparcimonieuse
n MéthodesdetypeLASSO
Normel1:
97 / 122 Course « InductionS » (A. Cornuéjols)
«TraducMon»:apprenMssagemulM-tâches
n TtâchesdeclassificaMonbinairedéfiniessurXxY
Partageentretâches
Hypothèseslinéaires
98 / 122 Course « InductionS » (A. Cornuéjols)
99 / 122 Course « InductionS » (A. Cornuéjols)
QuellesgaranMesexactement?
100 / 122 Course « InductionS » (A. Cornuéjols)
ApprenMssagestaMsMque:quellesgaranMes?
n Lienentrerisqueempiriqueetrisqueréel
– Coûtd’usagedeh(e.g.tauxd’erreur)
n Seulementsi
– MondestaMonnaire
– Donnéesi.i.d.
– Ques4onsi.i.d.!!?
Neditriensur:
- Intelligibilité
- Fécondité
- Insertion dans une théorie du domaine
101 / 122 Course « InductionS » (A. Cornuéjols)
Limites
n ApprenMssagepassifetdonnéesetques4onsi.i.d.
– Agentssitués:lemonden’estpasi.i.d.
n Requiertbeaucoupd’exemples
– Noussommesbeaucoupplusefficaces
– «Producteursdethéories»,théoriesquenoustestonsensuite
n Pasadaptéàlarecherchedecausalités
n Pasintégréavecunraisonnement
Cesmachinesapprenantesnesontpasdesmachinespensantes
102 / 122 Course « InductionS » (A. Cornuéjols)
Leno-free-lunchtheorem
103 / 122 Course « InductionS » (A. Cornuéjols)
Leno-free-lunchtheorem
Chapitre 2 Première approche théorique de l’induction 75
de l’« écart » entre le résultat de l’apprentissage et la nature est alors :
E[RRéel|S] =
Z
h,f
Z
x 62Sp(x) [1 � �(f(x), h(x)] p(h|S)p(f |S) (2.66)
où le symbole de Kronecker � dénote la fonction nulle partout sauf là où ses arguments sont égaux,où elle vaut 1. Nous noterons ici que la somme ne fait intervenir que les formes x non vues enapprentissage, ce qui est différent de l’espérance de risque i.i.d. dans laquelle le tirage aléatoiredes formes peut permettre le tirage de la même forme en apprentissage et en reconnaissance.Les deux expressions sont équivalentes dans le cas où l’échantillon S est de mesure nulle surl’espace des entrées possibles X . L’équation 2.66 exprime que l’espérance de risque réel étantdonné un échantillon d’apprentissage S est liée à la somme de toutes les entrées possibles x
pondérées par leur probabilité p(x), et à un « alignement » entre l’algorithme d’apprentissagecaractérisé par p(h|S) et la vraie probabilité a posteriori de la nature p(f |S). De ce fait, enl’absence d’information a priori sur la distribution p(f |S), il est impossible de dire quoi que cesoit sur la performance en généralisation de l’algorithme d’apprentissage.
Si l’affirmation précédente n’a pas suffi à plonger le lecteur dans la consternation, le corollaire15
suivant devrait achever de le faire. Nous noterons :
Ek[RRéel|f,m] =
Z
x 62Sp(x) [1 � �(f(x), h(x)] pk(h(x)|S)
l’espérance de risque associée à l’algorithme d’apprentissage Ak étant donné l’échantillon d’ap-prentissage S, et la vraie fonction de la nature f .
Théorème 2.1 (No-free-lunch theorem (Wolpert, 1992))
Pour tout couple d’algorithmes d’apprentissage A1
et A2
, caractérisés par leur distribution deprobabilité a posteriori p
1
(h|S) et p2
(h|S), et pour toute distribution dX des formes d’entrées x
et tout nombre m d’exemples d’apprentissage, les propositions suivantes sont vraies :1. En moyenne uniforme sur toutes les fonctions cible f dans F :
E1
[RRéel|f,m] � E2
[RRéel|f,m] = 0.2. Pour tout échantillon d’apprentissage S donné, en moyenne uniforme sur toutes les fonc-
tions cible f dans F : E1
[RRéel|f,S] � E2
[RRéel|f,S] = 0.3. En moyenne uniforme sur toutes les distributions possibles P(f) :
E1
[RRéel|m] � E2
[RRéel|m] = 0.4. Pour tout échantillon d’apprentissage S donné, en moyenne uniforme sur toutes les distri-
butions possibles p(f) : E1
[RRéel|S] � E2
[RRéel|S] = 0.
Pour une preuve de ce théorème, nous renvoyons le lecteur à [Wol92a]. De manière qualitative,le premier point de ce théorème exprime que quel que soit notre choix d’un « bon » algorithmed’apprentissage et d’un « mauvais » algorithme (par exemple un algorithme prédisant au hasard,ou bien une fonction constante sur X ), si toutes les fonctions cible f sont également probables,alors le « bon » algorithme aura la même performance en moyenne que le « mauvais ». Celasignifie aussi qu’il existe au moins une fonction cible pour laquelle la prédiction au hasard estmeilleure que n’importe quelle autre stratégie de prédiction.
Le deuxième point du théorème affirme la même absence de supériorité d’un algorithme d’ap-prentissage sur tout autre algorithme, même quand l’échantillon d’apprentissage est connu. En15 Du latin corollarium : « petite couronne donnée comme gratification ».
104 / 122 Course « InductionS » (A. Cornuéjols)
Leno-free-lunchtheorem
Possible
76 PARTIE 1 : Les fondements de l’apprentissage
d’autres termes, celui-ci n’apporte pas plus d’informations à un algorithme plutôt qu’à un autre,fût-il à nouveau l’algorithme de prédiction au hasard. Les points trois et quatre ne font querenforcer ces résultats en affirmant l’égalité de tous les algorithmes, si l’on prend en compte desdistributions non uniformes de fonctions cible, mais que l’on moyenne sur toutes ces distribu-tions. Bien sûr, pour une distribution donnée, un algorithme va être meilleur que les autres, àsavoir celui qui a la même distribution que P(f |S). Mais comment le deviner a priori ?
Avant de discuter des leçons à tirer du no-free-lunch theorem, il est utile d’en illustrer la forceà nouveau sur un exemple. Nous avons là en effet une sorte de loi de conservation (comme ledit Cullen Schaffer [SA94]). De même que pour chaque classe de problèmes pour laquelle unalgorithme d’apprentissage est meilleur qu’un algorithme de prédiction au hasard, il existe uneclasse de problèmes pour laquelle cet algorithme est moins bon (voir figure 2.13). De même, pourchaque algorithme d’apprentissage, il existe des problèmes pour lesquels la courbe de performanceen généralisation est ascendante et des problèmes pour lesquels cette courbe est descendante,c’est-à-dire pour lesquels plus l’algorithme apprend et plus il est mauvais en généralisation !
Systèmes
d'apprentissage
possibles
Systèmes
d'apprentissage
impossibles
0
0
0
00
0
0
0
0
00
0
00
0
0
0
00
Fig. 2.13: Le no-free-lunch-theorem prouve que pour chaque région de l’espace des problèmespour laquelle un algorithme d’apprentissage a une performance supérieure au hasard(indiqué ici par un smiley « heureux »), il existe une région pour laquelle la per-formance est moins bonne que le hasard (indiqué ici par un smiley « triste »). Un« 0 » indique ici la performance d’un algorithme au hasard, donc la performancemoyenne. Les trois figures du dessus correspondent à des situations possibles pour unalgorithme d’apprentissage, tandis que les trois figures du dessous correspondent à dessituations impossibles : celles d’un algorithme qui serait intrinsèquement supérieur àun algorithme au hasard quand on le considère sur l’ensemble des problèmes possibles(d’après [SA94]).
Exemple Algorithme d’apprentissage de plus en plus mauvais
Considérons l’algorithme de classification binaire majoritaire qui attribue à un nouveau pointl’étiquette de la classe la plus représentée dans les exemples d’apprentissage de S. Intuiti-vement, cet algorithme s’attend à ce que la classe la mieux représentée sur l’échantillond’apprentissage soit de fait majoritaire. Cet algorithme simple peut-il n’être qu’équivalentà un algorithme tirant ses prédictions au hasard ? Sans en donner une preuve formelle, ilest possible de s’en convaincre intuitivement. En effet, dans les problèmes pour lesquels uneclasse est nettement majoritaire, on peut s’attendre à ce que dans la plupart des cas l’algo-
105 / 122 Course « InductionS » (A. Cornuéjols)
Leno-free-lunchtheorem
Impossible
76 PARTIE 1 : Les fondements de l’apprentissage
d’autres termes, celui-ci n’apporte pas plus d’informations à un algorithme plutôt qu’à un autre,fût-il à nouveau l’algorithme de prédiction au hasard. Les points trois et quatre ne font querenforcer ces résultats en affirmant l’égalité de tous les algorithmes, si l’on prend en compte desdistributions non uniformes de fonctions cible, mais que l’on moyenne sur toutes ces distribu-tions. Bien sûr, pour une distribution donnée, un algorithme va être meilleur que les autres, àsavoir celui qui a la même distribution que P(f |S). Mais comment le deviner a priori ?
Avant de discuter des leçons à tirer du no-free-lunch theorem, il est utile d’en illustrer la forceà nouveau sur un exemple. Nous avons là en effet une sorte de loi de conservation (comme ledit Cullen Schaffer [SA94]). De même que pour chaque classe de problèmes pour laquelle unalgorithme d’apprentissage est meilleur qu’un algorithme de prédiction au hasard, il existe uneclasse de problèmes pour laquelle cet algorithme est moins bon (voir figure 2.13). De même, pourchaque algorithme d’apprentissage, il existe des problèmes pour lesquels la courbe de performanceen généralisation est ascendante et des problèmes pour lesquels cette courbe est descendante,c’est-à-dire pour lesquels plus l’algorithme apprend et plus il est mauvais en généralisation !
Systèmes
d'apprentissage
possibles
Systèmes
d'apprentissage
impossibles
0
0
0
00
0
0
0
0
00
0
00
0
0
0
00
Fig. 2.13: Le no-free-lunch-theorem prouve que pour chaque région de l’espace des problèmespour laquelle un algorithme d’apprentissage a une performance supérieure au hasard(indiqué ici par un smiley « heureux »), il existe une région pour laquelle la per-formance est moins bonne que le hasard (indiqué ici par un smiley « triste »). Un« 0 » indique ici la performance d’un algorithme au hasard, donc la performancemoyenne. Les trois figures du dessus correspondent à des situations possibles pour unalgorithme d’apprentissage, tandis que les trois figures du dessous correspondent à dessituations impossibles : celles d’un algorithme qui serait intrinsèquement supérieur àun algorithme au hasard quand on le considère sur l’ensemble des problèmes possibles(d’après [SA94]).
Exemple Algorithme d’apprentissage de plus en plus mauvais
Considérons l’algorithme de classification binaire majoritaire qui attribue à un nouveau pointl’étiquette de la classe la plus représentée dans les exemples d’apprentissage de S. Intuiti-vement, cet algorithme s’attend à ce que la classe la mieux représentée sur l’échantillond’apprentissage soit de fait majoritaire. Cet algorithme simple peut-il n’être qu’équivalentà un algorithme tirant ses prédictions au hasard ? Sans en donner une preuve formelle, ilest possible de s’en convaincre intuitivement. En effet, dans les problèmes pour lesquels uneclasse est nettement majoritaire, on peut s’attendre à ce que dans la plupart des cas l’algo-
76 PARTIE 1 : Les fondements de l’apprentissage
d’autres termes, celui-ci n’apporte pas plus d’informations à un algorithme plutôt qu’à un autre,fût-il à nouveau l’algorithme de prédiction au hasard. Les points trois et quatre ne font querenforcer ces résultats en affirmant l’égalité de tous les algorithmes, si l’on prend en compte desdistributions non uniformes de fonctions cible, mais que l’on moyenne sur toutes ces distribu-tions. Bien sûr, pour une distribution donnée, un algorithme va être meilleur que les autres, àsavoir celui qui a la même distribution que P(f |S). Mais comment le deviner a priori ?
Avant de discuter des leçons à tirer du no-free-lunch theorem, il est utile d’en illustrer la forceà nouveau sur un exemple. Nous avons là en effet une sorte de loi de conservation (comme ledit Cullen Schaffer [SA94]). De même que pour chaque classe de problèmes pour laquelle unalgorithme d’apprentissage est meilleur qu’un algorithme de prédiction au hasard, il existe uneclasse de problèmes pour laquelle cet algorithme est moins bon (voir figure 2.13). De même, pourchaque algorithme d’apprentissage, il existe des problèmes pour lesquels la courbe de performanceen généralisation est ascendante et des problèmes pour lesquels cette courbe est descendante,c’est-à-dire pour lesquels plus l’algorithme apprend et plus il est mauvais en généralisation !
Systèmes
d'apprentissage
possibles
Systèmes
d'apprentissage
impossibles
0
0
0
00
0
0
0
0
00
0
00
0
0
0
00
Fig. 2.13: Le no-free-lunch-theorem prouve que pour chaque région de l’espace des problèmespour laquelle un algorithme d’apprentissage a une performance supérieure au hasard(indiqué ici par un smiley « heureux »), il existe une région pour laquelle la per-formance est moins bonne que le hasard (indiqué ici par un smiley « triste »). Un« 0 » indique ici la performance d’un algorithme au hasard, donc la performancemoyenne. Les trois figures du dessus correspondent à des situations possibles pour unalgorithme d’apprentissage, tandis que les trois figures du dessous correspondent à dessituations impossibles : celles d’un algorithme qui serait intrinsèquement supérieur àun algorithme au hasard quand on le considère sur l’ensemble des problèmes possibles(d’après [SA94]).
Exemple Algorithme d’apprentissage de plus en plus mauvais
Considérons l’algorithme de classification binaire majoritaire qui attribue à un nouveau pointl’étiquette de la classe la plus représentée dans les exemples d’apprentissage de S. Intuiti-vement, cet algorithme s’attend à ce que la classe la mieux représentée sur l’échantillond’apprentissage soit de fait majoritaire. Cet algorithme simple peut-il n’être qu’équivalentà un algorithme tirant ses prédictions au hasard ? Sans en donner une preuve formelle, ilest possible de s’en convaincre intuitivement. En effet, dans les problèmes pour lesquels uneclasse est nettement majoritaire, on peut s’attendre à ce que dans la plupart des cas l’algo-
Possible
106 / 122 Course « InductionS » (A. Cornuéjols)
DéducMon!
1. TouslesalgorithmesinducMfssevalent
2. Ilnepeutyavoiraucunegaran4esurlesinduc4onsréalisées
Allons à la plage !!
107 / 122 Course « InductionS » (A. Cornuéjols)
Unpointdevueindépassable?
Quefaisait-onavant?
Lecasdel’EBL
108 / 122 Course « InductionS » (A. Cornuéjols)
Unpeud’histoire
IAetrésolu4onautoma4quedeproblèmes
n Arch[Winston,1972]
– StratégiederechercheguidéedansunespacededescripMonsstructurées
n [Simon&Lea(1979)«Problem-solvingandruleinduc/on:aunifiedview»]
– Sefocalisentsurlesmécanismesderaisonnement(generate_and_test,heurisMcsearch,hypothesis_and_match)
– Aulieudechercheràrésoudreunproblème,onchercheà«couvrir»desexemples,
maismêmestypesdeprocédures
– GPS->GRI(GeneralizedRuleInducMon)
n [TomMichell(1980,1982)«Generaliza/onasSearch»,«Theneedforbiasesinlearninggeneraliza/ons»]
– Commentorganiserlarecherched’une(bonne)hypothèse
– Sipasdebiais,l’apprenMssagenepeutpasfairemieuxquel’apprenMssageparcœur
n [DavidHaussler(1988)«Quan/fyinginduc/vebias:AIlearningalgorithmsandValiant’slearning»]
– QuanMficaMondubiais(parladimensiondeVapnik-Cervonenkis)declassesd’expressionslogiques
109 / 122 Course « InductionS » (A. Cornuéjols)
L’apprenMssage…
…comme
l’amélioraMondel’efficacitéd’unrésolveurdeproblème
110 / 122 Course « InductionS » (A. Cornuéjols)
Apprendreàpar4rd’unexemple
1. Unexempleunique
2. Recherchedelapreuvedela
«fourcheBe»
3. Généralisa4on
ExplanaMon-BasedLearning
111 / 122 Course « InductionS » (A. Cornuéjols)
ExplanaMon-BasedLearning
Ex:apprendreleconceptempilable(Objet1, Objet2)
n Théorie:
(T1) : poids(X, W) :- volume(X, V), densité(X, D), W is V*D.
(T2) : poids(X, 50) :- est-un(X, table).
(T3) : plus-léger(X, Y) :- poids(X, W1), poids(X, W2), W1 < W2.
n Contrainted’opéra4onalité:
• Conceptàexprimeràl’aidedesprédicatsvolume,densité,couleur,…
n Exempleposi4f(soluMon):
sur(obj1, obj2). volume(objet1, 1).
est_un(objet1, boîte). volume(objet2, 0.1).
est_un(objet2, table). propriétaire(objet1, frederic).
couleur(objet1, rouge). densité(objet1, 0.3).
couleur(objet2, bleu). matériau(objet1, carton).
matériau(objet2, bois). propriétaire(objet2, marc).
112 / 122 Course « InductionS » (A. Cornuéjols)
ExplanaMon-BasedLearning
Arbredepreuvegénéraliséobtenuparrégressionduconceptcibledansl’arbredepreuve
encalculantàchaqueétapelesliBérauxlesplusgénérauxpermeBantceBeétape.
113 / 122 Course « InductionS » (A. Cornuéjols)
ExplanaMon-BasedLearning
n InducMonàpar4rd’unseulexemple
– …etd’unethéoriefortedudomaine
n Langagedelalogique
n Opérateursderaisonnement(déducMon,…)
n Maintenantu/liséesdansles«solveurs»deproblèmesSAT.
114 / 122 Course « InductionS » (A. Cornuéjols)
ExplanaMon-BasedLearning
n Quecherche-t-onàprouver?
n Qu’est-cequiestunebonne(moinsbonne)théorie/méthode?
115 / 122 Course « InductionS » (A. Cornuéjols)
ExplanaMon-BasedLearning
n Quecherche-t-onàprouver?
n Qu’est-cequiestunebonne(moinsbonne)théorie/méthode?
1. Méthodeaméliorantlesperformancesderésolu4ondeproblème
– [SteveMinton(1990)«Quan/ta/veresultsconcerningtheu3lityofExplana/on-BasedLearning»]
2. Méthode«reproduisant»lesperformances(etlimites)
d’unagentcogni4fnaturel(animalouhumain)
– [Laird,Rosenbloom,Newell(1986)«ChunkinginSOAR:Theanatomyofagenerallearningmechanism»]
– [Anderson(1993)«Rulesofthemind»;Taatgen(2003)«Learningrulesandproduc/ons»]
116 / 122 Course « InductionS » (A. Cornuéjols)
ExplanaMon-BasedLearning
1. Onnes’interrogepasdirectementsurlavaliditédeshypothèses
induites(i.e.espérancedecoût)
2. «UMlity»~espéranced’u4lité
entermesdesituaMonsderésolu4ondeproblèmes
117 / 122 Course « InductionS » (A. Cornuéjols)
ExplanaMon-BasedLearning
n QuesMonstraitéesdanslespublicaMons
– Queltyped’inducMonenfoncMondelano4ondeconséquencelogique
uMlisée?
– Commentu4liserlathéoriedudomaine?
– Quefairesilathéoriedudomaineestincomplèteouerronée?
– CommentuMliserdescontre-exemples?
– Quelestlerôleducritèred’opéra4onnalité?
– QuefairesionobMentplusieursarbresdepreuves?
118 / 122 Course « InductionS » (A. Cornuéjols)
ExplanaMon-BasedLearning
n Est-cedel’inducMon?
DéducMonguidéepardescritèresd’opéraMonnalité