Adaptability: viewpoint from INRIA-Rennes and the UNIPI-INRIA joint-work
[Big Data Live] Machine learning - Gaël Varoquaux, INRIA
-
Upload
capdigital -
Category
Documents
-
view
204 -
download
1
description
Transcript of [Big Data Live] Machine learning - Gaël Varoquaux, INRIA
-
1 Une perspective historiqueIntelligence artificielle annees 80
Concevoir des regles de decision
Apprentissage machine annees 90Les creer a partir dobservations
Apprentissage statistique annees 2000Modeliser le bruit dans les observations
Big data maintenantBeaucoup dobservations,des regles simples
Big data isnt actually interesting without machinelearning Steve Jurvetson, VC, Silicon Valley
G Varoquaux 4
-
1 Une perspective historiqueIntelligence artificielle annees 80
Concevoir des regles de decision
Apprentissage machine annees 90Les creer a partir dobservations
Apprentissage statistique annees 2000Modeliser le bruit dans les observations
Big data maintenantBeaucoup dobservations,des regles simples
Big data isnt actually interesting without machinelearning Steve Jurvetson, VC, Silicon Valley
G Varoquaux 4
-
1 Une perspective historiqueIntelligence artificielle annees 80
Concevoir des regles de decision
Apprentissage machine annees 90Les creer a partir dobservations
Apprentissage statistique annees 2000Modeliser le bruit dans les observations
Big data maintenantBeaucoup dobservations,des regles simples
Big data isnt actually interesting without machinelearning Steve Jurvetson, VC, Silicon Valley
G Varoquaux 4
-
1 Lapprentissage statistique
Exemple: reconnaissance de visage
Andre Bernard Charles Didier
G Varoquaux 5
-
1 Lapprentissage statistique
Exemple: reconnaissance de visage
Andre Bernard Charles Didier
?G Varoquaux 5
-
1 Methode nave
1 Stocker des images connues (bruitees) et les nomsqui vont avec.
2 A partir dune photo (bruitee aussi), trouver limagequi lui ressemble le plus.
Methode des plus proches voisins
Quel taux derreurs sur les images deja vues?... 0: pas derreurs
Donnees de test 6= donnees dapprentissage
G Varoquaux 6
-
1 Methode nave
1 Stocker des images connues (bruitees) et les nomsqui vont avec.
2 A partir dune photo (bruitee aussi), trouver limagequi lui ressemble le plus.
Methode des plus proches voisinsQuel taux derreurs sur les images deja vues?
... 0: pas derreurs
Donnees de test 6= donnees dapprentissage
G Varoquaux 6
-
1 1er probleme: le bruitDonnees non liees a la variable a predire
0.0 0.5 1.0 1.5 2.0 2.5 3.0Niveau de bruit
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Taux
de
pred
ictio
n
G Varoquaux 7
-
1 2eme probleme: nombre de descripteurs
Trouver une aiguille dans une botte de foin
1 2 3 4 5 6 7 8 9 10Fraction utile du cadre
0.65
0.70
0.75
0.80
0.85
0.90
0.95
Taux
de
pred
ictio
n
G Varoquaux 8
-
1 Lapprentissage statistique
Exemple: reconnaissance de visage
Andre Bernard Charles Didier
?
Apprentissage a partir dedescripteurs numeriquesDifficultes: i) bruit,
ii) nombre de descripteursTache supervisee: labels connusTache non supervisee: labels inconnus
G Varoquaux 9
-
1 Apprentissage supervise: regressionUn seul descripteur:une dimension
x
y
G Varoquaux 10
-
1 Apprentissage supervise: regressionUn seul descripteur:une dimension
x
y
x
yQuel modele preferer?
G Varoquaux 10
-
1 Apprentissage supervise: regressionUn seul descripteur:une dimension
x
y
x
yProbleme du sur-apprentissage
Minimiser lerreur nest pas toujours favorable(apprentissage du bruit)
Donnees de test 6= donnees dapprentissageG Varoquaux 10
-
1 Apprentissage supervise: regressionUn seul descripteur:une dimension
x
y
x
yPreferer les modeles simples
= concept de regularisationEquilibrer le nombre de parametres a apprendreavec la quantite de donnees
G Varoquaux 10
-
1 Apprentissage supervise: regressionUn seul descripteur:une dimension
x
yDeux descripteurs:2 dimensions
X_1
X_2
y
Plus de parametres
G Varoquaux 10
-
1 Apprentissage supervise: regressionUn seul descripteur:une dimension
x
yDeux descripteurs:2 dimensions
X_1
X_2
y
Plus de parametres besoin de plus de donnees
malediction de la dimensionalite
G Varoquaux 10
-
1 Apprentissage supervise: classificationVariable a predire categorielle, par ex. des chiffres
X2
X1G Varoquaux 11
-
1 Apprentissage non supervise
Structure de la bourse
Donnees non labeliseesplus courantes que les donnees labelisees
G Varoquaux 12
-
1 Apprentissage non supervise
Structure de la bourse
Donnees non labeliseesplus courantes que les donnees labelisees
G Varoquaux 12
-
1 Systemes de recommandation
G Varoquaux 13
-
1 Systemes de recommandation
Andre ? ? ? ?Bernard ?? ? ? ?Charles ? ? ? ??
Didier ? ? ? ?Edouard ?? ? ? ?
Peu de recoupement entre utilisateurs
G Varoquaux 13
-
1 Lapprentissage statistique
Des defis
StatistiquesComputationels
G Varoquaux 14
-
1 Strategies dapprentissage sur du big data
Big data
Lacces aux donnees limite plus quela puissance de calcul
G Varoquaux 15
-
1 Strategies dapprentissage sur du big data
1 Reduction de donnees a la volee
Une reduction rapide,respectant les proprietesstatistiques des donnees
Limite la charge memoire + disque
G Varoquaux 15
-
1 Strategies dapprentissage sur du big data
1 Reduction de donnees a la volee2 Algorithmes en ligne
Consomment les donnees en flux
Convergent vers des grandeurs moyennes
G Varoquaux 15
-
1 Strategies dapprentissage sur du big data
1 Reduction de donnees a la volee2 Algorithmes en ligne3 Parallelisme par decoupage des donnees
Stratification pour suivrela structure statistique etde stockage des donneesTaille des blocs adapteaux unites de calcul
G Varoquaux 15
-
1 Strategies dapprentissage sur du big data
1 Reduction de donnees a la volee2 Algorithmes en ligne3 Parallelisme par decoupage des donnees4 Caching
Minimiser la latence dacces aux donnees
Ne pas recalculer la meme chose
G Varoquaux 15
-
1 Strategies dapprentissage sur du big data
1 Reduction de donnees a la volee2 Algorithmes en ligne3 Parallelisme par decoupage des donnees4 Caching5 Acces rapide aux donnees
Representation coherente avec les motifs daccesCompression pour limiter la bande consommee
G Varoquaux 15
-
1 Apprentissage statistique et big data
Un fort potentiel
Apprendre une logiquedecisionnelle riche
Des defis
Statistiquesgrande dimension
ComputationelsDe mise en oeuvre
G Varoquaux 16
-
2 De lactivite des neurones ala pensee
G Varoquaux 17
-
2 LIRM fonctionnelle
t
Enregistrement de lactivite cerebrale
G Varoquaux 18
-
2 NeuroImagerie cognitive
Apprendre un lien bilateral entre activitecerebrale et fonction cognitive
G Varoquaux 19
-
2 Decodage
Lire dans les pensees
G Varoquaux 20
-
2 Modeles dencodage
Predire la reponse neuraleapprendre les representations
G Varoquaux 21
-
2 Accumulation de donnees pour la specificite
Chaque experience ne touche qua peu de domainescognitifs meta analyses
G Varoquaux 22
-
2 Accumulation de donnees pour la specificite
Motor
Highlevel
Visual
Audio
Atlas cognitif
Problematique dapprentissageet de big data en sciencefondementale
G Varoquaux 23
-
2 Accumulation de donnees pour la specificite
Motor
Highlevel
Visual
Audio
Atlas cognitif
Problematique dapprentissageet de big data en sciencefondementale
G Varoquaux 23
-
3 Scikit-learn: une boite aoutils dapprentissage
cTheodore W. GrayG Varoquaux 24
-
3 scikit-learn
Lapprentissage statistique pour tousPas de domaine dapplication specifique
Pas de prerequis en machine learning
Librairie logicielle de qualiteInterfaces pensees pour lutilisateur
Developpement communautaireLicense BSD, contributeurs tres varies
http://scikit-learn.org
G Varoquaux 25
http://scikit-learn.org -
3 Une bibliotheque Python
Une bibliotheque, pas un programmePlus expressif et polyvalentFacile a integrer
Python:Un langage haut niveau- interactif,- facile a debugger,- dapplication generaleEcosysteme tres dynamique
G Varoquaux 26
-
3 Performance computationelle
scikit-learn mlpy pybrain pymvpa mdp shogunSVM 5.2 9.47 17.5 11.52 40.48 5.63LARS 1.17 105.3 - 37.35 - -Elastic Net 0.52 73.7 - 1.44 - -kNN 0.57 1.41 - 0.56 0.58 1.36PCA 0.18 - - 8.93 0.47 0.33k-Means 1.34 0.79 - 35.75 0.68
Optimisations algorithmiques et non bas niveau
Minimiser les copies des donnees
G Varoquaux 27
-
3 Developpement comunautaireEnormement de fonctionnalites:
benefices dune grande equipe
Croissance du projet:
Plus de 200 contributeurs 12 developpeurs coeur
1 ingenieur INRIA temps plein
Cout de developpement estime: 6 millions $Modele COCOMO,http://www.ohloh.net/p/scikit-learn
G Varoquaux 28
http://www.ohloh.net/p/scikit-learn -
3 Cles de succes du developpement libre
1 Un marche dynamique2 Developpement transparent3 Identite du projet non monopolisee4 Grande qualite technique du projet5 Contributeurs valorises6 Recrutement actif7 Communication / marketing
Les limites du modele
Fuite des cerveaux.Nous narrivons pas a payer assezles meilleurs developeurs.Ils sont embauches grace a leurscontributions mais disparaissent.
G Varoquaux 29
-
3 Cles de succes du developpement libre
1 Un marche dynamique2 Developpement transparent3 Identite du projet non monopolisee4 Grande qualite technique du projet5 Contributeurs valorises6 Recrutement actif7 Communication / marketing
Les limites du modele
Fuite des cerveaux.Nous narrivons pas a payer assezles meilleurs developeurs.Ils sont embauches grace a leurscontributions mais disparaissent.
G Varoquaux 29
-
Apprentissage statistique et big data
Lapprentissage confere de la valeur au big data
Il sappuie sur les statistiques, et linformatiquetheorique et appliquee
Toutes les disciplines connaissent un essort du bigdata
Le logiciel est critique et le developpement libre bienadapte
@GaelVaroquaux