[Big Data Live] Machine learning - Gaël Varoquaux, INRIA

download [Big Data Live] Machine learning - Gaël Varoquaux, INRIA

If you can't read please download the document

description

Chercheur à l’INRIA sur l’analyse du cerveau à partir d’imagerie médicale dans l’équipe PARIETAL, Gaël Varoquaux est également l’un des porteurs du projet Scikit-learn, qui vise à démocratiser les techniques de machine-learning aux industriels et aux chercheurs issus d’autres domaines que les mathématiques.

Transcript of [Big Data Live] Machine learning - Gaël Varoquaux, INRIA

  • 1 Une perspective historiqueIntelligence artificielle annees 80

    Concevoir des regles de decision

    Apprentissage machine annees 90Les creer a partir dobservations

    Apprentissage statistique annees 2000Modeliser le bruit dans les observations

    Big data maintenantBeaucoup dobservations,des regles simples

    Big data isnt actually interesting without machinelearning Steve Jurvetson, VC, Silicon Valley

    G Varoquaux 4

  • 1 Une perspective historiqueIntelligence artificielle annees 80

    Concevoir des regles de decision

    Apprentissage machine annees 90Les creer a partir dobservations

    Apprentissage statistique annees 2000Modeliser le bruit dans les observations

    Big data maintenantBeaucoup dobservations,des regles simples

    Big data isnt actually interesting without machinelearning Steve Jurvetson, VC, Silicon Valley

    G Varoquaux 4

  • 1 Une perspective historiqueIntelligence artificielle annees 80

    Concevoir des regles de decision

    Apprentissage machine annees 90Les creer a partir dobservations

    Apprentissage statistique annees 2000Modeliser le bruit dans les observations

    Big data maintenantBeaucoup dobservations,des regles simples

    Big data isnt actually interesting without machinelearning Steve Jurvetson, VC, Silicon Valley

    G Varoquaux 4

  • 1 Lapprentissage statistique

    Exemple: reconnaissance de visage

    Andre Bernard Charles Didier

    G Varoquaux 5

  • 1 Lapprentissage statistique

    Exemple: reconnaissance de visage

    Andre Bernard Charles Didier

    ?G Varoquaux 5

  • 1 Methode nave

    1 Stocker des images connues (bruitees) et les nomsqui vont avec.

    2 A partir dune photo (bruitee aussi), trouver limagequi lui ressemble le plus.

    Methode des plus proches voisins

    Quel taux derreurs sur les images deja vues?... 0: pas derreurs

    Donnees de test 6= donnees dapprentissage

    G Varoquaux 6

  • 1 Methode nave

    1 Stocker des images connues (bruitees) et les nomsqui vont avec.

    2 A partir dune photo (bruitee aussi), trouver limagequi lui ressemble le plus.

    Methode des plus proches voisinsQuel taux derreurs sur les images deja vues?

    ... 0: pas derreurs

    Donnees de test 6= donnees dapprentissage

    G Varoquaux 6

  • 1 1er probleme: le bruitDonnees non liees a la variable a predire

    0.0 0.5 1.0 1.5 2.0 2.5 3.0Niveau de bruit

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1.0

    Taux

    de

    pred

    ictio

    n

    G Varoquaux 7

  • 1 2eme probleme: nombre de descripteurs

    Trouver une aiguille dans une botte de foin

    1 2 3 4 5 6 7 8 9 10Fraction utile du cadre

    0.65

    0.70

    0.75

    0.80

    0.85

    0.90

    0.95

    Taux

    de

    pred

    ictio

    n

    G Varoquaux 8

  • 1 Lapprentissage statistique

    Exemple: reconnaissance de visage

    Andre Bernard Charles Didier

    ?

    Apprentissage a partir dedescripteurs numeriquesDifficultes: i) bruit,

    ii) nombre de descripteursTache supervisee: labels connusTache non supervisee: labels inconnus

    G Varoquaux 9

  • 1 Apprentissage supervise: regressionUn seul descripteur:une dimension

    x

    y

    G Varoquaux 10

  • 1 Apprentissage supervise: regressionUn seul descripteur:une dimension

    x

    y

    x

    yQuel modele preferer?

    G Varoquaux 10

  • 1 Apprentissage supervise: regressionUn seul descripteur:une dimension

    x

    y

    x

    yProbleme du sur-apprentissage

    Minimiser lerreur nest pas toujours favorable(apprentissage du bruit)

    Donnees de test 6= donnees dapprentissageG Varoquaux 10

  • 1 Apprentissage supervise: regressionUn seul descripteur:une dimension

    x

    y

    x

    yPreferer les modeles simples

    = concept de regularisationEquilibrer le nombre de parametres a apprendreavec la quantite de donnees

    G Varoquaux 10

  • 1 Apprentissage supervise: regressionUn seul descripteur:une dimension

    x

    yDeux descripteurs:2 dimensions

    X_1

    X_2

    y

    Plus de parametres

    G Varoquaux 10

  • 1 Apprentissage supervise: regressionUn seul descripteur:une dimension

    x

    yDeux descripteurs:2 dimensions

    X_1

    X_2

    y

    Plus de parametres besoin de plus de donnees

    malediction de la dimensionalite

    G Varoquaux 10

  • 1 Apprentissage supervise: classificationVariable a predire categorielle, par ex. des chiffres

    X2

    X1G Varoquaux 11

  • 1 Apprentissage non supervise

    Structure de la bourse

    Donnees non labeliseesplus courantes que les donnees labelisees

    G Varoquaux 12

  • 1 Apprentissage non supervise

    Structure de la bourse

    Donnees non labeliseesplus courantes que les donnees labelisees

    G Varoquaux 12

  • 1 Systemes de recommandation

    G Varoquaux 13

  • 1 Systemes de recommandation

    Andre ? ? ? ?Bernard ?? ? ? ?Charles ? ? ? ??

    Didier ? ? ? ?Edouard ?? ? ? ?

    Peu de recoupement entre utilisateurs

    G Varoquaux 13

  • 1 Lapprentissage statistique

    Des defis

    StatistiquesComputationels

    G Varoquaux 14

  • 1 Strategies dapprentissage sur du big data

    Big data

    Lacces aux donnees limite plus quela puissance de calcul

    G Varoquaux 15

  • 1 Strategies dapprentissage sur du big data

    1 Reduction de donnees a la volee

    Une reduction rapide,respectant les proprietesstatistiques des donnees

    Limite la charge memoire + disque

    G Varoquaux 15

  • 1 Strategies dapprentissage sur du big data

    1 Reduction de donnees a la volee2 Algorithmes en ligne

    Consomment les donnees en flux

    Convergent vers des grandeurs moyennes

    G Varoquaux 15

  • 1 Strategies dapprentissage sur du big data

    1 Reduction de donnees a la volee2 Algorithmes en ligne3 Parallelisme par decoupage des donnees

    Stratification pour suivrela structure statistique etde stockage des donneesTaille des blocs adapteaux unites de calcul

    G Varoquaux 15

  • 1 Strategies dapprentissage sur du big data

    1 Reduction de donnees a la volee2 Algorithmes en ligne3 Parallelisme par decoupage des donnees4 Caching

    Minimiser la latence dacces aux donnees

    Ne pas recalculer la meme chose

    G Varoquaux 15

  • 1 Strategies dapprentissage sur du big data

    1 Reduction de donnees a la volee2 Algorithmes en ligne3 Parallelisme par decoupage des donnees4 Caching5 Acces rapide aux donnees

    Representation coherente avec les motifs daccesCompression pour limiter la bande consommee

    G Varoquaux 15

  • 1 Apprentissage statistique et big data

    Un fort potentiel

    Apprendre une logiquedecisionnelle riche

    Des defis

    Statistiquesgrande dimension

    ComputationelsDe mise en oeuvre

    G Varoquaux 16

  • 2 De lactivite des neurones ala pensee

    G Varoquaux 17

  • 2 LIRM fonctionnelle

    t

    Enregistrement de lactivite cerebrale

    G Varoquaux 18

  • 2 NeuroImagerie cognitive

    Apprendre un lien bilateral entre activitecerebrale et fonction cognitive

    G Varoquaux 19

  • 2 Decodage

    Lire dans les pensees

    G Varoquaux 20

  • 2 Modeles dencodage

    Predire la reponse neuraleapprendre les representations

    G Varoquaux 21

  • 2 Accumulation de donnees pour la specificite

    Chaque experience ne touche qua peu de domainescognitifs meta analyses

    G Varoquaux 22

  • 2 Accumulation de donnees pour la specificite

    Motor

    Highlevel

    Visual

    Audio

    Atlas cognitif

    Problematique dapprentissageet de big data en sciencefondementale

    G Varoquaux 23

  • 2 Accumulation de donnees pour la specificite

    Motor

    Highlevel

    Visual

    Audio

    Atlas cognitif

    Problematique dapprentissageet de big data en sciencefondementale

    G Varoquaux 23

  • 3 Scikit-learn: une boite aoutils dapprentissage

    cTheodore W. GrayG Varoquaux 24

  • 3 scikit-learn

    Lapprentissage statistique pour tousPas de domaine dapplication specifique

    Pas de prerequis en machine learning

    Librairie logicielle de qualiteInterfaces pensees pour lutilisateur

    Developpement communautaireLicense BSD, contributeurs tres varies

    http://scikit-learn.org

    G Varoquaux 25

    http://scikit-learn.org
  • 3 Une bibliotheque Python

    Une bibliotheque, pas un programmePlus expressif et polyvalentFacile a integrer

    Python:Un langage haut niveau- interactif,- facile a debugger,- dapplication generaleEcosysteme tres dynamique

    G Varoquaux 26

  • 3 Performance computationelle

    scikit-learn mlpy pybrain pymvpa mdp shogunSVM 5.2 9.47 17.5 11.52 40.48 5.63LARS 1.17 105.3 - 37.35 - -Elastic Net 0.52 73.7 - 1.44 - -kNN 0.57 1.41 - 0.56 0.58 1.36PCA 0.18 - - 8.93 0.47 0.33k-Means 1.34 0.79 - 35.75 0.68

    Optimisations algorithmiques et non bas niveau

    Minimiser les copies des donnees

    G Varoquaux 27

  • 3 Developpement comunautaireEnormement de fonctionnalites:

    benefices dune grande equipe

    Croissance du projet:

    Plus de 200 contributeurs 12 developpeurs coeur

    1 ingenieur INRIA temps plein

    Cout de developpement estime: 6 millions $Modele COCOMO,http://www.ohloh.net/p/scikit-learn

    G Varoquaux 28

    http://www.ohloh.net/p/scikit-learn
  • 3 Cles de succes du developpement libre

    1 Un marche dynamique2 Developpement transparent3 Identite du projet non monopolisee4 Grande qualite technique du projet5 Contributeurs valorises6 Recrutement actif7 Communication / marketing

    Les limites du modele

    Fuite des cerveaux.Nous narrivons pas a payer assezles meilleurs developeurs.Ils sont embauches grace a leurscontributions mais disparaissent.

    G Varoquaux 29

  • 3 Cles de succes du developpement libre

    1 Un marche dynamique2 Developpement transparent3 Identite du projet non monopolisee4 Grande qualite technique du projet5 Contributeurs valorises6 Recrutement actif7 Communication / marketing

    Les limites du modele

    Fuite des cerveaux.Nous narrivons pas a payer assezles meilleurs developeurs.Ils sont embauches grace a leurscontributions mais disparaissent.

    G Varoquaux 29

  • Apprentissage statistique et big data

    Lapprentissage confere de la valeur au big data

    Il sappuie sur les statistiques, et linformatiquetheorique et appliquee

    Toutes les disciplines connaissent un essort du bigdata

    Le logiciel est critique et le developpement libre bienadapte

    @GaelVaroquaux