Softshake 2015 - Des small data aux big data - Méthodes et Technologies

54
1 Tél : +41 21 312 94 15 www.octo.com © OCTO 2015 Avenue du théâtre 7 CH-1005 Lausanne - SUISSE Des small data aux big data Méthodes et technologies

Transcript of Softshake 2015 - Des small data aux big data - Méthodes et Technologies

Page 1: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

1

Tél : +41 21 312 94 15 www.octo.com

© OCTO 2015

Avenue du théâtre 7 CH-1005 Lausanne - SUISSE

Des small data aux big data Méthodes et technologies

Page 2: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

2

Tél : +41 21 312 94 15 www.octo.com

© OCTO 2015

Avenue du théâtre 7 CH-1005 Lausanne - SUISSE

Benoît Béraud Consultant OCTO Suisse [email protected]

Nicolas Cavallo Consultant OCTO France [email protected]

Page 3: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

3

Pourquoi les bigdata ?

De la statistique à l’apprentissage

Aperçu des technologies

Cas client

Conclusion

Page 4: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

4

Pourquoi les big data ?

Page 5: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

5

Source : Intel Free Press

Page 6: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

6

Source : Intel Free Press

Page 7: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

7

Source : Intel Free Press

Page 8: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

8

Un monde qui change

Plus de Volume Plus de Vitesse Plus de diVersité

Ceci est un constat (les 3V) mais pas une définition du bigdata

Quid de la production de valeur ?

Page 9: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

9

Page 10: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

10

Moore à la rescousse

Mais pas partout …

Vive la loi de Moore

Des disques dur plus volumineux

Des CPUs plus rapides

De la RAM de moins en moins

chère

Page 11: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

11

Tout augmente ! Sauf…

0

10

20

30

40

50

60

70

1991 1996 1998 2001 2006

Déb

it (M

B/s

) Gain : x91

64 MB/s

0,7 MB/s

Seagate Barracuda 7200.10

Seagate Barracuda ATA IV

IBM DTTA 35010

Gain : x100 000

1990 2010 Lire l’intégralité d’un disque prend aujourd’hui 100 à 1000 fois plus de temps qu’il y a 30 ans

Page 12: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

12

On a besoin de nouveaux outils pour

Adresser les limitations d’IO

Traiter des volumes

gigantesques

Réagir de plus en plus vite

Page 13: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

13

De la statistique à l’apprentissage

Page 14: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

14

« Science et techniques d'interprétation mathématique de données complexes et nombreuses» définition LeRobert

La Statistique

STATISTIQUE

Activité qui consiste à

réunir des données

Méthode de traitement et d’interprétation des

données

Page 15: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

15

De 1900 à 1950

Décrire des « grands » ensembles de données

Les sondages Les Tests

Les intervalles de confiance

Extrapoler un échantillon à une population mère

Statistique descriptive

Statistique inférentielle Statistique exploratoire

unidimensionnelles

bidimensionnelles

La méthodologie statistique n’apparait véritablement qu’en 1900. Deux grandes familles émergent alors :

Page 16: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

16

Evolution du contexte technologique

Des small Data … Au Big Data

1970 -1980 Taille : Ko Les premiers outils informatiques, l’analyse de données se développe (ACP AFC). On explore les données

1980 -1990 Taille : Mo Début de l’intelligence artificielle. Apprentissage des « réseaux de neurones »

1990 -2000 Taille : Go On stocke les données (DataWarehouse), on commence à s’en servir pour l’aide à la décision grâce à la fouille de données (Data Mining )

2000 - … Taille : To Le nombre de données explose. Le fléau de la dimension oblige la statistique à évoluer

1940 -1970 Taille : Octets <100 individus, <10 variables Modèle linéaire Test

Page 17: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

17

Les limites de la statistique inférentielle

Risque de conclure à des liens artificiels

  Corrélation fallacieuse   Régression fallacieuse   p-value concluant

systématiquement à une significativité statistique

Limites de l’analyse statistique « classique » lorsque les données sont volumineuses

Statistique inférentielle

Conséquence : la prédiction deviendrait impossible ?

Page 18: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

18

Un autre paradigme : l’apprentissage statistique

Statistique inférentielle

Statistique exploratoire

Théorie de l’apprentissage statistique

•  On n’extrapole plus à une population mère : le modèle suit les données, et non plus l’inverse

•  La découverte de régularités dans les données permettent de comprendre et/ou de prédire

•  L’objectif de qualité de la prédiction l’emporte sur la réalité du modèle devenu « boite noire »

•  Le rééchantillonnage permet de valider les structures

Page 19: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

19

Un autre paradigme : l’apprentissage statistique

Théorie de l’apprentissage statistique

Apprentissage non supervisé

Apprentissage supervisé

Page 20: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

20

Validation croisée   Objectif : on veut vérifier que notre modèle s’applique à de nouvelles données

Besoin de données pour le rééchantillonnage validation croisée

Base initiale

On crée notre modèle On le teste

L’efficacité de notre modèle est mesurée sur des nouvelles données X 10

Validation croisée

Page 21: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

21

Les méthodes ensemblistes   Objectif : Prédire ! Au risque de complexifier le modèle…

Besoin de données pour le rééchantillonnage les méthodes ensemblistes

X1 X2 X3 X4 X5

Individu 1 3 1 4 0 2

Individu 2 2 2 7 0 1

Individu 3 5 5 4 1 4

Individu 4 3 4 3 1 2

Individu 5 2 6 1 0 3

Vote ou moyenne

Prédiction

Modèle 1

Modèle 2

Modèle 3

Exemple : les Random Forest Bagging : constitution de plusieurs arbres par tirages aléatoires successifs d’individus

Page 22: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

22

Besoin de données pour le rééchantillonnage les méthodes ensemblistes

X1 X2 X3 X4 X5

Individu 1 3 1 4 0 2

Individu 2 2 2 7 0 1

Individu 3 5 5 4 1 4

Individu 4 3 4 3 1 2

Individu 5 2 6 1 0 3

Vote ou

moyenne Prédiction

Modèle 1 Modèle 2 Modèle 3

Exemple : les Random Forest Feature sampling : constitution de plusieurs arbres par tirages aléatoires successifs de variables

ATTENTION Les modèles deviennent

souvent des « boites noires »

POUR EN SAVOIR PLUSData Science : fondamentaux et

études de cas livre OCTO (EYROLLES)

Page 23: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

23

𝑤↓1 

𝑤↓2  𝑤↓𝑃 

Le retour des réseaux de neurones

𝑋↓1 

𝑋↓2  𝑋↓𝑝 

Un neurone

Un réseau de neurones (perceptron)

Couche cachée

Couche de sortie

Couche d’entrée

y ∑ |  𝑓

∑ |  𝑓

∑ |  𝑓

∑ |  𝑓

𝑓

𝑓

𝑓

𝑓

𝑋↓1  𝑋↓2 

𝑋↓𝑝 

𝑋↓𝑗 

Page 24: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

24

Layer 4Layer 3Layer 2Layer 1

Années 1980 : « à l’époque, c’était bien difficile. Nous n’avions pas de grands ensembles de données, ni d’ordinateurs rapides » (Yann Lecun)

De plus en plus utilisé :   Reconnaissance vocal : Siri, Cortana, google now,   Reconnaissance d’images : google maps (déchiffrer les textes dans le paysage),

Deep Face (facebook), googLeNet

L’avènement du Deep Learning

Le deep learning, un fonctionnement multi-couche

Page 25: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

25

Description d’images grâce au Deep Learning

GoogLeNET, ça c’est du Deep Learning :

A group of young people playing a game of frisbee

A yellow school bus parked in a parking lot

Page 26: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

26

Jusqu’à présent, on avait besoin d’énorme base de données supervisée

Mais en 2012, « Google Brain » découvre par lui-même le concept de chat… …. En visionnant 10 millions de captures d’écrans de Youtube… non étiquetées !

L’apprentissage non supervisé, plus proche encore de l’apprentissage humain

L’apprentissage non supervisé

On détecte les objets Avec une seule image, on les nomme

Nuage Eléphant

Etoile Chat

Apprentissage non supervisé Apprentissage supervisé

On observe notre environnement

Page 27: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

27

Pour tirer vraiment parti de la puissance de l’apprentissage statistique, il faut entrer pleinement dans l’ère des big data : plus on a de données, plus les apprentissages peuvent être fins

En conséquence, les exigences en termes de stockage et de capacité de traitement sont fortes

L’apprentissage a besoin de données

Il faut donc maitriser les technologies, et il n’est pas étonnant que les leaders actuels dans la R&D en machine learning soient aussi des leaders technologiques : Google, Facebook…

Page 28: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

28

Aperçu des technologies

Page 29: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

29

Comment faire encore plus ?

Stratégies de montée en puissance

Scale-up Scale-out

Page 30: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

30

Nouveaux problèmes

Toute solution amène de nouveaux problèmes. Loi de Murphy

Pas ACID

Atomicity Coherency Isolation Durability

Théorème CAP

Coherency Availability Partition

Nouveaux paradigmes

Drivers Tests

MapReduce

Page 31: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

31 Image from - http://mm-tom.s3.amazonaws.com/blog/MapReduce.png

3 étapes :   Une étape « Map » où les données au format d’entrée sont découpées au

format clef/valeur   Une étape « Shuffle » qui opère une passe de tri et regroupe les données par clef   Une étape « Reduce » qui agrège les différents résultats par clef et produit le résultat

final

MapReduce

MapReduce est une façon de formaliser un traitement pour être efficace lors d’une exécution distribuée.

Ce n’est pas une technologie, ni un algorithme, ni une implémentation

Page 32: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

32

Application orientée Flux évènementiel

Application orientée Transaction

Application orientée Calculs

Application orientée Stockage

Stockage distribué

Share nothing

eXtreme Transaction Processing

Programmation parallèle

Event Stream Processing

Univers « standard » SGBDR,

Serveur d’application, ETL, ESB

Le diamant Big Data (1/2)

10 To en ligne 3.000 TPS

10 threads/core 1.000 évts/s

Page 33: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

33

Application orientée Flux évènementiel

Application orientée Transaction

Application orientée Calculs

Application orientée Stockage

Le diamant Big Data (2/2)

In Memory

Redis. Memcached, GemFire/Geode, Spark

NoSQL NewSQL

MongoDB, CouchDB, Cassandra, Hbase, Neo4j.

CEP, ESP

Spark Streaming, Storm, Flink, Samza, Heron Parrallel database

Teradata, Vertica

Page 34: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

34

Technologies vs solutions

Les technologies sont au service du métier et non l’inverse, à nous de faire le bon choix.

Chacune de ces technologies ont été pensées pour répondre à un problème métier.

Page 35: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

35

Cas client – analyse de signaux faibles

Page 36: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

36

Le web…

Page 37: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

37

Page 38: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

38

Données à prédire : prestations de mutuelle

Page 39: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

39

Traitement des données client

EXEMPLE DE COURBE DISCRETISÉE

Page 40: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

40

Modèle prédictif

Séries Google Trends

exogènes

Série à modéliser

Page 41: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

41

Modèle prédictif

RECHERCHE DE PRÉDICTEURS

Calculs de similarité

10.8

12.6

12.4

12.6

Séries Google Trends

exogènes

Série à modéliser

Page 42: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

42

Champ sémantique Client

CROISEMENT DES DONNÉES CLIENT ET EXOGÈNES Construction pour un type d’acte (Hospitalisation, Pharmacie, Optique ou Dentaire)

Caractéristiques : Noeuds : mots-clefs les plus corrélés à la série client

  Liens : mots-clefs liés   Force des liens : corrélations entre mots-clefs

Optique

Santé

Evénements de vie

Page 43: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

43

Modèle prédictif

APPRENTISSAGE DU MODÈLE

Le modèle de prédiction des dépenses de santé est une combinaison linéaire des séries exogènes les plus corrélées.

Page 44: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

44

Quelle capacité du modèle à prédire de nouvelles données ?

Client

Page 45: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

45

Quelle capacité du modèle à prédire de nouvelles données ?

Client

Page 46: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

46

Cette approche est universelle.

Elle s’applique à chaque série temporelle pouvant être reliée à la sphère digitale par les recherches sur les moteurs de recherche.

Page 47: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

47

Est-ce fiable ?

Quelle confiance peut-on avoir

dans ces nouveaux

systèmes ?

Page 48: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

48

Page 49: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

49

Un système complexe, nécessitant une attention particulière

Des boucles de feedback pouvant fausser le système

Un monde en constante évolution

Page 50: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

50

Un nouveau regard sur le monde

Page 51: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

51

Page 52: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

52

Jakob von Uexküll : le « savoir » d’une espèce dépend de ses capacités perceptives

Un monde de plus en plus multidimensionnel

vision de l’homme vision de la mouche vision du mollusque

La technologie accroît notre capacité de perception des phénomènes physiques, chimiques, sociaux :

accéléromètre, oxymètre, activité sur les réseaux sociaux… sont autant de moyens de perception, de moins en moins coûteux

vision grâce aux machines

Page 53: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

53

Chaque année, 2 exabytes de données sont générés dans le monde

Avec le cloud, l’accès à la donnée s’affranchit potentiellement de toute contrainte géographique

La constitution d’une mémoire collective numérique ?

Evoque la constitution d’une mémoire collective numérique ubiquitaire, qui dépasse largement nos capacités de mémorisation individuelles

Page 54: Softshake 2015 - Des small data aux big data - Méthodes et Technologies

54

Les algorithmes d’apprentissages statistiques sont de plus en plus puissants, s’appliquent à tout type de données

Grâce à la technologie, l’accès à la donnée est de plus en plus aisée et nous disposons d’une puissance de calcul incroyable

Conclusion

Les capacités d’apprentissage apportent un nouveau regard sur le monde