Datasio - Big Data : Enjeux et technologies
-
Upload
valtech -
Category
Technology
-
view
2.487 -
download
3
description
Transcript of Datasio - Big Data : Enjeux et technologies
![Page 1: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/1.jpg)
© Datasio 2012
Enjeux et technologiesBig Data
![Page 2: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/2.jpg)
© Datasio 2012
![Page 3: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/3.jpg)
© Datasio 2012
Big Data et Data Science dans la presse
![Page 4: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/4.jpg)
© Datasio 2012
ad'opportunités de création de valeurade retours d'expériencesade technologies “hot”ade mise en oeuvre et d'approches pratiquesad'aspects humains
Nous parlerons ...
![Page 5: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/5.jpg)
© Datasio 2012
rde casser l'existantrle catalogue d'outilsrles aspects théoriques du Big Data
Nous éviterons ...
![Page 6: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/6.jpg)
© Datasio 2012
1 Big Data & Data Mining – les enjeux
Agenda
2 Hadoop, poids lourd du Big Data
3 Profession: Data Scientist
![Page 7: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/7.jpg)
© Datasio 2012
1 Big Data & Data Mining
Agenda
![Page 8: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/8.jpg)
© Datasio 2012
Données métier
![Page 9: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/9.jpg)
© Datasio 2012
Autres sourcesde donnéesintra-entreprise(logs web, CRM ...)
Données métier
![Page 10: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/10.jpg)
© Datasio 2012
Autres sourcesde donnéesintra-entreprise(logs web, CRM ...)
Données externesDonnées
métier
![Page 11: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/11.jpg)
© Datasio 2012
Applications Big Data
![Page 12: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/12.jpg)
© Datasio 2012
{Applications Big Data
![Page 13: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/13.jpg)
© Datasio 2012
{Applications Big Data
![Page 14: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/14.jpg)
© Datasio 2012
{{
Applications Big Data
![Page 15: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/15.jpg)
© Datasio 2012
{{
Applications Big Data
Carte volée!
![Page 16: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/16.jpg)
© Datasio 2012
Applications Big Data
Suivi d'e-reputation
![Page 17: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/17.jpg)
© Datasio 2012
Applications Big Data
Estimer la production d'iPhonesd'après les numéros de série ...
![Page 18: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/18.jpg)
© Datasio 2012
Déduplication de données
SAAS_clients_20120304_45lhsdSAAS_clients_20120304_45lhsd CRM_2012_72CRM_2012_72
MauriceMaurice
hasPrenom
AvèneAvène
hasNom MauriceMaurice
hasPrenom
AvèneAvène
hasNom
2 rue de Grenelle2 rue de Grenelle
hasAddress
2 avenue du Lauragais2 avenue du Lauragais
hasAddress
ParisParis
hasCity
hasZipcode
ToulouseToulouse
hasCity
hasZipcode
75007750073100031000
![Page 19: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/19.jpg)
© Datasio 2012
Déduplication de données
SAAS_clients_20120304_45lhsdSAAS_clients_20120304_45lhsd CRM_2012_72CRM_2012_72sameAs
MauriceMaurice
hasPrenom
AvèneAvène
hasNom MauriceMaurice
hasPrenom
AvèneAvène
hasNom
2 rue de Grenelle2 rue de Grenelle
hasAddress
2 avenue du Lauragais2 avenue du Lauragais
hasAddress
ParisParis
hasCity
hasZipcode
ToulouseToulouse
hasCity
hasZipcode
75007750073100031000
![Page 20: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/20.jpg)
© Datasio 2012
Applications Big Data
● Optimisation A/B● Corrélation usage du site web
+ transactions● Suivi de l'engagement et
monitoring du churn
In-game events
Logs web server
![Page 21: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/21.jpg)
© Datasio 2012
Logs Graphes d'interaction
Quelles données, quelle croissance?
Croissance linéaire + paliers Croissance exponentielle !!
![Page 22: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/22.jpg)
© Datasio 2012
![Page 23: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/23.jpg)
© Datasio 2012
OptimisationPrédiction
Business insightAnalytique
Traitements distribués
Stockagedistribué
![Page 24: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/24.jpg)
© Datasio 2012
Verticaux Big Data
![Page 25: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/25.jpg)
© Datasio 2012
FUSION DE DONNEESStats vols,Prix billetsweb logs
social networks...
Statistiques des vols et d'opérations au solhistoriques et temps réel(retards, grèves, pertes de bagage ...)
Influence entre utilisateursAffinité / réponse aux campagnes marketingSensibilité aux variations de prix
E-réputationMonitoring de la satisfaction client(forums ...)
20100916 130748 Economy Incoming 18
20100916 131131 Economy Outgoing 99
20100916 131324 Economy Incoming 214
20100916 131735 Economy Outgoing 72
20100916 183403 Economy Overbooked 0
Historique client
Réseaux d'interaction
Monitoring WEBRéponse de l'usager à la qualité de service
Données CRM et marketing
![Page 26: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/26.jpg)
© Datasio 2012
Flightcaster et la prédiction de retards
● Pourquoi ne pas utiliser les alertes de la compagnie aérienne?
● Pourquoi attend-on si longtemps sur la piste?
● Pourquoi y-a-t'il écrit “à l'heure” alors que l'avion n'est toujours pas arrivé?
● Qu'est-ce qui cause les retards?● Quelles les sont les compagnies les plus
ponctuelles?
Apprentissage machine – architecture sous Amazon Web ServicesBasé sur l'historique des retards, la météo ...
![Page 27: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/27.jpg)
© Datasio 2012
General Electrics et la maintenance prédictive
● GE Aviations Integrated Vehicle Health Management
● “Preventive maintenance” basée sur les mesures collectées en vol et au sol
● Calcule les probabilités de panne avant leur occurrence et diminue les coûts de maintenance
![Page 28: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/28.jpg)
© Datasio 2012
Point de départBesoin businessEntrepôt de données
![Page 29: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/29.jpg)
© Datasio 2012
2 Hadoop, poids lourd du Big Data
Agenda
Qui l'utilise?Comment ça marche?
![Page 30: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/30.jpg)
© Datasio 2012
Data mining sur click streamAnalyse d'imageProduction d'indexMoteur d'enchères
Conversion de 11 millions d'articles en PDF
Spam screening(> 20 milliards de msg / jour)
Entrepôt de données > 30 PetaOctets (2011)
Qui utilise Hadoop?
![Page 31: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/31.jpg)
© Datasio 2012
2003
Google Filesystem
![Page 32: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/32.jpg)
© Datasio 2012
20032004
Google Filesystem
Publication deMapReduce
![Page 33: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/33.jpg)
© Datasio 2012
20032004
Google Filesystem
Publication deMapReduce
2006
Création du projet Apache
![Page 34: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/34.jpg)
© Datasio 2012
20032004
Google Filesystem
Publication deMapReduce
20062008
Création du projet Apache
10000 machines @ Yahoo!
![Page 35: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/35.jpg)
© Datasio 2012
20032004
Google Filesystem
Publication deMapReduce
2012
Cluster 100 PB@ Facebook
20062008
Ouverture du code source
10000 machines @ Yahoo!
![Page 36: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/36.jpg)
© Datasio 2012
HDFS(Hadoop Distributed Filesystem)
![Page 37: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/37.jpg)
© Datasio 2012
HDFS(Hadoop Distributed Filesystem)
Map/Reduce(Distributed processing)
Zook
eepe
r(R
esou
rce m
a nag
emen
t)
![Page 38: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/38.jpg)
© Datasio 2012
HDFS(Hadoop Distributed Filesystem)
Map/Reduce(Distributed processing)
Cascading(Data flow)
Pig(Data DSL)
Hive(SQL)
Zook
eepe
r(R
esou
rce m
a nag
emen
t)
![Page 39: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/39.jpg)
© Datasio 2012
HDFS(Hadoop Distributed Filesystem)
Map/Reduce(Distributed processing)
Cascading(Data flow)
Pig(Data DSL)
Hive(SQL)
Zook
eepe
r(R
esou
rce m
a nag
emen
t)
Hbas
e (D
istrib
uted
K ey V
alue)
Cascalog(Data flow)
![Page 40: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/40.jpg)
© Datasio 2012
Traitement
Stockage
CPU
DISK
CLUSTER
HDFS = système de fichier distribué
![Page 41: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/41.jpg)
© Datasio 2012
Rack Rack Rack
Noeud NoeudNoeud Noeud Noeud
Traitement
Stockage
CPU
DISK
CLUSTER
Rack-awareness + data locality
![Page 42: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/42.jpg)
© Datasio 2012
bloc1bloc2 bloc2
bloc1bloc1bloc2bloc3 bloc3
bloc4 bloc4
bloc3
bloc4
Rack Rack Rack
Noeud NoeudNoeud Noeud Noeud
CLUSTER
Fichiers distribués en blocs, avec facteur de réplication N (ici, N=3)
![Page 43: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/43.jpg)
© Datasio 2012
Rack Rack Rack
Noeud NoeudNoeud Noeud Noeud
CLUSTER
Map MapMapMap Map
ReduceReduceReduce
Map/Reduce = “diviser pour régner”
![Page 44: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/44.jpg)
© Datasio 2012
Map/Reduce = “diviser pour régner”
![Page 45: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/45.jpg)
© Datasio 2012
Map/Reduce = “diviser pour régner”
![Page 46: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/46.jpg)
© Datasio 2012
Au-delà de Map/Reduce
● Requête sur données structurées et semi-structurées
● Jobs Map/Reduce à l'exécution● Syntaxe “SQL”● Extensible (types, UDFs)● Metadonnées en BD (MySQL)● Join, Group By, Nesting
hive> SELECT a.IP FROM logs a where a.tstamp = '<DATE>';
![Page 47: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/47.jpg)
© Datasio 2012
Mahout – “intelligence artificielle” à grande échelle
● Règles d'association et Frequent Itemsets
● Recommendation d'articles● Clustering et K-means● Arbres de décision …● PageRank
![Page 48: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/48.jpg)
© Datasio 2012
Mahout – “intelligence artificielle” à grande échelle
● Règles d'association et Frequent Itemsets
● Recommendation d'articles● Clustering et K-means● Arbres de décision …● PageRank
{Millions et + de transactions
![Page 49: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/49.jpg)
© Datasio 2012
3 Profession: Data Scientist
Agenda
Son rôle dans l'entrepriseComment le recruter? Comment le former?Journée type d'un Data Scientist
![Page 50: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/50.jpg)
© Datasio 2012
“The sexiest job in the next 10 years will be statistician”Hal Varian, Chief Economist at Google
![Page 51: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/51.jpg)
© Datasio 2012
Mesures
![Page 52: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/52.jpg)
© Datasio 2012
Mesures
Signal
![Page 53: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/53.jpg)
© Datasio 2012
Mesures
Signal
Information
![Page 54: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/54.jpg)
© Datasio 2012
Mesures
Signal
Information
Connaissance
![Page 55: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/55.jpg)
© Datasio 2012
Docteur es-sciences ...Informaticien ...Consultant ...Statisticien ...“Data hacker” ...
Java, Scala, ClojurePython, PerlR, Matlab, SAS
Machine learning
CV du Data Scientist
![Page 56: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/56.jpg)
© Datasio 2012
PostgresMySQL
LogsLogsLogs
Boîte à outils
Hadoop / HDFS
cascalog
Pig
![Page 57: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/57.jpg)
© Datasio 2012
Nettoyagede données
Choix du modèle Tuning
● K-Means● Clustering● Régression logistique● SVM● Réseaux de neurones● Naive Bayes● Random Forest● Survival modeling
● Descente de gradient● Maximum de vraisemblance● Meta-optimisation● Méthodes d'ensemble
● Scatterplots● Kernel smoothing● Robust EM
Mode opératoire
![Page 58: Datasio - Big Data : Enjeux et technologies](https://reader034.fdocuments.in/reader034/viewer/2022042814/553bb9d64a7959eb2d8b46fd/html5/thumbnails/58.jpg)
© Datasio 2012
Data visualization
(Source: D3)