Big Data, Kesako ?

www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1

Big Data, Kesako ?

Christophe Aran, Consultant décisionnel Référence : ASO-XXX

Version : 1.0

Du : 06/11/2012

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Sommaire

Contexte actuel

Définition du Big Data

L’écosystème Hadoop

Les intérêts business du Big Data

Un cas concret : Karma chez Air France

Conclusion

ww

w.g

rou

peaste

k.c

om


Un déluge de données

YouTube reçoit 24h de vidéo toutes les minutes

500 téraoctets de données transitent chaque jour sur

Facebook

140 millions de tweets par jour

6 milliards de téléphones mobiles en activité en 2012

Des pics de 22 commandes à la seconde chez

Spartoo pendant les soldes

90% des données créées dans le monde l’ont été

au cours des 2 dernières années

ww

w.g

rou

peaste

k.c

om


Et une collecte de données incessantes

Données commerciales

• Transactions

Informations Client

• CRM

• Dossiers médicaux

Informations Produits

• Codes barres

• RFID

Web

• Pages

• Journaux d’accès

Informations non structurées

• Réseaux sociaux

• GPS

• Mobile

ww

w.g

rou

peaste

k.c

om


Les limites des SGBD actuels

Coût du stockage

Scalabilité

Performance

Format des données

Schémas figés

ww

w.g

rou

peaste

k.c

om


Le besoin

Système qui peut gérer de gros volumes de

données

Scalable

Robuste

Haute disponibilité

Economique

Nouvelle approche

ww

w.g

rou

peaste

k.c

om


Définition du Big Data

« Le Big Data fait référence à l'explosion du volume

des données dans l'entreprise et des nouveaux

moyens technologiques proposés par les éditeurs

pour y répondre » Gartner

ww

w.g

rou

peaste

k.c

om


Le concept des 3 V

Valeur

Volume Les entreprises sont submergées de

volumes de données croissants de

tous types, qui se comptent en

téraoctets, voire en pétaoctets.

Vitesse Parfois, 2 minutes c'est trop. Pour la

détection de fraudes par exemple, le

Big Data doit être utilisé au fil de l'eau,

à mesure que les données sont

collectées par l’entreprise afin d'en

tirer le maximum de valeur.

Variété Le Big Data se présente sous la forme

de données structurées ou non

structurées (texte, données de

capteurs, son, vidéo, fichiers journaux,

etc.).

ww

w.g

rou

peaste

k.c

om


Hadoop, kesako ?

Inspiré de publications Google (2004)

Google Filesystem

Google Map Reduce

Créé par Doug Cutting, salarié chez Yahoo

Framework Open Source écrit en Java

Géré sous l'égide de la fondation Apache

Communauté très active, développement rapide

Un périmètre qui s’élargit constamment

Orienté « batch »

ww

w.g

rou

peaste

k.c

om


L’écosystème Hadoop

ww

w.g

rou

peaste

k.c

om


HDFS

Système de fichiers distribué

Traitement de volumes de

données considérables

Découpage des fichiers par blocs

Fonctionne sur des serveurs “low

cost” (au minimum 3)

Fault Tolerant

Scalable

NameNode : gestion des

métadonnées

DataNode : stockage des

données

ww

w.g

rou

peaste

k.c

om


Map Reduce

Calcul distribué

Input | Map() | Sort | Reduce() | Output

JobTracker : gestion des jobs

TaskTracker : exécution des tâches

Map() et Reduce() sur chaque noeud

ww

w.g

rou

peaste

k.c

om


Cas pratique (1/2) : stockage dans le HDFS

Notre fichier sera réparti en

un ensemble de blocs

répliqués dans les nœuds

du HDFS.

La réplication des blocs est

configurable, dans notre

exemple elle est de 3.

ww

w.g

rou

peaste

k.c

om


Cas pratique (2/2) : comptage des mots

Parallélisation des traitements

sur l’ensemble des nœuds du

HDFS grâce à Map Reduce

ww

w.g

rou

peaste

k.c

om


PIG

• Langage de script

• Né chez Yahoo

• Flexible / simple

• ETL

• Mise en œuvre UDF

HIVE

• Pseudo-SQL

• Né chez Facebook

• Rigide / Connu

• Interrogation

• JDBC / ODBC

Pig vs Hive

Objectif commun : s’abstraire de la complexité de Map/Reduce

ww

w.g

rou

peaste

k.c

om


Hbase et le NoSQL

Montée en puissance du mouvement NoSQL

Pour contourner les contraintes du modèle relationnel

Pas de jointures, très flexible

Forte scalabilité horizontale

Une éclosion de différents paradigmes

HBase

Implémentation open source de Google BigTable

Basé sur HDFS (non obligatoire)

Base de données orientée colonnes

En concurrence avec Cassandra

ww

w.g

rou

peaste

k.c

om


Exemple : modélisation d’un fichier Achat

Format : (Table, RowKey, Family, Column, Timestamp) -> Value

Création d’une table : create ‘achat’, {NAME => ‘acheteur’}, {NAME =>

‘produit’, {NAME => ‘achat’}

Insertion d’une ligne : put ‘achat’, ‘1’, ‘acheteur:nom’, ‘MARIE’

put ‘achat’, ‘1’, ‘acheteur:type’, ‘particulier’

Suppression d’une ligne : delete 'achat', 1, 'achat:date‘

deleteall 'achat', 1

Lecture d’un enregistrement : get 'achat', 1

get 'achat', 1, {COLUMN => 'produit:marque'}

ww

w.g

rou

peaste

k.c

om


Et pour l’intégration au SI existant

Sqoop

• Import / Export de données

• Import automatique

• Prise en charge de nombreuses

bases relationnelles

Flume

• Collecte de logs

• Data streaming

ww

w.g

rou

peaste

k.c

om


La solution Big Data de Talend

Lancement de Talend Open Studio for Big Data

Simplification des développements Big Data

• Environnement de développement graphique

• Connecteurs Big Data prêts à l’emploi

Depuis Octobre 2012, support des bases de

données NoSQL et connecteurs disponibles pour :

• HBase

• Cassandra

• MongoDB

ww

w.g

rou

peaste

k.c

om


Les intérêts business du Big Data

Enfin un supercalculateur à la disposition de tous

De nouveaux horizons jusque-là inexplorés

• CRM : segmentation en exploitant les goûts et sentiments des

clients/prospects récoltés sur les réseaux sociaux

• Finance : contrôle en temps réel des transactions

frauduleuses ou à risques

• RH : exploitation des données LinkedIn (par exemple) pour

anticiper la volonté de départ d’un collaborateur clé

• Logistique : optimisation des flux de transport en temps réel

en fonction du trafic routier

• …

ww

w.g

rou

peaste

k.c

om


Un cas concret : Karma chez Air France

Karma : Revenue Management AF/KLM

Composants Hadoop utilisées

• HDFS / Map Reduce / Sqoop / Pig

• Développement en interne : scheduler + interface web

Mise en Production courant 2013

Quelques chiffres :

• Un cluster de 90 serveurs pour déployer Hadoop

• 80 développeurs à Valbonne pour l’écriture des jobs MR

• 130 jobs déjà développés, 400 d’ici 2 ans

• 7h de traitement batch quotidien pour lancer les jobs MR et

mettre à jour les bases Oracle

• 300 analystes à Roissy pour analyser les données

ww

w.g

rou

peaste

k.c

om


Conclusion

Un bol d’oxygène pour le traitement des données

volumineuses et pour la BI en particulier

Limites

• Un écosystème évoluant très rapidement, nécessite

encore du temps pour stabiliser les différents modules

• Si les volumes sont faibles (inférieur à 10To), un SGBD

classique suffira la plupart du temps

A suivre

• Google Dremel / Cloudera Impala / Apache Drill

• Positionnement des éditeurs « traditionnels »

• Google, futur acteur majeur de la BI ?

• Un nouveau métier : Data Scientist

ww

w.g

rou

peaste

k.c

om


Pour plus d’informations

http://hadoop.apache.org/

http://pig.apache.org/

http://hive.apache.org/

https://developers.google.com/bigquery/

http://code.google.com/edu/parallel/mapreduce-

tutorial.html

http://www.kimballgroup.com/html/articles.html : The

Evolving Role of the Enterprise Data Warehouse in

the Era of Big Data Analytics (Ralph Kimball)

http://hadoop.apache.org/

http://pig.apache.org/

http://hive.apache.org/

https://developers.google.com/bigquery/

http://code.google.com/edu/parallel/mapreduce-tutorial.html



http://www.kimballgroup.com/html/articles.html

http://www.kimballgroup.com/html/articles.html

ww

w.g

rou

peaste

k.c

om


Merci. Des questions ?

ww

w.g

rou

peaste

k.c

om


Annexe 1 : un autre exemple Map Reduce

Jeu de données :

Algorithme MapReduce afin de sortir le nombre d’occurrences des mots

constituant le texte :

ww

w.g

rou

peaste

k.c

om


Annexe 2 : une architecture BI transformée

Big Data, Kesako ?

Documents

Transcript of Big Data, Kesako ?