Big Data, Kesako ?

26
www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1 Big Data, Kesako ? Christophe Aran, Consultant décisionnel Référence : ASO-XXX Version : 1.0 Du : 06/11/2012

description

Présentation du Big Data par Christophe Aran, spécialiste de la Business Intelligence et du Big Data

Transcript of Big Data, Kesako ?

Page 1: Big Data, Kesako ?

www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1

Big Data, Kesako ?

Christophe Aran, Consultant décisionnel Référence : ASO-XXX

Version : 1.0

Du : 06/11/2012

Page 2: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Sommaire

Contexte actuel

Définition du Big Data

L’écosystème Hadoop

Les intérêts business du Big Data

Un cas concret : Karma chez Air France

Conclusion

Page 3: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Un déluge de données

YouTube reçoit 24h de vidéo toutes les minutes

500 téraoctets de données transitent chaque jour sur

Facebook

140 millions de tweets par jour

6 milliards de téléphones mobiles en activité en 2012

Des pics de 22 commandes à la seconde chez

Spartoo pendant les soldes

90% des données créées dans le monde l’ont été

au cours des 2 dernières années

Page 4: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Et une collecte de données incessantes

Données commerciales

• Transactions

Informations Client

• CRM

• Dossiers médicaux

Informations Produits

• Codes barres

• RFID

Web

• Pages

• Journaux d’accès

Informations non structurées

• Réseaux sociaux

• GPS

• Mobile

Page 5: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Les limites des SGBD actuels

Coût du stockage

Scalabilité

Performance

Format des données

Schémas figés

Page 6: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Le besoin

Système qui peut gérer de gros volumes de

données

Scalable

Robuste

Haute disponibilité

Economique

Nouvelle approche

Page 7: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Définition du Big Data

« Le Big Data fait référence à l'explosion du volume

des données dans l'entreprise et des nouveaux

moyens technologiques proposés par les éditeurs

pour y répondre » Gartner

Page 8: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Le concept des 3 V

Valeur

Volume Les entreprises sont submergées de

volumes de données croissants de

tous types, qui se comptent en

téraoctets, voire en pétaoctets.

Vitesse Parfois, 2 minutes c'est trop. Pour la

détection de fraudes par exemple, le

Big Data doit être utilisé au fil de l'eau,

à mesure que les données sont

collectées par l’entreprise afin d'en

tirer le maximum de valeur.

Variété Le Big Data se présente sous la forme

de données structurées ou non

structurées (texte, données de

capteurs, son, vidéo, fichiers journaux,

etc.).

Page 9: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Hadoop, kesako ?

Inspiré de publications Google (2004)

Google Filesystem

Google Map Reduce

Créé par Doug Cutting, salarié chez Yahoo

Framework Open Source écrit en Java

Géré sous l'égide de la fondation Apache

Communauté très active, développement rapide

Un périmètre qui s’élargit constamment

Orienté « batch »

Page 10: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

L’écosystème Hadoop

Page 11: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

HDFS

Système de fichiers distribué

Traitement de volumes de

données considérables

Découpage des fichiers par blocs

Fonctionne sur des serveurs “low

cost” (au minimum 3)

Fault Tolerant

Scalable

NameNode : gestion des

métadonnées

DataNode : stockage des

données

Page 12: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Map Reduce

Calcul distribué

Input | Map() | Sort | Reduce() | Output

JobTracker : gestion des jobs

TaskTracker : exécution des tâches

Map() et Reduce() sur chaque noeud

Page 13: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Cas pratique (1/2) : stockage dans le HDFS

Notre fichier sera réparti en

un ensemble de blocs

répliqués dans les nœuds

du HDFS.

La réplication des blocs est

configurable, dans notre

exemple elle est de 3.

Page 14: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Cas pratique (2/2) : comptage des mots

Parallélisation des traitements

sur l’ensemble des nœuds du

HDFS grâce à Map Reduce

Page 15: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

PIG

• Langage de script

• Né chez Yahoo

• Flexible / simple

• ETL

• Mise en œuvre UDF

HIVE

• Pseudo-SQL

• Né chez Facebook

• Rigide / Connu

• Interrogation

• JDBC / ODBC

Pig vs Hive

Objectif commun : s’abstraire de la complexité de Map/Reduce

Page 16: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Hbase et le NoSQL

Montée en puissance du mouvement NoSQL

Pour contourner les contraintes du modèle relationnel

Pas de jointures, très flexible

Forte scalabilité horizontale

Une éclosion de différents paradigmes

HBase

Implémentation open source de Google BigTable

Basé sur HDFS (non obligatoire)

Base de données orientée colonnes

En concurrence avec Cassandra

Page 17: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Exemple : modélisation d’un fichier Achat

Format : (Table, RowKey, Family, Column, Timestamp) -> Value

Création d’une table : create ‘achat’, {NAME => ‘acheteur’}, {NAME =>

‘produit’, {NAME => ‘achat’}

Insertion d’une ligne : put ‘achat’, ‘1’, ‘acheteur:nom’, ‘MARIE’

put ‘achat’, ‘1’, ‘acheteur:type’, ‘particulier’

Suppression d’une ligne : delete 'achat', 1, 'achat:date‘

deleteall 'achat', 1

Lecture d’un enregistrement : get 'achat', 1

get 'achat', 1, {COLUMN => 'produit:marque'}

Page 18: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Et pour l’intégration au SI existant

Sqoop

• Import / Export de données

• Import automatique

• Prise en charge de nombreuses

bases relationnelles

Flume

• Collecte de logs

• Data streaming

Page 19: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

La solution Big Data de Talend

Lancement de Talend Open Studio for Big Data

Simplification des développements Big Data

• Environnement de développement graphique

• Connecteurs Big Data prêts à l’emploi

Depuis Octobre 2012, support des bases de

données NoSQL et connecteurs disponibles pour :

• HBase

• Cassandra

• MongoDB

Page 20: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Les intérêts business du Big Data

Enfin un supercalculateur à la disposition de tous

De nouveaux horizons jusque-là inexplorés

• CRM : segmentation en exploitant les goûts et sentiments des

clients/prospects récoltés sur les réseaux sociaux

• Finance : contrôle en temps réel des transactions

frauduleuses ou à risques

• RH : exploitation des données LinkedIn (par exemple) pour

anticiper la volonté de départ d’un collaborateur clé

• Logistique : optimisation des flux de transport en temps réel

en fonction du trafic routier

• …

Page 21: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Un cas concret : Karma chez Air France

Karma : Revenue Management AF/KLM

Composants Hadoop utilisées

• HDFS / Map Reduce / Sqoop / Pig

• Développement en interne : scheduler + interface web

Mise en Production courant 2013

Quelques chiffres :

• Un cluster de 90 serveurs pour déployer Hadoop

• 80 développeurs à Valbonne pour l’écriture des jobs MR

• 130 jobs déjà développés, 400 d’ici 2 ans

• 7h de traitement batch quotidien pour lancer les jobs MR et

mettre à jour les bases Oracle

• 300 analystes à Roissy pour analyser les données

Page 22: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Conclusion

Un bol d’oxygène pour le traitement des données

volumineuses et pour la BI en particulier

Limites

• Un écosystème évoluant très rapidement, nécessite

encore du temps pour stabiliser les différents modules

• Si les volumes sont faibles (inférieur à 10To), un SGBD

classique suffira la plupart du temps

A suivre

• Google Dremel / Cloudera Impala / Apache Drill

• Positionnement des éditeurs « traditionnels »

• Google, futur acteur majeur de la BI ?

• Un nouveau métier : Data Scientist

Page 23: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Pour plus d’informations

http://hadoop.apache.org/

http://pig.apache.org/

http://hive.apache.org/

https://developers.google.com/bigquery/

http://code.google.com/edu/parallel/mapreduce-

tutorial.html

http://www.kimballgroup.com/html/articles.html : The

Evolving Role of the Enterprise Data Warehouse in

the Era of Big Data Analytics (Ralph Kimball)

Page 24: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Merci. Des questions ?

Page 25: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Annexe 1 : un autre exemple Map Reduce

Jeu de données :

Algorithme MapReduce afin de sortir le nombre d’occurrences des mots

constituant le texte :

Page 26: Big Data, Kesako ?

ww

w.g

rou

peaste

k.c

om

Modèle : ASO-2007-M_PPT-0012 v2.1

Annexe 2 : une architecture BI transformée