Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop

Tél : +33 (0)1 58 56 10 00

Fax : +33 (0)1 58 56 10 01

www.octo.com© OCTO 2014

50, avenue des Champs-Elysées

75008 Paris - FRANCE

Hadoop

Benoît de CHATEAUVIEUX

Twitter: @benchato

L’histoire d’Hadoop

Le principe et l’architecture d’Hadoop

Un filesystem: HDFS

Un framework (historique) de traitements distribués: MapReduce

Quelques composants de l’écosystème

Démo MapReduce

Démo Hive

Présentation Ambari

De quoi allons nous parler ?

VM pré-cablée pour tester Hadoophttp://hortonworks.com/products/hortonworks-sandbox/

Démos sur Hortonworks Data Platform

Solution Open Source Big Data fournissant un socle

Distribué

Stockage

Traitement

Scalable

Scalabilité linéaire

Stockage local Rapide et peu cher

SAN 2-10$ / Go

NAS 1-5$/ Go

Local 0.05$ / Go

Clusters de « commodity hardware »

Open Source pour éviter le « vendor lock-in »

Présentation d’Hadoop – Qu’est ce que c’est ?

Historique Hadoop

Pour les systèmes décisionnels, Hadoop s’impose

comme l’architecture de référence sur la marché

•Apache HadoopOpen Source

•Cloudera

•Hortonworks

•MapR

Pure Players

•Greenplum (Pivotal)

•IBM InfoSphere BigInsights (CDH)

•Oracle Big data appliance (CDH)

•NetApp Analytics (CDH)

•…

Editeurs

•Amazon Elastic MapReduce

•Microsoft Azure HDInsight (HW)

•Hadoop on Google GCP

Cloud publique

De nombreuses

solutions d’entreprisesouvent construites autour d’Hadoop

Hortonworks Data Platform

HDFS: Hadoop Distributed File System

Système de fichiers distribué

Scalable horizontalement (ajout de nœuds)

Tolérant aux pannes grâce à la réplication intelligente des blocs (128Mo)

Un noeud HDFS sur chaque DataNode du cluster

HDFS est optimisé

Pour le stockage de gros fichiers en nombre réduit (< 1M de fichiers)

Pour la lecture en bloc de ces fichiers (« full scan ») Pas de Random Access

Déposer, naviguer, télécharger, supprimer des fichiers

CLI ou interface web

Le NameNode maintient la liste des fichiers et de ses blocs

Analogue à la FAT d’un système de fichiers classique

Les composants d’Hadoop – HDFS

Les composants d’Hadoop – Un cluster HDFS

Name node Data node

file1 #1

file2 #2

Data node

file1 #1

file1 #2

file2 #1

Data node

file2 #2

file1 #2

file2 #1

/file1

/file2

RACK 1 RACK 2

RÉSEAU LOCAL

Client

Console web

MapReduce

Framework de programmation

Parallélisation automatique des jobs Hadoop.

Gestion transparente du mode distribué agréable pour le développeur !

MapReduce = 2 fonctions

convertir une donnée en entrée en une série de paires clé/valeur

et reduce()

appliquer un traitement à l'ensemble des valeurs trouvées pour une clé

Ie: consolider les données issues du Mapper

MapReduce

Map Reduce est un frameworkStructurant en terme de développement / conception

Il faut rentrer dans le paradigme

Data node

file1 #1

Data node

file1 #2

Data node

file1 #3

Task tracker Task tracker Task tracker

Data node

Job tracker

Name node

Client

Présentation d’Hadoop – Map Reduce

Le traitement est envoyé

là où réside la donnée

Principe fondamental d’Hadoop

Data node

file1 #1

Data node

file1 #2

Data node

file1 #3

Mapper

Reducer

Mapper

Reducer

Mapper

Task tracker Task tracker Task tracker

Data node

Job tracker

Name nodeShuffle & sort

Client

Présentation d’Hadoop – Map Reduce

Exemple de MapReduce

Les Mapper

-lisent leur bloc ligne par ligne

-découpent les lignes en mot

-envoient ces mots aux Reducers

La phase de Shuffle & Sort

-combine les paires qui ont la même clé

Les Reducers

-somment les 1

-envoient vers la sortie (HDFS) la liste des

mots et le compte associé

API native en Java

Bas niveau

Rapide

Beaucoup de contrôle

Parfois complexe à utiliser pour des tâches complexes (ex: joins)

Trois éléments essentiels

Mapper : classe contenant la méthode map()

Reducer : classe contenant la méthode reduce()

Driver : classe contenant la méthode main() et configurant le job

Comment créer un job Map Reduce ?

Il est aussi possible d’écrire des jobs Map Reduce

indépendamment du langage (Shell, Python, Ruby…) grâce à

l’API Streaming Hadoop

Démo MapReduce

Déroulement

Le repertoire de travail

YARN : Le système d’opération Hadoop

YARN: Avant - Après

Explosion de l’écosystème

Requêtage SQL sur Hadoop (HiveQL)

Permet d’accéder simplement aux données

Ouvre Hadoop aux habitués du SQL

Propose des drivers ODBC pour brancher des outils externes (Tableau, etc.)

Origine:

Facebook (90%+ des job Hadoop de Facebook sont générés avec Hive)

Les requêtes HiveQL sont compilés en jobs MapReduce

Lenteur importante (aujourd’hui: pas interactif mais batch)

Faibles performances + Marché très important des BD SQL

Forte concurrence

Impala (Cloudera)

Spark SQL

Hortonworks de son côté pousse la communauté vers l’optimisation (Stinger)

Apache Hive

Le projet Stinger d’Hortonworks

Démo Hive

Ambari

Continuer à explorer l’écosystème

Streaming (Storm, …)

Optimisation Hadoop (jobs MapReduce, etc.)

Industrialiser le déploiement de son cluster

Chef/Puppet

Capistrano

Pour aller plus loin

Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop

Technology

Transcript of Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop

Whither the Hadoop Developer Experience, June Hadoop Meetup, Nitin Motgi

One Hadoop, Multiple Clouds - NYC Big Data Meetup

SF Hadoop Users Group August 2014 Meetup Slides

Chattanooga Hadoop Meetup - Hadoop 101 - November 2014

"Data in the Digital Age" - Hadoop Big Data Meetup

Introduction to HBase - files.meetup.comfiles.meetup.com/1228907/NYC Hadoop Meetup - Introduction to HBa… · Introduction to HBase NYC Hadoop Meetup ... •Assignment, load balancing,

Hadoop World Spark Meetup: Interactive Spark in your Browser

NYC Hadoop Meetup - MapR, Architecture, Philosophy and Applications

Kafka & Hadoop - for NYC Kafka Meetup

Hadoop virtualization extensions hadoop world meetup

Boston Hadoop Meetup, April 26 2012

Manchester Hadoop Meetup: Spark Cassandra Integration

Presto for the Enterprise @ Hadoop Meetup

San Francisco Hadoop User Group Meetup Deep Learning

Machinelearning Spark Hadoop User Group Munich Meetup 2016

Hadoop meetup 2014

EVALUATING AND DEPLOYING SQL-ON-HADOOP TOOLSfiles.meetup.com/5717572/Meetup-BlueData-3.24.16.pdf · EVALUATING AND DEPLOYING SQL-ON-HADOOP TOOLS !! Bay!AreaBig!Data Meetup! March!24,!2016!

Hadoop France meetup Feb2016 : recommendations with spark

Houston Hadoop Meetup Presentation by Vikram Oberoi of Cloudera

Apache Hadoop YARN - Hortonworks Meetup Presentation