Presentation Hadoop Québec

Hadoop et Big Data:Un gros problème, une

solution éléphantesque!

Introduction aux concepts Big Data avec Hadoop

Mathieu Dumoulin – Programme Big Data du Centre d’Innovation Fujitsu

Le Big Data - Problématique

Une solution: Hadoop et MapReduce

Vocabulaire et ecosystème

Objectifs

Les enjeux

Les principaux joueurs de

l’industrie

Plan de match Introduction au Big Data Introduction à Hadoop Détails techniques Écosystème et principaux joueurs Conclusion

Plan de match Introduction au Big Data

◦ Définition◦ Use Cases◦ Problèmes et Solution

Introduction à Hadoop Détails techniques Écosystème et principaux joueurs Conclusion

Big Data: Quand les données dépassent les capacités de la BD conventionnelle. Une approche alternative devient nécessaire pour en retirer de la valeur (Edd Dumbill – O’Reilly).

« dépassent »? Les 3 V de Gartner◦ Volume◦ Vélocité◦ Variété ◦ Valeur◦ Véracité

Définition du Big Data

Google: Indexer le web ◦ 850 TB en 2009, 100 PB en 2012

Ventes en ligne: Analyse des ventes◦ Orbitz a trouvé que les utilisateurs de Mac dépensent 20$ de

plus par nuit d’hôtel que les utilisateurs Windows.◦ 80% des voyagistes sur Internet utilisent Hadoop◦ Ebay est un utilisateur massif

Ventes en ligne: Recommandations à l’usager◦ Amazon, Facebook, LinkedIn

Entreposage Cloud◦ Amazon a plus de 1000 PB de données (1 Exabyte)

Big Data – Use Cases

Banques: Détection de fraudes◦ Morgan Stanley, Zion

Énergie: Recherche de nouveaux gisements, optimisation◦ Chevron, Exxon, etc. ◦ Positionnement d’éoliennes◦ Jeux de données multi PB

Vidéo: Analyse d’images◦ Google Earth (70.5 TB – 2009)◦ Skybox: analyse d’images satellite

Big Data – Use Cases

Besoin: conserver et traiter des données à l’échelle du PB◦ Architecture distribuée◦ Une grappe de 1000+ nœuds, MTBF < 1 jour◦ Toujours de quoi de brisé!

Besoin: Entreposer des données résistant aux défaillances◦ Haute disponibilité (availability)◦ Matériel efficace qui gère les défaillances automatiquement

Besoin: Un framework logiciel résistant aux défaillances◦ Certaines tâches peuvent prendre plusieurs jours

Big Data – Difficultés à grande échelle

La performance d’un CPU n’est pas importante◦ Le débit total de la grappe est le facteur critique

Le matériel brise◦ Impossible d’opérer une grappe de milliers de

machines sans avoir des défaillances diverses (réseau, HDD, etc.)

Le matériel robuste est cher sans être parfait◦ À très grande échelle, les bris sont inévitables.◦ Pour un même prix, plus de travailleurs qui brisent

plus souvent seront plus performant

Traiter des données à l’échelle du TB

Choix actuels – Ou il y a 2 ans◦ Investissement supers ordinateurs

nouvel achat / peut coûter plus que ça rapporte◦ Perte de valeur

Couper dans les données Couper sur le service Couper sur la qualité de service

Deux choix insatisfaisants

Solutions Big Data

Plan de match Introduction au Big Data Introduction à Hadoop

◦ Google et MapReduce ◦ Entrée en scène de Hadoop◦ Avantages clefs

Détails techniques Écosystème et principaux joueurs Conclusion

Confronté au problème en 2002-2003◦ Une petite compagnie de 5 ans, peu de moyens

Dean et Ghemawat conçoivent MapReduce:◦ Librairie C++◦ Transforme des milliers de PC ordinaires en une

grappe super robuste et performance◦ Modèle de programmation simple et général◦ Standardisation, évolutivité

Utilisé par:

La solution de Google: MapReduce

Problème…

2003 - 2004: Présentation de MapReduce et GFS à la communauté scientifique◦ 19th ACM Symposium on Operating Systems Principles, NY, 2003◦ Sixth Symposium on Operating System Design and Implementation, San Francisco,

2004: Nutch et Doug Cutting◦ Implémente MapReduce et GFS pour son projet Nutch

2006: Yahoo offre des ressources à Doug pour développer MapReduce

Heureusement

MapReduce

Traitement à grande échelle et haute performance◦ Peut évoluer de 10 nœuds à 10,000

nœuds◦ Plus facile, gratuit, ouvert

Efficace◦ Puissance de computation CPU, mémoire◦ Stockage sur disques local

Nouveau◦ De nouvelles fondations

Actuel◦ Presque tous les leaders du web 2.0◦ La grande entreprise Fortune 500

Hadoop – Un nouveau paradigme

Une solution logicielle Ratio coût-puissance intéressant Évolutif

◦ On peut toujours ajouter des nœuds pour plus de capacités Computation Stockage

Général◦ S’applique à une variété de problèmes

utiles◦ Programmation parallèle simplifiée

Pas de barrières pour commencer◦ Pas de schéma ou de design requis.◦ Charger des fichiers « raw » et lancer une

applications16

Les forces

Plan de match Introduction au Big Data Introduction à Hadoop Détails techniques

◦ Traitement Distribué◦ HDFS◦ MapReduce

Écosystème et principaux joueurs Conclusion

Le matériel: PC « ordinaires »?!

Excellente Capacité de montée en charge◦ Fichiers fragmentés sur du matériel PC commun, efficace et peu

dispendieux Fiabilité automatisée

◦ Chaque bloc répliqué 3 fois, automatisé, balancement de charge◦ Le maître (namenode) a une double (hot spare)

Un modèle de programmation simple◦ Généralisation de gabarits communs (patterns)

Idéal pour les problèmes « Embarrasingly Parallel »

MapReduce: Exemple

Plan de match Introduction au Big Data Introduction à Hadoop Détails techniques Écosystème et principaux joueurs

◦ Principaux joueurs de l’industrie◦ Qui utilise Hadoop aujourd’hui?◦ L’écosystème Hadoop

Pig, Hive, Mahout, Oozie, sqoop, etc. Conclusion

Hadoop: les principaux joueurs

Le monde Hadoop en 2012

• Yahoo! – Supporter AdSystems et leur

moteur de recherche Web

• Linkedin – Prédictions pour “People You

May Know”

• New York Times – Archives des articles et

images, conversion au format PDF

• UNC Chapel Hill – Applications

bioinformatique (séquençage génomique,

• Visa – Détection de fraude

• Autres: Amazon/A9, AOL, Baidu,

Facebook, etc.25

Hadoop est utilisé en production

Une communauté active en pleine croissance◦ Plusieurs livres récents◦ Support commercial disponible (Cloudera, Hortonworks,

etc.)◦ Un nombre croissant d’outils complémentaires

L’écosystème Hadoop

Apache Hive: Infrastructure de Data Warehouse pour Hadoop◦ Permet de faire des requêtes

SQL Traduire SQL → MapReduce

◦ Formats: texte, Hbase, etc.◦ Permet d’utiliser des UDF◦ Inventé par Facebook

HCatalog◦ Répertoire de schéma et types

partagé◦ Permet l’interopérabilité entre

Hive, Pig, MapReduce, etc. 27

Hive et HCatalog

Développé à Yahoo Research en 2006

Pig Latin: le langage Pig Créer et exécuter des tâches

MapReduce de façon ad-hoc Orienté « flot de données » Haut niveau Une approche plus

« programmeur » que Hive◦ Procédural mais déclaratif◦ Extensible par UDF en Java ou

python

Apache Pig

Une librairie Java pour l’apprentissage automatique (Machine Learning)

Implanté avec Apache Hadoop Utilise la puissance d’une

grappe Hadoop automatiquement!

Variété d’algorithmes de ML◦ Recommendation◦ Clustering◦ Classification

Développement très actif◦ État de l’art du domaine

Apache Mahout

Sqoop◦ Importe/exporte des données d’une BD

automatiquement RDBS ↔ HDFS

◦ Exemple: une application web/mySQL Flume

◦ Collecter des données de sources et importer dans HDFS

◦ Logs, feed twitter, etc. HBase

◦ Une base de donnée NoSQL (clef/valeur)◦ Distribuée◦ Sans limite pratique pour la taille des

tables◦ Intégration avec Hadoop

Autres outils 1/2

Oozie◦ Orchestrer des séquences de tâches MapReduce◦ Tâches oozie: un graphe orienté acyclique d’actions◦ Peut être lancée par des évènements ou à un certain temps

À l’ajout d’un fichier faire… À tous les jours à 3h00AM faire…

Chukwa◦ Système de collection de données distribué◦ Opimiser Hadoop pour traiter des log◦ Afficher, monitorer et analyser les fichiers log

Et bien d’autres…

Autres outils 2/2

Plan de match Introduction au Big Data Introduction à Hadoop Détails techniques Écosystème et principaux joueurs Conclusion

◦ Hadoop est prêt pour la production◦ Faiblesses de Hadoop◦ En réponse aux faiblesses◦ Hadoop: En pleine évolution◦ Vos questions

Pas un remplacement◦ Rends possible l’impossible◦ De nouvelles façon de tirer de la valeur

Économies◦ Commencer petit, grandir avec les besoins◦ Amazon Elastic MapReduce, Azure Hadoop

Flexible et général◦ Pas de format, pas de schéma

Une technologie mature◦ Utilisé par Google depuis 2003◦ Hadoop en développement depuis 5 ans◦ Beaucoup d’outils et de librairies ◦ Intégré par les outils BI (Datameer, Pentaho, IBM, etc.)

Hadoop est prêt pour la production

Hadoop ne remplace pas les BD traditionnelles◦ Pas de garantie ACID

Pas tout à fait fiable à 100% ◦ Namenode: « Single point of failure »

Hadoop est lent◦ Données non-indexées◦ Coût élevé pour E/S des données et lancement de tâche◦ Optimisation de performance difficile◦ Optimisé pour traitement batch

Hadoop est difficile◦ Un nouvel API à apprendre◦ Peu d’outils de haut niveau, pas de GUI◦ Pas pour les débutants, très difficile pour les analystes

Faiblesse de Hadoop

Utilisé de pair avec des BD◦ Sqoop

Utilisé comme BD◦ Hive très proche de SQL◦ connecteurs JDBC disponibles◦ Alternative NoSQL (Hbase)◦ Hawq, une vrai BD qui roule sur Hadoop

Les distributions commerciales sont fiabilisées◦ MapR, IBM, EMC, Cloudera, … Fujitsu BDPP

Nouvelles technologies de « Streaming » pour répondre aux requêtes ad-hoc

Utiliser Pig et Hive pour simplifier le développement◦ C’est ce que Yahoo, Twitter et Facebook font!

En réponse aux faiblesses

Vos questions

Presentation Hadoop Québec

Technology

Transcript of Presentation Hadoop Québec

Hadoop And Big Data - My Presentation To Selective Audience

Presentation of Québec driver's licences · Presentation of Québec driver’s ... J. Automatic transmission ... P. Hand-operated controls Q. Headlight dimmer switch within easy

Intro to Hadoop Presentation at Carnegie Mellon - Silicon Valley

GLOBALVIEW SPRING 2018 · 2018-05-04 · in Québec, a presentation of COREX Québec and their innovative networking platform for ... Julia Munsey, Director of Membership and Corporate

Creating Map-Reduce Programs Using Hadoop. Presentation Overview Recall Hadoop Overview of the map-reduce paradigm Elaboration on the WordCount example.

Hadoop admin presentation demo | Introduction | Basics

Hadoop , Hadoop , Hadoop !!!

CartemotoneigeSagLac2014-15 [Unlocked by ] sentier lac st-jean.pdf · 6.6 trans-quÉbec 83 trans-quÉbec 93 trans-quÉbec 93 trans-quÉbec 93 trans-quÉbec 93 trans-quÉbec 93 trans-quÉbec

Hadoop Distriubted File System (HDFS) presentation 27- 5-2015

Hadoop User Group Ireland (HUG) Ireland - Eddie Baggot Presentation April 2016

CIM Presentation Chapais, Québec - n Superiornsuperior.com/cmsAssets/docs/pdfs/Croteau Est Gold Property May...CIM Presentation Chapais, Québec May 11th, 2017 . Safe Harbour Statement

Québec Education Programeducation.gouv.qc.ca/fileadmin/site_web/...presentation-primaire_EN.… · 2 1.1 THE GENERAL CONTEXT OF THE QUÉBEC EDUCATION PROGRAM Many governments have

Hadoop acm presentation

Seminar Presentation Hadoop

SAP Strata-Hadoop Asia Pacific Breakout Presentation, December, 2015

Hadoop und SAS Status und Ausblick · Title: business-breakfast-hadoop-gernot-engel Author: Katharina Wismayr Subject: hadoop presentation Created Date: 6/17/2015 3:29:47 PM

Accelera/ng%Hadoop%Projects%with% …files.meetup.com/3168962/CDAP-Presentation-Nitin...• Application*and*Application*Template Agenda. ... Hbase Zookeeper Core Hadoop 2011 Spark

Flightcaster Presentation Hadoop

· (Page views ? Hourly? Monthly Hadoop Node Hadoop Node Hadoop Camus Node Hadoop Node Hadoop Node Hadoop Node Hadoop Node Hadoop Node Ad-Hoc Analysis External Datastores Trends

Oct 2011 CHADNUG Presentation on Hadoop

Accelera/ng%Hadoop%Projects%with% …files.meetup.com/3168962/CDAP-Presentation-Nitin...• ApplicationandApplication*Template Agenda. ... Hbase Zookeeper Core Hadoop 2011 Spark