Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend
-
Upload
hortonworks -
Category
Software
-
view
251 -
download
2
Transcript of Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend
1
©2015 Talend Inc.
Adoption de Hadoop :
Des possibilités illimitées 18 juin 2015
2
Equipe de présentateurs
Benjamin Boutros Presales Channel Manager EMEA
Nicolas Maillard Solution Engineer EMEA
Page 3 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoop for the Enterprise: Implement a
Modern Data Architecture with HDP
Winter 2015 Version 1.0
Hortonworks. We do Hadoop.
Page 4 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Traditional systems under pressure
Challenges
• Constrains data to app
• Can’t manage new data
• Costly to Scale
Business Value
Clickstream
Geolocation
Web Data
Internet of Things
Docs, emails
Server logs
2012
2.8 Zettabytes
2020
40 Zettabytes
LAGGARDS
INDUSTRY
LEADERS
1
2 New Data
ERP CRM SCM
New
Traditional
Page 5 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoop emerged as foundation of new data architecture
Apache Hadoop is an open source data platform for
managing large volumes of high velocity and variety of data
• Built by Yahoo! to be the heartbeat of its ad & search business
• Donated to Apache Software Foundation in 2005 with rapid adoption by
large web properties & early adopter enterprises
• Incredibly disruptive to current platform economics
Traditional Hadoop Advantages
Manages new data paradigm
Handles data at scale
Cost effective
Open source
Traditional Hadoop Had Limitations
Batch-only architecture
Single purpose clusters, specific data sets
Difficult to integrate with existing investments
Not enterprise-grade
Application
Storage
HDFS
Batch Processing
MapReduce
Page 6 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Modern Data Architecture emerges to unify data & processing
Modern Data Architecture
• Enable applications to have access to
all your enterprise data through an
efficient centralized platform
• Supported with a centralized
approach governance, security and
operations
• Versatile to handle any applications
and datasets no matter the size or
type
Clickstream Web & Social
Geolocation Sensor & Machine
Server Logs
Unstructured
SO
UR
CE
S
Existing Systems
ERP CRM SCM
AN
AL
YT
ICS
Data
Marts
Business
Analytics
Visualization
& Dashboards
AN
AL
YT
ICS
Applications Business
Analytics
Visualization
& Dashboards
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
HDFS (Hadoop Distributed File System)
YARN: Data Operating System
Interactive Real-Time Batch Partner ISV Batch Batch MPP
EDW
Page 7 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoop adoption follows a predictable journey Cost Optimization, new analytic apps, and ultimately to a “data lake”
Page 8 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoop Driver: Cost optimization
Archive Data off EDW Move rarely used data to Hadoop as active
archive, store more data longer
Offload costly ETL process Free your EDW to perform high-value functions
like analytics & operations, not ETL
Enrich the value of your EDW Use Hadoop to refine new data sources, such as
web and machine data for new analytical context
AN
AL
YT
ICS
Data
Marts
Business
Analytics
Visualization
& Dashboards
HDP helps you reduce costs and optimize the value associated with your EDW
AN
AL
YT
ICS
D
AT
A S
YS
TE
MS
Data
Marts
Business
Analytics
Visualization
& Dashboards
HDP 2.2
ELT
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
N
Cold Data,
Deeper Archive
& New Sources
Enterprise
Data
Warehouse
Hot
MPP
In-Memory
Clickstream Web & Social
Geolocation Sensor & Machine
Server Logs
Unstructured
Existing Systems
ERP CRM SCM S
OU
RC
ES
Page 9 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Single View Improve acquisition and
retention
Predictive Analytics Identify your next best action
Data Discovery Uncover new findings
Financial
Services
New Account Risk Screens Trading Risk Insurance Underwriting
Improved Customer Service Insurance Underwriting Aggregate Banking Data as a Service
Cross-sell & Upsell of Financial Products Risk Analysis for Usage-Based Car Insurance Identify Claims Errors for Reimbursement
Telecom
Unified Household View of the Customer Searchable Data for NPTB Recommendations Protect Customer Data from Employee Misuse
Analyze Call Center Contacts Records Network Infrastructure Capacity Planning Call Detail Records (CDR) Analysis
Inferred Demographics for Improved Targeting Proactive Maintenance on Transmission Equipment Tiered Service for High-Value Customers
Retail
360° View of the Customer Supply Chain Optimization Website Optimization for Path to Purchase
Localized, Personalized Promotions A/B Testing for Online Advertisements Data-Driven Pricing, improved loyalty programs
Customer Segmentation Personalized, Real-time Offers In-Store Shopper Behavior
Manufacturing
Supply Chain and Logistics Optimize Warehouse Inventory Levels Product Insight from Electronic Usage Data
Assembly Line Quality Assurance Proactive Equipment Maintenance Crowdsource Quality Assurance
Single View of a Product Throughout Lifecycle Connected Car Data for Ongoing Innovation Improve Manufacturing Yields
Healthcare
Electronic Medical Records Monitor Patient Vitals in Real-Time Use Genomic Data in Medical Trials
Improving Lifelong Care for Epilepsy Rapid Stroke Detection and Intervention Monitor Medical Supply Chain to Reduce Waste
Reduce Patient Re-Admittance Rates Video Analysis for Surgical Decision Support Healthcare Analytics as a Service
Oil & Gas Unify Exploration & Production Data Monitor Rig Safety in Real-Time Geographic exploration
DCA to Slow Well Declines Curves Proactive Maintenance for Oil Field Equipment Define Operational Set Points for Wells
Government Single View of Entity CBM & Autonomic Logistic Analysis Sentiment Analysis on Program Effectiveness
Prevent Fraud, Waste and Abuse Proactive Maintenance for Public Infrastructure Meet Deadlines for Government Reporting
Hadoop Driver: Advanced analytic applications
Page 10 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoop Driver: Enabling the data lake S
CA
LE
SCOPE
Data Lake Definition
• Centralized Architecture Multiple applications on a shared data set
with consistent levels of service
• Any App, Any Data Multiple applications accessing all data
affording new insights and opportunities.
• Unlocks ‘Systems of Insight’ Advanced algorithms and applications
used to derive new value and optimize
existing value.
Drivers:
1. Cost Optimization
2. Advanced Analytic Apps
Goal:
• Centralized Architecture
• Data-driven Business
DATA LAKE
Journey to the Data Lake with Hadoop
Systems of Insight
Page 11 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Challenges to Hadoop Adoption
• Where do I start? Why is this of value to me
and my organization?
• Hadoop is complex, what do I use for what?
• It is too complex. I don’t have any trained
Hadoop resources.
Many have been down this path…
12
Dynamiser l’entreprise par ses données
13
Les plus grands défis du marché de l’intégration de données
BIG DATA Plus de données, moins structurées
PRODUCTIVITE Ne peut pas suivre la demande
COUT Solutions onéreuses
COMPETENCES Difficultés à trouver des compétences
14
La demande de Big Data
4.4 MILLIONS d’EMPLOIS DANS LE BIG DATA EN 2015
mais seulement un tiers de ces emplois seront pourvus
Source: Gartner
15
L’écosystème Hadoop est complexe
Source : “Hadoop Ecosystem Overview”, Forrester 2014
16
Talend apporte une productivité inégalable
CODAGE à la MAIN
• Contre-productif
• Nécessite des compétences spécifiques
• Difficile à maintenir
• Support limité
TALEND Big Data
• + de 800 composants
• Génère du code optimisé
• Collaboration & management
• Support Gold (SLAs)
30 X PLUS
PRODUCTIF
17
Architecture intemporelle avec génération de code natif
ETL Intégration quotidienne
ELT Data Warehouse
ESB Messaging, Routing, Transformation
HADOOP Hautement
évolutif
La Grande
Nouveauté
Spark
18 Select Icons made by Freepik, Situ Herrera, www.flaticon.com
Talend Big Data
Systèmes hérités
ERP
Internet des Objets
DBMS / EDW
NoSQL
Rapports standards Outils de requêtes ad-hoc
Data Mining
MDD/OLAP
Applications analytiques
NoSQL
Web Logs
Développe et teste Equipe opérations
Studio
Talend Big Data
Inge
stio
n
Map Profile Parse Match
Nettoie Standardise Change Data
Capture Machine Learning
Partage Planifie
Natif
Accè
s
Avantages
Productivité améliorée
TCO plus bas
Future Proof Architecture
19
La solution d’intégration de Big Data la plus facile et la plus puissante
Talend Big Data
Créer
Collaborer
Déployer Gérer
Adapter
• Interface utilisateur visuelle, glisser-déposer
• Plus de 800 connecteurs intégrés • Génère du code MapReduce Java ou SQL
• S’exécute au niveau du cluster
• Répartition de charge et haute disponibilité
• Optimisation du code
• Aucune installation de Talend sur Hadoop
• Nettoie et enrichie • Supporte nativement Kerberos
• Supporte des consoles de gestion Big Data
• Sécurité intégrée nativement • Planification, monitoring et
gestion centralisés
• Référentiel partagé • Auto-documentation
20
Les plus grands défis du marché de la donnée
EVOLUTIF AGILE
TCO plus bas FACILE
21
Finance et assurance
Services
Distribution et industrie
Secteur public et éducation
Une large base de clients
22
©2015 Talend Inc
Démonstration
23
Les points clés
• Talend Big Data Platform résout le problème des compétences
• Talend vous permet d’augmenter votre productivité Big Data
• Talend et Hortonworks ont la technologie et les compétences pour satisfaire les besoins de votre entreprise.
BIG DATA Plus de données, moins
structurées
PRODUCTIVITY Ne peut pas suivre la demande
COMPETENCES Difficulté de trouver des talents
24
Démonstration d’un cas d’usage
Objectif : identifier les problèmes de qualité de données avant de charger les données dans l’entrepôt de données de l’entreprise sans augmenter le nombre de chargements en cours.
• Charger 500 TB de fichiers compressés dans HFDS - Fichiers de ventes aux tiers/prescriptions délivrés par des fournisseurs
• Calculer les totaux mensuels - Avant de charger dans la base de données, comparer les totaux des mois précédents aux
totaux du mois actuel dans de nouveaux fichiers de données.
• Afficher les résultats de ces comparaisons dans un outil analytique - Afficher les comparaisons de ventes pour chaque produit pour montrer les problèmes de qualité de
données avant la mise en place du chargement dans la base de l’entreprise.
25
Chargement de données avec des tiers
Préparation des données Traitement de la base
de données
Rapports finaux / Vérification
de la qualité
Les problèmes de mauvaise qualité des Big Data entraînent une perte
de temps, de ressources et de revenus
26
Optimisation de l’entrepôt de données
Cluster
Hadoop Vérifications des données au préalable
Identifier plus tôt les Master records
Charger des données non-compressées
directement dans l’entrepôt de données
Chargement optimisé
Préparation des données Traitement de la base
de données
Rapports finaux / Vérification
de la qualité
27
©2015 Talend Inc
Démonstration
28
Les points clés
Récap’ de la démonstration?
• Hortonworks et Talend peuvent vous aider à réduire vos coûts,
• Ils vous déchargent des processus ETL onéreux,
• Ils augmentent la valeur de votre entrepôt de données,
• Ils mettent à disposition un environnement visuel graphique
glissez-déposez.
29
Hortonworks/Talend Sandbox
• Environnement visuel graphique glissez-déposez mettant en avant Hortonworks - Permet de montrer les résultats d’un travail d’intégration de façon visuelle
• Accélère le chargement de données et la transformation avec Hadoop - Construire et déployer des jobs MapReduce et Pig dans YARN
• Cas d’utilisation préconstruits : optimisation des entrepôts de données, données de parcours de clics, analyse sentimentale des données de Twitter, Analyse des weblogs Apache
• Démonstrations de plusieurs bases de données NoSQL
30
De zero au Big Data en 10 minutes
Téléchargez la sandbox gratuite fr.talend.com/hortonworks-sandbox • Commencez en quelques minutes (pas en
semaines), avec une sandbox Big Data et une
démonstration
• Inclut : Une analyse de sentiments,
chargement ETL, analyse de fichiers Log
• Commencez à travailler avec Talend &
Hortonworks dès aujourd’hui !
33
©2015 Talend Inc.
Question & Réponses
34
©2015 Talend Inc.
Merci pour votre attention
A bientôt