DémonstrationBig Data avec Hadoopinfo.talend.com/rs/talend/images/Talend Connect... · Hadoop en...
Transcript of DémonstrationBig Data avec Hadoopinfo.talend.com/rs/talend/images/Talend Connect... · Hadoop en...
Démonstration Big Data avec Hadoop
Rémy DUBOIS – Component team managerRémy DUBOIS – Component team manager
© Talend 2012 2
Agenda
Hadoop en quelques mots
� HDFS: le système de fichier distribué
� MapReduce: le modèle de programmation
� L’écosystème d’Hadoop
Démonstration
© Talend 2012 3
Hadoop en quelques mots
HDFS: le système de fichier distribué
� Hadoop est un framework qui permet de traiter des données distribuées.
� HDFS est le système de fichier d’Hadoop.� Les données sont répliquées.
� La donnée est localisée en fonction de son accessibilité.
� L’avantage d’Hadoop:� Extensibilité/Scalabilité du framework
© Talend 2012 4
Hadoop en quelques mots
MapReduce: le modèle de programmation
� Modèle de programmation adapté à un système de fichier distribué.
� Deux étapes:� Map: Tâche réalisée sur un sous-ensemble des données.
� Reduce: Fusion des différents résultats produits par les différentes phases de Map.
© Talend 2012 5
Hadoop en quelques mots
L’écosystème d’Hadoop
HBase
(ColumnarNoSQLSto
re)
Pig(Data Flow)
Hive(SQL)
MapReduce(Distributing Programming Framework)
HCatalog
(Table & Schema Management)
HDFS(Hadoop Distributed File System)
© Talend 2012 6
Démonstration
Impossible d’afficher l’image.
Merci