Open XKE - Big Data, Big Mess par Bertrand Dechoux

Big Data, Big Mess ?Par Bertrand Dechoux

Experience Hadoop

•première contact début 2010•consultant et trainer Hadoop @ Xebia

Agenda

Et les données ?

Hive, Pig et Cascading

Hadoop MapReduce 101

Api Java, Hadoop Streaming

HadoopMapReduce

un problème, une solution

Objectifs :

•calcul distribué

•haute volumétrie

Choix :

•commodity hardware

•local read

Map et Reduce

reduce

DATA DATA DATA

map map map

reduce

DATA DATA

Ce qui vous est fourni

• des primitives• en Java• fonctionnelles• de batch distribué

Api Java,Hadoop Streaming

L’Api java

public class WordCount { public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasMoreTokens()) { word.set(tokenizer.nextToken()); context.write(word, one); } } } public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> {

public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } context.write(key, new IntWritable(sum)); } } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = new Job(conf, "wordcount"); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); job.setMapperClass(Map.class); job.setReducerClass(Reduce.class); job.setInputFormatClass(TextInputFormat.class); job.setOutputFormatClass(TextOutputFormat.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); job.waitForCompletion(true); } }

public class WordCount { public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasMoreTokens()) { word.set(tokenizer.nextToken()); context.write(word, one); } } } public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> {

public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } context.write(key, new IntWritable(sum)); } } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = new Job(conf, "wordcount"); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); job.setMapperClass(Map.class); job.setReducerClass(Reduce.class); job.setInputFormatClass(TextInputFormat.class); job.setOutputFormatClass(TextOutputFormat.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); job.waitForCompletion(true); } }

Industrialisation Simple

•dependances -> maven•test -> MRUnit + JUnit + maven•release -> maven + jenkins + nexus

Cas d’usage classique

•centralisation des logs•comment l’exploitant utilise t il les logs?

Beyond Java : Hadoop Streaming

•lecture et écriture sur stdin/stdout•integration du legacy•seulement des jobs simples•industrialisation sans problème

Hive, Pig etCascading

Hive et Pig

•PigLatin•‘bou!e tout’•DAG

•HiveQL•structuré•tree

Industrialisation ?

•dependances -> maven•test -> JUnit + maven•release -> maven + jenkins + nexus

Industrialisation Laborieuse

•1 job MapReduce -> minimum 10 secondes•1 requete -> ???•n requetes -> trop long

Cascading

•principe similaire à Hive et Pig•une surapi en Java•ou scala : scalding•ou clojure : cascalog

•Hadoop n’est pas la seule plateforme

Et les données?1

Les fichiers

type text SequenceFile Avro

interoperabilité

performance

Le filesystem : HDFS

•peu de "chiers•des gros "chiers•optimisés pour la lecture en continu

La base : HBase

•un clone de BigTable•essentiellement une Map avec clefs triées

Data Management

•HCatalog•inspiré de Hive metastore•décrit les jeux de données

•Avro•un "chier contenant sa description•perfomant

Data Management

•management = coordination

•data steward / data custodian

Tout cela est il important ?

DesQuestions ?

Merci!

Open XKE - Big Data, Big Mess par Bertrand Dechoux

Documents

Transcript of Open XKE - Big Data, Big Mess par Bertrand Dechoux

Scott Bertrand

Crowdsourcing gas flux climatologies and the big experiment Jamie Shutler, Jean-Francois Piolle, Peter Land, David Woolf, Fanny Girard-Ardhuin, Bertrand.

Author: Bertrand Chardonnet

Chair of Software Engineering Avoid a void Bertrand Meyer ©Bertrand Meyer, 2008.

Bertrand Russell - Vaguedad

THE BERTRAND RUSSELL

Xke spring boot

Sandie bertrand photography

Open XKE - POC d'une architecture distribuée de calculs financiers par Xavier Bucchiotty

Bertrand Thibault

Bertrand Meslier Leadership

Vedad Pašic´ - pmf.untz.ba · Vedad Pašic´ Popularna matematika. Russelov paradoks Magicni kvadratiˇ Bertrand Russell Russellov paradoks Bertrand Russell Bertrand Arthur William

Bertrand Russell.on Propositions

Weakened Bertrand Curves

Bertrand Russel Books : Http://PDF.Tarikhemafiles.tarikhema.org/.../Russell/Zendegi-va-Asare-Bertrand-Rassel.pdf · Bertrand Arthur William Russell -1 John Russell ,Viscount Amberley

QUARTERLY - Bertrand Russell

Bertrand Carbonneaux · Bertrand Carbonneaux Arranger, Composer, Interpreter, Teacher France , SAINT GRATIEN About the artist Hello ! I'm Bertrand Carbonneaux, alias "HarmoChopin".

Portfolio 2016_Anne Bertrand

Open XKE - Construire une application Ops friendly par Pablo Lopez

Russell, Bertrand - Reader - Anarchy is Orderanarchyisorder.org/onewebmedia/Russell, Bertrand - Reader.pdf · The Philosophy of Bertrand Russell, 3rd edn (New York: Harper and Row,