Big data

24

description

El diluvio de información que nos inunda no parara, al contrario se incrementara de una manera vertiginosa. La pregunta es: ¿Cómo enfrentar esa avalancha de información? Las herramientas tecnológicas y estadísticas están evolucionando para dar respuesta a las preguntas que nos asaltan, cuando el volumen, la variedad o la velocidad de la información que tenemos que enfrentar nos saca de nuestra zona de confort, cuando las herramientas que tenemos al alcance no son suficientes para dar respuesta a las necesidades de análisis que se nos demandan nuestros clientes, jefes o conciencias. Big data es la colisión amistosa entre la estadística y las tecnologías de la información, es tiempo de reflexionar: ¿Qué es Big Data? y ¿Cómo nos adaptaremos a el diluvio de información que viene?

Transcript of Big data

Page 1: Big data
Page 2: Big data
Page 3: Big data

h"p://en.wikipedia.org/wiki/File:Blind_men_and_elephant3.jpg     @abxda  

#sgvirtual  

Page 4: Big data

@abxda  

#sgvirtual  

Page 5: Big data

Según  Gartner:  

   Big  data  is  high-­‐volume,  high-­‐velocity  and  high-­‐variety  informaEon  assets  that  demand  cost-­‐effecEve,  innovaEve  forms  of  informaEon  

processing  for  enhanced  insight  and  decision  making.  

h"p://www.G.com/intl/cms/e91a32d0-­‐2bac-­‐11e3-­‐bfe2-­‐00144feab7de.pdf     @abxda  

#sgvirtual  

Page 6: Big data

Big  Data  y  Ciencia  de  Datos  

h"p://www.datascienceassn.org/    h"p://en.wikipedia.org/wiki/DIKW_Pyramid    

Datos    Crudos  

Información  (Significado)  

Tomar  Decisiones  Y  Actuar  

Ciencia  de  Datos  

(Transforma  =>)  

¿qué?  

¿quién?  

¿dónde?  

¿cuántos?  ¿por  qué?  

Análisis  de  Datos  

Volumen  

Variedad  

Internet  de  las  Cosas  

Internet  de  las  Personas  

Internet  de  las  Ideas  

Internet  de  todo  …  

EstadísEca  Machine  Learning  

EstraEficaciones  

Análisis  de  Regresión  

Muestreo  

Mucho  mas…   @abxda  

Análisis  de  Redes  (Grafos)  

#sgvirtual  

Minería  de  Datos  

Page 7: Big data

Cienjfico  de  Datos  

h"p://drewconway.com/zia/2013/3/26/the-­‐data-­‐science-­‐venn-­‐diagram     @abxda  

#sgvirtual  

Page 8: Big data

¿Qué  tanto  es  tanEto?  8 Bits = 1Byte!1024 Bytes = 1 Kilobyte!1024 Kilobytes = 1 Megabyte!1024 Megabytes = 1 Gigabyte!1024 Gigabytes = 1 Terabyte!1024 Terabytes = 1 Petabyte!1024 Petabytes = 1 Exabyte!

@abxda  

#sgvirtual  

Page 9: Big data

Era  MulEcore  35  años  de  Historia  del  Microprocesador  

@abxda  

Primavera  2005  Inicia  la  era  mulEcore  Diciembre  2004  -­‐>  MapReduce  

#sgvirtual  

Page 10: Big data

Computo  en  Paralelo  

h"p://www.sciencedirect.com/science/arEcle/pii/S1877050912001470    

h"p://research.google.com/archive/mapreduce.html    

h"p://theory.stanford.edu/~sergei/papers/soda10-­‐mrc.pdf    

MapReduce  (2004)  

Google,  Inc.  

Discil  de  Programar  

Fácil  de  Programar    

#sgvirtual  

@abxda  

Page 11: Big data

MapReduce  

h"p://research.google.com/archive/mapreduce.html    

Cientos  o  Miles  De  Computadoras  

Cientos  o  Miles  De  Computadoras  

#sgvirtual  

@abxda  

Page 12: Big data

MapReduce  (Pseudocódigo  para  contar  palabras)  

map(String input_key, String input_value):! // input_key: document name! // input_value: document contents! for each word w in input_value:! EmitIntermediate(w, "1");!!!reduce(String output_key, Iterator intermediate_values):! // output_key: a word! // output_values: a list of counts! int result = 0;! for each v in intermediate_values:! result += ParseInt(v);! Emit(AsString(result));!

#sgvirtual  

@abxda  

Page 13: Big data

     

PARALLEL  PROGRAMMING  

Herramientas  

   

PARALLEL  PROGRAMMING  

HADOOP  MAPREDUCE  

 

SPARK  RDD,  MAPREDUCE  

 SCALA,PYTHON,JAVA  

SCALA,PYTHON,JAVA  

R   PYTHON   JAVA  

•  FAULT  TOLERANCE  •  LOAD  BALANCING  •  SYNCHRONISATION  

•  FAULT  TOLERANCE  •  LOAD  BALANCING  •  SYNCHRONISATION  

STANDALONE  MULTICORE  

CLUSTER  BIG  DATA  

R   PYTHON   JAVA  

@abxda  h"p://hadoop.apache.org/    h"p://spark.incubator.apache.org/    

#sgvirtual  

Page 14: Big data

Spark  una  plataforma  Big  Data  

h"p://strataconf.com/strata2013/public/schedule/detail/27438    

h"ps://amplab.cs.berkeley.edu/soGware/    

@abxda  

#sgvirtual  

Page 15: Big data

Ciencia  de  Datos  en  Acción  

@abxda  www.inegi.org.mx/est/contenidos/Proyectos/estraEficador/    

#sgvirtual  

Page 16: Big data

Tecnologías  Involucradas  

@abxda  

#sgvirtual  

Page 17: Big data

Big  Data  en  el  Laboratorio  

@abxda  

#sgvirtual  

Page 18: Big data

Tecnologías  Involucradas  

@abxda  

#sgvirtual  

Page 19: Big data

Spark  y  MLBase  

 import org.apache.spark.mllib.clustering._!!val manzanas = sc.textFile("/Users/abxda/…/datos.csv")!val subconjunto = manzanas.map(manzana => extractColumn(manzana))!points_nacional.cache!var modelo = KMeans.train(subconjunto, k=5, maxIterations=10)!val out = new PrintWriter("/Users/abxda/…/salida.csv")!subconjunto.collect.foreach(x => out.println(modelo.predict(x)))!out.close()!

@abxda  

#sgvirtual  

Page 20: Big data

Shark  

select !estrato,!avg(p_autom),!avg(p_pc),!avg(p_cel),!avg(p_inter),!count(*) !

from salida group by estrato;!!

0"

0.1"

0.2"

0.3"

0.4"

0.5"

0.6"

0.7"

0.8"

0.9"

p_autom" p_pc" p_cel" p_inter"

4"

3"

2"

1"

0"

estrato   p_autom   p_pc   p_cel   p_inter   count(*)  4   0.536577059   0.46087735   0.76176366   0.340057367   308206  3   0.851219807   0.777557128   0.833951292   0.712273104   192934  2   0.254049418   0.139711048   0.683405158   0.076031984   376060  1   0.20981258   0.055136755   0.160281722   0.030043591   169243  0   0.693759231   0.176546203   0.788936165   0.084017414   174737  

1’221,180  

@abxda  

#sgvirtual  

Page 21: Big data

@abxda  

Promedios  por  variable  

#sgvirtual  

Page 22: Big data

Equipo  Big  Data  –  CienBficos  de  Datos,  expertos  en  integracion  de  soluciones  Big  Data  (MapReduce,  Scala,  Machine  Learning,  Spark,  R,  EstadísEca).  

–  EstadísBcos,  expertos  en  modelado  estadisEco,  enfoque  en  aprendizaje  estadísEco  (R).  

–  Desarrolladores  de  SoGware,  expertos  en  desarrollo  de  soGware  (JavaScript,  Arquitecturas  de  SoGware,  Patrones  de  Diseño,  Api’s  REST).  

–  Diseñadores  Gráficos,  expertos  en  presentación  de  información  (HTML5,  CSS3,  JavaScript,  Twi"er  Bootstrap).  

–  Administradores  de  Sistemas,  expertos  en  arquitecturas  de  computo,  infraestructura.  Desde  redes  a  clusters  de  computadoras  (Linux).  

@abxda  

#sgvirtual  

Page 23: Big data

La  tarea  •  Programación  funcional  

–  Scala  –  Akka  

•  EstadísEca  –  Probabilidad  y  EstadísEca  –  Muestreo  –  Machine  Learning  –  R  

•  Almacenes  de  Datos  NoSQL  –  Cassandra  –  MongoDB  –  Hbase  –  Neo4j  

•  Plataformas  Big  Data    –  Hadoop  –  Spark  

•  Visualización  de  Datos  –  D3.js   @abxda  

#sgvirtual  

Page 24: Big data

GRACIAS  

   

Abel  Alejandro  Coronado  Iruegas  Twi"er  :  @abxda  

h"p://abxda.wordpress.com/