SolidQ Business Analytics Day | Como de grandes son tus datos

40
Cómo de grandes son tus datos? Javier Torrenteras Director Área BI [email protected]

description

Presentación de Javier Torrenteras en el SolidQ Business Analytics Day en Valencia (España) - ¿Por qué Big data? - Entonces...Haddoop ¿Qué es? - ventajas y Componentes de Hadoop -HD Insight, Windows Azure HDInsight -Grandes DW www.bisql.com

Transcript of SolidQ Business Analytics Day | Como de grandes son tus datos

Page 1: SolidQ Business Analytics Day | Como de grandes son tus datos

Cómo de grandes son tus

datos?

Javier Torrenteras

Director Área BI

[email protected]

Page 2: SolidQ Business Analytics Day | Como de grandes son tus datos

The Big Data Picture

Page 3: SolidQ Business Analytics Day | Como de grandes son tus datos

© SolidQ 2013 3

Page 4: SolidQ Business Analytics Day | Como de grandes son tus datos

Agenda

• ¿Por qué Big Data?

• Entonces… Hadoop, ¿Qué es?

• Ventajas

• Componentes

• Apache Hadoop y Microsoft BI

• HDInsight

• Windows Azure HDInsight

• Grandes DW

Page 5: SolidQ Business Analytics Day | Como de grandes son tus datos

¿Por qué Big Data?

Una arquitectura rígida impide disponer inmediatamente

nuevas oportunidades de negocio

El reporting retrospectivo no guía las decisiones de negocio.

Datos móviles, sociales o de dispositivos no están disponibles

La agregación destruye determinadas insights valiosos

Page 6: SolidQ Business Analytics Day | Como de grandes son tus datos

Las 4 V’s

Volumen

Velocidad

Variedad

Variabilidad

Page 7: SolidQ Business Analytics Day | Como de grandes son tus datos

Ejemplos de Big Data

12 Tb día

21 Pb Hadoop

cluster

7 Pb mes

1 Tb tweets/dia

75

Million scores/day

14 Tb Hadoop

cluster

4 Billion Graph

edg/day

7 Tb datos/dia

Page 8: SolidQ Business Analytics Day | Como de grandes son tus datos

Entonces…¿cómo obtengo insights?

Datos

estructurados

Datos estructurados Bases de Datos relacionales

Bases de Datos analíticas Registros

Page 9: SolidQ Business Analytics Day | Como de grandes son tus datos

BIG DATA

Entonces…¿cómo obtengo insights?

Datos

estructurados

Datos estructurados Bases de Datos relacionales

Bases de Datos analíticas Registros

Page 10: SolidQ Business Analytics Day | Como de grandes son tus datos

Ficheros log

Datos

menos

estructura

dos

Datos

públicos

Device

outputs

Texto/

Imágenes

New

Insights

Datos menos estructurados Intentar un ETL para

transformarlo en relacional Tiempo de desarrollo elevado

Son datos susceptibles a cambios de estructura

Archivados y Borrados

Acceso caro

Entonces…¿cómo obtengo insights?

Datos

estructurados

Datos estructurados Bases de Datos relacionales

Bases de Datos analíticas Registros

Page 11: SolidQ Business Analytics Day | Como de grandes son tus datos

20%

80%

Tipos de datos

Estructurado

Menos estructurado

Entonces…¿cómo obtengo insights?

Page 12: SolidQ Business Analytics Day | Como de grandes son tus datos

DEMO Insights de datos no estructurados

Page 13: SolidQ Business Analytics Day | Como de grandes son tus datos

¿Qué es Hadoop?

• Open Source

• Plataforma de almacenamiento de datos y

análisis para Big Data

• Optimizado para manejar

• Datos masivos a través de paralelismo

• Variedad de datos (Estructurados, No-estructurados,

Menos estructurados)

• Uso de hardware económico

• No para OLTP / OLAP

Page 14: SolidQ Business Analytics Day | Como de grandes son tus datos

Escalable

Escala linealmente en capacidad de almacenamiento y computación

Tolerante a Fallos

Proporcionado por el Sistema de ficheros distribuido y el framework de lectura

Procesamiento distribuido

Sigue la estrategia de divide y vencerás

¿Qué es Hadoop?: Ventajas

Page 15: SolidQ Business Analytics Day | Como de grandes son tus datos

HDFS

Map Reduce

Hive Pig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 16: SolidQ Business Analytics Day | Como de grandes son tus datos

HDFS

Map Reduce

Hive Pig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 17: SolidQ Business Analytics Day | Como de grandes son tus datos

Hadoop Distributed File System (HDFS)

• Sistema de ficheros distribuido diseñado para grandes conjuntos de datos

• Fiable y con buen rendimiento

• Alto rendimiento de acceso: Latencia de disco

• Alto ancho de banda Almacenamiento Clustered auto-reparable

• Divide los datos entre los nodos en un Cluster

• NameNode: Mantiene el mapeo de bloques de ficheros a nodos esclavos

• DataNode: Almacena y sirve bloques de datos

Page 18: SolidQ Business Analytics Day | Como de grandes son tus datos

Hadoop Distributed File System (HDFS)

File File File

File File File

File

File File File

File File File

File File

File File File

File File

File File File

File File

NameNode DataNode

File File

File File

DataNode DataNode

File

File

File File

File

File File

Block Size = 64 Mb

Replication Factor = 3

Page 19: SolidQ Business Analytics Day | Como de grandes son tus datos

HDFS

Map Reduce

Hive Pig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 20: SolidQ Business Analytics Day | Como de grandes son tus datos

Map Reduce Framework

• Motor de planificación parar Procesamiento de carga

distribuido

• Pares Clave-Valor

• Función Map

• Función Reduce

• Lenguajes de Script : Java, python, Javascript…

• Saca provecho de la distribución de datos de HDFS

• JobTracker: Planifica los trabajos entre los TaskTrackers

• TaskTracker: unidades de trabajo

Page 21: SolidQ Business Analytics Day | Como de grandes son tus datos

Map Reduce Framework

File File File

File File File

File

File File File

File File File

File File

File File File

File File

File File File

File File

JobTracker TaskTracker

MapReduce

Job

TaskTracker TaskTracker

File

File

File File

File

File File

map

map map

Reduce

Page 22: SolidQ Business Analytics Day | Como de grandes son tus datos

HDFS

Map Reduce

Hive Pig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 23: SolidQ Business Analytics Day | Como de grandes son tus datos

Sqoop

• Tecnología que sirve de interfaz entre HDFS y los

Sistemas de información empresarial

• Orígenes de datos relacionales integrados

• MySQL, Oracle, SQL Server …

• Importación / Exportación (Bidireccional)

Page 24: SolidQ Business Analytics Day | Como de grandes son tus datos

HDFS

Map Reduce

Hive Pig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 25: SolidQ Business Analytics Day | Como de grandes son tus datos

Pig

• Lenguaje de flujo de datos de alto nivel y framework de ejecución

• Lenguaje de consulta: PigLatin

• Posibilidad de join de tablas

• Por detrás ejecuta trabajos MapReduce

Page 26: SolidQ Business Analytics Day | Como de grandes son tus datos

HDFS

Map Reduce

Hive Pig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 27: SolidQ Business Analytics Day | Como de grandes son tus datos

Hive

• Infraestructura Data Warehouse desde Hadoop

• Proporciona

• Sumarización de Datos

• Consultas Ad-hoc

• Lenguaje consulta estilo SQL: HiveQL

• Por detrás ejecuta trabajos MapReduce

Page 28: SolidQ Business Analytics Day | Como de grandes son tus datos

HDFS

Map Reduce

Hive Pig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 29: SolidQ Business Analytics Day | Como de grandes son tus datos

Otros componentes: Hadoop Ecosystem

Mahout

• Minería de Datos y Machine Learning

Pegasus

• Page Rank yGraph Mining

• Social Network Analysis

Lucene

• Technología de indexación y búsqueda

Algunos otros: Avro, Hbase, Flume, Oozie…

Page 30: SolidQ Business Analytics Day | Como de grandes son tus datos

MICROSOFT ON THE HADOOP

Page 31: SolidQ Business Analytics Day | Como de grandes son tus datos

HDInsight

• Project Isotope

• Proporciona Apache Hadoop en

• Windows Server

• Windows Azure

• Active Directory & System Center

Page 32: SolidQ Business Analytics Day | Como de grandes son tus datos

HDFS

Map Reduce

Hive Pig

Sqoop

Mahout Pegasus Lucene …

Hadoop: Componentes Originales

Page 33: SolidQ Business Analytics Day | Como de grandes son tus datos

HDFS

Map Reduce

Hive Pig

Sqoop

Mahout Pegasus Lucene …

JDBC

Hive ODBC

Microsoft

BI

Platform

HDinsight

Page 34: SolidQ Business Analytics Day | Como de grandes son tus datos

HDFS

Map Reduce

Hive Pig

Sqoop

Mahout Pegasus Lucene …

JDBC

Hive ODBC

Windows Azure & Windows Server

Microsoft

BI

Platform

HDInsight

Page 35: SolidQ Business Analytics Day | Como de grandes son tus datos

DEMO Windows Azure HDInsight

Page 36: SolidQ Business Analytics Day | Como de grandes son tus datos

Características HDInsight

HDFS

• Basado en Windows

• Compatibilidad con Directorio Activo

• Almacenamiento compatible:

• HDFS

• Azure Blob Storage

• Amazon S3

MapReduce Framework

• Compatibilidad JavaScript

• Hadoop Streaming con compatibilidad F# y C#

Page 37: SolidQ Business Analytics Day | Como de grandes son tus datos

Características HDInsight

Hive

• Consolta Interactiva

• Complemento Hive para Excel 2010

• Hive ODBC Driver

• Potentes funciones regex

Pig

• Consola Interactiva

Sqoop

• Driver JDBC para SQL Server y SQL Server PDW

Page 38: SolidQ Business Analytics Day | Como de grandes son tus datos

DEMO Mezclando los datos

Page 39: SolidQ Business Analytics Day | Como de grandes son tus datos

Si quieres disfrutar de las mejores sesiones de nuestros

mentores de España y Latino América, ésta es tu

oportunidad.

http://summit.solidq.com/madrid/

Síguenos:

Page 40: SolidQ Business Analytics Day | Como de grandes son tus datos

SolidQ Business Analytics Day

Eladio Rincón

Director Área BBDD

[email protected]

Javier Torrenteras

Director BI

[email protected]