Big Data con Windows Azure HDInsight | Lanzamiento SQL Server 2014

Post on 14-Jun-2015

174 views 4 download

Tags:

description

http://www.solidq.com Presentación que se realizó en el evento de lanzamiento en Valencia y A Coruña los días 17 y 19 de Junio respectivamente. Big Data con Windows Azure HDInsight, con

Transcript of Big Data con Windows Azure HDInsight | Lanzamiento SQL Server 2014

Big Data con Windows Azure

HDInsight

Yolanda Olmedo Rodríguez

Data Platform Specialist

yolmedo@solidq.com

Antonio Soto

COO

asoto@solidq.com

2

Agenda

•¿Qué es Big Data?

•Y… ¿Qué es Hadoop?• HDFS

• Map Reduce

•HDInsight

•Ecosistema HDInsight

•Explotación de la información

© 2014 SolidQ

3© 2014 SolidQ

¿Qué es Big Data?

•Tratamiento y análisis de gran cantidad de datos.

•Alto volumen, alta velocidad y alta variedad de información que exigen un procesamiento rentable para la obtención de conomiciento y la toma de decisiones.

Big Data

4© 2014 SolidQ

¿Qué es Big Data? – Las 4 V’s

Volumen

Velocidad

Variedad

Variabilidad

5© 2014 SolidQ

Hadoop (I)

•Plataforma para almacenamiento de datos y análisis para Big Data

•Open Source

•Optimizado para manejar• Datos masivos a través de paralelismo

• Variedad de datos (estructurados y no estructurados)

•No para OLTP / OLAP

•Componentes principals• HDFS: Hadoop Distribution File System

• MapReduce

6© 2014 SolidQ

HDInsight

•HDInsight es la distribución de Microsoft de Apache Hadoop que se ejecuta en Windows.

•On premise. Instalación en Windows Server

•On Azure: Despliegue en la nube

© 2014 SolidQ 7

Distributed Storage(HDFS)

Query(Hive)

Distributed Processing(Map Reduce)

Scripting(Pig)

NoSQL Database(HBase)

Metadata(HCatalog)

Data

Inte

gra

tion

( OD

BC

/ SQ

OO

P/ R

EST)

Busin

ess In

tellig

ence

(E

xcel, Po

werV

iew

…)

Machine Learning (Mahout)

Graph(Pegasus)

Stats processing (RHadoop)

Pipeline / workflow(Oozie)

Log fi

le

aggre

gatio

n(Flu

me)

PDW

World’s Data (Azure Data Marketplace)

AD, System CenterWindows Azure Storage

Ecosistema HDInsight/Hadoop

9© 2014 SolidQ

DEMOCreación cluster HDInsight

10© 2014 SolidQ

HDFS

•Sistema de archivos distribuido para grandes conjuntos de datos

•Replicación de los datos

•Tolerancia a fallos

•Patrón pocas escrituras, muchas lecturas

12© 2014 SolidQ

Map Reduce

•Map Reduce es el núcleo de Hadoop

•Modelo de procesamiento paralelo

•Divide un trabajo en pequeñas tareas

•Tolerancia a fallos

•Se ejecuta en los nodos donde residan los datos

14© 2014 SolidQ

MapReduce

MapReduce

Mapper

Mapper

Mapper

Reducer

Reducer

Reducer

Mezclay

ordena

15

Haga clic en el icono para agregar una imagen

Haga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagen

Haga clic en el icono para agregar una imagen

EscenarioDatos de clima y consumo de cerveza

•Analizar grandes volúmenes de información respecto del clima y su correlación de consumo, relacionado con períodos estacionales

16© 2014 SolidQ

DEMOMap Reduce

17© 2014 SolidQ

Hadoop: Hive

•Sistema Data Warehouse para Hadoop

•Consultas Ad-hoc

•Lenguaje de consulta como SQL: HiveQL

•Por detás ejecuta MapReduce

HDFS

Map Reduce

Hive

19© 2014 SolidQ

Hadoop: Sqoop

• Importación y Exportación: RDBMS HDFS, Hive..

• SQL Server, MySQL, Oracle

SQOOP

RDBMS

20

Explotación de la información

© 2014 SolidQ

Microsoft Excel

21© 2014 SolidQ

DEMOHadoop

Si quieres disfrutar de las mejores sesiones de nuestros mentores de España y Latino América, ésta es tu

oportunidad.

http://summit.solidq.com

Síguenos: