Big data, Hadoop, HDInsight

Post on 17-Jul-2015

1.515 views 2 download

Tags:

Transcript of Big data, Hadoop, HDInsight

Big Data HDInsight

Gustavo Alzate Sandoval

Microsoft Azure

Agenda

Conociendo Big Data

Conceptos Básicos

Escenarios

Hadoop

HDInsight

¿Qué es Big Data?

"Big data" es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable.

Microsoft Azure

¿Qué es Big Data?

Big data es una colección de conjuntos de

datos tan grande y complejo que se vuelve

difícil para trabajar con el uso de

herramientas de gestión de base de datos

tradicionales. Las dificultades incluyen la

captura, almacenamiento, búsqueda,

intercambio, análisis y visualización.

Fuente: Eduardo Castro MVP – SQL Saturday #247 Bogotá

Microsoft Azure

¿Qué es Big Data?

Big Data: “ Barreras para que una

organización o equipo puedan almacenar,

procesar y acceder todos los datos que

necesitan para operar con eficiencia, tomar

decisiones, reducir riesgos, etc.”

Fuente: SolidQ

Microsoft Azure

¿Por que Big Data?

Microsoft Azure

Tendencias Claves

Microsoft Azure

Big Data – La revolución en los datos

Los datos digitales crecerán40x próxima década

En 2015, servicios de nube pública tendrán 46% de crecimiento neto en gasto de ti

Microsoft Azure

¿Qué es Big Data?

Volumen

Velocidad

Variedad

Variabilidad

Microsoft Azure

Internet of Things

Audio / Video

Log Files

Text/Image

Social Sentiment

Data Market Feeds

eGov Feeds

Weather

Wikis / BlogsClick Stream Sensors / RFID / Devices

Spatial & GPS Coordinates

Modern WebMobile

Advertising CollaborationeCommerce

Digital Marketing

Search Marketing

Web Logs

Recommendations

ERP / CRM

Sales Pipeline

Payables

Payroll

Inventory

Contacts

Deal Tracking

Terabytes

(10e12)

Gigabytes

(10e9)

Exabytes

(10e18)

Petabytes

(10e15)

Velocidad | Variedad | Variabilidad

Vo

lum

en

ERP / CRM Modern Web Internet of Things

¿Qué es Big Data?

Microsoft Azure

Ejemplos de Big Data

12 Tbdía

21 PbHadoop

cluster

7 Pbmes

1 Tbtweets/dia

75

Millionscores/day

14 TbHadoop

cluster

4 BillionGraph

edg/day

7 Tbdatos/dia

Microsoft Azure

Flujo de datos de un tradicional E-Commerce

Nuevo flujo de Big Data de un E-Commerce

Conceptos básicos

Microsoft Azure

Características de Big Data

¿Qué es Hadoop?

• Plataforma de almacenamiento de datos y análisis para Big Data

• Open Source

• Optimizado para manejar

• Datos masivos a través de paralelismo

• Variedad de datos (Estructurados, No-estructurados, Menos estructurados)

• Uso de hardware económico

• No para OLTP / OLAP

Sistema de archivos distribuidos(HDFS)

• Sistema de archivos distribuidos y escalables escrito en Java

• Replicación automática

• Optimizado para operaciones de lectura

• Distribuye y copia los ficheros en diferentes nodos para garantizarbackup y disponibilidad de la información

MapReduce

• Sistema de procesamiento distribuido (consume de datos)

• Rastreador de trabajo (Job tracker)

• Rastreador de tareas (Task tracker)

• Resolución práctica de problemas susceptibles a ser paralelizados

• Aborda problemas de set de datos de gran tamaño

RDBMS vs. Hadoop

Distributed Storage

(HDFS)

Query

(Hive)

Distributed Processing

(MapReduce)

OD

BC

Legend■ Core Hadoop

■ Data processing

■ Data Movement

■ Packages

Ecosistema Hadoop

Hive

• Consultas en paralelo usando MapReduce

• Lenguaje HiveQL (Símil Sql)

• Permite procesar grandes volúmenes de datos

• Escalabilidad

• Tolerancia a fallos

Microsoft Azure

Ejemplos HiveQL

•Crear una Tabla Externa

Microsoft Azure

CREATE EXTERNAL TABLE iislogs(sdate string, stime string, ssitename string, csmethod string, csuristem string, csuriquery string, sport int, scstatus int, scbytes int, sbytes int, timetaken int)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '

LOCATION'wasb://iis-logs@myapp.blob.core.windows.net/'

select sdate, stime, csmethod, scuristem, query_params['api-version'] as api_version,query_params['search_value'] as search_value

from (select *, str_to_map(csuriquery, '&', '=') as query_paramsfrom iislogs

) version_logswhere query_params['api-version'] is not null

•Ejecutar un query para retornar datos

Pig

• Lenguaje script para expresar sentencias MapReduce

• Usa paralelismo para ejecutar las sentencias

• Optimizado para grandes volumenes de datos

• Lenguaje PigLatin (Símil Sql)

Microsoft Azure

Ejemplos PigLatin

•Carga y Transformación de Datos

Microsoft Azure

A = load 'passwd' using PigStorage(':'); -- load the passwd file B = foreach A generate $0 as id; -- extract the user IDs store B into ‘id.out’; -- write the results to a file name id.out

LOGS = LOAD 'wasb:///example/data/sample.log';LEVELS = foreach LOGS generate REGEX_EXTRACT($0, '(TRACE|DEBUG|INFO|WARN|ERROR|FATAL)', 1) asLOGLEVEL;FILTEREDLEVELS = FILTER LEVELS by LOGLEVEL is not null;GROUPEDLEVELS = GROUP FILTEREDLEVELS by LOGLEVEL;FREQUENCIES = foreach GROUPEDLEVELS generate group as LOGLEVEL, COUNT(FILTEREDLEVELS.LOGLEVEL)as COUNT;RESULT = order FREQUENCIES by COUNT desc;DUMP RESULT;

•Ejecutar un query para retornar y procesar datos

¿Qué es HDInsight?

• Project Isotope

• HDInsight es la distribución de Microsoft de Apache Hadoop que se ejecuta en Windows.

• On premise: Instalación en Windows Server

• Cloud: Despliegue en la nube Microsoft Azure

Ventajas

Escale con total flexibilidad a petición

•HDInsight se ha diseñado para poder hacer frente a cualquier cantidad de datos, con la capacidad de escalar de terabytes a petabytes a petición. Solamente se cobra por los recursos de proceso y almacenamiento que realmente usa.

Ventajas

Estudie todos los datos: estructurados,semiestructurados, no estructurados

•Dado que es 100% Apache Hadoop, HDInsightpuede procesar datos no estructurados o semiestructurados desde secuencias de clics web, medios sociales, registros de servidor, dispositivos, sensores, etc.

Ventajas

Desarrolle en su lenguaje favorito

•HDInsight tiene extensiones de programación eficaces para lenguajes como C#, Java, .NET y más. Así, en Hadoop, podrá usar el lenguaje de programación de su elección para crear, configurar, enviar y supervisar trabajos de Hadoop

Ventajas

Sin hardware que comprar o mantener

•Con HDInsight, puede implementar Hadoop en la nube sin comprar nuevo hardware ni incurrir en otros costos iniciales. Además, la instalación y configuración se realizan de forma rápida. Azure se encarga de todo. Puede iniciar su primer clúster en minutos

Ventajas

Use Excel para visualizar sus datos de Hadoop

•Dado que se integra con Excel, HDInsight le permite visualizar y analizar los datos de Hadoop de nuevas y convincentes formas en una herramienta conocida para sus usuarios finales. Desde Excel, los usuarios pueden seleccionar Azure HDInsight como origen de datos

Hadoop Core +

Hive, Pig, HBase

C#, F#, .NET

Azure Storage (WASB)

Office 365 Power BI

(Excel, PowerQuery,

PowerView,

BI Sites)

World's Data (Azure Data

Marketplace)

HDInsight y Hadoop

ODBCSqoop for SQL

ServerPowerShell

Demo

HDInsight en Microsoft Azure

Ofertas detalladas

Recursos

Importante

Big Data analytics

Microsoft Azure

Programando HDInsight

Hive, Pig, Mahout, Cascading, Scalding, Scoobi, Pegasus…

C#, F# Map/Reduce, Microsoft .NET management clients

PowerShell, cross-platform CLI tools

Empleos de Autor Integración de App

Construyendo experiencias de desarrollador

Creación de frameworks and lenguajes

Conectividad

Programabilidad

Seguridad

Combinados libremente

Ligero

Bajo costo de extender

Escenario orientado

Innovación fluye hacia

arriba

Nuevos modelos de

computo

Mejoras de rendimiento

Extender la amplitud &

profundidad

Habilitar nuevos escenarios

Integrar con cadenas actuales

de herramientas

HDInsight y Hadoop

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Flume

JDBC

Hive ODBC

Microsoft Azure & Windows Server

MicrosoftBI

Platform