CloudCamp - Big Data – La revolución de los datos

Post on 19-Jul-2015

199 views 4 download

Tags:

Transcript of CloudCamp - Big Data – La revolución de los datos

Big Data – La revolución de los datos

John Alexander Bulla TorresSQL Server MVP

Microsoft Azure

Agenda ¿Por que Big Data?

Conceptos Básicos

Microsoft y Hadoop

¿Por que Big Data?

Microsoft Azure

Tendencias Claves

Microsoft Azure

Big Data – La revolución en los datos

6

Los datos digitales crecerán40x próxima década

En 2015, servicios de nube pública tendrán 46% de crecimiento neto en gasto de ti

Microsoft Azure

Big Data analytics

Microsoft Azure

¿Qué es Big Data?

"Big data" es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable.

Microsoft Azure

¿Qué es Big Data?

Big data es una colección de conjuntos de

datos tan grande y complejo que se vuelve

difícil para trabajar con el uso de

herramientas de gestión de base de datos

tradicionales. Las dificultades incluyen la

captura, almacenamiento, búsqueda,

intercambio, análisis y visualización.

Fuente: Eduardo Castro MVP – SQL Saturday #247 Bogotá

Microsoft Azure

¿Qué es Big Data?

Big Data: “ Barreras para que una

organización o equipo puedan almacenar,

procesar y acceder todos los datos que

necesitan para operar con eficiencia, tomar

decisiones, reducir riesgos, etc.”

Fuente: SolidQ

Microsoft Azure

¿Qué es Big Data?

Volumen

Velocidad

Variedad

Variabilidad

Microsoft Azure

Internet of Things

Audio / Video

Log Files

Text/Image

Social Sentiment

Data Market Feeds

eGov Feeds

Weather

Wikis / BlogsClick Stream Sensors / RFID / Devices

Spatial & GPS Coordinates

Modern WebMobile

Advertising CollaborationeCommerce

Digital Marketing

Search Marketing

Web Logs

Recommendations

ERP / CRM

Sales Pipeline

Payables

Payroll

Inventory

Contacts

Deal Tracking

Terabytes

(10e12)

Gigabytes

(10e9)

Exabytes

(10e18)

Petabytes

(10e15)

Velocidad | Variedad | Variabilidad

Vo

lum

en

ERP / CRM Modern Web Internet of Things

¿Qué es Big Data?

Microsoft Azure

(kB) 10e3

(MB) 10e6

(GB) 10e9

(TB) 10e12

(PB) 10e15

(EB) 10e18

(ZB) 10e21

(YB) 10e24

Ejemplos de Big Data

12 Tbdía

21 PbHadoop

cluster

7 Pbmes

1 Tbtweets/dia

75

Millionscores/day

14 TbHadoop

cluster

4 BillionGraph

edg/day

7 Tbdatos/dia

Microsoft Azure

Escenarios de Business Analytics

• Análisis sencillo de gran cantidad de datos no estructurados: Microsoft HDInsight

• Análisis sencillo de datos en memoria: Microsoft StreamInsight

• Análisis en profundidad: SQL Server y Self-Service BI

16Microsoft Azure

Flujo de datos de un tradicional E-Commerce

Nuevo flujo de Big Data de un E-Commerce

¿Cuántas vistas

para ciertos

productos aume

ntan cuando

nuestros

anuncios se ven

en TV?

Conceptos básicos

Microsoft Azure

Características de Big Data

¿Qué es Hadoop?

• Plataforma de almacenamiento de datos y análisis para Big Data

• Open Source

• Optimizado para manejar

• Datos masivos a través de paralelismo

• Variedad de datos (Estructurados, No-estructurados, Menos estructurados)

• Uso de hardware económico

• No para OLTP / OLAP

21

¿Qué es HDInsight?

• Proyecto Isotope

• HDInsight es la distribución de Microsoft de Apache Hadoop que se ejecuta en Windows.

• On premise: Instalación en Windows Server

• Cloud: Despliegue en la nube Microsoft Azure

22

RDBMS vs. Hadoop

Distributed Storage

(HDFS)

Query

(Hive)

Distributed Processing

(MapReduce)

OD

BC

Legend■ Core Hadoop

■ Data processing

■ Data Movement

■ Packages

Ecosistema Hadoop

Hadoop Core +

Hive, Pig, HBase

C#, F#, .NET

Azure Storage (WASB)

Office 365 Power BI

(Excel, PowerQuery,

PowerView,

BI Sites)

World's Data (Azure Data

Marketplace)

HDInsight y Hadoop

ODBCSqoop for SQL

ServerPowerShell

HDInsight y Hadoop

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Flume

JDBC

Hive ODBC

Microsoft Azure & Windows Server

MicrosoftBI

Platform

Ofertas detalladas

Programando HDInsight

Hive, Pig, Mahout, Pegasus…

C#, F# Map/Reduce, Microsoft .NET management clients

PowerShell, cross-platform CLI tools

Ejemplos HiveQL

•Crear una Tabla Externa

31Microsoft Azure

CREATE EXTERNAL TABLE iislogs(sdate string, stime string, ssitename string, csmethod string, csuristem string, csuriquery string, sport int, scstatus int, scbytes int, sbytes int, timetaken int)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '

LOCATION'wasb://iis-logs@myapp.blob.core.windows.net/'

select sdate, stime, csmethod, scuristem, query_params['api-version'] as api_version,query_params['search_value'] as search_value

from (select *, str_to_map(csuriquery, '&', '=') as query_paramsfrom iislogs

) version_logswhere query_params['api-version'] is not null

•Ejecutar un query para retornar datos

Demo

HDInsight en Microsoft Azure

Libro Gratis de Microsoft Azure HDInsight

• Download the PDF (6.37 MB; 130 pages)http://aka.ms/IntroHDInsight/PDF

• Download the EPUB (8.46 MB)http://aka.ms/IntroHDInsight/EPUB

• Download the MOBI (12.8 MB)http://aka.ms/IntroHDInsight/MOBI

Recursos

24 Horas PASS en Español

http://bit.ly/24hopes201440

41