Big data con SQL Server 2014

Big Data con SQL Server 2014

Dr. Eduardo Castro, MAP

Microsoft SQL Server MVPPASS Regional Mentor

Vídeo tutorialshttp://www.youtube.com/eduardocastrom

Introducción para BI & Big DataDAXMDXMinería de DatosExcel BI

PPThttp://slideshare.net/ecastrom

Recursos adicionales

http://www.youtube.com/eduardocastrom

Canal en YouTube



Fuentes utilizadas

http://channel9.msdn.com/Events/TechEd/NorthAmerica/2014

MSDN Microsoft

TechEd Microsoft

http://hortonworks.com

Análisis de grandes cantidades de datos

Big Data

Objetivos

Explicar la analítica de grandes cantidades de datos

Introducir la minería de datos, Hadoop y PDW

Qué es un PetabyteTomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php

Un Terabyte son 1024 Gigabytes. 1 Gigabyte = 1024 Megabytes.

Un Petabyte es una unidad de almacenamiento de información cuyo símbolo es PB, equivale a 1024 Terabytes = 1.125.899.906.842.624 de bytes.

Qué es un PetabyteTomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php

• 1 Petabyte es suficiente para almacenar 13.3 años de video HD

• 1.5 Petabytes son necesarios para almacenar 10 Billones de fotos de Facebook

• Google procesa alrededor de 24 Petabytes de información por día.

• Avatar, la película de James Cameron del 2009, usó 1 Petabyte de información para realizar los efectos especiales.

• AT&T, el carrier del iPhone en Estados Unidos, transmite 19 Petabytes de datos por mes.

Big data, o los datos sólo complejos?

velocidad

variedad complejidad

volumen

Datos

interpretarpreparación

Grandes volúmenes de datos de hoy en día, pocos datos del mañanaComplejidad vs capacidades actuales

FAA estación internacional de Vuelo servicio, Honolulu, Hawaii, 1964 (dominio público)

Dominio Escenarios de grandes volúmenes datos comunes

Servicios financieros Modelado riesgo verdaderoAnálisis de las amenazas y detección de fraude

Vigilancia ComercioEl puntaje de crédito y análisis

Medios y Entretenimiento

Los motores de recomendaciónFocalización Ad

Buscar calidadLos abusos y detección de fraude de clics

Venta al por menor Punto de análisis de las transacciones de ventasAnálisis de la pérdida de clientes

El análisis de sentimientos (sentiment analysis)

Telecomunicaciones Cliente prevención del churnLa optimización del rendimiento de la red

Detalles de llamadas (CDR) y su análisisPredicción de fallos de red

Gobierno Seguridad Cibernética (botnets, fraudes)La congestión del tráfico y re-enrutamiento

Monitoreo AmbientalMonitoreo Antisocial través de medios sociales

Salud La investigación del genomaLa investigación del cáncer

Pandemias detección tempranaMonitoreo de la calidad del aire

¿Qué es BIG Data?

Tradicional, relacional

SSAS Data MiningPDW

No-tradicional

HDInsightPDW

Introducción a Big Data y Hadoop

Big data es una colección de conjuntos de datos tan grande y complejo que se vuelve difícil para trabajar con el

uso de herramientas de gestión de base de datos tradicionales. Las dificultades incluyen la captura,

almacenamiento, búsqueda, intercambio, análisis y visualización

Qué es Big Data?

Megabytes

Gigabytes

Terabytes

Petabytes

Purchase detail

Purchase record

Payment record

ERP

CRM

WEB

BIG DATA

Offer details

Support Contacts

Customer Touches

Segmentation

Web logs

Offer history

A/B testing

Dynamic Pricing

Affiliate Networks

Search Marketing

Behavioral Targeting

Dynamic Funnels

User Generated Content

Mobile Web

SMS/MMSSentiment

External Demographics

HD Video, Audio, Images

Speech to Text

Product/Service Logs

Social Interactions & Feeds

Business Data Feeds

User Click Stream

Sensors / RFID / Devices

Spatial & GPS Coordinates

Incremento de variedad y cantidad de datos

Transacciones + Interacciones +

Observaciones

= BIG DATA

Procesamiento de datos y análisis: The Old Way

La naturaleza cambiante del Big Data• Big Data tiene importantes cualidades

distintivas que lo diferencian de los datos corporativos "tradicionales".

• Los datos no son centralizadas, muy estructurados y de fácil manejo, ahora más que nunca los datos están muy dispersos, poco estructurados (o no tiene estructura en absoluto), y cada vez más con volúmenes más grandes

La naturaleza cambiante del Big Data

• La web• Dispositivos móviles• Infraestructura de TI • y otras fuentes está creciendo exponencialmente cada año.

Volumen - La cantidad de datos que han creado las empresas a través de

La naturaleza cambiante del Big DataTipo - La variedad de tipos de datos es cada vez mayor,

• No estructurados de datos basados en texto • Datos semi-estructurados como los datos de los medios sociales• Los datos basados en la localización • Datos de logs, ejemplo servidores Web

La naturaleza cambiante del Big DataVelocidad

• La velocidad a la que se está creando nuevos datos

• La necesidad de análisis en tiempo real para obtener valor de negocio de ella - es cada vez mayor gracias a la digitalización de las transacciones, la informática móvil y el gran número de usuarios de dispositivos de Internet y el móvil.

Principales fuentes de datos• Redes sociales y medios de comunicación

• 700 millones de usuarios de Facebook, 250 millones de usuarios de Twitter y 156 millones de blogs públicos

• Dispositivos móviles• Más de 5 mil millones de teléfonos móviles en uso en todo el mundo

• Transacciones en Internet• miles de millones de compras en línea, operaciones de bolsa y otras

transacciones ocurren todos los días

• Dispositivos de red y sensores

Big Data

Casos en los cuales se utiliza Big Data• Parte de lo que hace Hadoop y otras tecnologías y

enfoques Big Data es encontrar respuestas a preguntas que ni siquiera saben que preguntar.

• Dar lugar a ideas que conducen a nuevas ideas de productos o ayudar a identificar formas de mejorar la eficiencia operativa.

• Casos de uso ya identificadas para Big Data, tanto para los gigantes de internet como Google, Facebook y LinkedIn, y para la empresa más tradicional

Casos en los cuales se utiliza Big DataSentiment Analysis

• Utilizado junto con Hadoop, herramientas avanzadas de análisis de texto analizan el texto no estructurado de las redes sociales y mensajes de redes sociales

• Incluyendo los Tweets y mensajes de Facebook, para determinar la confianza del usuario en relación con determinadas empresas, marcas o productos.

• El análisis puede centrarse en el sentimiento a nivel macro hasta el sentimiento usuario individual.

Casos en los cuales se utiliza Big DataModelado de riesgo

• Las empresas financieras, bancos y otros utilizan Hadoop y Next Generation Data Warehouse para analizar grandes volúmenes de datos transaccionales para determinar el riesgo y la exposición de los activos financieros

• Para preparar la posible "qué pasaría si" los escenarios basados en el comportamiento del mercado simulado, y para puntuación de clientes potenciales por el riesgo.

Casos en los cuales se utiliza Big DataMotor de recomendación

• Los minoristas en línea utilizan Hadoop para igualar y recomendar a los usuarios entre sí o con los productos y servicios basados en el análisis del perfil de usuario y los datos de comportamiento.

• LinkedIn utiliza este enfoque para potenciar su función de "la gente puede saber", mientras que Amazon utiliza para sugerir productos a la venta a los consumidores en línea.

Casos en los cuales se utiliza Big DataDetección de Fraude

• Utilizar técnicas de Big Data para combinar el comportamiento del cliente, históricos y datos de transacciones para detectar la actividad fraudulenta.

• Las compañías de tarjetas de crédito, por ejemplo, utilizan tecnologías de Big Data para identificar el comportamiento transaccional que indica una alta probabilidad de una tarjeta robada.

Casos en los cuales se utiliza Big DataAnálisis de la campaña de marketing

• Los departamentos de marketing a través de industrias han utilizado durante mucho tiempo la tecnología para monitorear y determinar la efectividad de las campañas de marketing.

• Big Data permite a los equipos de marketing para incorporar mayores volúmenes de datos cada vez más granulares, como los datos de click-stream y registros detallados de llamadas, para aumentar la precisión de los análisis.

Casos en los cuales se utiliza Big DataAnálisis Social Graph

• Junto con Hadoop los datos de redes sociales se extraen para determinar qué clientes representan la mayor influencia sobre los demás dentro de las redes sociales.

• Esto ayuda a determinar las empresas que son sus clientes "más importantes", que no siempre son los que compran la mayoría de los productos o de los que más gastan, pero los que tienden a influir en el comportamiento de compra de la mayoría de los demás.

Casos en los cuales se utiliza Big DataCustomer Experience Analytics

• Empresas orientadas al consumidor utilizan Hadoop y tecnologías relacionadas con Big Data para integrar los datos de antes silos canales de interacción con clientes

• Tales como centros de llamadas, chat en línea, Twitter, etc, para obtener una visión completa de la experiencia del cliente.

Nuevos Enfoques para el procesamiento y análisis de datos

• Hay varios métodos para procesar y analizar grandes volúmenes de datos, pero la mayoría tienen algunas características comunes

• Hadoop• NoSQL• Bases de datos analíticos masivamente paralelo

Nuevos Enfoques para el procesamiento y análisis de datos grandes

Introducción a Big Data y Hadoop• Big data se enfrenta a complejidades de alto volumen,

la velocidad y la variedad de los datos• Apache Hadoop, es un conjunto de proyectos de

código abierto que transforman el hardware tradicional en un servicio que puede:• Almacenar petabytes de información• Permite procedamiento distribuido

• Principales atributos:• Redundante y confiable (no se pierden datos)• Centrado en el análisis por lotes• Facilidad de crear aplicaciones y procesamiento distribuido• Ejecuta en cualquier hardware

Componentes de Hadoop• Hadoop Distributed File System (HDFS): La capa de

almacenamiento por defecto en cualquier clúster Hadoop dado;

• Nombre de nodo: El nodo de un clúster Hadoop que proporciona la información del cliente en lugar del grupo de datos en particular se almacenan y si los nodos fallan;

• Nodo secundario: Una copia de seguridad con el nombre de nodo, se replica periódicamente y almacena los datos del nombre de nodo debe fallar;

• Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos MapReduce, o el tratamiento de los datos.

• Los nodos esclavos: Los gruñidos de cualquier Hadoop clúster, los nodos esclavos almacenan datos y tomar la dirección de procesarlo desde el gestor de trabajo.

Arquitectura de Hardware

Arquitectura de Software

Hadoop Distributed Architecture

MapReduce Layer

MapReduce: Mover Código a los Datos

FIRST, STORE THE DATA

Server

ServerServer

Files

Server

Cómo trabaja?SECOND, TAKE THE PROCESSING TO THE DATA

// Map Reduce function in JavaScript

var map = function (key, value, context) {var words = value.split(/[^a-zA-Z]/);for (var i = 0; i < words.length; i++) {

if (words[i] !== "")context.write(words[i].toLowerCase(),1);}}};

var reduce = function (key, values, context) {var sum = 0;while (values.hasNext()) {sum += parseInt(values.next());

}context.write(key, sum);};

ServerServer

ServerServer

RUNTIME

Code

Principios de Hadoop

Método práctico procesamiento paralelización de análisis masivo de datos

Datos distribuidos

Tratamiento distribuido

Motor de Analytics de Microsoft, Yahoo, Google, Facebook, Netflix, Klout...

Datos en Hadoop

HDFS (Sistema de archivos de Hadoop)Network estante consciente a minimizar transferencias

Acceso como normal archivosConsulta el Colmena,como un dato almacén,uso HiveQL

MapReduceDe bajo nivel, fundamentos de Hadoop

Su lógica de procesamiento se divide entre funciones map y reduce

Mapear su problema en partes más pequeñas (dividir)

Reducir resultados en los agregados de mayor nivel (conquistar)

MapReduce es como divide y Vencerás

Datos Distribuidos

TratamientoDistribuido

Clúster Hadoop

Yahoo! Hadoop clúster, 2007.Fuente:http://developer.yahoo.com. Imagen utilizada con permiso.

Clúster HadoopDatos Distribuidos


Buster Cluster, un proyecto de investigación Miles Osborne, de la Universidad de Edimburgo, Facultad de Informática.

Imagen utilizada con permiso. http://homepages.inf.ed.ac.uk/miles/

Cluster Hadoop

NubeRent-A-Hadoop-cluster, o bien:"Superordenador de centavos"

Windows Azure HD Insight

DatosDistribuidos


Procesamiento de la lógica en HDInsight 1.6, 2.1, 3.0Hadoop 1.x: Lote para el procesamiento

Escribir MapReduce trabajos en Java, o en cualquier idioma de Windows, utilizando stdin-stdout

Funciones definidas por el usuario (UDFs) En Python, JS, C #, Java y. NET

De bajo nivel, rápido, más duro

Más fácil, masivamente paralelo

Procesamiento de la lógica en HDInsight 3.0Hadoop 2.2: interactivo, en línea, stream, o por lotes

Capa mediaentre HDFS y aplicaciones

Tez, Stinger (interactive)HBase (online)Storm, S3 (streaming)Spark (in-memory)o: MapReduce, Pig (batch)

HILO Aplicaciones para Hadoop

JS MapReduce Wordcountvar mapa = Function (clave, valor, contexto) {

var palabras = value.split(/ [^ A-zA-Z] /);for (var yo = 0; yo < words.length;yo+ +) {

if (palabras [yo]! == "") {context.write(palabras [yo].toLowerCase(), 1);

}}

};

var reducir = Function (clave, valores, contexto) {var sum = 0;mientras que (values.hasNext()) {

suma + = parseInt(values.next());}context.write(Clave, suma);

};

Pig Latin Ejemplo - Todo está en paralelo!= primas CARGA 'Search.log'USO PigStorage('\ T') AS (usuario, hora, query);

houred = FOREACH crudo GENERAR usuario, org.apache.pig.tutorial.ExtractHour(Tiempo) como hora, consulta;

ngramed1 = FOREACH houred GENERAR usuario, hora, aplanar (org.apache.pig.tutorial.NGramGenerator(Consulta)) como ngram;

ngramed2 = DISTINCT ngramed1;

hour_frequency1 = GRUPO ngramed2 BY (ngram, Hora);

... [Ver http://pig.apache.org/ Docs/r0.7.0 /tutorial.html]

TIENDA ordered_uniq_frequency EN '/tmp/ Tutorial-results 'USO PigStorage();

Ciencia de datos HadoopActualmente, sólo HDInsight 1.6 o 2.1, 3.0 todavía no

El aprendizaje automáticoLa minería de datos escalable

Filtrado colaborativo, recomendadores, clustering, singular value decomposition parallel frequent pattern mining, naïve Bayes, árbol de decisión

Ecosistema de Big Data de Microsoft

Plataforma de Big Data Micrsooft

Interoperatibilidad

Integración con las herramientas de Análisis de Microsoft

APPL

ICAT

ION

SDA

TA S

YSTE

MS

Aplicaciones Microsoft

HORTONWORKS DATA PLATFORMFor Windows

DATA

SO

URC

ES

MOBILEDATA

OLTP, POS SYSTEMS

Fuentes tradicionales(RDBMS, OLTP, OLAP)

Nuevas Fuentes(web logs, email, sensor data, social media)

Principios PDW• Procesamiento paralelo masivo (MPP) para

las consultas• Dentro de la memoria de columnas• Múltiples nodos con CPU dedicada, memoria,

almacenamiento• Incremental extensible• Escala de terabytes a múltiples petabytes

Parallel Data WarehouseHDP

Windows Azure

Lapache Hadoop distribución

Desarrollado por Hortonworks Y

Microsoft

Integrado con Microsoft BI

Microsoft HDInsight

Big data + BI tradicional = poderoso + easy

Grandes, de datos rápida, o complejo

Microsoft

HDInsight

Tabular

OLAPSQL

0101010101010101011010101010101010

01010101010101101010101010

La interacción, exploración,rNFORMES,

visualización

PDW + Polibase

Windows HADOOP• 2 Versiones

• Cloud• Azure Service

• On Permise• Integración con el Hadoop File System with Active Directory• Integración con BI

• Herramientas de integración• Sqoop

• Integración con SQL Server

Introducción a HDInsight

• HDInsight es una implementación de Microsoft 100% compatible con la distribución de Apache Hadoop

• Disponible tanto para Windows Server y como un servicio Windows Azure

• Permite que las empresas analicen datos no estructurados con herramientas bien conocidas tales como Excel

Windows Azure HDInsight Service

Hadoop

Windows Azure Blob Storage

HDFS

Hadoop Filesystem Interface

Hive Pig Map Reduce

Query & Metadata:

SqoopData Movement:

OozieWorkflow:

HCatalog

Gateway (REST APIs)

Carga/Descarga de Datos

Ambari

Monitoring:

Job submission (hive query, etc)

Windows Azure HDInsight Service

Compute NodeCompute NodeCompute NodeCompute Node

Windows Azure Blob StorageHead

Node

Gateway (REST APIs)

Hadoop Cluster

Job submission (hive query, etc)

Cluster Dashboard UI

HADOOP PARA WINDOWS

HDP para Windows

Hortonworks Data Platform (HDP) For Windows100% Open Source Enterprise Hadoop

HORTONWORKS DATA PLATFORM (HDP)For Windows

PLATFORM SERVICES

HADOOP CORE Distributed Storage & Processing

DATASERVICES

Store, Process and Access Data

OPERATIONAL SERVICES

Manage & Operate at

Scale

Manage & Operate at

Scale

Store, Process and Access Data

Distributed Storage & Processing

Enterprise Readiness

Demostracióncreación de un Hadoop Cluster

Modelando “Big Data” con PowerPivot

• Big data puede ser integrado con otras fuentes de datos

• Potencial de Autoservicio de BI:• PowerPivot puede cargar Big Data mediante el Table Import Wizard

• ODBC para HDInsight• OLE DB para SQL Server con enlace a HDInsight

• PowerPivot puede ser fuente para:• Reporte locales en Excel con PivotTables, PivotCharts, CUBE y Power View• Otras herramientas de análisis (una vez publicado en SharePoint)

Consideraciones de modelar “Big Data” con PowerPivot

• Los resultados de Big Data pueden ser muy grandes para almacenamiento en memoria

• Workaround: minizar la cantidad de datos consultados• Recuperar un periodo de tiempo más pequeño• Reducir las dimensiones o ser más granular

• Una vez que está cargado el modelo puede ser manipulado con rapidez

Formas de carga de datos

Cómo consumir Resultados de HDInsight

Destino Herramienta / Biblioteca Requiere Active HDInsight Cluster

SQL Server,Azure SQL DB

Sqoop (Hadoop ecosystem project) Yes

Excel Codename “Data Explorer” No

Otra Blob Storage Account

Azure Blob Storage REST APIs (Copy Blob, etc)

No

SQL Server Analysis Services

Hive ODBC Driver Yes

BI Apps Existentes Hive ODBC Driver (assumes app supports ODBC connections to data sources)

Yes

Hadoop Connectors• SQL Server versions

• Azure• PDW• SQL 2012• SQL 2008 R2• SQL Server 2014

http://www.microsoft.com/download/en/details.aspx?id=27584



Resumen

Big Data = demasiado complejo para los métodos tradicionales

HDInsight + PDWOportunidad para Big Data

Siga: @rafaldotnetEmail: [email protected]: rafal.net

http://rafal.net/?pk_campaign=pb2014barppt

Visión de conjunto de los

Microsoft System Analytics Platform (APS) anteriormente PDW

"... Almacenamiento de datos ha alcanzado el punto de inflexión más importante desde su creación. La gestión de datos en TI está cambiando. "

- Gartner, "El estado de almacenamiento de datos en 2012"

ETL

Almacenamiento de datos

BI y análisis

Creciente volumenes de datos

1

En tiempo real datos

2

Dispositivos

Web Sensores Social

Nuevo datos fuentes y tipos

3Nacido en la nube datos

4

El almacén de datos tradicional

Las fuentes de datos

OLTP ERP CRM LOB

INFRAESTRUCTURA

GESTIÓN DE DATOS Y PROCESAMIENTO

DATOS ENRIQUECIMIENTO Y FEDERADOS CONSULTA

BI y análisis

Autoservicio ColaboraciónCorporativo ProféticoMóvil

Extraer, transformar, cargar

Modelo de consulta individual Calidad de la Gestión de datos

maestros

No relacionalRelacional Analítico Streaming Interna y eXternal

OLTP ERP

Las fuentes de datos

CRM LOB

Los datos no relacional

Dispositivos

Web Sensores Social

El almacén de datos moderna

Una universidad técnica utiliza la informática bajo demanda en la nube para la secuenciación de ADN, descubrimiento y análisis.

Un edificio y analizar los datos de los sensores y equipos para mejorar la eficiencia y reducir los costos de energía en un 20 por ciento.

Una ciudad quería ver más claramente la eficacia del servicio. Mejoraron los servicios mediante el uso, registros de servicios sociales, dispositivos y GPS para mejorar la seguridad y mejorar los servicios y la comunidad.

Social y web analytics

Alimentación de datos en vivo

El análisis avanzado

Técnicas de diseñadores toda tu datosEnriquecer y optimizar sus datos con fuentes no tradicional

6

Mantener la inversión legado

Comprar nuevo nivel uno dispositivo de hardware

Adquirir Big Data solución

Adquirir la inteligencia de negocios

Obstáculos para un almacén de datos moderna

Escalabilidad limitada y

capacidad de gestionar nuevos

tipos de datos

Entrenamiento Alta adquisición y

costos de migración

Complejidad y adopción

Introducción al sistema Microsoft Analytics PlatformUn moderno dispositivo de almacenamiento de datos llave en mano

La próxima generación rendimiento

Big Data lista para la empresa

Diseñado paravalor óptimo

• De datos relacionales y no relacionales en un único dispositivo

• Hadoop lista para la empresa

• Consultas integradas a través de Hadoop y PDW utilizando T-SQL

• La integración directa con las herramientas de BI de Microsoft, como Microsoft Excel

• Cerca de rendimiento en tiempo real con In-Memory Columnstore

• Capacidad de escalabilidad para incluir cada vez mayor de datos

• La eliminación del almacén de datos cuellos de botella con MPP SQL Server

• Concurrencia que ayuda rápida adopción

• Precio de appliance de datos más bajo por terabyte

• Valor a través de una única solución

• Valor con opciones de hardware flexibles utilizando hardware comercial

Alto rendimiento y sintonizado en el hardware

Autenticación del usuario final con Active Directory

Accesible ideas para todo el mundo con las herramientas de Microsoft BI

Administrado y monitoreado utilizando System Center

100-por ciento de Apache Hadoop

SQL ServerParallel Datawarehouse

Microsoft HDInsight

Polibase

APS listo para la empresa Hadoop con HDInsightManejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato

Carga en paralelo de depósito de datos

HDInsight carga de trabajo

Fabric

Hardware

Apara

to

Una región es un contenedor lógico dentro de un appliance

Cada carga de trabajo contiene los siguientes límites:

• Seguridad

• Medida

• Prestación de servicios

Resumen hardware APS

Proporciona un único Modelo de consulta T-SQL para PDW y Hadoop con ricas características de T-SQL, incluyendo joins sin ETL

Utiliza el poder del MPP para mejorar el rendimiento de ejecución de consultas

Compatible con Windows Azure HDInsight para permitir escenarios híbrido de la nube

Ofrece la posibilidad de consultar las distribuciones no Microsoft Hadoop, como Hortonworks y Cloudera

SQL ServerPDWMicrosoft Azure

HDInsight

Polibase

Microsoft HDInsight

Hortonworks para Windows y Linux

Cloudera

Conexión de islas de datos con polibaseTrayendo soluciones de punto de Hadoop y el almacén de datos junto a los usuarios y TI

Conjunto de

resultados

Seleccionar ...

(HDFS) Bridge

Resultados

Acceso directo y paralelo a HDFS

Data Movement Service (DMS) of APS APS para permitir la comunicación directa entre HDFS datos nodos y nodos de computación PDW

Los datos no relacional

Aplicaciones Social

Sensor y RFID

Móvil aplicaciones

Webaplicaciones

Hadoop

Los datos relacionales

Basado esquema tradicional almacén de datos

PDWPuente HDFS

Enhanced PDW query

engine

La tabla externa

Los datos externos

Archivo externo

Regular T-SQL

Automatic MapReduce pushdown

Hadoop / Data Lake(Cloudera, Hortonworks,

HDInsight)

Fuente sistemas

Actualizar Día / Hora / Minuto

SQL Server Data Marts

SQL Server Reporting Services

SQL Server Analysis ServicesAPS

MapReduce T-SQL

Analytics / Ad-hoc / Visualización

MicrosoftHDInsight

SQL Server Parallel Data Warehouse

Polibase

HDFS File / Directory//hdfs/social_media/twitter

//hdfs/social_media/twitter/Daily.log

Hadoop

Column filtering

Dynamic binding

Row filtering

User Location Product Sentiment Rtwt Hour Date

Sean

Suz

Audie

Tom

Sanjay

Roger

Steve

CA

WA

CO

IL

MN

TX

AL

xbox

xbox

excel

sqls

wp8

ssas

ssrs

-1

0

1

1

1

1

1

5

0

0

8

0

0

0

8

2

8

2

1

23

23

5-15-14

5-15-14

5-15-14

5-13-14

5-14-14

5-14-14

5-13-14

PolyBase – Predicate pushdown

SELECT User, Product, Sentiment

FROM Twitter_Table

WHERE Hour = Current - 1AND Date = TodayAND Sentiment >= 0

Uso de Big Data para cualquier personaIntegración con Microsoft BI

Minimiza TIintervención para el descubrimiento de datos con herramientas como Microsoft Excel

Permite a los usuarios DBA unir datos relacionales y Hadoop con T-SQL

Ofrece herramientas de Hadoop como MapaReduce, Hive, y Pig para los científicos de datos

Toma ventaja de la alta adopciónde Excel, Power View, PowerPivot y SQL Server Analysis Services

Los usuarios avanzados

Científico de datos

Todos los demás utilizando Herramientas de Microsoft BI

Crear tabla externaCREATE EXTERNAL TABLE table_name ({<column_definition>}[,..n ])

{WITH ( DATA_SOURCE = <data_source>, FILE_FORMAT = <file_format>, LOCATION =‘<file_path>’, [REJECT_VALUE = <value>],…)};

Hacer referencia a la fuente de datos externa

1

Hacer referencia a formato de archivo externo

2

Ruta de acceso del archivo / carpeta Hadoop

3

(Opcional) Rechazar parámetros4

Crear origen de datos externoCREATE EXTERNAL DATA SOURCE datasource_name

{WITH ( TYPE = <data_source>, LOCATION =‘<location>’, [JOB_TRACKER_LOCATION = ‘<jb_location>’]};

Tipo de fuente de datos externa1

Lugar de origen de datos externos

2

La activación o desactivación de la generación de trabajo MapReduce

3

Crear Formato de Archivo ExternoCREATE EXTERNAL FILE FORMAT fileformat_name

{WITH ( FORMAT_TYPE = <type>,

[SERDE_METHOD = ‘<sede_method>’,][DATA_COMPRESSION = ‘<compr_method>’,][FORMAT_OPTIONS (<format_options>)]

};

Tipo de fuente de datos externa1

(De) método de serialización [Hive fichero de recursos]

2

Método de compresión3

(Opcional) Formato Opciones [Texto Archivos]

4

<Format Options> :: = [,FIELD_TERMINATOR = ‘value’], [,STRING_DELIMITER = ‘value’],[,DATE_FORMAT = ‘value’],[USE_TYPE_DEFAULT = ‘value’]

Opciones de formato

Delimitador de columna1

Carácter de separación para los tipos de datos de cadena

2

Para especificar un formato de fecha determinado

3

¿Cómo se manejan las entradas que faltan

4

PolyBase utilizando datos de HadoopTraer islas de datos Hadoop juntos

Ejecución de alta consultas de rendimiento contra los datos Hadoop

De datos de almacenamiento de datos de archivado a Hadoop (mover)

Exportación de datos relacionales para Hadoop (copia)

Importación de datos de Hadoop en un dato almacén (copia)

Múltiples nodos con CPU dedicada, memoria y almacenamiento

Posibilidad de añadir de forma incremental hardware para la escalabilidad casi lineal a múltiples petabytes

Capacidad para manejar complejidad de la consulta y la concurrencia y escalabilidad

Capacidad para escalar HDInsight y PDW

Escalada fuera sus datos a petabytesEscalabilidad de salida tecnologías en Sistema Analytics Platform

PDW

0 terabytes 6 petabytes

PDW / HDInsight

PDW / HDInsight

PDW / HDInsight

PDW / HDInsight

PDW / HDInsight

PDW / HDInsight

Un rendimiento increíblemente rápidoMPP y In-Memory Columnstore para la próxima generación rendimiento

• Datawarehouse con Column Store

• Carga datos hacia o desde la memoria para rendimiento de próxima generación con una mejora de hasta 60% en la velocidad de carga de datos

Hasta 100x más rápido

Hasta 15xmás compression

Column Store Index

C1

C3

C5

C4

C2

C6

Ejecución de consultas en paralelo

Clustered columnstore index

¿Por qué es es importante?

• Ahorra espacio

• Proporciona una gestión más fácil, eliminando el mantenimiento de índices secundarios

Espacio utilizado =tabla espacio + índice espacio

1 2 3 4 5 60.0

5.0

10.0

15.0

20.0

Space used in GB (table with 101 million rows)

91% de

ahorro

In-Memory Columnstore ¡se ofrece en el motor de almacenamiento en el PDW AU1

Ejecución de consultas en paralelo y distribuidosProcesamiento de la ejecución de consultas relacionales

Consultas SQL enviadas al nodo de control

1

El nodo de control crea plan de ejecución de la consulta

2

El plan de consulta crea consultas distribuidas para su ejecución en cada nodo de cómputo

3

Las consultas distribuidas enviados nodos en de cálculo (todos corriendo en paralelo)

4

El nodo de control recoge los resultados de la consulta y los devuelve al usuario

5

ControlCliente

Calcular

Calcular

Calcular

Calcular

Administración

Applicance

Resultados de la consulta

Consulta del usuario

Crear una consulta plan

Los resultados agregados de la consulta

Operaciones del plan de consulta en paralelo

Herramientas de BI

Presentación de informes y cubos

SMP SQL Server

Concurrencia de datos Gran rendimiento con cargas de trabajo mixtas

Analytics Platform SystemETL / ELT con SSIS, DQS,

MDS

ERP CRM LOB APPS

ETL / ELT con DWLoader

Hadoop / Big Data

PDW

HDInsight

Polibase

Consultas ad hoc

Intra-Day

Casi en tiempo real

Fast ad hoc

Almacén de columnas

Polibase

CRTAS

Linked Table

Real-Time

ROLAP / MOLAP DirectQuery

SNAC

Hardware y software de ingeniería junto

Co-dirigido con HP, Dell, Quanta y mejores prácticas

Liderando el rendimiento con hardware comercial

Pre-configurado, construido, y ajustado software y hardware

Integrado apoyo con un solo contacto MicrosoftPDW

HDInsight

Polybase

PDW region

Hardware architectureInfiniBand

InfiniBand

Ethernet

Ethernet

Control node

Failover node

Master node

Failover node

Economical disk storage

Compute nodes


Compute nodes


Compute nodes

Networking

PDW region

HDInsight region

Rack #1

InfiniBand

InfiniBand

Ethernet

Ethernet

Failover node


Compute nodes


Compute nodes


Compute nodes

HDI extension base unit

HDI active scale unit

HDI extension base unit

HDI active scale unit

Rack #2

HST-02

HST-01

HSA-01

HST-02


IB and Ethernet

Active Unit Dos nodos adicionales

Passive Unit HDInsight

Failover Node

Alta Disponibilidad

Arquitectura virtualizada PANORAMA

Anfitrión 2

Anfitrión 1

Anfitrión 3

Anfitrión 4

Almacenamiento en

discoIB yEthernet

Directo SAS adjunto

Unidad BaseCTL

MassachusettsD

AD

VMM

Calcule 2

Calcule 1

• Motor PDW• DMS Manage• SQL Server 2012 Enterprise Edition (build PDW)

Detalles de software

• Todos los hosts ejecutan Windows Server 2012 Standard and Windows Azure Virtual Machines

• Fabric o carga de trabajo en Hyper-V virtual Máquinas

• PDW agente que se ejecuta en todos los hosts y es toda virtual máquinas

• DWConfig y consola de administración

• Ventanas espacios de almacenamiento y Azure Storage

Big data con SQL Server 2014

Technology

Transcript of Big data con SQL Server 2014