Aprovechando XML dentro de la base de datos con SQL Server 2005
Big data con SQL Server 2014
-
Upload
eduardo-castro -
Category
Technology
-
view
247 -
download
0
description
Transcript of Big data con SQL Server 2014
Big Data con SQL Server 2014
Dr. Eduardo Castro, MAP
Microsoft SQL Server MVPPASS Regional Mentor
Vídeo tutorialshttp://www.youtube.com/eduardocastrom
Introducción para BI & Big DataDAXMDXMinería de DatosExcel BI
PPThttp://slideshare.net/ecastrom
Recursos adicionales
http://www.youtube.com/eduardocastrom
Canal en YouTube
Fuentes utilizadas
http://channel9.msdn.com/Events/TechEd/NorthAmerica/2014
MSDN Microsoft
TechEd Microsoft
http://hortonworks.com
Análisis de grandes cantidades de datos
Big Data
Objetivos
Explicar la analítica de grandes cantidades de datos
Introducir la minería de datos, Hadoop y PDW
Qué es un PetabyteTomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php
Un Terabyte son 1024 Gigabytes. 1 Gigabyte = 1024 Megabytes.
Un Petabyte es una unidad de almacenamiento de información cuyo símbolo es PB, equivale a 1024 Terabytes = 1.125.899.906.842.624 de bytes.
Qué es un PetabyteTomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php
• 1 Petabyte es suficiente para almacenar 13.3 años de video HD
• 1.5 Petabytes son necesarios para almacenar 10 Billones de fotos de Facebook
• Google procesa alrededor de 24 Petabytes de información por día.
• Avatar, la película de James Cameron del 2009, usó 1 Petabyte de información para realizar los efectos especiales.
• AT&T, el carrier del iPhone en Estados Unidos, transmite 19 Petabytes de datos por mes.
Big data, o los datos sólo complejos?
velocidad
variedad complejidad
volumen
Datos
interpretarpreparación
Grandes volúmenes de datos de hoy en día, pocos datos del mañanaComplejidad vs capacidades actuales
FAA estación internacional de Vuelo servicio, Honolulu, Hawaii, 1964 (dominio público)
Dominio Escenarios de grandes volúmenes datos comunes
Servicios financieros Modelado riesgo verdaderoAnálisis de las amenazas y detección de fraude
Vigilancia ComercioEl puntaje de crédito y análisis
Medios y Entretenimiento
Los motores de recomendaciónFocalización Ad
Buscar calidadLos abusos y detección de fraude de clics
Venta al por menor Punto de análisis de las transacciones de ventasAnálisis de la pérdida de clientes
El análisis de sentimientos (sentiment analysis)
Telecomunicaciones Cliente prevención del churnLa optimización del rendimiento de la red
Detalles de llamadas (CDR) y su análisisPredicción de fallos de red
Gobierno Seguridad Cibernética (botnets, fraudes)La congestión del tráfico y re-enrutamiento
Monitoreo AmbientalMonitoreo Antisocial través de medios sociales
Salud La investigación del genomaLa investigación del cáncer
Pandemias detección tempranaMonitoreo de la calidad del aire
¿Qué es BIG Data?
Tradicional, relacional
SSAS Data MiningPDW
No-tradicional
HDInsightPDW
Introducción a Big Data y Hadoop
Big data es una colección de conjuntos de datos tan grande y complejo que se vuelve difícil para trabajar con el
uso de herramientas de gestión de base de datos tradicionales. Las dificultades incluyen la captura,
almacenamiento, búsqueda, intercambio, análisis y visualización
Qué es Big Data?
Megabytes
Gigabytes
Terabytes
Petabytes
Purchase detail
Purchase record
Payment record
ERP
CRM
WEB
BIG DATA
Offer details
Support Contacts
Customer Touches
Segmentation
Web logs
Offer history
A/B testing
Dynamic Pricing
Affiliate Networks
Search Marketing
Behavioral Targeting
Dynamic Funnels
User Generated Content
Mobile Web
SMS/MMSSentiment
External Demographics
HD Video, Audio, Images
Speech to Text
Product/Service Logs
Social Interactions & Feeds
Business Data Feeds
User Click Stream
Sensors / RFID / Devices
Spatial & GPS Coordinates
Incremento de variedad y cantidad de datos
Transacciones + Interacciones +
Observaciones
= BIG DATA
Procesamiento de datos y análisis: The Old Way
La naturaleza cambiante del Big Data• Big Data tiene importantes cualidades
distintivas que lo diferencian de los datos corporativos "tradicionales".
• Los datos no son centralizadas, muy estructurados y de fácil manejo, ahora más que nunca los datos están muy dispersos, poco estructurados (o no tiene estructura en absoluto), y cada vez más con volúmenes más grandes
La naturaleza cambiante del Big Data
• La web• Dispositivos móviles• Infraestructura de TI • y otras fuentes está creciendo exponencialmente cada año.
Volumen - La cantidad de datos que han creado las empresas a través de
La naturaleza cambiante del Big DataTipo - La variedad de tipos de datos es cada vez mayor,
• No estructurados de datos basados en texto • Datos semi-estructurados como los datos de los medios sociales• Los datos basados en la localización • Datos de logs, ejemplo servidores Web
La naturaleza cambiante del Big DataVelocidad
• La velocidad a la que se está creando nuevos datos
• La necesidad de análisis en tiempo real para obtener valor de negocio de ella - es cada vez mayor gracias a la digitalización de las transacciones, la informática móvil y el gran número de usuarios de dispositivos de Internet y el móvil.
Principales fuentes de datos• Redes sociales y medios de comunicación
• 700 millones de usuarios de Facebook, 250 millones de usuarios de Twitter y 156 millones de blogs públicos
• Dispositivos móviles• Más de 5 mil millones de teléfonos móviles en uso en todo el mundo
• Transacciones en Internet• miles de millones de compras en línea, operaciones de bolsa y otras
transacciones ocurren todos los días
• Dispositivos de red y sensores
Big Data
Casos en los cuales se utiliza Big Data• Parte de lo que hace Hadoop y otras tecnologías y
enfoques Big Data es encontrar respuestas a preguntas que ni siquiera saben que preguntar.
• Dar lugar a ideas que conducen a nuevas ideas de productos o ayudar a identificar formas de mejorar la eficiencia operativa.
• Casos de uso ya identificadas para Big Data, tanto para los gigantes de internet como Google, Facebook y LinkedIn, y para la empresa más tradicional
Casos en los cuales se utiliza Big DataSentiment Analysis
• Utilizado junto con Hadoop, herramientas avanzadas de análisis de texto analizan el texto no estructurado de las redes sociales y mensajes de redes sociales
• Incluyendo los Tweets y mensajes de Facebook, para determinar la confianza del usuario en relación con determinadas empresas, marcas o productos.
• El análisis puede centrarse en el sentimiento a nivel macro hasta el sentimiento usuario individual.
Casos en los cuales se utiliza Big DataModelado de riesgo
• Las empresas financieras, bancos y otros utilizan Hadoop y Next Generation Data Warehouse para analizar grandes volúmenes de datos transaccionales para determinar el riesgo y la exposición de los activos financieros
• Para preparar la posible "qué pasaría si" los escenarios basados en el comportamiento del mercado simulado, y para puntuación de clientes potenciales por el riesgo.
Casos en los cuales se utiliza Big DataMotor de recomendación
• Los minoristas en línea utilizan Hadoop para igualar y recomendar a los usuarios entre sí o con los productos y servicios basados en el análisis del perfil de usuario y los datos de comportamiento.
• LinkedIn utiliza este enfoque para potenciar su función de "la gente puede saber", mientras que Amazon utiliza para sugerir productos a la venta a los consumidores en línea.
Casos en los cuales se utiliza Big DataDetección de Fraude
• Utilizar técnicas de Big Data para combinar el comportamiento del cliente, históricos y datos de transacciones para detectar la actividad fraudulenta.
• Las compañías de tarjetas de crédito, por ejemplo, utilizan tecnologías de Big Data para identificar el comportamiento transaccional que indica una alta probabilidad de una tarjeta robada.
Casos en los cuales se utiliza Big DataAnálisis de la campaña de marketing
• Los departamentos de marketing a través de industrias han utilizado durante mucho tiempo la tecnología para monitorear y determinar la efectividad de las campañas de marketing.
• Big Data permite a los equipos de marketing para incorporar mayores volúmenes de datos cada vez más granulares, como los datos de click-stream y registros detallados de llamadas, para aumentar la precisión de los análisis.
Casos en los cuales se utiliza Big DataAnálisis Social Graph
• Junto con Hadoop los datos de redes sociales se extraen para determinar qué clientes representan la mayor influencia sobre los demás dentro de las redes sociales.
• Esto ayuda a determinar las empresas que son sus clientes "más importantes", que no siempre son los que compran la mayoría de los productos o de los que más gastan, pero los que tienden a influir en el comportamiento de compra de la mayoría de los demás.
Casos en los cuales se utiliza Big DataCustomer Experience Analytics
• Empresas orientadas al consumidor utilizan Hadoop y tecnologías relacionadas con Big Data para integrar los datos de antes silos canales de interacción con clientes
• Tales como centros de llamadas, chat en línea, Twitter, etc, para obtener una visión completa de la experiencia del cliente.
Nuevos Enfoques para el procesamiento y análisis de datos
• Hay varios métodos para procesar y analizar grandes volúmenes de datos, pero la mayoría tienen algunas características comunes
• Hadoop• NoSQL• Bases de datos analíticos masivamente paralelo
Nuevos Enfoques para el procesamiento y análisis de datos grandes
Introducción a Big Data y Hadoop• Big data se enfrenta a complejidades de alto volumen,
la velocidad y la variedad de los datos• Apache Hadoop, es un conjunto de proyectos de
código abierto que transforman el hardware tradicional en un servicio que puede:• Almacenar petabytes de información• Permite procedamiento distribuido
• Principales atributos:• Redundante y confiable (no se pierden datos)• Centrado en el análisis por lotes• Facilidad de crear aplicaciones y procesamiento distribuido• Ejecuta en cualquier hardware
Componentes de Hadoop• Hadoop Distributed File System (HDFS): La capa de
almacenamiento por defecto en cualquier clúster Hadoop dado;
• Nombre de nodo: El nodo de un clúster Hadoop que proporciona la información del cliente en lugar del grupo de datos en particular se almacenan y si los nodos fallan;
• Nodo secundario: Una copia de seguridad con el nombre de nodo, se replica periódicamente y almacena los datos del nombre de nodo debe fallar;
• Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos MapReduce, o el tratamiento de los datos.
• Los nodos esclavos: Los gruñidos de cualquier Hadoop clúster, los nodos esclavos almacenan datos y tomar la dirección de procesarlo desde el gestor de trabajo.
Arquitectura de Hardware
Arquitectura de Software
Hadoop Distributed Architecture
MapReduce Layer
MapReduce: Mover Código a los Datos
FIRST, STORE THE DATA
Server
ServerServer
Files
Server
Cómo trabaja?SECOND, TAKE THE PROCESSING TO THE DATA
// Map Reduce function in JavaScript
var map = function (key, value, context) {var words = value.split(/[^a-zA-Z]/);for (var i = 0; i < words.length; i++) {
if (words[i] !== "")context.write(words[i].toLowerCase(),1);}}};
var reduce = function (key, values, context) {var sum = 0;while (values.hasNext()) {sum += parseInt(values.next());
}context.write(key, sum);};
ServerServer
ServerServer
RUNTIME
Code
Principios de Hadoop
Método práctico procesamiento paralelización de análisis masivo de datos
Datos distribuidos
Tratamiento distribuido
Motor de Analytics de Microsoft, Yahoo, Google, Facebook, Netflix, Klout...
Datos en Hadoop
HDFS (Sistema de archivos de Hadoop)Network estante consciente a minimizar transferencias
Acceso como normal archivosConsulta el Colmena,como un dato almacén,uso HiveQL
MapReduceDe bajo nivel, fundamentos de Hadoop
Su lógica de procesamiento se divide entre funciones map y reduce
Mapear su problema en partes más pequeñas (dividir)
Reducir resultados en los agregados de mayor nivel (conquistar)
MapReduce es como divide y Vencerás
Datos Distribuidos
TratamientoDistribuido
Clúster Hadoop
Yahoo! Hadoop clúster, 2007.Fuente:http://developer.yahoo.com. Imagen utilizada con permiso.
Clúster HadoopDatos Distribuidos
TratamientoDistribuido
Buster Cluster, un proyecto de investigación Miles Osborne, de la Universidad de Edimburgo, Facultad de Informática.
Imagen utilizada con permiso. http://homepages.inf.ed.ac.uk/miles/
Cluster Hadoop
NubeRent-A-Hadoop-cluster, o bien:"Superordenador de centavos"
Windows Azure HD Insight
DatosDistribuidos
TratamientoDistribuido
Procesamiento de la lógica en HDInsight 1.6, 2.1, 3.0Hadoop 1.x: Lote para el procesamiento
Escribir MapReduce trabajos en Java, o en cualquier idioma de Windows, utilizando stdin-stdout
Funciones definidas por el usuario (UDFs) En Python, JS, C #, Java y. NET
De bajo nivel, rápido, más duro
Más fácil, masivamente paralelo
Procesamiento de la lógica en HDInsight 3.0Hadoop 2.2: interactivo, en línea, stream, o por lotes
Capa mediaentre HDFS y aplicaciones
Tez, Stinger (interactive)HBase (online)Storm, S3 (streaming)Spark (in-memory)o: MapReduce, Pig (batch)
HILO Aplicaciones para Hadoop
JS MapReduce Wordcountvar mapa = Function (clave, valor, contexto) {
var palabras = value.split(/ [^ A-zA-Z] /);for (var yo = 0; yo < words.length;yo+ +) {
if (palabras [yo]! == "") {context.write(palabras [yo].toLowerCase(), 1);
}}
};
var reducir = Function (clave, valores, contexto) {var sum = 0;mientras que (values.hasNext()) {
suma + = parseInt(values.next());}context.write(Clave, suma);
};
Pig Latin Ejemplo - Todo está en paralelo!= primas CARGA 'Search.log'USO PigStorage('\ T') AS (usuario, hora, query);
houred = FOREACH crudo GENERAR usuario, org.apache.pig.tutorial.ExtractHour(Tiempo) como hora, consulta;
ngramed1 = FOREACH houred GENERAR usuario, hora, aplanar (org.apache.pig.tutorial.NGramGenerator(Consulta)) como ngram;
ngramed2 = DISTINCT ngramed1;
hour_frequency1 = GRUPO ngramed2 BY (ngram, Hora);
... [Ver http://pig.apache.org/ Docs/r0.7.0 /tutorial.html]
TIENDA ordered_uniq_frequency EN '/tmp/ Tutorial-results 'USO PigStorage();
Ciencia de datos HadoopActualmente, sólo HDInsight 1.6 o 2.1, 3.0 todavía no
El aprendizaje automáticoLa minería de datos escalable
Filtrado colaborativo, recomendadores, clustering, singular value decomposition parallel frequent pattern mining, naïve Bayes, árbol de decisión
Ecosistema de Big Data de Microsoft
Plataforma de Big Data Micrsooft
Interoperatibilidad
Integración con las herramientas de Análisis de Microsoft
APPL
ICAT
ION
SDA
TA S
YSTE
MS
Aplicaciones Microsoft
HORTONWORKS DATA PLATFORMFor Windows
DATA
SO
URC
ES
MOBILEDATA
OLTP, POS SYSTEMS
Fuentes tradicionales(RDBMS, OLTP, OLAP)
Nuevas Fuentes(web logs, email, sensor data, social media)
Principios PDW• Procesamiento paralelo masivo (MPP) para
las consultas• Dentro de la memoria de columnas• Múltiples nodos con CPU dedicada, memoria,
almacenamiento• Incremental extensible• Escala de terabytes a múltiples petabytes
Parallel Data WarehouseHDP
Windows Azure
Lapache Hadoop distribución
Desarrollado por Hortonworks Y
Microsoft
Integrado con Microsoft BI
Microsoft HDInsight
Big data + BI tradicional = poderoso + easy
Grandes, de datos rápida, o complejo
Microsoft
HDInsight
Tabular
OLAPSQL
0101010101010101011010101010101010
01010101010101101010101010
La interacción, exploración,rNFORMES,
visualización
PDW + Polibase
Windows HADOOP• 2 Versiones
• Cloud• Azure Service
• On Permise• Integración con el Hadoop File System with Active Directory• Integración con BI
• Herramientas de integración• Sqoop
• Integración con SQL Server
Introducción a HDInsight
• HDInsight es una implementación de Microsoft 100% compatible con la distribución de Apache Hadoop
• Disponible tanto para Windows Server y como un servicio Windows Azure
• Permite que las empresas analicen datos no estructurados con herramientas bien conocidas tales como Excel
Windows Azure HDInsight Service
Hadoop
Windows Azure Blob Storage
HDFS
Hadoop Filesystem Interface
Hive Pig Map Reduce
Query & Metadata:
SqoopData Movement:
OozieWorkflow:
HCatalog
Gateway (REST APIs)
Carga/Descarga de Datos
Ambari
Monitoring:
Job submission (hive query, etc)
Windows Azure HDInsight Service
Compute NodeCompute NodeCompute NodeCompute Node
Windows Azure Blob StorageHead
Node
Gateway (REST APIs)
Hadoop Cluster
Job submission (hive query, etc)
Cluster Dashboard UI
HADOOP PARA WINDOWS
HDP para Windows
Hortonworks Data Platform (HDP) For Windows100% Open Source Enterprise Hadoop
HORTONWORKS DATA PLATFORM (HDP)For Windows
PLATFORM SERVICES
HADOOP CORE Distributed Storage & Processing
DATASERVICES
Store, Process and Access Data
OPERATIONAL SERVICES
Manage & Operate at
Scale
Manage & Operate at
Scale
Store, Process and Access Data
Distributed Storage & Processing
Enterprise Readiness
Demostracióncreación de un Hadoop Cluster
Modelando “Big Data” con PowerPivot
• Big data puede ser integrado con otras fuentes de datos
• Potencial de Autoservicio de BI:• PowerPivot puede cargar Big Data mediante el Table Import Wizard
• ODBC para HDInsight• OLE DB para SQL Server con enlace a HDInsight
• PowerPivot puede ser fuente para:• Reporte locales en Excel con PivotTables, PivotCharts, CUBE y Power View• Otras herramientas de análisis (una vez publicado en SharePoint)
Consideraciones de modelar “Big Data” con PowerPivot
• Los resultados de Big Data pueden ser muy grandes para almacenamiento en memoria
• Workaround: minizar la cantidad de datos consultados• Recuperar un periodo de tiempo más pequeño• Reducir las dimensiones o ser más granular
• Una vez que está cargado el modelo puede ser manipulado con rapidez
Formas de carga de datos
Cómo consumir Resultados de HDInsight
Destino Herramienta / Biblioteca Requiere Active HDInsight Cluster
SQL Server,Azure SQL DB
Sqoop (Hadoop ecosystem project) Yes
Excel Codename “Data Explorer” No
Otra Blob Storage Account
Azure Blob Storage REST APIs (Copy Blob, etc)
No
SQL Server Analysis Services
Hive ODBC Driver Yes
BI Apps Existentes Hive ODBC Driver (assumes app supports ODBC connections to data sources)
Yes
Hadoop Connectors• SQL Server versions
• Azure• PDW• SQL 2012• SQL 2008 R2• SQL Server 2014
http://www.microsoft.com/download/en/details.aspx?id=27584
Resumen
Big Data = demasiado complejo para los métodos tradicionales
HDInsight + PDWOportunidad para Big Data
Siga: @rafaldotnetEmail: [email protected]: rafal.net
Visión de conjunto de los
Microsoft System Analytics Platform (APS) anteriormente PDW
"... Almacenamiento de datos ha alcanzado el punto de inflexión más importante desde su creación. La gestión de datos en TI está cambiando. "
- Gartner, "El estado de almacenamiento de datos en 2012"
ETL
Almacenamiento de datos
BI y análisis
Creciente volumenes de datos
1
En tiempo real datos
2
Dispositivos
Web Sensores Social
Nuevo datos fuentes y tipos
3Nacido en la nube datos
4
El almacén de datos tradicional
Las fuentes de datos
OLTP ERP CRM LOB
INFRAESTRUCTURA
GESTIÓN DE DATOS Y PROCESAMIENTO
DATOS ENRIQUECIMIENTO Y FEDERADOS CONSULTA
BI y análisis
Autoservicio ColaboraciónCorporativo ProféticoMóvil
Extraer, transformar, cargar
Modelo de consulta individual Calidad de la Gestión de datos
maestros
No relacionalRelacional Analítico Streaming Interna y eXternal
OLTP ERP
Las fuentes de datos
CRM LOB
Los datos no relacional
Dispositivos
Web Sensores Social
El almacén de datos moderna
Una universidad técnica utiliza la informática bajo demanda en la nube para la secuenciación de ADN, descubrimiento y análisis.
Un edificio y analizar los datos de los sensores y equipos para mejorar la eficiencia y reducir los costos de energía en un 20 por ciento.
Una ciudad quería ver más claramente la eficacia del servicio. Mejoraron los servicios mediante el uso, registros de servicios sociales, dispositivos y GPS para mejorar la seguridad y mejorar los servicios y la comunidad.
Social y web analytics
Alimentación de datos en vivo
El análisis avanzado
Técnicas de diseñadores toda tu datosEnriquecer y optimizar sus datos con fuentes no tradicional
6
Mantener la inversión legado
Comprar nuevo nivel uno dispositivo de hardware
Adquirir Big Data solución
Adquirir la inteligencia de negocios
Obstáculos para un almacén de datos moderna
Escalabilidad limitada y
capacidad de gestionar nuevos
tipos de datos
Entrenamiento Alta adquisición y
costos de migración
Complejidad y adopción
Introducción al sistema Microsoft Analytics PlatformUn moderno dispositivo de almacenamiento de datos llave en mano
La próxima generación rendimiento
Big Data lista para la empresa
Diseñado paravalor óptimo
• De datos relacionales y no relacionales en un único dispositivo
• Hadoop lista para la empresa
• Consultas integradas a través de Hadoop y PDW utilizando T-SQL
• La integración directa con las herramientas de BI de Microsoft, como Microsoft Excel
• Cerca de rendimiento en tiempo real con In-Memory Columnstore
• Capacidad de escalabilidad para incluir cada vez mayor de datos
• La eliminación del almacén de datos cuellos de botella con MPP SQL Server
• Concurrencia que ayuda rápida adopción
• Precio de appliance de datos más bajo por terabyte
• Valor a través de una única solución
• Valor con opciones de hardware flexibles utilizando hardware comercial
Alto rendimiento y sintonizado en el hardware
Autenticación del usuario final con Active Directory
Accesible ideas para todo el mundo con las herramientas de Microsoft BI
Administrado y monitoreado utilizando System Center
100-por ciento de Apache Hadoop
SQL ServerParallel Datawarehouse
Microsoft HDInsight
Polibase
APS listo para la empresa Hadoop con HDInsightManejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato
Carga en paralelo de depósito de datos
HDInsight carga de trabajo
Fabric
Hardware
Apara
to
Una región es un contenedor lógico dentro de un appliance
Cada carga de trabajo contiene los siguientes límites:
• Seguridad
• Medida
• Prestación de servicios
Resumen hardware APS
Proporciona un único Modelo de consulta T-SQL para PDW y Hadoop con ricas características de T-SQL, incluyendo joins sin ETL
Utiliza el poder del MPP para mejorar el rendimiento de ejecución de consultas
Compatible con Windows Azure HDInsight para permitir escenarios híbrido de la nube
Ofrece la posibilidad de consultar las distribuciones no Microsoft Hadoop, como Hortonworks y Cloudera
SQL ServerPDWMicrosoft Azure
HDInsight
Polibase
Microsoft HDInsight
Hortonworks para Windows y Linux
Cloudera
Conexión de islas de datos con polibaseTrayendo soluciones de punto de Hadoop y el almacén de datos junto a los usuarios y TI
Conjunto de
resultados
Seleccionar ...
(HDFS) Bridge
Resultados
Acceso directo y paralelo a HDFS
Data Movement Service (DMS) of APS APS para permitir la comunicación directa entre HDFS datos nodos y nodos de computación PDW
Los datos no relacional
Aplicaciones Social
Sensor y RFID
Móvil aplicaciones
Webaplicaciones
Hadoop
Los datos relacionales
Basado esquema tradicional almacén de datos
PDWPuente HDFS
Enhanced PDW query
engine
La tabla externa
Los datos externos
Archivo externo
Regular T-SQL
Automatic MapReduce pushdown
Hadoop / Data Lake(Cloudera, Hortonworks,
HDInsight)
Fuente sistemas
Actualizar Día / Hora / Minuto
SQL Server Data Marts
SQL Server Reporting Services
SQL Server Analysis ServicesAPS
MapReduce T-SQL
Analytics / Ad-hoc / Visualización
MicrosoftHDInsight
SQL Server Parallel Data Warehouse
Polibase
HDFS File / Directory//hdfs/social_media/twitter
//hdfs/social_media/twitter/Daily.log
Hadoop
Column filtering
Dynamic binding
Row filtering
User Location Product Sentiment Rtwt Hour Date
Sean
Suz
Audie
Tom
Sanjay
Roger
Steve
CA
WA
CO
IL
MN
TX
AL
xbox
xbox
excel
sqls
wp8
ssas
ssrs
-1
0
1
1
1
1
1
5
0
0
8
0
0
0
8
2
8
2
1
23
23
5-15-14
5-15-14
5-15-14
5-13-14
5-14-14
5-14-14
5-13-14
PolyBase – Predicate pushdown
SELECT User, Product, Sentiment
FROM Twitter_Table
WHERE Hour = Current - 1AND Date = TodayAND Sentiment >= 0
Uso de Big Data para cualquier personaIntegración con Microsoft BI
Minimiza TIintervención para el descubrimiento de datos con herramientas como Microsoft Excel
Permite a los usuarios DBA unir datos relacionales y Hadoop con T-SQL
Ofrece herramientas de Hadoop como MapaReduce, Hive, y Pig para los científicos de datos
Toma ventaja de la alta adopciónde Excel, Power View, PowerPivot y SQL Server Analysis Services
Los usuarios avanzados
Científico de datos
Todos los demás utilizando Herramientas de Microsoft BI
Crear tabla externaCREATE EXTERNAL TABLE table_name ({<column_definition>}[,..n ])
{WITH ( DATA_SOURCE = <data_source>, FILE_FORMAT = <file_format>, LOCATION =‘<file_path>’, [REJECT_VALUE = <value>],…)};
Hacer referencia a la fuente de datos externa
1
Hacer referencia a formato de archivo externo
2
Ruta de acceso del archivo / carpeta Hadoop
3
(Opcional) Rechazar parámetros4
Crear origen de datos externoCREATE EXTERNAL DATA SOURCE datasource_name
{WITH ( TYPE = <data_source>, LOCATION =‘<location>’, [JOB_TRACKER_LOCATION = ‘<jb_location>’]};
Tipo de fuente de datos externa1
Lugar de origen de datos externos
2
La activación o desactivación de la generación de trabajo MapReduce
3
Crear Formato de Archivo ExternoCREATE EXTERNAL FILE FORMAT fileformat_name
{WITH ( FORMAT_TYPE = <type>,
[SERDE_METHOD = ‘<sede_method>’,][DATA_COMPRESSION = ‘<compr_method>’,][FORMAT_OPTIONS (<format_options>)]
};
Tipo de fuente de datos externa1
(De) método de serialización [Hive fichero de recursos]
2
Método de compresión3
(Opcional) Formato Opciones [Texto Archivos]
4
<Format Options> :: = [,FIELD_TERMINATOR = ‘value’], [,STRING_DELIMITER = ‘value’],[,DATE_FORMAT = ‘value’],[USE_TYPE_DEFAULT = ‘value’]
Opciones de formato
Delimitador de columna1
Carácter de separación para los tipos de datos de cadena
2
Para especificar un formato de fecha determinado
3
¿Cómo se manejan las entradas que faltan
4
PolyBase utilizando datos de HadoopTraer islas de datos Hadoop juntos
Ejecución de alta consultas de rendimiento contra los datos Hadoop
De datos de almacenamiento de datos de archivado a Hadoop (mover)
Exportación de datos relacionales para Hadoop (copia)
Importación de datos de Hadoop en un dato almacén (copia)
Múltiples nodos con CPU dedicada, memoria y almacenamiento
Posibilidad de añadir de forma incremental hardware para la escalabilidad casi lineal a múltiples petabytes
Capacidad para manejar complejidad de la consulta y la concurrencia y escalabilidad
Capacidad para escalar HDInsight y PDW
Escalada fuera sus datos a petabytesEscalabilidad de salida tecnologías en Sistema Analytics Platform
PDW
0 terabytes 6 petabytes
PDW / HDInsight
PDW / HDInsight
PDW / HDInsight
PDW / HDInsight
PDW / HDInsight
PDW / HDInsight
Un rendimiento increíblemente rápidoMPP y In-Memory Columnstore para la próxima generación rendimiento
• Datawarehouse con Column Store
• Carga datos hacia o desde la memoria para rendimiento de próxima generación con una mejora de hasta 60% en la velocidad de carga de datos
Hasta 100x más rápido
Hasta 15xmás compression
Column Store Index
C1
C3
C5
C4
C2
C6
Ejecución de consultas en paralelo
Clustered columnstore index
¿Por qué es es importante?
• Ahorra espacio
• Proporciona una gestión más fácil, eliminando el mantenimiento de índices secundarios
Espacio utilizado =tabla espacio + índice espacio
1 2 3 4 5 60.0
5.0
10.0
15.0
20.0
Space used in GB (table with 101 million rows)
91% de
ahorro
In-Memory Columnstore ¡se ofrece en el motor de almacenamiento en el PDW AU1
Ejecución de consultas en paralelo y distribuidosProcesamiento de la ejecución de consultas relacionales
Consultas SQL enviadas al nodo de control
1
El nodo de control crea plan de ejecución de la consulta
2
El plan de consulta crea consultas distribuidas para su ejecución en cada nodo de cómputo
3
Las consultas distribuidas enviados nodos en de cálculo (todos corriendo en paralelo)
4
El nodo de control recoge los resultados de la consulta y los devuelve al usuario
5
ControlCliente
Calcular
Calcular
Calcular
Calcular
Administración
Applicance
Resultados de la consulta
Consulta del usuario
Crear una consulta plan
Los resultados agregados de la consulta
Operaciones del plan de consulta en paralelo
Herramientas de BI
Presentación de informes y cubos
SMP SQL Server
Concurrencia de datos Gran rendimiento con cargas de trabajo mixtas
Analytics Platform SystemETL / ELT con SSIS, DQS,
MDS
ERP CRM LOB APPS
ETL / ELT con DWLoader
Hadoop / Big Data
PDW
HDInsight
Polibase
Consultas ad hoc
Intra-Day
Casi en tiempo real
Fast ad hoc
Almacén de columnas
Polibase
CRTAS
Linked Table
Real-Time
ROLAP / MOLAP DirectQuery
SNAC
Hardware y software de ingeniería junto
Co-dirigido con HP, Dell, Quanta y mejores prácticas
Liderando el rendimiento con hardware comercial
Pre-configurado, construido, y ajustado software y hardware
Integrado apoyo con un solo contacto MicrosoftPDW
HDInsight
Polybase
PDW region
Hardware architectureInfiniBand
InfiniBand
Ethernet
Ethernet
Control node
Failover node
Master node
Failover node
Economical disk storage
Compute nodes
Economical disk storage
Compute nodes
Economical disk storage
Compute nodes
Networking
PDW region
HDInsight region
Rack #1
InfiniBand
InfiniBand
Ethernet
Ethernet
Failover node
Economical disk storage
Compute nodes
Economical disk storage
Compute nodes
Economical disk storage
Compute nodes
HDI extension base unit
HDI active scale unit
HDI extension base unit
HDI active scale unit
Rack #2
HST-02
HST-01
HSA-01
HST-02
Economical disk storage
IB and Ethernet
Active Unit Dos nodos adicionales
Passive Unit HDInsight
Failover Node
Alta Disponibilidad
Arquitectura virtualizada PANORAMA
Anfitrión 2
Anfitrión 1
Anfitrión 3
Anfitrión 4
Almacenamiento en
discoIB yEthernet
Directo SAS adjunto
Unidad BaseCTL
MassachusettsD
AD
VMM
Calcule 2
Calcule 1
• Motor PDW• DMS Manage• SQL Server 2012 Enterprise Edition (build PDW)
Detalles de software
• Todos los hosts ejecutan Windows Server 2012 Standard and Windows Azure Virtual Machines
• Fabric o carga de trabajo en Hyper-V virtual Máquinas
• PDW agente que se ejecuta en todos los hosts y es toda virtual máquinas
• DWConfig y consola de administración
• Ventanas espacios de almacenamiento y Azure Storage