Post on 28-Nov-2014
description
Oct 2013
UAI
Business Analytics 101
Bio
Andrés EyherabideBusiness Analytics Tech Lead
Andrés es un especialista en el campo de Business Analytics, con más de 10 años de experiencia trabajando con diversos vendors como SAS, MicroStrategy, Oracle, Business Objects y plataformas open source como Pentaho y R. Posee amplia experiencia en el liderazgo de proyectos internacionales de BI con un enfoque ágil y equipos de trabajo distribuidos para clientes como HP, Intel, GE, BBVA, Aon, Banelco, etc.
Ing. en Sistemas de Información (UTN) y especializado en Data Mining (Universidad Austral), Andrés se ha desempeñado en el pasado como Arquitecto y Tech Lead en empresas de la talla de IBM, Grupo ASSA y SAS, y es co-fundador de Datalytics.
Sobre Globant
Esto es Globant
Clientes Empleados
2008
Adquisiciones
Accendra & Openware
2011Nextive
2012Terra Forum
2900Reconocimientos
Revenue Growth ($mm)150
100
50
0
2009 2010 2011 2012
3857
90CAGR 49%129
StudiosCloud Computing
Managed ServicesInformation Security
HybridNative
E-commerceContent Management
Travel
User ExperienceVisual Design
Front-End EngineeringDigital Marketing
Collaboration SolutionsProcess Engineering Tools
Digital PlatformsGame DevelopmentGraphic Engineering
Test AutomationMobile TestingGame QA
Data ArchitectureData ScienceData Visualization
PODS
Big Data & High Performance Studio
Muchas empresas en industrias como finanzas, IT y telecomunicaciones requieren software diseñado para alcanzar niveles extremadamente altos de seguridad, alta disponibilidad y performance de manera tal de poder manejar altos volúmenes de datos o transacciones.
.
Desarrollamos software seguro y preparado para manejar grandes volúmenes de información. Nuestro software escalable le permite a nuestros clientes manejar las diferentes fases del ciclo de vida de los datos, asegurando alta performance y disponibilidad.
Proveemos maestría en algoritmos, modelado de datos, sistemas de alta disponibilidad y performance, usando las últimas tecnologías, plataformas y lenguajes, tanto open source como propietarios..
High Performance Solution Studio
Data lifecycle management
Patterns discovery
Predictive algorithms
Data visualization
Improve IT infrastructure costs
and performance
De-risking customer's growth
Reliability
High available platforms
Transactional systems
High security
Business Analytics
Cuán crítica es la información?
● Los datos constituyen uno de los principales activos de las compañías
● De acuerdo a Gartner, los ejecutivos hoy usan sólo 10% de la información disponible para la toma de decisiones
● Existe un importante potencial para incrementar el “IQ” de las compañías a través del análisis de sus datos
Un día en la oficina...
Cuántos de nuestros clientes migrarían a la
competencia si subimos el precio un X%?
Cuál es la rentabilidad del
producto X?
Dónde están nuestros clientes más rentables?
Cuán efectivas son nuestras acciones
de MKT?
Qué nuevas geografías deberíamos incluir en nuestro
objetivo de venta?
Nuestras ventas presentan estacionalidad?
El problema...Datos Tomadores de Decisión
SiebelPeopleSoftSAP R/3
VSAM MQSeriesAS/400
DB2 UDB InformixOracleMicrosoft...
Flat FileFTP/SFTP
Web Logs
Cloud AppsSocial Nets
Que impide a las empresas usar sus datos?
● Islas de información: datos dispersos en diferentes áreas, sistemas y arquitecturas● Visión incompleta: solo se ve el árbol, pero no el bosque● Falta de una única visión de la verdad, multiplicidad de criterios y terminologías● La información no se encuentra actualizada● Pobre calidad de datos: los sistemas transaccionales y su carga manual suelen presentar problemas de
calidad de datos● Los sistemas no están preparados para responder en tiempo y forma las preguntas del negocio● Pareto invertido: los analistas pasan más tiempo recolectando y masajeando datos que analizandolos● Complejidad: los datos son guardados en estructuras que los usuarios no saben explotar● Diversidad de fuentes: no solo BD y Excel. Se sumaron redes sociales y sistemas en la nube● Big Data: la información se está duplicando cada 2 años, y el 80% es data no estructurada● En resumen: la información nunca está disponible cuando se la necesita
La soluciónDatos Tomadores de Decisión
SiebelPeopleSoftSAP R/3
VSAM MQSeriesAS/400
DB2 UDB InformixOracleMicrosoft...
Flat FileFTP/SFTP
Web Logs
Cloud AppsSocial Nets
ExtractTransformCleanLoad
Data Warehouse
Que es Business Analytics?
● Lo que no se puede medir no se puede controlar...● Lo que no se puede controlar no se puede mejorar● Los datos constituyen uno de los mayores activos con el que cuenta cualquier empresa, los cuales en
general son pobremente explotados y analizados.● Business Analytics se trata de saber...
○ Que pasó?○ Que esta pasando?○ En base a la información que tenemos, que puede ocurrir?
● Business Analytics se refiere al conjunto de procesos que se realiza sobre los datos utilizando tecnologías de la información para proveer a la empresa/organización de información para la toma de decisiones.
● Se trata de una disciplina o proceso de negocio, no una tecnología.
Soporte a todos los niveles de análisis
Complejidad de Análisis
¿Cuántos nuevos clientes adquirimos?
¿Quién está fuera del rango normal?
¿Ventas del mes, por producto, canal, clientes?
Si conocemos quiénes compraron un producto ¿quiénes más lo comprarán?
Baja
Alta
Detección de patrones fraudulentos
Soporte a todos los niveles de análisis
Complejidad de Análisis
Query & Reporting
Análisis estadístico básico
Data Visualization & Discovery
Baja
Alta
Data Science
Dato, información y conocimiento
● Entendimiento que se da en la mente a la información
● Difícil de estructurar, transferir y capturar en máquinas
● Frecuentemente tácita y su documentación no tiene lugar
● Tiene relevancia y un propósito
● Necesita de la intervención humana
● Sujeta a la capacidad de análisis del interpretador● Resultado directo de una
observación● Fácilmente capturados,
estructurados y transferidos
Dato
Información
Conocimiento
Sistemas OLTP vs. Sistemas OLAP
● Los sistemas transaccionales, llamados OLTP (On-Line Transaction Processing) están orientados a soportar el día a día de una organización
● Sus bases de datos poseen datos detallados y actuales, diseñados generalmente en 3FN para eliminar la redundancia de datos y almacenamiento en disco. Se caracterizan por un gran número de cortas transacciones en línea (INSERT, UPDATE, DELETE)
● No aptos para responder consultas que incluyan grandes volúmenes de información y consolidación de datos en tiempos satisfactorios
● Los sistemas analíticos, llamados OLAP (On-Line Analytical Processing) se caracteriza por un volumen relativamente bajo de consultas a menudo muy complejas e implican agregaciones
● Para los sistemas OLAP un tiempo de respuesta es una medida de eficacia● Sus bases de datos se caracterizan por guardar información histórica, almacenados generalmente en
un esquema en estrella
Sistemas OLTP Sistemas OLAP
● Almacena datos actuales● Almacena datos de detalle● Los datos son dinámicos (van cambiando en el
tiempo)● Las transacciones son repetitivas● El número de transacciones es elevado● Dedicado al procesamiento de transacciones● Orientado a los procesos de la organización● Soporta operatoria diaria● Sirve a muchos usuarios administrativos
● Almacena datos históricos● Almacena datos de detalle y datos agregados a
distintos niveles● Los datos son estáticos● Los procesos no son previsibles● El número de transacciones es bajo o medio● Dedicado al análisis de datos● Orientado a la información relevante● Soporta decisiones estratégicas● Sirve a analistas y tomadores de decisión
Sistemas OLTP vs. Sistemas OLAP
Data Integration
Una Arquitectura Típica
SiebelPeopleSoftSAP R/3
VSAM MQSeriesAS/400
DB2 UDB InformixOracleMicrosoft...
Flat FileFTP/SFTP
Web Logs
Data Viz & Discovery
ExtractTransformCleanLoad Data Science
Cloud AppsSocial Nets
Data Warehouse
Nuestras Prácticas
DataIntegration
Data Viz & Discovery
Predictive & Descriptive AnalyticsScoringClusteringRecommendation
AccessIntegrateCleanseEnrichScoring
ReportsAlertsDashboardsScorecardsVisualizationsWhat-if scenarios Data
Science
Data Integration
Data Integration
SiebelPeopleSoftSAP R/3
VSAM MQSeriesAS/400
DB2 UDB InformixOracleMicrosoft...
Flat FileFTP/SFTP
Web Logs
ExtractTransformCleanLoad
Cloud AppsSocial Nets
Data Warehouse
Data Integration
● La integración de datos es la práctica que consiste en recolectar los datos de diversas fuentes, cruzarlos, enriquecerlos, consolidarlos y cargarlos en un Data Warehouse
● El nombre ETL viene del acrónimo en Inglés Extract, Transform & Load:○ Extract: de los diversos sistemas transaccionales y fuentes○ Transform: transformar los datos, cruzarlos, enriquecerlos, etc.○ Load: cargar la información en un repositorio centralizado.
● Las herramientas de ETL son herramientas visuales orientadas a Drag-And-Drop y zero-coding, lo que se traduce en mayor productividad del equipo de desarrollo, menor time-to-value y un mantenimiento más sencillo
● La herramienta de ETL debe poder conectarse a diversas fuentes y diversas arquitecturas
● Los datos en los sistemas fuente suelen tener errores e inconsistencias, por lo cual se suele aplicar en esta etapa procesos de validación y limpieza (Data Quality)
● Los procesos ETL generalmente se ejecutan por la noche, para no sobrecargar los sistemas transaccionales con pesadas consultas
Data Integration
Data Integration
Por que hacer esto? … cuando podemos tener esto?
Data Warehouse
● El Data Warehouse es el corazón de toda solución de Business Analytics● Se trata de una base de datos centralizada que se alimenta de diferentes sistemas transaccionales ● Es un repositorio orientado a dar respuesta a consultas de los analistas de negocio, modelado para
optimizar el tiempo de respuesta● No posee el mismo nivel de detalle que los sistemas transaccionales● Dado que los usuarios deben buscar y analizar tendencias y patrones, es una base por definición
histórica. Su tamaño puede crecer muy rápidamente● Si bien se puede implementar sobre motores tradicionales (Oracle, IBM DB2, MS SQL Server, etc.)
existen motores específicamente diseñados para el análisis de datos (Teratada, Greenplum, etc). ● El Data Warehouse hace posible el concepto de única versión de la verdad, ya que cualquier análisis
que se realice en la organización se debe hacer a partir de la información contenida en el DW, o derivada de este.
● También se suele hablar de Data Marts. El concepto es el mismo, pero su alcance es más acotado, generalmente enfocado en las necesidades de un área en particular.
● Clave: historia, provee relevancia y contexto a lo largo del tiempo.
Modelado Dimensional
● A diferencia de los sistemas OLTP, los DW se modelan de acuerdo a los lineamientos y mejores prácticas del modelado dimensional (ver obra de Ralph Kimball).
● Optimizado para consultas ad-hoc sobre grandes volúmenes de datos con agregaciones dinámicas.
● Tablas de dimensión: 1 tabla (o varias) por cada entidad del negocio o eje de análisis. Aportan contexto y definen la apertura que tendrán los KPIs: Cliente, Tiempo, Producto.
● Tabla de hechos: tabla que contiene 1 columna por cada KPI a analizar: importe, cantidad, ticket promedio, etc. Además de los KPI cuenta con 1 columna por cada tabla de dimensión.
● A esto se lo conoce comúnmente como esquema o modelo estrella.
Producto
Tiempo
EmpleadoGeografía
Cliente
Ventas
Dimensiones y Métricas - What and By
● Regla semántica: métricas por dimensión. Ej: costo por empleado por año.
3FN vs. Modelo Estrella
● El modelo estrella presenta cierto grado de desnormalización para aplanar tablas y reducir joins● Se privilegian los tiempos de lectura sobre los de escritura
Data Visualization & Discovery
Data Integration
SiebelPeopleSoftSAP R/3
VSAM MQSeriesAS/400
DB2 UDB InformixOracleMicrosoft...
Flat FileFTP/SFTP
Web Logs
Data Viz & Discovery
ExtractTransformCleanLoad
Cloud AppsSocial Nets
Data Warehouse
Data Visualization & Discovery
● La presentación de los datos afecta como la información es interpretada por los usuarios y el valor que obtienen de ella
● Para mejorar la UX y aumentar el valor de la solución, debemos proveer a los usuarios de una plataforma interactiva que les permita navegar grandes volúmenes de datos a la velocidad del pensamiento
● En lugar de los clásicos reportes y dashboards, se busca que el usuario pueda elegir que analizar, a que nivel de agregación, y en que formato lo quiere visualizar
● El Data Discovery permite explorar la información para detectar tendencias y patrones ocultos, reduciendo la dependencia de IT
● Las interacciones gráficas con los datos mediante un navegador web se han convertido en un standard, gracias a tecnologías como AJAX, JS y HTML5
● El tiempo de respuesta es un factor crítico, por lo que se suele recurrir a diferentes tecnologías como bases de datos analíticas (OLAP, column orientated, etc.) e In-Memory analytics
● El Visual Discovery libera a los usuarios de algunas limitaciones típicas del BI como las preguntas predefinidas y respuestas conocidas (ej.: ventas por región).
Data Viz & Discovery
Data Visualization & Discovery
Data Integration
Data Science
SiebelPeopleSoftSAP R/3
VSAM MQSeriesAS/400
DB2 UDB InformixOracleMicrosoft...
Flat FileFTP/SFTP
Web Logs
Data Viz & Discovery
ExtractTransformCleanLoad Data Science
Cloud AppsSocial Nets
Data Warehouse
Data Science
● Data Science consiste en la extracción de información que reside de manera implícita en los datos mediante técnicas estadísticas y/o diversos algoritmos del campo de la inteligencia artificial.
● Existen 2 grandes tipos de técnicas:○ Modelos descriptivos: entender más sobre la actualidad○ Modelos predictivos: tratar de predecir que va a pasar
● Algunos ejemplos de aplicaciones prácticas de DM:○ Caracterización de perfiles de clientes para definir acciones de MKT,
ofertas, etc.○ Gestión de campañas, predicción de respuestas○ Canasta de consumo. Determinación de Paquetes de productos -
Ofertas○ Detección/Prevención de fraudes○ Modelos de predicción de abandono (Attrition/Churn)○ Programas de millaje y fidelización de clientes○ Optimización de stock y modelos de proyección de demanda.
Data Science
Vendors y Tecnologías de Business AnalyticsData Integration
SQL Data Storage
Data Visualization & Discovery
Data Science
Claves para el éxito
● Participación: contar con el apoyo de la organización e Involucrar a usuarios claves● Priorizar los Quick-Wins en lugar de buscar el efecto Big-Bang, acelerando el time-to-value y ROI ● Single Version of the Truth: la solución debe aportar una visión unificada de la realidad, recolectando
y consolidando información de diversos sistemas, normalizando y estandarizando la información● Data Quality: difícilmente se puedan tomar buenas decisiones a partir de datos incorrectos. Una pobre
calidad de datos pone en jaque la confianza de la solución a los ojos de los usuarios● Self-Service: la solución debe estar orientada a que los usuarios puedan explotar e interactuar ellos
mismos la información, navegando las dimensiones, seleccionando las métricas, reduciendo su dependencia de las áreas de IT
● Analytics: Menos tiempo recolectando datos, y más tiempo para analizarlos! La solución debe ser una herramienta que permita el análisis de la información, y no simplemente un medio para descargar miles de datos crudos a nivel transaccional
● Anytime, anywhere: Acceso a información actualizada desde cualquier lugar y dispositivo, 24x7● Data Governance: resguardar el acceso a la información de acuerdo a perfiles de usuario● Agile: La solución debe ser ágil, escalable y evolutiva, de manera de poder acompañar al negocio e
incorporar constantemente información de nuevos sistemas, nuevos indicadores, y permitir análisis cada vez de mayor valor para la organización
Desafíos por delante
● Social Intelligence● Cloud-based platforms● Mobile BI● Big Data Analytics● Embedded Analytics● Geospatial Analytics● Real Time Analytics● Audiencia y público objetivo● Agile BI
Casos de Éxitos
HUB InternationalCreación de una única versión de la verdad, integrando datos de diferentes sistemas a un Enterprise Data Warehouse.Desarrollo cubos In-Memory para proveer capacidades de self-service Data Discovery a la velocidad del pensamiento.Mejoras en la experiencia de usuario con visualizaciones avanzadas como mapas interactivos (Geo Analytics).Customización del modelo de seguridad para aportar mayor flexibilidad en el control de acceso a la información.Mejoras en el modelo dimensional y tuning general para mayor performance contra grandes volúmenes de datos.
Tools & TechnologiesPentaho Business AnalyticsMicrosoft Integration Services (SSIS)Microsoft SQL Server
HUB International
MindshareDiseño de un modelo dimensional para consolidar información de múltiples plataformas de web analytics.Desarrollo de procesos automáticos para extraer datos de la nube y cargarlos en el modelo dimensional.Creación de varios cubos OLAP, habilitando análisis de tipo ad-hoc usando técnicos como drill-down y slice-&-diceEvaluación y POCs con diferentes tecnologías de Data Viz & Discovery: Pentaho, QlikView y Tableau.
Tools & TechnologiesMicrosoft Integration Services (SSIS)Microsoft SQL ServerMicrosoft Analysis Services (SSAS)Microsoft PowerPivot
Mindshare
ClaroCreación de un Data Mart Comercial con información sobre las ventas e instalaciones de productos y servicios.Desarrollo de procesos automáticos para recolectar y consolidar la información proveniente del ERP. Implementación de un dashboard que permite a los usuarios filtrar y analizar los datos por regiones, canales de distribución, segmentos, etc.Análisis de tendencias de ventas e instalaciones mediante series de tiempo.
Tools & TechnologiesOracle 11gOBIEE 11gMicrosoft SQL ServerAccess
Claro
AmadeusDesarrollo de una Web UI para cadenas hoteleras, otorgándoles acceso a la información y la posibilidad de crear sus propios dashboards y reportes. La solución le brindó a los hoteles y cadenas la posibilidad de recolectar y analizar datos del comportamiento y actividad de sus clientes.Embedded Analytics: solución desarrollada con la plataforma de BI de Amadeus (Oracle BI Enterprise Edition)
FrameworksOBIEE 11gjQueryHMTL5Java
Amadeus
MoneyGram InternationalDesarrollo de un modelo para detectar operaciones financieras fraudulentas, basándose en patrones y comportamientos fraudulentos observados con anterioridad.Modelo híbrido basado en clustering y árboles de decisión.Dado que esta clase de sistemas requieren de monitoreo y ajustes, se implementaron procesos automáticos y alertas para informar degradación en la performance del modelo.
Tools & TechnologiesR
MoneyGram International
Q&A
Muchas Gracias!