ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · •...

46
BIG DATA DISCOVERY | ADVANCED ANALYTICS 1 www.divisadero.es

Transcript of ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · •...

Page 1: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

1www.divisadero.es

Page 2: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

Durante los primeros años del siglo XX, se gestó en las Matemáticas una crisis sin precedentes que cuestionaba los fun-damentos básicos sobre los que éstas se sustentaban. La teoría del infinito y las implicaciones lógicas y formales que lo rodea-ban generaron la aparición de diversas paradojas que hicieron tambalear al edificio matemático.

Años de intensos, y en ocasiones descarnados, debates y congresos, dieron lugar a una consolidación de una nueva Ma-temática que sentó las bases del posterior desarrollo tecnoló-gico de la segunda mitad del siglo. Cuando Gödel formuló su Axioma de Incompletitud (no todo puede ser demostrado ni re-futado bajo axiomas matemáticos y además podemos encontrar enunciados que son verdaderos pero no demostrables) sentó las bases para que Turing soñara problemas que no pudieran ser resueltos por una máquina; y de paso inventara dichas máquinas y la Inteligencia Artificial.

Un siglo después, nos encontramos ante un prometedor escenario en el que confluyen las necesidades de mejora con-tinua de mercados y compañías, con las infinitas posibilidades que ofrece el procesado matemático de cantidades ingentes de datos. Estando lejos de encontrarnos con una crisis de fun-damentos en el Big Data, y con el mismo espíritu de nuestros predecesores, desde Merkle DIVISADERO queremos compar-tir esta selección de artículos con nuestro enfoque sobre el Big Data y nuestra visión al mercado. Están estructurados desde un escenario estratégico hasta un plano más técnico, donde podrás apreciar la evolución y madurez de nuestras tesis y su aplica-ción real en el mercado. Esperamos de esta forma contribuir humildemente al debate y a la reflexión sobre el Big Data como la disciplina llamada a transformar la sociedad y la industria del siglo XXI.

Si Hilbert, Cantor o el propio Turing vieran hoy hasta don-de ha crecido el edificio del cual ellos pusieron los cimientos…

José Manuel Glez. Corral

Head of Big Data & Integration en DIVISADERO

“Data is the oil of the 21st century, and analytics is the combustion engine”

Peter Sondergaard

Page 3: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

3

ÍNDICE4 DATA SCIENCE AS A

SERVICE (DSAAS)

Autora: Asunción Vázquez

8 IDENTITY MANAGEMENT, DE LA COOKIE

A LA PERSONA Autor: José Manuel Glez. Corral

12 GOLPEA CUANDO EL HIERRO

ESTÁ CALIENTE Autor: David Incio

17 USING UNSTRUCTURED DATA

ANALYTICS TO MAKE BETTER BUSINESS DECISIONS

Autor: Warwick Beresford-Jones

20 VENTAJA COMPETITIVA DE TENER UN

SISTEMA DE RECOMENDACIÓN Autora: Asunción Vázquez

24 AGILE VS WATERFALL IN DATA

SCIENCE: FRENEMIES?Autor: Sean Robertson

29 EL BIG DATA EN EL MUNDO

DEL FÚTBOLAutor: Victor Balbín

34 CÓMO EL BIG DATA PUEDE DECIDIR LAS

ELECCIONES DE EE.UU. Autor: Héctor Camblor

37 YOUR CHOICE IN MUSIC OR DATA

ANALYTICS DECIDING?Autora: Eleni Kotzampasaki

40 MACHINE LEARNING Y SUPPORT

VECTOR MACHINES Autora: Jana Álvarez

Page 4: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

4

DATA SCIENCE AS A SERVICE (DSAAS)

Autora: Asunción VázquezMatemática y viajera a partes iguales. Busco problemas

para resolver y lugares en que perderme. En DIVISADERO, lucho por convertir el dato digital en conocimiento.

ESTRATEGIA

Page 5: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

5

Tradicionalmente reservado a las grandes empresas y con fortí-simas dependencias tecnológicas, el acceso total a la informa-ción, está hoy al alcance de los bolsillos más modestos de la mano de las soluciones Cloud.

Plataformas como Google Cloud Platform posibilitan la cons-trucción de agile Data Lakes, que se integran a la perfección con herramientas de visualización como Tableau o Google Data Studio.

Por supuesto, el aprovechamiento de toda esta información re-quiere de nuevas capacidades en las unidades de análisis. Por ejemplo, conocimientos de lenguaje SQL nos van a permitir combinar las distintas fuentes de datos (campañas, CRM, com-portamiento web) para la generación de casos de uso más y más sofisticados.

Los equipos que cuenten con un background en estadística y modelización, disfrutarán, sin lugar a dudas, de una gran venta-ja competitiva: la incorporación a sus procesos de decisión del importante abanico de librerías de Machine Learning, que tanto Google como otros proveedores están liberando.

INTELLIGENT BUSINESS CASESAlgunos de los business cases que ya se están poniendo en marcha incluyen:

• Analítica predictiva: el estudio de la serie histórica de valores de los principales indicadores temporales permite identificar patrones y tendencias, así como simular escenarios futuros o detectar valores anómalos. Los entornos Cloud posibilitan la ejecución de estos modelos en real o near-real time así como la configuración de alertas predictivas u otras accio-nes.

• Modelos de propensión / Next Best Action: el objeto es la determinación de la fase del proceso de compra en que se encuentra cada cliente/prospecto, mediante el análisis de los factores que influyen en la misma (histórico de navegación o transacciones, impactos publicitarios recibidos o incluso mo-mento del día). Una vez conocida la propensión de compra

Page 6: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

6

de un usuario concreto, se calcula el impacto en la misma de las posibles acciones que se puedan llevar a cabo (llama-das, emails, contenidos personalizados, etc.), seleccionando aquella que dé mejores resultados.

• Frequency capping: este análisis de datos de campa-ñas busca controlar el número de impactos que reci-ben los usuarios para optimizar el gasto publicitario, sin penalizar en exceso las conversiones obtenidas. Un modelo en producción permite determinar este cap (lími-te) de forma dinámica para adaptarse a la distinta naturaleza de las campañas.

• Modelos de Atribución y Marketing Mix: el acceso hit-level a los datos posibilita la construcción de modelos de atribu-ción personalizados, basados en los paths de conversión que se construyen mediante el procesamiento de los da-tos y sin dependencias de las herramientas de analítica, sus ventanas de conversión, etc. De la visión 360 que se puede obtener con un adecuado naming de campañas y la integra-ción de eventos offsite, resultan a cada negocio particular. Además, el modelado predictivo de las inversiones por canal y su rendimiento son una herramienta muy valiosa cara a la planificación de las acciones futuras.

• Sistemas de recomendación: estos sistemas se apoyan en datos históricos de los usuarios, en sus similitudes con otros usuarios, etc., para construir la experiencia ideal para cada uno de ellos, mediante las sugerencias de productos perso-nalizadas, etc. De nuevo, el entorno Cloud posibilitará el cál-culo de las recomendaciones, su archivo y activación en real o near-real time.

EL FUTURO YA ESTÁ AQUÍLos ejemplos que hemos detallado, que se apoyan en lenguajes como R o Python y aprovechan Tensorflow y otras librerías de Machine Learning, se ejecutan en el Cloud y pueden lanzarse desde cualquier ordenador personal independientemente de los programas que tenga instalados o su potencia de computa-ción.

Y por si esto fuera poco, el futuro es, además, apasionante. aplicaciones basadas en el procesamiento del lenguaje natural (chatbots, traducción automática, topic detection, reputación on-

Page 7: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

7

line, etc.), el reconocimiento de imágenes (búsqueda de logos, análisis de las expresiones faciales) o la información geoposicio-nada, integran ya los casos de uso más disruptivos.

El Cloud es, en definitiva, un arma poderosa para los científicos de datos, que ya por fin pueden centrar sus esfuerzos en los modelos, dejando de lado tareas más técnicas que aportaban poco valor de negocio.

Desde DIVISADERO creemos que este es el momento ideal para avanzar en la integración de los datos en los procesos de toma de decisión, ¿quieres que te ayudemos?

C O M PA R T E E S T E P O S T

Page 8: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

8

IDENTITY MANAGEMENT: DE LA COOKIE A

LA PERSONAAutor: José Manuel Glez. Corral

Head of Big Data & Integration en DIVISADERO, padre, matemático, ciclista urbano y fan

de Elvis. Todo al mismo tiempo

ESTRATEGIA

Page 9: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

9

«Lo que llamamos “casualidad” no es más que la ignorancia de las causas físicas.»

Gottfried Leibniz

Las cookies, como una especie de mónada leibniziana, son el todo y la parte sobre las que se construyen los servicios en In-ternet. Hay cookies de todos los colores, aromas y sabores, coo-kies de primera y de tercera, cookies enriquecidas y cookies ramplonas, cookies analíticas y cookies intrusivas. Nada escapa a la cookie, en Internet somos cookies. Incluso varias al mismo tiempo (cada navegador que utilizamos es un YO hecho cookie, cada perfil social que creamos es una parte de nuestro EGO di-gital). Pieza fundamental para recordar los artículos recogidos en un carrito de la compra o facilitar el acceso a una red social, no hay estrategia de Marketing Digital que no se apoye en coo-kies para ser ejecutada.

Al igual que el propio Leibniz aportó tantas soluciones como pa-radojas con su Monadología, las cookies aportan tantas solucio-nes como limitaciones. Si la mónada es insustancial y al mismo tiempo base de la materia, ¿no caemos así en un absurdo? Si la cookie identifica al usuario sobre el que se definen las acciones de marketing y cada usuario puede ser varias cookies, ¿esta-mos impactando al usuario a la cookie adecuada? ¿Funcionan nuestras campañas “de casualidad” o realmente conocemos las causas del éxito?.

PERSONALIZACIÓNEn este contexto, los consumidores cada vez más están deman-dando métodos de comunicación más personalizados y efica-ces, buscando el equilibrio con el tratamiento respetuoso y ajus-tado a la privacidad de sus datos, al tiempo que su YO digital está más fragmentado, en un bucle antagonista; obligando, de alguna forma, al MKT Digital a dirigir sus acciones a la persona cuando de facto lo está haciendo sobre la(s) cookie(s), y es el Identity Management la disciplina sobre la que apoyarse en este cambio de paradigma.

Tal cual ha sido definido en el Lexicograma DIVISADERO el Iden-tity Managment: “la disciplina centrada en el establecimiento de

Page 10: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

10

atributos que definen a un individuo, y a través de los cuales puede establecerse una identificación inequívoca del mismo”.

Dentro de las diferentes estrategias que se pueden llevar a cabo para conseguir esa identificación de un individuo, y partiendo de la premisa de que los datos de primera parte se muestran como los datos más valiosos para este propósito, la construcción de una identidad única e inequívoca de un individuo que interactúa con nuestra marca, pasa por pivotar sobre estos datos de pri-mera parte e ir complementando dicha identidad con el resto de cookies y perfiles de tercera parte que se puedan ir integrando por diferentes métodos determinísticos y/o probabilísticos de forma iterativa y continuada en el tiempo.

Esta estrategia supone un reto que tendría que tener en cuenta al menos los siguientes puntos:

1. Contar con un Data-Layer robusto, consistente y homogéneo en nuestros activos digitales, de tal modo que los atributos que definen a cada individuo en su relación con nuestra mar-ca genere un modelo de datos válido y completo.

2. Definir espacios de integración del dato digital de primera parte con el CRM, de tal manera que aquellas cookies que puedan ser relacionadas con una persona, lo sean, por ejem-plo, a través de la identificación en una zona privada.

3. Trazar, a través de identificadores únicos y específicos, las iteracciones de los usuarios con servicios de tercera parte enlazados en nuestros activos, que puedan recoger atributos personales y que permitan la identificación del usuario (por ejemplo, servicios de call me back).

4. Recoger identidades de redes sociales y/o correos electróni-cos, debidamente encriptados y securizados, que permitan, a través de tablas de doble entrada vinculadas con los datos del CRM, establecer integración de perfiles anónimos con usuarios ya identificados.

5. Las estrategias para la generación de Leads pasan a ser fun-damentales en el proceso de creación de una identidad úni-ca de usuario.

6. Los puntos anteriores permiten identificar personas de forma determinística a partir de cookies y otras id’s digitales.

7. Donde no sea posible establecer identificaciones determinís-

Page 11: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

11

ticas se deben de establecer relaciones probabilísticas me-diante, por ejemplo, modelos de matching tipo look-a-like, y definir acciones que permitan aceptar o rechazar la hipótesis, a un nivel de confianza elevado, de que se haya identificado unívocamente un usuario.

8. Las acciones de MKT que se definan sobre los individuos identificados probabilísticamente han de ser diferentes a las que se realicen sobre usuarios identificados con acciones determinísticas. Nos encontramos ante lo que en contraste de hipótesis se conoce como error de tipo II, donde, si da-mos por válido la identificación de una cookie con una perso-na siendo esta identificación falsa, el error cometido es más contraproducente que dejar a una cookie sin identificar.

9. Se ha de poner foco en integrar identidades probabilísticas en identidades determinísticas, de tal manera que la función de error asociada a los modelos de matching tienda a con-verger a cero.

10. Diseñar una solución cloud para almacenar cookies y faci-litar el proceso de generar id’s únicas de usuario mediante integración, modelado, técnicas de matching, reprocesado de identidades con nuevos atributos, etc. Los Big Data Lakes construidos en este contexto vuelven a cobrar sentido si ge-neran identidades reutilizables por el resto del stack tecnoló-gico de la compañía.

Si el grado de madurez del Marketing está llevando a las compa-ñías a una transición del Performance Marketing (centrado en los canales de comunicación) al Omnichannel Marketing (centrado en los segmentos de usuarios), aquellas compañías más disrupti-vas están considerando estrategias de People-Based Marketing (centrado en las personas) asumiendo los retos tecnológicos que ello supone, al tiempo que son perfectamente conscientes del aporte de valor que van a generar en los nuevos escenarios que se van definiendo.

Fuentes de información: este post está directamente influencia-do e inspirado por la lectura de dos artículos, a saber: Más allá del DMP y Es el Momento de tomarse las cosas de modo perso-nal.

C O M PA R T E E S T E P O S T

Page 12: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

12

GOLPEA CUANDO EL HIERRO ESTÁ CALIENTE

(STRIKE WHILE IRON IS HOT)

Autor: David F. IncioCientífico de Datos y Arquitecto Cloud, soy

reservado y me gusta el aikido y la montaña.

ESTRATEGIA

Page 13: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

13

Cuando un herrero quiere moldear el hierro requiere un largo proceso de calentamiento para alcanzar las condiciones óptimas en cuanto a plasticidad y fragilidad. El mayor reto es el calenta-miento, pero llegado un punto el exceso de calor puede perjudi-car la fragilidad del metal.

El uso de tecnologías requiere una maestría similar. Adoptar una tecnología demasiado novedosa es tan perjudicial como llegar tarde al reparto de la tarta.

Ser pionero en una tecnología supone explorar en solitario, co-meter errores, perder el tiempo, despilfarrar recursos, etc. Llegar tarde a la adopción de tecnologías puede suponer que el mo-mento haya pasado, que otras tecnologías la estén sustituyendo o que pierda el interés de los técnicos o desarrolladores.

Pongamos un par de ejemplos para ilustrar ambos casos. La má-quina de vapor fue un invento revolucionario del que todavía so-mos herederos. Pero fue totalmente ineficiente en la sustitución de la fuerza motriz animal hasta mucho después de inventarse. Muchos ingenieros y empresarios pioneros tuvieron que ir intro-duciendo pequeñas mejoras hasta tener algo útil.

El minidisk, sin embargo, vino para sustituir al walkman de una manera más eficiente, pero fue rápidamente sustituido por dis-

Page 14: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

14

cos duros portátiles de la mano de internet y los computadores.

El secreto del éxito es una fórmula difícil de aplicar, pero inmen-samente conocida: “conoce el mercado y golpea en el momento justo”. La calidad de la tecnología no es garantía de éxito, bien conocido es que los vídeos Beta tenían mejor calidad de imagen que los VHS pero sucumbieron sin piedad por los gustos del usuario. El precio competitivo tampoco parece ser la panacea o que se lo pregunten a Apple.

Veamos a nivel mundial qué tecnologías están calientes, e inclu-so sobrevaloradas, gracias a la curva de Gartner:

Desde luego, no es lo mismo el mercado mundial de empresas de tecnologías de Sillicon Valley que el mercado de verduras de la preciosa localidad de Mieres del Camín. Así que voy a dar mi opinión sobre lo que conozco: el mercado español de tecnolo-gías del ‘Big Data‘.

Para mí, las tecnologías óptimas, en estos momentos, son en ge-neral los productos cloud y, en particular, los gestores de gran-des bases de datos con pago bajo demanda del tipo ‘Big Query’ o ‘Athena’.

Page 15: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

15

Las posibilidades cloud eran inmensas ya desde hace unos cin-co años. Pero es ahora cuando las capacidades técnicas de los usuarios pueden explotarlas. Los clientes del cloud van enten-diendo esas posibilidades y las pueden aplicar en el mercado y conseguir retorno.

Las compañías que han invertido inmensas cantidades de recur-sos en hacer su propia infraestructura con enormes equipos de desarrolladores y administradores, llegan al mismo punto ahora que cualquier empresa que entra en el cloud con un equipo pe-queño y muchos clientes deseosos de implementar las bonda-des del Big Data.

Los gestores de grandes bases de datos bajo demanda son las estrellas de los productos cloud. Se caracterizan por acercar el viejo y conocido SQL al mundo de los terabytes y los petabytes. No se requieren conocimientos de computación distribuida, ni de nuevos lenguajes, ni siquiera de gestión de servidores. Han hecho la vida más fácil a todo el mercado.

Y ahora que creemos saber qué es lo que está caliente quizás nos preguntemos qué es lo que viene. Y para responder a esta difícil pregunta voy a hacer referencia a la reflexión que dos eco-nomistas del M.I.T (Erik Brynjolfsson y Andrew McAffe) hacen en su libro “The Second Machine Age”: “Si la máquina de vapor supuso la sustitución de los músculos de animales y hombres

Page 16: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

16

por máquinas, la inteligencia artificial y los computadores van a suponer la sustitución del cerebro por nuevas máquinas”.

*Fuente de las imágenes: Unsplash y Big Data Social

C O M PA R T E E S T E P O S T

Page 17: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

17

USING UNSTRUCTURED DATA ANALYTICS TO MAKE BETTER

BUSINESS DECISIONS

Autor: Warwick Beresford-JonesCEO at Merkle | Aquila

ESTRATEGIA

Page 18: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

18

There are two types of data –structured and unstructured, says Merkle Aquila. Structured data is any data that resides in a fixed field within a record or file. Think spreadsheets or database. Uns-tructured data is everything else. Which do you need for better business decision making?

The finance director loves structured data because it’s predic-table and she doesn’t want any surprises. Whereas over in mar-keting, the data landscape, the information coming into that part of the business, is changing almost by the hour. New sources of data, new social media channels, spring up all the time. So the ideal solution for most businesses is to have a combination of structured and unstructured data.

WHAT MAKES THE STRUCTURED WORLD SUCH A NICE PLACE?The fact that you can run reports because everything is structu-red. You can build a report, and tell it to ‘get that data from over there’, and this data by ‘adding up these columns over here’, to show that view of the world. You can run that report every day and find out how your business is doing. The key thing is that you find out how it was doing an hour ago, yesterday or whenever.

This backwards-looking view is what we call descriptive analytics.

THE FUTURE POWER OF UNSTRUCTU-RED DATAA data scientist only uses backward data if it’s going to help inform what’s happening right now and going forward. This per-son is forward-thinking, and is trying to understand the past in order to model the future; that’s where you get the predictive, forward-looking capability of analytics.

Therefore, structured data doesn’t necessarily work for data scientists or analysts. They need to be able to see all the data.

Page 19: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

19

HISTORICAL DATA AND THE UNTOLD STORYIt’s a bit like looking at the history of the world – someone has al-ready decided what’s important. They’ve thrown away everything else and only chosen to keep what they consider to be memora-ble or significant.

A data scientist can’t be sure that the stuff that is thrown away isn’t significant. In a marketing context, perhaps the discarded data is having some influence on how people are behaving.

Therefore you need data structures and data capabilities to allow data scientists and analysts to see everything, to process the data and create a model that describes the operation of the business.

Which could be something as simple as product sales – can we build a model, the shape of which when laid out over time, co-rrectly maps to the sales we saw in a particular product line, for example.

But that’s another story, for another day.

C O M PA R T E E S T E P O S T

Page 20: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

20

VENTAJA COMPETITIVA DE TENER UN SISTEMA DE RECOMENDACIÓN

Autora: Asunción VázquezMatemática y viajera a partes iguales. Busco problemas

para resolver y lugares en que perderme. En DIVISADERO, lucho por convertir el dato digital en conocimiento.

ESTRATEGIA

Page 21: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

21

Imagina esta situación: has estado muy ocupado y hace meses que no lees un libro. Te gustaría recuperar el hábito lector, pero la verdad es que estás sin ideas. Así que:

1. Escribes a una amiga con la que compartes gustos, para sa-ber qué ha pasado por sus manos últimamente.

2. Controlas tres o cuatro autores que no te suelen fallar, así que echas un vistazo en Internet para ver si han sacado algo nuevo.

3. Te apetece que te sorprendan, por lo que decides elegir (casi al azar) entre el top five que viene en el periódico del fin de semana.

Ahora imagina que tienes un asistente-librero que valora, de for-ma conjunta, los gustos de personas afines a ti y las característi-cas de tus lecturas más apreciadas. También le añade la medida justa de novedad y sorpresa para seleccionar, de entre todos los posibles, el libro que justo te apetece leer en este momento. ¿Suena bien, no?

Quizás pienses que este recomendador de libros elimina uno de los grandes placeres de los aficionados a la lectura: aproxi-marse a un posible objetivo, sopesarlo, leer la contraportada, las reseñas, etc. Pero resulta que los datos dicen que, si te fías de él, aciertas más. Además, con su asistencia, puedes descubrir títulos y autores en los que nunca habrías reparado.

Este ejemplo pretende servir de introducción a los sistemas de recomendación y los distintos enfoques que usan para hacernos la vida más fácil.

¿PARA QUÉ SIRVE UN SISTEMA DE RE-COMENDACIÓN?El objetivo de un sistema de recomendación es servir dinámica-mente contenido personalizado (libros, películas, páginas, pro-ductos, anuncios, etc.) a los usuarios, en base a su perfil, prefe-rencias o intereses.Los sistemas de recomendación son una de las formas más comunes de personalización. Aunque su origen se remonta a varias décadas atrás, es ahora, con la democra-tización de las técnicas de Machine Learning que aportan las

Page 22: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

22

soluciones Cloud y el auge del People-Based marketing, cuan-do muchas empresas están apostando decididamente por esta disciplina.

Es el caso de negocios nacidos online, como Amazon, Netflix, Spotify, LinkedIn o Facebook, y, por supuesto, e-retailers que quieren potenciar el cross-selling y dar vida a su catálogo de productos. El objetivo final es ofrecer al usuario lo que está bus-cando, incluso antes de que él mismo lo sepa, ahorrándole tiem-po y ofreciéndole una experiencia única.

¿CÓMO SE CONSTRUYEN LAS RECOMEN- DACIONES?Las recomendaciones pueden basarse en las preferencias del usuario, en su perfil sociodemográfico o de cliente, en las carac-terísticas de los productos y objetos a recomendar, etc.

Siguiendo a Mobasher, podemos establecer cuatro enfoques principales:

1. Filtrado colaborativo: las recomendaciones a un usuario se basan en las preferencias de “usuarios similares”. En el ejem-plo inicial, la persona recurre a una amiga con la que com-parte gustos. Es parecido a cuando Facebook te recomienda enlazar a los amigos de tus amigos. Y también a cuando los AdServer buscan cookies a las que mostrar publicidad que les resulte relevante mediante modelos look-alike.

2. Filtrado basado en contenido: las recomendaciones a un usuario se basan en sus propias preferencias, buscando “elementos similares” a aquellos por los que ha mostrado interés. En este caso, lo que se busca es un libro parecido a otro que se ha leído, por ejemplo, por pertenecer al mis-mo autor. También podría ser del mismo género literario o ambientado en una determinada época histórica. De esta misma forma te anima Amazon a añadir a la cesta productos similares a aquellos que estás buscando.

3. Filtrado basado en reglas: las recomendaciones se basan en reglas previamente definidas como, por ejemplo, en caracte-rísticas sociodemográficas. Cuando regalamos libros a niños o adolescente nos fijamos mucho en la edad recomendada. De manera similar, muchos bancos y aseguradoras online

Page 23: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

23

personalizan banners y otros elementos de acuerdo al seg-mento de cliente: jóvenes, pensionistas, autónomos, etc.

4. Enfoques mixtos: combinan diferentes enfoques. Por ejem-plo, pueden basarse en las preferencias de usuarios de gus-tos similares dentro de un determinado segmento de cliente, o en las preferencias de usuarios respecto a productos de una determinada categoría. Un gran ejemplo serían los Daily Mix de Spotify. Ellos saben que quizás te va el heavy español, pero que cuando te preparas para salir de fiesta no le haces ascos a un poco de reggaetón. ¿Te imaginas una lista de re-producción con semejante batiburrillo de estilos musicales? En lugar de esto, tienes tres, cuatro o cinco listas diferentes, actualizadas diariamente en base a tus preferencias de escu-cha. Spotify no quiere que estés ni un solo minuto sin música, así que, incluso cuando construyes tus propias listas, tiene canciones preparadas por si se te acaban las ideas. Es un ejemplo claro de cómo estos sistemas de recomendación de nueva generación juegan un papel fundamental en la alinea-ción de los objetivos del cliente y del negocio.

Y tú, como empresa o como cliente, ¿qué opinas de las reco-mendaciones?

*Fuente de la imagen principal: Unsplash

C O M PA R T E E S T E P O S T

Page 24: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

24

AGILE VS WATERFALL IN DATA SCIENCE:

FRENEMIES?

Autor: Sean RobertsonData Science Client Director at Merkle | Aquila

ESTRATEGIA

Page 25: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

25

Frenemy: A person with whom one is friendly despite a funda-mental dislike or rivalry

Agile development has been rapidly growing in popularity in the data science world since its formal inception in 2001.

For those that are new to it, Agile is a collaborative develop-ment approach in which cross-functional teams design and build end-to-working solutions in short time boxes, review them with business owners then keep refining them. The Agile approach favours rapid development over project governance and docu-ment production.

WHAT IS WATERFALL?On the opposite side, Waterfall development has a ‘big bang’ development approach with a series of project stages leading to a significant end-to-solution release. The stages typically in-clude scope, requirements, design, build, test and deployment. This approach requires significant project governance including reporting, risk management, hand offs and documentation.

In theory, every short time box build in agile has all of these com-ponents.

THE ADVANTAGES OF AGILEAgile works really well in the data science world for many rea-sons:

1. Data scientists and the business owner agree on the high-le-vel requirements (called a backlog) early in the development lifecycle and these are continually reviewed. The business owner has frequent opportunities to review the model/so-lution being delivered, and to make decisions and changes throughout the model build. Gathering and documenting de-tailed requirements in a meaningful way is often the most di-fficult part of data science projects. The business owner may not have a detailed view of the data quality, the precise busi-ness outcome to be modelled or how the model outputs will be integrated with decision systems.

Page 26: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

26

2. Agile data science produces evolving models and solution releases which are very user-focused as a result of frequent review and direction from the business owner.

3. The business owner gains a strong sense of ownership by working extensively and directly with the project team throu-ghout the project.

THE ADVANTAGES OF WATERFALLHowever, there are a number of factors that come up in data science projects that are still Waterfall in nature (and sometimes rightly so):

1. Scope/Contracts – The typical large-scale data science pro-ject still requires control and risk management particularly around consumer data rights, business case measurement and contract and payment management where third parties are involved. This requires the agreement and documenta-tion of scope, activities, dependencies, deliverables, risks, assumptions and plans.

2. ‘Big ticket’ design needs to be completed early in the deve-lopment lifecycle as these typically require business prioriti-sation, investment and can have significant lead times. Big tickets can include data use approvals, new data sources access, integration with enterprise solutions and changes to operational processes and teams.

3. Organisational planning and culture – Large organisations may have enterprise-wide approaches to change and project management. Data science projects may have to dovetail into these approaches which tend to be Waterfall in nature. These can include RAID management (Risks, Assumptions, Issues and Dependencies), programme governance repor-ting and budget tracking.

4. Organisational resource management. Agile is a high-paced, collaborative approach but it depends on commitment from the organisational business subject matters. Highlighting de-pendencies and bottlenecks is key to keeping on track with the project milestones.

Page 27: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

27

AGILE FIRST, PROJECT AWARESo are agile and waterfall friends or enemies? Can they work together and is that a benefit? I believe the answer is a resoun-ding yes. There are massive benefits to data science projects in an iterative, collaborative approach with the clear objective of working solutions delivered early and frequently.

However, data rights, access and use need to be carefully as-sessed and managed. The integration of data science solutions with customer-facing enterprise systems and teams needs to be planned and tested thoroughly. Investment, business cases and value in data science needs to be tracked and communicated.

From my experience, an agile first but project aware approach has generated great outcomes for the business owner and the project.

HOW TO MANAGE THE TWO TOGETHERAgile and Waterfall frenemy good practice:

• The early Agile sprints should include:

• An agreed project vision and scope.

• Development of a ‘lite’ design and architecture to aid planning and highlight ‘big ticket’ dependencies. Flush out key dependencies such as data privacy, data sour-cing, data use, development backlogs and hidden pro-ject costs. The technical ecosystem of a data science project involves many variants and possible customisa-tions – data (both structured and unstructured), software (SAS/SQL/R/Python to name a few), techniques (e.g. su-pervised, unsupervised, reinforcement learning), enter-prise application integration (such as marketing automa-tion, risk decisioning, digital platform).

• A ‘lite’ version of project governance set up including milestones, dependencies, documents and budget trac-king which takes into account the organisation’s project management approaches and contractual commitments.

• Agreement of key use cases or user stories to deliver with the business owner and added into the project backlog.

Page 28: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

28

• Socialising the project approach/playbook including tools, te-chniques early on.

• Highlighting demands on business subject matter experts and likely project schedules.

• During the subsequent sprints, create project ‘air traffic con-trol’ to track milestone, progress, dependency issues and re-source bottlenecks. Check in with the business owner team to ensure their ‘NPS’ is where you want it.

• During the project, demo the working model/solution widely both with the business owners, the downstream users of the solution and integration developers. Feedback is good and will improve the solution. Make the business owner a ‘supers-tar’ as we like to do in Merkle Aquila.

C O M PA R T E E S T E P O S T

Page 29: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

29

EL BIG DATA EN EL MUNDO DEL FÚTBOL

Autor: Víctor BalbínCurioso y viajero. Apasionado del fútbol,

incluso entrenador en el tiempo libre.

APLICADO

Page 30: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

30

En la actualidad, el Big Data está en boca de todos. Además de los beneficios que puede suponer su implementación en empre-sas, se puede aplicar a otros muchos ámbitos. No es la primera vez que hablamos de alguna de sus aplicaciones en este blog –aquí os dejo este post de mi compañera María García–, pero, en este caso, no hablaremos de salud, sino de fútbol.

¿Es posible convertir a un equipo modesto en campeón de liga con ayuda de los datos? Y, por otro lado, ¿se encontrará al próxi-mo Messi a través del Big Data?

Por Big Data entendemos el almacenamiento de gran volumen de datos y, sobre todo, los procedimientos usados a la hora de convertir los datos en información que facilite la toma de de-cisiones. En el mundo del fútbol todo esto puede aplicarse en diferentes factores:

• Rendimiento individual de los futbolistas

• Mercado de fichajes

• Análisis de juego

Este último factor es, sin duda, el que menos desarrollado está hoy en día en el fútbol. Quizás, muchos entrenadores se fían más de sus sensaciones o de su criterio personal que de los números. Por supuesto existen situaciones impredecibles: ¿es posible predecir a un jugador como Messi? La respuesta es “no”; pero sí se puede saber hacia qué lado regatea más o en qué situaciones tira a un lado o a otro.

De esta forma, analizando al equipo en conjunto, se pueden ob-tener datos de efectividad según la zona del campo por la que

Page 31: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

31

se ataque o el modo de juego empleado. Un único partido supo-ne entre 10.000 y 12.000 líneas de código, la clave es conseguir filtrar lo relevante. Si cruzamos estos datos con los del equipo rival, podemos tener una idea de por dónde atacar para crear más peligro (llegando incluso a predecir la cantidad de duelos ganados de un jugador con respecto a otro), en qué zonas hay más probabilidad de ganar los duelos aéreos o dónde presionar al equipo rival para tener más opciones de robar el balón.

¿CÓMO UTILIZAR LOS DATOS PARA GA-NAR UN PARTIDO?Existe un aspecto del juego en el que el uso de datos está muy extendido desde hace años y hay constancia de casos en los que ha tenido gran relevancia. Estamos hablando del estudio de los penaltis basados en datos. A la hora de preparar una gran cita, como puede ser un Mundial, todos los equipos tienen una base de datos con los posibles tiradores y estadísticas de sus lanzamientos.

En España, todos los amantes del fútbol recordamos los cuartos de final del mundial de Sudáfrica ante Paraguay. Iker Casillas siempre ha defendido que no es muy amigo de los datos, sino que se basa más en su intuición personal. Sin embargo, Pepe Reina había hecho los deberes ese día y sabía hacia dónde solía tirar Cardozo los penaltis en los momentos de tensión. Hay que añadir que, además, esa temporada ambos jugadores se habían cruzado en dos encuentros en Champions League y Cardozo le había lanzado dos penaltis a Reina por el mismo lado. Gracias a ambas cosas, en aquellos cuartos de final Reina aconsejó a Casi-llas tirarse hacia su izquierda y el resultado todos lo conocemos.

Page 32: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

32

Tal y como dice Ted Knutson, co-fundador de StatsBomb: “La cantidad de dinero invertida en fichajes es bestial. Adelantarse a un mal fichaje y pararlo, pagará al equipo de análisis durante años”.

En este apartado, son muchos los clubes que contratan empre-sas especializadas con el fin de conseguir asesoramiento a la hora de acometer un fichaje. Salvador Carmona, analista de Ori-gami Sports, maneja una base de datos con 12.500 jugadores de las principales ligas del mundo y hace poco, contaba uno de los casos que mejor explica cómo se puede utilizar el Big Data a la hora de buscar sustituto a un jugador.

Hace dos años, Nolito, por aquel entonces jugador del Celta de Vigo, fue pretendido por el Barcelona en el mercado de invier-no. Esto hizo que el conjunto vigués buscase un sustituto ante su más que posible salida. La mejor alternativa que llegó a las oficinas del club fue la de Sofiane Boufal, en ese momento un joven desconocido del Lille francés. Según los datos que tenían, los dos jugadores poseían unas características similares y fijaron el precio de su incorporación en unos cuatro millones de euros. Finalmente, Nolito no llegó a marcharse en ese mercado de in-vierno y Bouffal terminó en el siguiente mercado de fichajes en el Southampton por 19 millones de euros.

¿Cómo se llegó a la conclusión de que Bouffal era la mejor al-ternativa para sustituir a Nolito? Sencillo. Se miden parámetros descriptivos del jugador (como pueden ser goles, asistencias, robos, etc.), se establecen modelos predictivos y, por último, se comparan los datos del jugador con otros similares.

Lógicamente, no todo es predecible, por lo que no siempre se obtienen los resultados esperados. Existen factores que no pue-den transformarse en números y que alteran el rendimiento de cualquier futbolista.

Por último, existe otra aplicación del Big Data en el mundo del fútbol que es, probablemente, la más utilizada hoy en día en las grandes ligas. Se basa en medir el rendimiento individual de los futbolistas con el objetivo de saber cuándo existe riesgo de le-sión o cuándo se encuentran en su mejor momento.

Page 33: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

33

El mejor ejemplo posible es el Leicester City FC, equipo modesto que logró el ascenso a la Premier League inglesa en la tempora-da 2013-2014 y que, tan solo dos años después, se proclamaba campeón de Liga.

¿Cómo contribuyó el Big Data a esta hazaña histórica? Por aquel entonces, el club ya llevaba 10 temporadas utilizando este tipo de datos para mejorar el rendimiento de sus futbolistas. Aquella temporada, el Leicester City fue el equipo con menos lesiones y su entrenador repitió la misma alineación hasta 12 veces a lo largo de la temporada. Solamente utilizó 23 jugadores durante la temporada, 10 menos que el Manchester United.

El buen uso de los datos fue clave para mantener la forma de los jugadores y evaluar el riesgo de lesión que existía en cada momento.

CONCLUSIÓNEl mundo del fútbol es impredecible y lo seguirá siendo. Segui-rán existiendo fallos clamorosos de los delanteros, remontadas épicas, goles en el último minuto o errores garrafales de los por-teros. Lo que también está claro, es que el buen uso de los da-tos puede reducir riesgos y ayudar en la toma de decisiones.

*Fuente de las imágenes: news.sap.com, rtve.es, marca.com

C O M PA R T E E S T E P O S T

Page 34: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

34

CÓMO EL BIG DATA PUEDE DECIDIR LAS

ELECCIONES DE EEUUAutor: Héctor Camblor

Digital Intelligence Consultant. Ayudando a las personas a vivir en digital. Amante de los viajes y el deporte.

APLICADO

Page 35: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

35

Hace unos cuatro años, Barack Obama ganaba las elecciones presidenciales de EEUU con una diferencia de casi cuatro pun-tos sobre el republicano Mitt Romney, pese a la igualdad que anticipaban los sondeos. De esta forma, reeditaba su manda-to, convirtiéndose en el primer presidente demócrata en lograr la reelección con la mayoría del voto popular desde Franklin D. Roosevelt en 1944. Lo que quizás no sepáis es que parte de esa victoria fue fruto del uso del Big Data. Una tecnología de la que apenas se había oído hablar se convertía en uno de los elemen-tos más decisivos a la hora de conseguir un triunfo electoral.

¿CÓMO LO LOGRÓ OBAMA?La decisión de utilizar el Big Data la tomó el manager de campa-ña, Jim Messina, que entendía que la clave del éxito era realizar una campaña basada en datos (data-driven). Su idea se pue-de deducir de sus palabras: “We were going to demand data on everything, we were going to measure everything… we were going to put an analytics team inside of us to study us the en-tire time to make sure we were being smart about things”. En resumen, su intención era medirlo todo y tomar las decisiones basándose en esos datos.

Para ello, Messina construyó un equipo de analistas dedicados únicamente a recoger e interpretar el dato. Para analizarlo esco-gieron una base de datos HP Vertica MPP y modelos predictivos con R y Stata. Para recoger el dato se valieron de acciones offli-ne, como fueron millones de encuestas telefónicas realizadas en varios formatos, campañas puerta a puerta y acciones online. Todo ello se medía y se enviaba a Vertica en un proceso de retro-alimentación constante. Finalmente, consiguieron lo siguiente:

• Mejorar la propuesta: tomando como base las opiniones de la gente, modificaron su discurso.

• Segmentar a los votantes: conocer a los votantes y conven-cerles de la manera más adecuada. Por ejemplo, anuncián-dose en las pausas de The Walking Dead o en páginas de Reddit, porque ahí estaban los votantes indecisos. También se lanzaron campañas web y social a los targets adecuados.

• Reducir los costes: a través de campañas personalizadas, pudieron gastar sus recursos en las personas que realmente estaban indecisas, no en los votantes ya convencidos.

Page 36: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

36

Finalmente, el resultado ya conocido: el 6 de noviembre de 2012, Obama salía reelegido como presidente de los Estados Unidos.

ELECCIONES 2016: HILLARY VS TRUMPEn 2016, las cuatro fuerzas políticas parece que están siguien-do el modelo que sentó el equipo de Obama. Ahora, cualquier evento o declaración se propaga a todo el mundo en cuestión de segundos, pero también está previsto que ocurra. Ahora, el flujo de datos es mucho mayor debido al mayor número de po-blación, pero también debido a razones como una mayor implan-tación de los dispositivos móviles. Ahora todo se mide y analiza.

Las encuestas, a día de hoy, reflejan un empate técnico entre Re-publicanos y Demócratas. Sin embargo, los directores de cam-paña ya no se basan en las encuestas públicas, pues las consi-deran demasiado cambiantes. Es más, ahora incluso no confían en las encuestas telefónicas, ya que son conscientes de que los millennials no están contestando al teléfono o, ni siquiera, dispo-nen de teléfono fijo. En su lugar se basan en el dato para tomar las decisiones, y recopilándolo afirman tener 400 dimensiones de media por votante.

El resultado de todo esto es que, ahora mismo, el puerta a puerta solo se hace con los votantes menos convencidos o indecisos, las campañas online y offline van enfocadas al target deseado y son altamente personalizadas y los candidatos cada vez in-teractúan más con la población a través de las redes sociales. El resultado de todo esto será el futuro presidente de Estados Unidos.

Ahora bien, una vez conocido cómo se está usando el Big Data para crear campañas capaces de convencer a la audiencia ade-cuada minimizando costes, ¿qué puede evitar que lo hagas tú con tu negocio?

*Fuente imagen destacada: Telegraph

C O M PA R T E E S T E P O S T

Page 37: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

37

YOUR CHOICE IN MUSIC OR DATA

ANALYTICS DECIDING?

Autora: Eleni KotzampasakiAnalytics Manager at Merkle | Aquila

APLICADO

Page 38: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

38

In the movie Walk The Line, there’s a memorable scene where a producer says to the country music legend Johnny Cash ‘you only have one chance to make your song mean something to the people’. The music industry relied on producers who earned a reputation for ‘golden ears’, an ability to predict a song’s success. If the producer had any concerns, the songs of Cash would never have made it onto a record.

ALL ABOUT THE CHARTSForty years ago record labels would hold focus groups to deci-de which tracks to release as CDs, and the official charts were compiled by calling a few stores to ask how many units had been sold.

Today we have data streaming services such as Spotify, Apple Music and Sound Cloud. We’ve moved from the subjective opi-nion of a single person – a producer or talent scout – to reducing songs to mathematical properties and the use of data analytics to spot hits and recommend music.

THE GREAT LEAP TO DIGITAL MUSICThe rise of digital music and the internet offers new ways of sharing music and introduces a trillion data points used to learn about how we listen to music. This data wasn’t available in the days of record stores when companies would only know how many CDs were being sold. They wouldn’t know if you went home and actually listened to the CD, or that you played track six over and over again.

Now on-demand data streaming services keep track of what we listen to and when, how many times, and what songs we heard before. Then can identify a pattern and use data analytics as the foundation for predicting the songs you’ll listen to next. Algori-thms generate the customised playlists you get when using any of these services.

Page 39: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

39

MUCH MORE THAN DATA POINTSMusic from a data analyst’s view is mathematical patterns. Data points can describe every song. But there’s a human element too. The experience songs create matters, and our choice of mu-sic reflects our personality.

For me, music is a companion, the safe place to go to when stres-sed or to relax. Each of us has a personal relationship with music, and we like to think that our choice reflects our personality.

IS IT MY TASTE IN MUSIC?It feels scary to think a streaming service can accurately predict what it is you like. Is it my taste in music or Spotify’s?

The reality is, data streaming services can handle such large data flows that we can’t hope to compete with their algorithms. Spotify can identify what kind of music we like faster than we can. With machine learning, the algorithms are improving all the time, by learning from their mistakes. Most people like this.

A SENSE OF DISCOVERYBut is this limiting what we enjoy hearing? If the data analytics are based on what we enjoyed in the past, will we only be presented with more of the same? In the future, will we discover new music and bands by chance – or be happy to be told by an algorithm?

C O M PA R T E E S T E P O S T

Page 40: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

40

MACHINE LEARNING Y SUPPORT VECTOR

MACHINES: PORQUE EL TIEMPO ES DINERO

Autora: Jana ÁlvarezData Engineer en DIVISADERO. Pasito a pasito

caminando por la vida... Hit a hit conociendo el dato.

TÉCNICO

Page 41: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

41

Hace ya algún tiempo, encontré una frase que merece la pena compartir:

“Las redes neuronales son la segunda mejor forma de hacer cualquier cosa”

John Denker

Si su autor me lo permite, me gustaría modificarla y extenderla no solo a redes neuronales, sino a machine learning de forma genérica. La mejor forma de resolver un problema es disponer de una gran cantidad de información al respecto (con la conse-cuente inversión de tiempo para su análisis y solución). Por tan-to, es lógico pensar que la segunda mejor opción sea aprender de la experiencia, y, a pesar de que pueda existir cierta posibili-dad de error en la solución, este se compense con el ahorro de tiempo conseguido. El tiempo apremia, y no siempre podemos permitirnos la mejor solución.

En el mundo digital publicitario nos encontramos con multitud de situaciones que nos gustaría predecir: ¿cuántas visualizacio-nes tendrá mi anuncio?, ¿qué tipo de usuario hará clic en este banner?, ¿cuánto dinero he de invertir?, etc. Estas preguntas de-penden de multitud de circunstancias o variables, que si conse-guimos modelar nos permitirán responder a cuestiones similares en el futuro.

En este ámbito, los algoritmos de machine learning están vivien-do su auge en los últimos años. Hace poco vimos cómo el mismo Google presentó su Prediction API. Pero, ¿cómo funciona inter-namente? Evidentemente, descubrir los secretos de Google no es sencillo, pero en este post nos introduciremos en las bases de machine learning, de la mano de uno de los métodos más exitosos hasta el momento: las Máquinas de Vectores Soporte (Support Vector Machines), hermanas mayores de las ya conoci-das redes neuronales.

¿QUÉ SON LAS SVM?Las Máquinas de Vectores Soporte (creadas por Vladimir Vapnik) constituyen un método basado en aprendizaje para la resolución de problemas de clasificación y regresión. En ambos casos, esta resolución se basa en una primera fase de entrenamiento (don-

Page 42: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

42

de se les informa con múltiples ejemplos ya resueltos, en forma de pares –problema, solución–) y una segunda fase de uso para la resolución de problemas. En ella, las SVM se convierten en una “caja negra” que proporciona una respuesta (salida) a un problema dado (entrada).

¿PARA QUÉ PODEMOS USAR LAS SVM?Los conceptos fundamentales son modelado y predicción en dos vertientes: clasificación y regresión.

ClasificaciónImaginemos que buscamos encontrar qué tipo de usuario tie-ne más probabilidad de hacer clic en un determinado banner. Está claro que esta decisión implica varias variables a tener en cuenta: no solo de las características del propio usuario, sino también podremos considerar su región geográfica, la tecnolo-gía empleada, día/hora en que se encuentra con el banner, etc. Si solo dos de estas variables fueran determinantes, podríamos encontrarnos en una situación similar a la de la imagen, donde el círculo negro identifica que el usuario hace clic, y el blanco que no. Con SVM podemos obtener la “superficie óptima” que delimitará el comportamiento clic – noclic de un usuario:

Page 43: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

43

Digo “superficie” porque en un problema bidimensional como el anterior, esta superficie será una recta, si hubiera tres dimensio-nes sería un plano y, en el caso N-dimensional… un hiperplano de la dimensión correspondiente. Y digo “óptimo”, ya que esta superficie minimiza el posible error de clasificación, maximizan-do los márgenes entre cada elemento y el hiperplano obtenido (si buscáis la demostración matemática de esta afirmación, el enlace anterior de Vladimir Vapnik es la respuesta).

¿Y si el problema no es lineal?

No hay problema. SVM permite utilizar las llamadas funciones Kernel (no lineales). Estas funciones resuelven el problema de clasificación trasladando los datos a un espacio donde el hiper-plano solución es lineal y, por tanto, más sencillo de obtener. Una vez conseguido, la solución se transforma, de nuevo, al es-pacio original:

Así, con una serie de datos de prueba tendremos caracterizada nuestra clasificación, es decir, nuestra SVM ha sido entrenada. Y tras este entrenamiento, conseguimos un modelo en base al que podremos clasificar cualquier otro caso existente en el fu-turo.

RegresiónEn el problema previo de clasificación, la solución es categórica, es decir, pasa por determinar una etiqueta para clasificar un ele-mento de una u otra forma.

¿Y si queremos una solución numérica? Por ejemplo, si quere-mos determinar qué probabilidad hay de que un usuario vuelva a tu sitio, si queremos predecir el número de clics en el futuro, o

Page 44: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

44

qué cantidad de impresiones de un anuncio tendremos. En este caso estamos en un problema de regresión.

Siguiendo los mismos principios que para el caso anterior, la re-gresión se basa en buscar la curva que modele la tendencia de los datos y, según ella, predecir cualquier otro dato en el futuro.

Por ejemplo, si disponemos de un caso sencillo como el siguien-te, donde la probabilidad de hacer clic en un determinado anun-cio dependiera únicamente de la edad del usuario, podremos definir (siempre minimizando el error, como las SVM garantizan) una línea de tendencia:

De forma que podamos encontrar la respuesta (en este ejemplo, la probabilidad) para un nuevo caso:

En problemas no lineales siempre será posible utilizar una fun-ción tipo kernel que, tras resolver el problema en un espacio

Page 45: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

45

donde el mismo sea lineal, obtenga la curva que modele los da-tos:

¿ASÍ DE FÁCIL?Ya hemos visto los conceptos principales pero, evidentemente, la resolución de un problema con SVM maneja dificultad, tenien-do en cuenta los siguientes aspectos:

• ¿Qué queremos medir? En función de ello, sabremos si de-bemos resolver un problema de clasificación o regresión.

• ¿Qué variables tenemos que considerar? Según esto, la di-mensionalidad del problema varía. Por ejemplo, podríamos tener en cuenta: día, hora, fecha, web/app, localización del usuario (ciudad, país, etc.), tipo de dispositivo, navegador, etc., a más variables, mayor complejidad del algoritmo.

• ¿El problema es lineal? ¿Necesito kernel? Dependiendo de las variables consideradas, estaremos en uno u otro caso que debemos analizar. La respuesta a estas preguntas ne-cesitaría un proceso de prueba y error hasta encontrar un kernel que satisfaga nuestras necesidades.

Es cierto que el método es complejo, pero también interesantes las soluciones que podremos conseguir con él, ¿verdad?

*Fuente de la imagen principal: Unsplash

C O M PA R T E E S T E P O S T

Page 46: ADVANCED ANALYTICS - Transformación Digital y Analítica Web | … · 2018. 10. 1. · • Analítica predictiva: el estudio de la serie histórica de valores de los principales

BIG DATA DISCOVERY | ADVANCED ANALYTICS

46

Desde Merkle DIVISADERO ayudamos a transformar a nuestros clientes en organizaciones más eficientes y competitivas mediante el aprovechamiento de los datos, digitales y no digitales. Generamos una rela-ción eficaz entre los objetivos de negocio, los equi-pos y las herramientas a través del aprovechamiento del dato. Somos una de las Boutiques de Inteligencia y Transformación Digital más importantes de Euro-pa y referente mundial en People-Based Marketing.

La base del liderazgo de Merkle lo forman las per-sonas. Ingenieros, analistas y estrategas. Profesio-nales con conocimientos avanzados de NEGOCIO y TECNOLOGÍA que han sabido combinar su pa-sión y sus habilidades al servicio de la definición y ejecución de estrategias basadas en datos, la tec-nología aplicada al negocio, la mejora de la expe-riencia cliente, la analítica, CRM, loyalty así como optimización de digital paid media & advertising.

www.divisadero.es @divisadero