Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... ·...
Transcript of Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... ·...
![Page 1: Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... · Cumbre global I-COM 2016 Consorcio comercial enfocado en el uso de datos y medidas](https://reader036.fdocuments.in/reader036/viewer/2022081607/5f01c7f47e708231d401007b/html5/thumbnails/1.jpg)
Ganando la I-COMData-Science Hackathon 2016
L.F. Chiroque, R. Cuevas, J.M. Carrascosa, C. Iordanou
Grupo de Usuarios de R de Madrid Madrid, 10 noviembre 2016
![Page 2: Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... · Cumbre global I-COM 2016 Consorcio comercial enfocado en el uso de datos y medidas](https://reader036.fdocuments.in/reader036/viewer/2022081607/5f01c7f47e708231d401007b/html5/thumbnails/2.jpg)
Cumbre global I-COM 2016Consorcio comercial enfocado en el uso de datos y medidas de marketing para la obtención de ventajas de negocio.
Lugar de encuentro (Sevilla 2016) para alrededor de 100 asociaciones en 40 países representando a comerciales, agencias y medios de comunicación.
2ª edición de la I-COM Data Science Hackathon (Madrid)
![Page 3: Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... · Cumbre global I-COM 2016 Consorcio comercial enfocado en el uso de datos y medidas](https://reader036.fdocuments.in/reader036/viewer/2022081607/5f01c7f47e708231d401007b/html5/thumbnails/3.jpg)
La competiciónDos categorías: Scientist & Master Levels
Participantes (14 equipos):
Reto personal: pulso academia vs. industria
![Page 4: Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... · Cumbre global I-COM 2016 Consorcio comercial enfocado en el uso de datos y medidas](https://reader036.fdocuments.in/reader036/viewer/2022081607/5f01c7f47e708231d401007b/html5/thumbnails/4.jpg)
El equipo UC3M
COSTASJUANMI
LUISFO
RUBÉN
![Page 5: Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... · Cumbre global I-COM 2016 Consorcio comercial enfocado en el uso de datos y medidas](https://reader036.fdocuments.in/reader036/viewer/2022081607/5f01c7f47e708231d401007b/html5/thumbnails/5.jpg)
El RetoEn 24 horas, los equipos participantes tienen que ser capaces de predecir tendencias, dado con un conjunto de datos de un año.
Caso de uso: tendencias de ‘hair care’ (cuidado capilar)
Datos de entrada Dispusimos de una muestra de datos del 2013 (~10 días antes) JSON objects
tweet | id | user info | timestamp | device info | hashtags | FAV count | RT count | gnip/klout info | language | …
~3 M tweets desde ene. a dic. del 2015 conteniendo la palabra clave ‘hair’
Predecir: #tweets / hashtag durante Q1-2016 [ log(#tweets + 1) ] Sólo se consideran hashtags con >= 9 tweets durante Q4-2015 (~11K hashtags)
![Page 6: Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... · Cumbre global I-COM 2016 Consorcio comercial enfocado en el uso de datos y medidas](https://reader036.fdocuments.in/reader036/viewer/2022081607/5f01c7f47e708231d401007b/html5/thumbnails/6.jpg)
El Reto (cont.)Evaluación
Cuantitativo - 50% Coeficiente de correlación de Pearson
Qualitativo - 50% Valor de negocio, narración y arte & tecnología
Dos rondas Ronda 1: Dos finalistas por categoría Ronda 2: Presentación durante la cumbre global I-COM (Sevilla)
Bonus: Premio del público I-COM
![Page 7: Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... · Cumbre global I-COM 2016 Consorcio comercial enfocado en el uso de datos y medidas](https://reader036.fdocuments.in/reader036/viewer/2022081607/5f01c7f47e708231d401007b/html5/thumbnails/7.jpg)
La HackathonEl resumen
PROGRESO
TIEMPOSTART
11 PM10 AM 8 AM 10 AM
END
![Page 8: Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... · Cumbre global I-COM 2016 Consorcio comercial enfocado en el uso de datos y medidas](https://reader036.fdocuments.in/reader036/viewer/2022081607/5f01c7f47e708231d401007b/html5/thumbnails/8.jpg)
La HackathonConsideraciones
Evaluación: coef. de correlación en la estimación #tweets/hashtag Método supervisado: usamos Q4-2015 como 'solución' (ground truth)
Sólo consideramos hashtags con >= 5 #tweets durante Q3-2015
División aleatoria 70% entrenamiento - 30% test Modelos
Modelos de series temporals
Modelos de regresión
Machine Learning
![Page 9: Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... · Cumbre global I-COM 2016 Consorcio comercial enfocado en el uso de datos y medidas](https://reader036.fdocuments.in/reader036/viewer/2022081607/5f01c7f47e708231d401007b/html5/thumbnails/9.jpg)
La HackathonEl proceso
RAW DATA FEATURE EXTRACTION
TRAINING SETSMODELO DE REGRESIÓN
PREPARACIÓN DE DATOS ALGORITMO
GRANULARIDAD
SEMANALMENSUAL
TRIMESTRAL
24 FEATURES
#TWEETS#FOLLOWERS#RETWEETS
USER FEATURES
![Page 10: Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... · Cumbre global I-COM 2016 Consorcio comercial enfocado en el uso de datos y medidas](https://reader036.fdocuments.in/reader036/viewer/2022081607/5f01c7f47e708231d401007b/html5/thumbnails/10.jpg)
La HackathonResultados preliminares
PREDICCIÓN DE #TWEETS POR HASHTAG Q4-2015 (MÉTRICA: CORRELACIÓN DE PEARSON
PREDICCIÓN BASADA EN INFORMACIÓN TRIMESTRAL
AGREGADA
PREDICCIÓN BASADA EN INFORMACIÓN MENSUAL
AGREGADA
![Page 11: Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... · Cumbre global I-COM 2016 Consorcio comercial enfocado en el uso de datos y medidas](https://reader036.fdocuments.in/reader036/viewer/2022081607/5f01c7f47e708231d401007b/html5/thumbnails/11.jpg)
La HackathonModelo elegido
Modelo lineal generalizado PCA —> 12 componentes & Análisis factorial #TW_Q4 ~ #TW_Q3 + #TW_Q2 + #TW_Q1 + #TW_sep + #TW_ago Coeficiente de correlación con el conjunto de test ~0.77
Modelo del error
ERROR DE PREDICCIÓN
NÚM. DE TWEETSPOR HASHTAG
PEARSON CORR ~ -0.8
![Page 12: Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... · Cumbre global I-COM 2016 Consorcio comercial enfocado en el uso de datos y medidas](https://reader036.fdocuments.in/reader036/viewer/2022081607/5f01c7f47e708231d401007b/html5/thumbnails/12.jpg)
Resultados de la HackathonCoeficiente de correlación: 0.81
1er resultado de nuestra categoría y 2º general
Equipo UC3M
![Page 13: Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... · Cumbre global I-COM 2016 Consorcio comercial enfocado en el uso de datos y medidas](https://reader036.fdocuments.in/reader036/viewer/2022081607/5f01c7f47e708231d401007b/html5/thumbnails/13.jpg)
La aplicación de negocioPara Unilever
TOP HASHTAGSTENDENCIAS Q1-2016
≈?
PALABRAS CLAVE RELACIONADAS CON 'PELO’ DE INTERÉS PARA
UNILEVER
TOP HASHTAGSTENDENCIAS
RELACIONADAS CUIDADO CAPILAR
Q1-2016
SIMILARIDAD SEMANTICA
![Page 14: Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... · Cumbre global I-COM 2016 Consorcio comercial enfocado en el uso de datos y medidas](https://reader036.fdocuments.in/reader036/viewer/2022081607/5f01c7f47e708231d401007b/html5/thumbnails/14.jpg)
La aplicación de negocioParticipación (engagement)
medir la cuota de 'voz’ y hashtags de la competencia amplificar contenidos de tendencias clave con participación social y ofertas en tiempo real crear contenidos, encuentas, and tweets de pago acerca de hashtags tendencia
Divulgación (sharing) amplificar tendencias clave y actividad de usuarios clave focalizar la participación en 'conversaciones’ más relevantes con gran potencial de impacto
![Page 15: Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... · Cumbre global I-COM 2016 Consorcio comercial enfocado en el uso de datos y medidas](https://reader036.fdocuments.in/reader036/viewer/2022081607/5f01c7f47e708231d401007b/html5/thumbnails/15.jpg)
La aplicación de negocio
PARTICIPACIÓN DIVULGACIÓN
![Page 16: Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... · Cumbre global I-COM 2016 Consorcio comercial enfocado en el uso de datos y medidas](https://reader036.fdocuments.in/reader036/viewer/2022081607/5f01c7f47e708231d401007b/html5/thumbnails/16.jpg)
La Final
+ Premio del público
![Page 18: Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... · Cumbre global I-COM 2016 Consorcio comercial enfocado en el uso de datos y medidas](https://reader036.fdocuments.in/reader036/viewer/2022081607/5f01c7f47e708231d401007b/html5/thumbnails/18.jpg)
GRACIAS
![Page 19: Ganando la I-COM Data-Science Hackathon 2016madrid.r-es.org/wp-content/uploads/2016/10/meetup... · Cumbre global I-COM 2016 Consorcio comercial enfocado en el uso de datos y medidas](https://reader036.fdocuments.in/reader036/viewer/2022081607/5f01c7f47e708231d401007b/html5/thumbnails/19.jpg)
Ganando la I-COMData-Science Hackathon 2016
L.F. Chiroque, R. Cuevas, J.M. Carrascosa, C. Iordanou
Grupo de Usuarios de R de Madrid Madrid, 10 noviembre 2016