La práctica de Machine Learning en la empresa
-
Upload
emilio-osorio-garcia -
Category
Data & Analytics
-
view
211 -
download
4
description
Transcript of La práctica de Machine Learning en la empresa
La práctica de Machine Learning en la Empresa
Emilio Osorio García
Chief Technology Officer Predictive Technologies
Dr. Manuel Reyez Gomez
Chief Data Scientist Predictive Technologies [email protected]
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
¿Qué imaginábamos hace 30 años?
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
El presente...
* Traducción Liberal
“Las mejores mentes de mi generación están pensando en como hacer que la gente haga
click en un anuncio. Eso no esta chido”*
-Jeff Hammerback Cofundador de Cloudera
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
¿Donde estaremos en 30 años?
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
El estado del arte
• No existen soluciones que
sean “llave en mano”
• Los datos estructurados
crecen exponencialmente
• Se requiere investigación
de los problemas
específicos de negocio
• Baja utilización de los
sistemas analíticos
existentes
• Lidiar con el cambio
constante en los datos
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
¿Qué es “Machine Learning”?
• Es una rama de la Inteligencia artificial
• Aprender de los datos
• Descubrir, codificar y modelar patrones
encontrados en los datos (historicos) que
después permitan estimar variables
desconocidas, mediante el uso del contexto
• Representación de los datos (Arte)
• Modelo probabilístico • Genéricos: Neural Networks, SVMs, Decision Trees, etc
• A la medida usando la infraestructura de modelos
gráficos “Graphical Models Framework”
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Detección de fuentes de sonido
F
R
E
C
U
E
N
C
I
A
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Prediciendo usando el contexto
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Usando el modelo para hallar anomalías
Puntos donde los datos no siguen el modelo
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Bing Local
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Bing Local
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Bing Local
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Recomendación de Películas
? ? ? ?
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Caracterización de Variables
Es Romántica : (0,1)
Es infantil: [0,1]
Es animada: (0,1)
Tiene director famoso: (0,1)
Tiene actores famosos: (0,1)
Grado de violencia: (0,1,2,3,4,5)
Edad promedio de actores: (Continua)
Año de publicación: (Discreta)
…..
…..
…..
x0
x1
x2
x3
x4
x5
x6
x7
.
.
.
Clasificación : (0,1,2,3,4,5) y
X
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Estimación del modelo
X1 = [0, 1, 0, 1, 0, 3, 23.6, 1981]; y1 = 3
X2 = [1, 1, 0, 1, 1, 4, 43.3, 2013]; y2 = 5
X3 = [0, 1, 1, 1, 1, 5, 14.4, 1999]; y3 = 2
X4 = [1, 1, 1, 1, 0, 4, 35.3, 1954]; y4 = 3
X5 = [0, 1, 0, 1, 0, 3, 23.6, 2001]; y5 = 3
X6 = [0, 1, 0, 1, 0, 3, 23.6, 2001]; y6 = 1
….
f(W,X) = y’
w0+w1x1+w2x2+w3x3+…= y’
Estimar el modelo consiste
en estimar W usando los
valores de los ejemplos Xi,
yi de tal manera que
minimice:
(𝑦′𝑖 − 𝑦𝑖)2=
𝑁
𝑖=1
(𝑓(𝑊,𝑋𝑖) − 𝑦𝑖)2
𝑁
𝑖=1
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
En producción
• Para nuevos elementos y sus representaciones X, se estima sus y’ usando el modelo estimado
?
x0
x1
x2
x3
x4
x5
x6
x7
.
.
.
X
w0+w1x1+w2x2+w3x3+…= y’
y’ =
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Otras soluciones
• Estimación de riesgo crediticio
• Estimación optima de abasto de suministros
• Estimación de probabilidad de perdida del cliente
• Estimación optima de cantidades de mercancía por tipo y locación (datos no estructurados)
• Selección automática de mejores candidatos para puestos disponibles
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
No se necesita descubrir el hilo negro
• Modelos genéricos accesibles en el mercado • Lineal Regression
• Neural Networks
• Logistic Regression
• Support Vector Machines
• Decision Trees
• Software Libre
– R Studio
– Mahout
– Weka
– MLib
• Software Licenciado – Oracle Data Mining
– SAS Advance Analytics
– IBM Predictive Analytics
– Matlab
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
60% Arte – 40% Ciencia
• Representación (Arte) • Representación que generalice correctamente
• Representación que induzca transferencia
• Limpieza de datos
• Normalización de valores
• Ajustar representación a las limitaciones del modelo • Fecha de Publicación: Decision Tree-> Continua
• Logistic Regression: discretizada binaria. [1985-1990]
• Ciencia • Selección o diseño del modelo
• Prevención de “overfitting”
• Regularización de parámetros
• Análisis de errores (experto de dominio)
• Estar consciente de las limitaciones del modelo
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Modelos genéricos vs. a la medida
• Modelos genéricos
• Modelos a la medida
Información
del
sistema Modelo
Información del sistema se debe transformar/adaptar al modelo
Información
del
sistema Modelo
Modelo
Modelo se diseña dada la Información del sistema
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Modelos genéricos vs. a la medida
• Modelos genéricos • Pros
• Sus propiedades y características han sido ampliamente estudiadas
• Muchas implementaciones optimas disponibles
• Fáciles de entrenar y probar
• Cons • La información del sistema requiere de un proceso adecuado de los
valores en sus variables para ajustarlas a las predisposiciones y limitaciones de cada modelo
• Tienen Limitaciones, al ser genéricos no son los suficientemente ricos para modelar sistemas complejos
• No son apropiadas para problemas con mas de una variable de salida que interactúan entre si
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Modelos genéricos vs. a la medida
• Modelos a la medida • Pros
• Como se diseñan para modelar el sistema sin las limitaciones de los modelos genéricos tienen mejor desempeño
• Se pueden patentar
• Dan ventajas competitivas
• Apropiados para sistemas donde se requiere estimar varias variables de salida que interactúan entre si. (Predicción de Trafico)
• Cons • Requieren diseño especializado por lo tanto las soluciones son mas
caras que cuando usando modelos genéricos
• Soluciones
• Soluciones basadas en modelos a la medida requieren mas testeo que las basadas en modelos genéricos
• Soluciones requieren mas tiempo de implementación
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Pasos para implementar en relación al data scientist
• Fase 1 • Análisis de factibilidad en datos históricos disponibles.
Determinar si se tienen suficientes y diversos datos que cubran las diferentes condiciones del sistema
• Fase 2 con modelos genéricos • Diseño e implementación de la representación de variables • Selección del modelo • Estimación del modelo (con regularización y “tunning” para
evitar “overfitting”) • Análisis de errores • Recalibración del modelo
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Machine Learning como Práctica
• En esencia es
investigación y
desarrollo
• El reto es como crear
una práctica que tenga
resultados de negocio
• ¿Como operacionalizar
la inteligencia artificial?
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Las fases de la metodología CRISP-DM
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Lean Machine Learning
• Eliminar el derroche • Construir con Calidad
Incluida • Respetar a las Personas • Crear conocimiento • Diferir los compromisos • Entregar Rápido • Optimizar el Todo
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Los roles de equipo en Machine Learning
• Business Product Owner • Business Domain Expert • Data Scientist • Data Analyst • Machine Learning
Engineer • Data Engineer
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Nuevas habilidades requeridas
• Formulación correcta de problemas • Cultura de Prototipaje • Intuición para tomar realizar asunciones a
problemas no muy bien definidos • Diseñar experimentos para probar hipótesis • Analizar resultados y plantear mejoras
continuamente
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Tecnología: Software Libre para aprender
Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]
Tecnología: Proveedores para escalar
Preguntas y Respuestas
Emilio Osorio García
Chief Technology Officer Predictive Technologies
Dr. Manuel Reyez Gomez
Chief Data Scientist Predictive Technologies [email protected]