Modelos Lineales de Regresión

138
Modelos Lineales de Regresión

Transcript of Modelos Lineales de Regresión

Page 1: Modelos Lineales de Regresión

Modelos Lineales de Regresión

Page 2: Modelos Lineales de Regresión

Agenda

• Introducción• Descenso de gradiente

• Función de costes y minimización• Implementación

• Evaluación de Modelos de Regresión• Regularización

2Copyright © 2018. Data Science Dojo

Page 3: Modelos Lineales de Regresión

INTRODUCCIÓN

Copyright © 2018. Data Science Dojo3

Page 4: Modelos Lineales de Regresión

Regresión

Predice la duración de la estancia de los pacientes

en el hospital

4Copyright © 2018. Data Science Dojo

Predice el coste del tratamiento

Predice la cantidad de personal que se necesita

en un día concreto

Page 5: Modelos Lineales de Regresión

Apunte: Conjunto de Datos de Cáncer de Pecho

5: El paciente está en la 5ª columna1: El diagnóstico del paciente está en la 1ª columna

𝑥𝑥15

5Copyright © 2018. Data Science Dojo

123456

Page 6: Modelos Lineales de Regresión

Apunte: Conjunto de Datos de Cáncer de Pecho

¿Cómo describimos todas las filas?

𝑥𝑥1 = [17.99, 10.38, 122.80]𝑥𝑥2 = [20.57, 17.77, 132.90]𝑥𝑥3 = [19.69, 21.25, 130.00]

Fila 1Fila 2

Fila 3

6Copyright © 2018. Data Science Dojo

Page 7: Modelos Lineales de Regresión

El conjunto de datos de cáncer de pecho anota las propiedades físicas de un tumor y su diagnóstico

Usando esta notación, podemos describir todas las columnas del conjunto datos.

Apunte: Conjunto de Datos de Cáncer de Pecho

𝑥𝑥1 𝑥𝑥2 𝑥𝑥3

𝑋𝑋𝑌𝑌

7Copyright © 2018. Data Science Dojo

Page 8: Modelos Lineales de Regresión

Resumen de notación

𝑥𝑥𝑖𝑖– Cada fila de características𝑥𝑥𝑗𝑗 – Cada columna de característicasX – Conjunto de todas las columnasde características𝑦𝑦𝑖𝑖 – Cada fila del objetivoY – La columna del objetivon – Número de filas en el conjunto de datosm – Número de columnas en el conjunto de datos

Características

Objetivo

8Copyright © 2018. Data Science Dojo

Page 9: Modelos Lineales de Regresión

FUNCIÓN DE COSTES Y DESCENSO DE GRADIENTE

Copyright © 2018. Data Science Dojo9

Page 10: Modelos Lineales de Regresión

¿Qué es una buena línea de regresión?

• Velocidad del viento=15 mph • Ozono = ?• Emplear la línea que está en algún lugar del medio

• ¿Cómo definimos el “medio”?

ℎ𝜃𝜃 𝑥𝑥 = 𝜃𝜃0 + 𝜃𝜃1𝑥𝑥

10Copyright © 2018. Data Science Dojo

Page 11: Modelos Lineales de Regresión

Definir una línea

¿Cómo definimos una línea en notación pendiente-interceptar?

• 𝑦𝑦 = 𝒎𝒎𝑥𝑥 + 𝒃𝒃

En notación 𝜃𝜃• ℎ𝜃𝜃(x)= 𝜽𝜽1x + 𝜽𝜽0

m = pendiente

b = interceptar 𝜃𝜃0

𝜃𝜃1

11Copyright © 2018. Data Science Dojo

Page 12: Modelos Lineales de Regresión

Más características

𝑦𝑦 𝑥𝑥1 𝑥𝑥2 𝑥𝑥3

ℎ𝜃𝜃 𝑥𝑥 = 𝜃𝜃0 + 𝜃𝜃1𝑥𝑥1 + 𝜃𝜃2𝑥𝑥2 + 𝜃𝜃3𝑥𝑥3

12Copyright © 2018. Data Science Dojo

Page 13: Modelos Lineales de Regresión

Residuos (o "Errores")

Diferencia entre la hipótesis hθ(x) (valor precedido) y verdadero valor (objetivo definido)

Error 2

Error 1

13Copyright © 2018. Data Science Dojo

Page 14: Modelos Lineales de Regresión

Función de costes

Minimiza la función de ‘coste’ o ‘pérdida’ – 𝐽𝐽(𝜃𝜃)

• Más pequeño para menor error

• Más grande para mayor error

𝐽𝐽 𝜃𝜃 =12𝑛𝑛

�𝑖𝑖=1

𝑛𝑛

ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 2

14Copyright © 2018. Data Science Dojo

Error 2

Error 1

Page 15: Modelos Lineales de Regresión

Función de Costes

θ1=2

θ1=1.0

θ1=0.5

θ0=0

ℎ𝜃𝜃 𝑥𝑥 = 𝜃𝜃0 + 𝜃𝜃1𝑥𝑥𝐽𝐽 𝜃𝜃 =

12𝑛𝑛

�𝑖𝑖=1

𝑛𝑛

ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 2

Cada punto de la parábola corresponde con una línea del gráfica de la izquierda

15Copyright © 2018. Data Science Dojo

Page 16: Modelos Lineales de Regresión

Función de costes en 3 dimensiones

𝐽𝐽 𝜃𝜃 =12𝑛𝑛

�𝑖𝑖=1

𝑛𝑛

ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 2

𝜃𝜃0 𝜃𝜃1

𝐽𝐽(𝜃𝜃 0

,𝜃𝜃1)

16Copyright © 2018. Data Science Dojo

Page 17: Modelos Lineales de Regresión

¿Cómo definimos el mínimo de una función de costes?

17Copyright © 2018. Data Science Dojo

Page 18: Modelos Lineales de Regresión

Problema del Máximo/Mínimo

Encuentra 2 números no negativos cuya suma sea 9 de tal forma que el producto de un número y el cuadrado de otro sea máximo.

18Copyright © 2018. Data Science Dojo

Page 19: Modelos Lineales de Regresión

Solución (1/2)

La suma de los números es 99 = x + y

El producto de los 2 números es P = x y2

= x (9-x)2

19Copyright © 2018. Data Science Dojo

Page 20: Modelos Lineales de Regresión

Solución (2/2)

Usando la regla de producto y la regla de la cadena de Calculus101:

P' = x (2) ( 9-x)(-1) + (1) ( 9-x)2

= ( 9-x) [ -2x + ( 9-x) ]= ( 9-x) [ 9-3x ]= ( 9-x) (3)[ 3-x ]= 0

x=9 o x=3

20Copyright © 2018. Data Science Dojo

Page 21: Modelos Lineales de Regresión

Problema del máximo

Hay 50 árboles en una plantación de árboles frutales. Cada árbol produce 800 manzanas. Por cada árbol adicional plantado en el la plantación de frutales, la producción de cada árbol se reduce en10 manzanas.

Pregunta: ¿cuantos arboles adicionales deben ser plantados en la plantación de árboles frutales existente para maximizar la producción de manzanas de la plantación?

21Copyright © 2018. Data Science Dojo

Page 22: Modelos Lineales de Regresión

Añadir 15 árboles maximizaría la producción

Solución

A = (50 + t) x (800 – 10t) A = 40,000 + 300t – 10t2

Despeja A’ y ajusta a 0 para encontrar el máximo.A’ = – 20t + 300 = 0t = 15

22Copyright © 2018. Data Science Dojo

Page 23: Modelos Lineales de Regresión

Descenso de Gradiente

• Objetivo: minimiza 𝐽𝐽(𝜃𝜃)• Empieza con algunos 𝜃𝜃 iniciales y entonces realiza un actualización en cada 𝜃𝜃𝑗𝑗 sucesivamente:

• Repite hasta que 𝜃𝜃 converge

𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼𝜕𝜕𝜕𝜕𝜃𝜃𝑗𝑗

𝐽𝐽(𝜃𝜃𝑘𝑘)

23Copyright © 2018. Data Science Dojo

Page 24: Modelos Lineales de Regresión

Descenso de Gradiente

• 𝛼𝛼 es conocido como el ratio de aprendizaje; establecido por el usuario

• Cada vez el que algoritmo da un paso en la dirección de la línea con mayor inclinación y 𝐽𝐽 𝜃𝜃 decrece.

• 𝛼𝛼 determina cuanto de rápido o lento el algoritmo va a converger con la solución

𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼𝜕𝜕𝜕𝜕𝜃𝜃𝑗𝑗

𝐽𝐽(𝜃𝜃𝑘𝑘)

24Copyright © 2018. Data Science Dojo

Page 25: Modelos Lineales de Regresión

Conclusiones

𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼𝜕𝜕𝜕𝜕𝜃𝜃𝑗𝑗

𝐽𝐽(𝜃𝜃𝑘𝑘)

𝜃𝜃𝑗𝑗𝑘𝑘

𝜃𝜃𝑗𝑗𝑘𝑘+1

𝜃𝜃𝑗𝑗𝑘𝑘+3

Pendiente Positiva

Pendiente negativa

𝜃𝜃𝑗𝑗

25Copyright © 2018. Data Science Dojo

Page 26: Modelos Lineales de Regresión

Efecto de un alto ratio de aprendizaje: Gran 𝛼𝛼

𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼𝜕𝜕𝜕𝜕𝜃𝜃𝑗𝑗

𝐽𝐽(𝜃𝜃𝑘𝑘)

Pendiente positiva

Pendiente negativa

𝜃𝜃𝑗𝑗

26Copyright © 2018. Data Science Dojo

Page 27: Modelos Lineales de Regresión

Efectos del ratio de aprendizaje: Pequeña 𝛼𝛼

𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼𝜕𝜕𝜕𝜕𝜃𝜃𝑗𝑗

𝐽𝐽(𝜃𝜃𝑘𝑘)

Pendiente positiva

Pendiente negativa

𝜃𝜃𝑗𝑗

27Copyright © 2018. Data Science Dojo

Page 28: Modelos Lineales de Regresión

Implementación de Descenso de Gradiente

¿Cuándo paras de actualizar?

Pendiente positiva

Pendiente negativa

𝜃𝜃𝑗𝑗

¿Aquí?¿Aquí?

• Cuando 𝜃𝜃𝑗𝑗𝑘𝑘+1

está cerca de 𝜃𝜃𝑗𝑗𝑘𝑘

• Cuando 𝐽𝐽(𝜃𝜃𝑘𝑘+1)está cerca de 𝐽𝐽(𝜃𝜃𝑘𝑘) [El error no cambia]

28Copyright © 2018. Data Science Dojo

Page 29: Modelos Lineales de Regresión

Descenso de Gradiente en Grupo

• ¿Cómo incorporamos todos nuestros datos?• ¡Bucle!

Para j de 0 a m:

•ℎ𝜃𝜃 se actualiza solo cuando el bucle se ha completado

•¿Debilidades?

𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼1𝑛𝑛�

𝑖𝑖=1

𝑛𝑛ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 𝑥𝑥𝑗𝑗𝑖𝑖

𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼𝜕𝜕𝜕𝜕𝜃𝜃𝑗𝑗

𝐽𝐽(𝜃𝜃𝑘𝑘)

Cada representa una característica 𝜃𝜃𝑗𝑗

29Copyright © 2018. Data Science Dojo

Page 30: Modelos Lineales de Regresión

Descenso de Gradiente en Grupo

• ¡Bucle!Para j de 0 a m:

𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼1𝑛𝑛�

𝑖𝑖=1

𝑛𝑛ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 𝑥𝑥𝑗𝑗𝑖𝑖

30Copyright © 2018. Data Science Dojo

Page 31: Modelos Lineales de Regresión

Descenso de Gradiente Estocástica

• Considera una aproximación alternativa:

• ℎ𝜃𝜃 se actualiza cuando el bucle interno se completa• Si el conjunto de entrenamiento es grande, converge antes que en grupo

• Puede oscilar alrededor del mínimo de 𝐽𝐽(𝜃𝜃) y nunca converger

for i from 1 to n:for j from 0 to m:𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼 ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 𝑥𝑥𝑗𝑗𝑖𝑖

* Estamos tan solo tomando una observación aleatoria cada vez como una muestra, en lugar de realizar la media entre observaciones

31Copyright © 2018. Data Science Dojo

Page 32: Modelos Lineales de Regresión

En grupo vs. Estocástico

¿Cuál es mejor? Depende.

Descenso de Gradiente en Grupo

Descenso de Gradiente Estocástico

FunciónActualiza la hipótesis escaneando todo el conjunto de datos

Actualiza la hipótesisescaneando una muestra de entrenamiento cada vez

Ratio de convergencia LentamenteRápidamente(pero puede oscilar en el mínimo)

Tamaño de Conjunto de Datos apropiado Pequeño Grande

32Copyright © 2018. Data Science Dojo

Page 33: Modelos Lineales de Regresión

EVALUANDO MODELOS DE REGRESIÓN

33Copyright © 2018. Data Science Dojo

Page 34: Modelos Lineales de Regresión

Evaluando las métricas de Regresión

• Error Absoluto Medio (MAE)

• Raíz cuadrada del error cuadrático medio (RMSE)• Raíz cuadrada de la desviación

• Coeficiente de determinación(R2)

34Copyright © 2018. Data Science Dojo

Page 35: Modelos Lineales de Regresión

Error Absoluto Medio

• Media de los valores residuales• Medida “pura” de error

𝑀𝑀𝑀𝑀𝑀𝑀 𝜃𝜃 =∑𝑖𝑖=1𝑛𝑛 ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖

𝑛𝑛

35Copyright © 2018. Data Science Dojo

Page 36: Modelos Lineales de Regresión

Error Absoluto Medio - Ejemplo

𝑦𝑦 = 36, 19, 34, 6, 1, 45

ℎ𝜃𝜃 𝑥𝑥 = 27,−2.6, 13,−7.3,−2.6, 48

ℎ𝜃𝜃 𝑥𝑥 − 𝑦𝑦 = 9, 21.6, 21, 13.3, 3.6, 3

𝑀𝑀𝑀𝑀𝑀𝑀 𝜃𝜃 =71.5

6 = 11.9

36Copyright © 2018. Data Science Dojo

Page 37: Modelos Lineales de Regresión

Raíz cuadrada del error cuadrático medio

• Raíz cuadrada de la media del cuadrado de residuos• Penaliza más a los errores grandes que a los pequeños

• Una buena medida que se usa para acentuar los valores atípicos

𝑅𝑅𝑀𝑀𝑅𝑅𝑀𝑀 𝜃𝜃 =∑𝑖𝑖=1𝑛𝑛 ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 2

𝑛𝑛

37Copyright © 2018. Data Science Dojo

Page 38: Modelos Lineales de Regresión

RMSE - Ejemplo

𝑦𝑦 = 36, 19, 34, 6, 1, 45

ℎ𝜃𝜃 𝑥𝑥 = 27,−2.6, 13,−7.3,−2.6, 48

ℎ𝜃𝜃 𝑥𝑥 − 𝑦𝑦 2 = 81, 467, 441, 177, 13, 9

𝑅𝑅𝑅𝑅𝑀𝑀𝑀𝑀 𝜃𝜃 =1187

6 = 14.1

38Copyright © 2018. Data Science Dojo

Page 39: Modelos Lineales de Regresión

Coeficiente de Determinación (R2)

donde

𝑅𝑅𝑅𝑅𝑟𝑟𝑟𝑟𝑟𝑟 – Suma de cuadrados de residuos (ej. Error cuadratico total)𝑅𝑅𝑅𝑅𝑡𝑡𝑡𝑡𝑡𝑡 –Suma diferencias cuadradas de la media (ej. Variación total del conjunto de datos)

Resultado: Medida de cuanto de bien explica el modelo los datos• “Parte de la variación de los datos explicados por el modelo"

𝑅𝑅2 = 1 −𝑅𝑅𝑅𝑅𝑟𝑟𝑟𝑟𝑟𝑟𝑅𝑅𝑅𝑅𝑡𝑡𝑡𝑡𝑡𝑡

𝑅𝑅𝑅𝑅𝑟𝑟𝑟𝑟𝑟𝑟 = �𝑖𝑖=1

𝑛𝑛

ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 2 𝑅𝑅𝑅𝑅𝑡𝑡𝑡𝑡𝑡𝑡 = �𝑖𝑖=1

𝑛𝑛

𝑦𝑦𝑖𝑖 − �𝑦𝑦 2

39Copyright © 2018. Data Science Dojo

Page 40: Modelos Lineales de Regresión

REGULARIZACIÓN

40Copyright © 2018. Data Science Dojo

Page 41: Modelos Lineales de Regresión

SobreajustePr

ice

Size𝜃𝜃0 + 𝜃𝜃1𝑥𝑥

Pric

e

Size𝜃𝜃0 + 𝜃𝜃1𝑥𝑥 + 𝜃𝜃2𝑥𝑥2

Pric

e

Size𝜃𝜃0 + 𝜃𝜃1𝑥𝑥 + 𝜃𝜃2𝑥𝑥2 + 𝜃𝜃3𝑥𝑥3 + 𝜃𝜃4𝑥𝑥4

41Copyright © 2018. Data Science Dojo

Page 42: Modelos Lineales de Regresión

Conclusiones

𝐽𝐽′ 𝜃𝜃 = 𝐽𝐽 𝜃𝜃 + 𝑃𝑃𝑃𝑃𝑛𝑛𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑛𝑛

Prec

io

Tamaño𝜃𝜃0 + 𝜃𝜃1𝑥𝑥 + 𝜃𝜃2𝑥𝑥2 + 𝜃𝜃3𝑥𝑥3 + 𝜃𝜃4𝑥𝑥4 𝜃𝜃0 + 𝜃𝜃1𝑥𝑥 + 𝜃𝜃2𝑥𝑥2 + 𝜃𝜃3𝑥𝑥3 + 𝜃𝜃4𝑥𝑥4

Prec

io

Tamaño

Asegurarse de que sea pequeño

42Copyright © 2018. Data Science Dojo

Page 43: Modelos Lineales de Regresión

Definiciones

• Dos de los métodos más comunes• L1 regularización

• Regresión de lasso

• L2 regularización • Regresión contraída• Degradación

de ponderaciones𝐽𝐽𝐿𝐿2 𝜃𝜃 =

12𝑛𝑛

�𝑖𝑖=1

𝑛𝑛

ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖2

+ 𝜆𝜆�𝑗𝑗=1

𝑚𝑚

𝜃𝜃𝑗𝑗2

𝐽𝐽𝐿𝐿1 𝜃𝜃 =12𝑛𝑛

�𝑖𝑖=1

𝑛𝑛

ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖2

+ 𝜆𝜆�𝑗𝑗=1

𝑚𝑚

𝜃𝜃𝑗𝑗

43Copyright © 2018. Data Science Dojo

Page 44: Modelos Lineales de Regresión

Regresión regularizada

• Encontrar el mejor ajuste• Mantener los términos 𝜃𝜃𝑗𝑗 tan pequeños como sea posible.

• λ es un parámetro establecido por el usuario que controla el intercambio

𝐽𝐽𝐿𝐿2 𝜃𝜃 =12𝑛𝑛

�𝑖𝑖=1

𝑛𝑛

ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖2

+ 𝜆𝜆�𝑗𝑗=1

𝑚𝑚

𝜃𝜃𝑗𝑗2𝐽𝐽𝐿𝐿1 𝜃𝜃 =12𝑛𝑛

�𝑖𝑖=1

𝑛𝑛

ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖2

+ 𝜆𝜆�𝑗𝑗=1

𝑚𝑚

𝜃𝜃𝑗𝑗

44Copyright © 2018. Data Science Dojo

Page 45: Modelos Lineales de Regresión

Regresión regularizada

• El tamaño de 𝜆𝜆 es importante• 𝜆𝜆 demasiado grande=> no ajuste• 𝜆𝜆 demasiado pequeño=> no regularización

𝐽𝐽𝐿𝐿2 𝜃𝜃 =12𝑛𝑛

�𝑖𝑖=1

𝑛𝑛

ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖2

+ 𝜆𝜆�𝑗𝑗=1

𝑚𝑚

𝜃𝜃𝑗𝑗2𝐽𝐽𝐿𝐿1 𝜃𝜃 =12𝑛𝑛

�𝑖𝑖=1

𝑛𝑛

ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖2

+ 𝜆𝜆�𝑗𝑗=1

𝑚𝑚

𝜃𝜃𝑗𝑗

45Copyright © 2018. Data Science Dojo

Page 46: Modelos Lineales de Regresión

PREGUNTAS

46Copyright © 2018. Data Science Dojo

Page 47: Modelos Lineales de Regresión

Aprendizaje no Supervisado y K-Means Clustering

Page 48: Modelos Lineales de Regresión

Aprendizaje no supervisado• Intentando encontrar una estructura oculta en datos no etiquetados

• Sin error o señal de recompensa para evaluar una solución potencial. Sin necesidad de escoger una response class.

• Técnicas comunes: K-Means clustering, agrupación jerárquica, modelos de Markovocultos, etc.

48Copyright (c) 2018. Data Science Dojo

Page 49: Modelos Lineales de Regresión

Elegir el número de clustersEjemplo 1 (conocimiento de dominio/aspectos prácticos): Tallas de ropa• Hacerlas a medida para cada persona es caro• One-size-fits-all: ¡No funciona!• Agrupa a la gente en tallas similares para

confeccionar camisetas “pequeñas”, “medianas”, y “grandes”

49Copyright (c) 2018. Data Science Dojo

Page 50: Modelos Lineales de Regresión

Elegir un número de clustersEjemplo 2 (con evaluación): Segmentación de pacientes• Subdivide a los pacientes

en distintos grupos basados en las características de las enfermedades

• Donde cada subgrupo puede ser seleccionado viablemente como un segmento; y entonces, ser enfocado con modelos de atención y programas de intervención ajustados a sus necesidades.

50Copyright (c) 2018. Data Science Dojo

Page 51: Modelos Lineales de Regresión

K-Means Clustering• Divide los puntos de datos entre grupos de semejanza

• Técnica no supervisada: no hay partición entre un aprendizaje o un grupo de tests en el aprendizaje no supervisado

• Útil en la agrupación de observaciones• Solo funciona para datos numéricos

51Copyright (c) 2018. Data Science Dojo

Page 52: Modelos Lineales de Regresión

Preparación de los datos

• Transforma variables de categorías en números

• Estandariza• Reduce el tamaño

52

Edad Pclase.1 Pclase.2 Pclase.3 Sexo.mujer Sexo.hombre

19 0 1 0 0 1

28 1 0 0 1 0

64 0 0 1 0 1

Llamadas frecuentemente“dummy variables” o “one-hot encoding”

Copyright (c) 2018. Data Science Dojo

Page 53: Modelos Lineales de Regresión

Distancia EuclidianaDetermina la semejanza intra- e inter-cluster

53

x1, y1

x2, y2

Copyright (c) 2018. Data Science Dojo

Las distancias Intra-cluster se minimizan

Las distancias Inter-clusterse maximizan

Page 54: Modelos Lineales de Regresión

K-Means Clustering (1/2)

1 2

Page 55: Modelos Lineales de Regresión

K-Means Clustering (2/2)

3 4 5

Las posiciones de los centros del cluster se determinan por la media de todos los puntos dentro

del grupo.

Page 56: Modelos Lineales de Regresión

K-Means Clustering

56Copyright (c) 2018. Data Science Dojo

K=3

Page 57: Modelos Lineales de Regresión

Algoritmo de K-Means Clustering

57

Supongamos un conjunto de puntos de datos: { x1, x2, x3……….xn}• Paso 0: Decidir el número de clusters, K=1,2,…k.• Paso 1: Establecer centroides en localizaciones aleatorias➢ c1, c2,….ck

• Paso 2: Repetir hasta la convergencia:{para cada punto xi encontrar el centroide más cercano

cj (ej. Distancia Euclidiana) asignar el punto xi al grupo j

para cada grupo j = 1..k calcular nuevo centroide cjcj=mediana de todos los puntos xi asignados al grupo j en el paso anterior}• Paso 3: Parar cuando ninguna de las asignaciones del grupo

cambienCopyright (c) 2018. Data Science Dojo

Page 58: Modelos Lineales de Regresión

K-Means Clustering• Minimiza la distancia agregada intra-cluster

• Mide la distancia al cuadrado desde un punto hasta el centro de su grupo.

�𝑗𝑗=1

𝐾𝐾

�𝑥𝑥∈𝑔𝑔𝑗𝑗

𝐷𝐷 𝑃𝑃𝑗𝑗, 𝑥𝑥 2

• Puede converger con el mínimo local• Diferentes puntos de inicio resultados muy

dispares• Realizada muchas veces con puntos de inicio

aleatorios• Los puntos cercanos pueden no ser asignados al mismo

cluster

Page 59: Modelos Lineales de Regresión

• Fortalezas• Simple: fácil de entender y de implementar• Eficiente: tiempo lineal, almacenamiento mínimo

• Debilidades• La media ha de estar bien definida• El usuario necesita especificar k• El algoritmo es sensible a los valores atípicos

59Copyright (c) 2018. Data Science Dojo

K-Means Clustering

Page 60: Modelos Lineales de Regresión

Despejar K con el Método Elbow

60

Opción 1 – Porcentaje de la varianza explicada como una función del número de clusters.

Objetivo - Elegir el número de grupos de tal forma que al añadir otro cluster no aporte un mejor modelado de los datos.

Opción 2 –Total del cuadrado de las distancias

del punto del cluster al centro.

Copyright (c) 2018. Data Science Dojo

Page 61: Modelos Lineales de Regresión

PREGUNTAS

61Copyright (c) 2018. Data Science Dojo

Page 62: Modelos Lineales de Regresión

Ingeniería de Big Data

Page 63: Modelos Lineales de Regresión

• Introducción• Un problema clave– machine learning a escala• Computación distribuida con Apache Hadoop & Hive

• Machine learning a escala con Apache Mahout• Computación distribuida v2.0 – Apache Spark

Agenda

Copyright (c) 2018. Data Science Dojo 63

Page 64: Modelos Lineales de Regresión

5 Vs del Big Data

Datos estáticosDe Terabytes a

exabytes de procesos de datos existentes

Velocidad

Datos en movimiento

Datos fluidos, de milisegundos a segundos para

responder

Variedad

Datos en muchas formas

Estructurados, destructurados, texto, y

multimedia

Veracidad

Datos en dudaIncertidumbre por la

inconsistencia de datos, su falta, ambigüedades,

latencia, engaño, y aproximaciones al

modelo

Valor

Los datos pueden tener un valor

distintoNo todos los bytes son

creados iguales

$$$$ $

$

$$$ $

$

$

Objetivo: ¡Como científicos de datos queremos un acceso efectivo en costes a los datos en bruto para nuestros productos de datos!

Copyright (c) 2018. Data Science Dojo 64

Page 65: Modelos Lineales de Regresión

MACHINE LEARNING A ESCALA

65Copyright © 2018. Data Science Dojo

Page 66: Modelos Lineales de Regresión

OSS Limites R

Núcleo único Hilo único

Modelo A Modelo B Modelo C

Quad Core Laptop

Copyright (c) 2018. Data Science Dojo 66

Page 67: Modelos Lineales de Regresión

• Núcleo único• Hilo único• All in memory (RAM)• Vectores y Matrices limitadas a 4,294,967,295 elementos (filas) si la versión es de 32-bit; 2^32 - 1

OSS Límites R

Copyright (c) 2018. Data Science Dojo 67

Page 68: Modelos Lineales de Regresión

OSS Límites R: RAM• All in memory (RAM)

Ejemplo del portátil:

𝑀𝑀𝑃𝑃𝑥𝑥 𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃 𝑑𝑑𝑃𝑃 𝐷𝐷𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 = 𝑇𝑇𝐷𝐷𝐿𝐿𝑃𝑃𝑃𝑃 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝐷𝐷𝐷𝐷𝑅𝑅𝑀𝑀𝑀𝑀 𝑥𝑥 80% − 𝑈𝑈𝐷𝐷𝐷𝐷 𝑅𝑅𝑀𝑀𝑀𝑀 𝑁𝑁𝐷𝐷𝑁𝑁𝐿𝐿𝑃𝑃𝑃𝑃 𝑅𝑅𝑀𝑀𝑀𝑀

𝑀𝑀𝑃𝑃𝑥𝑥 𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃 𝑑𝑑𝑃𝑃 𝐷𝐷𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 = 5.9 𝑔𝑔𝑔𝑔 𝑥𝑥 80% − 3.2gb𝑀𝑀𝑃𝑃𝑥𝑥 𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃 𝑑𝑑𝑃𝑃 𝐷𝐷𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 = ~1.52𝑔𝑔𝑔𝑔

*Marcos de datos R aumentanlos datos, de hecho, por ~3x𝐿𝐿𝐿𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐷𝐷 𝑑𝑑𝑃𝑃 𝑑𝑑𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 𝑅𝑅 = ~1.52𝑔𝑔𝑔𝑔 ÷ 3 = ~506.7𝐿𝐿𝑔𝑔

Copyright (c) 2018. Data Science Dojo 68

Page 69: Modelos Lineales de Regresión

OSS Límites R: RAM

Los VM de Azure con la mayor RAM*:

*Data recogidos 06/07/2017

24x7x52 Coste anual: $116,938.44!

𝑀𝑀𝑃𝑃𝑥𝑥 𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃 𝑑𝑑𝑃𝑃 𝐷𝐷𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 = 2000𝑔𝑔𝑔𝑔 𝑥𝑥 80% − 1𝑔𝑔𝑔𝑔𝑀𝑀𝑃𝑃𝑥𝑥 𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃 𝑑𝑑𝑃𝑃 𝐷𝐷𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 = ~1600𝑔𝑔𝑔𝑔𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐷𝐷 𝑑𝑑𝑃𝑃 𝐷𝐷𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 = ~1600𝑔𝑔𝑔𝑔 ÷ 3 = ~533.33 𝑔𝑔𝑔𝑔

Copyright (c) 2018. Data Science Dojo 69

Page 70: Modelos Lineales de Regresión

Escalado de Machine Learning

•Hadoop•Spark•H20•Microsoft R Server

Distribuidos

•Azure ML•AWS ML•Big ML•Cloud Virtual Machines

Nube

•R•Python•SAS

Programación

•Excel

Programas

¡Estos solo nos llevan hasta aquí! ¡Escala de Big data!

Copyright (c) 2018. Data Science Dojo 70

Page 71: Modelos Lineales de Regresión

COMPUTACIÓN DISTRIBUIDA CON APACHE HADOOP

71Copyright © 2018. Data Science Dojo

Page 72: Modelos Lineales de Regresión

Da marcha atrás al reloj, El Mainframe

• “Big Iron”• La piedra angular de la

computación durante décadas.• Todavía ampliamente usado.• “Escalación” modelo de

computación compartida.• La plataforma núcleo es efectiva

en costes, los ecosistemas no (ej., concesión de licencias de software).

• ¡El anfitrión original de VM!

Copyright (c) 2018. Data Science Dojo 72

Page 73: Modelos Lineales de Regresión

Computación Distribuida

Copyright (c) 2018. Data Science Dojo 73

Page 74: Modelos Lineales de Regresión

Cloud Computing

• Conceptualmente – una combinación de mainframe y computación distribuida

• Los anfitriones de VM son ahora el “Big Iron”.• Muchos VMs trabajan juntos para distribuir cargas de trabajo.• Algunas cargas de trabajo en HW dedicados (ej., SAP HANA).

Copyright (c) 2018. Data Science Dojo 74

Page 75: Modelos Lineales de Regresión

Escalando el poder de computo

Escalado horizontal, escalado hacia afuera

Commodity hardware, distribuido

Nuevo escalado

Escalado vertical, Escalado hacia arriba Ordenadores de alto rendimiento

Viajo escalado

Copyright (c) 2018. Data Science Dojo 75

Page 76: Modelos Lineales de Regresión

¿Qué es Hadoop?• Plataforma OSS para computación distribuida en

datos a escala Internet.

• ¡Originalmente construida en Yahoo!

• Implementación de ideas (ej., MapReduce) publicado por Google.

• La plataforma de big data estándar de facto• Llamada así por un animal de peluche

perteneciente al hijo de Doug Cutting.

Copyright (c) 2018. Data Science Dojo 76

Page 77: Modelos Lineales de Regresión

Motor de procesamiento en grupo para big data.

La base Hadoop

Almacenamiento Computación

Copyright (c) 2018. Data Science Dojo 77

Page 78: Modelos Lineales de Regresión

HDFS y MapReduce

60gb deTweets

1 Ordenador

Procesamiento: 30 horas

60gb

Copyright (c) 2018. Data Science Dojo 78

Page 79: Modelos Lineales de Regresión

HDFS y MapReduce

60gb de Tweets

Procesamiento: 15 horas

30gb

2 Ordenadores

Copyright (c) 2018. Data Science Dojo 79

Page 80: Modelos Lineales de Regresión

HDFS y MapReduce

60 Gb de Tweets

Procesamiento: 10 horas

20Gb

3 Ordenadores

Copyright (c) 2018. Data Science Dojo 80

Page 81: Modelos Lineales de Regresión

Mayoría de los casos, Escalado linear de la capacidad de Cómputo

Número de Ordenadores Tiempo de procesamiento (horas)1 302 153 104 7.55 66 57 4.268 3.759 3.33

Copyright (c) 2018. Data Science Dojo 81

Page 82: Modelos Lineales de Regresión

Nodo líder(Nodo designado)

Datos Nodos

Si los perros fuesen sirvientes…

Copyright (c) 2018. Data Science Dojo 82

Page 83: Modelos Lineales de Regresión

DatosNodo 2

DatosNodo 1

DatosNodo 3

Partición 3

Partición 2

Partición1

HDFS

Partición deHDFS

Copyright (c) 2018. Data Science Dojo 83

Page 84: Modelos Lineales de Regresión

B1B2

Nodo dedatos 1

O1O2

Nodo dedatos 3

G1G2

Redundancia HDFS

Nodo dedatos 2

O1 O2B1

B2G2G1

Copyright (c) 2018. Data Science Dojo 84

Page 85: Modelos Lineales de Regresión

MapReduce – Analogía del Sandwich

Copyright (c) 2018. Data Science Dojo 85

Page 86: Modelos Lineales de Regresión

Limitaciones con MapReduce• Mucho código para realizar las tareas más sencillas• Lento• Resolución de problemas

de múltiples ordenadores• Los buenos dispositivos

son escasos• Las certificaciones son

caras

Copyright (c) 2018. Data Science Dojo 86

Page 87: Modelos Lineales de Regresión

Hive• Abstracción creada sobre MapReduce y HDFS.

• Hace que Hadoop parezca un RDBMS (ej., coding en SQL).

• Desarrollada por Facebook para democratizar Hadoop.

• Aplica estructura a los datos en tiempo real(“schema on read”).

Copyright (c) 2018. Data Science Dojo 87

Page 88: Modelos Lineales de Regresión

Aplicaciones de Hive

Declaraciónde HiveQL

Traducción y Conversión

Trabajo de MapReduce

Copyright (c) 2018. Data Science Dojo 88

Page 89: Modelos Lineales de Regresión

Repasar el conteo de palabras de Word

vs.SELECCIONAR palabra,

CONTAR (*) COMOword_countDE palabrasAGRUPAR POR palabra;

Copyright (c) 2018. Data Science Dojo 89

Page 90: Modelos Lineales de Regresión

Atención

SELECT * FROM ANYTHING : Esto trae todo. Todo no cabe en un solo

ordenador.

CONECTARSE: conectarse llevará horas o días en y acaparará todo el

ancho de banda del clúster para cualquiera que trate de usarlo en la cola.

CLASIFICAR POR: la clasificación es cara desde el punto de vista

computacional.

Sub Consultas: una sub consulta crea, básicamente, una segunda tabla,

que será enorme en HIVE.

Interactividad: SQL en DBMS es interactivo porque es casi instantáneo

Copyright (c) 2018. Data Science Dojo 90

Page 91: Modelos Lineales de Regresión

HDInsight

Implementaciones de Hadoop

Copyright (c) 2018. Data Science Dojo 91

Page 92: Modelos Lineales de Regresión

Blob Storage

Hadoop en Azure

HDInsight

Azure DataLake Store

Computar

HDFS

Almacenar

Copyright (c) 2018. Data Science Dojo 92

Page 93: Modelos Lineales de Regresión

Mahout• Plataforma de Machine Learning distribuido.

• Construido sobre MapReduce y HDFS.

• Basado en script y los interfaces de líneas de comandos.

• Implementación de lenguaje parecida a R.

Copyright (c) 2018. Data Science Dojo 93

Page 94: Modelos Lineales de Regresión

Nodo deDatos 2

Nodo deDatos 1

Nodo deDatos 3

Partición 3

Partición 2

Partición 1

Distributed Random Forest

HDFS Partitioning

Copyright (c) 2018. Data Science Dojo 94

Page 95: Modelos Lineales de Regresión

Nodo deDatos 2

Nodo deDatos 2

Nodo deDatos 3

Mezcladode datos

Distributed Random Forest

Copyright (c) 2018. Data Science Dojo 95

Page 96: Modelos Lineales de Regresión

NODOA

NODOB

NODOCCesta 1 Cesta 2 Cesta 3

Árbol de decisión A Árbol de decisión B Árbol de decisión C

Distributed Random Forest

Copyright (c) 2018. Data Science Dojo 96

Page 97: Modelos Lineales de Regresión

Tiempos de procesamiento - Machine Learning

Datos

Limpieza

Entrenamiento

Predicción

Horas

Días

Milisegundos

• Sistemas a gran escala solo son necesarios para el entrenamiento

• Los teléfonos pueden usar modelos producidos por Mahout para predecir nuevos datos

• Después de que el modelo sea entrenado, guarda el modelo en cualquier tipo de fichero IO file y cárgalo donde quieras

Cuello de botella

Copyright (c) 2018. Data Science Dojo 97

Page 98: Modelos Lineales de Regresión

Computación distribuida v2.0 – Apache spark

Copyright (c) 2018. Data Science Dojo 98

Page 99: Modelos Lineales de Regresión

¿Qué es Spark?

• “Un motor rápido y general para procesamiento de datos a gran escala.”

• Diseñado para incluir los puntos positivos de Hadoop y abordar los defectos de Hadoop’s.

• Puede complementar a Hadoop a través de la integración de tanto HDFS como Hive.

Copyright (c) 2018. Data Science Dojo 99

Page 100: Modelos Lineales de Regresión

¿Por qué Spark? ¡Desempeño mejorado!

Hasta10x más rápido que Hadoop trabajando con datos del disco.*

¡Hasta100x más rápido trabajando con datos almacenados en la memoria!*

* La comparativa es sin Apache Yarn

Copyright (c) 2018. Data Science Dojo 100

Page 101: Modelos Lineales de Regresión

Concurso de Daytona GraySort : ¡ordena 100 TB of data!

Antiguo record mundial:• Método: Hadoop• Yahoo!• 72 Minutos• 2100 Nodos

2014:• Método: Spark• Databrick• 23 Minutes• 206 Nodos

¡3x más rápido en10x menos de máquinas!

Fuente: https://databricks.com/blog/2014/10/10/spark-petabyte-sort.html

¡Big Data, más rápido!

Copyright (c) 2018. Data Science Dojo 101

Page 102: Modelos Lineales de Regresión

Arquitectura conceptual

Copyright (c) 2018. Data Science Dojo 102

Page 103: Modelos Lineales de Regresión

Spark y HadoopYARN

HDFS

MapReduce

HiveJava API SparkSQL

SparkStreaming MLlib

Spark puede ser desplegado en el cluster de Hadoop y compartir los recursos de los clusters a través de YARN. Spark, sin embargo, no requiere de Hadoop!

Copyright (c) 2018. Data Science Dojo 103

Page 104: Modelos Lineales de Regresión

PREGUNTAS

104Copyright © 2018. Data Science Dojo

Page 105: Modelos Lineales de Regresión

Interpretando los Hallazgos del Machine Learning

Page 106: Modelos Lineales de Regresión

Contorno• Métricas para un problema de machine learning• Ejemplos en el ámbito de la Salud (Caso de

estudio)• Interpretación de las métricas• Conclusiones

106Copyright (c) 2018. Data Science Dojo

Page 107: Modelos Lineales de Regresión

Clasificación• Cuando el número de posibles predicciones es finito, entonces, es un problema de ej.,

• Tumor benigno Vs. Maligno (2 posibles predicciones)

107Copyright (c) 2018. Data Science Dojo

Page 108: Modelos Lineales de Regresión

Métricas correctas para un problema de clasificación

Las siguientes son las métricas de referencia para un problema de evaluación y clasificación incluyendo las aplicaciones sanitarias.

• Precisión, memoria, especificidad, puntuación F• ROC, AUC• Exactitud• Log-Loss• Raíz del error cuadrático medio (útil cuando la clasificación se hace

para predicciones)• A veces una métrica no aclara toda la imagen.• Por consiguiente, múltiples métricas deben ser consideradas para evaluar

los clasificadores• Métricas de evaluación para clasificación binaria (dos tipos de clases). Sin

embargo, las conceptos pueden ser fácilmente ampliados a clasificación M-ary (M posibles clases)

Copyright (c) 2018. Data Science Dojo 108

Page 109: Modelos Lineales de Regresión

Interpretando Métricas para Conjuntos de datos Desequilibrados

• Así que, ¿Qué modelo es el mejor?

Copyright (c) 2018. Data Science Dojo 109

Page 110: Modelos Lineales de Regresión

Diferencias de coste entre errores FP (Tipo I) y FN (Tipo 2)

• Imagina los conjuntos de datos para 2 aplicaciones donde los ejemplos positivos representan

• Pacientes con esquizofrenia crónica sufriendo tendencias suicidas (conjunto de datos 1)

• La escala Fitzpatrick para el color de piel humana (conjunto de datos 2)

• ¿Qué modelo es mejor para el conjunto de datos 1 y que modelo es mejor para el conjunto de datos 2?

• Para ambos modelos y conjuntos de datos el Log-Lossnos es una métrica útil, puesto que, es el mismo para ambos

Modelo Exactitud Precisión Recall Puntos F1 AUC Log-LossModelo 1 0.97 1 0.83 0.91 0.85 0.2Modelo 2 0.94 0.75 1 0.86 0.8 0.2

Copyright (c) 2018. Data Science Dojo 110

Page 111: Modelos Lineales de Regresión

Coste de FP Vs. FN para el conjunto de datos 1

• El FP representa los pacientes que no son esquizofrénicos crónicos y que han sido clasificado erróneamente como esquizofrénicos

• El FN representa los pacientes que son, de hecho, crónicos y que han sido erróneamente clasificados como -ve

• El coste asociado con FP y FN está muy sesgado. • Los costes de FN son mucho mayores que FP. El FP cuesta

unos pocos test más mientras que el FN puede costar una vida humana

• Para el conjunto de datos 1, el objetivo debe ser reducir el FN. Es decir, al modelo con mayor Recall se le debe dar preferencia sobre el conjunto 1

• Aunque el modelo 2 tiene un mayor valor de Recall, es el modelo preferido frente al modelo 1

Copyright (c) 2018. Data Science Dojo 111

Page 112: Modelos Lineales de Regresión

FP Vs. FN para el conjunto de datos 2

• Se asume que el conjunto de datos 2 es para la escala de color de piel humana. Hay 6 tipos de posibles predicciones {Tipo I, Tipo II, ...., Tipo VI}

• Para simplificar, asumamos que estamos interesados en identificar el Tipo I frente al resto

• La escala Fitzpatrick es útil para el cuidado de la piel (y la industria cosmética)

Copyright (c) 2018. Data Science Dojo 112

Page 113: Modelos Lineales de Regresión

FP Vs. FN para el Subconjunto 2• El FP para esto conjunto de datos representa a los que

pacientes que de hecho no tiene un color de piel de Tipo I y han sido clasificados erróneamente como tipo I

• El FN representa a los pacientes que tienen, de hecho, color de piel de Tipo I y que han sido erróneamente clasificados con un color de piel distinto del Tipo I

• Los costes asociados al FP y FN son similares• Para estos conjuntos datos el objetivo debería ser

minimizar tanto el FN como el FP• Por consiguiente, que el modelo tenga mayor precisión

junto con un mayor AUC debería tener una mayor ponderación

• En consecuencia, el Modelo 1 es un mejor clasificar donde el coste de error para FP y FN es simétrico

Copyright (c) 2018. Data Science Dojo 113

Page 114: Modelos Lineales de Regresión

Interpretando las Métricas para Ejemplos +ve

Copyright (c) 2018. Data Science Dojo 114

Page 115: Modelos Lineales de Regresión

Mismo coste de errores Tipo I y Tipo II

Modelo Exactitud Precisión Recall Puntos F1 AUCModelo 1 0.94 1 0.67 0.8 0.8Modelo 2 0.94 0.75 1 0.86 0.9Modelo 3 0.94 0.93 1 0.964 0.8Modelo 4 0.94 1 0.92 0.958 0.9

• AUC gestiona de la misma forma los más +ve y los más –ve • Puntación F1 para los Modelos 3 y 4 es muy similar. La razón es

que debido al gran número de ejemplos +ve y al hecho de que la puntuación F1 depende, tan solo, (la lectura se deteriora) de los ejemplos de clasificación +ve

• Para datos de puntuaciones F1 desequilibradas y AUC son importantes. Ahora bien, la puntuación F1 se vuelve más importante cuando hay menos ejemplos +ve lo cual es bastante frecuente en la asistencia sanitaria

Copyright (c) 2018. Data Science Dojo 115

Page 116: Modelos Lineales de Regresión

¿Qué clasificador es mejor?Classificador Exactitud Precisión Recall Puntos F1 AUCModelo 1 0.90 0.87 0.88 0.875 0.97Modelo 2 0.91 0.92 0.83 0.873 0.96

• Clasificadores• Apoyo a las máquinas de vectores (Modelo 1)• KNN (Modelo 2)

• En cuando a exactitud, el Modelo 2 es ligeramente mejor que el Modelo 1

• Como se comentó anteriormente, el cálculo de la exactitud no tiene en cuenta la diferencia entre los costes asociados a los errores del FP (Tipo I) y FN (Tipo II)

Copyright (c) 2018. Data Science Dojo 116

Page 117: Modelos Lineales de Regresión

AUC• El AUC para ambos clasificadores es próximo a 1,

lo cual es deseable. Es decir, el TPR es mayor y el FPR es menor para ambos clasificadores

• En lo relativo al AUC, el Modelo 1 es ligeramente mejor

• La exactitud del modelo es ligeramente mayor y el AUC es ligeramente mayor para el otro modelo. Así que, la exactitud y el AUC no son de ayuda en este caso concreto.

• Así que la pregunta todavía necesita respuesta: ¿Qué Modelo es el mejor?

Copyright (c) 2018. Data Science Dojo 117

Page 118: Modelos Lineales de Regresión

Recall, Precisión, Puntación F1• FP (ejemplos predichos como malignos que de

hecho son benignos) cuesta al paciente unos testsmás y finalmente su dinero

• FN (ejemplos predichos como benignos que son, de hecho, malignos) cuestan una vida humana

• En este caso la elección del proveedor de servicios sanitarios es obvia: elegir el modelo con un menor FN. FN es inversamente proporcional al Recall

• Cuanto mayor Recall mejor, es decir, la mayor proporción de pacientes con tumor maligno identificados correctamente.

Copyright (c) 2018. Data Science Dojo 118

Page 119: Modelos Lineales de Regresión

Respuesta: Un Mayor Recall• Habitualmente, se prefiere mayor Recall y mayor

Precisión. Sin embargo, es aceptable identificar pacientes como FP, realizar unos cuantos testsmás y estar más seguros. Esto ocasiona menor precisión

• No obstante, ambos modelos tienen una puntuación F1 similar y la Precisión del Modelo 2 es mayor que la del Modelo 1

• Un valor de Recall más alto para el Modelo 1 que hace que sea un mejor clasificador para este ejemplo.

Copyright (c) 2018. Data Science Dojo 119

Page 120: Modelos Lineales de Regresión

Ejemplo de Conjunto de Datos equilibrados: Detección y diagnóstico precoz de apoplejía• La apoplejía es una enfermedad frecuente que ha

afectado a 500 millones de personas en todo el mundo

• Es la primera causa de muerte en China y la 5ª en EE.UU*

• Consideremos la puntuación F1, AUC y Log-Losscomo las posibles métricas de valoración

* IA en los servicios sanitarios pasado, presente y futuro (https://svn.bmj.com/content/2/4/230)

Modelo Puntuación F1 AUC Log-LossModelo 1 0.88 0.94 0.28Modelo 2 0.97 0.98 0.6

Copyright (c) 2018. Data Science Dojo 120

Page 121: Modelos Lineales de Regresión

Interpretando los hallazgos para el caso de un conjunto de datos equilibrado• El Modelo 2 tiene la mejor:

• Puntuación F1• AUC

• Sin embargo, en cuanto al Log-Loss, el Modelo 1 tiene el mejor

• Aunque los datos están equilibrados, el coste del error de Tipo I del error de Tipo II. Esto otorga más confianza a la puntuación F1 y al AUC que al Log-Loss.

• El AUC puede ser razonable incluso para modelos inferiores. Como hemos visto en el ejemplo donde es 0.94 para el peor y 0.98 para el mejor modelo

• Por consiguiente, lo que es más importante, es la mayor puntuación F1 para el Modelo 2 lo que tiene más sentido en este escenario.

Copyright (c) 2018. Data Science Dojo 121

Page 122: Modelos Lineales de Regresión

Caso de Estudio: El Proyecto de Prueba de Ejercicios (FIT) de Henry Ford

• Los datos y los resultados de la evaluación se obtuvieron de un artículo de la revista [1] publicada el 18 de abril de 2018

• El conjunto de datos del estudio clínico se compone de 23,095 pacientes, recolectados por el proyecto FIT para investigar el desempeño relativo de diferentes técnicas de clasificación para predecir los individuos con riesgo de desarrollar hipertensión usando registros médicos de estado de forma cardiorrespiratoria.

• El estudio compara el desempeño de 6 modelos ML diferentes para predecir los individuos en riesgo de desarrollar hipertensión empleando datos de estado de forma cardiorrespiratoria.

• Usando distintos modelos de validación, el modelo RTF en el conjunto de datos ha ofrecido el mejor desempeño (AUC = 0.93) que supera a los modelos de estudios previos

[1] Sakr S, Elshawi R, Ahmed A, Qureshi WT, Brawner C, et al. (2018) Using machine learning on cardiorespiratory fitness data forpredicting hypertension: The Henry Ford ExercIse Testing (FIT) Project. PLOS ONE 13(4): e0195344. https://doi.org/10.1371/journal.pone.0195344

Copyright (c) 2018. Data Science Dojo 122

Page 123: Modelos Lineales de Regresión

El Proyecto Prueba de Ejercicios (FIT) de Henry Ford

• El estudio compara el desempeño de 6 modelos ML diferentes para predecir los individuos en riesgo de desarrollar hipertensión empleando datos de estado de forma cardiorrespiratoria.

• Usando distintos modelos de validación, el modelo RTF en el conjunto de datos ha ofrecido el mejor desempeño (AUC = 0.93) que supera a los modelos de estudios previos

[1] Sakr S, Elshawi R, Ahmed A, Qureshi WT, Brawner C, et al. (2018) Using machine learning on cardiorespiratory fitness data forpredicting hypertension: The Henry Ford ExercIse Testing (FIT) Project. PLOS ONE 13(4): e0195344. https://doi.org/10.1371/journal.pone.0195344

Copyright (c) 2018. Data Science Dojo 123

Page 124: Modelos Lineales de Regresión

Las curvas de AUC para diferentes modelos de Machine Learningusando SMOTE, evaluadas empleando validación cruzada de10 pliegues

• El RTF tiene la mejor curva de ROC. • El AUC es aparentemente el mayor

Copyright (c) 2018. Data Science Dojo 124

Page 125: Modelos Lineales de Regresión

Las Métricas

• El modelo RTF (Random Tree Forest) consigue el mayor AUC (0.93), y la puntuación F1 (86.70%), sensibilidad (69.96%) y especificidad (91.71%).

• ¿Qué significa una mayor especificidad para RTF?• Recuerda que las especificidad es la verdadera tasa de

reconocimiento negativo: TN/(TN+FP)• A mayor especificidad menor FP• Y por consiguiente, a menos pacientes se les hacen más tests• ¿Qué significa una mayor sensibilidad/recall para RTF?• Menor FN y por lo tanto menos pacientes +ve pasan inadvertidos al

paradigma de ML

Copyright (c) 2018. Data Science Dojo 125

Page 126: Modelos Lineales de Regresión

Nota para los entusiastas del ML• Los resultados muestran que no es necesario que

el modelo de machine learning sea complejo, para que la predicción consiga una mejor exactitud. Los modelos más simples pueden ofrecer un mejor desempeño en algunos casos también.

• Los resultados muestran que es crítico explorar con detenimiento y evaluar el desempeño de los modelos de machine learning usando varios modelos de evaluación puesto que la predicción de exactitud puede variar significativamente.

Copyright (c) 2018. Data Science Dojo 126

Page 127: Modelos Lineales de Regresión

¿Cuándo usar una Métrica en Particular?

• Para categorías equilibradas la exactitud es una buen métrica• AUC es una buen métrico para datos equilibrados, sin embargo, es más efectivo para

conjuntos de datos desequilibrados• Si hay una clase dominante (conjunto de datos desequilibrados) entonces hay que dar

más importancia al AUC y a la puntación F1• Si el objetivo es clasificar la categoría menor mejor, independientemente de si es una

categoría +ve o –ve, entonces el AUC es una buena medida• La puntuación F1 es importante cuando la clase +ve es pequeña.• Si la aplicación necesita tener un FN mínimo entonces hay que buscar un mayor recall• Si la aplicación necesita tener un FN mínimo entonces hay que buscar un mayor

precisión• Un mayor recall/sensibilida es mejor para identificar los ejemplos +ve• Una mayor especificidad es mejor para identificar los ejemplos -ve• Aunque, poco usada, la Log-Loss es importante para la diferencia probabilística absoluta.

Es importante en algunas aplicaciones• El RMSE es útil cuando los algoritmos de clasificación se evalúan para las predicciones

Copyright (c) 2018. Data Science Dojo 127

Page 128: Modelos Lineales de Regresión

Conclusión• Una métrica puede ser buena en un escenario y funcionar en otro.• Las métricas se han de elegir basadas en el equilibrio de los datos• Si los ejemplos +ve son menores o más importantes para clasificar,

entonces da credibilidad a unas métricas sobre otras• En general, es una mejor idea calcula más métricas y entonces

decidir a favor de un modelo en particular • Generalmente, un buen algoritmo de ML consigue un buen

equilibrio entre la Precisión y el Recall.• Si la diferencia en costes entre los errores de Tipo I y Tipo II es

grande entonces la Precisión and el Recall son las métricas preferidas

• El mejor escenario para su aplicación en los servicios sanitarios es cuando tanto el recall y especificidad son máximos

Copyright (c) 2018. Data Science Dojo 128

Page 129: Modelos Lineales de Regresión

Implementación de recomendaciones legislativas

Financiación sanitaria basada en Resultados

Page 130: Modelos Lineales de Regresión

Usando el aprendizaje supervisado para seleccionar objetivos de control en la financiación sanitaria basada en resultados: En Ejemplo de ZambiaPor Dhruv Grover, Sebastian Bauhoff, and Jed Friedman

130Copyright (c) 2018. Data Science Dojo

Page 131: Modelos Lineales de Regresión

Estableciendo el contexto• Zambia dirigió un proyecto piloto de 2012-4 de

financiación basada en resultados de centros de salud públicos

• A los centros públicos de salud se les paga por la cantidad y cualidad de los servicios que ellos ofrecen

• Participaron centros públicos de salud (que cubren el 11% de la población de Zambia) en 10 distritos rurales

131Copyright (c) 2018. Data Science Dojo

Page 132: Modelos Lineales de Regresión

El Programa Mejoró Determinados Indicadores Pero…• El 42% of instalaciones sobrenotificaron al menos

uno de cada 4 trimestre medidos• La financiación por servicio incentivó tanto la

ejecución del servicio como la sobrenotificación• El pago por los servicios sobrenotificados mina el

incentivo para la ejecución de servicio y es una perdida de recursos públicos => necesitamos minimizar la sobrenotificación

132Copyright (c) 2018. Data Science Dojo

Page 133: Modelos Lineales de Regresión

¿Qué Medidas se tomaron para Reducir la Sobrenotificación?• Comités de dirección específicos realizaron

verificación interna de forma continuada reconciliando la información comunicada por instalación con evidencias basadas en papel

• Una tercera parte independiente realizó un proceso de verificación externa después de 2 años de la ejecución del programa (coste $22.5k)

133Copyright (c) 2018. Data Science Dojo

Page 134: Modelos Lineales de Regresión

Necesitan Enfocarse en la Verificación de tal forma que Identifique la Sobrenotificación de la Instalación pero sin tener un coste prohibitivo

• El objetivo de la verificación externa es minimizar la sobrenotificación mientras que minimiza los costes de verificación

• Puedes inspeccionar de forma independiente cada instalación => esto eliminaría completamente la sobrenotificación PERO sería prohibitivo en costes

• No puedes inspeccionar cada instalación PERO es probable que haya una reducción substancial en la cantidad de sobrenotificación que puede empeorar con el tiempo cuando las facultativos se den cuenta de que pueden aprovecharse de la falta de inspección

134Copyright (c) 2018. Data Science Dojo

Page 135: Modelos Lineales de Regresión

¿Cómo Identificar Instalaciones que es Probable que Hayan Sobrenotificado?

• Es posible identificar la sobrenotificación usando muestras aleatorias o machine learning

• Predicen la sobrenotificación definida como: • 1 si la diferencia entre los datos reportados y

verificados es mayor al > 10% de los valores reportados

• 0 en caso contrario• Usando las siguientes características de

imputación:• Los valores reportados y verificados para las 9

medidas de cantidad premiadas en el programa de PBF;

• Control de variables

135Copyright (c) 2018. Data Science Dojo

Page 136: Modelos Lineales de Regresión

Factores que Determinan la Elección de una Técnica de ML1. ¿Cuál es el tamaño del conjunto de datos de

entrenamiento?2. ¿Pueden las características ser tratadas como

variables independientes?3. ¿Estarán disponibles en el futuro datos

adicionales de entrenamiento y necesitaran ser incorporados en el modelo?

4. ¿Son los datos linealmente separables?5. ¿Se espera que el sobreajuste sea un problema?6. ¿Hay algunos requisitos de velocidad, desempeño

y uso de memoria?136Copyright (c) 2018. Data Science Dojo

Page 137: Modelos Lineales de Regresión

Los Algoritmos Leen los Patrones de los Inputs que Indican que la Instalación está en Riesgo de Sobrenotificar

• Los patrones se aprenden de los datos tan solo desde el primer trimestre

• Los modelos (algoritmo + datos + parámetros) se miden de acuerdo a cuanto de bien identifican las instalaciones que sobrenotifican en el primer timestre

• Y los modelos pueden emplear este aprendizaje para predecir el riesgo de otras instalaciones de sobrenotificar en datos no vistos en trimestres subsiguientes

• En esta ocasión, el random forest realizó un desempeño superior al del resto de los algoritmos en cada una de las 5 métricas

137Copyright (c) 2018. Data Science Dojo

Page 138: Modelos Lineales de Regresión

¿Cómo Cambia esto el Enfoque de la Verificación?• Los verificadores pueden enviar equipos de

inspección para verificar los datos en aquellas instalaciones que tienen el mayor riesgo de sobrenotificación

• Ahorran c.$800 por clínica que no inspeccionaron por ser innecesario

• Los verificadores necesitan recoger de forma periódica otra muestra aleatoria para re-entrenar al modelo de tal forma que aquellos identificados como con bajo riesgo se aprovechen de las falta de supervisión para sobrenotificar.

138Copyright (c) 2018. Data Science Dojo