Modelos Lineales de Regresión
Transcript of Modelos Lineales de Regresión
![Page 1: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/1.jpg)
Modelos Lineales de Regresión
![Page 2: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/2.jpg)
Agenda
• Introducción• Descenso de gradiente
• Función de costes y minimización• Implementación
• Evaluación de Modelos de Regresión• Regularización
2Copyright © 2018. Data Science Dojo
![Page 3: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/3.jpg)
INTRODUCCIÓN
Copyright © 2018. Data Science Dojo3
![Page 4: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/4.jpg)
Regresión
Predice la duración de la estancia de los pacientes
en el hospital
4Copyright © 2018. Data Science Dojo
Predice el coste del tratamiento
Predice la cantidad de personal que se necesita
en un día concreto
![Page 5: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/5.jpg)
Apunte: Conjunto de Datos de Cáncer de Pecho
5: El paciente está en la 5ª columna1: El diagnóstico del paciente está en la 1ª columna
𝑥𝑥15
5Copyright © 2018. Data Science Dojo
123456
![Page 6: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/6.jpg)
Apunte: Conjunto de Datos de Cáncer de Pecho
¿Cómo describimos todas las filas?
𝑥𝑥1 = [17.99, 10.38, 122.80]𝑥𝑥2 = [20.57, 17.77, 132.90]𝑥𝑥3 = [19.69, 21.25, 130.00]
Fila 1Fila 2
Fila 3
6Copyright © 2018. Data Science Dojo
![Page 7: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/7.jpg)
El conjunto de datos de cáncer de pecho anota las propiedades físicas de un tumor y su diagnóstico
Usando esta notación, podemos describir todas las columnas del conjunto datos.
Apunte: Conjunto de Datos de Cáncer de Pecho
𝑥𝑥1 𝑥𝑥2 𝑥𝑥3
𝑋𝑋𝑌𝑌
7Copyright © 2018. Data Science Dojo
![Page 8: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/8.jpg)
Resumen de notación
𝑥𝑥𝑖𝑖– Cada fila de características𝑥𝑥𝑗𝑗 – Cada columna de característicasX – Conjunto de todas las columnasde características𝑦𝑦𝑖𝑖 – Cada fila del objetivoY – La columna del objetivon – Número de filas en el conjunto de datosm – Número de columnas en el conjunto de datos
Características
Objetivo
8Copyright © 2018. Data Science Dojo
![Page 9: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/9.jpg)
FUNCIÓN DE COSTES Y DESCENSO DE GRADIENTE
Copyright © 2018. Data Science Dojo9
![Page 10: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/10.jpg)
¿Qué es una buena línea de regresión?
• Velocidad del viento=15 mph • Ozono = ?• Emplear la línea que está en algún lugar del medio
• ¿Cómo definimos el “medio”?
ℎ𝜃𝜃 𝑥𝑥 = 𝜃𝜃0 + 𝜃𝜃1𝑥𝑥
10Copyright © 2018. Data Science Dojo
![Page 11: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/11.jpg)
Definir una línea
¿Cómo definimos una línea en notación pendiente-interceptar?
• 𝑦𝑦 = 𝒎𝒎𝑥𝑥 + 𝒃𝒃
En notación 𝜃𝜃• ℎ𝜃𝜃(x)= 𝜽𝜽1x + 𝜽𝜽0
m = pendiente
b = interceptar 𝜃𝜃0
𝜃𝜃1
11Copyright © 2018. Data Science Dojo
![Page 12: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/12.jpg)
Más características
𝑦𝑦 𝑥𝑥1 𝑥𝑥2 𝑥𝑥3
ℎ𝜃𝜃 𝑥𝑥 = 𝜃𝜃0 + 𝜃𝜃1𝑥𝑥1 + 𝜃𝜃2𝑥𝑥2 + 𝜃𝜃3𝑥𝑥3
12Copyright © 2018. Data Science Dojo
![Page 13: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/13.jpg)
Residuos (o "Errores")
Diferencia entre la hipótesis hθ(x) (valor precedido) y verdadero valor (objetivo definido)
Error 2
Error 1
13Copyright © 2018. Data Science Dojo
![Page 14: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/14.jpg)
Función de costes
Minimiza la función de ‘coste’ o ‘pérdida’ – 𝐽𝐽(𝜃𝜃)
• Más pequeño para menor error
• Más grande para mayor error
𝐽𝐽 𝜃𝜃 =12𝑛𝑛
�𝑖𝑖=1
𝑛𝑛
ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 2
14Copyright © 2018. Data Science Dojo
Error 2
Error 1
![Page 15: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/15.jpg)
Función de Costes
θ1=2
θ1=1.0
θ1=0.5
θ0=0
ℎ𝜃𝜃 𝑥𝑥 = 𝜃𝜃0 + 𝜃𝜃1𝑥𝑥𝐽𝐽 𝜃𝜃 =
12𝑛𝑛
�𝑖𝑖=1
𝑛𝑛
ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 2
Cada punto de la parábola corresponde con una línea del gráfica de la izquierda
15Copyright © 2018. Data Science Dojo
![Page 16: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/16.jpg)
Función de costes en 3 dimensiones
𝐽𝐽 𝜃𝜃 =12𝑛𝑛
�𝑖𝑖=1
𝑛𝑛
ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 2
𝜃𝜃0 𝜃𝜃1
𝐽𝐽(𝜃𝜃 0
,𝜃𝜃1)
16Copyright © 2018. Data Science Dojo
![Page 17: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/17.jpg)
¿Cómo definimos el mínimo de una función de costes?
17Copyright © 2018. Data Science Dojo
![Page 18: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/18.jpg)
Problema del Máximo/Mínimo
Encuentra 2 números no negativos cuya suma sea 9 de tal forma que el producto de un número y el cuadrado de otro sea máximo.
18Copyright © 2018. Data Science Dojo
![Page 19: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/19.jpg)
Solución (1/2)
La suma de los números es 99 = x + y
El producto de los 2 números es P = x y2
= x (9-x)2
19Copyright © 2018. Data Science Dojo
![Page 20: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/20.jpg)
Solución (2/2)
Usando la regla de producto y la regla de la cadena de Calculus101:
P' = x (2) ( 9-x)(-1) + (1) ( 9-x)2
= ( 9-x) [ -2x + ( 9-x) ]= ( 9-x) [ 9-3x ]= ( 9-x) (3)[ 3-x ]= 0
x=9 o x=3
20Copyright © 2018. Data Science Dojo
![Page 21: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/21.jpg)
Problema del máximo
Hay 50 árboles en una plantación de árboles frutales. Cada árbol produce 800 manzanas. Por cada árbol adicional plantado en el la plantación de frutales, la producción de cada árbol se reduce en10 manzanas.
Pregunta: ¿cuantos arboles adicionales deben ser plantados en la plantación de árboles frutales existente para maximizar la producción de manzanas de la plantación?
21Copyright © 2018. Data Science Dojo
![Page 22: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/22.jpg)
Añadir 15 árboles maximizaría la producción
Solución
A = (50 + t) x (800 – 10t) A = 40,000 + 300t – 10t2
Despeja A’ y ajusta a 0 para encontrar el máximo.A’ = – 20t + 300 = 0t = 15
22Copyright © 2018. Data Science Dojo
![Page 23: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/23.jpg)
Descenso de Gradiente
• Objetivo: minimiza 𝐽𝐽(𝜃𝜃)• Empieza con algunos 𝜃𝜃 iniciales y entonces realiza un actualización en cada 𝜃𝜃𝑗𝑗 sucesivamente:
• Repite hasta que 𝜃𝜃 converge
𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼𝜕𝜕𝜕𝜕𝜃𝜃𝑗𝑗
𝐽𝐽(𝜃𝜃𝑘𝑘)
23Copyright © 2018. Data Science Dojo
![Page 24: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/24.jpg)
Descenso de Gradiente
• 𝛼𝛼 es conocido como el ratio de aprendizaje; establecido por el usuario
• Cada vez el que algoritmo da un paso en la dirección de la línea con mayor inclinación y 𝐽𝐽 𝜃𝜃 decrece.
• 𝛼𝛼 determina cuanto de rápido o lento el algoritmo va a converger con la solución
𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼𝜕𝜕𝜕𝜕𝜃𝜃𝑗𝑗
𝐽𝐽(𝜃𝜃𝑘𝑘)
24Copyright © 2018. Data Science Dojo
![Page 25: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/25.jpg)
Conclusiones
𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼𝜕𝜕𝜕𝜕𝜃𝜃𝑗𝑗
𝐽𝐽(𝜃𝜃𝑘𝑘)
𝜃𝜃𝑗𝑗𝑘𝑘
𝜃𝜃𝑗𝑗𝑘𝑘+1
𝜃𝜃𝑗𝑗𝑘𝑘+3
Pendiente Positiva
Pendiente negativa
𝜃𝜃𝑗𝑗
25Copyright © 2018. Data Science Dojo
![Page 26: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/26.jpg)
Efecto de un alto ratio de aprendizaje: Gran 𝛼𝛼
𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼𝜕𝜕𝜕𝜕𝜃𝜃𝑗𝑗
𝐽𝐽(𝜃𝜃𝑘𝑘)
Pendiente positiva
Pendiente negativa
𝜃𝜃𝑗𝑗
26Copyright © 2018. Data Science Dojo
![Page 27: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/27.jpg)
Efectos del ratio de aprendizaje: Pequeña 𝛼𝛼
𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼𝜕𝜕𝜕𝜕𝜃𝜃𝑗𝑗
𝐽𝐽(𝜃𝜃𝑘𝑘)
Pendiente positiva
Pendiente negativa
𝜃𝜃𝑗𝑗
27Copyright © 2018. Data Science Dojo
![Page 28: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/28.jpg)
Implementación de Descenso de Gradiente
¿Cuándo paras de actualizar?
Pendiente positiva
Pendiente negativa
𝜃𝜃𝑗𝑗
¿Aquí?¿Aquí?
• Cuando 𝜃𝜃𝑗𝑗𝑘𝑘+1
está cerca de 𝜃𝜃𝑗𝑗𝑘𝑘
• Cuando 𝐽𝐽(𝜃𝜃𝑘𝑘+1)está cerca de 𝐽𝐽(𝜃𝜃𝑘𝑘) [El error no cambia]
28Copyright © 2018. Data Science Dojo
![Page 29: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/29.jpg)
Descenso de Gradiente en Grupo
• ¿Cómo incorporamos todos nuestros datos?• ¡Bucle!
Para j de 0 a m:
•ℎ𝜃𝜃 se actualiza solo cuando el bucle se ha completado
•¿Debilidades?
𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼1𝑛𝑛�
𝑖𝑖=1
𝑛𝑛ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 𝑥𝑥𝑗𝑗𝑖𝑖
𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼𝜕𝜕𝜕𝜕𝜃𝜃𝑗𝑗
𝐽𝐽(𝜃𝜃𝑘𝑘)
Cada representa una característica 𝜃𝜃𝑗𝑗
29Copyright © 2018. Data Science Dojo
![Page 30: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/30.jpg)
Descenso de Gradiente en Grupo
• ¡Bucle!Para j de 0 a m:
𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼1𝑛𝑛�
𝑖𝑖=1
𝑛𝑛ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 𝑥𝑥𝑗𝑗𝑖𝑖
30Copyright © 2018. Data Science Dojo
![Page 31: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/31.jpg)
Descenso de Gradiente Estocástica
• Considera una aproximación alternativa:
• ℎ𝜃𝜃 se actualiza cuando el bucle interno se completa• Si el conjunto de entrenamiento es grande, converge antes que en grupo
• Puede oscilar alrededor del mínimo de 𝐽𝐽(𝜃𝜃) y nunca converger
for i from 1 to n:for j from 0 to m:𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼 ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 𝑥𝑥𝑗𝑗𝑖𝑖
* Estamos tan solo tomando una observación aleatoria cada vez como una muestra, en lugar de realizar la media entre observaciones
31Copyright © 2018. Data Science Dojo
![Page 32: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/32.jpg)
En grupo vs. Estocástico
¿Cuál es mejor? Depende.
Descenso de Gradiente en Grupo
Descenso de Gradiente Estocástico
FunciónActualiza la hipótesis escaneando todo el conjunto de datos
Actualiza la hipótesisescaneando una muestra de entrenamiento cada vez
Ratio de convergencia LentamenteRápidamente(pero puede oscilar en el mínimo)
Tamaño de Conjunto de Datos apropiado Pequeño Grande
32Copyright © 2018. Data Science Dojo
![Page 33: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/33.jpg)
EVALUANDO MODELOS DE REGRESIÓN
33Copyright © 2018. Data Science Dojo
![Page 34: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/34.jpg)
Evaluando las métricas de Regresión
• Error Absoluto Medio (MAE)
• Raíz cuadrada del error cuadrático medio (RMSE)• Raíz cuadrada de la desviación
• Coeficiente de determinación(R2)
34Copyright © 2018. Data Science Dojo
![Page 35: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/35.jpg)
Error Absoluto Medio
• Media de los valores residuales• Medida “pura” de error
𝑀𝑀𝑀𝑀𝑀𝑀 𝜃𝜃 =∑𝑖𝑖=1𝑛𝑛 ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖
𝑛𝑛
35Copyright © 2018. Data Science Dojo
![Page 36: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/36.jpg)
Error Absoluto Medio - Ejemplo
𝑦𝑦 = 36, 19, 34, 6, 1, 45
ℎ𝜃𝜃 𝑥𝑥 = 27,−2.6, 13,−7.3,−2.6, 48
ℎ𝜃𝜃 𝑥𝑥 − 𝑦𝑦 = 9, 21.6, 21, 13.3, 3.6, 3
𝑀𝑀𝑀𝑀𝑀𝑀 𝜃𝜃 =71.5
6 = 11.9
36Copyright © 2018. Data Science Dojo
![Page 37: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/37.jpg)
Raíz cuadrada del error cuadrático medio
• Raíz cuadrada de la media del cuadrado de residuos• Penaliza más a los errores grandes que a los pequeños
• Una buena medida que se usa para acentuar los valores atípicos
𝑅𝑅𝑀𝑀𝑅𝑅𝑀𝑀 𝜃𝜃 =∑𝑖𝑖=1𝑛𝑛 ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 2
𝑛𝑛
37Copyright © 2018. Data Science Dojo
![Page 38: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/38.jpg)
RMSE - Ejemplo
𝑦𝑦 = 36, 19, 34, 6, 1, 45
ℎ𝜃𝜃 𝑥𝑥 = 27,−2.6, 13,−7.3,−2.6, 48
ℎ𝜃𝜃 𝑥𝑥 − 𝑦𝑦 2 = 81, 467, 441, 177, 13, 9
𝑅𝑅𝑅𝑅𝑀𝑀𝑀𝑀 𝜃𝜃 =1187
6 = 14.1
38Copyright © 2018. Data Science Dojo
![Page 39: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/39.jpg)
Coeficiente de Determinación (R2)
donde
𝑅𝑅𝑅𝑅𝑟𝑟𝑟𝑟𝑟𝑟 – Suma de cuadrados de residuos (ej. Error cuadratico total)𝑅𝑅𝑅𝑅𝑡𝑡𝑡𝑡𝑡𝑡 –Suma diferencias cuadradas de la media (ej. Variación total del conjunto de datos)
Resultado: Medida de cuanto de bien explica el modelo los datos• “Parte de la variación de los datos explicados por el modelo"
𝑅𝑅2 = 1 −𝑅𝑅𝑅𝑅𝑟𝑟𝑟𝑟𝑟𝑟𝑅𝑅𝑅𝑅𝑡𝑡𝑡𝑡𝑡𝑡
𝑅𝑅𝑅𝑅𝑟𝑟𝑟𝑟𝑟𝑟 = �𝑖𝑖=1
𝑛𝑛
ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 2 𝑅𝑅𝑅𝑅𝑡𝑡𝑡𝑡𝑡𝑡 = �𝑖𝑖=1
𝑛𝑛
𝑦𝑦𝑖𝑖 − �𝑦𝑦 2
39Copyright © 2018. Data Science Dojo
![Page 40: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/40.jpg)
REGULARIZACIÓN
40Copyright © 2018. Data Science Dojo
![Page 41: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/41.jpg)
SobreajustePr
ice
Size𝜃𝜃0 + 𝜃𝜃1𝑥𝑥
Pric
e
Size𝜃𝜃0 + 𝜃𝜃1𝑥𝑥 + 𝜃𝜃2𝑥𝑥2
Pric
e
Size𝜃𝜃0 + 𝜃𝜃1𝑥𝑥 + 𝜃𝜃2𝑥𝑥2 + 𝜃𝜃3𝑥𝑥3 + 𝜃𝜃4𝑥𝑥4
41Copyright © 2018. Data Science Dojo
![Page 42: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/42.jpg)
Conclusiones
𝐽𝐽′ 𝜃𝜃 = 𝐽𝐽 𝜃𝜃 + 𝑃𝑃𝑃𝑃𝑛𝑛𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑛𝑛
Prec
io
Tamaño𝜃𝜃0 + 𝜃𝜃1𝑥𝑥 + 𝜃𝜃2𝑥𝑥2 + 𝜃𝜃3𝑥𝑥3 + 𝜃𝜃4𝑥𝑥4 𝜃𝜃0 + 𝜃𝜃1𝑥𝑥 + 𝜃𝜃2𝑥𝑥2 + 𝜃𝜃3𝑥𝑥3 + 𝜃𝜃4𝑥𝑥4
Prec
io
Tamaño
Asegurarse de que sea pequeño
42Copyright © 2018. Data Science Dojo
![Page 43: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/43.jpg)
Definiciones
• Dos de los métodos más comunes• L1 regularización
• Regresión de lasso
• L2 regularización • Regresión contraída• Degradación
de ponderaciones𝐽𝐽𝐿𝐿2 𝜃𝜃 =
12𝑛𝑛
�𝑖𝑖=1
𝑛𝑛
ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖2
+ 𝜆𝜆�𝑗𝑗=1
𝑚𝑚
𝜃𝜃𝑗𝑗2
𝐽𝐽𝐿𝐿1 𝜃𝜃 =12𝑛𝑛
�𝑖𝑖=1
𝑛𝑛
ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖2
+ 𝜆𝜆�𝑗𝑗=1
𝑚𝑚
𝜃𝜃𝑗𝑗
43Copyright © 2018. Data Science Dojo
![Page 44: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/44.jpg)
Regresión regularizada
• Encontrar el mejor ajuste• Mantener los términos 𝜃𝜃𝑗𝑗 tan pequeños como sea posible.
• λ es un parámetro establecido por el usuario que controla el intercambio
𝐽𝐽𝐿𝐿2 𝜃𝜃 =12𝑛𝑛
�𝑖𝑖=1
𝑛𝑛
ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖2
+ 𝜆𝜆�𝑗𝑗=1
𝑚𝑚
𝜃𝜃𝑗𝑗2𝐽𝐽𝐿𝐿1 𝜃𝜃 =12𝑛𝑛
�𝑖𝑖=1
𝑛𝑛
ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖2
+ 𝜆𝜆�𝑗𝑗=1
𝑚𝑚
𝜃𝜃𝑗𝑗
44Copyright © 2018. Data Science Dojo
![Page 45: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/45.jpg)
Regresión regularizada
• El tamaño de 𝜆𝜆 es importante• 𝜆𝜆 demasiado grande=> no ajuste• 𝜆𝜆 demasiado pequeño=> no regularización
𝐽𝐽𝐿𝐿2 𝜃𝜃 =12𝑛𝑛
�𝑖𝑖=1
𝑛𝑛
ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖2
+ 𝜆𝜆�𝑗𝑗=1
𝑚𝑚
𝜃𝜃𝑗𝑗2𝐽𝐽𝐿𝐿1 𝜃𝜃 =12𝑛𝑛
�𝑖𝑖=1
𝑛𝑛
ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖2
+ 𝜆𝜆�𝑗𝑗=1
𝑚𝑚
𝜃𝜃𝑗𝑗
45Copyright © 2018. Data Science Dojo
![Page 46: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/46.jpg)
PREGUNTAS
46Copyright © 2018. Data Science Dojo
![Page 47: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/47.jpg)
Aprendizaje no Supervisado y K-Means Clustering
![Page 48: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/48.jpg)
Aprendizaje no supervisado• Intentando encontrar una estructura oculta en datos no etiquetados
• Sin error o señal de recompensa para evaluar una solución potencial. Sin necesidad de escoger una response class.
• Técnicas comunes: K-Means clustering, agrupación jerárquica, modelos de Markovocultos, etc.
48Copyright (c) 2018. Data Science Dojo
![Page 49: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/49.jpg)
Elegir el número de clustersEjemplo 1 (conocimiento de dominio/aspectos prácticos): Tallas de ropa• Hacerlas a medida para cada persona es caro• One-size-fits-all: ¡No funciona!• Agrupa a la gente en tallas similares para
confeccionar camisetas “pequeñas”, “medianas”, y “grandes”
49Copyright (c) 2018. Data Science Dojo
![Page 50: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/50.jpg)
Elegir un número de clustersEjemplo 2 (con evaluación): Segmentación de pacientes• Subdivide a los pacientes
en distintos grupos basados en las características de las enfermedades
• Donde cada subgrupo puede ser seleccionado viablemente como un segmento; y entonces, ser enfocado con modelos de atención y programas de intervención ajustados a sus necesidades.
50Copyright (c) 2018. Data Science Dojo
![Page 51: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/51.jpg)
K-Means Clustering• Divide los puntos de datos entre grupos de semejanza
• Técnica no supervisada: no hay partición entre un aprendizaje o un grupo de tests en el aprendizaje no supervisado
• Útil en la agrupación de observaciones• Solo funciona para datos numéricos
51Copyright (c) 2018. Data Science Dojo
![Page 52: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/52.jpg)
Preparación de los datos
• Transforma variables de categorías en números
• Estandariza• Reduce el tamaño
52
Edad Pclase.1 Pclase.2 Pclase.3 Sexo.mujer Sexo.hombre
19 0 1 0 0 1
28 1 0 0 1 0
64 0 0 1 0 1
Llamadas frecuentemente“dummy variables” o “one-hot encoding”
Copyright (c) 2018. Data Science Dojo
![Page 53: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/53.jpg)
Distancia EuclidianaDetermina la semejanza intra- e inter-cluster
53
x1, y1
x2, y2
Copyright (c) 2018. Data Science Dojo
Las distancias Intra-cluster se minimizan
Las distancias Inter-clusterse maximizan
![Page 54: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/54.jpg)
K-Means Clustering (1/2)
1 2
![Page 55: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/55.jpg)
K-Means Clustering (2/2)
3 4 5
Las posiciones de los centros del cluster se determinan por la media de todos los puntos dentro
del grupo.
![Page 56: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/56.jpg)
K-Means Clustering
56Copyright (c) 2018. Data Science Dojo
K=3
![Page 57: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/57.jpg)
Algoritmo de K-Means Clustering
57
Supongamos un conjunto de puntos de datos: { x1, x2, x3……….xn}• Paso 0: Decidir el número de clusters, K=1,2,…k.• Paso 1: Establecer centroides en localizaciones aleatorias➢ c1, c2,….ck
• Paso 2: Repetir hasta la convergencia:{para cada punto xi encontrar el centroide más cercano
cj (ej. Distancia Euclidiana) asignar el punto xi al grupo j
para cada grupo j = 1..k calcular nuevo centroide cjcj=mediana de todos los puntos xi asignados al grupo j en el paso anterior}• Paso 3: Parar cuando ninguna de las asignaciones del grupo
cambienCopyright (c) 2018. Data Science Dojo
![Page 58: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/58.jpg)
K-Means Clustering• Minimiza la distancia agregada intra-cluster
• Mide la distancia al cuadrado desde un punto hasta el centro de su grupo.
�𝑗𝑗=1
𝐾𝐾
�𝑥𝑥∈𝑔𝑔𝑗𝑗
𝐷𝐷 𝑃𝑃𝑗𝑗, 𝑥𝑥 2
• Puede converger con el mínimo local• Diferentes puntos de inicio resultados muy
dispares• Realizada muchas veces con puntos de inicio
aleatorios• Los puntos cercanos pueden no ser asignados al mismo
cluster
![Page 59: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/59.jpg)
• Fortalezas• Simple: fácil de entender y de implementar• Eficiente: tiempo lineal, almacenamiento mínimo
• Debilidades• La media ha de estar bien definida• El usuario necesita especificar k• El algoritmo es sensible a los valores atípicos
59Copyright (c) 2018. Data Science Dojo
K-Means Clustering
![Page 60: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/60.jpg)
Despejar K con el Método Elbow
60
Opción 1 – Porcentaje de la varianza explicada como una función del número de clusters.
Objetivo - Elegir el número de grupos de tal forma que al añadir otro cluster no aporte un mejor modelado de los datos.
Opción 2 –Total del cuadrado de las distancias
del punto del cluster al centro.
Copyright (c) 2018. Data Science Dojo
![Page 61: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/61.jpg)
PREGUNTAS
61Copyright (c) 2018. Data Science Dojo
![Page 62: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/62.jpg)
Ingeniería de Big Data
![Page 63: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/63.jpg)
• Introducción• Un problema clave– machine learning a escala• Computación distribuida con Apache Hadoop & Hive
• Machine learning a escala con Apache Mahout• Computación distribuida v2.0 – Apache Spark
Agenda
Copyright (c) 2018. Data Science Dojo 63
![Page 64: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/64.jpg)
5 Vs del Big Data
Datos estáticosDe Terabytes a
exabytes de procesos de datos existentes
Velocidad
Datos en movimiento
Datos fluidos, de milisegundos a segundos para
responder
Variedad
Datos en muchas formas
Estructurados, destructurados, texto, y
multimedia
Veracidad
Datos en dudaIncertidumbre por la
inconsistencia de datos, su falta, ambigüedades,
latencia, engaño, y aproximaciones al
modelo
Valor
Los datos pueden tener un valor
distintoNo todos los bytes son
creados iguales
$$$$ $
$
$$$ $
$
$
Objetivo: ¡Como científicos de datos queremos un acceso efectivo en costes a los datos en bruto para nuestros productos de datos!
Copyright (c) 2018. Data Science Dojo 64
![Page 65: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/65.jpg)
MACHINE LEARNING A ESCALA
65Copyright © 2018. Data Science Dojo
![Page 66: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/66.jpg)
OSS Limites R
Núcleo único Hilo único
Modelo A Modelo B Modelo C
Quad Core Laptop
Copyright (c) 2018. Data Science Dojo 66
![Page 67: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/67.jpg)
• Núcleo único• Hilo único• All in memory (RAM)• Vectores y Matrices limitadas a 4,294,967,295 elementos (filas) si la versión es de 32-bit; 2^32 - 1
OSS Límites R
Copyright (c) 2018. Data Science Dojo 67
![Page 68: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/68.jpg)
OSS Límites R: RAM• All in memory (RAM)
Ejemplo del portátil:
𝑀𝑀𝑃𝑃𝑥𝑥 𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃 𝑑𝑑𝑃𝑃 𝐷𝐷𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 = 𝑇𝑇𝐷𝐷𝐿𝐿𝑃𝑃𝑃𝑃 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝐷𝐷𝐷𝐷𝑅𝑅𝑀𝑀𝑀𝑀 𝑥𝑥 80% − 𝑈𝑈𝐷𝐷𝐷𝐷 𝑅𝑅𝑀𝑀𝑀𝑀 𝑁𝑁𝐷𝐷𝑁𝑁𝐿𝐿𝑃𝑃𝑃𝑃 𝑅𝑅𝑀𝑀𝑀𝑀
𝑀𝑀𝑃𝑃𝑥𝑥 𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃 𝑑𝑑𝑃𝑃 𝐷𝐷𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 = 5.9 𝑔𝑔𝑔𝑔 𝑥𝑥 80% − 3.2gb𝑀𝑀𝑃𝑃𝑥𝑥 𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃 𝑑𝑑𝑃𝑃 𝐷𝐷𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 = ~1.52𝑔𝑔𝑔𝑔
*Marcos de datos R aumentanlos datos, de hecho, por ~3x𝐿𝐿𝐿𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐷𝐷 𝑑𝑑𝑃𝑃 𝑑𝑑𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 𝑅𝑅 = ~1.52𝑔𝑔𝑔𝑔 ÷ 3 = ~506.7𝐿𝐿𝑔𝑔
Copyright (c) 2018. Data Science Dojo 68
![Page 69: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/69.jpg)
OSS Límites R: RAM
Los VM de Azure con la mayor RAM*:
*Data recogidos 06/07/2017
24x7x52 Coste anual: $116,938.44!
𝑀𝑀𝑃𝑃𝑥𝑥 𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃 𝑑𝑑𝑃𝑃 𝐷𝐷𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 = 2000𝑔𝑔𝑔𝑔 𝑥𝑥 80% − 1𝑔𝑔𝑔𝑔𝑀𝑀𝑃𝑃𝑥𝑥 𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃 𝑑𝑑𝑃𝑃 𝐷𝐷𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 = ~1600𝑔𝑔𝑔𝑔𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐷𝐷 𝑑𝑑𝑃𝑃 𝐷𝐷𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 = ~1600𝑔𝑔𝑔𝑔 ÷ 3 = ~533.33 𝑔𝑔𝑔𝑔
Copyright (c) 2018. Data Science Dojo 69
![Page 70: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/70.jpg)
Escalado de Machine Learning
•Hadoop•Spark•H20•Microsoft R Server
Distribuidos
•Azure ML•AWS ML•Big ML•Cloud Virtual Machines
Nube
•R•Python•SAS
Programación
•Excel
Programas
¡Estos solo nos llevan hasta aquí! ¡Escala de Big data!
Copyright (c) 2018. Data Science Dojo 70
![Page 71: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/71.jpg)
COMPUTACIÓN DISTRIBUIDA CON APACHE HADOOP
71Copyright © 2018. Data Science Dojo
![Page 72: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/72.jpg)
Da marcha atrás al reloj, El Mainframe
• “Big Iron”• La piedra angular de la
computación durante décadas.• Todavía ampliamente usado.• “Escalación” modelo de
computación compartida.• La plataforma núcleo es efectiva
en costes, los ecosistemas no (ej., concesión de licencias de software).
• ¡El anfitrión original de VM!
Copyright (c) 2018. Data Science Dojo 72
![Page 73: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/73.jpg)
Computación Distribuida
Copyright (c) 2018. Data Science Dojo 73
![Page 74: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/74.jpg)
Cloud Computing
• Conceptualmente – una combinación de mainframe y computación distribuida
• Los anfitriones de VM son ahora el “Big Iron”.• Muchos VMs trabajan juntos para distribuir cargas de trabajo.• Algunas cargas de trabajo en HW dedicados (ej., SAP HANA).
Copyright (c) 2018. Data Science Dojo 74
![Page 75: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/75.jpg)
Escalando el poder de computo
Escalado horizontal, escalado hacia afuera
Commodity hardware, distribuido
Nuevo escalado
Escalado vertical, Escalado hacia arriba Ordenadores de alto rendimiento
Viajo escalado
Copyright (c) 2018. Data Science Dojo 75
![Page 76: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/76.jpg)
¿Qué es Hadoop?• Plataforma OSS para computación distribuida en
datos a escala Internet.
• ¡Originalmente construida en Yahoo!
• Implementación de ideas (ej., MapReduce) publicado por Google.
• La plataforma de big data estándar de facto• Llamada así por un animal de peluche
perteneciente al hijo de Doug Cutting.
Copyright (c) 2018. Data Science Dojo 76
![Page 77: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/77.jpg)
Motor de procesamiento en grupo para big data.
La base Hadoop
Almacenamiento Computación
Copyright (c) 2018. Data Science Dojo 77
![Page 78: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/78.jpg)
HDFS y MapReduce
60gb deTweets
1 Ordenador
Procesamiento: 30 horas
60gb
Copyright (c) 2018. Data Science Dojo 78
![Page 79: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/79.jpg)
HDFS y MapReduce
60gb de Tweets
Procesamiento: 15 horas
30gb
2 Ordenadores
Copyright (c) 2018. Data Science Dojo 79
![Page 80: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/80.jpg)
HDFS y MapReduce
60 Gb de Tweets
Procesamiento: 10 horas
20Gb
3 Ordenadores
Copyright (c) 2018. Data Science Dojo 80
![Page 81: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/81.jpg)
Mayoría de los casos, Escalado linear de la capacidad de Cómputo
Número de Ordenadores Tiempo de procesamiento (horas)1 302 153 104 7.55 66 57 4.268 3.759 3.33
Copyright (c) 2018. Data Science Dojo 81
![Page 82: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/82.jpg)
Nodo líder(Nodo designado)
Datos Nodos
Si los perros fuesen sirvientes…
Copyright (c) 2018. Data Science Dojo 82
![Page 83: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/83.jpg)
DatosNodo 2
DatosNodo 1
DatosNodo 3
Partición 3
Partición 2
Partición1
HDFS
Partición deHDFS
Copyright (c) 2018. Data Science Dojo 83
![Page 84: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/84.jpg)
B1B2
Nodo dedatos 1
O1O2
Nodo dedatos 3
G1G2
Redundancia HDFS
Nodo dedatos 2
O1 O2B1
B2G2G1
Copyright (c) 2018. Data Science Dojo 84
![Page 85: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/85.jpg)
MapReduce – Analogía del Sandwich
Copyright (c) 2018. Data Science Dojo 85
![Page 86: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/86.jpg)
Limitaciones con MapReduce• Mucho código para realizar las tareas más sencillas• Lento• Resolución de problemas
de múltiples ordenadores• Los buenos dispositivos
son escasos• Las certificaciones son
caras
Copyright (c) 2018. Data Science Dojo 86
![Page 87: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/87.jpg)
Hive• Abstracción creada sobre MapReduce y HDFS.
• Hace que Hadoop parezca un RDBMS (ej., coding en SQL).
• Desarrollada por Facebook para democratizar Hadoop.
• Aplica estructura a los datos en tiempo real(“schema on read”).
Copyright (c) 2018. Data Science Dojo 87
![Page 88: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/88.jpg)
Aplicaciones de Hive
Declaraciónde HiveQL
Traducción y Conversión
Trabajo de MapReduce
Copyright (c) 2018. Data Science Dojo 88
![Page 89: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/89.jpg)
Repasar el conteo de palabras de Word
vs.SELECCIONAR palabra,
CONTAR (*) COMOword_countDE palabrasAGRUPAR POR palabra;
Copyright (c) 2018. Data Science Dojo 89
![Page 90: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/90.jpg)
Atención
SELECT * FROM ANYTHING : Esto trae todo. Todo no cabe en un solo
ordenador.
CONECTARSE: conectarse llevará horas o días en y acaparará todo el
ancho de banda del clúster para cualquiera que trate de usarlo en la cola.
CLASIFICAR POR: la clasificación es cara desde el punto de vista
computacional.
Sub Consultas: una sub consulta crea, básicamente, una segunda tabla,
que será enorme en HIVE.
Interactividad: SQL en DBMS es interactivo porque es casi instantáneo
Copyright (c) 2018. Data Science Dojo 90
![Page 91: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/91.jpg)
HDInsight
Implementaciones de Hadoop
Copyright (c) 2018. Data Science Dojo 91
![Page 92: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/92.jpg)
Blob Storage
Hadoop en Azure
HDInsight
Azure DataLake Store
Computar
HDFS
Almacenar
Copyright (c) 2018. Data Science Dojo 92
![Page 93: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/93.jpg)
Mahout• Plataforma de Machine Learning distribuido.
• Construido sobre MapReduce y HDFS.
• Basado en script y los interfaces de líneas de comandos.
• Implementación de lenguaje parecida a R.
Copyright (c) 2018. Data Science Dojo 93
![Page 94: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/94.jpg)
Nodo deDatos 2
Nodo deDatos 1
Nodo deDatos 3
Partición 3
Partición 2
Partición 1
Distributed Random Forest
HDFS Partitioning
Copyright (c) 2018. Data Science Dojo 94
![Page 95: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/95.jpg)
Nodo deDatos 2
Nodo deDatos 2
Nodo deDatos 3
Mezcladode datos
Distributed Random Forest
Copyright (c) 2018. Data Science Dojo 95
![Page 96: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/96.jpg)
NODOA
NODOB
NODOCCesta 1 Cesta 2 Cesta 3
Árbol de decisión A Árbol de decisión B Árbol de decisión C
Distributed Random Forest
Copyright (c) 2018. Data Science Dojo 96
![Page 97: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/97.jpg)
Tiempos de procesamiento - Machine Learning
Datos
Limpieza
Entrenamiento
Predicción
Horas
Días
Milisegundos
• Sistemas a gran escala solo son necesarios para el entrenamiento
• Los teléfonos pueden usar modelos producidos por Mahout para predecir nuevos datos
• Después de que el modelo sea entrenado, guarda el modelo en cualquier tipo de fichero IO file y cárgalo donde quieras
Cuello de botella
Copyright (c) 2018. Data Science Dojo 97
![Page 98: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/98.jpg)
Computación distribuida v2.0 – Apache spark
Copyright (c) 2018. Data Science Dojo 98
![Page 99: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/99.jpg)
¿Qué es Spark?
• “Un motor rápido y general para procesamiento de datos a gran escala.”
• Diseñado para incluir los puntos positivos de Hadoop y abordar los defectos de Hadoop’s.
• Puede complementar a Hadoop a través de la integración de tanto HDFS como Hive.
Copyright (c) 2018. Data Science Dojo 99
![Page 100: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/100.jpg)
¿Por qué Spark? ¡Desempeño mejorado!
Hasta10x más rápido que Hadoop trabajando con datos del disco.*
¡Hasta100x más rápido trabajando con datos almacenados en la memoria!*
* La comparativa es sin Apache Yarn
Copyright (c) 2018. Data Science Dojo 100
![Page 101: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/101.jpg)
Concurso de Daytona GraySort : ¡ordena 100 TB of data!
Antiguo record mundial:• Método: Hadoop• Yahoo!• 72 Minutos• 2100 Nodos
2014:• Método: Spark• Databrick• 23 Minutes• 206 Nodos
¡3x más rápido en10x menos de máquinas!
Fuente: https://databricks.com/blog/2014/10/10/spark-petabyte-sort.html
¡Big Data, más rápido!
Copyright (c) 2018. Data Science Dojo 101
![Page 102: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/102.jpg)
Arquitectura conceptual
Copyright (c) 2018. Data Science Dojo 102
![Page 103: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/103.jpg)
Spark y HadoopYARN
HDFS
MapReduce
HiveJava API SparkSQL
SparkStreaming MLlib
Spark puede ser desplegado en el cluster de Hadoop y compartir los recursos de los clusters a través de YARN. Spark, sin embargo, no requiere de Hadoop!
Copyright (c) 2018. Data Science Dojo 103
![Page 104: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/104.jpg)
PREGUNTAS
104Copyright © 2018. Data Science Dojo
![Page 105: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/105.jpg)
Interpretando los Hallazgos del Machine Learning
![Page 106: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/106.jpg)
Contorno• Métricas para un problema de machine learning• Ejemplos en el ámbito de la Salud (Caso de
estudio)• Interpretación de las métricas• Conclusiones
106Copyright (c) 2018. Data Science Dojo
![Page 107: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/107.jpg)
Clasificación• Cuando el número de posibles predicciones es finito, entonces, es un problema de ej.,
• Tumor benigno Vs. Maligno (2 posibles predicciones)
107Copyright (c) 2018. Data Science Dojo
![Page 108: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/108.jpg)
Métricas correctas para un problema de clasificación
Las siguientes son las métricas de referencia para un problema de evaluación y clasificación incluyendo las aplicaciones sanitarias.
• Precisión, memoria, especificidad, puntuación F• ROC, AUC• Exactitud• Log-Loss• Raíz del error cuadrático medio (útil cuando la clasificación se hace
para predicciones)• A veces una métrica no aclara toda la imagen.• Por consiguiente, múltiples métricas deben ser consideradas para evaluar
los clasificadores• Métricas de evaluación para clasificación binaria (dos tipos de clases). Sin
embargo, las conceptos pueden ser fácilmente ampliados a clasificación M-ary (M posibles clases)
Copyright (c) 2018. Data Science Dojo 108
![Page 109: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/109.jpg)
Interpretando Métricas para Conjuntos de datos Desequilibrados
• Así que, ¿Qué modelo es el mejor?
Copyright (c) 2018. Data Science Dojo 109
![Page 110: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/110.jpg)
Diferencias de coste entre errores FP (Tipo I) y FN (Tipo 2)
• Imagina los conjuntos de datos para 2 aplicaciones donde los ejemplos positivos representan
• Pacientes con esquizofrenia crónica sufriendo tendencias suicidas (conjunto de datos 1)
• La escala Fitzpatrick para el color de piel humana (conjunto de datos 2)
• ¿Qué modelo es mejor para el conjunto de datos 1 y que modelo es mejor para el conjunto de datos 2?
• Para ambos modelos y conjuntos de datos el Log-Lossnos es una métrica útil, puesto que, es el mismo para ambos
Modelo Exactitud Precisión Recall Puntos F1 AUC Log-LossModelo 1 0.97 1 0.83 0.91 0.85 0.2Modelo 2 0.94 0.75 1 0.86 0.8 0.2
Copyright (c) 2018. Data Science Dojo 110
![Page 111: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/111.jpg)
Coste de FP Vs. FN para el conjunto de datos 1
• El FP representa los pacientes que no son esquizofrénicos crónicos y que han sido clasificado erróneamente como esquizofrénicos
• El FN representa los pacientes que son, de hecho, crónicos y que han sido erróneamente clasificados como -ve
• El coste asociado con FP y FN está muy sesgado. • Los costes de FN son mucho mayores que FP. El FP cuesta
unos pocos test más mientras que el FN puede costar una vida humana
• Para el conjunto de datos 1, el objetivo debe ser reducir el FN. Es decir, al modelo con mayor Recall se le debe dar preferencia sobre el conjunto 1
• Aunque el modelo 2 tiene un mayor valor de Recall, es el modelo preferido frente al modelo 1
Copyright (c) 2018. Data Science Dojo 111
![Page 112: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/112.jpg)
FP Vs. FN para el conjunto de datos 2
• Se asume que el conjunto de datos 2 es para la escala de color de piel humana. Hay 6 tipos de posibles predicciones {Tipo I, Tipo II, ...., Tipo VI}
• Para simplificar, asumamos que estamos interesados en identificar el Tipo I frente al resto
• La escala Fitzpatrick es útil para el cuidado de la piel (y la industria cosmética)
Copyright (c) 2018. Data Science Dojo 112
![Page 113: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/113.jpg)
FP Vs. FN para el Subconjunto 2• El FP para esto conjunto de datos representa a los que
pacientes que de hecho no tiene un color de piel de Tipo I y han sido clasificados erróneamente como tipo I
• El FN representa a los pacientes que tienen, de hecho, color de piel de Tipo I y que han sido erróneamente clasificados con un color de piel distinto del Tipo I
• Los costes asociados al FP y FN son similares• Para estos conjuntos datos el objetivo debería ser
minimizar tanto el FN como el FP• Por consiguiente, que el modelo tenga mayor precisión
junto con un mayor AUC debería tener una mayor ponderación
• En consecuencia, el Modelo 1 es un mejor clasificar donde el coste de error para FP y FN es simétrico
Copyright (c) 2018. Data Science Dojo 113
![Page 114: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/114.jpg)
Interpretando las Métricas para Ejemplos +ve
Copyright (c) 2018. Data Science Dojo 114
![Page 115: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/115.jpg)
Mismo coste de errores Tipo I y Tipo II
Modelo Exactitud Precisión Recall Puntos F1 AUCModelo 1 0.94 1 0.67 0.8 0.8Modelo 2 0.94 0.75 1 0.86 0.9Modelo 3 0.94 0.93 1 0.964 0.8Modelo 4 0.94 1 0.92 0.958 0.9
• AUC gestiona de la misma forma los más +ve y los más –ve • Puntación F1 para los Modelos 3 y 4 es muy similar. La razón es
que debido al gran número de ejemplos +ve y al hecho de que la puntuación F1 depende, tan solo, (la lectura se deteriora) de los ejemplos de clasificación +ve
• Para datos de puntuaciones F1 desequilibradas y AUC son importantes. Ahora bien, la puntuación F1 se vuelve más importante cuando hay menos ejemplos +ve lo cual es bastante frecuente en la asistencia sanitaria
Copyright (c) 2018. Data Science Dojo 115
![Page 116: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/116.jpg)
¿Qué clasificador es mejor?Classificador Exactitud Precisión Recall Puntos F1 AUCModelo 1 0.90 0.87 0.88 0.875 0.97Modelo 2 0.91 0.92 0.83 0.873 0.96
• Clasificadores• Apoyo a las máquinas de vectores (Modelo 1)• KNN (Modelo 2)
• En cuando a exactitud, el Modelo 2 es ligeramente mejor que el Modelo 1
• Como se comentó anteriormente, el cálculo de la exactitud no tiene en cuenta la diferencia entre los costes asociados a los errores del FP (Tipo I) y FN (Tipo II)
Copyright (c) 2018. Data Science Dojo 116
![Page 117: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/117.jpg)
AUC• El AUC para ambos clasificadores es próximo a 1,
lo cual es deseable. Es decir, el TPR es mayor y el FPR es menor para ambos clasificadores
• En lo relativo al AUC, el Modelo 1 es ligeramente mejor
• La exactitud del modelo es ligeramente mayor y el AUC es ligeramente mayor para el otro modelo. Así que, la exactitud y el AUC no son de ayuda en este caso concreto.
• Así que la pregunta todavía necesita respuesta: ¿Qué Modelo es el mejor?
Copyright (c) 2018. Data Science Dojo 117
![Page 118: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/118.jpg)
Recall, Precisión, Puntación F1• FP (ejemplos predichos como malignos que de
hecho son benignos) cuesta al paciente unos testsmás y finalmente su dinero
• FN (ejemplos predichos como benignos que son, de hecho, malignos) cuestan una vida humana
• En este caso la elección del proveedor de servicios sanitarios es obvia: elegir el modelo con un menor FN. FN es inversamente proporcional al Recall
• Cuanto mayor Recall mejor, es decir, la mayor proporción de pacientes con tumor maligno identificados correctamente.
Copyright (c) 2018. Data Science Dojo 118
![Page 119: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/119.jpg)
Respuesta: Un Mayor Recall• Habitualmente, se prefiere mayor Recall y mayor
Precisión. Sin embargo, es aceptable identificar pacientes como FP, realizar unos cuantos testsmás y estar más seguros. Esto ocasiona menor precisión
• No obstante, ambos modelos tienen una puntuación F1 similar y la Precisión del Modelo 2 es mayor que la del Modelo 1
• Un valor de Recall más alto para el Modelo 1 que hace que sea un mejor clasificador para este ejemplo.
Copyright (c) 2018. Data Science Dojo 119
![Page 120: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/120.jpg)
Ejemplo de Conjunto de Datos equilibrados: Detección y diagnóstico precoz de apoplejía• La apoplejía es una enfermedad frecuente que ha
afectado a 500 millones de personas en todo el mundo
• Es la primera causa de muerte en China y la 5ª en EE.UU*
• Consideremos la puntuación F1, AUC y Log-Losscomo las posibles métricas de valoración
* IA en los servicios sanitarios pasado, presente y futuro (https://svn.bmj.com/content/2/4/230)
Modelo Puntuación F1 AUC Log-LossModelo 1 0.88 0.94 0.28Modelo 2 0.97 0.98 0.6
Copyright (c) 2018. Data Science Dojo 120
![Page 121: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/121.jpg)
Interpretando los hallazgos para el caso de un conjunto de datos equilibrado• El Modelo 2 tiene la mejor:
• Puntuación F1• AUC
• Sin embargo, en cuanto al Log-Loss, el Modelo 1 tiene el mejor
• Aunque los datos están equilibrados, el coste del error de Tipo I del error de Tipo II. Esto otorga más confianza a la puntuación F1 y al AUC que al Log-Loss.
• El AUC puede ser razonable incluso para modelos inferiores. Como hemos visto en el ejemplo donde es 0.94 para el peor y 0.98 para el mejor modelo
• Por consiguiente, lo que es más importante, es la mayor puntuación F1 para el Modelo 2 lo que tiene más sentido en este escenario.
Copyright (c) 2018. Data Science Dojo 121
![Page 122: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/122.jpg)
Caso de Estudio: El Proyecto de Prueba de Ejercicios (FIT) de Henry Ford
• Los datos y los resultados de la evaluación se obtuvieron de un artículo de la revista [1] publicada el 18 de abril de 2018
• El conjunto de datos del estudio clínico se compone de 23,095 pacientes, recolectados por el proyecto FIT para investigar el desempeño relativo de diferentes técnicas de clasificación para predecir los individuos con riesgo de desarrollar hipertensión usando registros médicos de estado de forma cardiorrespiratoria.
• El estudio compara el desempeño de 6 modelos ML diferentes para predecir los individuos en riesgo de desarrollar hipertensión empleando datos de estado de forma cardiorrespiratoria.
• Usando distintos modelos de validación, el modelo RTF en el conjunto de datos ha ofrecido el mejor desempeño (AUC = 0.93) que supera a los modelos de estudios previos
[1] Sakr S, Elshawi R, Ahmed A, Qureshi WT, Brawner C, et al. (2018) Using machine learning on cardiorespiratory fitness data forpredicting hypertension: The Henry Ford ExercIse Testing (FIT) Project. PLOS ONE 13(4): e0195344. https://doi.org/10.1371/journal.pone.0195344
Copyright (c) 2018. Data Science Dojo 122
![Page 123: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/123.jpg)
El Proyecto Prueba de Ejercicios (FIT) de Henry Ford
• El estudio compara el desempeño de 6 modelos ML diferentes para predecir los individuos en riesgo de desarrollar hipertensión empleando datos de estado de forma cardiorrespiratoria.
• Usando distintos modelos de validación, el modelo RTF en el conjunto de datos ha ofrecido el mejor desempeño (AUC = 0.93) que supera a los modelos de estudios previos
[1] Sakr S, Elshawi R, Ahmed A, Qureshi WT, Brawner C, et al. (2018) Using machine learning on cardiorespiratory fitness data forpredicting hypertension: The Henry Ford ExercIse Testing (FIT) Project. PLOS ONE 13(4): e0195344. https://doi.org/10.1371/journal.pone.0195344
Copyright (c) 2018. Data Science Dojo 123
![Page 124: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/124.jpg)
Las curvas de AUC para diferentes modelos de Machine Learningusando SMOTE, evaluadas empleando validación cruzada de10 pliegues
• El RTF tiene la mejor curva de ROC. • El AUC es aparentemente el mayor
Copyright (c) 2018. Data Science Dojo 124
![Page 125: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/125.jpg)
Las Métricas
• El modelo RTF (Random Tree Forest) consigue el mayor AUC (0.93), y la puntuación F1 (86.70%), sensibilidad (69.96%) y especificidad (91.71%).
• ¿Qué significa una mayor especificidad para RTF?• Recuerda que las especificidad es la verdadera tasa de
reconocimiento negativo: TN/(TN+FP)• A mayor especificidad menor FP• Y por consiguiente, a menos pacientes se les hacen más tests• ¿Qué significa una mayor sensibilidad/recall para RTF?• Menor FN y por lo tanto menos pacientes +ve pasan inadvertidos al
paradigma de ML
Copyright (c) 2018. Data Science Dojo 125
![Page 126: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/126.jpg)
Nota para los entusiastas del ML• Los resultados muestran que no es necesario que
el modelo de machine learning sea complejo, para que la predicción consiga una mejor exactitud. Los modelos más simples pueden ofrecer un mejor desempeño en algunos casos también.
• Los resultados muestran que es crítico explorar con detenimiento y evaluar el desempeño de los modelos de machine learning usando varios modelos de evaluación puesto que la predicción de exactitud puede variar significativamente.
Copyright (c) 2018. Data Science Dojo 126
![Page 127: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/127.jpg)
¿Cuándo usar una Métrica en Particular?
• Para categorías equilibradas la exactitud es una buen métrica• AUC es una buen métrico para datos equilibrados, sin embargo, es más efectivo para
conjuntos de datos desequilibrados• Si hay una clase dominante (conjunto de datos desequilibrados) entonces hay que dar
más importancia al AUC y a la puntación F1• Si el objetivo es clasificar la categoría menor mejor, independientemente de si es una
categoría +ve o –ve, entonces el AUC es una buena medida• La puntuación F1 es importante cuando la clase +ve es pequeña.• Si la aplicación necesita tener un FN mínimo entonces hay que buscar un mayor recall• Si la aplicación necesita tener un FN mínimo entonces hay que buscar un mayor
precisión• Un mayor recall/sensibilida es mejor para identificar los ejemplos +ve• Una mayor especificidad es mejor para identificar los ejemplos -ve• Aunque, poco usada, la Log-Loss es importante para la diferencia probabilística absoluta.
Es importante en algunas aplicaciones• El RMSE es útil cuando los algoritmos de clasificación se evalúan para las predicciones
Copyright (c) 2018. Data Science Dojo 127
![Page 128: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/128.jpg)
Conclusión• Una métrica puede ser buena en un escenario y funcionar en otro.• Las métricas se han de elegir basadas en el equilibrio de los datos• Si los ejemplos +ve son menores o más importantes para clasificar,
entonces da credibilidad a unas métricas sobre otras• En general, es una mejor idea calcula más métricas y entonces
decidir a favor de un modelo en particular • Generalmente, un buen algoritmo de ML consigue un buen
equilibrio entre la Precisión y el Recall.• Si la diferencia en costes entre los errores de Tipo I y Tipo II es
grande entonces la Precisión and el Recall son las métricas preferidas
• El mejor escenario para su aplicación en los servicios sanitarios es cuando tanto el recall y especificidad son máximos
Copyright (c) 2018. Data Science Dojo 128
![Page 129: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/129.jpg)
Implementación de recomendaciones legislativas
Financiación sanitaria basada en Resultados
![Page 130: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/130.jpg)
Usando el aprendizaje supervisado para seleccionar objetivos de control en la financiación sanitaria basada en resultados: En Ejemplo de ZambiaPor Dhruv Grover, Sebastian Bauhoff, and Jed Friedman
130Copyright (c) 2018. Data Science Dojo
![Page 131: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/131.jpg)
Estableciendo el contexto• Zambia dirigió un proyecto piloto de 2012-4 de
financiación basada en resultados de centros de salud públicos
• A los centros públicos de salud se les paga por la cantidad y cualidad de los servicios que ellos ofrecen
• Participaron centros públicos de salud (que cubren el 11% de la población de Zambia) en 10 distritos rurales
131Copyright (c) 2018. Data Science Dojo
![Page 132: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/132.jpg)
El Programa Mejoró Determinados Indicadores Pero…• El 42% of instalaciones sobrenotificaron al menos
uno de cada 4 trimestre medidos• La financiación por servicio incentivó tanto la
ejecución del servicio como la sobrenotificación• El pago por los servicios sobrenotificados mina el
incentivo para la ejecución de servicio y es una perdida de recursos públicos => necesitamos minimizar la sobrenotificación
132Copyright (c) 2018. Data Science Dojo
![Page 133: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/133.jpg)
¿Qué Medidas se tomaron para Reducir la Sobrenotificación?• Comités de dirección específicos realizaron
verificación interna de forma continuada reconciliando la información comunicada por instalación con evidencias basadas en papel
• Una tercera parte independiente realizó un proceso de verificación externa después de 2 años de la ejecución del programa (coste $22.5k)
133Copyright (c) 2018. Data Science Dojo
![Page 134: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/134.jpg)
Necesitan Enfocarse en la Verificación de tal forma que Identifique la Sobrenotificación de la Instalación pero sin tener un coste prohibitivo
• El objetivo de la verificación externa es minimizar la sobrenotificación mientras que minimiza los costes de verificación
• Puedes inspeccionar de forma independiente cada instalación => esto eliminaría completamente la sobrenotificación PERO sería prohibitivo en costes
• No puedes inspeccionar cada instalación PERO es probable que haya una reducción substancial en la cantidad de sobrenotificación que puede empeorar con el tiempo cuando las facultativos se den cuenta de que pueden aprovecharse de la falta de inspección
134Copyright (c) 2018. Data Science Dojo
![Page 135: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/135.jpg)
¿Cómo Identificar Instalaciones que es Probable que Hayan Sobrenotificado?
• Es posible identificar la sobrenotificación usando muestras aleatorias o machine learning
• Predicen la sobrenotificación definida como: • 1 si la diferencia entre los datos reportados y
verificados es mayor al > 10% de los valores reportados
• 0 en caso contrario• Usando las siguientes características de
imputación:• Los valores reportados y verificados para las 9
medidas de cantidad premiadas en el programa de PBF;
• Control de variables
135Copyright (c) 2018. Data Science Dojo
![Page 136: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/136.jpg)
Factores que Determinan la Elección de una Técnica de ML1. ¿Cuál es el tamaño del conjunto de datos de
entrenamiento?2. ¿Pueden las características ser tratadas como
variables independientes?3. ¿Estarán disponibles en el futuro datos
adicionales de entrenamiento y necesitaran ser incorporados en el modelo?
4. ¿Son los datos linealmente separables?5. ¿Se espera que el sobreajuste sea un problema?6. ¿Hay algunos requisitos de velocidad, desempeño
y uso de memoria?136Copyright (c) 2018. Data Science Dojo
![Page 137: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/137.jpg)
Los Algoritmos Leen los Patrones de los Inputs que Indican que la Instalación está en Riesgo de Sobrenotificar
• Los patrones se aprenden de los datos tan solo desde el primer trimestre
• Los modelos (algoritmo + datos + parámetros) se miden de acuerdo a cuanto de bien identifican las instalaciones que sobrenotifican en el primer timestre
• Y los modelos pueden emplear este aprendizaje para predecir el riesgo de otras instalaciones de sobrenotificar en datos no vistos en trimestres subsiguientes
• En esta ocasión, el random forest realizó un desempeño superior al del resto de los algoritmos en cada una de las 5 métricas
137Copyright (c) 2018. Data Science Dojo
![Page 138: Modelos Lineales de Regresión](https://reader036.fdocuments.in/reader036/viewer/2022072409/62dc2e863fd12a1f8a0886d3/html5/thumbnails/138.jpg)
¿Cómo Cambia esto el Enfoque de la Verificación?• Los verificadores pueden enviar equipos de
inspección para verificar los datos en aquellas instalaciones que tienen el mayor riesgo de sobrenotificación
• Ahorran c.$800 por clínica que no inspeccionaron por ser innecesario
• Los verificadores necesitan recoger de forma periódica otra muestra aleatoria para re-entrenar al modelo de tal forma que aquellos identificados como con bajo riesgo se aprovechen de las falta de supervisión para sobrenotificar.
138Copyright (c) 2018. Data Science Dojo