Modelos Lineales de Regresión

Agenda

• Introducción• Descenso de gradiente

• Función de costes y minimización• Implementación

• Evaluación de Modelos de Regresión• Regularización

2Copyright © 2018. Data Science Dojo

INTRODUCCIÓN

Copyright © 2018. Data Science Dojo3

Regresión

Predice la duración de la estancia de los pacientes

en el hospital


Predice el coste del tratamiento

Predice la cantidad de personal que se necesita

en un día concreto

Apunte: Conjunto de Datos de Cáncer de Pecho

5: El paciente está en la 5ª columna1: El diagnóstico del paciente está en la 1ª columna

𝑥𝑥15


123456


¿Cómo describimos todas las filas?

𝑥𝑥1 = [17.99, 10.38, 122.80]𝑥𝑥2 = [20.57, 17.77, 132.90]𝑥𝑥3 = [19.69, 21.25, 130.00]

Fila 1Fila 2

Fila 3


El conjunto de datos de cáncer de pecho anota las propiedades físicas de un tumor y su diagnóstico

Usando esta notación, podemos describir todas las columnas del conjunto datos.


𝑥𝑥1 𝑥𝑥2 𝑥𝑥3

𝑋𝑋𝑌𝑌


Resumen de notación

𝑥𝑥𝑖𝑖– Cada fila de características𝑥𝑥𝑗𝑗 – Cada columna de característicasX – Conjunto de todas las columnasde características𝑦𝑦𝑖𝑖 – Cada fila del objetivoY – La columna del objetivon – Número de filas en el conjunto de datosm – Número de columnas en el conjunto de datos

Características

Objetivo


FUNCIÓN DE COSTES Y DESCENSO DE GRADIENTE

Copyright © 2018. Data Science Dojo9

¿Qué es una buena línea de regresión?

• Velocidad del viento=15 mph • Ozono = ?• Emplear la línea que está en algún lugar del medio

• ¿Cómo definimos el “medio”?

ℎ𝜃𝜃 𝑥𝑥 = 𝜃𝜃0 + 𝜃𝜃1𝑥𝑥


Definir una línea

¿Cómo definimos una línea en notación pendiente-interceptar?

• 𝑦𝑦 = 𝒎𝒎𝑥𝑥 + 𝒃𝒃

En notación 𝜃𝜃• ℎ𝜃𝜃(x)= 𝜽𝜽1x + 𝜽𝜽0

m = pendiente

b = interceptar 𝜃𝜃0

𝜃𝜃1


Más características

𝑦𝑦 𝑥𝑥1 𝑥𝑥2 𝑥𝑥3

ℎ𝜃𝜃 𝑥𝑥 = 𝜃𝜃0 + 𝜃𝜃1𝑥𝑥1 + 𝜃𝜃2𝑥𝑥2 + 𝜃𝜃3𝑥𝑥3


Residuos (o "Errores")

Diferencia entre la hipótesis hθ(x) (valor precedido) y verdadero valor (objetivo definido)

Error 2

Error 1


Función de costes

Minimiza la función de ‘coste’ o ‘pérdida’ – 𝐽𝐽(𝜃𝜃)

• Más pequeño para menor error

• Más grande para mayor error

𝐽𝐽 𝜃𝜃 =12𝑛𝑛

�𝑖𝑖=1

𝑛𝑛

ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 2


Error 2

Error 1

Función de Costes

θ1=2

θ1=1.0

θ1=0.5

θ0=0

ℎ𝜃𝜃 𝑥𝑥 = 𝜃𝜃0 + 𝜃𝜃1𝑥𝑥𝐽𝐽 𝜃𝜃 =

12𝑛𝑛

�𝑖𝑖=1

𝑛𝑛


Cada punto de la parábola corresponde con una línea del gráfica de la izquierda


Función de costes en 3 dimensiones

𝐽𝐽 𝜃𝜃 =12𝑛𝑛

�𝑖𝑖=1

𝑛𝑛


𝜃𝜃0 𝜃𝜃1

𝐽𝐽(𝜃𝜃 0

,𝜃𝜃1)


¿Cómo definimos el mínimo de una función de costes?


Problema del Máximo/Mínimo

Encuentra 2 números no negativos cuya suma sea 9 de tal forma que el producto de un número y el cuadrado de otro sea máximo.


Solución (1/2)

La suma de los números es 99 = x + y

El producto de los 2 números es P = x y2

= x (9-x)2


Solución (2/2)

Usando la regla de producto y la regla de la cadena de Calculus101:

P' = x (2) ( 9-x)(-1) + (1) ( 9-x)2

= ( 9-x) [ -2x + ( 9-x) ]= ( 9-x) [ 9-3x ]= ( 9-x) (3)[ 3-x ]= 0

x=9 o x=3


Problema del máximo

Hay 50 árboles en una plantación de árboles frutales. Cada árbol produce 800 manzanas. Por cada árbol adicional plantado en el la plantación de frutales, la producción de cada árbol se reduce en10 manzanas.

Pregunta: ¿cuantos arboles adicionales deben ser plantados en la plantación de árboles frutales existente para maximizar la producción de manzanas de la plantación?


Añadir 15 árboles maximizaría la producción

Solución

A = (50 + t) x (800 – 10t) A = 40,000 + 300t – 10t2

Despeja A’ y ajusta a 0 para encontrar el máximo.A’ = – 20t + 300 = 0t = 15


Descenso de Gradiente

• Objetivo: minimiza 𝐽𝐽(𝜃𝜃)• Empieza con algunos 𝜃𝜃 iniciales y entonces realiza un actualización en cada 𝜃𝜃𝑗𝑗 sucesivamente:

• Repite hasta que 𝜃𝜃 converge

𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼𝜕𝜕𝜕𝜕𝜃𝜃𝑗𝑗

𝐽𝐽(𝜃𝜃𝑘𝑘)


Descenso de Gradiente

• 𝛼𝛼 es conocido como el ratio de aprendizaje; establecido por el usuario

• Cada vez el que algoritmo da un paso en la dirección de la línea con mayor inclinación y 𝐽𝐽 𝜃𝜃 decrece.

• 𝛼𝛼 determina cuanto de rápido o lento el algoritmo va a converger con la solución




Conclusiones



𝜃𝜃𝑗𝑗𝑘𝑘

𝜃𝜃𝑗𝑗𝑘𝑘+1

𝜃𝜃𝑗𝑗𝑘𝑘+3

Pendiente Positiva

Pendiente negativa

𝜃𝜃𝑗𝑗


Efecto de un alto ratio de aprendizaje: Gran 𝛼𝛼



Pendiente positiva

Pendiente negativa

𝜃𝜃𝑗𝑗


Efectos del ratio de aprendizaje: Pequeña 𝛼𝛼



Pendiente positiva

Pendiente negativa

𝜃𝜃𝑗𝑗


Implementación de Descenso de Gradiente

¿Cuándo paras de actualizar?

Pendiente positiva

Pendiente negativa

𝜃𝜃𝑗𝑗

¿Aquí?¿Aquí?

• Cuando 𝜃𝜃𝑗𝑗𝑘𝑘+1

está cerca de 𝜃𝜃𝑗𝑗𝑘𝑘

• Cuando 𝐽𝐽(𝜃𝜃𝑘𝑘+1)está cerca de 𝐽𝐽(𝜃𝜃𝑘𝑘) [El error no cambia]


Descenso de Gradiente en Grupo

• ¿Cómo incorporamos todos nuestros datos?• ¡Bucle!

Para j de 0 a m:

•ℎ𝜃𝜃 se actualiza solo cuando el bucle se ha completado

•¿Debilidades?

𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼1𝑛𝑛�

𝑖𝑖=1

𝑛𝑛ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 𝑥𝑥𝑗𝑗𝑖𝑖



Cada representa una característica 𝜃𝜃𝑗𝑗



• ¡Bucle!Para j de 0 a m:

𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼1𝑛𝑛�

𝑖𝑖=1

𝑛𝑛ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 𝑥𝑥𝑗𝑗𝑖𝑖


Descenso de Gradiente Estocástica

• Considera una aproximación alternativa:

• ℎ𝜃𝜃 se actualiza cuando el bucle interno se completa• Si el conjunto de entrenamiento es grande, converge antes que en grupo

• Puede oscilar alrededor del mínimo de 𝐽𝐽(𝜃𝜃) y nunca converger

for i from 1 to n:for j from 0 to m:𝜃𝜃𝑗𝑗𝑘𝑘+1 ≔ 𝜃𝜃𝑗𝑗𝑘𝑘 − 𝛼𝛼 ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 𝑥𝑥𝑗𝑗𝑖𝑖

* Estamos tan solo tomando una observación aleatoria cada vez como una muestra, en lugar de realizar la media entre observaciones


En grupo vs. Estocástico

¿Cuál es mejor? Depende.


Descenso de Gradiente Estocástico

FunciónActualiza la hipótesis escaneando todo el conjunto de datos

Actualiza la hipótesisescaneando una muestra de entrenamiento cada vez

Ratio de convergencia LentamenteRápidamente(pero puede oscilar en el mínimo)

Tamaño de Conjunto de Datos apropiado Pequeño Grande


EVALUANDO MODELOS DE REGRESIÓN


Evaluando las métricas de Regresión

• Error Absoluto Medio (MAE)

• Raíz cuadrada del error cuadrático medio (RMSE)• Raíz cuadrada de la desviación

• Coeficiente de determinación(R2)


Error Absoluto Medio

• Media de los valores residuales• Medida “pura” de error

𝑀𝑀𝑀𝑀𝑀𝑀 𝜃𝜃 =∑𝑖𝑖=1𝑛𝑛 ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖

𝑛𝑛


Error Absoluto Medio - Ejemplo

𝑦𝑦 = 36, 19, 34, 6, 1, 45

ℎ𝜃𝜃 𝑥𝑥 = 27,−2.6, 13,−7.3,−2.6, 48

ℎ𝜃𝜃 𝑥𝑥 − 𝑦𝑦 = 9, 21.6, 21, 13.3, 3.6, 3

𝑀𝑀𝑀𝑀𝑀𝑀 𝜃𝜃 =71.5

6 = 11.9


Raíz cuadrada del error cuadrático medio

• Raíz cuadrada de la media del cuadrado de residuos• Penaliza más a los errores grandes que a los pequeños

• Una buena medida que se usa para acentuar los valores atípicos

𝑅𝑅𝑀𝑀𝑅𝑅𝑀𝑀 𝜃𝜃 =∑𝑖𝑖=1𝑛𝑛 ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 2

𝑛𝑛


RMSE - Ejemplo

𝑦𝑦 = 36, 19, 34, 6, 1, 45

ℎ𝜃𝜃 𝑥𝑥 = 27,−2.6, 13,−7.3,−2.6, 48

ℎ𝜃𝜃 𝑥𝑥 − 𝑦𝑦 2 = 81, 467, 441, 177, 13, 9

𝑅𝑅𝑅𝑅𝑀𝑀𝑀𝑀 𝜃𝜃 =1187

6 = 14.1


Coeficiente de Determinación (R2)

donde

𝑅𝑅𝑅𝑅𝑟𝑟𝑟𝑟𝑟𝑟 – Suma de cuadrados de residuos (ej. Error cuadratico total)𝑅𝑅𝑅𝑅𝑡𝑡𝑡𝑡𝑡𝑡 –Suma diferencias cuadradas de la media (ej. Variación total del conjunto de datos)

Resultado: Medida de cuanto de bien explica el modelo los datos• “Parte de la variación de los datos explicados por el modelo"

𝑅𝑅2 = 1 −𝑅𝑅𝑅𝑅𝑟𝑟𝑟𝑟𝑟𝑟𝑅𝑅𝑅𝑅𝑡𝑡𝑡𝑡𝑡𝑡

𝑅𝑅𝑅𝑅𝑟𝑟𝑟𝑟𝑟𝑟 = �𝑖𝑖=1

𝑛𝑛

ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 2 𝑅𝑅𝑅𝑅𝑡𝑡𝑡𝑡𝑡𝑡 = �𝑖𝑖=1

𝑛𝑛

𝑦𝑦𝑖𝑖 − �𝑦𝑦 2


REGULARIZACIÓN


SobreajustePr

ice

Size𝜃𝜃0 + 𝜃𝜃1𝑥𝑥

Pric

e

Size𝜃𝜃0 + 𝜃𝜃1𝑥𝑥 + 𝜃𝜃2𝑥𝑥2

Pric

e

Size𝜃𝜃0 + 𝜃𝜃1𝑥𝑥 + 𝜃𝜃2𝑥𝑥2 + 𝜃𝜃3𝑥𝑥3 + 𝜃𝜃4𝑥𝑥4


Conclusiones

𝐽𝐽′ 𝜃𝜃 = 𝐽𝐽 𝜃𝜃 + 𝑃𝑃𝑃𝑃𝑛𝑛𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑛𝑛

Prec

io

Tamaño𝜃𝜃0 + 𝜃𝜃1𝑥𝑥 + 𝜃𝜃2𝑥𝑥2 + 𝜃𝜃3𝑥𝑥3 + 𝜃𝜃4𝑥𝑥4 𝜃𝜃0 + 𝜃𝜃1𝑥𝑥 + 𝜃𝜃2𝑥𝑥2 + 𝜃𝜃3𝑥𝑥3 + 𝜃𝜃4𝑥𝑥4

Prec

io

Tamaño

Asegurarse de que sea pequeño


Definiciones

• Dos de los métodos más comunes• L1 regularización

• Regresión de lasso

• L2 regularización • Regresión contraída• Degradación

de ponderaciones𝐽𝐽𝐿𝐿2 𝜃𝜃 =

12𝑛𝑛

�𝑖𝑖=1

𝑛𝑛

ℎ𝜃𝜃 𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖2

+ 𝜆𝜆�𝑗𝑗=1

𝑚𝑚

𝜃𝜃𝑗𝑗2

𝐽𝐽𝐿𝐿1 𝜃𝜃 =12𝑛𝑛

�𝑖𝑖=1

𝑛𝑛



𝑚𝑚

𝜃𝜃𝑗𝑗


Regresión regularizada

• Encontrar el mejor ajuste• Mantener los términos 𝜃𝜃𝑗𝑗 tan pequeños como sea posible.

• λ es un parámetro establecido por el usuario que controla el intercambio


�𝑖𝑖=1

𝑛𝑛



𝑚𝑚

𝜃𝜃𝑗𝑗2𝐽𝐽𝐿𝐿1 𝜃𝜃 =12𝑛𝑛

�𝑖𝑖=1

𝑛𝑛



𝑚𝑚

𝜃𝜃𝑗𝑗


Regresión regularizada

• El tamaño de 𝜆𝜆 es importante• 𝜆𝜆 demasiado grande=> no ajuste• 𝜆𝜆 demasiado pequeño=> no regularización


�𝑖𝑖=1

𝑛𝑛



𝑚𝑚

𝜃𝜃𝑗𝑗2𝐽𝐽𝐿𝐿1 𝜃𝜃 =12𝑛𝑛

�𝑖𝑖=1

𝑛𝑛



𝑚𝑚

𝜃𝜃𝑗𝑗


PREGUNTAS


Aprendizaje no Supervisado y K-Means Clustering

Aprendizaje no supervisado• Intentando encontrar una estructura oculta en datos no etiquetados

• Sin error o señal de recompensa para evaluar una solución potencial. Sin necesidad de escoger una response class.

• Técnicas comunes: K-Means clustering, agrupación jerárquica, modelos de Markovocultos, etc.

48Copyright (c) 2018. Data Science Dojo

Elegir el número de clustersEjemplo 1 (conocimiento de dominio/aspectos prácticos): Tallas de ropa• Hacerlas a medida para cada persona es caro• One-size-fits-all: ¡No funciona!• Agrupa a la gente en tallas similares para

confeccionar camisetas “pequeñas”, “medianas”, y “grandes”


Elegir un número de clustersEjemplo 2 (con evaluación): Segmentación de pacientes• Subdivide a los pacientes

en distintos grupos basados en las características de las enfermedades

• Donde cada subgrupo puede ser seleccionado viablemente como un segmento; y entonces, ser enfocado con modelos de atención y programas de intervención ajustados a sus necesidades.


K-Means Clustering• Divide los puntos de datos entre grupos de semejanza

• Técnica no supervisada: no hay partición entre un aprendizaje o un grupo de tests en el aprendizaje no supervisado

• Útil en la agrupación de observaciones• Solo funciona para datos numéricos


Preparación de los datos

• Transforma variables de categorías en números

• Estandariza• Reduce el tamaño

52

Edad Pclase.1 Pclase.2 Pclase.3 Sexo.mujer Sexo.hombre

19 0 1 0 0 1

28 1 0 0 1 0

64 0 0 1 0 1

Llamadas frecuentemente“dummy variables” o “one-hot encoding”

Copyright (c) 2018. Data Science Dojo

Distancia EuclidianaDetermina la semejanza intra- e inter-cluster

53

x1, y1

x2, y2


Las distancias Intra-cluster se minimizan

Las distancias Inter-clusterse maximizan

K-Means Clustering (1/2)

1 2

K-Means Clustering (2/2)

3 4 5

Las posiciones de los centros del cluster se determinan por la media de todos los puntos dentro

del grupo.

K-Means Clustering


K=3

Algoritmo de K-Means Clustering

57

Supongamos un conjunto de puntos de datos: { x1, x2, x3……….xn}• Paso 0: Decidir el número de clusters, K=1,2,…k.• Paso 1: Establecer centroides en localizaciones aleatorias➢ c1, c2,….ck

• Paso 2: Repetir hasta la convergencia:{para cada punto xi encontrar el centroide más cercano

cj (ej. Distancia Euclidiana) asignar el punto xi al grupo j

para cada grupo j = 1..k calcular nuevo centroide cjcj=mediana de todos los puntos xi asignados al grupo j en el paso anterior}• Paso 3: Parar cuando ninguna de las asignaciones del grupo

cambienCopyright (c) 2018. Data Science Dojo

K-Means Clustering• Minimiza la distancia agregada intra-cluster

• Mide la distancia al cuadrado desde un punto hasta el centro de su grupo.

�𝑗𝑗=1

𝐾𝐾

�𝑥𝑥∈𝑔𝑔𝑗𝑗

𝐷𝐷 𝑃𝑃𝑗𝑗, 𝑥𝑥 2

• Puede converger con el mínimo local• Diferentes puntos de inicio resultados muy

dispares• Realizada muchas veces con puntos de inicio

aleatorios• Los puntos cercanos pueden no ser asignados al mismo

cluster

• Fortalezas• Simple: fácil de entender y de implementar• Eficiente: tiempo lineal, almacenamiento mínimo

• Debilidades• La media ha de estar bien definida• El usuario necesita especificar k• El algoritmo es sensible a los valores atípicos


K-Means Clustering

Despejar K con el Método Elbow

60

Opción 1 – Porcentaje de la varianza explicada como una función del número de clusters.

Objetivo - Elegir el número de grupos de tal forma que al añadir otro cluster no aporte un mejor modelado de los datos.

Opción 2 –Total del cuadrado de las distancias

del punto del cluster al centro.


PREGUNTAS


Ingeniería de Big Data

• Introducción• Un problema clave– machine learning a escala• Computación distribuida con Apache Hadoop & Hive

• Machine learning a escala con Apache Mahout• Computación distribuida v2.0 – Apache Spark

Agenda

Copyright (c) 2018. Data Science Dojo 63

5 Vs del Big Data

Datos estáticosDe Terabytes a

exabytes de procesos de datos existentes

Velocidad

Datos en movimiento

Datos fluidos, de milisegundos a segundos para

responder

Variedad

Datos en muchas formas

Estructurados, destructurados, texto, y

multimedia

Veracidad

Datos en dudaIncertidumbre por la

inconsistencia de datos, su falta, ambigüedades,

latencia, engaño, y aproximaciones al

modelo

Valor

Los datos pueden tener un valor

distintoNo todos los bytes son

creados iguales

$$$$ $

$

$$$ $

$

$

Objetivo: ¡Como científicos de datos queremos un acceso efectivo en costes a los datos en bruto para nuestros productos de datos!


MACHINE LEARNING A ESCALA


OSS Limites R

Núcleo único Hilo único

Modelo A Modelo B Modelo C

Quad Core Laptop


• Núcleo único• Hilo único• All in memory (RAM)• Vectores y Matrices limitadas a 4,294,967,295 elementos (filas) si la versión es de 32-bit; 2^32 - 1

OSS Límites R


OSS Límites R: RAM• All in memory (RAM)

Ejemplo del portátil:

𝑀𝑀𝑃𝑃𝑥𝑥 𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃 𝑑𝑑𝑃𝑃 𝐷𝐷𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 = 𝑇𝑇𝐷𝐷𝐿𝐿𝑃𝑃𝑃𝑃 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝐷𝐷𝐷𝐷𝑅𝑅𝑀𝑀𝑀𝑀 𝑥𝑥 80% − 𝑈𝑈𝐷𝐷𝐷𝐷 𝑅𝑅𝑀𝑀𝑀𝑀 𝑁𝑁𝐷𝐷𝑁𝑁𝐿𝐿𝑃𝑃𝑃𝑃 𝑅𝑅𝑀𝑀𝑀𝑀

𝑀𝑀𝑃𝑃𝑥𝑥 𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃 𝑑𝑑𝑃𝑃 𝐷𝐷𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 = 5.9 𝑔𝑔𝑔𝑔 𝑥𝑥 80% − 3.2gb𝑀𝑀𝑃𝑃𝑥𝑥 𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃 𝑑𝑑𝑃𝑃 𝐷𝐷𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 = ~1.52𝑔𝑔𝑔𝑔

*Marcos de datos R aumentanlos datos, de hecho, por ~3x𝐿𝐿𝐿𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐷𝐷 𝑑𝑑𝑃𝑃 𝑑𝑑𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 𝑅𝑅 = ~1.52𝑔𝑔𝑔𝑔 ÷ 3 = ~506.7𝐿𝐿𝑔𝑔


OSS Límites R: RAM

Los VM de Azure con la mayor RAM*:

*Data recogidos 06/07/2017

24x7x52 Coste anual: $116,938.44!

𝑀𝑀𝑃𝑃𝑥𝑥 𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃 𝑑𝑑𝑃𝑃 𝐷𝐷𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 = 2000𝑔𝑔𝑔𝑔 𝑥𝑥 80% − 1𝑔𝑔𝑔𝑔𝑀𝑀𝑃𝑃𝑥𝑥 𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃 𝑑𝑑𝑃𝑃 𝐷𝐷𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 = ~1600𝑔𝑔𝑔𝑔𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐿𝐿𝑃𝑃𝐷𝐷 𝑑𝑑𝑃𝑃 𝐷𝐷𝑃𝑃𝐿𝐿𝐷𝐷𝐷𝐷 = ~1600𝑔𝑔𝑔𝑔 ÷ 3 = ~533.33 𝑔𝑔𝑔𝑔


Escalado de Machine Learning

•Hadoop•Spark•H20•Microsoft R Server

Distribuidos

•Azure ML•AWS ML•Big ML•Cloud Virtual Machines

Nube

•R•Python•SAS

Programación

•Excel

Programas

¡Estos solo nos llevan hasta aquí! ¡Escala de Big data!


COMPUTACIÓN DISTRIBUIDA CON APACHE HADOOP


Da marcha atrás al reloj, El Mainframe

• “Big Iron”• La piedra angular de la

computación durante décadas.• Todavía ampliamente usado.• “Escalación” modelo de

computación compartida.• La plataforma núcleo es efectiva

en costes, los ecosistemas no (ej., concesión de licencias de software).

• ¡El anfitrión original de VM!


Computación Distribuida


Cloud Computing

• Conceptualmente – una combinación de mainframe y computación distribuida

• Los anfitriones de VM son ahora el “Big Iron”.• Muchos VMs trabajan juntos para distribuir cargas de trabajo.• Algunas cargas de trabajo en HW dedicados (ej., SAP HANA).


Escalando el poder de computo

Escalado horizontal, escalado hacia afuera

Commodity hardware, distribuido

Nuevo escalado

Escalado vertical, Escalado hacia arriba Ordenadores de alto rendimiento

Viajo escalado


¿Qué es Hadoop?• Plataforma OSS para computación distribuida en

datos a escala Internet.

• ¡Originalmente construida en Yahoo!

• Implementación de ideas (ej., MapReduce) publicado por Google.

• La plataforma de big data estándar de facto• Llamada así por un animal de peluche

perteneciente al hijo de Doug Cutting.


Motor de procesamiento en grupo para big data.

La base Hadoop

Almacenamiento Computación


HDFS y MapReduce

60gb deTweets

1 Ordenador

Procesamiento: 30 horas

60gb


HDFS y MapReduce

60gb de Tweets


30gb

2 Ordenadores


HDFS y MapReduce

60 Gb de Tweets


20Gb

3 Ordenadores


Mayoría de los casos, Escalado linear de la capacidad de Cómputo

Número de Ordenadores Tiempo de procesamiento (horas)1 302 153 104 7.55 66 57 4.268 3.759 3.33


Nodo líder(Nodo designado)

Datos Nodos

Si los perros fuesen sirvientes…


DatosNodo 2

DatosNodo 1

DatosNodo 3

Partición 3

Partición 2

Partición1

HDFS

Partición deHDFS


B1B2

Nodo dedatos 1

O1O2

Nodo dedatos 3

G1G2

Redundancia HDFS

Nodo dedatos 2

O1 O2B1

B2G2G1


MapReduce – Analogía del Sandwich


Limitaciones con MapReduce• Mucho código para realizar las tareas más sencillas• Lento• Resolución de problemas

de múltiples ordenadores• Los buenos dispositivos

son escasos• Las certificaciones son

caras


Hive• Abstracción creada sobre MapReduce y HDFS.

• Hace que Hadoop parezca un RDBMS (ej., coding en SQL).

• Desarrollada por Facebook para democratizar Hadoop.

• Aplica estructura a los datos en tiempo real(“schema on read”).


Aplicaciones de Hive

Declaraciónde HiveQL

Traducción y Conversión

Trabajo de MapReduce


Repasar el conteo de palabras de Word

vs.SELECCIONAR palabra,

CONTAR (*) COMOword_countDE palabrasAGRUPAR POR palabra;


Atención

SELECT * FROM ANYTHING : Esto trae todo. Todo no cabe en un solo

ordenador.

CONECTARSE: conectarse llevará horas o días en y acaparará todo el

ancho de banda del clúster para cualquiera que trate de usarlo en la cola.

CLASIFICAR POR: la clasificación es cara desde el punto de vista

computacional.

Sub Consultas: una sub consulta crea, básicamente, una segunda tabla,

que será enorme en HIVE.

Interactividad: SQL en DBMS es interactivo porque es casi instantáneo


HDInsight

Implementaciones de Hadoop


Blob Storage

Hadoop en Azure

HDInsight

Azure DataLake Store

Computar

HDFS

Almacenar


Mahout• Plataforma de Machine Learning distribuido.

• Construido sobre MapReduce y HDFS.

• Basado en script y los interfaces de líneas de comandos.

• Implementación de lenguaje parecida a R.


Nodo deDatos 2

Nodo deDatos 1

Nodo deDatos 3

Partición 3

Partición 2

Partición 1

Distributed Random Forest

HDFS Partitioning


Nodo deDatos 2

Nodo deDatos 2

Nodo deDatos 3

Mezcladode datos



NODOA

NODOB

NODOCCesta 1 Cesta 2 Cesta 3

Árbol de decisión A Árbol de decisión B Árbol de decisión C



Tiempos de procesamiento - Machine Learning

Datos

Limpieza

Entrenamiento

Predicción

Horas

Días

Milisegundos

• Sistemas a gran escala solo son necesarios para el entrenamiento

• Los teléfonos pueden usar modelos producidos por Mahout para predecir nuevos datos

• Después de que el modelo sea entrenado, guarda el modelo en cualquier tipo de fichero IO file y cárgalo donde quieras

Cuello de botella


Computación distribuida v2.0 – Apache spark


¿Qué es Spark?

• “Un motor rápido y general para procesamiento de datos a gran escala.”

• Diseñado para incluir los puntos positivos de Hadoop y abordar los defectos de Hadoop’s.

• Puede complementar a Hadoop a través de la integración de tanto HDFS como Hive.


¿Por qué Spark? ¡Desempeño mejorado!

Hasta10x más rápido que Hadoop trabajando con datos del disco.*

¡Hasta100x más rápido trabajando con datos almacenados en la memoria!*

* La comparativa es sin Apache Yarn


Concurso de Daytona GraySort : ¡ordena 100 TB of data!

Antiguo record mundial:• Método: Hadoop• Yahoo!• 72 Minutos• 2100 Nodos

2014:• Método: Spark• Databrick• 23 Minutes• 206 Nodos

¡3x más rápido en10x menos de máquinas!

Fuente: https://databricks.com/blog/2014/10/10/spark-petabyte-sort.html

¡Big Data, más rápido!


Arquitectura conceptual


Spark y HadoopYARN

HDFS

MapReduce

HiveJava API SparkSQL

SparkStreaming MLlib

Spark puede ser desplegado en el cluster de Hadoop y compartir los recursos de los clusters a través de YARN. Spark, sin embargo, no requiere de Hadoop!


PREGUNTAS


Interpretando los Hallazgos del Machine Learning

Contorno• Métricas para un problema de machine learning• Ejemplos en el ámbito de la Salud (Caso de

estudio)• Interpretación de las métricas• Conclusiones


Clasificación• Cuando el número de posibles predicciones es finito, entonces, es un problema de ej.,

• Tumor benigno Vs. Maligno (2 posibles predicciones)


Métricas correctas para un problema de clasificación

Las siguientes son las métricas de referencia para un problema de evaluación y clasificación incluyendo las aplicaciones sanitarias.

• Precisión, memoria, especificidad, puntuación F• ROC, AUC• Exactitud• Log-Loss• Raíz del error cuadrático medio (útil cuando la clasificación se hace

para predicciones)• A veces una métrica no aclara toda la imagen.• Por consiguiente, múltiples métricas deben ser consideradas para evaluar

los clasificadores• Métricas de evaluación para clasificación binaria (dos tipos de clases). Sin

embargo, las conceptos pueden ser fácilmente ampliados a clasificación M-ary (M posibles clases)


Interpretando Métricas para Conjuntos de datos Desequilibrados

• Así que, ¿Qué modelo es el mejor?


Diferencias de coste entre errores FP (Tipo I) y FN (Tipo 2)

• Imagina los conjuntos de datos para 2 aplicaciones donde los ejemplos positivos representan

• Pacientes con esquizofrenia crónica sufriendo tendencias suicidas (conjunto de datos 1)

• La escala Fitzpatrick para el color de piel humana (conjunto de datos 2)

• ¿Qué modelo es mejor para el conjunto de datos 1 y que modelo es mejor para el conjunto de datos 2?

• Para ambos modelos y conjuntos de datos el Log-Lossnos es una métrica útil, puesto que, es el mismo para ambos

Modelo Exactitud Precisión Recall Puntos F1 AUC Log-LossModelo 1 0.97 1 0.83 0.91 0.85 0.2Modelo 2 0.94 0.75 1 0.86 0.8 0.2


Coste de FP Vs. FN para el conjunto de datos 1

• El FP representa los pacientes que no son esquizofrénicos crónicos y que han sido clasificado erróneamente como esquizofrénicos

• El FN representa los pacientes que son, de hecho, crónicos y que han sido erróneamente clasificados como -ve

• El coste asociado con FP y FN está muy sesgado. • Los costes de FN son mucho mayores que FP. El FP cuesta

unos pocos test más mientras que el FN puede costar una vida humana

• Para el conjunto de datos 1, el objetivo debe ser reducir el FN. Es decir, al modelo con mayor Recall se le debe dar preferencia sobre el conjunto 1

• Aunque el modelo 2 tiene un mayor valor de Recall, es el modelo preferido frente al modelo 1


FP Vs. FN para el conjunto de datos 2

• Se asume que el conjunto de datos 2 es para la escala de color de piel humana. Hay 6 tipos de posibles predicciones {Tipo I, Tipo II, ...., Tipo VI}

• Para simplificar, asumamos que estamos interesados en identificar el Tipo I frente al resto

• La escala Fitzpatrick es útil para el cuidado de la piel (y la industria cosmética)


FP Vs. FN para el Subconjunto 2• El FP para esto conjunto de datos representa a los que

pacientes que de hecho no tiene un color de piel de Tipo I y han sido clasificados erróneamente como tipo I

• El FN representa a los pacientes que tienen, de hecho, color de piel de Tipo I y que han sido erróneamente clasificados con un color de piel distinto del Tipo I

• Los costes asociados al FP y FN son similares• Para estos conjuntos datos el objetivo debería ser

minimizar tanto el FN como el FP• Por consiguiente, que el modelo tenga mayor precisión

junto con un mayor AUC debería tener una mayor ponderación

• En consecuencia, el Modelo 1 es un mejor clasificar donde el coste de error para FP y FN es simétrico


Interpretando las Métricas para Ejemplos +ve


Mismo coste de errores Tipo I y Tipo II

Modelo Exactitud Precisión Recall Puntos F1 AUCModelo 1 0.94 1 0.67 0.8 0.8Modelo 2 0.94 0.75 1 0.86 0.9Modelo 3 0.94 0.93 1 0.964 0.8Modelo 4 0.94 1 0.92 0.958 0.9

• AUC gestiona de la misma forma los más +ve y los más –ve • Puntación F1 para los Modelos 3 y 4 es muy similar. La razón es

que debido al gran número de ejemplos +ve y al hecho de que la puntuación F1 depende, tan solo, (la lectura se deteriora) de los ejemplos de clasificación +ve

• Para datos de puntuaciones F1 desequilibradas y AUC son importantes. Ahora bien, la puntuación F1 se vuelve más importante cuando hay menos ejemplos +ve lo cual es bastante frecuente en la asistencia sanitaria


¿Qué clasificador es mejor?Classificador Exactitud Precisión Recall Puntos F1 AUCModelo 1 0.90 0.87 0.88 0.875 0.97Modelo 2 0.91 0.92 0.83 0.873 0.96

• Clasificadores• Apoyo a las máquinas de vectores (Modelo 1)• KNN (Modelo 2)

• En cuando a exactitud, el Modelo 2 es ligeramente mejor que el Modelo 1

• Como se comentó anteriormente, el cálculo de la exactitud no tiene en cuenta la diferencia entre los costes asociados a los errores del FP (Tipo I) y FN (Tipo II)


AUC• El AUC para ambos clasificadores es próximo a 1,

lo cual es deseable. Es decir, el TPR es mayor y el FPR es menor para ambos clasificadores

• En lo relativo al AUC, el Modelo 1 es ligeramente mejor

• La exactitud del modelo es ligeramente mayor y el AUC es ligeramente mayor para el otro modelo. Así que, la exactitud y el AUC no son de ayuda en este caso concreto.

• Así que la pregunta todavía necesita respuesta: ¿Qué Modelo es el mejor?


Recall, Precisión, Puntación F1• FP (ejemplos predichos como malignos que de

hecho son benignos) cuesta al paciente unos testsmás y finalmente su dinero

• FN (ejemplos predichos como benignos que son, de hecho, malignos) cuestan una vida humana

• En este caso la elección del proveedor de servicios sanitarios es obvia: elegir el modelo con un menor FN. FN es inversamente proporcional al Recall

• Cuanto mayor Recall mejor, es decir, la mayor proporción de pacientes con tumor maligno identificados correctamente.


Respuesta: Un Mayor Recall• Habitualmente, se prefiere mayor Recall y mayor

Precisión. Sin embargo, es aceptable identificar pacientes como FP, realizar unos cuantos testsmás y estar más seguros. Esto ocasiona menor precisión

• No obstante, ambos modelos tienen una puntuación F1 similar y la Precisión del Modelo 2 es mayor que la del Modelo 1

• Un valor de Recall más alto para el Modelo 1 que hace que sea un mejor clasificador para este ejemplo.


Ejemplo de Conjunto de Datos equilibrados: Detección y diagnóstico precoz de apoplejía• La apoplejía es una enfermedad frecuente que ha

afectado a 500 millones de personas en todo el mundo

• Es la primera causa de muerte en China y la 5ª en EE.UU*

• Consideremos la puntuación F1, AUC y Log-Losscomo las posibles métricas de valoración

* IA en los servicios sanitarios pasado, presente y futuro (https://svn.bmj.com/content/2/4/230)

Modelo Puntuación F1 AUC Log-LossModelo 1 0.88 0.94 0.28Modelo 2 0.97 0.98 0.6


https://svn.bmj.com/content/2/4/230

Interpretando los hallazgos para el caso de un conjunto de datos equilibrado• El Modelo 2 tiene la mejor:

• Puntuación F1• AUC

• Sin embargo, en cuanto al Log-Loss, el Modelo 1 tiene el mejor

• Aunque los datos están equilibrados, el coste del error de Tipo I del error de Tipo II. Esto otorga más confianza a la puntuación F1 y al AUC que al Log-Loss.

• El AUC puede ser razonable incluso para modelos inferiores. Como hemos visto en el ejemplo donde es 0.94 para el peor y 0.98 para el mejor modelo

• Por consiguiente, lo que es más importante, es la mayor puntuación F1 para el Modelo 2 lo que tiene más sentido en este escenario.


Caso de Estudio: El Proyecto de Prueba de Ejercicios (FIT) de Henry Ford

• Los datos y los resultados de la evaluación se obtuvieron de un artículo de la revista [1] publicada el 18 de abril de 2018

• El conjunto de datos del estudio clínico se compone de 23,095 pacientes, recolectados por el proyecto FIT para investigar el desempeño relativo de diferentes técnicas de clasificación para predecir los individuos con riesgo de desarrollar hipertensión usando registros médicos de estado de forma cardiorrespiratoria.

• El estudio compara el desempeño de 6 modelos ML diferentes para predecir los individuos en riesgo de desarrollar hipertensión empleando datos de estado de forma cardiorrespiratoria.

• Usando distintos modelos de validación, el modelo RTF en el conjunto de datos ha ofrecido el mejor desempeño (AUC = 0.93) que supera a los modelos de estudios previos

[1] Sakr S, Elshawi R, Ahmed A, Qureshi WT, Brawner C, et al. (2018) Using machine learning on cardiorespiratory fitness data forpredicting hypertension: The Henry Ford ExercIse Testing (FIT) Project. PLOS ONE 13(4): e0195344. https://doi.org/10.1371/journal.pone.0195344


https://doi.org/10.1371/journal.pone.0195344

El Proyecto Prueba de Ejercicios (FIT) de Henry Ford

• El estudio compara el desempeño de 6 modelos ML diferentes para predecir los individuos en riesgo de desarrollar hipertensión empleando datos de estado de forma cardiorrespiratoria.

• Usando distintos modelos de validación, el modelo RTF en el conjunto de datos ha ofrecido el mejor desempeño (AUC = 0.93) que supera a los modelos de estudios previos

[1] Sakr S, Elshawi R, Ahmed A, Qureshi WT, Brawner C, et al. (2018) Using machine learning on cardiorespiratory fitness data forpredicting hypertension: The Henry Ford ExercIse Testing (FIT) Project. PLOS ONE 13(4): e0195344. https://doi.org/10.1371/journal.pone.0195344


https://doi.org/10.1371/journal.pone.0195344

Las curvas de AUC para diferentes modelos de Machine Learningusando SMOTE, evaluadas empleando validación cruzada de10 pliegues

• El RTF tiene la mejor curva de ROC. • El AUC es aparentemente el mayor


Las Métricas

• El modelo RTF (Random Tree Forest) consigue el mayor AUC (0.93), y la puntuación F1 (86.70%), sensibilidad (69.96%) y especificidad (91.71%).

• ¿Qué significa una mayor especificidad para RTF?• Recuerda que las especificidad es la verdadera tasa de

reconocimiento negativo: TN/(TN+FP)• A mayor especificidad menor FP• Y por consiguiente, a menos pacientes se les hacen más tests• ¿Qué significa una mayor sensibilidad/recall para RTF?• Menor FN y por lo tanto menos pacientes +ve pasan inadvertidos al

paradigma de ML


Nota para los entusiastas del ML• Los resultados muestran que no es necesario que

el modelo de machine learning sea complejo, para que la predicción consiga una mejor exactitud. Los modelos más simples pueden ofrecer un mejor desempeño en algunos casos también.

• Los resultados muestran que es crítico explorar con detenimiento y evaluar el desempeño de los modelos de machine learning usando varios modelos de evaluación puesto que la predicción de exactitud puede variar significativamente.


¿Cuándo usar una Métrica en Particular?

• Para categorías equilibradas la exactitud es una buen métrica• AUC es una buen métrico para datos equilibrados, sin embargo, es más efectivo para

conjuntos de datos desequilibrados• Si hay una clase dominante (conjunto de datos desequilibrados) entonces hay que dar

más importancia al AUC y a la puntación F1• Si el objetivo es clasificar la categoría menor mejor, independientemente de si es una

categoría +ve o –ve, entonces el AUC es una buena medida• La puntuación F1 es importante cuando la clase +ve es pequeña.• Si la aplicación necesita tener un FN mínimo entonces hay que buscar un mayor recall• Si la aplicación necesita tener un FN mínimo entonces hay que buscar un mayor

precisión• Un mayor recall/sensibilida es mejor para identificar los ejemplos +ve• Una mayor especificidad es mejor para identificar los ejemplos -ve• Aunque, poco usada, la Log-Loss es importante para la diferencia probabilística absoluta.

Es importante en algunas aplicaciones• El RMSE es útil cuando los algoritmos de clasificación se evalúan para las predicciones


Conclusión• Una métrica puede ser buena en un escenario y funcionar en otro.• Las métricas se han de elegir basadas en el equilibrio de los datos• Si los ejemplos +ve son menores o más importantes para clasificar,

entonces da credibilidad a unas métricas sobre otras• En general, es una mejor idea calcula más métricas y entonces

decidir a favor de un modelo en particular • Generalmente, un buen algoritmo de ML consigue un buen

equilibrio entre la Precisión y el Recall.• Si la diferencia en costes entre los errores de Tipo I y Tipo II es

grande entonces la Precisión and el Recall son las métricas preferidas

• El mejor escenario para su aplicación en los servicios sanitarios es cuando tanto el recall y especificidad son máximos


Implementación de recomendaciones legislativas

Financiación sanitaria basada en Resultados

Usando el aprendizaje supervisado para seleccionar objetivos de control en la financiación sanitaria basada en resultados: En Ejemplo de ZambiaPor Dhruv Grover, Sebastian Bauhoff, and Jed Friedman


Estableciendo el contexto• Zambia dirigió un proyecto piloto de 2012-4 de

financiación basada en resultados de centros de salud públicos

• A los centros públicos de salud se les paga por la cantidad y cualidad de los servicios que ellos ofrecen

• Participaron centros públicos de salud (que cubren el 11% de la población de Zambia) en 10 distritos rurales


El Programa Mejoró Determinados Indicadores Pero…• El 42% of instalaciones sobrenotificaron al menos

uno de cada 4 trimestre medidos• La financiación por servicio incentivó tanto la

ejecución del servicio como la sobrenotificación• El pago por los servicios sobrenotificados mina el

incentivo para la ejecución de servicio y es una perdida de recursos públicos => necesitamos minimizar la sobrenotificación


¿Qué Medidas se tomaron para Reducir la Sobrenotificación?• Comités de dirección específicos realizaron

verificación interna de forma continuada reconciliando la información comunicada por instalación con evidencias basadas en papel

• Una tercera parte independiente realizó un proceso de verificación externa después de 2 años de la ejecución del programa (coste $22.5k)


Necesitan Enfocarse en la Verificación de tal forma que Identifique la Sobrenotificación de la Instalación pero sin tener un coste prohibitivo

• El objetivo de la verificación externa es minimizar la sobrenotificación mientras que minimiza los costes de verificación

• Puedes inspeccionar de forma independiente cada instalación => esto eliminaría completamente la sobrenotificación PERO sería prohibitivo en costes

• No puedes inspeccionar cada instalación PERO es probable que haya una reducción substancial en la cantidad de sobrenotificación que puede empeorar con el tiempo cuando las facultativos se den cuenta de que pueden aprovecharse de la falta de inspección


¿Cómo Identificar Instalaciones que es Probable que Hayan Sobrenotificado?

• Es posible identificar la sobrenotificación usando muestras aleatorias o machine learning

• Predicen la sobrenotificación definida como: • 1 si la diferencia entre los datos reportados y

verificados es mayor al > 10% de los valores reportados

• 0 en caso contrario• Usando las siguientes características de

imputación:• Los valores reportados y verificados para las 9

medidas de cantidad premiadas en el programa de PBF;

• Control de variables


Factores que Determinan la Elección de una Técnica de ML1. ¿Cuál es el tamaño del conjunto de datos de

entrenamiento?2. ¿Pueden las características ser tratadas como

variables independientes?3. ¿Estarán disponibles en el futuro datos

adicionales de entrenamiento y necesitaran ser incorporados en el modelo?

4. ¿Son los datos linealmente separables?5. ¿Se espera que el sobreajuste sea un problema?6. ¿Hay algunos requisitos de velocidad, desempeño

y uso de memoria?136Copyright (c) 2018. Data Science Dojo

Los Algoritmos Leen los Patrones de los Inputs que Indican que la Instalación está en Riesgo de Sobrenotificar

• Los patrones se aprenden de los datos tan solo desde el primer trimestre

• Los modelos (algoritmo + datos + parámetros) se miden de acuerdo a cuanto de bien identifican las instalaciones que sobrenotifican en el primer timestre

• Y los modelos pueden emplear este aprendizaje para predecir el riesgo de otras instalaciones de sobrenotificar en datos no vistos en trimestres subsiguientes

• En esta ocasión, el random forest realizó un desempeño superior al del resto de los algoritmos en cada una de las 5 métricas


¿Cómo Cambia esto el Enfoque de la Verificación?• Los verificadores pueden enviar equipos de

inspección para verificar los datos en aquellas instalaciones que tienen el mayor riesgo de sobrenotificación

• Ahorran c.$800 por clínica que no inspeccionaron por ser innecesario

• Los verificadores necesitan recoger de forma periódica otra muestra aleatoria para re-entrenar al modelo de tal forma que aquellos identificados como con bajo riesgo se aprovechen de las falta de supervisión para sobrenotificar.


Modelos Lineales de Regresión

Documents

Transcript of Modelos Lineales de Regresión