Download - 3 Regresion lineal Error y Gradiente - UNAM

11/03/2020

1

RECONOCIMIENTO DE PATRONES

LABORATORIO AVANZADO DE PROCESAMIENTO DE IMÁGENESFACULTAD DE INGENIERÍA

RECONOCIMIENTO DE PATRONES

LABORATORIO AVANZADO DE PROCESAMIENTO DE IMÁGENESFACULTAD DE INGENIERÍA

2020

1

“ Given a number of features, how can one select the most important of them so as to reduce their number and at the same time retain as much as possible of their class discriminatory information? “

1

2

11/03/2020

2

Datos

3

Vectores??

f: X Y

X,Y pueden ser vectores, matrices, tensor, grafo.

3

4

11/03/2020

3

Ecuación de la recta• f: X Y

y=mx+b reescribiendo f(x)=mx+b

La línea como un modelo𝑦 = 𝑚𝑥 + 𝑏

• Problema: estimar la línea a partir de los datos• Relación entre 𝑥 y 𝑦• Dada una 𝑥 identifico la 𝑦 resultante

6

5

6

11/03/2020

4

• Algo mas generaly=w0x0+w1x1

• m=w1

• b=w0

• x=x1

• 1=x0

más general …

Regresión lineal y, sub y sobre ajuste• La metodología

argmin 𝔼(𝑓 𝑥 , 𝑦 )

8

7

8

11/03/2020

5

Elementos de la línea𝑦 = 𝑚𝑥 + 𝑏

• 𝑥 variable independiente• 𝑦 variable dependiente• 𝑚 pendiente• 𝑏 intersección

9

Como modelo

𝑓(𝑥) = 𝑚𝑥 + 𝑏

10

9

10

11/03/2020

6

Espacio de hipótesis

ℍ = 𝑚𝑥 + 𝑏, ∀𝑚 ∈ ℝ, 𝑏 ∈ ℝ

11

Reformulando... (expandiendo x)𝑦 = 𝑤 𝑥 + 𝑤 𝑥

• 𝑚 = 𝑤

• 𝑏 = 𝑤

• 𝑥 = 𝑥

• 1 = 𝑥¿…pero por qué…?

12

11

12

11/03/2020

7

Como operación de matrices

• Pero podemos hacerlo mejor

13

𝑓 𝑥 = 𝑊 𝑋 =𝑤𝑤 𝑥 𝑥 =

𝑤𝑤 1 𝑥

Pasado a dimensiones

𝑓 𝑥 = 𝑊 𝑋 =𝑤𝑤 𝑥 𝑥 =

𝑤𝑤 1 𝑥

𝑓 𝑥 = 𝑊 𝑋 =

𝑤𝑤 . . 𝑤

𝑥 𝑥 . . 𝑥 =

𝑤𝑤 . . 𝑤

1 𝑥 . . 𝑥

13

14

11/03/2020

8

Redefiniendo regresión lineal

Para un conjunto 𝑿 de n datos en ℝ , de la forma 𝒙 , 𝑖 = 1, … , 𝑛

para el cual agregamos un vector constante 𝑥 = 1

Y para un conjunto de 𝑦 con 𝑛 puntos relacionados con 𝑿 en posición.Suponemos:

𝑓 𝑥 = 𝑾 𝒙

¿Qué dimensiones tiene 𝑾?15

Evaluación: Error cuadrado

16

𝑬(𝒇 𝑿 , 𝒚) = (𝒚𝒊

− 𝒇 𝒙𝒊𝟐

𝒏

𝒊 𝟎

15

16

11/03/2020

9

Más específico

17

𝑬 𝒇𝑾 𝑿 , 𝒚 = 𝒚𝒊 − 𝑾𝑻𝒙𝒊𝟐

𝒏

𝒊 𝟎

Mucho más específicos

18

17

18

11/03/2020

10

Optimización: búsqueda

Descenso por gradiente 19

Descenso por Gradiente

• Método general de minimización• Busca identificar un mínimo dentro de una

función

20

19

20

11/03/2020

11

Algunas funciones son fáciles

21

Algunas funciones son difíciles

22

21

22

11/03/2020

12

Nuestras opciones

• Analítica: 1ª derivada, igualar a cero, deducir valores

• Métodos numéricos: GD (1ª derivada), Newton’sGD (1ª y 2ª derivada)

• Aproximativos: LBFS, PSO, AP

23

Imaginemos

24

23

24

11/03/2020

13

El escenario naïve

• En algún punto de la montaña• En cada dirección (S,N,O,P) medimos cuanto

bajamos al dar un paso• Dar un paso en la dirección que bajamos más

Avanzamos sólo un paso y en una dirección

25

¿Si sólo hubiera una forma de saber hacia donde decrece la montaña?

• Supongamos que estamos en algún punto de 𝑓 𝜃

• La pendiente en cada dimensión 𝛻 = , … ,

• La pendiente indica cuanto crece la montaña• Entonces, vayamos en dirección contraria (…)• ¿Qué tan grande el paso? Entre más grande la

pendiente un paso más grande, y viceversa• Seamos inteligentes y pongamos un parámetro 𝒌, i.e

Al final se tiene: - 𝒌𝛻26

25

26

11/03/2020

14

Formulación

• Dado un punto, podemos encontrar un nuevo punto más bajo

𝛉 = 𝛉 − 𝒌𝛻𝑓(𝜃)

Método iterativo

27

Para identificar nuevos pesos que minimicen el error

𝛉 = 𝛉 − 𝒌𝛻𝔼(𝑓 𝑥 , 𝑦)

• Método iterativo

28

27

28

11/03/2020

15

Algoritmo

Se ve fácil; la parte difícil es calcular 𝛻𝑓

29

p1

Regresando

• La derivada parcial me la da la cantidad por la dimensión

• 𝜃 , … , 𝜃 = 𝜃 , … , 𝜃 − 𝑘 , … ,

30

29

30

p1 personal, 1/28/2020

11/03/2020

16

Regresando a nuestro problemaBuscando minimizar

𝔼(𝑓 𝑥 , 𝑦)

𝑤 , … , 𝑤 = 𝑤 , … , 𝑤 − 𝑘𝜕

𝜕𝑤, … ,

𝜕

𝜕𝑤

31

Recordemos

32

31

32

11/03/2020

17

Derivando para dimensión

33

Derivadas de las sumas

34

33

34

11/03/2020

18

Derivada de potencias

35

Expandiendo sumatoria

36

35

36

11/03/2020

19

Expandiendo sumatoria

37

Derivando elementos

38

37

38

11/03/2020

20

Simplificado

39

Resultado

40

39

40

11/03/2020

21

41

42

41

42

11/03/2020

22

43

¿Qué hay de ?

44

43

44

11/03/2020

23

¿Pero con qué pesos comenzamos?

• Aleatorio• Uniforme al número de pesos

Como es aproximativo, no siempre tenemos el mismo modelo

45

¿Qué tipo de errores tenemos?

• Podemos pensar que nuestro espacio de hipótesis ℍ es un espacio de expertos

• Cada experto se desarrolló con una experiencia propia del problema, entonces difieren en como resolver el problema

46

45

46

11/03/2020

24

¿Qué tipo de errores cometen?

• Se equivocan siempre de igual forma

• Se equivocan por todos lados

47

Es decir

• El experto tiene sesgo (Bias)

• El experto tiene varianza (Var)

48

47

48

11/03/2020

25

Tomado de WTF is the Bias-Variance Tradeoff?

Los errores son una combinación de ambos factores

49

Falta un tipo de error

Intrínsecos del problema (𝜖)

50

49

50

11/03/2020

26

¿Quién tiene la culpa del error?

¿El algoritmo o la hipótesis?

51

Valores esperados

Para variable discreta

𝔼[𝑋] = 𝑥 𝑝(𝑥 )

Para una distribución uniforme

𝔼[𝑋] =1

𝑛𝑥

52

51

52

11/03/2020

27

Predicción esperada

𝔼[𝑓 (𝑥)] =1

𝑛𝑓 (𝑥 )

53

Error cuadrático esperado

𝔼[ 𝑓 𝑥 − 𝑦 ] =1

𝑛𝑓 𝑥 − 𝑦

54

53

54

11/03/2020

28

Sesgo• Es la diferencia entre la predicción esperada y

el valor verdadero

𝐵𝑖𝑎𝑠 𝑓 𝑥 = 𝑦 − 𝔼[𝑓 𝑿 ]

• ¿Por qué son mala noticias para nosotros?

55

Varianza• Es la diferencia entre la predicción al cuadrado

esperada y el cuadrado de la predicción esperada

𝑉𝑎𝑟 𝑓 𝑥 = 𝔼 𝑓 𝑿 − 𝔼 𝑓 (𝑿)

56

55

56

11/03/2020

29

Error cuadrático esperado

57

O en otras palabras

58

57

58

11/03/2020

30

Tomado de Single estimator versus bagging: bias-variance decomposition59

Compromiso entre sesgo y varianza

• Modelos más sencillos, producen alto sesgo• Modelos más complejos, producen bajo sesgo• Modelos más sencillos, producen una baja

varianza en un espacio ℍ más grande• Modelos más complejos, producen una mayor

varianza en un espacio ℍ más grande

60

59

60

11/03/2020

31

Tomado de WTF is the Bias-Variance Tradeoff61

Sub ajuste• Es cuando el modelo es tan simple que no es

suficiente para modelar las relaciones de los datos de entrenamiento

• Imaginen el modelo y = 𝑐

62

61

62

11/03/2020

32

Sobre ajuste• Es cuando el modelo es muy complejo, de tal

forma que memoriza los datos de entrenamiento, lo único que modela es el ruido

• Imaginen el modelo 𝑓 = 𝑔 + 𝜖

• Ante nuevos datos falla más

63

Tomado de Underfitting vs. Overfitting64

63

64