11/03/2020
1
RECONOCIMIENTO DE PATRONES
LABORATORIO AVANZADO DE PROCESAMIENTO DE IMÁGENESFACULTAD DE INGENIERÍA
RECONOCIMIENTO DE PATRONES
LABORATORIO AVANZADO DE PROCESAMIENTO DE IMÁGENESFACULTAD DE INGENIERÍA
2020
1
“ Given a number of features, how can one select the most important of them so as to reduce their number and at the same time retain as much as possible of their class discriminatory information? “
1
2
11/03/2020
2
Datos
3
Vectores??
f: X Y
X,Y pueden ser vectores, matrices, tensor, grafo.
3
4
11/03/2020
3
Ecuación de la recta• f: X Y
y=mx+b reescribiendo f(x)=mx+b
La línea como un modelo𝑦 = 𝑚𝑥 + 𝑏
• Problema: estimar la línea a partir de los datos• Relación entre 𝑥 y 𝑦• Dada una 𝑥 identifico la 𝑦 resultante
6
5
6
11/03/2020
4
• Algo mas generaly=w0x0+w1x1
• m=w1
• b=w0
• x=x1
• 1=x0
más general …
Regresión lineal y, sub y sobre ajuste• La metodología
argmin 𝔼(𝑓 𝑥 , 𝑦 )
8
7
8
11/03/2020
5
Elementos de la línea𝑦 = 𝑚𝑥 + 𝑏
• 𝑥 variable independiente• 𝑦 variable dependiente• 𝑚 pendiente• 𝑏 intersección
9
Como modelo
𝑓(𝑥) = 𝑚𝑥 + 𝑏
10
9
10
11/03/2020
6
Espacio de hipótesis
ℍ = 𝑚𝑥 + 𝑏, ∀𝑚 ∈ ℝ, 𝑏 ∈ ℝ
11
Reformulando... (expandiendo x)𝑦 = 𝑤 𝑥 + 𝑤 𝑥
• 𝑚 = 𝑤
• 𝑏 = 𝑤
• 𝑥 = 𝑥
• 1 = 𝑥¿…pero por qué…?
12
11
12
11/03/2020
7
Como operación de matrices
• Pero podemos hacerlo mejor
13
𝑓 𝑥 = 𝑊 𝑋 =𝑤𝑤 𝑥 𝑥 =
𝑤𝑤 1 𝑥
Pasado a dimensiones
𝑓 𝑥 = 𝑊 𝑋 =𝑤𝑤 𝑥 𝑥 =
𝑤𝑤 1 𝑥
𝑓 𝑥 = 𝑊 𝑋 =
𝑤𝑤 . . 𝑤
𝑥 𝑥 . . 𝑥 =
𝑤𝑤 . . 𝑤
1 𝑥 . . 𝑥
13
14
11/03/2020
8
Redefiniendo regresión lineal
Para un conjunto 𝑿 de n datos en ℝ , de la forma 𝒙 , 𝑖 = 1, … , 𝑛
para el cual agregamos un vector constante 𝑥 = 1
Y para un conjunto de 𝑦 con 𝑛 puntos relacionados con 𝑿 en posición.Suponemos:
𝑓 𝑥 = 𝑾 𝒙
¿Qué dimensiones tiene 𝑾?15
Evaluación: Error cuadrado
16
𝑬(𝒇 𝑿 , 𝒚) = (𝒚𝒊
− 𝒇 𝒙𝒊𝟐
𝒏
𝒊 𝟎
15
16
11/03/2020
9
Más específico
17
𝑬 𝒇𝑾 𝑿 , 𝒚 = 𝒚𝒊 − 𝑾𝑻𝒙𝒊𝟐
𝒏
𝒊 𝟎
Mucho más específicos
18
17
18
11/03/2020
10
Optimización: búsqueda
Descenso por gradiente 19
Descenso por Gradiente
• Método general de minimización• Busca identificar un mínimo dentro de una
función
20
19
20
11/03/2020
11
Algunas funciones son fáciles
21
Algunas funciones son difíciles
22
21
22
11/03/2020
12
Nuestras opciones
• Analítica: 1ª derivada, igualar a cero, deducir valores
• Métodos numéricos: GD (1ª derivada), Newton’sGD (1ª y 2ª derivada)
• Aproximativos: LBFS, PSO, AP
23
Imaginemos
24
23
24
11/03/2020
13
El escenario naïve
• En algún punto de la montaña• En cada dirección (S,N,O,P) medimos cuanto
bajamos al dar un paso• Dar un paso en la dirección que bajamos más
Avanzamos sólo un paso y en una dirección
25
¿Si sólo hubiera una forma de saber hacia donde decrece la montaña?
• Supongamos que estamos en algún punto de 𝑓 𝜃
• La pendiente en cada dimensión 𝛻 = , … ,
• La pendiente indica cuanto crece la montaña• Entonces, vayamos en dirección contraria (…)• ¿Qué tan grande el paso? Entre más grande la
pendiente un paso más grande, y viceversa• Seamos inteligentes y pongamos un parámetro 𝒌, i.e
Al final se tiene: - 𝒌𝛻26
25
26
11/03/2020
14
Formulación
• Dado un punto, podemos encontrar un nuevo punto más bajo
𝛉 = 𝛉 − 𝒌𝛻𝑓(𝜃)
Método iterativo
27
Para identificar nuevos pesos que minimicen el error
𝛉 = 𝛉 − 𝒌𝛻𝔼(𝑓 𝑥 , 𝑦)
• Método iterativo
28
27
28
11/03/2020
15
Algoritmo
Se ve fácil; la parte difícil es calcular 𝛻𝑓
29
p1
Regresando
• La derivada parcial me la da la cantidad por la dimensión
• 𝜃 , … , 𝜃 = 𝜃 , … , 𝜃 − 𝑘 , … ,
30
29
30
Slide 29
p1 personal, 1/28/2020
11/03/2020
16
Regresando a nuestro problemaBuscando minimizar
𝔼(𝑓 𝑥 , 𝑦)
𝑤 , … , 𝑤 = 𝑤 , … , 𝑤 − 𝑘𝜕
𝜕𝑤, … ,
𝜕
𝜕𝑤
31
Recordemos
32
31
32
11/03/2020
17
Derivando para dimensión
33
Derivadas de las sumas
34
33
34
11/03/2020
18
Derivada de potencias
35
Expandiendo sumatoria
36
35
36
11/03/2020
19
Expandiendo sumatoria
37
Derivando elementos
38
37
38
11/03/2020
20
Simplificado
39
Resultado
40
39
40
11/03/2020
21
41
42
41
42
11/03/2020
22
43
¿Qué hay de ?
44
43
44
11/03/2020
23
¿Pero con qué pesos comenzamos?
• Aleatorio• Uniforme al número de pesos
Como es aproximativo, no siempre tenemos el mismo modelo
45
¿Qué tipo de errores tenemos?
• Podemos pensar que nuestro espacio de hipótesis ℍ es un espacio de expertos
• Cada experto se desarrolló con una experiencia propia del problema, entonces difieren en como resolver el problema
46
45
46
11/03/2020
24
¿Qué tipo de errores cometen?
• Se equivocan siempre de igual forma
• Se equivocan por todos lados
47
Es decir
• El experto tiene sesgo (Bias)
• El experto tiene varianza (Var)
48
47
48
11/03/2020
25
Tomado de WTF is the Bias-Variance Tradeoff?
Los errores son una combinación de ambos factores
49
Falta un tipo de error
Intrínsecos del problema (𝜖)
50
49
50
11/03/2020
26
¿Quién tiene la culpa del error?
¿El algoritmo o la hipótesis?
51
Valores esperados
Para variable discreta
𝔼[𝑋] = 𝑥 𝑝(𝑥 )
Para una distribución uniforme
𝔼[𝑋] =1
𝑛𝑥
52
51
52
11/03/2020
27
Predicción esperada
𝔼[𝑓 (𝑥)] =1
𝑛𝑓 (𝑥 )
53
Error cuadrático esperado
𝔼[ 𝑓 𝑥 − 𝑦 ] =1
𝑛𝑓 𝑥 − 𝑦
54
53
54
11/03/2020
28
Sesgo• Es la diferencia entre la predicción esperada y
el valor verdadero
𝐵𝑖𝑎𝑠 𝑓 𝑥 = 𝑦 − 𝔼[𝑓 𝑿 ]
• ¿Por qué son mala noticias para nosotros?
55
Varianza• Es la diferencia entre la predicción al cuadrado
esperada y el cuadrado de la predicción esperada
𝑉𝑎𝑟 𝑓 𝑥 = 𝔼 𝑓 𝑿 − 𝔼 𝑓 (𝑿)
56
55
56
11/03/2020
29
Error cuadrático esperado
57
O en otras palabras
58
57
58
11/03/2020
30
Tomado de Single estimator versus bagging: bias-variance decomposition59
Compromiso entre sesgo y varianza
• Modelos más sencillos, producen alto sesgo• Modelos más complejos, producen bajo sesgo• Modelos más sencillos, producen una baja
varianza en un espacio ℍ más grande• Modelos más complejos, producen una mayor
varianza en un espacio ℍ más grande
60
59
60
11/03/2020
31
Tomado de WTF is the Bias-Variance Tradeoff61
Sub ajuste• Es cuando el modelo es tan simple que no es
suficiente para modelar las relaciones de los datos de entrenamiento
• Imaginen el modelo y = 𝑐
62
61
62
11/03/2020
32
Sobre ajuste• Es cuando el modelo es muy complejo, de tal
forma que memoriza los datos de entrenamiento, lo único que modela es el ruido
• Imaginen el modelo 𝑓 = 𝑔 + 𝜖
• Ante nuevos datos falla más
63
Tomado de Underfitting vs. Overfitting64
63
64
Top Related