UNIVERSIDAD POLITECNICA DE MADRID - oa.upm.esoa.upm.es/39508/1/JUAN_DEMOSTENES_BEKIOS_CALFA.pdfpor...
Transcript of UNIVERSIDAD POLITECNICA DE MADRID - oa.upm.esoa.upm.es/39508/1/JUAN_DEMOSTENES_BEKIOS_CALFA.pdfpor...
UNIVERSIDAD POLITECNICA DE MADRID
ESCUELA TECNICA SUPERIOR DE INGENIEROSINFORMATICOS
TESIS DOCTORALEstimacion eficiente de atributos demograficos del rostro
humano en imagenes
presentada en el
DEPARTAMENTO DE INTELIGENCIA ARTIFICAL
de la
UNIVERSIDAD POLITECNICA DE MADRID
para la obtencion del
GRADO DE DOCTOR EN INTELIGENCIA ARTIFICIAL
AUTOR: Juan D. Bekios Calfa
DIRECTOR: Luis Baumela Molina
CO-DIRECTOR: Jose Miguel Buenaposada Biencinto
Madrid, 2015
A mi familia
i
“No entiendes algo hasta que lo aprendes a hacer de mas de una forma”
Marvin Minsky
iii
Agradecimientos
Cuando entre por primera vez al laboratorio de Percepcion Computacional y
Robotica (PCR) una de las cosas que mas me llamo la atencion fue la calidez y
el apoyo con el que fui recibido. En el grupo PCR aprendı, entre muchas cosas,
la importancia del trabajo duro y riguroso que debe ser invertido para producir
investigacion seria. Agradezco a Luis Baumela y a Jose Miguel Buenaposada por
tener la paciencia y el compromiso de mostrarme este camino y el apasionante
mundo de la vision por computador. Ademas, de tutelar esta tesis.
Sin embargo, este gran esfuerzo no lo hice solo. Agradezco enormemente a Ximena
por acompanarme en este desafıo y a mis hijos Nikolas y Constantino por entender
que todo lo que vivimos involucro una gran cuota de sacrificio pero que a su vez
fue un proceso interesante y digno de vivir. Tambien agradezco a mis padres Juan
y Elena, mis hermanas Elena y Ana Marıa, quienes siempre confiaron en el buen
termino de este trabajo.
Finalmente, quisiera expresar mi gratitud a todas las personas que colaboraron
de alguna u otra forma. A mis amigos del “lab” como Antonio, Yadira, Pablo,
Kike, Fede y Gonzalo ya que siempre me tendieron una mano cuando lo necesitaba
y por las grandes conversaciones que tenıamos a la hora del almuerzo. Agradezco
especialmente a Antonio y Yadira por los cafes y dıas de “patatus” (entre otros
lugares) para conversar sobre el rock, el punk o cualquier tema que se nos cruzara por
la cabeza. A Julio Garcıa del Real por sus apasionadas conversaciones sobre la musica
clasica. Tambien, quisiera agradecer a las personas que me apoyaron con diferentes
becas como es el caso de Pedro Larranaga, Jesus Cardenosa y Jesus Barbero. A
mis amigos de Vision Artificial Desarrollos I+D en especial a Jesus, Aday, Angel
y Santiago por su amistad y profesionalismo. Quisiera poder nombrar a todas las
personas que fueron parte importante en el desarrollo de esta tesis pero que faltarıan
hojas para poder agregarlos a todos, a pesar de esto, mis mas infinitas gracias.
v
Indice general
Agradecimientos V
Resumen XXI
Abstract XXIII
Glosario XXV
I Introduccion 1
1. Introduccion y objetivos 3
1.1. Motivacion de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1. Aplicaciones y sistemas automaticos de analisis facial . . . . . 7
1.2. Problema a resolver . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3. Hipotesis de trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4. Objetivos de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5. Contribucion y estructura de la tesis . . . . . . . . . . . . . . . . . . 11
vii
II Prediccion de Atributos Faciales 13
2. Clasificador Unidimensional de Atributos Faciales Demograficos 15
2.1. Clasificador de genero . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2. Estado del arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3. Analisis Discriminante Lineal (LDA) . . . . . . . . . . . . . . . . . . 23
2.3.1. LDA en el subespacio transformado PCA (I),
PCA+LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.2. LDA en el subespacio transformado PCA (II),
PCA-M+LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.3. LDA en el espacio transformado ICA (ICA+LDA) . . . . . . 28
2.4. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4.1. Pruebas con una unica base de datos . . . . . . . . . . . . . . 34
2.4.2. Pruebas con cruce de base de datos . . . . . . . . . . . . . . . 45
2.4.3. Analisis del coste computacional . . . . . . . . . . . . . . . . . 50
2.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3. Regresores Demograficos Unidimensionales 55
3.1. Regresor de Edad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2. Estado del arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3. Regresion de edad desde imagenes de caras . . . . . . . . . . . . . . . 62
3.3.1. Proyeccion PCA+LDA como una matriz metrica para la edad 62
3.3.2. Regresion K-NN . . . . . . . . . . . . . . . . . . . . . . . . . 64
viii
3.4. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.4.1. Pruebas con una unica base de datos . . . . . . . . . . . . . . 67
3.4.2. Pruebas con cruce de base de datos . . . . . . . . . . . . . . . 70
3.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4. Dependencias entre atributos faciales 75
4.1. Powerset de atributos faciales para la clasificacion . . . . . . . . . . . 78
4.2. Reconocimiento de genero robusto . . . . . . . . . . . . . . . . . . . . 80
4.2.1. Sobre la dependencia entre los atributos de edad y genero . . . 81
4.2.2. Sobre la dependencias entre los atributos genero y pose . . . . 84
4.3. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.3.1. Base de datos de caras . . . . . . . . . . . . . . . . . . . . . . 89
4.3.2. Estimacion de genero y edad . . . . . . . . . . . . . . . . . . . 90
4.3.3. Clasificacion de genero no alineado . . . . . . . . . . . . . . . 91
4.3.4. Cabeza fuera del plano de rotacion para la estimacion de genero 93
4.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
III Conclusiones 97
5. Conclusiones 99
5.1. Lıneas futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
A. Bases de datos 105
ix
A.1. Base de datos en condiciones ideales . . . . . . . . . . . . . . . . . . . 105
A.1.1. Base de datos Gray FERET . . . . . . . . . . . . . . . . . . . 106
A.1.2. Base de datos Color FERET . . . . . . . . . . . . . . . . . . . 106
A.1.3. Base de datos PAL . . . . . . . . . . . . . . . . . . . . . . . . 107
A.1.4. Bade de datos MULTI-PIE . . . . . . . . . . . . . . . . . . . . 108
A.2. Base de datos en condiciones semi-reales . . . . . . . . . . . . . . . . 108
A.2.1. Base de datos UCN . . . . . . . . . . . . . . . . . . . . . . . . 110
A.2.2. Base de datos MORPH-II . . . . . . . . . . . . . . . . . . . . 110
A.3. Base de datos en condiciones reales . . . . . . . . . . . . . . . . . . . 111
A.3.1. Base de datos FG-NET . . . . . . . . . . . . . . . . . . . . . . 112
A.3.2. Base de datos GROUPS . . . . . . . . . . . . . . . . . . . . . 112
A.3.3. Base de datos LFW . . . . . . . . . . . . . . . . . . . . . . . . 113
B. Caracterısticas visuales para caras 115
B.1. Descriptores Globales . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
B.1.1. PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
B.1.2. ICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
B.1.3. LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
B.2. Descriptores Locales . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
B.2.1. Bancos de filtros de Gabor . . . . . . . . . . . . . . . . . . . . 118
B.2.2. Haar-Like . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
B.2.3. LBP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
x
B.2.4. SIFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
B.2.5. HOG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
C. Resultados de la tesis 125
C.1. Publicaciones Indexadas . . . . . . . . . . . . . . . . . . . . . . . . . 125
C.2. Congresos Indexados . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
C.3. Patente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
Bibliografıa 139
Indice alfabetico 142
xi
Indice de figuras
1.1. Tres metodos de la vision por computador. . . . . . . . . . . . . . . . 5
1.2. Diferentes apariencias de la cara de una misma persona . . . . . . . . 7
1.3. Ejemplo simplificado de un sistema de analisis facial . . . . . . . . . . 8
1.4. Caricatura de futuros usos de indexacion y busqueda de contenidos
por medio de analisis facial . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1. Etapas para la clasificacion automatica de la cara utilizando atributos
faciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2. Esquema que representa una aproximacion basada en la apariencia . . 19
2.3. Ejemplo de una aproximacion basada en caracterısticas . . . . . . . . 19
2.4. La informacion discriminante no esta relacionada con la magnitud de
los valores propios de la matriz Sm. En (a) los datos tienen una gran
varianza sobre el eje Z . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5. Algunas imagenes recortadas y redimensionadas, despues de la detec-
cion: (a) Base de datos UCN, (b) Base de datos PAL y (c) base de
datos Color FERET. . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6. La figura muestra imagenes de la base de datos UCN: La primera
fila muestra las imagenes originales recortadas desde el detector de
caras [VJ04] y la segunda fila muestra las imagenes ecualizadas y con
la mascara ovalada que ayuda a eliminar el fondo. . . . . . . . . . . . 33
2.7. Los experimentos basados en LDA utilizan un clasificador Bayesiano. 34
xiii
2.8. Pruebas sobre un clasificador SVM+RBF utilizando diferentes parame-
tros C y γ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.9. Coordenadas de ojos manualmente etiquetados utilizando FERET,
Face Recognition Technology, fa y OpenCV . . . . . . . . . . . . . . . 36
2.10. Rendimiento de la clasificacion a medida que el subespacio intermedio
PCA incrementa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.11. Rendimiento de la clasificacion (variable Rj en el Algoritmo 2.3) a
medida que el subespacio intermedio ICA incrementa para ICA+LDA. 40
2.12. Comparacion entre PCA+LDA y ICA+LDA utilizando las bases de
datos FERET (a) y UCN (b). . . . . . . . . . . . . . . . . . . . . . . . . 42
2.13. Sensiblidad de los clasificadores para giros de la cara fuera del plano
de rotacion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.14. Los histogramas muestran la frecuencia de los valores proyectados de
las imagenes de pruebas dentro del subespacio PCA+LDA calculadas
desde el conjunto de imagenes de entrenamiento . . . . . . . . . . . . 46
2.15. Reconstruccion de la imagen de una cara a partir de su proyeccion
LDA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.16. Algunos ejemplos de imagenes clasificadas erroneamente cuando se
entrena con FERET y se prueba con las imagenes de PAL, (Productive
Aging Lab Face) [MP04] . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.1. Imagenes que muestran el cambio en la apariencia de la edad cuando
se utilizan drogas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.2. AAM aplicados a dos distintos planos de rotacion [Mar08]. En ambas
figuras se puede observar que el modelo de textura (Texture Model)
muestra una cara alineada a una pose canonica a pesar de los cambios
de orientacion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3. Comparacion de distancias euclıdeas entre diferentes individuos y eda-
des . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.4. Estimacion de la edad por medio de un regresor K-NN . . . . . . . . 64
xiv
3.5. Curvas de valores de porcentajes acumulados para experimentos sobre
FG-NET, Face and Gesture Recognition Research Network, base de
datos de imagenes de 1002 individuos con un promedio de 12 imagenes
de diferentes edades por cada uno utilizando validacion cruzada con
imagenes de 25× 25 pixeles de tamano . . . . . . . . . . . . . . . . . 68
3.6. Curvas de valores de porcentajes acumulados para experimentos de
cruce de base de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.1. Powerset de Atributos es una extension a la aproximacion multi-
label LP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.2. Experimentos previos que demuestran la dependencia del genero y la
edad dada la apariencia . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.3. Distribucion de probabilidades de la apariencia dada la edad y el
genero sobre la base de datos GROUPS [GC09] . . . . . . . . . . . . 83
4.4. Ejemplo de imagenes capturadas desde PAL, GROUPS y LFW . . . . . . 84
4.5. Imagen canonica de 60× 60 pixeles con la posicion de todos los pares
de ojos(Ple, Pre) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.6. Los clusters muestran las posiciones de los ojos dentro de una ventana
canonica de deteccion de caras . . . . . . . . . . . . . . . . . . . . . . 87
4.7. Ejemplos de caras de la base de datos Multi-PIE despues de la deteccion 94
A.1. Seleccion de imagenes obtenidas desde la base de datos Gray FERET. . 106
A.2. Seleccion de imagenes obtenidas desde la base de datos color FERET
gallerıa fa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
A.3. Imagenes obtenidas desde la base de datos color PAL con diferentes
expresiones faciales, poses, etnias y genero. . . . . . . . . . . . . . . . 108
A.4. La imagen muestra la posicion de cada una de las camaras. (Fuente:
http://www.multipie.org/) . . . . . . . . . . . . . . . . . . . . . . 109
xv
A.5. Las imagenes muestran las vistas obtenidas de las 15 camaras captu-
ras con iluminacion frontal. (Fuente: http://www.multipie.org/) . . 109
A.6. Imagenes obtenidas de la base de datos UCN. . . . . . . . . . . . . . . 110
A.7. Imagenes obtenidas de la base de datos MORPH-II. . . . . . . . . . . . 111
A.8. Imagenes obtenidas desde la base de datos FG-NET. Las imagenes son
capturadas en diferentes condiciones ambientales y de adquisicion.
Por cada individuo se almacenan un grupo de imagenes de diferentes
edades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
A.9. Imagenes obtenidas desde la base de datos color GROUPS. Las imagenes
muestran que las condiciones de adquisicion son diferentes para cada
imagen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
A.10.Imagenes obtenidas desde la base de datos LFW. Las imagenes corres-
ponden a diferentes personajes publicos obtenidos desde la Web. . . . 113
B.1. Representacion grafica de los nuevos ejes generados por PCA e ICA.
(Fuente: http://meg.aalip.jp/ICA/) . . . . . . . . . . . . . . . . . 117
B.2. Ejemplos de diferentes filtros de Gabor aplicados a tres tipos de
imagenes diferentes. (Fuente: http://scikit-image.org/docs/dev/
auto_examples/plot_gabor.html#example-plot-gabor-py) . . . . 119
B.3. Haar Wavelet : a) Representa la funcion Haar Wavelet b) Represen-
ta tres tipos de Haar wavelets no estandares: vertical, horizontal y
diagonal [PP00]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
B.4. Calculo del descriptor Locally Binary Patterns, LBP en la version
propuesta en [OPH96]. . . . . . . . . . . . . . . . . . . . . . . . . . . 121
B.5. Calculo del descriptor LBP [MRH07]. . . . . . . . . . . . . . . . . . . 122
B.6. Diagrama que muestra como se obtiene un descriptor SIFT . . . . . . 123
B.7. Diagrama de bloque que muestra como calcular un descriptor basado
en Histogram of Oriented Gradients, HoG [KKN12]. . . . . . . . . . . 124
xvi
Indice de tablas
2.1. Tasas de acierto para el conjunto de imagenes seleccionadas por Maki-
nen y Raisamo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.2. Tasas de acierto y desviacion estandar sobre una unica base de datos
para entrenamiento y pruebas utilizando validacion cruzada 5-fold . . 44
2.3. Tasas de clasificacion para experimentos con cruce de base de datos . 47
3.1. Grupos discretos para entrenamiendo del subespacio PCA+LDA para
las bases de datos FG-NET y PAL. . . . . . . . . . . . . . . . . . . . 67
3.2. Grupos y rangos de edad etiquetadas en la base de datos GROUPS. . 68
3.3. Se comparan los resultados de edad sobre FG-NET utilizando valida-
cion cruzada Leave-One-Person-Out : Tecnica de validacion cruzada
que realiza una prueba por cada sujeto (persona) que existe en la ba-
se de datos para luego calcular una estimacion global del clasificador.
Para cada prueba se seleccionan todas las observaciones (imagenes)
de un individuo como conjunto de pruebas y el resto de los individuos
son utilizados para el entrenamiento del estimador . . . . . . . . . . . 69
3.4. MAE sobre cada rango de edad para experimentos realizados en cruce
de base de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.1. Dependencia entre genero y edad . . . . . . . . . . . . . . . . . . . . 82
4.2. Numero de imagenes por genero y grupos de pose . . . . . . . . . . . 86
4.3. Dependencia entre el genero y la pose . . . . . . . . . . . . . . . . . . 88
xvii
4.4. Tasa de acierto para de los AP de Genero × Edad para el experimento
GROUPS/PAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.5. Tasa de acierto de los AP para Genero×Pose con validacion cruzada
5-fold y base de datos GROUPS . . . . . . . . . . . . . . . . . . . . . . 92
4.6. Experimentos de cruce de bases de datos sobre genero y pose, entre-
nado sobre GROUPS y probado sobre LFW . . . . . . . . . . . . . . . . 92
4.7. Tasa de acierto para genero utilizando validacion cruzada 5-fold en
experimentos sobre GROUPS sin ninos con imagenes detectadas sin
alinear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.8. Experimentos para genero y pose 3D. La primera fila muestra los
resultados para un clasificador de genero y la segunda fila despliega
los resultados para un clasificador AP que considera los atributos
Genero× 3D. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
xviii
Lista de algoritmos
2.1. Entrenamiento utilizado para seleccionar el mejor parametro d para
el clasificador basado en PCA+LDA. . . . . . . . . . . . . . . . . . . 26
2.2. Entrenamiento utilizado para seleccionar el mejor parametro d para
el clasificador basado en PCA-M+LDA. . . . . . . . . . . . . . . . . . 29
2.3. Entrenamiento utilizado para seleccionar el mejor parametro d para
el clasificador basado en ICA+LDA. . . . . . . . . . . . . . . . . . . . 31
3.1. Entrenamiento utilizado para seleccionar el mejor parametro d y k
para el regresor de edad basado en PCA+LDA. . . . . . . . . . . . . 65
xix
Resumen
Sin duda, el rostro humano ofrece mucha mas informacion de la que pensamos.
La cara transmite sin nuestro consentimiento senales no verbales, a partir de las
interacciones faciales, que dejan al descubierto nuestro estado afectivo, actividad
cognitiva, personalidad y enfermedades. Estudios recientes [OFT14, TODMS15] de-
muestran que muchas de nuestras decisiones sociales e interpersonales derivan de un
previo analisis facial de la cara que nos permite establecer si esa persona es confia-
ble, trabajadora, inteligente, etc. Esta interpretacion, propensa a errores, deriva de
la capacidad innata de los seres humanas de encontrar estas senales e interpretarlas.
Esta capacidad es motivo de estudio, con un especial interes en desarrollar metodos
que tengan la habilidad de calcular de manera automatica estas senales o atributos
asociados a la cara.
Ası, el interes por la estimacion de atributos faciales ha crecido rapidamente
en los ultimos anos por las diversas aplicaciones en que estos metodos pueden ser
utilizados: marketing dirigido, sistemas de seguridad, interaccion hombre-maquina,
etc. Sin embargo, estos estan lejos de ser perfectos y robustos en cualquier dominio
de problemas. La principal dificultad encontrada es causada por la alta variabilidad
intra-clase debida a los cambios en la condicion de la imagen: cambios de iluminacion,
oclusiones, expresiones faciales, edad, genero, etnia, etc.; encontradas frecuentemente
en imagenes adquiridas en entornos no controlados.
Este de trabajo de investigacion estudia tecnicas de analisis de imagenes para
estimar atributos faciales como el genero, la edad y la postura, empleando metodos
lineales y explotando las dependencias estadısticas entre estos atributos. Adicional-
mente, nuestra propuesta se centrara en la construccion de estimadores que tengan
una fuerte relacion entre rendimiento y coste computacional. Con respecto a este
ultimo punto, estudiamos un conjunto de estrategias para la clasificacion de genero
y las comparamos con una propuesta basada en un clasificador Bayesiano y una
adecuada extraccion de caracterısticas. Analizamos en profundidad el motivo de
porque las tecnicas lineales no han logrado resultados competitivos hasta la fecha y
xxi
mostramos como obtener rendimientos similares a las mejores tecnicas no-lineales.
Se propone un segundo algoritmo para la estimacion de edad, basado en un regre-
sor K-NN y una adecuada seleccion de caracterısticas tal como se propuso para
la clasificacion de genero. A partir de los experimentos desarrollados, observamos
que el rendimiento de los clasificadores se reduce significativamente si los estos han
sido entrenados y probados sobre diferentes bases de datos. Hemos encontrado que
una de las causas es la existencia de dependencias entre atributos faciales que no
han sido consideradas en la construccion de los clasificadores. Nuestro resultados
demuestran que la variabilidad intra-clase puede ser reducida cuando se consideran
las dependencias estadısticas entre los atributos faciales de el genero, la edad y la
pose; mejorando el rendimiento de nuestros clasificadores de atributos faciales con
un coste computacional pequeno.
xxii
Abstract
Surely the human face provides much more information than we think. The
face provides without our consent nonverbal cues from facial interactions that re-
veal our emotional state, cognitive activity, personality and disease. Recent studies
[OFT14, TODMS15] show that many of our social and interpersonal decisions de-
rive from a previous facial analysis that allows us to establish whether that person
is trustworthy, hardworking, intelligent, etc. This error-prone interpretation derives
from the innate ability of human beings to find and interpret these signals. This
capability is being studied, with a special interest in developing methods that have
the ability to automatically calculate these signs or attributes associated with the
face.
Thus, the interest in the estimation of facial attributes has grown rapidly in
recent years by the various applications in which these methods can be used: targe-
ted marketing, security systems, human-computer interaction, etc. However, these
are far from being perfect and robust in any domain of problems. The main diffi-
culty encountered is caused by the high intra-class variability due to changes in the
condition of the image: lighting changes, occlusions, facial expressions, age, gender,
ethnicity, etc.; often found in images acquired in uncontrolled environments.
This research work studies image analysis techniques to estimate facial attributes
such as gender, age and pose, using linear methods, and exploiting the statistical
dependencies between these attributes. In addition, our proposal will focus on the
construction of classifiers that have a good balance between performance and compu-
tational cost. We studied a set of strategies for gender classification and we compare
them with a proposal based on a Bayesian classifier and a suitable feature extraction
based on Linear Discriminant Analysis. We study in depth why linear techniques
have failed to provide competitive results to date and show how to obtain similar
performances to the best non-linear techniques. A second algorithm is proposed for
estimating age, which is based on a K-NN regressor and proper selection of features
such as those proposed for the classification of gender. From our experiments we
xxiii
note that performance estimates are significantly reduced if they have been trai-
ned and tested on different databases. We have found that one of the causes is the
existence of dependencies between facial features that have not been considered in
the construction of classifiers. Our results demonstrate that intra-class variability
can be reduced when considering the statistical dependencies between facial attri-
butes gender, age and pose, thus improving the performance of our classifiers with
a reduced computational cost.
xxiv
Glosario
C Numero de clases.
D Numero de total de dimensiones.
K Numero de instancias cercanas a otra utilizada como referencia.
N Numero de instancias de la muestra.
P Numero total de pıxeles de una imagen.
R Tasa de acierto del clasificador.
I Imagen media.
T Conjunto de N atributos faciales.
f Funcion matematica.
h Clasificador representado como una funcion.
D Matriz diagonal.
M Matriz de metrica aprendida.
PPCA Matriz base PCA donde los vectores propio se encuentran ordenados en orden
decreciente con respecto a sus valores propios.
SB Matriz de dispersion entre-clase.
SW Matriz de dispersion intra-clase.
Sm Matriz de dispersion total (SB+SW ).
W Matriz de proyeccion (Matriz cuyas columnas son vectores propios).
X Matriz formada por vectores columnas.
xxv
Cx Producto Cartesiano de todos los conjuntos de valores Vi.
L Vector de etiquetas, o valores clase, asociado a cada una de las instancias de
entrada.
Vi Vector con los posibles valores del atributo facial Vi.
x Entrada.
xi Entrada i-esima del conjunto representado por x.
z Entrada x proyecta sobre un nuevo subespacio.
zi Entrada i-esima del conjunto representado por z.
{xi}Ni=1 Conjunto de x con ındice i.
d Numero de entradas (dimensionalidad de entrada).
yi Salida o etiqueta asociada al vector de entrada xi.
FastICA Es un popular algoritmo para Analisis de Componentes Independientes
desarrollado por Aapo Hyvarinen de la Universidad Politecnica de Helsinki.
(Implementacion de FastICA para Matlab: http://research.ics.aalto.fi/
ica/fastica/).
ICA+LDA Subespacio transformado LDA que utiliza como entrada de datos el
subespacio ICA obtenido del conjunto original de datos.
ICA Analisis de Componente Independiente
(Independent Component Analysis, en ingles).
LDA Analisis de discriminante lineal o analisis de discriminante de Fisher
(Linear Discriminant Analysis, en ingles).
PCA+LDA Subespacio transformado LDA que utiliza como entrada de datos el
subespacio PCA obtenido del conjunto original de datos.
PCA-M+LDA Subespacio transformado LDA que utiliza como entrada de datos
el subespacio PCA obtenido del conjunto original de datos y cuyos vectores
propios son ordenados en importancia segun el criterio de Zhu y Martınez [ZM06a].
PCA Analisis de Componentes Principales
(Principal Component Analysis, en ingles).
AP Powerset de Atributos (Attributes Powerset), adaptacion del metodo Label
Powerset para el problema de atributos faciales (Capıtulo 4).
xxvi
LP Label Powerset, metodo de clasificacion multi-label que transforma un problema
de multiples etiquetas en un problema multi-clase [TK07, AC09, TKV10].
AAM Modelos de Apariencia Activa (Active Appearance Models) [CET01].
BIF Caracterısticas de inspiracion biologica (Bio-inspired Features, BIF) [GMFH09].
DCT Transformada discreta del coseno (Discrete Cosine Transform).
FERET Base de datos de imagenes de caras con etiquetas de edad y raza princi-
palmente. (Face Recognition Technology).
FG-NET Base de datos de imagenes de caras con etiquetas de edad, genero, en-
tre otras. (Face and Gesture Recognition Research Network (FG-NET ) Aging
Database).
fold Termino utilizado cuando se realiza validacion cruzada de datos K-fold (K-fold
cross-validation). Donde el conjunto de entrenamiento inicial se divide en K
folds o K subconjunto de datos. Para cada subconjunto individual de datos se
genera otro con el resto de los subconjuntos K − 1, el primero se utiliza como
datos de prueba y el resto como datos de entrenamiento. Para cada par de
subconjuntos se construye su modelo de prediccion y se evalua su rendimiento
por medio de metricas. Finalmente, se hace una evaluacion global de todos los
resultados.
GMM Modelo de mezcla de gaussianas (Gaussian Mixture Model).
GROUPS Base de datos de imagenes de caras con etiquetas de genero y grupos
de edad [GC09].
HoG Histograma de gradientes orientados (Histogram of Oriented Gradients).
K-NN K vecinos mas cercanos (K-Nearest Neighbor), es un clasificador que utiliza
un metodo de aprendizaje supervisado.
LBP Patrones binarios locales (Locally Binary Patterns) [OPM02, OPH96].
LFW Labeled faces in the wild, es una base de datos utilizada para el estudio del
reconocimiento de caras en condiciones no controladas [HRBLM07].
xxvii
LOPO Leave-One-Person-Out. Tecnica de validacion cruzada que realiza una prue-
ba por cada sujeto (persona) que existe en la base de datos para luego calcular
una estimacion global del clasificador. Para cada prueba se seleccionan todas
las observaciones (imagenes) de un individuo como conjunto de pruebas y el
resto de los individuos son utilizados para el entrenamiento del estimador.
MAE Error Absoluto Medio (Mean Absolute Error).
Multi-PIE CMU Multi-PIE, base de datos que contiene imagenes de caras adqui-
ridas con diferentes condiciones de iluminacion y orientacien de la cara sobre
337 individuos [GMC+10]..
OpenCV Librerıa libre para vision por computador. http://opencv.org/ .
PAL Base de datos de imagenes de caras con etiquetas de edad, genero y raza.
Productive Aging Lab Face [MP04].
RBF Funcion de kernel de base radial (Radial Basis Function Kernel).
RPK Regression from Patch Kernel [YZL+08].
SVM Maquina de soporte vectorial (Support Vector Machine) [CV95].
SVM+RBF Maquina de soporte vectorial (Support Vector Machine) que utiliza
una funcion de kernel de base radial (Radial Basis Function Kernel) para la
clasificacion no lineal de datos.
UCN Base de datos privada de imagenes de caras de propiedad de la Universidad
Catolica del Norte. Antogasta, Chile.
xxviii
Parte I
Introduccion
1
Capıtulo 1
Introduccion y objetivos
Si las puertas de la percepcion se depurasen,
todo aparecerıa a los hombres como
realmente es: infinito. Pues el hombre se ha
encerrado en sı mismo hasta ver todas las
cosas a traves de las estrechas rendijas de su
caverna.
William Blake
RESUMEN: Una de las primeras habilidades que rapidamente aprendemos
los seres humanos es la de reconocer los objetos que nos rodean. Desde que
nacemos contamos con la capacidad para clasificar caras facilmente y de mane-
ra robusta. Nuestra destreza para reconocer atributos faciales, como la edad
y el genero, en una persona particular es destacable. Ası mismo, existe un
especial interes en estudiar metodos eficientes que logren automatizar estas
capacidades y cuyas soluciones han surgido desde el area de la vision por
computador, que es el proposito de esta tesis. El presente capıtulo detalla el
tema del trabajo de investigacion.
3
4 Introduccion y objetivos
Construir maquinas inteligentes siempre ha sido un anhelo de sonadores,
visionarios y cientıficos. El gran desafıo consiste en construir maquinas
que por una parte realicen las tareas repetitivas o peligrosas que nosotros
no deseamos realizar y, por otra, que sean capaces de interactuar con nosotros tal
como lo hacemos los seres humanos a diario.
Es evidente que se han realizado importantes avances en este ambito, sin embar-
go, falta un enorme camino por recorrer. Hoy en dıa, la comunidad cientıfica se ha
concentrado en explotar distintos dominios del conocimiento para dar solucion a tal
iniciativa. Los aportes son diversos y vienen de diferentes areas de especializacion co-
mo la mecanica, la electronica, la informatica, etc. Dentro del area de la informatica
la inteligencia artificial cumple la labor de dotar de “inteligencia” a estas maquinas.
La inteligencia artificial, al igual que cualquier rama del conocimiento, se especializa
en diferentes areas. Una de ellas es la percepcion, la cual provee de informacion del
mundo a las maquinas, o agentes, a traves de la interpretacion de los datos obtenidos
por medio de sensores utilizados para este proposito. Los sensores simulan los cinco
sentidos del ser humano: el tacto, la audicion, el olfato, el gusto o la vision [RN09].
En el caso particular de la vision, vision por computador (en lengua espanola), el
objetivo de esta es poder entender el mundo que nos rodea por medio de imagenes.
Los datos obtenidos a partir de las imagenes son excepcionalmente abundantes en
comparacion con otro tipo de sensores puesto que las imagenes contienen una gran
cantidad implıcita de elementos utiles [RN09] (texturas, aspectos geometricos, ilu-
minacion, color, profundidad, entre otros). Por ejemplo, una camara web de vıdeo
estandar puede capturar imagenes de 1920 × 1080 pixels a 30 frames por segundo.
Si solo consideramos una imagen en escala de grises tenemos aproximadamente 1.9
Megabytes de datos por cada 0.033 segundos de vıdeo.
El problema que busca resolver la vision por computador es transformar la gran
cantidad de datos redundantes a un conjunto reducido de informacion util. Segun
Russell y Norvig [RN09] el problema de vision por computador puede ser resuelto
por medio de tres metodos: 1) extraccion de caracterısticas: Tecnica en la que
a traves de calculos simples aplicados directamente sobre la imagen se obtiene un
representacion reducida de esta, en general, su representacion viene dada por un
vector de caracterısticas compacto; 2) reconocimiento de objetos: Establece dis-
tinciones entre un conjunto de objetos, utilizando informacion visual u otra. En ese
sentido, el reconocimiento puede ser utilizado para etiquetar imagenes, indicando si
estas poseen una cualidad particular o no; y 3) reconstruccion: A partir de una
imagen o un conjunto de ellas se construye un modelo geometrico del mundo. Ver
Figura 1.1.
1.1 Motivacion de la tesis 5
(a) Extraccion de caracterısticas.
(b) Reconocimiento de objetos. (c) Reconstruccion.
Figura 1.1: Tres metodos de la vision por computador.
(Fuente: (a)SIFT aplicado a un individuo de la base de datos Multi-pie [GMC+10],
(b)http://homes.cs.washington.edu/~bcr/ y
(c)http://www.cs.cmu.edu/~hyunsoop/trajectory_reconstruction.html)
1.1. Motivacion de la tesis
Una de las primeras habilidades que rapidamente aprendemos los seres humanos
es la de reconocer los objetos que nos rodean. Desde que nacemos, desarrollamos
en pocos meses las habilidades necesarias para diferenciar cuales son aquellos obje-
tos o formas que nos gustan e incluso advertimos aquellos que pueden ser daninos o
perjudiciales. Desde el punto de vista afectivo, aprendemos a reconocer a las perso-
nas que nos dan confianza y rechazamos a las que no [EHSH93]. Al pasar los anos,
estas habilidades aumentan y se especializan cada vez mas, lo que permite mejorar
el entendimiento de los objetos, y su relacion con el mundo. Dentro de las nuevas
habilidades destaca la capacidad para reconocer individuos distintos, independien-
te de: sus cambios de apariencia generados por la edad, de oclusiones, del uso de
accesorios, de enfermedades, etc. Para lograr este fin, sin duda el sentido mas utili-
zado es el de la vista, en complemento con los otros sentidos. El ser humano utiliza
toda la informacion que tiene disponible dentro del contexto de la observacion, tal
como la cara de la persona, la forma de moverse o la apariencia de todo el cuerpo
6 Introduccion y objetivos
para poder descubrir los atributos adecuados y determinar cualidades interesantes
que logren deducir informacion sobre nosotros mismos [NTG12]. Los atributos en
sı mismos, nos permiten caracterizar a una persona dentro de un contexto. En el caso
demografico podemos determinar el genero o la edad de una persona. Tambien estos
atributos nos pueden servir para cualificar a las personas, determinando su identi-
dad [KBBN09], o pueden ser usados para establecer contextos sociales que ayudan
a complementar el desarrollo de otras tareas de prediccion [GC09] o incluso para
inferir nuevos patrones a traves de atributos relacionados con su comportamiento
psicologico [DGSA+10]. Algunos expertos [KCF14, EHSH93] senalan que esta habi-
lidad nos permite conocer y entender nuestro entorno social por medio de atributos
obtenidos directamente de la cara.
Esta capacidad humana ha sido motivo de estudio con un especial interes en
desarrollar metodos que tengan la habilidad de calcular de manera automatica estos
atributos y que no requieran la intervencion humana o la ayuda del sujeto estudiado
en cuestion [NTG12]. En los ultimos anos, se ha investigado mucho el problema de
la percepcion del rostro humano. Los atributos faciales, permiten transmitir una
significativa cantidad de informacion y relacionan datos visuales relevantes para la
estimacion de la edad, la expresion facial, el genero y origen etnico. Desempenando
un papel importante en el analisis automatico de la cara.
Sin embargo, los sistemas automaticos estan lejos de contar con esta habilidad
humana de funcionar correctamente en condiciones no controladas o de la vida dia-
ria. Esto se debe principalmente a dos factores: 1) condiciones de captura que
pueden afectar seriamente la estimacion debido a factores ambientales, tales como,
la iluminacion, resolucion de las imagenes, calidad de la camara digital, oclusiones,
etc; y 2) variabilidad inherente del rostro humano que considera los cambios
dados por la expresion facial, pose, genero, edad, etnia, entre otros factores. En la
Figura 1.2, se muestra un conjunto de imagenes asociadas a una misma persona. En
estas se pueden ver distintos cambios de iluminacion, pose, complexion de la cara,
etc. Estas transformaciones en la apariencia de la cara, incluso, pueden confundir al
ojo humano mas experimentado cuando se trata de indentificar personas o estimar
atributos, tales como, el genero y la edad. Aun, cuando se trate de la misma persona.
Las tecnologıas aplicadas en la estimacion de atributos faciales no dejan indi-
ferentes a muchos empresarios que ven valor en su uso cotidiano. En un futuro no
muy lejano, nuestro cuerpo, y en especial nuestra cara, nos ayudara a crear siste-
mas que se adaptaran a nuestras necesidades, dependiendo del analisis realizado a
nuestros rostros de manera automatica. Los profesores Brian Manneckea y Anicia
Peters [MP13, HMP14], de la Universidad Estatal de Iowa, observan que las ultimas
1.1 Motivacion de la tesis 7
Figura 1.2: Diferentes apariencias de la cara de una misma persona.
(Fuente: http://zombietime.com/really_truly_hillary_gallery/)
tendencias en publicidad y medios de comunicacion social unidas a las tecnologıas
de reconocimiento facial y corporal permitiran crear perfiles diferenciados, depen-
diendo de los tipos de atributos estimados. Ellos hablan de un nuevo tipo de avatar
asociado a operaciones de marketing, denominados “mavatars” [MP13] y que pue-
den ser utilizados para la comercializacion de productos y para el soporte de un sin
numero de nuevas aplicaciones, ver Figura 1.3.
1.1.1. Aplicaciones y sistemas automaticos de analisis facial
Dada la significativa expansion de las tecnologıas y aplicaciones de analisis facial
es importante delimitar y regular el uso de estas en la vida diaria. En las publi-
caciones de [MP13, HMP14] se revisan las futuras implicancias del uso de estas
tecnologıas y se hace una separacion entre aquellas que utilizaremos de forma vo-
luntaria, de otras que no. Ademas, de la forma como seran empleadas y distribuidas
en caso de que las aplicaciones lo requieran. Esto, sin duda, cambiara la manera de
comunicarnos no solo en en el futuro, sino tambien en el presente inmediato. Entre
las aplicaciones estudiadas, podemos listar las siguientes:
8 Introduccion y objetivos
Figura 1.3: Ejemplo simplificado de un sistema de analisis facial aplicado. Por
ejemplo, en la industria de la publicidad dirigida.
Biometrıa y Vigilancia La biometrıa es el conjunto de tecnicas que nos permite
reconocer personas, a traves de rasgos conductuales o fısicos. En la actua-
lidad, se esta utilizando el termino de rasgos biometricos blandos (soft-
biometric) [RSC+13] para mejorar el rendimiento de los sistemas biometricos
tradicionales que sirvan para identificacion de personas por medio de la des-
cripcion de atributos humanos. Los rasgos biometricos blandos incluyen ca-
racterısticas, tales como, la altura, el peso, la geometrıa del cuerpo, cicatrices,
marcas y tatuajes, el genero, la edad, la etnia, etc. [RSC+13][DGSA+10]
Indexacion y busqueda de contenidos Desde el punto de vista de la seguridad,
la estimacion de atributos faciales permite buscar sujetos que cumplan ciertas
caracterısticas fısicas generales para lograr ası un analisis mas especıfico. Estas
tecnicas permiten mejorar el rendimiento de sistemas de identificacion o verifi-
cacion de personas para dirigir la busqueda sobre grupos de personas [NEC]. La
principal idea es generar de manera automatica los metadatos [Lew06, EG99]
de una imagen, para poder realizar la busqueda y/o indexacion. A manera de
ejemplo, Facebook utiliza esta tecnologıa para que los usuarios puedan relacio-
nar sus fotografıas con los perfiles de otros usuarios. Ver Figura 1.4.
Estudios demograficos Diferentes actores tanto polıticos como empresariales sue-
len combinar varias variables para definir un perfil demografico. Un perfil de-
mografico, a menudo llamado “grupo demografico”, proporciona suficiente in-
formacion tıpica para crear una imagen mental asociada a ese grupo [Wik14].
Por ejemplo, podemos asociar ciertos atributos como: hombre, clase media de
18 a 24 anos a un buen comprador de vıdeo juegos o a un futuro estudiante
universitario con pertenencia a una idea polıtica, lo que se puede traducir en
el futuro proximo como un potencial voto. Existen aplicaciones o sistemas que
hacen esos tipos de estudios [Klo08, JH04, MR08b].
1.1 Motivacion de la tesis 9
Figura 1.4: Caricatura de futuros usos de indexacion y busqueda de contenidos por
medio de analisis facial. (Fuente: http://blogs-images.forbes.com/
kashmirhill/files/2011/10/Dating-in-the-Internet-age.png)
Publicidad dirigida Una de las principales aplicaciones utilizada, a partir del
analisis facial, es poder identificar los atributos necesarios para ofrecer pro-
ductos o servicios ajustados al gusto de los usuarios [Sof, Qui, Tru, Mic, imr,
HMP14]. Existen novedosas aplicaciones que utilizan los patrones demograficos
y de conducta para mejorar el servicio de sus ofertas. La empresa Redpepper ad
ha creado una aplicacion llamada FaceDeals que ofrece cupones personaliza-
dos de compra, usando reconocimiento facial [ad]. SceneTap es una aplicacion
para telefono movil que permite explorar un bar con una camara de vıdeo.
Esta informacion es procesada para estimar atributos demograficos como: el
genero, la edad y la cantidad de personas detectadas en el bar. Luego, esta in-
formacion es trasmitida a otros usuarios que quieran conocer el porcentaje de
hombres y mujeres, su edad promedio y disponibilidad que existe en los bares
de Chicago inscritos en el sistema [Sin11, Sce]. Tambien existen maquinas que
son capaces de distinguir la edad de un individuo y que suministran ciertos
bocadillos gratis (Jello Temptations) solo a adultos [Tre11] o maquinas sumi-
nistradoras de bebidas que guıan nuestra compra al estimar nuestros atributos
faciales y asociarnos a un perfil demografico [Sav10, ax314].
De todo esto se desprende que existe un mercado de explotacion en expansion,
donde nuevos productos, asociados al analisis facial, y de atributos faciales, seran
10 Introduccion y objetivos
desarrollados en el corto y mediano plazo lo que comprometera un importante es-
fuerzo de nuevas investigaciones e innovaciones para crear productos robustos para
su uso en la vida diaria. Actualmente, existen numerosas iniciativas dirigidas en ese
sentido, como es el caso de [Mas13] donde podemos encontrar un extenso listado de
plataformas, servicios y librerıas para el desarrollo de aplicaciones de analisis facial
que utilizan una variedad de tecnicas de imagenes 2D, 3D o ambas. Dentro de estas
aplicaciones se pueden encontrar algunas bastante basicas y otras para uso comer-
cial. Cada una de ellas con sus ventajas o desventajas asociadas. Entre los sistemas
ofrecidos (API) mas destacados para la extraccion de atributos faciales destacan
Skybiometry [Sky] y Face++ [Fac].
1.2. Problema a resolver
El trabajo de esta tesis se concentra en analizar automaticamente el rostro hu-
mano en imagenes y descubrir atributos faciales, utilizando la apariencia completa
de la cara. Existen numerosos atributos faciales interesantes que pueden obtenerse
a partir de una inspeccion visual de la cara como el bigote, perilla, flequillo, boca
(abierta, cerrada), forma de las cejas, tatuajes, pelo, expresion facial, etc. Pondremos
especial atencion en un subconjunto de atributos faciales que nosotros denominamos
atributos faciales demograficos y que se refieren a aquellos atributos considera-
dos, generalmente, en los estudios de tipo demografico. Los atributos seleccionados
para este estudio son el genero, la edad y la orientacion de la cara.
Nuestro interes se concentra en disenar y/o mejorar los modelos matematicos
que puedan predecir atributos faciales, bajo los siguientes requerimientos:
Altas tasas de acierto de los clasificadores.
Clasificadores extremadamente rapidos y que funcionen en tiempo real en dis-
positivos de bajo coste computacional. (20/30 imagenes por segundo)
Que funcionen correctamente en unas condiciones realistas de operacion.
1.3. Hipotesis de trabajo
H1 Convenientemente entrenados, los metodos lineales proporcionan un compromiso
excelente entre rendimiento y coste computacional para construir un buen
1.4 Objetivos de la tesis 11
clasificador de atributos faciales demograficos (genero, edad, y etnia).
H2 Existen dependencias entre los diferentes atributos faciales demograficos que
cuando se tienen en cuenta influyen positivamente en las tasas de acierto de
los estimadores.
1.4. Objetivos de la tesis
El objetivo general de la tesis, sobre la base de las hipotesis de trabajo plan-
teadas, es desarrollar tecnicas de analisis de imagenes para estimar atributos faciales
como el genero, la edad y la orientacion de la cara, empleando metodos lineales, y
explotando las dependencias estadısticas entre estos atributos.
Los objetivos especıficos son:
Construir modelos de prediccion de atributos faciales simples y de facil compu-
to.
Construir modelos de prediccion robustos, a cambios de iluminacion, pose y
condiciones de adquisicion.
Mejorar la prediccion explotando las relaciones estadısticas entre las variables
a predecir.
1.5. Contribucion y estructura de la tesis
En el presente trabajo, exploraremos y probaremos diferentes tecnicas de analisis
del rostro con un especial enfasis en el uso de modelos de prediccion lineal sobre
atributos faciales, tales como el genero, la edad y la raza. Para lograr este proposito
la tesis ha sido dividida en seis capıtulos.
El Capitulo I introduce al lector en el problema de vision por computador que
se desea resolver. Ademas de motivar a valorar la importancia de la investigacion
desarrollada desde el punto de vista teorico y tecnologico. Al mismo tiempo, defi-
ne los requisitos de la solucion, hipotesis de trabajo y objetivos propuestos. En el
Capıtulo II se estudian modelos lineales y no lineales para establecer el estado del
12 Introduccion y objetivos
arte en estimacion de genero. Adicionalmente, se analiza en detalle la estimacion del
genero en imagenes de caras y se propone una mejora al entrenamiento de modelos
lineales sobre genero, con resultados similares a los presentados en el estado del arte
en terminos de tasa de acierto. El Capıtulo III se analiza el problema de estimacion
de la edad y se propone el estado del arte para este. Al igual que el Capıtulo II, se
utilizan modelos lineales para construir el vector de caracterısticas y se propone un
regresor no-lineal basado en K-NN . En el Capıtulo IV, se estudia las dependencias
entre las variables clase genero, edad y pose, utilizando una aproximacion similar a
las usadas en la clasificacion multi-label, confirmando una mejora en el rendimien-
to y robustez de la estimacion en genero. Finalmente, el Capıtulo V, se exponen
las conclusiones generales de la tesis, ası como tambien, las lıneas de investigacion
abiertas y de trabajo a futuro que se generaron a partir de este tema de tesis.
Parte II
Prediccion de Atributos Faciales
13
Capıtulo 2
Clasificador Unidimensional de
Atributos Faciales Demograficos
La cara es el espejo del alma, y los ojos son
sus interpretes.
Marco Tulio Ciceron
RESUMEN: El aumento de aplicaciones de vision por computador y re-
conocimiento de patrones en dispositivos moviles requieren del desarrollo de
algoritmos que funcionen sobre recursos computacionales limitados. Las tecni-
cas de clasificacion lineal tienen un importante papel que jugar en este con-
texto, debido a su simplicidad y bajos requerimientos computacionales. El
presente capıtulo revisa el estado del arte en clasificacion de genero, prestan-
do especial atencion en las tecnicas lineales. Ademas, se analiza el motivo de
porque las tecnicas lineales no han logrado resultados competitivos en el pasa-
do y mostramos como obtener rendimientos similares a los encontrados en el
estado del arte previos a la publicacion de nuestros resultados. Adicionalmen-
te, efectuamos experimentos cruzando bases de datos y probamos que aquellos
efectuados sobre una sola base de datos estan sesgados de manera optimista.
De los experimentos de este capıtulo se desprende que, si contamos con un
numero suficiente de datos y recursos computacionales, los clasificadores de
genero implementados con Maquinas de Soporte Vectorial son superiores al
resto. Cuando los recursos computacionales son escasos pero hay suficientes
datos, las aproximaciones de boosting y lineales son las adecuadas. Finalmen-
te, si los datos de entrenamiento y recursos computacionales son muy escasos,
entonces las aproximaciones lineales son la mejor opcion.
15
16 Clasificador Unidimensional de Atributos Faciales Demograficos
La facilidad con que nosotros reconocemos una cara, su expresion facial, el
genero, la raza y la edad, a la que pertenecen, oculta el proceso increıble-
mente complejo que subyace detras de estos actos de reconocimiento de
patrones. Para nosotros, un patron, en contraposicion al caos, es una entidad, va-
gamente definida, a la que se le puede asignar un nombre [Wat85]. Entonces, dado
un patron, podemos reconocer y clasificar este a traves de las siguientes tareas de
aprendizaje [JDM00, KR07]: 1) clasificacion supervisada en la cual el patron
de entrada es identificado como un miembro de una clase predefinida, 2) clasifica-
cion no supervisada (clustering) donde el patron se le asigna una clase hasta ese
momento desconocida, y que tiene que ver con la semejanza que tienen estos.
El trabajo desarrollado en este capıtulo se orienta a la clasificacion supervisada
donde el patron de entrada es un vector de caracterısticas obtenido a partir de
una imagen de intensidades de la cara y su clase es una variable de tipo cualitativa
(categorica o discreta) [HTF09] [Blu11]. En nuestro caso, y a modo de ejemplo, cada
variable clase representa un atributo facial demografico como el genero, la raza y la
edad.
En general, un sistema automatico de clasificacion de caras esta divido en cuatro
etapas:
Deteccion de la cara. Dada una imagen detectamos y localizamos automatica-
mente una o varias caras. Usualmente, se utiliza un clasificador dicotomico
que analiza diferentes subregiones de la imagen, a diferentes escalas y posicio-
nes, para identificar o no la presencia de una cara.
Procesamiento de la imagen. Se mejora el aspecto de la imagen y se hacen mas
evidentes los detalles que nos interesan estudiar.
Extraccion/Seleccion de caracterısticas. En esta etapa se utilizan tecnicas de
reduccion de dimensionalidad con el proposito de evitar errores en la siguiente
etapa de clasificacion inducida por informacion redundante o ruido potencial
que puedan contener los datos generados en el paso anterior.
Clasificacion. Finalmente, el nuevo espacio de caracterısticas se divide en regiones
separadas por hiperplanos de decision donde cada una estas representa una
clase. Para cada nueva entrada es posible asignar automaticamente una ca-
tegorıa. Para esto se debe construir un modelo matematico, el clasificador, a
partir de un conjunto de datos de entrenamiento utilizando un algoritmo de
aprendizaje.
2.1 Clasificador de genero 17
En la Figura 2.1 se resume cada una de las etapas que involucran la fase de
entrenamiento de un clasificador de atributos faciales. El proceso comienza a partir
de un conjunto de imagenes obtenidas por medio de un detector automatico de
caras y etiquetadas con su atributo facial manualmente. A cada imagen aplicamos
un pre-procesamiento para poder mejorarla. Luego, cada una de las imagenes se
transforma a un vector para facilitar su empleo en la clasificacion. Sin embargo,
los vectores generados por cada imagen contienen informacion redundante debido
a su alta dimensionalidad. Utilizamos algoritmos de extraccion de caracterısticas
para generar vectores mas compactos que conservan la informacion contenida en los
vectores originales. Finalmente, en la etapa de clasificacion se construye el modelo
matematico que ajusta una funcion, f , cuyo dominio son los vectores formados por
el nuevo espacio de caracterısticas, y su recorrido es el atributo facial que deseamos
estimar. Una vez entrenado el clasificador podemos utilizarlo para estimar atributos
faciales a partir de una nueva imagen, donde esta se debe transformar al nuevo
espacio de caracterısticas antes de realizar la consulta.
El presente capıtulo centrara su estudio en las etapas de reduccion de dimensio-
nalidad y de clasificacion. Se analizara particularmente el atributo facial demografico
de genero con el objetivo de encontrar un marco de trabajo base para la clasificacion
de otros atributos faciales.
2.1. Clasificador de genero
La clasificacion demografica, y en particular el reconocimiento de genero, es un
tema con alto potencial de aplicacion en areas como la vigilancia, reconocimiento
de rostros, indexacion de vıdeos, estudios de marketing dinamico, entre otras apli-
caciones. Esto ha atraıdo el interes de investigadores en vision por computador y el
reconocimiento de patrones en las ultimas decadas [MY02, BR07, MR08a, MR08b,
GLS90, SVM02, LMJV06] y siendo SEXNET [GLS90] uno de los primeros intentos
para reconocer el genero de una persona a partir de su rostro.
En la literatura existen muchas soluciones propuestas a este problema [MY02,
BR07, MR08a, MR08b, GLS90, SVM02, LMJV06, VRdsC06, ZY07], que pueden
ser agrupadas, en general, dentro de dos aproximaciones:
Basadas en apariencia global (appearance-based). Este tipo de aproximacio-
nes utilizan toda la imagen de una cara para la clasificacion. La imagen original
se obtiene por medio de un detector de caras o manualmente. Esta imagen se
18 Clasificador Unidimensional de Atributos Faciales Demograficos
Figura 2.1: Etapas para la clasificacion automatica de la cara utilizando atributos
faciales. Donde Ci representa una variable clase que corresponde a un atributo facial
como el genero (hombre, mujer).
ajusta a un tamano estandar para luego normalizar su textura en iluminacion
(ecualizacion de histograma, por ejemplo). En algunos casos, se agrega una
mascara para eliminar el efecto que pueda tener el fondo que esta detras de
la cara. Finalmente, se utiliza toda la informacion obtenida, del proceso antes
descrito, como vector de entrada para la clasificacion. Ver Figura 2.2.
Basadas en caracterısticas (feature-based). Por otro lado, esta aproximacion
extrae un conjunto de caracterısticas especıficas y discrimantes de la imagen de
la cara que son utilizadas como entrada para el entrenamiento del clasificador,
y su posterior uso. Ver Figura 2.3.
2.2. Estado del arte
Uno de los primeros trabajos importantes en el reconocimiento de genero fue
desarrollado por Moghaddam y Yang [MY02]. Adoptaron una aproximacion ba-
sada en apariencia y utilizaron un clasificador para entrada de datos no lineales;
denominado maquina de soporte vectorial (Support Vector Machine) con una fun-
2.2 Estado del arte 19
Figura 2.2: Esquema que representa una aproximacion basada en la apariencia: Se
detecta la cara, se reduce de tamano y se normaliza en iluminacion, finalmente se
utiliza toda la informacion de la imagen resultante como entrada al clasificador.
Figura 2.3: La imagen muestra un ejemplo de una aproximacion basada en carac-
terısticas. Para cada imagen mostrada en la figura se seleccionan diferentes regiones
de esta para la clasificacion. La primera imagen a la izquierda, muestra las carac-
terısticas seleccionadas para un clasificador de genero utilizando un algoritmo de
boosting [ZY07]. Las imagenes siguientes, segunda, tercera y cuarta, muestran las
regiones seleccionadas para estimar la etnia (Asiatico/No Asiatico), ninez (Nino/
No Nino) y vejez (Anciano/No Anciano).
cion kernel de base radial (Radial Basis Function Kernel), SVM+RBF [MY02].
Obtuvieron una tasa de acierto para reconocimiento de genero del 96,6 % utilizando
1775 imagenes seleccionadas desde la base de datos FERET [PMRR00]. Las image-
nes utilizadas fueron recortadas y alineadas automaticamente. Para las pruebas del
clasificador utilizaron validacion cruzada 5-fold .
Baluja y Rowley [BR07], por otro lado, encontraron e informaron sobre un sesgo
en el trabajo presentado por Moghaddam y Yang [MY02] causado por el uso de
individuos con la misma identidad en diferentes folds de la validacion cruzada. En el
20 Clasificador Unidimensional de Atributos Faciales Demograficos
mismo experimento Baluja y Rowley [BR07] lograron un 93,5 % de tasa de acierto
utilizando SVM+RBF con alineacion manual y una validacion cruzada apropiada
que considera diferentes sujetos para cada fold de entrenamiento y prueba.
Para las aproximaciones basadas en caracterısticas se pueden encontrar tra-
bajos que utilizan las diferencias de niveles de gris a partir de un par de pıxe-
les [BR07], Haar-like wavelets [MR08a, SVM02], bancos de filtros multiescala (multi-
scale filter banks) [LMJV06] o LBP [MR08a, MR08b]. Shakhmarovich [SVM02]
logro un 79 % y un 79,2 % de precision en la clasificacion de genero y origen etnico
respectivamente sobre un conjunto complicado de imagenes obtenidas desde la web.
Utiliza caracterısticas Haar-like con una aproximacion basada en el clasificador Ada-
Boost, este clasificador es varios ordenes de magnitud mas rapido que el clasificador
SVM . Baluja y Rowley [BR07] utilizaron comparaciones de parejas de pıxeles en
niveles de gris como clasificadores debiles (weak classifiers) sobre un esquema de
aprendizaje basado en AdaBoost. Emplearon imagenes alineadas manualmente de
la base de datos de Color FERET, especıficamente las galerıas “fa” y “fb”, donde
lograron una precision del 94 %. Sus clasificadores son 50 veces mas rapidos que la
solucion SVM propuesta por Moghaddam y Yang [MY02].
Makinen y Raisamo [MR08a] realizaron un conjunto de experimentos utilizan-
do 411 imagenes (304 para entrenamiento y 107 para pruebas) de la base de datos
FERET. Compararon las aproximaciones basadas en apariencia y caracterısticas, con
imagenes alineadas y no alineadas. Obtuvieron resultados de rendimientos simila-
res para las aproximaciones basadas en caracterısticas (AdaBoost) y las basadas en
apariencia (utilizando clasificadores SVM+RBF ). El mejor resultado fue de 86 %
y 82,62 % como tasas de acierto para imagenes de caras escaladas a un tamano
estandar de 36 × 36 y 24 × 24 pıxeles respectivamente, utilizando una aproxima-
cion basada en apariencia y un clasificador SVM+RBF . En otro trabajo [MR08b],
Makinen y Raisamo experimentaron con diferentes bases de datos, combinaciones
de clasificadores y normalizaciones sobre la cara. La principal conclusion de su tra-
bajo es que la alineacion automatica debe de ser muy precisa para que sea util.
Obtuvieron un 86 % de tasa acierto en imagenes de caras no alineadas utilizando
SVM+RBF y una aproximacion basada en apariencia. En un conjunto diferente de
experimentos [MR08b] tambien estudiaron la importancia de considerar el pelo de
la frente en su clasificacion. En este trabajo, lograron un 84 % de tasa de acierto en
el reconocimiento de genero sobre un conjunto de 900 imagenes utilizando la base
de datos FERET. Para este experimento emplearon nuevamente un clasificador SVM
y una funcion kernel RBF , sin alineacion de las imagenes. La principal conclusion
de este segunda parte de experimentos es que la alineacion geometrica (en este caso
manual) es mas importante que utilizar el pelo de la cabeza como una caracterıstica
2.2 Estado del arte 21
visual.
En contraste con Makinen [MR08a], Verschae y otros [VRdsC06] tambien reali-
zaron varios experimentos con distintos tipos de caracterısticas y clasificadores. Ob-
teniendo resultados similares a los encontrados por Makinen [MR08a] usando la base
de datos de imagenes FERET, la mejor tasa de acierto corresponde a un experimen-
to que utiliza una version modificada de LBP y un clasificador AdaBoost [FSA99]
con una tasa de acierto del 85,56 % para alineacion manual y un 85,89 % de tasa
de acierto para alineacion automatica de los ojos. Tambien lograron tasas de reco-
nocimiento similares utilizando SVM+RBF . Dago-Casas [DCGJYAC11] comparan
la aproximacion basada en apariencia con otros descriptores de la cara sobre dos
conjuntos de imagenes capturadas en condiciones de adquisicion no controladas (“in
the wild”), LFW [HRBLM07] y GROUPS [GC09], con imagenes escaladas a 105× 90 y
120×105 pıxeles. Los mejores resultados obtenidos fueron 79,16 % para la aproxima-
cion basada en apariencia y un 86,61 % utilizando otros descriptores de la cara sobre
la base de datos GROUPS. En igual forma, obtienen sobre la base de datos LFW 89,24 %
y 93,83 % respectivamente. Castrillon [CSLNRB13] utilizo diferentes descriptores de
la cara y la fusion de diferentes clasificadores sobre las bases de datos de adquisicion
no controladas LFW, GROUPS y MORPH-II [RT06] con mejoras superiores al 3 % con
respecto a [DCGJYAC11]. En el estudio del reconocimiento de genero sobre image-
nes con cambios bruscos en la pose de la cara [BCBB14] obtuvo una tasa de acierto
entre el 84,31 % y el 88,04 % sobre la base de datos Multi-PIE [GMC+10]. Toews
y Arbel [TA09] obtuvieron un 83,7 % de tasa de acierto sobre FERET, utilizando
un novedoso metodo basado en caracterısticas que utiliza zonas especificas de las
imagenes descritas con SIFT [Low04].
La principal conclusion obtenida de los resultados encontrados en la literatu-
ra, es que las aproximaciones basadas en apariencia que utilizan un clasificador
SVM+RBF , y las basadas en caracterısticas locales que utilizan clasificadores basa-
dos en AdaBoost, eran los mejores clasificadores publicados para entornos contrala-
dos como en FERET y PAL . La primera aproximacion es marginalmente superior en
terminos de tasas de aciertos en la clasificacion, y la segunda es ordenes de magnitud
mas rapido que el primero. La mayorıa de los resultados encontrados en la litera-
tura se obtuvieron utilizando validacion cruzada (cross-validation) sobre una unica
base de datos. En este capıtulo se demuestra empıricamente que estas estimaciones
son sesgadas y optimistas, puesto que las imagenes contenidas en una unica base
de datos tienden a poseer dependencias inherentes a las condiciones de adquisicion
y, en la mayorıa de los casos, con condiciones similares de demografıa. Trabajos
posteriores al nuestro [BCBB11], como el de Dago-Casas [DCGJYAC11] han vali-
dado estos resultados. En resumen, de los resultados encontrados en la literatura
22 Clasificador Unidimensional de Atributos Faciales Demograficos
se obtiene que las aproximaciones basadas en apariencia y caracterısticas tienen un
comportamiento similar cuando se validan sobre bases de datos que fueron captura-
das en condiciones controladas [BCBB11, MR08b]. Sin embargo, cuando la base de
datos contiene imagenes capturadas en condiciones no controladas, o con cambios
de apariencia bruscos, los rendimientos mejoran cuando se utiliza una aproximacion
basada en caracterısticas [DCGJYAC11, CSLNRB13, RBLNCS12].
Otra importante conclusion obtenida es que los resultados publicados no son
faciles de comparar debido a que en la mayorıa de los casos los investigadores no
utilizan las mismas bases de datos en sus estudios. Por el contrario, si las utilizan, no
siempre seleccionan las mismas imagenes en sus experimentos. No obstante, Maki-
nen y Raisamo [MR08a] desarrollaron un amplio conjunto de experimentos para el
reconocimiento de genero sometido a las mismas condiciones de validacion. Desafor-
tunadamente, utilizaron un conjunto reducido de imagenes (441) lo que no permite
arguir conclusiones definitivas. Sin embargo, es posible deducir de su trabajo que el
estado del arte en reconocimiento de genero es aproximadamente un 93 % de tasa
de acierto utilizando la base de datos FERET. Estos resultados tambien son cohe-
rentes con los obtenidos por Baluja y Rowley [BR07]. Por otro lado, el rendimiento
del clasificador, aunque importante, no es solo la unica variable de nuestro interes.
Con la notable excepcion del trabajo de Baluja y Rowley [BR07], las aproximacio-
nes existentes para el reconocimiento de genero se han enfocado principalmente en
sistemas de computacion de alto rendimiento y no han considerado la eficiencia del
clasificador como un factor relevante. El considerable aumento de las aplicaciones de
vision por computador en dispositivos de bajas prestaciones (bajo poder de compu-
to) como camaras fotograficas digitales y moviles inteligentes (smart-phones) nos
hace considerar que la eficiencia del clasificador como un aspecto importante. En
este capıtulo, y los proximos, nos concentraremos en la revision y construccion de
algoritmos cuya principal caracterıstica sea su bajo coste computacional y un alto
rendimiento en terminos de tasa de acierto para la clasificacion de genero, entre
otros atributos faciales. Hasta el momento, solo los algoritmos propuestos por Balu-
ja et al [BR07] y Shakhmarovich et al [SVM02], ambos basados en el algoritmo de
clasificacion AdaBoost, cumplen con este requisito computacional.
Para concluir, observamos que las propuestas estudiadas sobre clasificacion de
genero han subestimado una de las tecnicas de clasificacion lineal mas simples: Un
clasificador Bayesiano cuyas variables de entrada son obtenidas a partir de un subes-
pacio reducido por medio de un Analisis de Discriminante Lineal (LDA, Linear
Discriminant Analysis).
En la seccion 2.3 revisaremos los conceptos basicos para la seleccion de carac-
2.3 Analisis Discriminante Lineal (LDA) 23
terısticas por medio del analisis discriminante. Ademas se propondra una forma sen-
cilla, y lineal, para la seleccion de caracterısticas cuya aproximacion logra resultados
comparables a los mejores clasificadores de genero encontrados en la literatura como
los basados en SVM+RBF [MY02] y Boosting [BR07]. Finalmente, se comparan los
resultados obtenidos con los encontrados en la literatura.
2.3. Analisis Discriminante Lineal (LDA)
Dado un problema de clasificacion multiclase con C clases y N numero de ins-
tancias de entrada de x, {xi}Ni=1, el analisis discriminante lineal (LDA) proporciona
una proyeccion lineal sobre los datos iniciales de la muestra dentro de un subespa-
cio de a lo sumo d = C−1 dimensiones. Con la proyeccion se busca una medida
que maximice la separacion entre las diferentes clases (variabilidad entre-clase) y
minimice variabilidad dentro de cada clase (variabilidad intra-clase). Es decir, la
proyeccion de las instancias asociadas a una misma clase se encuentran lo mas cerca
posible unas de las otras, mınima dispersion intra-clase; de la misma manera se
espera que las medias proyectadas de cada clase esten lo mas lejos posible unas de
las otras, maxima separacion entre-clases.
La base del nuevo subespacio transformado de d dimensiones, {wi}di=1, se obtiene
maximizando
J(w) =d∑
i=1
w>i SBwi
w>i SWwi
, (2.1)
donde SB y SW son respectivamente las matrices de dispersion entre-clase e intra-
clase [Fuk90], que se definen como:
SB =1
N
c∑j=1
nj(µj − µ)(µj − µ)>,
SW =1
N
c∑j=1
nj
∑i∈j
(xi − µj)(xi − µj)>, (2.2)
Siendo nj el numero de elementos que pertenecen a la clase j, N =∑c
j=1 nj el
numero de elementos de toda la muestra, µj el promedio de los elementos de la
muestra que pertenecen a la clase j, y µ el promedio de toda la muestra.
24 Clasificador Unidimensional de Atributos Faciales Demograficos
El valor maximo de J(W ) viene dado por los valores propios generalizados de
SBW = SWWD, donde W es una matriz cuyas columnas son wi y D es la matriz diagonal
de valores propios. El rango de la matriz SB es como maximo C−1 y sera el rango
de la matriz de proyeccion LDA, W. En el caso de que la matriz SW sea no singular,
el problema de autovalores generalizados se puede convertir en un problema de
autovalores:
S−1W SBW = WD (2.3)
En las secciones 2.3.1, 2.3.2 y 2.3.3 describiremos tres tecnicas de reduccion de
dimensiones que son utilizadas como paso previo para el calculo del nuevo subes-
pacio LDA. Cada uno de los resultados obtenidos son comparados en la seccion de
experimentos.
2.3.1. LDA en el subespacio transformado PCA (I),
PCA+LDA
Cuando se trata con problemas de clasificacion de imagenes, es comun encontrar
bases de datos que cuentan con un numero limitado de imagenes. En algunos casos,
la cantidad de imagenes puede ser menor que el espacio de caracterısticas (espacio
d-dimensional) necesario para el buen funcionamiento del clasificador. Por ejemplo,
si se trabaja bajo una aproximacion basada en apariencia lo normal serıa que las
variables del vector de caracterısticas de entrada sean los pıxeles de toda la imagen,
si consideramos una imagen de 32×32 pıxeles el tamano del vector de caracterısticas
serıa de 1024 variables o dimensiones. En el caso en que el numero de imagenes de
la base de datos sea menor a la cantidad de variables de entrada, para el ejemplo
serıan menos de 1024 imagenes, la matriz de dispersion intra-clase, SW , no se puede
utilizar para el calculo de la ecuacion 2.3.
Sin embargo, una solucion alternativa posible es utilizar la matriz de covarianza
de toda la muestra, Sm:
Sm = SB + SW (2.4)
La matriz Sm, de la ecuacion 2.4, reemplaza a la matriz de dispersion intra-clase,
SW . La solucion de valores propios de la ecuacion 2.3 no cambiara si utilizamos la ma-
2.3 Analisis Discriminante Lineal (LDA) 25
triz Sm [YY03, ZM06a]. Ademas, si realizamos Analisis de Componentes Principales
(Pricipal Component Analysis, PCA) previo a la transformacion LDA, y retenemos
solo aquellos vectores propios cuyos valores propios asociados son distintos de cero,
el nuevo subespacio LDA construido a partir del subespacio PCA es equivalente al
calculado solo utilizando LDA, subespacio original [YY03]. No obstante, si en la
construccion del subespacio PCA desechamos los vectores propios asociados a va-
lores propios no nulos, el modelo PCA+LDA no sera estrictamente equivalente al
subespacio generado solo utilizando LDA. A partir de este momento denominaremos
PCA+LDA al metodo que utiliza el subespacio transformado PCA como entrada
previa para el calculo del LDA, independiente de la forma de como sean elegidos los
vectores propios en el paso PCA.
Uno de los resultados mas antiguos utilizando PCA+LDA aplicado a imagenes
son los FisherFaces de Belhumeur [BHK97]. En el caso FisherFaces se asume que
el numero de imagenes de la muestra, N , es mas bajo que el numero de pıxeles
de la imagen, P , y el numero de vectores propios PCA retenidos, antes de aplicar
el metodo LDA, es P − C. Para el caso particular de esta tesis, la mayorıa de los
datos de entrada utilizados para el entrenamiento contaran con mas imagenes que
pıxeles. Por lo tanto, gran parte de los valores propios obtenidos al transformar los
datos de entrenamiento al subespacio PCA seran distintos de cero. Hemos compro-
bado empıricamente, que dependiendo de la cantidad de datos de entrenamiento
el rendimiento del clasificador tiende a disminuir cuando utilizamos todos los vec-
tores propios asociados a valores propios no nulos obtenidos al aplicar PCA (ver
figuras 2.10 y 2.11). Como consecuencia de esto, y dentro de nuestras mejoras pro-
puestas, un paso importante para obtener un rendimiento optimo en la clasificacion
utilizando una aproximacion lineal, es elegir de manera adecuada aquellos vectores
propios PCA que contengan la mayor informacion discriminante posible.
Para seleccionar las dimensiones adecuadas del subespacio PCA, proponemos un
esquema de validacion cruzada en vez de la aproximacion tradicional de retener los
vectores propios dependiendo de su porcentaje de varianza. Usualmente se seleccio-
nan los vectores propios que estan contenidos en la relacion de valores propios con un
porcentaje varianza del 95 % o 99 % [JW98]. El algoritmo de entrenamiento propues-
to prueba diferentes conjuntos de vectores propios PCA. Los vectores propios PCA
se ordenan de mayor a menor con respecto a su magnitud y se seleccionan secuen-
cialmente. En el algoritmo 2.1 mostramos en detalle su funcionamiento, donde, P es
el numero de pıxeles en una imagen, X es una matriz con los datos de entrenamiento
donde cada imagen es un vector columna, L es el vector con las correspondientes
etiquetas clase (Masculino o Femenino), PPCA es la matriz base PCA ordenada con
los vectores propios en orden decreciente con respecto a su varianza, I es la imagen
26 Clasificador Unidimensional de Atributos Faciales Demograficos
media, R es la mejor tasa de acierto obtenida y d es la mejor dimension.
En la seccion 2.4, de experimentos, demostraremos empıricamente que este proce-
so de seleccion de caracterısticas es esencial para lograr tasas de acierto, en genero,
similares a los encontrados en el estado del arte para aproximaciones basadas en
apariencia mediante un procedimiento lineal PCA+LDA. Sin embargo, esta no es la
primera vez que se menciona este tipo de procedimiento en la literatura. Martınez
y Kak [MK01] comparan diferentes aproximaciones PCA y LDA aplicadas al reco-
nocimientos de objetos sobre modelos de apariencia. Ellos tambien seleccionan las
mejores dimensiones PCA antes de aplicar LDA.
Algoritmo 2.1 Entrenamiento utilizado para seleccionar el mejor parametro d para
el clasificador basado en PCA+LDA.
Entradas: X, L
Resultados: R, d
1: R⇐ 0 {Inicializar la mejor tasa de clasificacion a 0}2: d⇐ 1 {Inicializar el mejor numero de caracterısticas a 1}3: Dividir {X,L} en l folds F = {{X1,L1}, . . . , {Xl,Ll}}.4: for j = 1 to D do {Validacion cruzada l-fold con j caracterısticas retenidas
antes de aplicar LDA}5: for i = 1 to l do
6: {Xtest,Ltest} ⇐ {Xi,Li} {Probar con fold i}7: {Xtrain,Ltrain} ⇐ F − {Xi,Li} {Entrenar con el resto de los folds}8: [PPCA, I] ⇐ PCA(Xtrain) {Analisis de Componentes Principales}9: A B se le asignan las j columnas en PPCA.
10: Y⇐ B>(Xtrain − [I. . .I]) {Proyeccion sobre el subespacio PCA}11: PLDA ⇐ LDA(Y,Ltrain) {Analisis de discriminante lineal de Fisher}12: Z⇐ PLDAY {Proyeccion sobre el subespacio LDA}13: C ⇐ entrenarClasificadorBayesiano(Z, Ltrain)
14: Ztest ⇐ PLDAB>(Xtest − [I. . .I])
15: ri ⇐ clasificar(C, Ztest, Ltest)
16: end for
17: Rj ⇐ 1l
∑li=1 ri
18: if Rj > R then
19: R⇐ Rj
20: d⇐ j
21: end if
22: end for
2.3 Analisis Discriminante Lineal (LDA) 27
2.3.2. LDA en el subespacio transformado PCA (II),
PCA-M+LDA
Cuando se realiza PCA+LDA un paso importante es escoger adecuadamente
los vectores propios que retengan la mayor cantidad de informacion discriminante
posible. Zhu y Martınez [ZM06a], argumentaron que no se puede decir a priori que
los valores propios cercanos a cero son producto del ruido ni que son altamente
discriminantes.
Utilizaron la matriz de covarianza total para una muestra de imagenes, Sm, en
lugar de SW . Ası, el problema de los valores propios para el LDA queda:
S−1m SBW = WD
Zhu y Martınez [ZM06a] definen un criterio para ordenar los vectores propios de
la matriz Sm en terminos de sus correlaciones con la matriz SB. Para ser discrimi-
nantes, un vector propio de Sm, uj, deberıa estar correlado con al menos un vector
propio wi, de SB, ver Figura 2.4. Esto significa que damos mayor importancia a los
vectores propios de Sm paralelos al subespacio generado LDA.
(a) (b)
Figura 2.4: La informacion discriminante no esta relacionada con los valores propios
de la matriz Sm. En (a) los datos mostrados en la figura tienen una gran varianza
sobre el eje Z y en otro ejemplo (b) la varianza es pequena en el mismo eje. En
ambos casos observamos que la informacion en el eje Z no proporciona informacion
discriminante [ZM06a].
Debido a esto, una camino alternativo para seleccionar los vectores propios PCA
28 Clasificador Unidimensional de Atributos Faciales Demograficos
es de acuerdo a su correlacion con la matriz SB [ZM06a]. En este caso daremos
importancia a los vectores propios paralelos al subespacio generado por los prototipos
de las clases (medias). La importancia de los vectores propios de Sm, uj, se calculan
por medio de la siguiente ecuacion:
Ij =
q∑i=1
(u>j vi)2, q = rank(SB), (2.5)
Donde vi son los vectores propios de SB [ZM06a].
Con PCA-M+LDA indicamos que el algoritmo utiliza PCA, y que ordena sus
vectores propios en orden decreciente empleando el valor de correlacion calculado en
la ecuacion 2.5, Ij. Se seleccionan los primeros k vectores propios del nuevo orden
y finalmente se lleva a cabo el LDA. En el caso PCA-M+LDA el procedimiento de
entrenamiento se muestra en el algoritmo 2.2 pero con una importante diferencia:
Despues de la (lınea 8), en el algoritmo PCA-M+LDA se ordenan las columnas PPCA
por medio de los valores decrecientes Ij asociados.
2.3.3. LDA en el espacio transformado ICA (ICA+LDA)
ICA intenta explicar los datos de la muestra original, en terminos de vecto-
res aleatorios estadısticamente independientes. Sea X una matriz de datos cuyas
columnas son los vectores de la muestra. Los algoritmos lineales ICA encuentran
una matriz P que proyecta X dentro del subespacio de componentes independientes,
S = PX. Las columnas de S contienen las versiones proyectadas de los vectores de la
muestra.
La mayorıa de los investigadores utilizan los resultados de algoritmos basados en
ICA tales como FastICA o Infomax [VHH07]. Estos procedimientos buscan vectores
vi, filas de la matriz P, tal que las filas de S tengan distribuciones no Gaussianas y
que esten mutuamente (aproximadamente) no correlados. Una forma sencilla para
lograr este objetivo es construir un PCA, retener solo los vectores propios que tengan
valores propios distintos a cero, despues blanquearlos1 (escalando las proyeccion
PCA por la inversa de sus valores propios), y a continuacion estimar una matriz de
rotacion para R,
1Whittening en ingles. Donde nos interesa que la proyeccion de cada uno de sus componentes
tengan media cero, sean incorrelados y sus varianzas sean uno.
2.3 Analisis Discriminante Lineal (LDA) 29
Algoritmo 2.2 Entrenamiento utilizado para seleccionar el mejor parametro d para
el clasificador basado en PCA-M+LDA.
Entradas: X, L, Sm, SbResultados: R, d
1: R⇐ 0 {Inicializar la mejor tasa de clasificacion a 0}2: d⇐ 1 {Inicializar el mejor numero de caracterısticas a 1}3: Dividir {X,L} en l folds F = {{X1,L1}, . . . , {Xl,Ll}}.4: for j = 1 to D do {Validacion cruzada l-fold con j caracterısticas retenidas
antes de aplicar LDA}5: for i = 1 to l do
6: {Xtest,Ltest} ⇐ {Xi,Li} {Probar con fold i}7: {Xtrain,Ltrain} ⇐ F − {Xi,Li} {Entrenar con el resto de los folds}8: [PPCA, I] ⇐ PCA(Xtrain) {Analisis de Componentes Principales}9: I ⇐ calcularImportancia(Sm, Sb) {Indices que consideran la correlacion en-
tre los vectores propios de Sm y Sb}10: PPCA−M ⇐ ordenar(PPCA, I)
11: A B se le asignan las j columnas en PPCA−M .
12: Y⇐ B>(Xtrain − [I. . .I]) {Proyeccion sobre el subespacio PCA−M}13: PLDA ⇐ LDA(Y,Ltrain) {Analisis de discriminante lineal de Fisher}14: Z⇐ PLDAY {Proyeccion sobre el subespacio LDA}15: C ⇐ entrenarClasificadorBayesiano(Z, Ltrain)
16: Ztest ⇐ PLDAB>(Xtest − [I. . .I])
17: ri ⇐ clasificar(C, Ztest, Ltest)
18: end for
19: Rj ⇐ 1l
∑li=1 ri
20: if Rj > R then
21: R⇐ Rj
22: d⇐ j
23: end if
24: end for
30 Clasificador Unidimensional de Atributos Faciales Demograficos
S = R>Λ−1B>X = R>Z, (2.6)
donde Z son las proyecciones blanqueadas (normalizadas e incorreladas) PCA
de los vectores de la muestra en X, y Λ es la matriz diagonal con valores propios
distintos de cero, B son los vectores propios asociados con la matriz diagonal Λ con
valores propios distintos a cero [VHH07].
Abusando del concepto de independencia, algunas aproximaciones usan los com-
ponentes independientes obtenidos por ICA como una base para expandir el subes-
pacio lineal [JH04]. El algoritmo 2.3 detalla el entrenamiento para el clasificador
FastICA+LDA. A diferencia de los algoritmos anteriores, las lineas entre 8 y 10
utilizan FastICA para estimar la matriz de proyeccion P, seleccionando las primeras
j filas de P y proyectando Xtrain dentro de los primeras j caracterısticas FastICA
obtenidas de la matriz Y.
2.4. Experimentos
En esta seccion se evalua el rendimiento y se comparan las aproximaciones linea-
les con los mejores clasificadores no lineales encontrados en la literatura, SVM+RBF
como el usado por Moghaddam y Yang [MY02], y el algoritmo de Baluja y Row-
ley’s [BR07] basado en parejas de pıxeles y boosting.
Para entrenar y evaluar las diferentes aproximaciones en igualdad de condiciones
y escenarios se selecciono un conjunto heterogeneo de bases de datos de imagenes
cuyas caracterısticas diferıan en cantidad de imagenes, calidad y condiciones de
captura. Las bases de datos que utilizamos son (Ver Apendice A para mas detalles):
UCN. Base de datos privada. Desarrollada en la Universidad Catolica del Norte de
Chile. Ver figura 2.5(a).
PAL. Productive Aging Lab Face de la University of Texas at Dallas [MP04]. Ver
figura 2.5(b).
FERET. Color FERET es una base de datos de caras que esta disponible para la
investigacion en analisis de caras [PMRR00]. Ver figura 2.5(c).
Mak-ba. Conjunto de imagenes utilizadas por Makinen y Raisamo [MR08a] de la
base de datos Gray FERET.
2.4 Experimentos 31
Algoritmo 2.3 Entrenamiento utilizado para seleccionar el mejor parametro d para
el clasificador basado en ICA+LDA.
Entradas: X, L, Sm, SbResultados: R, d
1: R⇐ 0 {Inicializar la mejor tasa de clasificacion a 0}2: d⇐ 1 {Inicializar el mejor numero de caracterısticas a 1}3: Dividir {X,L} en l folds F = {{X1,L1}, . . . , {Xl,Ll}}.4: for j = 1 to D do {Validacion cruzada l-fold con j caracterısticas retenidas
antes de aplicar LDA}5: for i = 1 to l do
6: {Xtest,Ltest} ⇐ {Xi,Li} {Probar con fold i}7: {Xtrain,Ltrain} ⇐ F − {Xi,Li} {Entrenar con el resto de los folds}8: [PICA, I] ⇐ ICA(Xtrain) {Analisis de Componentes Independientes}9: A B se le asignan las j columnas en PICA.
10: Y⇐ B>(Xtrain − [I. . .I]) {Proyeccion sobre el subespacio ICA}11: PLDA ⇐ LDA(Y,Ltrain) {Analisis de discriminante lineal de Fisher}12: Z⇐ PLDAY {Proyeccion sobre el subespacio LDA}13: C ⇐ entrenarClasificadorBayesiano(Z, Ltrain)
14: Ztest ⇐ PLDAB>(Xtest − [I. . .I])
15: ri ⇐ clasificar(C, Ztest, Ltest)
16: end for
17: Rj ⇐ 1l
∑li=1 ri
18: if Rj > R then
19: R⇐ Rj
20: d⇐ j
21: end if
22: end for
32 Clasificador Unidimensional de Atributos Faciales Demograficos
Antes de comenzar la tarea de clasificacion, primero detectamos las caras utili-
zando las librerıas soportadas por OpenCV 2.0.02 (OpenCV cuenta con un detector
de caras que esta basado en [VJ04]). Cada imagen obtenida por el detector es recor-
tada y redimensionada a 25× 25 pıxeles. En el caso de que alineemos las imagenes
manualmente utilizaremos el centro de los ojos y la boca como referencia. Adicional-
mente, hacemos una ecualizacion de histograma a las imagenes con el fin de ganar
cierto grado de independencia a los cambios de iluminacion. Por ultimo, se aplica
una mascara con forma ovalada para evitar que el fondo influya en los resultados fi-
nales. En la Figura 2.5 se muestran ejemplos de las imagenes despues de la deteccion
y posterior recorte, se puede observar que las condiciones de adquisicion son dife-
rentes para cada una de las muestras obtenidas en las diferentes bases de datos. En
la Figura 2.6 observamos algunas de las imagenes de la base de datos UCN despues
de haber sido procesadas. A cada imagen aplicamos una ecualizacion de histograma,
un escalado y una mascara ovalada para eliminar el fondo.
En todos los experimentos basados en LDA se utilizo un clasificador Bayesiano,
Figura 2.7, asumimos que la funcion de densidad de probabilidad condicionada de
cada clase es Gaussiana (Ver Figura 2.14 para verificar que la suposicion es razona-
ble).
Para las pruebas SVM+RBF entrenamos el clasificador utilizando una Opti-
mizacion Mınima Secuencial (Sequential Minimal Optimization) [Pla99], algoritmo
implementado en WEKA Explorer 3. Y buscamos los mejores parametros para C
(balance entre el margen y error de entrenamiento) y gama, γ, (Radio RBF) en una
rejilla con diferentes combinaciones de valores para ambos. En todas las bases de
datos, a excepcion de la base de datos UCN, utilizamos diferentes valores de C en un
rango de 1 a 991 con saltos de 10 (99 muestras) y en el caso de γ los valores que
probamos fueron entre 0.001 a 0.01 con saltos de 0.001 unidades (100 muestras).
Para el caso especial de la base de datos UCN tomamos los valores {1, 10, 100, 1000}para el parametro C y {0.001, 0.002, 0.004, 0.006, 0.008} para los valores de γ.
Ver Figura 2.8 para observar los distintos resultados obtenidos en cada uno de los
experimentos para diferentes combinaciones de los parametros. Finalmente, en la
Tabla 2.2 proporcionamos los mejores valores para los parametros C y γ para cada
una de las base de datos. Al mismo tiempo, implementamos el algoritmo propuesto
por Baluja y Rowley [BR07] que esta basado en la comparacion de parejas de pıxeles
y un clasificador del tipo AdaBoost. Utilizamos 1000 clasificadores debiles a partir
de la evaluacion del 1 % de todas las posibles combinaciones de clasificadores debiles
construidos a partir de las parejas de pıxeles obtenidas desde la imagen. A este clasi-
2http://opencv.willowgarage.com3http://www.cs.waikato.ac.nz/ml/weka
2.4 Experimentos 33
(a) Base de datos UCN
(b) Base de datos PAL
(c) Base de datos Color FERET
Figura 2.5: Algunas imagenes recortadas y redimensionadas, despues de la deteccion:
(a) Base de datos UCN, (b) Base de datos PAL y (c) base de datos Color FERET.
Figura 2.6: La figura muestra imagenes de la base de datos UCN: La primera fila
muestra las imagenes originales recortadas desde el detector de caras [VJ04] y la
segunda fila muestra las imagenes ecualizadas y con la mascara ovalada que ayuda
a eliminar el fondo.
34 Clasificador Unidimensional de Atributos Faciales Demograficos
Figura 2.7: Los experimentos basados en LDA utilizan un clasificador Bayesiano.
ficador se le llamo Baluja1000. Adicionalmente, y para propositos de comparacion,
tambien se entreno un clasificador denominado Baluja625, el cual se ajusto para
poder compararlo en complejidad con los clasificadores lineales mostrados en el do-
cumento. Los mejores parametros fueron escogidos para las pruebas utilizando 625
(Baluja625) y 1000 (Baluja1000) clasificadores debiles.
2.4.1. Pruebas con una unica base de datos
Los primeros experimentos se efectuaron sobre las bases de datos descritas al co-
mienzo de esta seccion, para mas detalle recomendamos revisar el Apendice A. Cada
base de datos la evaluamos individualmente, y para cada experimento utilizamos un
esquema de validacion cruzada (5-fold) para comprobar la bondad de cada modelo.
En la tabla 2.2 se muestra el resultado de cada uno de estos experimentos, en
general, la mayorıa de los experimentos utilizan imagenes de caras que no han sido
alineadas manualmente excepto en el caso de la base de datos FERET. En este
caso particular, realizamos un experimento para aquellas imagenes que estaban no
alineadas (Columna FERET, en tabla 2.2) y, otro, para las imagenes que fueron
2.4 Experimentos 35
10−3
10−2
10−1
88
89
90
91
92
93
94
95
96
GAMMA
Tasa d
e a
cie
rto
CHILE−UCN
C1
C10
C1000
(a) Experimento UCN
10−3
10−2
10−1
72
74
76
78
80
82
84
86
88
90
X: 0.044
Y: 87.22
GAMMA
Tasa d
e a
cie
rto
PAL
C1
C21
C991
(b) Experimento PAL
10−3
10−2
10−1
85
86
87
88
89
90
91
92
93
94
GAMMA
Tasa d
e a
cie
rto
FERET
C1
C101
C991
(c) Experimento FERET no alineado
10−3
10−2
10−1
80
82
84
86
88
90
92
94
GAMMA
Tasa d
e a
cie
rto
FERET−ALIGN
C1
C11
C991
(d) Experimento FERET alineado
Figura 2.8: Pruebas sobre un clasificador SVM+RBF utilizando diferentes parame-
tros C y γ para varias bases de datos.
alineadas manualmente (Columna FERET alineadas, en tabla 2.2).
De los resultados obtenidos en cada uno de los experimentos se puede observar
que para cada clasificador sobre una unica base de datos se obtiene un comporta-
miento distinto dependiendo de diferentes factores que son discutidos a continuacion:
Alineamiento manual vs caras no alineadas. Uno de los primeros resultados
visibles que encontramos en la Tabla 2.2 es que no encontramos una diferencia
significativa entre los rendimientos de los clasificadores entrenados con image-
nes de caras alineadas manualmente o las que utilizamos directamente desde el
detector de caras. Confirmando los resultados previos obtenidos por Makınen
36 Clasificador Unidimensional de Atributos Faciales Demograficos
y otros [MR08a]. Creemos que esto se debe a la capacidad del detector de caras
de entregar imagenes lo suficientemente alineadas para ser utilizadas directa-
mente por el clasificador sin perjudicar significativamente su rendimiento.
Para confirmar esta hipotesis realizamos un pequeno experimento utilizando
las imagenes alineadas de la galerıa FERET fa. Sobre estas aplicamos el detector
de caras implementado en OpenCV . A partir de la informacion conseguida de
las coordenadas originales (etiquetadas manualmente) y las obtenidas por el
detector de caras, dibujamos la distribucion de coordenadas originales dentro
de la ventana adquirida desde el detector de caras ajustada a una imagen de
25 × 25 pıxeles, ver Figura 2.9. La desviacion estandar de los nuevos puntos
coordenados es de 0.5 pıxel. Esto confirma que para caras escaladas a 25× 25
desde FERET fa la precision de detector de caras es cerca del la mitad de un
pıxel. Cabe observar, que esto es solo verdadero para la galerıa frontal de FERET
fa, obviamente, cuando las caras estan rotadas la precision del clasificador, en
terminos de tasa de acierto, deberıa disminuir.
5 10 15 20 25
5
10
15
20
25
Figura 2.9: Coordenadas de ojos manualmente etiquetados (puntos rojos y azules) a
partir de caras detectadas desde la galerıa FERET fa utilizando el detector de caras
de OpenCV.
Clasificacion LDA. En la clasificacion utilizando LDA logramos un 77,68 % de
tasa de acierto sobre FERET. En las pruebas no se considero la base de datos
PAL ya que la matriz Sm tiene un rango cercano a cero, causado por el pequeno
tamano de la muestra. Estos experimentos confirman los malos resultados ob-
tenidos por Moghaddam y Yang [MY02] utilizando LDA. Ellos obtuvieron un
86,07 % para el reconocimiento de genero en terminos de tasa de acierto, y
que incluso es superior al obtenido en nuestros experimentos. Esta diferencia
la podemos explicar por la forma en que desarrollaron sus experimentos, don-
de incluyeron imagenes de los mismos individuos en los diferentes folds para
2.4 Experimentos 37
la validacion de sus clasificadores. Ademas, contaban con un numero mayor
de imagenes (alrededor de 2000) que las utilizadas en nuestros experimentos.
Estos exiguos resultados preliminares nos llevan a pensar que esta pudo haber
sido la causa de que las subsecuentes aproximaciones hayan desestimado el
algoritmo LDA.
Por el contrario, si utilizamos LDA sobre una base de datos con un gran numero
de imagenes como las contenidas en UCN, con alrededor de 10000 imagenes,
obtenemos una tasa de acierto del 92,65 %. A partir estos resultados, se puede
concluir que a causa de la “maldicion” de la dimensionalidad, 993 imagenes no
son suficientes para suministrar informacion para que el LDA encuentre la o
las proyecciones correctas para un espacio de 625 dimensiones. Incrementando
el numero de imagenes de entrenamiento a 10000 ofrecemos suficientes datos
al LDA para llegar a obtener un clasificador competitivo.
De igual manera, si el problema es de alta dimensionalidad como en nuestro
caso (625 dimensiones) una base de datos como FERET (994 imagenes) no
entrega una buena solucion al usar LDA, a pesar de que Sm sea una matriz de
rango completo.
Clasificacion PCA+LDA. Uno de los principales motivos de mejora vistos has-
ta ahora es seleccionar de manera adecuada los mejores vectores propios cal-
culados a partir del algoritmo PCA. Esto nos permite construir vectores de
caracterısticas apropiados para el entrenamiento del subespacio LDA. En este
estudio probamos dos metodos para la seleccion de caracterısticas:
1. PCA+LDA (Pagina 24).
2. PCA-M+LDA (Pagina 27).
En cada caso, se utilizo el Algoritmo 2.1 y el Algoritmo 2.2, respectivamen-
te, para seleccionar las mejores dimensiones para el subespacio PCA. En la
Tabla 2.2 se muestran los resultados logrados para este procedimiento ite-
rativo. Se puede advertir que el LDA no tiene la capacidad para aprender
la mejor proyeccion cuando se utilizan pocas imagenes, como es el caso 993
imagenes (ver la columna FERET de la Tabla 2.2). Sin embargo, si aplicamos
una reduccion de la dimensionalidad antes del LDA, tal como PCA+LDA y
PCA-M+LDA, logramos rendimientos competitivos y comparables al estado
del arte. Estos resultados se obtienen a partir de un clasificador lineal y una
apropiada extraccion de caracterısticas.
En ambos casos, tanto para PCA+LDA como PCA-M+LDA, realizamos las
pruebas utilizando una validacion cruzada 5-fold iterativa, que incrementa el
numero de vectores propios calculados al aplicar PCA, previo al LDA para
38 Clasificador Unidimensional de Atributos Faciales Demograficos
buscar el mejor clasificador. Los graficos PCA-M+LDA y PCA+LDA mostra-
dos en la Figura 2.10 confirman el buen rendimiento conseguido al utilizar un
procedimiento de ordenamiento de los valores propios, y en consecuencia de
los vectores propios, generados por el PCA. Seleccionamos aquellos vectores
que contribuyen con una mayor varianza iterativamente, en grupos de diez en
diez, hasta lograr una tasa de acierto optima en la proyeccion generada por el
LDA. En las curvas mostradas en las figuras, observamos que en general para
el algoritmo que utiliza una proyeccion PCA-M+LDA obtenemos la mejor tasa
de clasificacion dentro de los 100 primeros vectores propios ordenados por los
ındices Ij y calculados a partir de la ecuacion 2.5. En las mismas circunstancias,
la mejor tasa de clasificacion para PCA+LDA se encuentra entre los primeros
130 vectores propios con una mayor varianza. Igualmente, confirmamos que al
usar una base de datos grande, como lo es UCN, el rendimiento del clasificador
no depende de las las dimensiones intermedias del subespacio generado por el
PCA. En este caso, se puede asegurar que el rendimiento del LDA tendra un
rendimiento equivalente si se aplica directamente sobre los datos originales o
sobre el subespacio intermedio generado por el PCA cuando se utilizan todas
sus dimensiones de proyeccion.
¿Cual es la razon para conseguir tan buenos resultados con los algoritmos
PCA+LDA y PCA-M+LDA? La razon de que los algoritmos PCA+LDA y
PCA-M+LDA sean exitosos se debe a que ellos disminuyen la maldicion de
la dimensionalidad del LDA ya que como paso previo solo seleccionamos las
direcciones mas discriminantes dadas por el PCA. En los experimentos mos-
trados, tanto el PCA+LDA como el PCA-M+LDA se comportan de manera
similar. Esto es porque en nuestro problema los vectores propios mas discri-
minantes son aquellos que tienen la mayor varianza, ya que la mayorıa de
las imagenes empleadas no tienen grandes cambios de iluminacion, son expre-
siones neutras y frontales. A consecuencia de esto, la mayor variabilidad se
concentra solo en las diferencias que observamos entre una persona u otra, y
por lo tanto los cambios de apariencia en el genero aparecen explicados en la
mayorıa de la varianza existente de los datos. En conclusion, para este tipo
de problemas los clasificadores lineales propuestos funcionan correctamente y
con rendimientos que bordean o igualan el estado del arte. Es probable que
esta afirmacion no sea completamente cierta en otras bases de datos de image-
nes donde los cambios de pose, calidad de adquisicion, iluminacion, entre otros
factores; sean diferentes o con mayor variabilidad que las consideradas en estos
experimentos.
Otro hecho interesante es que dependiendo del numero de imagenes, el nume-
ro de caracterısticas PCA necesarias para obtener una buena clasificacion es
2.4 Experimentos 39
0 100 200 300 400 500 6000.78
0.8
0.82
0.84
0.86
0.88
0.9
0.92
0.94
0.96
Número de características
Tasa d
e a
cie
rto
PCA + LDA
UCN
FERET
FERET ALIGN
(a)
0 100 200 300 400 500 6000.78
0.8
0.82
0.84
0.86
0.88
0.9
0.92
0.94
0.96
Número de características
Tasa d
e a
cie
rto
PCA M+LDA
UCN
FERET
FERET ALIGN
(b)
Figura 2.10: Rendimiento de la clasificacion (variable Rj en el Algoritmo 2.1) a
medida que el subespacio intermedio PCA incrementa para (a) PCA+LDA y (b)
PCA-M+LDA.
40 Clasificador Unidimensional de Atributos Faciales Demograficos
distinto (p. ej. En la base de datos FERET los resultados obtenidos utilizando
PCA, Tabla 2.2, necesitaron 130 caracterısticas mientras que en el caso de la
base de datos UCN fueron necesarias 460). Estos resultados se oponen a los
encontrados en la literatura donde generalmente se utiliza un numero fijo de
caracterısticas para la clasificacion o se calcula por medio de la proporcion de
varianza explicada [ZM06a], ambos metodos no son los mas indicados para una
buena seleccion de caracterısticas. Como resultado de esto, advertimos que es
necesario considerar una correcta seleccion de las caracterısticas PCA antes de
la clasificacion.
Clasificacion ICA+LDA. Otro resultado interesante es el de estimar el subespa-
cio intermedio utilizando ICA en lugar de PCA. En el Algoritmo 2.3 mostramos
como estimar la dimension del subespacio y obtener las mejores caracterısticas
para la etapa de clasificacion. En la Tabla 2.2 y en la Figura 2.11 se mues-
tran los resultados de nuestros experimentos. No es sorprendente observar que
los resultados para ICA+LDA y PCA+LDA sean muy similares. Al mismo
tiempo, ambas aproximaciones tienen las mismas tasas de clasificacion cuando
el numero de caracterısticas seleccionadas es lo suficientemente grande, ver
Fig. 2.12. Estos resultados eran teoricamente previsibles, puesto que, FastICA
es equivalente a blanqueado del PCA mas una rotacion [VHH07] y LDA es
una tecnica que es invariante a la rotacion, en ese sentido tanto PCA+LDA
como FastICA son equivalentes cuando no realizamos una seleccion de carac-
terısticas.
0 100 200 300 400 500 600
0.76
0.78
0.8
0.82
0.84
0.86
0.88
0.9
0.92
0.94
0.96
Número de características
Tasa d
e a
cie
rto
ICA+LDA, Distancia a la media
UCN DBFERETFERET ALign
Figura 2.11: Rendimiento de la clasificacion (variable Rj en el Algoritmo 2.3) a
medida que el subespacio intermedio ICA incrementa para ICA+LDA.
2.4 Experimentos 41
Para los experimentos realizados con ICA+LDA utilizamos una base datos
de prueba con 993 individuos seleccionados desde Color FERET. Siguiendo el
mismo camino utilizado para los algoritmos PCA+LDA o PCA-M+LDA, rea-
lizamos las pruebas con un numero diferente de caracterısticas ICA antes de
utilizar LDA con un esquema de validacion cruzada 5-fold (ver Tabla 2.2 y
Figura 2.11) un clasificador Bayesiano (Tabla 2.2, fila ICA+LDA).
Un resultado empırico interesante es que tanto las aproximaciones ICA+LDA
y PCA+LDA tienen las mismas tasas de clasificacion cuando el numero de ca-
racterısticas seleccionadas es lo suficientemente grande (ver Figura 2.12). Este
resultado no contradice lo explicado anteriormente y confirma los resultados
obtenidos [VHH07].
De la misma manera, Jain y Huang publicaron una tasa de acierto del 99,3 %
en un experimento utilizando FastICA+LDA y un clasificador euclıdeo [JH04].
Probaron su aproximacion con 500 imagenes utilizando la base de datos FERET.
Para el entrenamiento utilizaron 200 imagenes (100 hombres y 100 mujeres)
y las 300 imagenes restantes (150 hombres y 150 mujeres) se utilizaron para
pruebas. Ademas, alinearon las imagenes utilizando la posicion de los ojos, las
ecualizaron, agregaron una mascara para evitar la influencia del fondo en la
imagen y, finalmente, las redimensionaron a una escala de 64×96 pıxeles. Para
construir el clasificador utilizaron 200 caracterısticas ICA (las mismas que el
numero de imagenes que fueron utilizadas para el entrenamiento). Dentro de
los experimentos desarrollados, no nos fue posible reproducir los resultados
obtenidos por Jain y Huang [JH04]. En los experimentos realizados, la mejor
tasa de acierto obtenida fue 93,57 %, y que coincide con los experimentos
PCA+LDA y PCA-M+LDA. La razon mas probable de esta discrepancia entre
los resultados de [JH04] y los presentados en la Tabla 2.2, se deba a que
utilizaron una base de datos pequena y que sus evaluaciones pueden haber
estado sesgadas.
Base de datos de Makinen and Raisamo. Finalmente, por completitud, pro-
cesamos el mismo conjunto de datos usados por Makinen y Raisamo en sus
experimentos [MR08a]. Para esto empleamos el mismo procedimiento descrito
en este capıtulo (deteccion de la cara, ecualizacion del histograma y recorte
de la imagen). Debido al tamano de la base de datos, desarrollamos todos los
experimentos excepto el que utiliza LDA sin un subespacio intermedio, debido
a que la muestra de imagenes no es lo suficientemente grande para condicionar
bien la matriz Sm.
Una vez entrenados los clasificadores con los Algoritmos 2.1, 2.2 y 2.3 con
el conjunto de imagenes de entrenamiento y pruebas propuesto por Makinen
and Raisamo (304 imagenes y 107 imagenes, respectivamente) calculamos la
42 Clasificador Unidimensional de Atributos Faciales Demograficos
0 100 200 300 400 500 6000.8
0.82
0.84
0.86
0.88
0.9
0.92
0.94
Número de características
Tasa d
e a
cie
rto
PCA+LDA vs ICA+LDA (FERET)
PCA+LDAICA+LDA
(a)
0 100 200 300 400 500 6000.78
0.8
0.82
0.84
0.86
0.88
0.9
0.92
0.94
0.96
Número de características
Tasa d
e a
cie
rto
PCA+LDA vs ICA+LDA (UCN)
PCA+LDAICA+LDA
(b)
Figura 2.12: Comparacion entre PCA+LDA y ICA+LDA utilizando las bases de
datos FERET (a) y UCN (b).
2.4 Experimentos 43
bondad de cada clasificador, ver Tabla 2.1. Estos resultados confirman el nota-
ble rendimiento logrado por los metodos lineales. Estos experimentos tambien
corroboran la equivalencia entre la implementacion SVM que utilizamos y la
publicada en [MR08a], donde lograron un 82,62 % de tasa de acierto en image-
nes de 24× 24 pıxeles. En nuestro experimentos logramos una tasa de acierto
81,30 % para imagenes de 25× 25 pıxeles.
Clasificador Base de Datos: Makınen & Raisamo
SVM+RBF 81,30 % (156)
PCA+LDA 85,98 % (48)
PCA-M+LDA 85,04 % (56)
ICA+LDA 85,98 % (48)
Tabla 2.1: Tasas de acierto para el conjunto de imagenes seleccionadas por Makinen
y Raisamo [MR08a]. En la fila SVM+RBF , se muestra la tasa de acierto obtenida y
entre parentesis los vectores de soporte utilizados por el clasificador. Para los resulta-
dos PCA/ICA, se muestra la tasa de acierto obtenida y el numero de caracterısticas
retenidas antes de aplicar LDA entre parentesis.
Finalmente, los resultados mostrados en la Tabla 2.1 muestran, de nuevo, el
buen rendimiento de los metodos lineales (ver fila PCA+LDA, PCA-M+LDA
e ICA+LDA en la tabla) y una mejor capacidad de generalizacion de estos
metodos sobre SVM+RBF , en el caso de clasificacion de genero.
Un ultimo asunto a considerar es la sensibilidad de los clasificadores frente a
los giros de la cara fuera del plano de rotacion . En este experimento, entrenamos
los diferentes clasificadores con las 304 imagenes de caras frontales del subconjunto
seleccionado por Makinen and Raisamo [MR08a] de la base de datos Gray FERET.
Para las pruebas se utilizaron 1008 imagenes tomadas en diferentes orientaciones
horizontales de la cara de la misma base de datos. A diferencia de la mayorıa de
los experimentos desarrollados en este capıtulo, se alinearon las caras manualmente
debido a que para angulos extremos el detector de caras perdıa la mayorıa de estas.
En la Figura 2.13 se muestran los resultados de estas pruebas. Las asimetrıas vistas
en el grafico son causadas por que algunas imagenes de entrenamiento que han sido
rotadas levemente hacia angulos negativos. En promedio, todos los metodos tienen
un rendimiento similar, mostrando un mejor rendimiento en los angulos de rotacion
negativos mas extremos con respecto a los angulos positivos. Para los algoritmos
basados en Boosting observamos un rendimiento levemente mejor para los rangos
negativos, mientras que los metodos lineales son marginalmente superiores en los
rangos positivos.
44 Clasificador Unidimensional de Atributos Faciales Demograficos
ClasificadorBase de Datos
FERET FERET Alineada PAL UCN
SVM+RBF93,95±2,60 % (247)
C=100; γ = 0, 001
93,46±1,65 % (314)
C=10; γ = 0, 003
89,81±1,55 % (320)
C=20; γ = 0, 01
95,39±0,21 % (1891)
C=100; γ = 0, 002
PCA+LDA 93,33±2,33 % (130) 93,57±1,39 % (120) 85,52±3,01 % (180) 92,86±0,64 % (460)
PCA-M+LDA 92,83±0,75 % (100) 93,57±1,25 % (60) 84,83±1,98 % (140) 92,86±0,77 % (300)
ICA+LDA 93,33±2,33 % (130) 93,57±1,39 % (120) 85,52±3,01 % (180) 92,86±0,64 % (460)
LDA 77,68±2,61 % 77,09±2,26 % —— 92,65±0,65 %
Baluja625 92,12±1,36 % 93,17±1,65 % 85,86±2,48 % 93,87±0,64 %
Baluja1000 93,33±1,06 % 93,07±1,99 % 87,24±1,27 % 94,67±0,30 %
Tabla 2.2: Tasas de clasificacion y desviacion estandar sobre una unica base de
datos para entrenamiento y pruebas utilizando validacion cruzada 5-fold. En las filas
SVM y LDA, respectivamente, se muestra entre parentesis el numero de vectores
de soporte o el numero de caracterısticas capturadas para antes de realizar el LDA.
Para el caso del SVM tambien se muestran los mejores parametros C y γ.
−60 −40 −20 0 20 40 600.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0.95
Ángulo en grados
Tasa
de a
ciert
o
PCA+LDA
PCA−M+LDA
Baluja625
Baluja1000
SVM−RBF
Sensibilidad de los clasi cadores fuera del plano de rotación
Figura 2.13: Sensiblidad de los clasificadores para giros de la cara fuera del plano de
rotacion.
2.4 Experimentos 45
En general, el rendimiento de todos los experimentos con clasificadores sobre una
unica base de datos es muy similar a lo visto en el estado del arte. Sin embargo, en
la Tabla 2.2 podemos observar una significativa diferencia de rendimiento cuando
empleamos un gran conjunto de imagenes para el entrenamiento de un clasificador,
como es el caso de UCN. El clasificador SVM+RBF muestra el mejor rendimiento, lo
que ratifica los resultados equivalentes entrados en [MR08a, BR07].
2.4.2. Pruebas con cruce de base de datos
En estos experimentos efectuamos un conjunto de pruebas de clasificacion cru-
zando bases de datos. Es decir, se utilizo una base de datos para el entrenamiento
del clasificador y otra base de datos totalmente diferente para probar su rendimien-
to. La idea principal de este tipo de experimentos es poder evaluar la capacidad
de generalizacion que tienen los clasificadores al enfrentar conjuntos de imagenes
nuevas con condiciones ambientales diferentes (razas, edades, iluminaciones, dispo-
sitivos de captura, etc.). Para esta segunda etapa de experimentos, los algoritmos
lineales usaron la mejor dimension del subespacio previo obtenido en los entrena-
mientos realizados sobre una unica base de datos, Seccion 2.4.1. Los resultados de
estos experimentos se pueden observar en la Tabla 2.3.
Con el proposito de ilustrar de mejor manera el comportamiento obtenido en los
experimentos realizados, esquematizamos un conjunto de histogramas para mostrar
el comportamiento de los clasificadores basados en la proyeccion PCA+LDA. En
la Figura 2.14(a) y Figura 2.14(b) mostramos la frecuencia obtenida a partir de las
imagenes del conjunto de pruebas proyectadas sobre el espacio generado PCA+LDA
del conjunto de entrenamiento. En ambas figuras se muestra el caso extremo de
proyectar el conjunto de pruebas sobre el subespacio generado PCA+LDA de la
misma base de datos. Donde observamos que la distribucion entre las proyeccio-
nes asociadas a hombres y mujeres tienen una clara forma Gaussiana. Igualmente,
realizamos el mismo tipo de esquemas cruzando bases de datos distintas. En las
Figura 2.14(c), Figura 2.14(d), Figura 2.14(e) y Figura 2.14(f) notamos que las
proyecciones PCA+LDA del conjunto de pruebas muestran una clara tendencia a
distribuciones Gaussianas, sin embargo, esto no es tan evidente en los casos cuando
las bases de datos contienen imagenes con grandes cambios de apariencia debido a
su demografıa, por ejemplo PAL. Adicionalmente, advertimos en los resultados obte-
nidos de los conjuntos de pruebas donde hay cambios bruscos de demografıa, que las
distribuciones entre hombres y mujeres tienden a estar mas solapadas lo que tiene un
impacto directo en la capacidad discriminante del clasificador y su rendimiento. En
46 Clasificador Unidimensional de Atributos Faciales Demograficos
−100 −50 0 50 1000
500
1000
1500Hombre
Mujer
Fre
cuen
cia
Entrenamiento: UCN Prueba: UCN
PCA+LDA−200 −100 0 100 200
0
20
40
60
80HombreMujer
Fre
cuen
cia
Entrenamiento: FERET Prueba: FERET
PCA+LDA
(a) (b)
−100 −50 0 50 1000
50
100
150Entrenamiento:UCN Prueba:FERET
HombreMujer
Fre
cuen
cia
PCA+LDA−300 −200 −100 0 100 200 300
0
100
200
300
400
500
600Hombre
Mujer
Fre
cuen
cia
Entrenamiento: FERET Prueba: UCN
PCA+LDA
(c) (d)
−100 −50 0 50 1000
20
40
60
80Hombre
Mujer
Fre
cuen
cia
Entrenamiento: UCN Prueba: PAL
PCA+LCA−200 −100 0 100 200
0
10
20
30
40
Hombre
Mujer
Fre
cuen
cia
Entrenamiento: FERET Prueba: PAL
PCA+LDA
(e) (f)
Figura 2.14: Los histogramas muestran la frecuencia de los valores proyectados de las
imagenes de pruebas dentro del subespacio PCA+LDA calculadas desde el conjunto
de imagenes de entrenamiento. Los histogramas (a) y (b) muestran el caso extremo
de entrenar y proyectar el conjunto de pruebas sobre la misma base de datos. Los
histogramas (c) y (d) muestran las proyecciones con un conjunto de entrenamiento
y pruebas diferentes pero con un grupos demograficos similares. Finalmente, los
histogramas (e) y (f) muestran las proyecciones con un conjunto de entrenamiento
y pruebas diferentes con grupos demograficos diferentes.
2.4 Experimentos 47
ClasificadorEntrenamiento/Pruebas
FERET/UCN UCN/FERET FERET/PAL UCN/PAL
SVM+RBF 81,29 % 91,03 % 67,53 % 79,27 %
PCA+LDA 80,90 % 88,72 % 70,64 % 72,88 %
PCA-M+LDA 80,35 % 88,92 % 71,50 % 73,23 %
LDA 72,99 % 88,72 % 63,73 % 73,75 %
Baluja625 83,75 % 90,72 % 68,39 % 74,61 %
Baluja1000 84,18 % 89,85 % 70,12 % 73,57 %
ClasificadorEntrenamiento/Pruebas
PAL/FERET PAL/UCN Mak-ba/PAL Mak-ba/UCN
SVM+RBF 78,65 % 74,09 % 64,07 % 60,86 %
PCA+LDA 74,32 % 76,53 % 75,47 % 72,11 %
PCA-M+LDA 76,13 % 76,09 % 70,12 % 67,16 %
LDA —— —— —— ——
Baluja625 77,14 % 75,18 % 71,50 % 65,24 %
Baluja1000 78,85 % 76,23 % 65,53 % 61,43 %
Tabla 2.3: Tasas de clasificacion para experimentos con cruce de base de datos (Base
de datos de entrenamiento/Base de datos de pruebas).
la Tabla 2.3 observamos este hecho cuando utilizamos FERET o UCN como conjunto
de entrenamiento y PAL como conjunto de pruebas, el rendimiento del clasificador
cae entre un 10 % y 20 % aproximadamente en terminos de tasa de acierto. A pesar
de estos resultados, la aproximacion que utiliza LDA logra resultados comparables a
las de un clasificador SVM+RBF cuando este se entrena con suficientes datos y con
una seleccion adecuada de caracterısticas previas. Los algoritmos LDA y SVM+RBF
no pueden generalizar tan bien como PCA+LDA o PCA-M+LDA en las pruebas
FERET/PAL. Esto se puede deber al sobreajuste generado al entrenar el clasificador
con la base de datos FERET.
Como complemento a lo anterior, y para relacionar la informacion contenida en
el valor de la proyeccion LDA, mostramos la imagen retroproyectada de este cuando
entrenamos el LDA utilizando las imagenes de la base de datos FERET. Se puede
apreciar en la Figura 2.15 que las imagenes obtenidas a partir del LDA con valores
negativos generan caras que tiene una apariencia mas relacionada con el genero
masculino, por otro lado, las proyecciones mas positivas muestran reconstrucciones
de imagenes con una apariencia mas femenina.
Finalmente, y desde de los resultados obtenidos en la Tabla 2.3 y la Figura 2.14
48 Clasificador Unidimensional de Atributos Faciales Demograficos
LDA: −150 LDA: −137 LDA: −124 LDA: −111 LDA: −98 LDA: −85 LDA: −72 LDA: −59
LDA: −46 LDA: −33 LDA: −20 LDA: −7 LDA: 6 LDA: 19 LDA: 32 LDA: 45
LDA: 58 LDA: 71 LDA: 84 LDA: 97 LDA: 110 LDA: 123 LDA: 136 LDA: 149
Figura 2.15: Reconstruccion de la imagen de una cara a partir de su proyeccion
LDA.
observamos que, al igual que los resultados encontrados en los experimentos para
una unica base de datos, el rendimiento de los clasificadores es diferente dependiendo
del tipo de base de datos que utilicemos para el entrenamiento y las pruebas. A
continuacion se discuten los resultados:
Cruces con grupos demograficos similares. Las bases de datos FERET y UCN
tienen similar demografıa pero con diferentes condiciones de adquisicion. Las
pruebas entre las bases de datos FERET y UCN nos muestran resultados similares
a los discutidos en las pruebas sobre una unica base de datos, Seccion 2.4.1. Sin
embargo, existe una notoria disminucion en el rendimiento cuando entrenamos
un clasificador usando la base de datos FERET y luego probamos con la base
de datos UCN (FERET/UCN), quizas causado por las condiciones mas generales
de adquisicion de las imagenes que se encuentran en la base de datos UCN.
Tambien, observamos que los resultados obtenidos en FERET/UCN son bastante
malos, en comparacion con el resto, utilizando el clasificador LDA. Sin embar-
go, cuando en el entrenamiento utilizamos las imagenes de la base de datos
UCN y luego la probamos empleando la base de datos FERET (UCN/FERET), la
aproximacion LDA puede competir con otros procedimientos de clasificacion.
Este resultado confirma los experimentos previos que realizamos sobre una
unica base de datos.
Cruces con grupos demograficos diferentes. El cruce de base de datos entre
PAL, FERET y UCN implica una mayor exigencia en terminos de las capacidades
2.4 Experimentos 49
de generalizacion del clasificador. Por ejemplo, cuando utilizamos PAL obser-
vamos que la demografıa es muy diferente a la que encontrarıamos en FERET y
UCN. PAL es una base de datos que incluye diferentes grupos etnicos y un amplio
rango de edades, ver Figura 2.5. Tanto FERET como UCN son demograficamente
hablando un subconjunto de PAL. Estas diferencias en las condiciones de ad-
quisicion entre las diferentes bases de datos nos permite destacar el impacto
que tienen estas al entrenar un clasificador. Si el entrenamiento se hace sobre
una base de datos grande, el clasificador SVM+RBF claramente logra el mejor
rendimiento (UCN/PAL). Cuando el entrenamiento es sobre bases de datos mas
pequenas (PAL y FERET), la diferencia entre rendimientos llega a ser mas estre-
cha. En los casos mas complicados, como el cruce FERET/PAL, dado que base
de datos FERET cuenta con una variedad demografica de caras y condiciones de
iluminacion muy homogeneas; y el cruce PAL/UCN, donde la base de pruebas
UCN contiene imagenes con condiciones de adquisicion variables, el desempeno
del clasificador SVM+RBF esta ligeramente por detras de las aproximaciones
de boosting y clasificadores lineales, siendo este ultimo clasificador el que ob-
tuvo el mejor rendimiento. En las pruebas PAL/FERET las aproximaciones de
SVMs y boosting son marginalmente mejores, a pesar de que PAL es una base
de datos pequena. Esto quizas se deba a que PAL ofrece una amplia demografıa
en caras, especialmente en lo que se refiere a tipos de razas y rango de edades.
Tamano de la base de datos. Los experimentos, junto con el analisis de sensibi-
lidad de la Seccion 2.4.1, parecen sugerir que los clasificadores lineales tienden
a ser mejores en situaciones donde los datos son muy escasos y con baja varia-
bilidad (p. ej. con demografıa restringida). Para confirmar esta hipotesis hemos
desarrollado un ultimo experimento entrenando los clasificadores con la galerıa
FERET propuesta por Makinen and Raisamo [MR08b], pose-ba, la cual contiene
112 imagenes de caras frontales (56 de hombres y 56 de mujeres) y donde la ma-
yorıa de estas son caucasicos. Las bases de pruebas que seleccionamos son PAL
y UCN debido a su variabilidad demografica y/o de condiciones de adquisicion.
Para el entrenamiento de los clasificadores empleamos el mismo procedimien-
to de la Seccion 2.4.1. Los parametros utilizados para el entrenamiento de los
clasificadores son: 1) C=10 y γ = 0, 007 para SVM+RBF , 2) 37 caracterısti-
cas para PCA+LDA y 3) 80 caracterısticas para PCA-M+LDA. En este caso,
ver las columnas Mak-ba/PAL y Mak-ba/UCN en la Tabla 2.3, las diferencias
de rendimientos entre los clasificadores es bastante grande. SVM+RBF tie-
ne un rendimiento mas bajo en comparacion al clasificador PCA+LDA que
esta claramente por delante del resto.
50 Clasificador Unidimensional de Atributos Faciales Demograficos
Analisis de los errores de clasificacion
Como es evidente, los clasificadores presentan errores en su estimacion. En esta
seccion, analizaremos algunos de los errores de clasificacion encontrados en los ex-
perimentos FERET/PAL porque son posiblemente el conjunto de datos mas desafiante
en terminos de generalizacion requerida para un clasificador (ver Figura 2.16). Los
errores encontrados son causados principalmente por los cambios de apariencia en-
tre las diferentes edades o razas que no se encuentran presentes en los conjuntos de
entrenamiento. Por ejemplo, en el caso de FERET tenemos muy pocas imagenes de
mujeres ancianas, esto presenta una gran desventaja cuando probamos el clasifica-
dor con la base de datos PAL. En este experimento, gran parte de las imagenes son
clasificadas como hombres (ver las primeras dos imagenes en la segunda fila de la
Figura 2.16).
De igual manera, la mayorıa de las imagenes en FERET son caucasicos (de raza
blanca). Por consiguiente es mas probable que las muestras en PAL que pertenezcan a
otras razas sean mas difıciles de clasificar. Finalmente, incluso con razas y diferentes
rangos de edades en el conjunto de entrenamiento hay caras que son difıciles de
clasificar (ver las primeras dos imagenes en la primera fila o la tercera imagen en la
segunda fila de la Figura 2.16).
Figura 2.16: Algunos ejemplos de imagenes clasificadas erroneamente cuando se
entrena con FERET y se prueba con las imagenes de PAL. La primera fila, muestra
imagenes hombres clasificadas como mujeres. La segunda fila, muestra las imagenes
de mujeres clasificadas como hombres.
2.4.3. Analisis del coste computacional
El rendimiento en la clasificacion, en terminos de tasas de acierto, no es el unico
parametro a medir cuando trabajamos en desarrollo de herramientas para el analisis
facial. El coste computacional tambien es un factor clave cuando se procesan millones
2.5 Conclusiones 51
de imagenes [BR07] o cuando se implementan estos algoritmos en dispositivos tales
como telefonos moviles o en camaras IP. En terminos de coste computacional los
algoritmos de comparacion de pıxeles, como el clasificador de tipo Boosting usado
por Baluja [BR07], y los clasificadores lineales son los algoritmos mas rapidos para
reconocimiento de genero. El algoritmo de Baluja selecciona pares de pıxeles y luego
compara sus niveles de gris, esta operacion es muy simple y rapida para calcular sus
caracterısticas de manera eficiente. Por ejemplo, el clasificador Baluja625 harıa del
orden de 625 operaciones para clasificar una imagen. En el caso de los clasificadores
lineales, el tamano de la matriz de proyeccion es independiente de la dimension
intermedia PCA. Las matrices de proyeccion PCA+LDA y PCA-M+LDA son, de
hecho, un vector cuyo tamano es el numero de pıxeles en la imagen. La clasificacion es
el resultado de la umbralizacion de la imagen proyectada, cuyo resultado es tambien
1× 25× 25 = 625 operaciones para clasificar una imagen.
Por otro lado, la tarea de prediccion empleando un clasificador SVM+RBF siem-
pre sera mucho mas exigente en terminos de coste computacional. Por ejemplo, se-
leccionemos un clasificador SVM+RBF con una cantidad relativamente pequena de
vectores de soporte como los mostrados en la Tabla 2.2 en la columna FERET. El
clasificador SVM+RBF necesita 247× 25× 25 = 154,375 operaciones entre pıxeles
para poder clasificar una imagen. En el caso particular de la base de datos UCN el
numero de operaciones se incrementa y es de 1,891× 25× 25 = 1,181,875, las cuales
son ordenes de magnitud mas grandes que las aproximaciones lineales y de Boosting.
2.5. Conclusiones
En este capıtulo hemos revisado el estado del arte en el reconocimiento de gene-
ro. En los experimentos con bases de datos individuales, este trabajo confirma los
resultados previos encontrados en la literatura sobre el rendimiento de los clasi-
ficadores como SVM s y los algoritmos de Boosting, que utilizan comparacion de
pixeles [BR07, MR08a], siendo el primero ligeramente superior cuando se trabaja
con grandes bases de datos. Tambien, hemos comprobado que las tecnicas lineales
pueden lograr tasas de acierto similares dentro de ese contexto. Asimismo, hemos
confirmado experimentalmente que las tecnicas lineales basadas en ICA+LDA son
equivalentes a las PCA-M+LDA y PCA+LDA. Esto no de sorprender ya que la ma-
yorıa de los algoritmos implementados para ICA son equivalentes a un blanqueado
de PCA mas una rotacion.
Con la excepcion de [MR08b], las comparaciones experimentales entre los di-
52 Clasificador Unidimensional de Atributos Faciales Demograficos
ferentes algoritmos de clasificacion de genero encontrados en la literatura se han
realizado sobre una unica base de datos. Hemos probado empıricamente que los ex-
perimentos desarrollados sobre una sola base de datos estan sesgados de manera
optimista. Esto se debe, principalmente, a que las condiciones de demografıa y ad-
quisicion son usualmente similares en las imagenes de una misma base de datos, y
que estas condiciones tienen un impacto positivo en el rendimiento del clasificador.
Las diferencias surgen cuando entrenamos y probamos los clasificadores en diferentes
bases de datos donde observamos caıdas en el rendimiento del clasificador.
En cuanto al tamano de la muestra, encontramos que si hay 10.000 o mas image-
nes para el entrenamiento, SVM+RBF es el mejor clasificador. En una prueba mas
complicada UCN/PAL este logra una tasa de acierto del 80 %, con un coste requeri-
do de 106 operaciones sobre pıxeles para poder clasificar una imagen. Si, por otro
lado, se tiene restricciones de tiempo o de recursos computacionales, las aproxima-
ciones de Boosting y clasificadores lineales logran aproximadamente un 75 % de tasa
de acierto con solo 625 operaciones. Si hay pocos datos de entrenamiento (500 a
1000 ejemplos) con una amplia demografıa, entonces todos los enfoques probados
logran similares tasas de clasificacion. Finalmente, si los datos de entrenamiento son
escasos (300 imagenes o menos) y con una demografıa limitada, la aproximacion
PCA+LDA es la mejor eleccion. El exito para una tecnica lineal tan simple, dentro
de este contexto, se debe posiblemente a la alta dimensionalidad del espacio de datos
de entrada, lo que hace innecesario un paso de kernelizacion previo para lograr la
separabilidad lineal, y que la mayorıa de las imagenes son frontales.
Por otro lado, encontramos evidencia experimental que apoya la existencia de
dependencias entre diferentes variables demograficas como el genero, la edad, y la
raza. Cuando un clasificador de genero se entrena con un conjunto de datos de poca
variabilidad demografica (FERET o UCN), y luego se prueba con conjuntos de datos
de una amplia variabilidad demografica, como el caso de la base de datos PAL, la
tasa de acierto cae significativamente. Estas relaciones o dependencias entre la esti-
macion de genero, la edad [GMF+09] o la etnia [AW09] tambien fueron encontradas
en otras publicaciones. Creemos que es posible desarrollar nuevos espacios para la
investigacion sobre genero, y en general para la clasificacion demografica, donde se
tomen en cuenta las relaciones entre el genero, la edad y la etnia con el proposito
de mejorar la clasificacion.
En los ultimos anos, muchas investigaciones se han centrado en resolver el pro-
blema de analisis discriminante lineal cuando Sm o SW son matrices singulares, p.
ej., [ZZ05, ZZZ04, YJPP04]. A partir de los experimentos presentados podemos
concluir que una muestra pequena puede comprometer seriamente el rendimiento
2.5 Conclusiones 53
de un clasificador discriminante lineal, incluso si las matrices de covarianza no son
singulares. Para dar solucion a este problema, hemos probado experimentalmente
que escoger una correcta dimension intermedia como paso previo a la proyeccion
del subespacio LDA mejora su considerablemente el rendimiento del clasificador, a
pesar de no contar con datos suficientes.
54 Clasificador Unidimensional de Atributos Faciales Demograficos
Capıtulo 3
Regresores Demograficos
Unidimensionales
Cada cual tiene la edad de sus emociones
Anatole Francois Thibault
RESUMEN: El paso inicial en la mayorıa de los sistemas de estimacion de
edad consiste de una alineacion precisa a la salida de un detector de caras
(p. ej. Modelos de apariencia activa (AAM, Active Appearance Models)). Este
proceso de ajuste es muy costoso en terminos de recursos computaciones y es
propenso a atascarse en mınimos locales. Esto hace difıcil su aplicacion en el
analisis de caras cuando contamos con dispositivos de recursos computacio-
nales limitados. En este capıtulo, desarrollamos un estimador de edad basado
en un regresor no lineal que utiliza como entrada las caras recortadas obte-
nidas por un detector. Nuestro procedimiento emplea un regresor basado en
K-NN y una distancia basada en el Analisis Discriminante Lineal (LDA). En
los experimentos, logramos un Error Absoluto Medio (MAE ) de 5.72 anos en
la base de datos FG-NET con caras alineadas manualmente, y cuyo resultado
se encuentra dentro del estado del arte. Para caras sin alinear, usando direc-
tamente la salida de un detector de caras, obtenemos un MAE de 6.87 anos
sobre la misma base de datos. Al igual que en el capıtulo anterior, utilizamos
en nuestros experimentos cruces de bases de datos, obteniendo un MAE 12
anos, lo que es representativo del rendimiento real esperable.
55
56 Regresores Demograficos Unidimensionales
La estimacion de la edad es una de las tareas mas desafiantes y esenciales
para nuestra convivencia. Los seres humanos nos organizamos dependiendo
de nuestra edad, y muchas de las normas sociales que respetamos estan
asociadas a un rango de edad especıfico. Para los seres humanos la estimacion de
la edad es una tarea relativamente sencilla. Por el contrario, para una computador
es una tarea mucho mas compleja debido a la gran cantidad de parametros que
es necesario considerar para realizar una buena estimacion. Cuando estimamos el
atributo facial de la edad, utilizamos diferentes pistas visuales: apariencia facial, la
manera de caminar, la forma de vestir o el estilo de peinado entre muchas otras. El
ser humano no solo se apoya en caracterısticas visuales sino tambien en otras como es
el caso de la voz. Adicionalmente, esta tarea se complica, aun mas, si consideramos
que la apariencia visual puede variar dependiendo del tipo de persona y que en
ocasiones no refleja la edad real con exactitud. Entre los diferentes factores que
influyen en la apariencia de la edad podemos considerar: el ambiente donde vive, las
condiciones de salud, habitos alimenticios, condiciones de trabajo, fumar, drogas,
tiempo de exposicion al sol, etc. [YFH10], ver Figura 3.1.
La estimacion automatica de edad tiene interesantes aplicaciones, como por ejem-
plo, hacer cumplir las restricciones legales de edad para el uso de maquinas expende-
doras, estudios automaticos de marketing en centros de compras, medir la audiencia
en television, publicidad comercial orientada por la edad, identificacion de personas
basadas en fotografıas antiguas, estimar la edad automaticamente desde secuencias
de vıdeos para uso policial, etc. En publicaciones previas, este tipo de aplicaciones se
han implementado en funcion del tipo de tarea de prediccion que se desea realizar:
como un problema de clasificacion multi-clase, donde nos interesa predecir grupos de
edad (p. ej. bebes, jovenes, adultos, ancianos, etc.) o como un problema de regresion.
3.1. Regresor de Edad
Cuando entrenamos un estimador de edad, f , con salidas esperadas cuyos valores
son numericos y que pueden ser listados y ordenados [Blu11, HTF09] hablamos de
un regresor. Un regresor tiene la capacidad de estimar variables de salida de tipo
cuantitativo. Las variables cuantitativas son aquellas que se expresan por un numero
y es posible realizar operaciones matematicas entre ellas. Estas variables pueden ser
discretas, es decir, son aquellas que toman valores aislados y que no admite valores
intermedios en dos valores observados. Por ejemplo, cuando la variable observada
explica el numero de hijos en una familia, el numero de estudiantes en una sala, el
numero de llamadas recibidas, etc. Cuando la variable de salida tiene un numero
3.1 Regresor de Edad 57
Figura 3.1: Imagenes que muestran el cambio en la apariencia de la edad cuando se
utilizan drogas en perıodos de tiempo relativamente cortos. (Fuente: Pelıcula “From
Drugs to Mugs”)
infinito de valores intermedios entre dos valores se dice que esta es del tipo continua.
Como por ejemplo, la temperatura del cuerpo, la altura, el peso o la edad de una
persona.
En el desarrollo de este capıtulo nos centraremos en el diseno e implementacion
de un estimador de edad basado en un regresor no-lineal y cuya salida sera una va-
riable continua. Tambien, evaluaremos el rendimiento de nuestro regresor utilizando
una medida de rendimiento llamada Error Absoluto Medio (MAE , Mean Absolute
Error). El MAE mide la magnitud promedio de todos los errores de un conjun-
to de estimaciones y no tiene en cuenta su direccion. Esta medida es util cuando
evaluamos salidas continuas. La Ecuacion 3.1 muestra como calcular esta medida,
MAE =1
N
M∑i=1
|yi − yi|, (3.1)
donde yi es la etiqueta real relacionada con la imagen de la cara e yi es la edad
estimada entregada por el algoritmo. Para la validacion del regresor y evitar el sesgo
en la pruebas se utilizara una tecnica denominada Leave One Person Out, LO-
PO . Este procedimiento de validacion cruzada selecciona un individuo para realizar
las pruebas y utiliza el resto de las imagenes como datos de entrenamiento para
construir el regresor, este procedimiento se repite para cada uno de los individuos
que pertenecen a la base de datos. A partir de los resultados obtenidos se calcula
58 Regresores Demograficos Unidimensionales
el error total del estimador. Finalmente, los resultados seran comparados con los
encontrados en la literatura.
3.2. Estado del arte
La estimacion de la edad, a partir de una imagen de la cara, es un tema de
investigacion que ha tenido un crecimiento sostenido en estos ultimos anos. Princi-
palmente, por el surgimiento y desarrollo de nuevas tecnologıas y aplicaciones. Sin
embargo, y debido a la complejidad inherente de esta tarea, no encontramos un
gran numero de publicaciones asociadas a la estimacion de edad a diferencia de la
clasificacion de genero. Esto se debe, segun Fu [YFH10], a tres razones:
La estimacion de edad no es un problema de prediccion estandar.
Dado que, dependiendo de los diferentes escenarios de aplicacion esta tarea
puede ser implementada como una de clasificacion multi-clase (categorıas o
grupos de edades) o una de regresion (valores enteros o decimales).
No existen grandes bases de datos publicas de edad.
De una calidad apropiada y que contengan una serie cronologica de edades por
individuo.
La edad aparente de una cara puede no tener relacion con la edad real.
Esta es una variable que no podemos controlar y depende de diversos factores
individuales asociados a cada persona, ver Figura 3.1. La estimacion de la edad
real utilizando la cara, por tanto, puede ser una tarea imposible para algunos
individuos para los que la edad aparente diverge de la de otros individuos con
la misma edad.
En el presente capıtulo nos centraremos en el estudio de los problemas de regre-
sion, y como consecuencia, en la revision del estado del arte solo consideraremos este
tipo de problemas. La investigacion desarrollada en este capıtulo sobre estimadores
de edad se organiza dentro de dos grupos:
Los fuertemente alineados. La mayorıa de los algoritmos de estimacion de edad
estudiados dependen de un cuidadoso posicionamiento de la imagen de la cara
dentro de una determinada orientacion canonica. Esto permite que la posicion
3.2 Estado del arte 59
de las caracterısticas queden fijas a un sistema de coordenadas para su pos-
terior estudio. Generalmente, este posicionamiento se implementa de manera
manual, es decir, cada una de las imagenes de la base de datos se marcan ma-
nualmente: en el centro de los ojos, la boca u otros puntos de interes. De igual
manera, existen algoritmos especializados, como los AAM [CET01], ver Figu-
ra 3.2., que encuentran estos puntos automaticamente. Desafortunadamente,
los procedimientos de alineacion automaticos son poco practicos debido a la
gran cantidad de tiempo y computo que es necesario para su ejecucion, ademas,
de su falta de robustez. Esto hace que en la practica su rendimiento final sea
inferior a aquellos que no realizan un alineamiento previo [MR08b]. De to-
das formas, esta tendencia podrıa cambiar en los proximos anos debido a la
aparicion de nuevos algoritmos de deteccion de puntos de interes de la cara
(landmarks) que no tienen los problemas de los AAM s [DGFG12, KS14].
Figura 3.2: AAM aplicados a dos distintos planos de rotacion [Mar08]. En ambas
figuras se puede observar que el modelo de textura (Texture Model) muestra una
cara alineada a una pose canonica a pesar de los cambios de orientacion.
Los debilmente alineados. Existen otros estimadores de edad que parten del su-
puesto que la alineacion entregada por el detector de caras es suficiente para
realizar un buen entrenamiento. Tambien existen otras aproximaciones, como
la que se vera en este capıtulo, que asumen que los efectos negativos de una ma-
la alineacion del detector pueden ser aprendidas en la fase de entrenamiento.
El evitar una etapa de alineacion previa permite el desarrollo de aplicaciones
reales y de mayor eficiencia computacional.
En este marco de trabajo, existen dos publicaciones importantes asociadas al gru-
po de estimacion de edad utilizando imagenes fuertemente alineadas: Una basa-
da en caracterısticas de inspiracion biologica (Bio-inspired Features, BIF) [GMFH09]
y otra que utiliza un metodo de regresion a partir de trozos de la imagen de la cara
(Regression from Patch Kernel, RPK ) [YZL+08]. En la primera aproximacion, BIF
60 Regresores Demograficos Unidimensionales
aplica un banco de filtros Gabor, sobre una imagen, en diferentes escalas y orienta-
ciones con una combinacion de capas, para finalmente utilizar estas caracterısticas
como paso previo a una reduccion de dimensiones PCA. Se utilizan como entrada
del procedimiento, caras manualmente alineadas de 60×60 pıxeles. Los resultados
publicados son de 4,77 anos de MAE (Mean Absolute Error) utilizando una vali-
dacion cruzada LOPO . Aunque este resultado es el mejor encontrado hasta ahora,
los requerimientos computacionales para la ejecucion de este algoritmo son bastante
altos. Por otro lado, la aproximacion RPK utiliza imagenes de entrada de 32×32
pıxeles que se dividen en trozos de igual tamano de 8×8 pıxeles cada una. Cada
trozo de imagen se describe utilizando la transformada discreta del coseno (Discrete
Cosine Transform, DCT ). Adicionalmente, a cada trozo descrito, se agrega la posi-
cion (x, y) del centro de la imagen como informacion adicional al vector de entrada
utilizado por el modelo. La distribucion de probabilidades de cada uno de los des-
criptores de la imagen se calcula por medio de un Modelo de Mezcla de Gaussianas
(Gaussian Mixture Model, GMM ) y la edad finalmente se estima utilizando un mo-
delo de regresion, Kernel Regression [TFM07, YZL+08]. Esta aproximacion logra
un MAE de 4.95 anos sobre FG-NET con una validacion estandar LOPO .
Dentro de los resultados publicados que utilizan imagenes debilmente ali-
neadas podemos citar a [JBT10] quienes desarrollaron sus experimentos a partir
de imagenes obtenidas directamente desde un detector de caras, es decir, no hay
alineacion automatica de caras mas que el proporcionado por el detector. A partir
de esas imagenes se construyen los modelos de entrenamiento y pruebas. Su pro-
puesta consiste en extraer un histograma de gradientes orientados (HoG), patrones
binarios locales (LBP) y las diferencias locales de intensidad, en trozos obtenidos
al dividir la imagen en una cuadrıcula uniforme. El regresor que utilizaron esta-
ba basado en un modelo Random Forest entrenado con 250 imagenes seleccionadas
aleatoriamente desde la base de datos FG-NET. En sus experimentos, lograron un
MAE de 7.54 anos. Sus resultados estan sesgados de manera optimista porque que
el mismo sujeto puede estar tanto en el conjunto de entrenamiento como en el de
prueba. En [BZS09, NSY11], construyen una base de datos con imagenes de ca-
ras a partir de consultas realizadas sobre edad en la web (Por ejemplo, realizar la
consulta: “cumpleanos numero veinte” y recuperar las imagenes encontradas). Tam-
bien utilizaron varios detectores de caras con los que logran obtener un conjunto
de imagenes de caras bien alineadas. Posteriormente, aplicaron PCA a cada con-
junto de imagenes asociadas a un grupo de edad para eliminar aquellas instancias
que tengan un gran error de reconstruccion. Seguido de esto, describieron la imagen
aplicando DCT [BZS09] o BIF [NSY11] localmente. Finalmente, construyeron un
regresor multi-instancia para realizar la estimacion de edad. Utilizaron esta aproxi-
macion porque no podıan asegurar que las instancias seleccionadas por cada grupo
3.2 Estado del arte 61
edad fueran las correctas. Una aproximacion basada en aprendizaje multi-instancia
(multi-instance learning) construye el modelo de clasificacion o regresion por medio
de bolsas de instancias donde no se asegura completamente que todas ellas sean
positivas, es decir, puede que existan otro tipos de instancias en la bolsa. Su apor-
tacion es que proponen una cadena completamente automatizada de procesos que
van desde la coleccion de la base de datos hasta la estimacion de la edad como una
regresion. La principal limitacion de esta aproximacion es que para dispositivos de
recursos limitados es computacionalmente complejo.
Una importante cuestion a considerar dentro del marco de este estudio es en-
contrar estimadores de edad precisos pero que a su vez resuelvan el problema con
el menor costo computacional posible. La mayorıa de las publicaciones relacionadas
con estimacion de edad utilizan AAM para alinear la cara [YFH10]. Desafortunada-
mente, el ajuste de un AAM es propenso a atascarse en un mınimo local [RGB05].
Por otra parte, el ajuste de un AAM puede ser una tarea con unos requisitos de
computo muy elevados que la hacen prohibitiva cuando existen muchas caras en
una imagen o cuando el calculo se realiza sobre un dispositivo de recursos limita-
dos, como por ejemplo, un smart phone o una camara IP. Una alternativa es usar
algoritmos debilmente alineados.
En lo que sigue de este capıtulo se propone un metodo para poder estimar la
edad utilizando una aproximacion con imagenes debilmente alineadas empleando un
detector de caras estandar [VJ04] para el entrenamiento del modelo. Para lograr el
objetivo de estimacion de edad utilizamos un regresor K-NN (K-nearest neighbor)
mas una metrica aprendida. La metrica deriva del calculo de la matriz de proyeccion
LDA. Para calcular esta matriz dividimos las caras de la base de datos en diferentes
grupos de edades disjuntas. A cada grupo de edad se le asigna una etiqueta que se
utiliza como entrada para el paso de entrenamiento. Con esta aproximacion logramos
obtener resultados muy cercanos al estado del arte para la estimacion de la edad. Por
otro lado, al evitar la alineacion de las imagenes, y por ende, utilizar las imagenes
no alineadas obtenidas directamente desde el detector de caras tiene como beneficio
adicional la construccion de un algoritmo de estimacion de la edad mas simple y
eficiente.
La explicacion del modelo de entrenamiento sobre una base de datos y posterior
validacion cruzada entre diferentes bases de datos se analizara en la seccion 3.3. Para
las pruebas se utilizo un esquema de validacion cruzada LOPO sobre FG-NET donde
se obtuvo aproximadamente 5 anos de MAE . Finalmente, para mostrar la robustez
de los clasificadores realizamos cruces entre distintas bases de datos, donde se logra
un MAE de 12 anos, que es un valor realista para una aplicacion real.
62 Regresores Demograficos Unidimensionales
3.3. Regresion de edad desde imagenes de caras
Basandonos en un clasificador K-NN proponemos un regresor no lineal para la
estimacion de la edad. Consideremos {(xi, yi)}Ni=1 donde cada xi corresponde a los
niveles de gris de una imagen capturada por columnas de p× p pıxeles y dimension
total P (p2 × 1) e yi es la etiqueta de edad correspondiente a xi. La distancia
euclıdea en el espacio de las imagenes no es una buena medida de semejanza. Si
comparamos dos imagenes de edades diferentes lo mas probable es que encontremos
que sus distancias sean muy similares al comparar otras dos imagenes de la misma
edad o de un grupo cercano (Figura 3.3). Para resolver este problema proponemos
utilizar una aproximacion basada en el “metric learning” [Kul12] consistente en
considerar la correlacion inherente entre las imagenes que pertenecen a un mismo
grupo de edad. Para esto, utilizaremos una aproximacion basada en la distancia de
Mahalanobis [Mah36] que emplea la matriz M aprendida a partir de los datos de
entrenamiento con la finalidad de obtener distancias pequenas cuando se comparan
imagenes que pertenecen a una misma edad, y valores mayores para grupos de edades
diferentes. La Ecuacion 3.2 muestra como calcular la distancia de Mahalanobis entre
los vectores xi y xj.
dM(xi,xj) = ||xi − xj||2M = (xi − xj)>M(xi − xj) (3.2)
En la siguiente seccion se explicara como estimar la matriz M utilizando LDA.
3.3.1. Proyeccion PCA+LDA como una matriz metrica pa-
ra la edad
Como ya se estudio en el seccion 2.3.1, podemos utilizar el algoritmo PCA+LDA
para calcular la matriz de proyeccion W la cual permite construir un nuevo subespacio
de caracterısticas de menor dimension, z, que el espacio de caracterısticas original,
x. Esta proyeccion la podemos calcular por medio de la ecuacion 3.3,
z = Wx (3.3)
Basados en esta idea, calculamos desde el conjunto de entrenamiento la mejor
matriz de proyeccion W por medio del algoritmo PCA+LDA visto en capıtulo ante-
rior, ver Algoritmo 2.1.
3.3 Regresion de edad desde imagenes de caras 63
Figura 3.3: Comparacion de distancias euclıdeas entre diferentes individuos y edades.
Para la figura se utilizaron imagenes de caras de 200×200 pixeles, alineadas a partir
del centro de los ojos y ecualizadas por histograma. Si comparamos un nino con
un adulto obtenemos una distancia de 2020.30 en niveles de intensidad, para un
adulto con un anciano obtenemos 2070.48 y si comparamos un nino con un anciano
obtenemos 2058.93. Se observa que las distancias son similares entre las diferentes
apariencias de edad y no aportan significativa informacion discriminante.
Ahora bien, si consideramos que la distancia euclıdea se define tal como se mues-
tra en la Ecuacion 3.4, y utilizamos los valores proyectados del subespacio de ins-
tancias, z, podemos escribir la ecuacion de distancia de la siguiente forma,
de(zi, zj) = ||(zi − zj)||2 (3.4)
La Ecuacion 3.4, puede facilmente modificarse para que utilice la matriz de pro-
yeccion W calculada a partir del algoritmo PCA+LDA. Ası, la distancia euclıdea es
redefinida como la distancia dM,
dM(xi,xj) = ||W(xi − xj)||2 = (xi − xj)>W>W(xi − xj), (3.5)
lo cual significa que la matriz de distancia aprendida viene dada por M = W>W.
Como se ha visto en el Capıtulo 2, seccion 2.3, el LDA es una tecnica supervisada
para reduccion de dimensiones que maximiza la separacion de diferentes clases. Como
la edad es una variable continua, primero debemos discretizar la edad en C grupos,
en la seccion 3.4 se describen los grupos de edades usados en los experimentos para
distintas bases de datos. Dado que el problema es multi-clase con C clases y N
instancias de la muestra, {xi}Ni=1. La base en el subespacio transformado, {wi}di=1,
64 Regresores Demograficos Unidimensionales
se obtiene mediante la maximizacion de [Fuk90] J(w) =∑d
i=1w>
i SBwi
w>i Smwi
donde SB y
Sm son respectivamente la matriz de dispersion entre-clases y la matriz de dispersion
total.
Utilizamos la aproximacion PCA+LDA descrita en el Capıtulo 2 de la sec-
cion 2.3.1 para la implementacion del regresor de edad. Esta aproximacion ordena los
vectores propios de acuerdo a los valores propios en orden decreciente. Luego, selec-
cionamos los mejores vectores propios mediante multiples iteraciones de validacion
cruzada k-fold , ver el Algoritmo 2.1.
Figura 3.4: La figura muestra subespacio PCA+LDA del conjunto de instancias ya
proyectadas z. Si queremos estimar el valor de la edad para una entrada zentrada =
Wxentrada, y considerando K= 3: Podemos obtener las distancias de los vecinos mas
cercanos (zi, zj, zk), sus distancias con respecto a zentrada, y los valores reales de sus
etiquetas de edad, (yi, yj, yk), obtenidas del conjunto de entrenamiento.
3.3.2. Regresion K-NN
La Ecuacion 3.5 se puede interpretar como la proyeccion de una imagen, xi,
en el subespacio PCA+LDA, zi, cuya matriz de transformacion asociada es W. Se-
guidamente, entrenamos un regresor en el subespacio transformado utilizando una
distancia euclıdea. A partir de esta aproximacion se construye la implementacion
del regresor K-NN [SJ89, Cla06].
3.3 Regresion de edad desde imagenes de caras 65
Algoritmo 3.1 Entrenamiento utilizado para seleccionar el mejor parametro d y k
para el regresor de edad basado en PCA+LDA.
Entradas: X, L
Resultados: MAE, d, k
1: MAE ⇐ 99 {Inicializar con un MAE de 99 anos, peor caso}2: d⇐ 1 {Inicializar el mejor numero de caracterısticas a 1}3: Dividir {X,L} en l folds F = {{X1,L1}, . . . , {Xl,Ll}}.4: for j = 1 to D do {Numero de caracterısticas retenidas del subespacio PCA}5: for ks = 1 to K do {Numero de vecinos seleccionados antes de aplicar K-NN }6: for i = 1 to l do {Validacion cruzada l-fold con j caracterısticas retenidas
antes de aplicar LDA}7: {Xtest,Ltest} ⇐ {Xi,Li} {Probar con fold i}8: {Xtrain,Ltrain} ⇐ F − {Xi,Li} {Entrenar con el resto de los folds}9: [PPCA, I] ⇐ PCA(Xtrain) {Analisis de Componentes Principales}
10: A B se le asignan las j columnas en PPCA.
11: Y⇐ B>(Xtrain − [I. . .I]) {Proyeccion sobre el subespacio PCA}12: PLDA ⇐ LDA(Y,Ltrain) {Analisis de discriminante lineal de Fisher}13: Ztrain ⇐ PLDAY {Proyeccion sobre el subespacio LDA}14: C ⇐ entrenarRegresorKNN(ks, Ztrain, Ltrain)
15: Ztest ⇐ PLDAB>(Xtest − [I. . .I])
16: maei ⇐ calcularMAE(C, Ztest, Ltest) {MAE por fold}17: end for
18: MAEj,ks ⇐ 1l
∑li=1 maei
19: if MAEj,ks < MAE then
20: MAE ⇐MAEj,ks
21: d⇐ j
22: k ⇐ ks23: end if
24: end for
25: end for
66 Regresores Demograficos Unidimensionales
Inicialmente, el algoritmo de regresion proyecta cada vector del conjunto de entre-
namiento, xi, dentro del subespacio PCA+LDA utilizando la Ecuacion 3.3. Seguido
de esto, estimamos el numero optimo de vecinos, K, por medio de validacion cruzada
k-fold , ver Algoritmo 3.1.
La salida del regresor de edad estara en funcion de la entrada z y se calcula con-
siderando los K vecinos mas cercanos a la instancia, ver Figura 3.4. Si consideramos
la entrada xentrada que luego es proyectada en el subespacio PCA+LDA, zentrada,
podemos estimar la edad de salida, y, por medio de la media ponderada del inverso
de las distancias de los K vecinos cercanos seleccionados utilizando la Ecuacion 3.6.
y =K∑i=1
wiyi, (3.6)
donde yi es la etiqueta real de la edad obtenida del conjunto de entrenamiento
y wi es la distancia inversa normalizada del i-esimo vecino cercano a zentrada, que se
calcula como se muestra en la Ecuacion 3.7,
wi =wi∑Kj=1wj
(3.7)
donde wi es la distancia inversa entre zentrada y un vecino zi,
wi =1
||zentrada − zi||(3.8)
En el caso especial de que alguna distancia entre zentrada y su i-esimo vecino, zi,
sea cercana o igual a cero (p. ej. ||z− zi|| <= 10−6), elegimos la etiqueta yi como el
vecino mas cercano, retornado ese valor como respuesta del regresor.
3.4. Experimentos
A continuacion evaluamos el rendimiento del regresor de edad. Para realizar los
experimentos utilizamos las imagenes de las bases de datos PAL, GROUPS y FG-NET,
ver Apendice A para mas detalles. Para entrenar el algoritmo propuesto, prime-
ro estimamos los parametros optimos para el numero de vecinos cercanos, K, y la
dimension PCA por medio de un esquema de validacion cruzada 5-fold iterativa
3.4 Experimentos 67
que selecciona la mejor configuracion con respecto al menor valor MAE conseguido,
ver Algoritmo 3.1. En todos los experimentos usamos el mismo procedimiento del
Capıtulo 2 para una aproximacion basada en apariencia global: 1) las imagenes de
las caras son detectadas, 2) cortadas y redimensionadas a imagenes de 25× 25 pıxe-
les, 3) ecualizadas en histograma para ganar algo de independencia a los cambios
de iluminacion y 4) agregamos una mascara ovalada para evitar la influencia del
fondo en el calculo de los resultados. Para el paso 1) utilizamos el detector de caras
suministrado por OpenCV . Adicionalmente, realizamos dos experimentos emplean-
do la base de datos FG-NET con una aproximacion basada en imagenes fuertemente
alineadas. En estos experimentos las caras son marcadas y recortadas manualmente,
finalmente, cada una de las imagenes es alineada utilizando las siguientes transfor-
maciones geometricas:
Transformacion de semejanza. Se alinean utilizando las marcas del centro de
los ojos.
Transformacion afın. Esta transformacion utiliza la informacion del centro de los
ojos y de la boca.
Para poder entrenar el subespacio PCA+LDA discretizamos las diferentes edades
de las bases de datos FG-NET y PAL dentro de 11 grupos, Tabla 3.1.
Numero de Grupo 1 2 3 4 5 6 7 8 9 10 11
Rango de Edad 0-2 3-7 8-12 13-19 20-28 29-37 38-46 47-55 56-64 65-73 74-82
Tabla 3.1: Grupos discretos para entrenamiendo del subespacio PCA+LDA para las
bases de datos FG-NET y PAL.
En caso de las imagenes de la base de datos GROUPS, no fue necesario etique-
tarlas ya que cada una de las imagenes tienen asociado un grupo de edad discreto,
Tabla 3.2. Para los experimentos desarrollados con esta base de datos solo utilizamos
imagenes de caras detectadas cuyo tamano fuera de al menos 60× 60 pıxels (13051
de un total de 28231).
3.4.1. Pruebas con una unica base de datos
Para poder comparar los rendimientos del regresor propuesto con los modelos
encontrados en la literatura, realizamos un conjunto de experimentos sobre la base
68 Regresores Demograficos Unidimensionales
Numero de Grupo 1 2 3 4 5 6 7
Rango de Edad 0-2 3-7 8-12 13-19 20-36 37-65 66+
Tabla 3.2: Grupos y rangos de edad etiquetadas en la base de datos GROUPS.
Figura 3.5: Curvas de valores de porcentajes acumulados para experimentos sobre
FG-NET utilizando validacion cruzada con imagenes de 25× 25 pixels de tamano. La
figura muestra una comparacion entre los resultados de nuestros experimentos y los
metodos propuestos en el estado del arte.
de datos FG-NET en el que utilizamos el metodo de validacion cruzada LOPO pa-
ra encontrar los parametros optimos para el mejor regresor de edad. Ademas, para
cuantificar la influencia de la alineacion en la prediccion de la edad, realizamos dos
grupos de experimentos: Uno que utiliza imagenes de caras obtenidas directamente
del detector, aproximacion debilmente alineada, y otro con imagenes alineadas
manualmente desde la base de datos FG-NET, ver Tabla 3.3. Los resultados mues-
tran que para la aproximacion de imagenes fuertemente alineadas la diferencia de los
errores MAE entre la transformacion global afın (usando ojos y boca) es menor que
0.2 anos con respecto a la transformacion global de similaridad (usando solo ojos).
Cuando se utilizan caras debilmente alineadas, obtenidas directamente del detector,
el MAE se degrada en aproximadamente 1,2 anos.
Los resultados obtenidos sobre la base de datos FG-NET se comparan con los
encontrados en las literatura bajo las mismas condiciones de validacion usando LO-
3.4 Experimentos 69
PO con alineacion manual de los ojos, ver Tabla 3.3. En terminos del MAE global,
los resultados obtenidos muestran que en los experimentos con ojos alineados ma-
nualmente nuestra aproximacion es un ano peor que las obtenidas en los trabajos
de [YZL+08] y [GMFH09]. En los experimentos que utilizan imagenes con alineacion
debil los resultados obtenidos fueron de aproximadamente 2 anos peor a los traba-
jos antes mencionados. Las curvas de valores acumulados de la Figura 3.5 confirma
que las aproximaciones RPK [YZL+08] o BIF [GMFH09] son marginalmente me-
jores que el algoritmo presentado con caras manualmente alineadas. Sin embargo,
la aproximacion que desarrollamos en este capıtulo es mucho mas simple y puede
funcionar sobre dispositivos con recursos computacionales reducidos. Recordemos
que el metodo BIF depende del procesamiento de la imagen a traves de un banco de
filtros y la aproximacion RPK depende de la adaptacion de un modelo de mezclas
de Gaussians a partir de la descripcion de la imagen de la cara por medio de la DCT
aplicada a un conjunto de pedazos de esta, ambas aproximaciones necesitan muchos
mas recursos computacionales para su buen funcionamiento.
Rangos de Edad
Experimentos 0-9 10-19 20-29 30-39 40-49 50-59 60+ Global
1 Alineacion semejanza 2,85 3,76 5,60 11,58 19,65 27,67 42,11 5,70
2 Alineacion afın 2,72 3,84 5,62 11,19 19,68 29,43 40,53 5,56
3 Detector de caras 4,68 4,39 6,57 13,62 19,84 29,68 38,12 6,90
4 RPK [YZL+08] 2,30 4,86 4,02 7,32 15,24 22,20 33,15 4,95
5 BIF [GMFH09] 2,99 3,39 4,30 8,24 14,98 20,49 31,62 4,77
Tabla 3.3: Se comparan los resultados sobre FG-NET utilizando validacion cruzada
LOPO . En nuestros experimentos sobre imagenes de la cara de 25× 25: 1) y 2) son
sobre imagenes alineadas manualmente utilizando una transformacion de similaridad
y una transformacion afın, en 3) se utilizan solo las caras detectadas por OpenCV .
Estas se pueden comparar con los resultados de 4) y 5) que fueron obtenidos de la
literatura con respecto a su MAE calculado por grupo de edad y como promedio
global.
En el trabajo de Jahanbekam y otros [JBT10] se usan caras extraıdas direc-
tamente desde un detector sobre la base de datos FG-NET. El MAE obtenido por
[JBT10] es de 7,54 anos, el cual esta optimisticamente sesgado debido a que ellos no
utilizaron una evaluacion LOPO , y por consiguiente, el mismo sujeto puede estar
en el conjunto de entrenamiento o pruebas. En este caso, y a pesar del sesgo, nues-
tro algoritmo supera al de [JBT10], ya que el MAE obtenido en los experimentos
desarrollados en este capitulo estan alrededor de los 6,9 anos de MAE , ver Tabla 3.3.
70 Regresores Demograficos Unidimensionales
3.4.2. Pruebas con cruce de base de datos
La mayorıa de los algoritmos para estimacion de edad encontrados en la literatura
desarrollaron sus experimentos sobre una unica base de datos. Para evaluar la capa-
cidad generalizadora de nuestro algoritmo, desarrollamos el siguiente procedimiento
de pruebas: primero entrenamos el regresor utilizando una base de datos (GROUPS
o FERET) y luego evaluamos la bondad del regresor empleando otra base de datos
totalmente diferente (GROUPS, FG-NET o PAL). Para los experimentos se utilizan las
bases de datos GROUPS y PAL con una validacion cruzada de 10-fold con el objetivo
de que los resultados sean comparables con otros estudios. Para el entrenamiento
con FG-NET se realizo una validacion cruzada LOPO . En la Figura 3.6 se muestra
las curvas de valores acumulados para diferentes rangos de MAE . En la Tabla 3.4
se muestran los resultados de MAE obtenidos en los experimentos estratificado por
rangos de edad.
Experimento/Rango de edad 0-9 10-19 20-29 30-39 40-49 50-59 60+ Global
IAD/FG-NET[BZS09] 10,98 8,15 6,05 7,92 13,42 22,75 29,96 9,49
GROUPS/FG-NET 15,55 12,98 6,88 5,65 12,20 19,66 22,64 12,62
GROUPS/PAL — 10,42 7,59 6,69 9,30 17,27 28,90 17,54
FG-NET/GROUPS 9,56 5,77 9,41 — — 29,55 53,52 15,79
FG-NET/PAL — 5,56 5,84 14,27 23,62 32,85 49,10 27,63
Tabla 3.4: MAE sobre cada rango de edad para experimentos realizados en cruce de
base de datos.
Los experimentos realizados se han divido en dos grupos dependiendo del tamano
de la base de datos de entrenamiento.
Para el primer grupo de experimentos el entrenamiento se realiza sobre una base
de datos con una gran cantidad de imagenes como es el caso de GROUPS, y se evalua
sobre las bases de datos FG-NET y PAL. En este caso se logro un MAE promedio a
los 15 anos.
En el segundo grupo de experimentos el entrenamiento se hizo sobre una base de
datos con una cantidad reducida de imagenes, que en nuestro caso, corresponde a
FG-NET, que probamos sobre la base de datos GROUPS y PAL. En el caso de entrenar
con la base de datos FG-NET y probar con la base de datos GROUPS los resultados
tambien fueron de 15 anos. Sin embargo, en el cruce de base de datos FG-NET contra
PAL se obtuvo un MAE mucho mayor ya que la distribucion de edades de ambas
bases de datos es diferente. FG-NET tiene menos sujetos con edades sobre los 40
3.4 Experimentos 71
Figura 3.6: Curvas de valores de porcentajes acumulados para experimentos de cruce
de base de datos.
anos que PAL donde la mayorıa de los individuos fotografiados estan por sobre los
40 anos. Esto explica los malos resultados encontrados en el cruce de base de datos
entre FG-NET/PAL para los grupos de edades sobre 40 anos, ver Tabla 3.4.
Los resultados obtenidos entre el cruce de GROUPS/FG-NET los podemos comparar
con otras soluciones encontradas en la literatura que utilizan un detector de caras
sin realizar alineamiento alguno [BZS09]. En AID [BZS09] se construye una base
de datos a partir de 219.892 imagenes bajadas directamente desde Internet. Luego,
para el entrenamiento del estimador de edad se emplea un regresor de tipo kernel.
El estimador de edad desarrollado por [BZS09] se prueba utilizando la base de datos
FG-NET (ver fila IAD/FG-NET en Tabla 3.4), obteniendo como resultado un MAE
de 9,49 anos. Los resultados mostrados en esta tesis se probaron con una base de
datos de 13.501 muestras y el MAE obtenido fue de 12,62 anos, en nuestro caso el
experimento lo implementamos entrenando el estimador con la base de datos GROUPS
y luego como base de datos de pruebas utilizamos, nuevamente, la base de datos
FG-NET, ver Tabla 3.4. Nuestros resultados muestran que los experimentos realizados
tienen un MAE un poco mayor que los resultados obtenidos en la literatura [BZS09],
esto se debe, a que la base de datos utilizada por nosotros es un orden de magnitud
mas pequena y con una pobre resolucion en la distribucion de edades. Sin embargo,
cuando se observa los MAE s estratificados por rangos de edad se puede ver que el
procedimiento propuesto funciona mejor en los rangos de edad: 30-39, 40-49, 50-59
y 60+ (ver filas IAD/FG-NET y GROUPS/FG-NET y las columnas de rango de
72 Regresores Demograficos Unidimensionales
edad en la Tabla 3.4). La razon es que en esos rangos de edad tenemos mas ejemplos
de entrenamiento en GROUPS y nuestro metodo es capaz de sacar partido de ellos.
3.5. Conclusiones
En este capıtulo se ha presentado una contribucion para el problema de regresion
sobre edad a traves de imagenes capturadas directamente desde un detector de caras
con resultados cercanos al estado del arte. Siguiendo el principio de la Navaja de
Ockham, principio de parsimonia, se ha estudiado este problema teniendo en mente
una perspectiva basada en la sencillez y una solucion de bajo coste computacional.
Observamos que algunas soluciones en la literatura son computacionalmente com-
plejas de conseguir, y que como resultado se obtiene una ganancia marginal en la
estimacion de la edad.
Para alineaciones manuales se obtienen resultados competitivos utilizando un al-
goritmo muy simple y rapido. Los resultados muestran que cuando se utiliza solo la
alineacion del detector de caras la estimacion del MAE es solo un ano peor que el ob-
tenido empleando alineacion manual. No esta claro si una alineacion completamente
automatica, la cual es computacionalmente intensiva, es el camino correcto. Se ha
encontrado en la literatura que la falta de alineacion en las imagenes de caras para
el problema de reconocimiento de genero no influye mayormente en el rendimiento
del clasificador y que en algunos casos la alineacion automatica tampoco aporta una
ventaja significativa [MR08a, BCBB11].
Sin embargo, se cree que el problema de alineacion puede ser resuelto por medio
del entrenamiento, lo que harıa que el computo en lınea fuera mucho mas eficiente.
Al no requerir de un proceso fuertemente alineado, el metodo presentado es simple y
rapido tanto en entrenamiento como su uso en un sistema en lınea para estimacion de
edad. Dado que los requerimientos computacionales son bajos, este metodo puede
ser implementado en smart-phones o camaras IP. En los siguientes capıtulos se
abordara algunas soluciones para poder implementar esta propuesta.
Sobre el estado del arte sobre FG-NET no se pueden extraer resultados conclu-
yentes. Esto se debe a que esta base de datos cuenta con un numero pequeno de
imagenes en ciertos rangos de edad, lo que hace difıcil poder entrenar un estimador
que sea capaz de generalizar todos los casos encontrados. Nuestra reflexion apunta a
que los experimentos de cruce de base de datos deben ser pensados como una nece-
sidad para poder impulsar el futuro de un correcto estado del arte en la estimacion
3.5 Conclusiones 73
facial de la edad.
Capıtulo 4
Dependencias entre atributos
faciales
Yo hago lo que usted no puede, y usted hace
lo que yo no puedo. Juntos podemos hacer
grandes cosas
Madre Teresa de Calcuta
RESUMEN: La estimacion del genero a partir de imagenes del rostro hu-
mano es un problema que ha sido estudiado ampliamente por sus diversas
aplicaciones en la industria. Por otra parte, existen publicaciones recientes
que muestran una caıda de rendimiento en la clasificacion de genero cuando
se evaluan problemas denominados “in the wild”, es decir, con amplia demo-
grafıa y condiciones ambientales no controladas. Nuestra hipotesis considera
que la causa puede ser la existencia de dependencias entre atributos faciales
demograficos que no han sido consideradas en la construccion del clasificador.
En este capıtulo se estudian las dependencias entre los atributos faciales de
genero, la edad y la pose. Adicionalmente, al considerar la relacion entre los
atributos faciales de genero y pose logramos evitar el uso de procedimientos
de alineacion de la cara que, por lo general, son computacionalmente costosos
y poco robustos. Los experimentos desarrollados confirman la existencia de
dependencias entre los atributos faciales del genero, la edad y la pose. Final-
mente, demostramos que podemos mejorar el rendimiento y la robustez de los
clasificadores de genero mediante la explotacion de estas dependencias.
75
76 Dependencias entre atributos faciales
Los atributos visuales definen un conjunto de propiedades observables que
dotan de significado a las imagenes y que en base a esa informacion es posi-
ble entender de mejor forma el entorno fısico que nos rodea (por ejemplo, el
tipo de accesorios que utilizamos, la cantidad de pelo en nuestro rostro, el genero, la
edad, etc). Las representaciones basadas en atributos han recibido mucha atencion,
recientemente, debido a que estos se han utilizado con exito en aplicaciones para
la recuperacion de imagenes [Yu12], para el reconocimiento de objetos [DPCG12],
para describir objetos desconocidos [FEHF09], e incluso para aprender objetos que
no se encuentran en la base de entrenamiento o pruebas [FEHF09, LNH09]. En el
caso de los atributos faciales, estos son utilizados con exito para la verificacion fa-
cial [KBBN09]. Hay un gran interes en la estimacion de atributos faciales como el
estilo y color del pelo, expresiones faciales, etc. No obstante, los principales estudios
de atributos faciales estan dirigidos al genero, la raza y la edad. En este capıtulo
analizaremos nuevamente el atributo facial del genero y su relacion con los atributos
faciales de la edad y la orientacion de la cara (pose).
En el Capıtulo 2, estudiamos el estado del arte sobre la estimacion de genero y
se obtivieron los mejores resultados cuando se utiliza una unica base de datos para
entrenar y validar (incluso cuando se hace correctamente con validacion cruzada).
Por otro lado, vimos que el rendimiento del clasificador se reduce significativamen-
te si los clasificadores han sido entrenados y probados sobre diferentes bases de
datos. Por ejemplo, si entrenamos nuestro clasificador utilizando la base de datos
FERET [PMRR00] y probamos con la base de datos PAL [MP04], el rendimiento cae
aproximadamente a un 70 % en terminos de tasa de acierto [BCBB11]. Esto se debe
principalmente a las diferentes distribuciones demograficas de cada una de las bases
de datos. En FERET gran parte de los individuos son adultos caucasicos, mientras
que en PAL existe un amplio rango de individuos que considera diferentes grupos
etnicos y de edad. En general, cuando un clasificador de genero se entrena con un
conjunto de datos limitado en demografıa y luego se prueba con un conjunto de
datos mas general la tasa de acierto en la clasificacion cae significativamente. Esto
sugiere la existencia de dependencias entre el atributo facial del genero con otras
variables demograficas.
Aunque la base de datos Color FERET se utiliza como un estandar de compara-
cion en la estimacion de genero, en la practica, su desempeno para la estimacion
de genero en entornos reales serıa deficiente ya que fue adquirida en condiciones de
laboratorio. En los ultimos anos, hay una nueva tendencia en lo que respecta a la
validacion de clasificadores de atributos faciales que considera utilizar bases de caras
adquiridas en condiciones no controladas. Estas bases de datos son denominadas en
77
la literatura como “in the wild”. The images of Groups Dataset1 [GC09] es una
base de datos con una gran cantidad de imagenes de grupos de personas adquiridas
principalmente desde internet y que fueron etiquetadas manualmente con los atri-
butos de genero y grupo de edad. En esta base de datos, Gallagher y otros [GC09]
lograron un 69,9 % de tasa de acierto en genero utilizando 23218 imagenes de entre-
namiento alineadas a partir de los ojos y probadas con 1881 imagenes de la misma
base de datos. Utilizaron siete proyecciones de analisis discriminante lineal (LDA),
una por cada rango de edad, y un clasificador de K vecinos mas cercanos (K-NN ).
Aun cuando Gallagher y Chen [GC09] emplearon imagenes alineadas utilizando la
posicion de los ojos, etiquetadas en la base de datos, la clasificacion esta lejos de
ser perfecta. La razon de esta pobre tasa de acierto en la clasificacion se debe a
que las imagenes de GROUPS representan situaciones del mundo real: cambios de ilu-
minacion, expresiones faciales, orientaciones de la cara y una amplia distribucion
demografica. Cuando estimamos los atributos faciales en imagenes del mundo real
nos encontramos usualmente que la variabilidad intra-clases es mayor a la varia-
bilidad entre-clases. Los cambios de apariencia producidos por la orientacion de la
cabeza (pose), iluminacion o expresiones faciales hacen que la apariencia de la cara
cambie de forma drastica. Al eliminar la variabilidad intra-clases el rendimiento en
el reconocimiento de genero puede mejorar significativamente.
Nuestra hipotesis, estudiada en este capıtulo, considera que las variaciones de
pose de la cara y los cambios de edad son fuentes de variabilidad intra-clase para
la estimacion de genero. Explotaremos las dependencias encontradas en las aproxi-
maciones basadas en apariencia entre el genero, la edad y la pose con el objetivo de
reducir la variabilidad intra-clase y mejorar el rendimiento en la estimacion de los
clasificadores.
En los trabajos sobre clasificacion de genero en entornos reales, generalmente, las
imagenes han sido alineadas con una pose canonica [MR08a, GC09, DCGJYAC11,
RBLNCS12]. La alineacion de una cara necesita de una deteccion manual o au-
tomatica de un conjunto de puntos fiduciarios [MR08a, GC09] o de un paso previo
de congealling (alinear todas las imagenes de un conjunto por medio de la reduc-
cion de entropıa [Lea06]). Makinen y Raisamo [MR08a] demostraron que, aunque
las caras alineadas manualmente incrementan las tasas de acierto en la clasificacion
de genero la mejora lograda en rendimiento no es significativa. Sobre todo porque
las soluciones basadas en alineacion son bastantes costosas en terminos de recursos
computacionales y no son robustas.
En este capıtulo consideramos la pose como un atributo en la clasificacion y
1http://chenlab.ece.cornell.edu/people/Andy/ImagesOfGroups.html
78 Dependencias entre atributos faciales
transferimos el problema de alineacion a la fase de entrenamiento, eliminando la
necesidad de realizar un alineamiento explıcitamente. En la literatura existen es-
tudios previos donde los clasificadores aprenden simultaneamente el alineamiento y
sus atributos [BDTB05, KWSC10]. Sin embargo, en nuestro trabajo seguimos un
camino diferente. Primero, encontramos un conjunto de clusters con las poses de las
caras a partir de las imagenes obtenidas despues de la deteccion. A continuacion,
entrenamos un clasificador con las etiquetas de pose y de genero simultaneamente.
Para probar nuestro procedimiento utilizamos la base de datos GROUPS logrando un
incremento del 5 % en el rendimiento del clasificador con respecto a los resultados
del estado del arte sobre aproximaciones basadas en la apariencia global.
Por otro lado, para analizar la influencia de la edad en la estimacion de gene-
ro, tambien hemos estudiado la relacion entre los atributos de edad y genero. El
estudio de las dependencias entre diferentes variables demograficas ha sido tambien
estudiadas en trabajos previos. En Wei y Ai [AW09] se demostro experimentalmente
que al explotar la relacion entre etnia y genero obtiene un aumento de la tasa de
acierto entre un 4 a 5 % en clasificacion de genero para caras mongoloides y africa-
nas. Guo y My [GM10], en experimentos desarrollados utilizando la base de datos
MORPH-II [RT06], encontraron que la estimacion de edad puede contener grandes
errores si la influencia de el genero y la etnia no se toman en cuenta. Finalmente,
Guo y otros [GDFH09] consideraron las dependencias entre la edad y el genero.
Encontraron que la tasa de acierto fue 10 % superior en las caras de adultos que
en las caras de jovenes y ancianos. Ademas, estudiaron la influencia de diferentes
tipos de extraccion de caracterısticas sobre la imagen (LBP , HoG y BIF ). En este
capıtulo, tambien consideraremos la influencia de la edad en la estimacion del gene-
ro, pero desde una perspectiva completamente diferente. Ademas, estudiaremos si
la tasa de acierto en la estimacion de genero puede ser mejorada conjuntamente con
la estimacion de la edad y el genero.
4.1. Powerset de atributos faciales para la clasi-
ficacion
Con la idea principal de poder combinar multiples atributos para la tarea de
aprendizaje de los clasificadores propuestos, hemos utilizado uno de los enfoques
basicos utilizados para la clasificacion multi-label. La aproximacion pertenece a la
familia de los metodos de transformacion del problema o metodo independiente del
algoritmo, denominado Label Powerset (LP) [TK07, AC09, TKV10]. LP explora
4.1 Powerset de atributos faciales para la clasificacion 79
toda las posibles combinaciones entre etiquetas y crea un nuevo conjunto extendido
de etiquetas donde cada una de ellas representa subconjuntos o combinaciones de
las etiquetas originales, convirtiendo un problema multi-label en uno multi-clase.
Hemos adaptado la idea implıcita detras del metodo LP a nuestro problema, de-
nominando a nuestra aproximacion Powerset de Atributos (AP). Sea T= {V1, . . . ,Vd}el conjunto de atributos faciales de un problema dado y Vi= {vi1, . . . , viq} el con-
junto de valores posibles para cada atributo Vi donde q = |Vi|. Se define Cx=
{V1×V2 . . .×Vd} como el producto cartesiano de todos los valores de los atributos
de los conjuntos Vi. La salida de un clasificador Powerset de Atributos para una
entrada de una instancia, x, es un vector z ∈ Cx. Finalmente, la tarea de aprendizaje
se reduce a encontrar el clasificador h que minimice el error de clasificacion:
h : X → T
(x1, . . . , xm) 7→ (v1r , . . . , v
dw)
Donde r y w son los ındices de los valores de atributos calculados por el clasifi-
cador.
Por ejemplo, para el problema de clasificacion de atributos faciales demograficos,
un posible enunciado podrıa ser aquel que defina dos atributos, T= {genero, edad}y sus valores por atributo se definen:
Vgenero = {hombre,mujer}Vedad = {0− 2, 3− 7, 8− 12, 13− 19, 20− 36, 37− 65, 66+}
En este caso, el Powerset de atributos se calcula como:
Cx = {(hombre, 0− 2), (hombre, 3− 7), . . . , (mujer, 37− 65), (mujer, 66+)},
donde la cardinalidad de todas las nuevas tuplas que forman el AP es |Cx| = 14,
ver Figura 4.1.
Con el objetivo de obtener subclases bien separadas y compactas, hemos rea-
lizado una reduccion de dimensionalidad sobre el conjunto de entrenamiento utili-
zando Analisis Discriminante Lineal de Fisher (LDA). Nuestra aproximacion para
80 Dependencias entre atributos faciales
Figura 4.1: Powerset de Atributos es una extension a la aproximacion multi-label LP .
En la figura observamos las variables clase Vgenero y Vedad cuyos valores son combi-
nados para generar una etiqueta unica.
reduccion de dimensionalidad esta relacionado con el Analisis Discriminante con
Subclases (SDA, Subclass Discriminant Analysis) [ZM06b]. Sin embargo, en lugar
de encontrar las subclases con un procedimiento de clusterizacion en el espacio de
caracterısticas [ZM06b] nosotros deduciremos las subclases a partir de los valores
definidos a traves de la combinacion de los atributos faciales. Si el numero de datos
de entrenamiento no es lo suficientemente grande o el numero de clases derivado
de la transformacion Powerset es alto, los resultados del LDA pueden verse seria-
mente comprometidos [BCBB11]. En este caso, aplicamos Analisis de Componentes
Principales (PCA, Principal Component Analysis) con una validacion cruzada para
reducir la dimensionalidad de los datos antes de aplicar LDA [BCBB11].
4.2. Reconocimiento de genero robusto
Las variaciones de edad y de postura de la cara son fuentes de variabilidad intra-
clase que reducen el rendimiento de los clasificadores de genero. En esta seccion
analizaremos la relacion entre la estimacion de los atributos de genero, la edad y los
cambios de pose de la cara.
4.2 Reconocimiento de genero robusto 81
4.2.1. Sobre la dependencia entre los atributos de edad y
genero
Las variables de genero y edad son estadısticamente independientes. Si conside-
ramos que para los distintos rangos de edad hay un numero similar de hombres y
mujeres, y para cualquier instancia de genero la distribucion de sus edades es si-
milar, entonces podemos concluir que las variables demograficas de genero y edad
son estadısticamente independientes. Esto es, P (G,E) = P (G)P (E), donde G y E
denota las variables de genero y edad respectivamente y P la probabilidad de un
evento.
Figura 4.2: Experimentos previos que demuestran la dependencia del genero y la
edad dada la apariencia. En la figura de la izquierda se entrena toda la base de
datos GROUPS y se prueba con la base de datos PAL. A la derecha realiza el mis-
mo experimento pero se separan las imagenes por rango de edad y se entrena un
clasificador de genero por cada uno de los grupos.
No obstante, y a partir de nuestra intuicion, creemos que existe una dependencia
condicional entre el genero y la edad dada la apariencia de la cara. Para ilustrar
el problema, suponemos que deseamos estimar el genero al que pertenece una cara
en una imagen. Si la imagen corresponde a la de un nino es muy probable que sea
82 Dependencias entre atributos faciales
mucho mas difıcil clasificarla como hombre o mujer que en el caso de un adulto,
ver Figura 4.3. Para confirmar esta dependencia hemos entrenado un clasificador de
genero, tal como se explico en la Seccion 4.1, utilizando la base de datos GROUPS,
y validada sobre PAL, ver Figura 4.2. Entrenamos el clasificador con imagenes de
hombres y mujeres, de todos los rangos de edades. En la primera fila de la Tabla 4.1
se muestran los resultados obtenidos en estos experimentos estratificados en cuatro
rangos de edad. Del experimento destacamos el resultado obtenido en el rango de
imagenes entre los 20− 36 anos y que estan por encima del estado del arte propues-
to en [BCBB11]. Por el contrario, los resultados mostrados para los rangos de edad
restantes son claramente menores. Estos resultados indican que el rendimiento del
clasificador depende de los rangos de edad. Para confirmar la existencia de depen-
dencias entre la edad y el genero entrenamos cuatro clasificadores de genero, uno
por cada rango de edad, utilizando la base de datos GROUPS y probando estos con los
mismos rangos de edad establecidos sobre la base de datos PAL, ver Figura 4.2. Estos
experimentos proporcionan informacion sobre el rendimiento de un clasificador de
genero que conoce la apariencia y el rango de edad del sujeto. Como nosotros pode-
mos ver en la segunda fila de la Tabla 4.1, el rendimiento mejora, sobre todo para
los el rango de los ancianos. Este experimento muestra claramente la existencia de
dependencias entre el genero, G, y la edad E, dada la apariencia facial, representada
por el variable X.
Experimento/Categorıa de Edad 13-19 20-36 37-65 66+ T.Global
Genero 65,62 % 75,56 % 65,04 % 64,53 % 68,73 %
Genero | Edad 65,62 % 76,47 % 73,98 % 74,87 % 74,78 %
Tabla 4.1: Dependencia entre genero y edad utilizando la base de datos GROUPS para
el entrenamiento y PAL para las pruebas. Separamos las imagenes en cuatro rangos
de edad. Cada fila muestra el resultado de diferentes procesos de entrenamiento.
En la primera fila el clasificador de genero se entreno utilizando todos los rangos
de edad. En la segunda fila un clasificador de genero se entreno por cada rango
de edad independientemente. La primeras cuatro columnas muestran los resultados
estratificados por rango de edad. La ultima columna muestra el promedio de todos
los resultados obtenidos por rango de edad.
En resumen, si el rendimiento de un clasificador de genero basado en apariencia
cambia cuando agregamos informacion sobre la edad, entonces:
P (G|X) 6= P (G|X,E)
4.2 Reconocimiento de genero robusto 83
�60 �40 �20 0 20 40 600.00
0.01
0.02
0.03
0.04
0.05
0.06P(x|G=[m,w],E=[0-2])
�60 �40 �20 0 20 40 600.00
0.01
0.02
0.03
0.04
0.05
0.06P(x|G=[m,w],E=[3-7])
�60 �40 �20 0 20 40 600.00
0.01
0.02
0.03
0.04
0.05
0.06P(x|G=[m,w],E=[8-12])
�60 �40 �20 0 20 40 600.00
0.01
0.02
0.03
0.04
0.05P(x|G=[m,w],E=[13-19])
�60 �40 �20 0 20 40 600.00
0.01
0.02
0.03
0.04
0.05P(x|G=[m,w],E=[20-36])
�60 �40 �20 0 20 40 600.000
0.005
0.010
0.015
0.020
0.025
0.030
0.035
0.040
0.045P(x|G=[m,w],E=[37-65])
�60 �40 �20 0 20 40 600.000
0.005
0.010
0.015
0.020
0.025
0.030
0.035
0.040
0.045P(x|G=[m,w],E=[66+])
Figura 4.3: Distribucion de probabilidades de la apariencia dado el genero y la edad
sobre la base de datos GROUPS. La figura muestra que dada la edad y el genero la
apariencia no es condicionalmente independiente (P (X|G,E) 6= P (X|G)P (X|E))
porque la distribucion de apariencia es diferente en cada grafica.
84 Dependencias entre atributos faciales
Esto implica que el genero, G, y la edad, E, son atributos demograficos condi-
cionalmente dependientes dada la apariencia de la cara, X.
Figura 4.4: Ejemplo de imagenes. La primera y segunda fila son imagenes capturadas
desde la base de datos PAL. La tercera y cuarta fila son imagenes capturadas desde
la base de datos GROUPS. Las dos ultimas filas corresponden a imagenes capturadas
desde la base de datos LFW.
4.2.2. Sobre la dependencias entre los atributos genero y
pose
En esta seccion nos interesa tratar las variaciones de alineacion u orientacion
(pose) de la cara dentro de una ventana de deteccion. Los detectores de caras se
entrenan para ser insensibles a los cambios de pose de la cara, ver Figura 4.4. Esta
caracterıstica de los algoritmos de deteccion hace que la estimacion de atributos
faciales sea mucho mas compleja. En general, para el buen funcionamiento de un
clasificador de genero las imagenes deben ser alineadas a alguna pose canonica por
algun metodo manual o automatico [MR08a, GC09]. En el caso particular del ali-
neamiento automatico, el proceso es computacionalmente muy intensivo y propenso
a errores, tal como lo publicado por Makinen y otros [MR08a]. En esta seccion pro-
ponemos transferir el problema de alineacion a la fase de aprendizaje evitando la
necesidad de alinear las caras a medida que se van detectando. Existen resultados
4.2 Reconocimiento de genero robusto 85
previos sobre clasificacion y alineacion simultanea [BDTB08, KWSC10]. En nuestro
caso, seguiremos una aproximacion diferente. Para este fin, encontraremos grupos
de poses utilizando las caras obtenidas despues del proceso de deteccion a partir del
conjunto de entrenamiento y emplearemos estos para entrenar un clasificador que
reconozca tanto el genero como la pose de la cara.
Figura 4.5: Imagen canonica de 60× 60 pixeles con la posicion de todos los pares de
ojos (Ple, Pre) encontrados en la base de datos de GROUPS. Los colores indican a que
cluster pertenece cada pareja de puntos de puntos.
Utilizaremos la salida suministrada por el detector de caras como unico proceso
de alineacion. Nuestro objetivo es modelar y aprender las desalineaciones producidas
por el detector de caras. Aprovecharemos y explotaremos el hecho de que GROUPS
tiene etiquetadas las coordenadas del centro de los ojos de todas sus imagenes. Para
adquirir las imagenes desde la base de datos GROUPS, configuramos el detector de
caras para obtener un numero muy bajo de falsos negativos (lo que incrementa el
numero de falsos positivos). Las detecciones erroneas fueron eliminadas posterior-
mente utilizando las etiquetas del centro de los ojos contenidas en GROUPS. Aquellas
imagenes detectadas que no contengan los puntos de los ojos fueron descartadas.
86 Dependencias entre atributos faciales
El resultado de este proceso nos deja un conjunto de 22,948 imagenes de la cara
correctamente detectadas (ver tercera y cuarta fila de la Figura 4.4): 11,932 mujeres
y 11,016 hombres.
Una vez obtenidas las caras a partir del detector, aprendemos las desalineacio-
nes de las caras clusterizando la posicion de los ojos (aproximacion similar a la idea
de Poselets [BMM11, BM09]). Para nuestra implementacion, definimos una imagen
canonica de tamano 60 × 60 pixeles. Las coordenadas reales de los ojos, obtenidas
originalmente de la base de datos GROUPS, las calculamos desde la posicion relati-
va superior izquierda de la ventana adquirida con el detector de caras para luego
transformarlas al nuevo sistema de coordenadas respecto a la imagen canonica. Para
la clusterizacion se usara un vector de caracterısticas (xle, yle, xre, yre)> donde le es
la posicion del ojo izquierdo y re es la posicion del ojo derecho en las coordenadas
transformadas sobre la imagen canonica, ver Figura 4.5. Para encontrar los clusters
se utilizo el algoritmo de K −means con un valor obtenido experimentalmente de
K = 6. En la Figura 4.6 se muestra la posicion media de los ojos sobre la imagen
canonica para cada cluster. Para este conjunto de imagenes se obtuvo una distribu-
cion balanceada de imagenes para cada muestra, ver Tabla 4.2. Como consecuencia,
el aprendizaje no se vera influido por la cantidad de datos de cada clase.
Genero/Pose 0 1 2 3 4 5
Mujeres 1359 2561 2677 1627 1599 2109
(5,92 %) (11,16 %) (11,66 %) (7,08 %) (6,96 %) (9,19 %)
Hombres 1987 2565 1713 1660 1526 1565
(8,65 %) (11,17 %) (7,46 %) (7,23 %) (6,64 %) (6,81 %)
Tabla 4.2: Numero de imagenes por genero y grupos de pose. El porcentaje sobre el
numero total de datos se muestra entre parentesis.
Si asumimos que para cualquier posicion de los ojos, U , hay igual numero de
hombres y de mujeres para algun genero, G, y la distribucion de la posicion de los
ojos es similar, asumimos implıcitamente que la posicion de los ojos y el genero son
estadısticamente independientes. Esto es, P (U,G) = P (U)P (G).
Nuevamente, para evaluar si U y G son condicionalmente independientes, dada
la apariencia facial, X, hemos entrenado un clasificador de genero como el explicado
en la seccion 4.1 con las 22,948 imagenes desde la base de datos GROUPS utilizada pa-
ra encontrar los clusters. En la primera fila de la Tabla 4.3 mostramos los resultados
del clasificador de genero entrenado con todas la imagenes y estratificado por pose.
Asimismo, entrenamos un clasificador sobre el conjunto de etiquetas generado por
4.2 Reconocimiento de genero robusto 87
Figura 4.6: Los clusters muestran las posiciones de los ojos dentro de una ventana
canonica de deteccion de caras. En la columna de la izquierda mostramos la media
de la posicion de los ojos asociada a cada cluster. En las otras columnas mostramos
una muestra de las imagenes asignadas a cada uno de los clusters.
88 Dependencias entre atributos faciales
un Powerset de atributos para genero y la posicion de los ojos, ver Tabla 4.5. En los
resultados de esta ultima aproximacion podemos observar que la estimacion de gene-
ro mejora en todas las poses. Por otro lado, es interesante destacar que en las tasas
de acierto se logran importantes incrementos, cerca de un 4 %, en los clusters donde
los cambios de apariencia son mas evidentes, y que corresponden a rotaciones de la
cara. Estos experimentos evidencian la existencia de una dependencia condicional
entre la posicion de los ojos, U , y el genero, G, dada la apariencia facial, representada
por el clasificador de variables discriminantes X (P (G,U |X) 6= P (G|X)).
Experimento/Pose 0 1 2 3 4 5 Global
Genero73,40 % 78,22 % 76,65 % 74,20 % 73,05 % 78,34 % 76,02 %
±0,77 ±0,79 ±1,89 ±1,41 ±1,62 ±0,68 ±0,38
Genero | Pose76,77 % 78,46 % 76,26 % 78,94 % 77,66 % 77,40 % 77,58 %
±1,41 ±1,31 ±1,51 ±1,27 ±0,73 ±0,89 ±1,21
Tabla 4.3: Dependencia entre el genero y la pose. Validacion cruzada 5-fold en
experimentos sobre GROUPS para seis desalineaciones del detector de caras. En cada
fila se muestran los resultados de las pruebas. En la primera fila, el clasificador de
genero se evalua usando todas las imagenes sin importar su alineacion. En la segunda
fila, el clasificador se evalua independientemente para cada grupo de desalineaciones.
Las primeras seis columnas muestran el resultado de las seis clases de desalineaciones.
La ultima columna muestra la tasa de acierto promedio de todas las desalineaciones.
Las desviaciones estandar son mostradas con el sımbolo ±.
4.3. Experimentos
En esta seccion demostraremos que explotando las dependencias del genero con
la edad y la posicion de los ojos podemos mejorar la precision de la estimacion de
genero en problemas del mundo real. Para este fin, evaluamos el rendimiento de
la estimacion de genero empleando el metodo AP en problemas de estimacion para
diferentes atributos faciales que involucran la edad y la posicion de los ojos. En todos
los experimentos, recortamos y redimensionamos las imagenes a un tamano base de
25 × 25 pixeles usando el detector de caras de Viola y Jones en la implementacion
de OpenCV2.
2http://opencv.willowgarage.com
4.3 Experimentos 89
4.3.1. Base de datos de caras
Debido a que actualmente no existe una base de datos unica con todos los atri-
butos faciales que necesitamos para esta tesis, optamos por utilizar diferentes tipos
de bases datos para resolver y estudiar los diferentes problemas:
Condiciones controladas para la estimacion de genero y edad. Para
este problema utilizamos la base de datos PAL [MP04]. Esta base de datos
contiene imagenes frontales de 576 individuos. Hay una sola cara frontal por
individuo, aunque existe el caso de tres individuos que tienen una imagen
repetida en la base de datos. Para nuestros experimentos utilizamos las 576
imagenes, 219 hombres y 357 mujeres. La edad es un atributo disponible para
cada imagen. En nuestros experimentos solo utilizamos una cara frontal por
individuo. En la Figura 4.4, en la fila 1 y 2 mostramos algunas de las caras
detectadas para los experimentos. Ver filas 1 y 2 de la Figura 4.4.
Condiciones no controladas para genero y edad. Para este problema
usamos la base de datos GROUPS [GC09]3. Esta contiene 28,231 imagenes que
fueron etiquetadas con el atributo del genero y un grupo de determinado de
edad y que fueron extraıdas de 5,800 fotografıas de grupos de personas. La
mayorıa de las caras fueron detectadas automaticamente. En GROUPS existen
siete categorıas de edad: 0 − 2, 3 − 7, 8 − 12, 13 − 19, 20 − 36, 37 − 65,
y 66+. Cada rango de edad tiene asociada una etiqueta de tipo entera que
representa el valor medio de cada grupo. GROUPS es una base de datos del
mundo real que fue adquirida en condiciones no controladas: con cambios de
iluminacion, expresiones faciales, tipos de poses u orientaciones, y una amplia
gama demografica de caras. Ver filas 3 y 4 de la Figura 4.4.
Condiciones no controladas para genero. Otra base de datos utilizada
con condiciones no controladas de adquisicion es “Labeled Faces on the Wild”
(LFW) [HRBLM07]. Esta base de datos contiene 13,233 imagenes de caras de
5,740 sujetos diferentes obtenidos desde la web. Las imagenes de caras obte-
nidas empleando el detector de caras de Viola-Jones. Proponemos LFW como
benchmark para el reconocimiento de genero4. Esta base de datos tiene una
distribucion de edad bastante limitada que se concentra mayormente en adul-
tos de mediana edad. Ademas, el genero no esta balanceado (10,256 imagenes
de hombres y 2,977 imagenes de mujeres). A pesar de ello, para los experimen-
tos, utilizamos LFW como el conjunto de prueba para validar el rendimiento
3http://chenlab.ece.cornell.edu/people/Andy/ImagesOfGroups.html4http://fipa.cs.kit.edu/downloads/LFW-gender-folds.dat
90 Dependencias entre atributos faciales
y generalizacion de nuestros clasificadores. Primero, entrenamos con la base
de datos GROUPS y luego validamos con la base de datos LFW, ambas bases
de datos tienen las mismas condiciones no controladas de adquisicion y son
obtenidas desde el “mundo real”. Ver filas 5 y 6 de la Figura 4.4.
Clasificacion de genero y pose 3D. Para el desarrollo de estos experimentos
usamos la base de datos CMU Multi-PIE [GMC+10]. Esta es una base de
datos de imagenes de caras adquiridas con diferentes iluminaciones y cambios
de pose 3D. Esta base de datos contiene 337 sujetos fotografiados bajo 15
puntos de vista diferentes y 19 condiciones de iluminacion en un maximo de
cuatro sesiones. Esta es una excelente base de datos para probar la influencia de
la pose 3D sobre los algoritmos de genero. Para los experimentos utilizaremos
todas las iluminaciones de la primera sesion de grabacion para cada sujeto.
No se utilizan expresiones faciales. En la figura 4.7 se observa un conjunto de
caras de esta base de datos despues de la deteccion para un unico individuo.
4.3.2. Estimacion de genero y edad
Para la estimacion de genero realizamos dos experimentos, uno utilizando solo
el atributo de Genero, ver Tabla 4.1, y otro que usa Powerset de atributos (AP)
Genero × Edad, ver Tabla 4.4.
Asumir que la edad es conocida antes de estimar el genero, como lo realizado en
la seccion 4.2.1, no es una suposicion realista ya que por lo general la edad no es un
atributo conocido. Es por esta razon que usamos AP (ver Seccion 4.1) con la idea
de estimar simultaneamente el genero y la edad. Nosotros tenemos dos valores para
genero y siete categorıas para edad. Como consecuencia de ello, tenemos 14 clases
para resolver un problema multi-clase con AP . Para realizar las pruebas, utilizamos
validacion cruzada 5− fold para entrenar un clasificador K-NN sobre el espacio de
caracterısticas transformado LDA. En el caso particular de la base de datos PAL, se
debe considerar que no existen imagenes de caras para gente joven dentro del rango
de edad de 0 a 12 anos. La tasa de acierto global (calculada por la media ponderada
de la tasa de acierto de cada categorıa de edad y la proporcion de datos de estas
con respecto al total de datos) a la aproximacion de AP (Genero× Edad) es mejor
a la que solo utiliza el atributo de Genero en un 3 %. Es interesante destacar, que
la aproximacion que utiliza AP supera a la que usa solo una etiqueta en todos los
rangos de edad de la Tabla 4.1. Las categorıas de edad que son mas difıciles de
discriminar para el clasificador de solo Genero son 13 − 19 y 66+, que presentaron
mejoras de un 3, 13 % y 7, 39 % respectivamente bajo la aproximacion AP . Esto
4.3 Experimentos 91
muestra que el procedimiento de AP permite explotar las dependencias de distintos
atributos y mejorar la tasa de acierto en la estimacion de genero.
Experimento/Categorıa de Edad 13-19 20-36 37-65 66+ T.Global
Genero × Edad 68,75 % 76,01 % 65,85 % 71,92 % 72,01 %
Tabla 4.4: Tasa de acierto para el AP de Genero × Edad para el experimento
GROUPS/PAL. Las primeras cuatro columnas muestran los resultados estratificados
por rango de edad. La ultima columna nuestra el promedio de los resultados para
todos los rangos de edad.
4.3.3. Clasificacion de genero no alineado
Como hemos mostrado en la Seccion 4.2.1, el Powerset de atributos puede explo-
tar las dependencias entre el genero y la posicion de los ojos permitiendo mejorar la
estimacion de genero. Hemos realizado dos grupos de experimentos: uno que solo usa
el atributo de Genero y otro que utiliza el AP sobre Genero × Alineacion. Por otra
parte, hemos organizado el entrenamiento y pruebas en dos tipos de experimentos:
Experimentos sobre una base de datos. En este caso hemos entrenado los cla-
sificadores con la base de datos GROUPS empleando el metodo de validacion
cruzada 5−fold. Los resultados representan el promedio de las tasas de acier-
to de cada fold y su desviacion estandar.
Experimentos de cruce de base de datos. En este caso se entreno un clasificador
con la base de datos GROUPS y las pruebas para la validacion del atributo del
genero se desarrollaron sobre las base de datos LFW.
En los experimentos desarrollados sobre una unica base de datos podemos obser-
var que empleando el AP logramos una mejora global del 2 % en lo que se refiere a
estimacion de genero utilizando imagenes directamente del detector de caras. En la
fila uno de la Tabla 4.5 mostramos los resultados del entrenamiento del clasificador
de genero sobre imagenes desalineadas (imagenes obtenidas directamente desde el
detector de caras). De los resultados obtenidos podemos observar que para el caso de
imagenes de caras “casi” frontales (caras no alineadas pertenecientes a los clusters :
0, 1 y 2) los resultados son mas bien modestos, entre el 1 % y 2 %. Sin embargo,
observamos una importante mejora de las tasas de acierto, entre un 3 % y 4 %, de
92 Dependencias entre atributos faciales
Experimento/Pose 0 1 2 3 4 5 T.Global
Genero×Pose75,70 % 79,92 % 77,10 % 77,73 % 77,02 % 78,90 % 77,89 %
±1,37 ±1,24 ±1,84 ±1,19 ±1,16 ±1,36 ±0,33
Tabla 4.5: Tasa de acierto de los AP para Genero×Pose con validacion cruzada 5-
fold y base de datos GROUPS. Las primeras seis columnas muestran los resultados de
genero para los seis grupos de poses obtenidos por medio de K-Means . La ultima
columna muestra el promedio de la tasa de acierto para genero. Las desviaciones
estandar se presentan mediante el sımbolo ±.
aquellos clusters donde existen grandes variaciones de la orientacion de la cara. El
resultado es que se ha logrado mejorar el reconocimiento de genero para los casos
que generalmente son mas complicados de predecir sin una alineacion previa (ya sea
automatica o manual).
GROUPS/LFW GROUPS/LFW (sin ninos)
Genero 77,95 % 78,33 %
Genero×Pose 79,11 % 79,53 %
Tabla 4.6: Experimentos de cruce de bases de datos sobre genero y pose, entrenado
sobre GROUPS y probado sobre LFW. La primera columna muestra los resultados sobre
el clasificador de genero. La segunda fila ensena los resultados utilizando un Powerset
para Genero×Pose. La tercera columna muestra los resultados cuando entrenamos
con las imagenes de GROUPS sin utilizar los rangos de edad de ninos (grupos 0-2, 3-7
y 8-12 anos).
En la misma forma, los experimentos entre base de datos muestran las capaci-
dades de generalizacion del procedimiento Powerset de atributos. Para esto, entre-
namos con la base datos GROUPS y validamos con la base de datos LFW, ya que esta
tambien posee imagenes del “mundo real” pero con un numero limitado de rangos
de edad (solo adultos). En la columna GROUPS/LFW de la Tabla 4.6, mostramos la
tasa de acierto obtenidas en las pruebas. De nuevo, el clasificador entrenado con
atributos de Genero×Pose logra mejores resultados que solo utilizando el atributo
de Genero. Esto confirma que los resultados obtenidos previamente con otras bases
de datos.
Como es bien conocido, la estimacion del genero en ninos es un problema difıcil
debido a la poca variabilidad de apariencia que existe entre un nino o una nina. Por
lo tanto, las caras de los ninos pueden ser consideradas como ruido para la ejecucion
4.3 Experimentos 93
de algoritmos para el reconocimiento del genero. En los ultimos experimentos proba-
mos nuestros clasificadores eliminando las caras de ninos. Los experimentos se han
realizado entrenando con GROUPS sin considerar los rangos de edad comprendidos
entre: 0− 2, 3− 7 y 8− 12 anos. La Tabla 4.7 muestras las mejoras obtenidas para
el reconocimiento de genero, donde se observa una clara mejora, sobre el 2 %, com-
parado con los experimentos donde se utilizo la base de datos con todas las caras.
Por otro lado, el considerar la alineacion para la clasificacion de genero mejora los
resultados de esta sobre el que utiliza solo el atributo de genero en mas del 2 %. Sin
embargo, en los experimentos de cruce de bases de datos (ver tercera columna en la
Tabla 4.6) los resultados de ambos experimentos (con y sin ninos) son equivalentes,
esto se debe a que la base de datos LFW no tiene ninos.
0 1 2 3 4 5 Global
Genero74,43 % 82,91 % 78,47 % 76,77 % 75,80 % 80,19 % 78,49 %
±2,54 ±0,93 ±2,02 ±1,68 ±1,22 ±0,63 ±0,61
Genero×Pose77,71 % 84,15 % 78,80 % 81,56 % 80,06 % 81,16 % 80,53 %
±1,23 ±1,08 ±2,27 ±0,84 ±1,75 ±1,33 ±0,63
Tabla 4.7: Tasa de acierto para genero utilizando validacion cruzada 5-fold en expe-
rimentos sobre GROUPS sin ninos con imagenes detectadas sin alinear. La primera
fila muestra los resultados para clasificacion de genero entrenado con imagenes de
todas las posiciones 2D sin alinear. La segunda fila presenta los resultados obtenidos
con Powerset con Genero×Pose. Las primeras seis columnas despliegan los resulta-
dos de las seis clases sin alinear. La ultima columna muestra el promedio de la tasa
de acierto sobre genero utilizando validacion cruzada. Las desviaciones estandar se
presentan mediante el sımbolo ±.
4.3.4. Cabeza fuera del plano de rotacion para la estimacion
de genero
En la seccion 4.2.2 analizamos las dependencias entre la pose 2-D (en el plano de
desalineacion) y el genero. En esta seccion mostraremos que el atributo de genero
y la orientacion 3-D de la cara tambien son dependientes, permitiendonos explotar
estas relaciones para una estimacion de genero mas robusta.
En nuestros experimentos utilizamos la base de datos Multi-PIE que contiene
las imagenes de 337 sujetos. Cada sujeto fue fotografiado desde 15 puntos de vista
diferentes. Seleccionamos para los experimentos 11 puntos de vista en el plano de
94 Dependencias entre atributos faciales
rotacion 3-D descartando los dos perfiles mas extremos y dos vistas tomadas sobre
la cabeza. Como primer paso, obtuvimos todas las imagenes utilizando un detector
de caras frontales y otro de perfil incluidos en las librerıas de OpenCV 5. Utilizamos
ambos detectores al mismo tiempo para simular un detector de caras multi-vista.
Despues de la deteccion, las caras son cortadas y escaladas a imagenes de 25 ×25 pixeles como en los otros experimentos. Para evaluar el clasificador agrupamos
todas las imagenes de un solo sujeto en un fold y aplicamos Leave One Person Out
(LOPO). Es decir, para el entrenamiento utilizamos todas las imagenes de todos
los sujetos menos uno que es utilizado para la etapa de pruebas, esta operacion la
realizamos por cada uno de los sujetos que se encuentran en la base de datos.
12_0 09_0 08_0 13_0 14_0 05_1
05_0 04_1 19_0 20_0 01_0
Figura 4.7: Ejemplos de caras de la base de datos Multi-PIE, con diferentes orien-
taciones, despues de la deteccion.
Como Multi-PIE tiene un numero relativamente grande de sujetos (337) para
ejecutar el procedimiento de validacion LOPO utilizamos un clasificador K-NN .
En la Tabla 4.8 mostramos la tasa de acierto utilizando solo el atributo de Genero
y Powerset de atributos que considera el Genero y la posicion 3-D de la cabeza.
El Powerset de atributos mejora el reconocimiento de genero en un 4 % para este
caso. Este resultado, junto con el resultado obtenido utilizando la pose 2-D, ver
Seccion 4.2.2, muestran claramente que es posible mejorar o hacer mas robusta la
estimacion del genero cuando se toman en cuenta las dependencias entre el genero
y otros atributos faciales.
5http://opencv.willowgarage.com
4.4 Conclusiones 95
Multi-PIE Tasa de Acierto
Genero 84,31 %
Genero×Pose 3D 88,04 %
Tabla 4.8: Experimentos para genero y pose 3D. La primera fila muestra los resul-
tados para un clasificador de genero y la segunda fila despliega los resultados para
un clasificador AP que considera los atributos Genero× 3D.
4.4. Conclusiones
En este capıtulo estudiamos el problema de reconocimiento de genero desde una
perspectiva de multiples atributos. El reconocimiento de genero en condiciones de
laboratorio (p. ej. Color FERET)6 es un problema bien conocido y cuyo estado del arte
proporciona rendimientos superiores al 90 %. Sin embargo, cuando esos algoritmos
han sido probados en escenarios reales o entornos no controlados su rendimiento
cae significativamente. Hemos encontrado que la causa es la existencia de depen-
dencias entre atributos faciales que no han sido consideradas en la construccion de
los clasificadores. En este capıtulo explotamos estas dependencias para mejorar el
rendimiento en el reconocimiento de genero.
Confirmamos los resultados previos encontrados en la literatura sobre la exis-
tencia de dependencias entre el genero y la edad. Adicionalmente, mostramos otras
dependencias relacionados con la alineacion de la cara en el plano 2-D y 3-D. Nuestra
aproximacion explora la combinacion de varias variables demograficas y demuestra
el beneficio de explotar estas para mejorar el rendimiento de un clasificador. De
igual manera, para el aprendizaje de atributos no condicionados a la demografıa,
como es el caso de la pose, logramos evitar el uso de procedimientos de alineacion
automatica de caras que en la practica tienen un costo computacional elevado y, en
ciertos escenarios, son poco robustos. En los experimentos confirmamos la existencia
de dependencias condicionales entre los atributos faciales del genero, la edad y la
pose; y evidenciamos que podemos mejorar el rendimiento de los clasificadores de
genero explotando estas relaciones.
Nuestra intencion en este trabajo es probar que al considerar las dependencias
del genero con otros atributos faciales podemos mejorar la tasa de acierto y efi-
ciencia de la estimacion del genero. Esto es especialmente util cuando utilizamos
bases de datos obtenidas en condiciones no controladas de adquisicion como es el
6http://www.nist.gov/itl/iad/ig/colorferet.cfm
96 Dependencias entre atributos faciales
caso de GROUPS. Galagger y otros [GC09] logran un 69, 6 % de tasa de acierto uti-
lizando la totalidad de las caras de GROUPS sobre un clasificador K-NN . En los
experimentos desarrollados obtenemos una tasa de acierto del 78, 49 % usando LDA
y un clasificador K-NN , el cual esta dentro del estado del arte para procedimientos
de reconocimiento de genero [BCBB11].
En los clasificadores presentados utilizamos caracterısticas simples sobre la apa-
riencia global de la cara, ya que la finalidad del capıtulo no es obtener el mejor
clasificador de genero sino mostrar como podemos mejorar el reconocimiento de
genero.
Parte III
Conclusiones
97
Capıtulo 5
Conclusiones
La presente tesis tuvo como objetivo desarrollar tecnicas de analisis de image-
nes para estimar atributos faciales como el genero, la edad y la orientacion de
la cara empleando metodos lineales. Nuestro esfuerzo se centro en el desarrollo de
modelos simples y eficientes, robustos a cambios de iluminacion, pose y condicio-
nes de adquisicion. Elementos relevantes para la implementacion de algoritmos que
funcionen en tiempo real y en dispositivos de bajo coste computacional. En esta
investigacion nuestro desafıo fue comprobar que los modelos propuestos son capaces
de funcionar en condiciones realistas de operacion con una alta tasa de acierto. No
nos preocupamos en utilizar descriptores de la cara sofisticados y, en cambio, em-
pleamos los niveles de gris por ser un descriptor sencillo de la imagen. En resumen,
nuestra principal preocupacion fue dar una oportunidad a los clasificadores lineales.
Para demostrarlo, primero desarrollamos un conjunto de experimentos orienta-
dos a medir la eficiencia y el rendimiento de los estimadores (clasificador o regresor)
utilizando metodos lineales. Hasta la publicacion de los resultados de la presente
tesis, los trabajos relacionados con la estimacion de atributos faciales por medio de
metodos lineales se habıan subestimados debido al bajo rendimiento obtenido. En
nuestros experimentos observamos que convenientemente entrenados, los estimado-
res lineales mejoran notablemente su rendimiento. Adicionalmente, encontramos que
existen dependencias entre los atributos faciales que influyen en la tasa de acierto de
los estimadores. A partir de esto, proponemos una tecnica simple para poder explo-
tar estas dependencias y mejorar su rendimiento ademas de ser robusto a cambios
de pose.
En el Capıtulo 2 analizamos que la mayorıa de los trabajos desarrollados sobre
99
100 Conclusiones
reconocimiento de genero se centraban en bases de datos adquiridas en condiciones
de laboratorio (p.eg. Color FERET). A pesar de esto, muchos de los experimentos
propuestos en la literatura no son comparables en igualdad de condiciones debido
principalmente a que los autores seleccionan o utilizan las imagenes de las bases de
datos de manera distinta. Esta condicion no permite realizar un analisis consistente
de los resultados y por lo tanto no se pueden obtener, en muchos casos, conclusiones
definitivas. Como consecuencia de esto, en el Capıtulo 2 proponemos un procedi-
miento para probar los clasificadores utilizando validacion cruzada y cruces de bases
de datos. Los resultados demuestran que los experimentos ejecutados sobre una base
de datos (validacion cruzada) son similares encontrados a la literatura. Sin embargo,
estos sufren una fuerte caıda en su tasa de acierto cuando los modelos se entrenan
sobre una base de datos y luego validados en otra. Esta disminucion se debe a que
cada base de datos tiene diferentes propiedades en cuanto a la distribucion de sus
atributos faciales etiquetados. Esto significa que podemos encontrar bases de da-
tos con grupos homogeneos en edad, expresiones, etnia, etc; y por contra de otras
bases de datos donde su distribucion es mas heterogenea. Esto nos demuestra que
existen ciertas dependencias entre los atributos faciales, y que al no considerarlas
impactan negativamente en nuestros resultados de clasificacion. Adicionalmente, de-
mostramos que el uso de modelos lineales (LDA) mas un adecuado entrenamiento
mejora considerablemente el rendimiento del clasificador. La conclusion del analisis
realizado en este capıtulo es que, si contamos con un numero suficiente de datos y
recursos computacionales, los clasificadores de genero implementados con Maquinas
de Soporte Vectorial son superiores al resto. Cuando los recursos computacionales
son escasos pero hay suficientes datos, las aproximaciones de boosting y lineales son
las adecuadas. Finalmente, si los datos de entrenamiento y recursos computacionales
son muy escasos, entonces las aproximaciones lineales son la mejor opcion.
En el Capıtulo 3 aplicamos el mismo procedimiento de validacion para la esti-
macion de edad, al igual de lo que ocurrıa en el genero. Observamos que cuando
cruzamos las bases de datos los resultados obtenidos son peores que cuando se uti-
liza una base de datos. Por otro lado, los experimentos muestran que la estimacion
de edad utilizando metodos lineales funciona mejor en ciertos rangos de edad debido
a que la mayorıa de las bases de datos probadas no tiene una distribucion similar
para los diferentes grupos de edad.
De manera semejante, en los Capıtulos 2 y 3 demostramos que es posible obtener
resultados competitivos, con respecto al estado del arte, en cuanto a la tasa de
acierto y sobre todo en terminos de eficiencia computacional utilizando Analisis
Discriminante Lineal (LDA) y buena seleccion de caracterısticas. Como consecuencia
de esto, los estimadores lineales desarrollados utilizando PCA+LDA obtienen los
101
resultados mejores y un rendimiento superior cuando los recursos computacionales
son escasos. Sin embargo, no se puede concluir si estos son robustos en condiciones
reales debido a que los experimentos demuestran que existe una fuerte caıda en su
tasa de acierto cuando se utilizan diferentes bases de datos para su entrenamiento
y prueba.
A partir del estudio anterior, proponemos una manera de aprovechar la informa-
cion contenida en los diferentes grupos de atributos faciales (genero, edad y pose de
la cara). En el Capıtulo 4 demostramos empıricamente que al utilizar la informacion
contenida en las distintas etiquetas de atributos faciales mejoramos de forma signifi-
cativa los resultados obtenidos con respecto a su tasa de acierto. Lo que confirma los
resultados previos encontrados en la literatura sobre la existencia de dependencias
entre el genero y la edad. Adicionalmente, encontramos otros tipos de dependencias
relacionados a la alineacion de la cara en el plano 2D y 3D. Hemos descubierto que
al utilizar estas dependencias entre atributos de manera lineal podemos construir
un clasificador de genero que tenga en cuenta la posicion de los ojos. De tal forma
que no hace falta alinear de manera explıcita la imagen de la cara. En resumen,
confirmamos la existencia de dependencias entre atributos faciales demograficos y
otros relacionados con la apariencia de la cara probando que es posible mejorar la
clasificacion del genero explotandolas adecuadamente.
Finalmente, de los resultados obtenidos en la tesis (Apendice C) podemos resumir
nuestra contribucion en:
Revision del estado del arte en genero y edad. Observamos que en el momen-
to de realizar esta tesis los metodos utilizados para validar los resultados eran
confusos y de difıcil comparacion. Especialmente aquellos obtenidos sobre una
unica base de datos utilizando validacion cruzada con resultados demasiados
optimistas y sesgados. Ademas, aquellos experimentos desarrollados sobre ba-
se de datos ideales (Apendice A) no pueden ser extrapoladas a aplicaciones
que funcionen en condiciones reales.
Desarrollo de una metodologıa de validacion. Como resultado de lo anterior
se formula una estrategia de validacion que considera el cruce de base de
datos. El beneficio inmediato de este procedimiento es que entrega informacion
adicional que no es posible encontrar en validaciones que utilizan una unica
base de datos. Tambien, en nuestros experimentos utilizamos dos bases de
datos que contienen imagenes capturadas en ambientes no controlados (GROUPS
y LFW). Este tipo de experimentos no eran habituales en las publicaciones
estudiadas antes de la publicacion de nuestros resultados. Posteriormente otros
102 Conclusiones
autores han adoptado el mismo esquema de evaluacion [DCGJYAC11].
Implementacion de una estimacion simple y eficiente. En los experimentos
desarrollados quisimos dar una oportunidad a los metodos basados en una
aproximacion lineal. Nuestros resultados demuestran que para cierto tipo de
problemas es posible obtener resultados comparables a los encontrados en el
estado de genero y edad. Podemos senalar que es posible construir estimadores
competitivos basados en aproximaciones lineales con un fuerte impacto en la
reduccion del costo computacional.
Uso de las dependencias de los atributos faciales. Como consecuencia de los
puntos anteriormente expuestos, fue posible detectar que existen dependencias
entre los atributos asociados a imagenes de la cara y que pueden ser utilizados
para mejorar la estimacion del genero y la edad.
Estimacion de atributos sin alineacion fuerte. A partir del uso de las depen-
dencias entre los atributos faciales, disenamos un metodo para poder entrenar
un clasificador de genero que tome en cuenta los cambios de orientacion de la
cara. Con esta simple tecnica logramos eliminar el paso de alineacion automati-
ca, y el coste computacional asociado, previo a la entrada del clasificador.
5.1. Lıneas futuras
A partir de los resultados obtenidos en el desarrollo experimental de esta tesis
identificamos las siguientes lineas de investigacion como trabajo futuro:
Aprovechar de mejor forma las dependencias de los atributos faciales.
En el Capıtulo 5 se demuestra empıricamente que existe una sustancial mejora
en la estimacion del genero cuando se consideran otros atributos faciales. Sin
embargo, la metodologıa seleccionada tiene como deficiencia que al introducir
una cantidad mayor de atributos faciales la explosion combinatorial asocia-
da a las nuevas etiquetas generadas hace que el problema sea practicamente
intratable. Por otro lado, la mayorıa las bases de datos de imagenes no cuen-
tan con las instancias necesarias para cubrir todas las instancias necesarias
asociadas a un tipo de combinacion de atributos faciales, por ejemplo, para la
combinacion Genero×Edad puede ser que no existan instancias asociadas a la
combinacion de hombres que tienen cinco anos. En la bibliografıa este termino
se denomina un problema de cobertura. En Tsoumakas [TKV10] propone un
solucion multi-label que podrıa ser extrapolada a nuestra solucion.
5.1 Lıneas futuras 103
Construir clasificadores o regresores independientes de la pose.
Una de las aplicaciones encontradas en el desarrollo de este trabajo es poder
estimar los atributos faciales de edad y genero independientes de la pose. En
el Capıtulo 5 observamos que esto es posible debido a los buenos resultados
encontrados utilizando la base de datos Multi-PIE, ver Apendice A para mas
informacion. Creemos que es posible extender esta solucion a cualquier cambio
de la pose.
Utilizar una aproximacion basada en caracterısticas locales.
En los experimentos desarrollados en la presente memoria encontramos que
la aproximacion basada en apariencia global tiene varias limitaciones con res-
pecto a los cambios de iluminacion, oclusiones y cambios bruscos en la pose.
Creemos que es posible adaptar este trabajo para utilizar aproximaciones ba-
sadas en caracterısticas locales. Existe un numero emergente de publicaciones
que estudian la forma de describir estas caracterısticas y su impacto en la me-
jora de la estimacion de atributos faciales. Nosotros esperamos que se puedan
construir estimadores lineales que utilicen como entradas estas caracterısti-
cas y que permitan obtener mejores resultados que los modelos basados en la
apariencia global estudiados en este trabajo de tesis.
Extender este estudio a base de datos realistas (no de laboratorio).
A partir del estudio del arte realizado, constatamos que el problema del genero
esta resuelto para condiciones de adquisicion de laboratorio y con imagenes
frontales. En estos ultimos anos notamos que existe un creciente esfuerzo en
extender este tipo de aplicaciones a base de datos “in the wild” principalmente
enfocadas a ambientes de trabajo reales no controlados. Este nuevo desafıo nos
lleva a buscar nuevas estrategias de desarrollo que permitan estimar atributos
faciales sobre una gran cantidad de imagenes, en tiempo real y en condiciones
de adquisicion mucho mas complicadas. Y aunque en esta tesis, Capıtulo 4,
utilizamos las bases de datos GROUPS y LFW para la validacion de nuestros
experimentos, creemos que la nueva tendencia es seguir trabajando en la cons-
truccion de estimadores de atributos robustos y rapidos en cualquier condicion
de adquisicion para el desarrollo de aplicaciones practicas y de uso en entornos
reales.
104 Conclusiones
Apendice A
Bases de datos
Uno de los principales componentes para la validacion de los modelos matemati-
cos propuestos es contar con un conjunto de imagenes y etiquetas adecuadas.
En el estudio de esta tesis hemos observado que existe una cantidad suficiente de
bases de datos para el desarrollo de experimentos en esta investigacion. Sin embargo,
su calidad y etiquetado no siempre es la mejor para desarrollar un trabajo adecuado
de validacion. Dentro de ese contexto, seleccionamos un conjunto de bases de datos
que fueron separadas en dos grupos: Uno que contiene imagenes capturadas en con-
diciones ideales o controladas llamadas base de datos ideales. Por el contrario, el otro
grupo considera imagenes sin restricciones de adquisicion las cuales denominamos
bases de datos en condiciones reales o ‘in the wild”.
A.1. Base de datos en condiciones ideales
Cuando hablamos de condiciones ideales nos referimos a aquellas imagenes de
caras que fueron capturadas condiciones ambientales controladas. Donde cada cap-
tura fue realizada considerando mınimos cambios en las condiciones de iluminacion,
de fondo (con respecto a la cara), expresiones faciales y de pose. Ademas, muchas de
estas bases de datos poseen un conjunto de imagenes de buena calidad considerando
aspectos de contraste, resolucion y ruido.
A continuacion se detallan las bases de datos que fueron utilizadas en el desarrollo
de esta tesis para el reconocimiento de genero y edad.
105
106 Bases de datos
A.1.1. Base de datos Gray FERET
Desarrollada a partir del ano 1993 hasta 1997 en el programa “Facial Recogni-
tion Technology” (FERET) [PWHR98]. Patrocinado por el Departamento de Defensa
en el Programa de Desarrollo de Tecnologıa Antidrogas a traves de la Agencia de
Proyectos de Investigacion Avanzados de Defensa (DARPA). Su objetivo era desa-
rrollar capacidades para el reconocimiento de caras que puedan ser empleadas en
seguridad, inteligencia y el resguardo de la ley. Las imagenes de la base de datos
FERET fueron tomadas con un camara color Kodak Ultra en condiciones controladas
y fueron coleccionadas en 15 sesiones entre 1993 y 1996. Lo que agrega cierto grado
de variabilidad en las condiciones de adquisicion sobre todo en las condiciones de
iluminacion. La base de datos esta compuesta de 14.051 imagenes de caras en tonos
de grises con diferentes tipos de poses.
En nuestros experimentos utilizamos un subconjunto de las imagenes Gray FERET
que fueron propuestas por Makinen y Raisamo [MR08a] para analisis de sensibilidad
giros de la cara fuera del plano de rotacion que utiliza 304 imagenes frontales de la
cara para entrenamiento y 1.008 imagenes organizada en 9 diferentes orientaciones
de +60 a −60 grados para pruebas.
Figura A.1: Seleccion de imagenes obtenidas desde la base de datos Gray FERET.
A.1.2. Base de datos Color FERET
Esta base de datos es una de las mas utilizadas para la investigacion en siste-
mas de reconocimiento facial. Fue desarrollada por el programa “Facial Recognition
A.1 Base de datos en condiciones ideales 107
Technology” (FERET) y que es administrado por la Agencia (DARPA) (Defense Ad-
vanced Research Projects Agency) y (NIST) (National Institute of Standards and
Technology). Es un recurso publico y disponible para investigacion[PMRR00].
En el ano 2003 se libera una nueva version de esta base de datos Gray FERET.
Ahora denominada Color FERET y que contiene multiple imagenes de 994 individuos.
Cada individuo fue capturado en distintas condiciones de pose y expresiones lo que
da un total de 11.338 imagenes de rostros humanos de las cuales 591 individuos son
hombres y 403 son mujeres. Las imagenes tienen una resolucion de 512×769 pixeles.
En la Figura A.2 se muestra un conjunto de imagenes de caras de la galerıa fa la
cual contiene un conjunto de imagenes de caras frontales, con expresiones neutras y
sin una pose aparente.
Figura A.2: Seleccion de imagenes obtenidas desde la base de datos color FERET
gallerıa fa.
A.1.3. Base de datos PAL
PAL es una base de datos que fue elaborada por el Productive Aging Laboratory
de la Universidad de Texas en Dallas[MP04]. El conjunto de imagenes esta formado
por 576 individuos los cuales se dividen en 219 hombres y 357 mujeres. Cada indi-
viduo fue etiquetado con su genero, edad, etnia y expresion facial. Las etiquedas de
edad varıan entre los 18 y 93 anos. En el caso de la etnia las etiquetas identificadas
son Caucasicos, Afro-Americano, Latinos y Asiaticos. Tambien se agregan algunas
expresiones faciales como alegrıa, tristeza, asco, entre otras. Actualmente, se han
agregado caras de perfil.
108 Bases de datos
Las imagenes fueron tomadas con una camara digital Kodac DC 3400 de 2.3
megapixels, utilizando flash y una resolucion de 1760 × 1168. Las imagenes adqui-
ridas fueron editadas para una mayor uniformidad puesto que fueron adquiridas en
condiciones ambientales diferentes. Las imagenes finales son de 640 × 480 pixeles.
La Figura A.3 muestra algunas imagenes pertenecientes a la base de datos PAL.
Figura A.3: Imagenes obtenidas desde la base de datos color PAL con diferentes
expresiones faciales, poses, etnias y genero.
A.1.4. Bade de datos MULTI-PIE
La base de datos Multi-PIE [GMC+10], creada por los investigadores de la Car-
negie Mellon University. Contiene imagenes de caras adquiridas en diferentes con-
diciones de iluminacion, pose y expresion facial. Las imagenes corresponden a 337
individuos (235 hombres y 102 mujeres) que fueron tomadas en cuatro sesiones en
un perıodo de 6 meses con un total de imagenes es de 755.370. La base de datos
comprende diferentes grupos etnicos (60 % europeos-americanos, 35 % asiaticos, 3 %
africanos y 2 % otros) y su edad promedio es de 27, 9 anos. Cada individuo fue fo-
tografiado utilizando 15 camaras de manera simultanea aplicando 19 cambios de
iluminacion. 13 camaras fueron colocadas a la altura de la cabeza con una variacion
de 15 grados entre ellas. Adicionalmente, se instalo dos camaras sobre la altura de
la cabeza tal como se muestra en la Figura A.4 y Figura A.5.
A.2. Base de datos en condiciones semi-reales
Este es un caso intermedio en la adquision de imagenes. Aquı las imagenes son
capturadas sin considerar equipos especıficos de adquision (no se consideran aspectos
A.2 Base de datos en condiciones semi-reales 109
Figura A.4: La imagen muestra la posicion de cada una de las camaras. (Fuente:
http://www.multipie.org/)
Figura A.5: Las imagenes muestran las vistas obtenidas de las 15 camaras capturas
con iluminacion frontal. (Fuente: http://www.multipie.org/)
110 Bases de datos
de calidad de la imagen, ruido, etc.) pero las condiciones ambientales son controladas:
un edificio o un habitacion sin cambios bruscos de fondo o iluminacion.
A.2.1. Base de datos UCN
La base de datos UCN es un conjunto de imagenes no publicas obtenidas en la
Universidad Catolica del Norte (Chile) de alumnos y academicos (uno por individio).
Las imagenes fueron adquiridas con diferentes dispositivos (camaras web, camaras
digitales, etc), bajo diferentes resoluciones, condiciones de iluminacion y las caras
no estan estrictamente de frente. La base de datos contiene 10.700 individuos, 5.628
hombres y 5.054 mujeres.
En nuestros experimentos utilizamos las imagenes de 5.628 hombres y 5.041
mujeres ya que el detector utilizado perdio algunas de ellas al preparar los datos.
Figura A.6: Imagenes obtenidas de la base de datos UCN.
A.2.2. Base de datos MORPH-II
MORPH-II (Craniofacial Longitudinal Morphological Face Database), es la base
de datos de imagenes de caras mas grande a disposicion del publico [RT06]. Esta
cuenta con tres series de imagenes dos para el uso comercial (Album 1 y 2) y un
subconjunto compuesta por imagenes del Album 2 disponible para invesgacion que
denominamos MORPH-II. Las tres series de imagenes incluyen como metadata: raza,
genero, fecha de nacimiento y fecha de adquision de la imagen. La base de datos
se compone de 55.124 imagenes en color de mas de 13.000 personas, con diferentes
resoluciones de 200×240 o 400×480 pixeles, tomadas entre los anos 2003 y 2007. El
A.3 Base de datos en condiciones reales 111
rango de edad varıa desde los 16 a 77 anos. El promedio de imagenes por individuo
es de 4 y el tiempo medio entre cada foto es de 164 dıas. Los individos tienen una
distribucion de genero de 46.645 imagenes de hombres (84, 60 %) y 8.489 imagenes
de mujeres (15,40 %) y la etnia esta compuesta de un 80 % de afro-americanos (el
resto correponde a caucasicos, asiaticos, hispanos y otros). La Figura A.7 muestra
algunas imagenes de la base de datos.
Figura A.7: Imagenes obtenidas de la base de datos MORPH-II.
A.3. Base de datos en condiciones reales
Existe un grupo muy interesante de bases de datos de imagenes de caras que
consideran la captura de estas en condiciones ambientales no controladas. General-
mente estas imagenes son coleccionadas directamente desde Internet o de ambientes
cotidianos como camaras publicas, fotos de fiestas, de viajes, etc. Estas imagenes
muestran grandes cambios de iluminacion, pose, escala, expresiones, oclusiones, rui-
do, entre otras variables. Hoy en dıa, existe un gran interes en estudiar este tipo de
base de datos ya que sus resultados permiten enfrentar los modelos de analisis facial
a entornos mas cercanos al mundo real.
112 Bases de datos
A.3.1. Base de datos FG-NET
La base de datos de edad “The Face and Gesture Recognition Research Net-
work” (FG-NET) contiene las imagenes de 82 individuos. Cada individuo tiene en
promedio 12 imagenes en diferentes edades que fluctuan entre 0 a 69 anos. Cada
cara fue anotada manualmente con 68 puntos de referencia (landmark points). Adi-
cionalmente, existe un archivo por cada imagen que contiene el tipo, la calidad,
tamano e informacion adicional sobre la edad, el genero, las gafas, sombrero, bigote,
barba y pose. Esta base de datos no tiene una buena distribucion de las edades y
sobre todo en imagenes de individuos mayores a los 40 anos.
Figura A.8: Imagenes obtenidas desde la base de datos FG-NET. Las imagenes son
capturadas en diferentes condiciones ambientales y de adquisicion. Por cada indivi-
duo se almacenan un grupo de imagenes de diferentes edades.
A.3.2. Base de datos GROUPS
La base de datos de caras GROUPS [GC09] consiste de 28231 imagenes de caras.
Las cuales fueron extraıdas de 5800 imagenes de grupos de personas, etiquetadas con
genero, una categorıa de edad (0-2, 3-7, 8-12, 13-19, 20-36, 73-65, y 66+). Muchas
de las imagenes de caras son de baja resolucion, donde la media de la distancia
interpupilar (considerando el centro del ojo) es de 18.5 pixeles y el 25 % de las
imagenes no superan los 12.5 % de estas medidas. La Figura A.10 muestra algunas
imagenes que fueron obtenidas desde la base de datos.
A.3 Base de datos en condiciones reales 113
Figura A.9: Imagenes obtenidas desde la base de datos color GROUPS. Las imagenes
muestran que las condiciones de adquisicion son diferentes para cada imagen.
A.3.3. Base de datos LFW
La base de datos “Labeled Faces in the Wild” tiene 13.233 imagenes de caras de
5.749 individuos (4.263 hombres y 1.486 mujeres). Cada imagen tiene una resolucion
de 250 × 250 pixeles y fueron obtenidas desde la Web [HRBLM07] utilizando el
detector de caras propuesto por Viola y Jones [VJ04]. 1.680 personas tienen dos
imagenes y el resto tienen una imagen. La mayorıa de las imagenes estan en color.
La distribucion de edades se centra en adultos de mediana edad. Las imagenes estan
divididas en 10.256 hombres (77, 50 %) y 2.977 mujeres(22, 50 %).
Figura A.10: Imagenes obtenidas desde la base de datos LFW. Las imagenes corres-
ponden a diferentes personajes publicos obtenidos desde la Web.
Apendice B
Caracterısticas visuales para caras
Una imagen es una representacion grafica del mundo que nos rodea y esta co-
dificada digitalmente en unidades mınimas llamadas pixeles. Los valores contenidos
en los pixeles contienen suficiente informacion para almacenar sus caracterısticas
inherentes y que son relevantes para su posterior analisis. Sin embargo, para po-
der automatizar este proceso es necesario contar con una representacion adecuada
que permita extraer la informacion relevante e ignorar la menos significativa. La
representacion de las caracterısticas visuales en una imagen son resueltas utilizan-
do descriptores visuales mediante calculos matematicos que capturan propiedades
elementales como la forma, el color, la textura o el movimiento, entre otros. Selec-
cionar un buen descriptor visual es clave para cualquier procesamiento y analisis
de la imagen. En general, un buen descriptor visual debe cumplir con las siguientes
propiedades [TM08]: 1) repetibilidad: Dada dos imagenes de la misma escena u
objeto obtenidas bajo diferentes condiciones, un alto porcentaje de caracterısticas
visuales calculadas deben ser encontradas en ambas; 2) diferenciabilidad: Las ca-
racterısticas detectadas deben tener un alto grado de variabilidad con respecto a
otras imagenes para poder distinguirlas y compararlas; 3) Locales: Las caracterısti-
cas deben ser locales para reducir la probabilidad de oclusiones; 4) Cantidad: La
cantidad de caracterısticas detectadas debe ser suficientemente grande, de mane-
ra que un numero razonable de caracterısticas son detectadas incluso en objetos
pequenos; 5) Precision: Las caracterısticas detectadas deben ser localizadas con
precision, tanto en ubicacion de la imagen, como con respecto a su escala y forma;
6) Eficiencia: La deteccion y representacion de las caracterısticas en nueva imagen
se deberıa calcular en aplicaciones de tiempo crıtico.
115
116 Caracterısticas visuales para caras
B.1. Descriptores Globales
Resumen todo el contenido de una imagen en un unico vector o matriz de ca-
racterısticas. Su ventaja radica en representar una gran cantidad de datos en una
pequena cantidad de informacion util. Son ampliamente utilizadas por su bajo coste
computacional. Su principal desventaja, sensible a oclusiones y cambios de fondo.
B.1.1. PCA
Analisis de Componentes Principales (PCA), es una tecnica que permite reducir
las dimensiones del vector del espacio de caracterısticas inicial a uno que conserva
la mayor cantidad de informacion posible. Es un metodo no supervisado, es decir
solo utiliza la informacion de las observaciones para su calculo y no la de sus etique-
tas, para la extraccion de caracterısticas y fue desarrollado por Pearson [Pea01]. El
metodo es una transformacion lineal de los datos que mantiene la mayor informacion
posible bajo un criterio de reconstruccion Euclıdeo, ver Figura B.1.
Sea W la matriz que representa la transformacion lineal que mapea desde el es-
pacio d−dimensional original a un subespacio f−dimensional donde normalmente
f � d. Los nuevos vectores de caracterısticas yi = <f se definen por yi = W>xi,
i = 1, . . . , N . Las columnas de la matriz W son los vectores propios ei obtenidos
mediante la descomposicion de los valores y vectores propios de λiei = Qei, donde
Q = XX> es la matriz de covarianza y λi el valor propio asociado al vector propio
ei.
Una de las primeras aplicaciones PCA para clasificacion de caras fue realizado
por Kirby [KS90] y mas tarde, Turk y Pentland [TP91] desarrollaron la nocion de
eigenfaces para la clasificacion utilizando PCA. Hoy en dıa PCA es utilizado en
un sin numero de aplicaciones para la clasificacion y analisis de atributos faciales.
En el Capıtulo 2 utilizamos este concepto para mejorar la clasificacion de atributos
faciales como el genero.
B.1.2. ICA
El Analisis de Componente Independiente (ICA) es un metodo lineal de extrac-
cion de caracterısticas no supervisado que encuentra nuevas caracterısticas maximi-
B.1 Descriptores Globales 117
zando la independencia estadıstica de los componentes estimados [HO00]. La tecnica
ICA es especialmente apropiada para la reduccion de redundancia ya que asume que
la senal fuente esta compuesta por un conjunto de senales independientes, ver Fi-
gura B.1. El calculo de la matriz de transformacion se puede resolver utilizando
una aproximacion de maxima verosimilitud, maximizando la no gausianidad de los
componentes independientes [Hyv99] o minimizando su informacion mutua [Com94].
Figura B.1: Representacion grafica de los nuevos ejes generados por PCA e ICA.
(Fuente: http://meg.aalip.jp/ICA/)
B.1.3. LDA
El Analisis Discriminante Lineal (LDA) [Fis36, Fuk90] es probablemente la tecni-
ca supervisada de extraccion mas conocida para la extraccion de caracterısticas pa-
ra problemas de clasificacion de caras, entre otras muchas aplicaciones. Este es un
metodo lineal y busca maximizar la separabilidad entre-clases, SB, y minimizar la
dispersion intra-clase, SB.
Segun Webb [Web02] las caracterısticas del metodo son:
1. Se produce una transformacion a un subespacio de a lo sumo C−1 dimensiones,
donde C es el numero de clases.
2. La transformacion es libre de la distribucion de los datos de entrada.
3. Los ejes del sistema de coordenadas transformado pueden ser ordenados en
terminos de su “importancia de discriminacion”.
118 Caracterısticas visuales para caras
4. La discriminacion puede ser realizada sobre el nuevo subespacio utilizando
cualquier tipo de clasificador.
5. El analisis de discriminante lineal se puede utilizar para post-procesos mas
complejos, clasificadores no lineales.
B.2. Descriptores Locales
Se calculan sobre regiones de interes previamente calculadas e identificadas. Por
cada region se obtiene un vector que la describe y toma en cuenta la informacion de
los pixeles vecinos.
B.2.1. Bancos de filtros de Gabor
El filtro de Gabor, propuesto por Gabor [Gab46], se define como el producto de
una exponencial compleja por una funcion gaussiana. Son filtros que tienen como
principal caracterıstica que, al introducir el envolvente gaussiano, se localizan tanto
en el dominio espacial como en el de la frecuencia. Daugman [Dau85] extiende el
original filtro de Gabor a una representacion de 2 dimensiones.
El filtro de Gabor es una onda tıpica y se puede utilizar para extraer informa-
cion local de la region de imagen tanto en el dominio espacial y de frecuencia, en
contraposicion a las tecnicas globales como la transformada de Fourier que extrae
caracterıstica que representa las propiedades de toda la imagen. Para el analisis de la
textura y la segmentacion la imagen se descompone en un conjunto de canal espacial
de frecuencias de banda estrecha por un banco de filtros de Gabor cuyas respuestas
son analizadas, ver Figura B.2.
B.2.2. Haar-Like
Hasta finales de los noventa muchos de los descriptores utilizados en vision por
computador se basaron en utilizar todos los valores de la imagen. El calculo es-
tas caracterısticas era costoso en terminos computacionales y no ofrecıa, en la ma-
yorıa de los casos, una representacion adecuada de la imagen. En el trabajo Michael
Oren [OPSO97] se propuso un nuevo conjunto de caracterısticas basadas en los Haar
B.2 Descriptores Locales 119
Figura B.2: Ejemplos de diferentes filtros de Gabor aplicados a tres tipos de imagenes
diferentes. (Fuente: http://scikit-image.org/docs/dev/auto_examples/plot_
gabor.html#example-plot-gabor-py)
120 Caracterısticas visuales para caras
Wavelet. Esta nueva forma de presentar una imagen ofrecıa como ventaja una simple
y economica forma de describir la estas por medio de la diferencia de intensidades
encerradas entre rectangulos, similares a las formas definidas por los Haar Wave-
lets, ver Figura B.3. Para cada imagen se aplican una serie de funciones (filtros) que
implementan diferentes caracterısticas Haar. Esto permite que se pueda detectar la
estructura de los objetos aunque cambie su apariencia por diferentes factores (pose,
iluminacion, textura, etc).
Una caracterıstica Haar se calcula sobre un trozo de la imagen, de tamano y
orientacion variable. Esta se divide en regiones rectangulares y se definen en zonas de
tipo positiva y negativa. En la Figura B.3(b) observamos tres tipos de caracterısticas
Haar, cada una define una region negativa (color gris) y una region positiva (color
blanco). Para calcular la caracterıstica Haar para un punto particular se utiliza la
siguiente ecuacion:
H =∑
(x,y) ∈ rb
I(x, y)−∑
(x,y) ∈ rg
I(x, y) (B.1)
donde rb es el conjunto de pixeles que pertenecen a la region blanca y rg es el
conjunto de pixeles que pertenecen a la region gris. H es la caracterıstica calculada
para un filtro Haar.
Figura B.3: Haar Wavelet : a) Representa la funcion Haar Wavelet b) Representa
tres tipos de Haar wavelets no estandares: vertical, horizontal y diagonal [PP00].
Este metodo de extraccion de caracterısticas ha sido ampliamente utilizado en
B.2 Descriptores Locales 121
un sin numero de aplicaciones de vision por computador. Entre las publicaciones
mas destacadas en el uso de estas caracterısticas se encuentra el detector de caras
desarrollado por Paul Viola [VJ01] donde extienden las caracterısticas Haar-like y
proponen un algoritmo de clasificacion. Un ano mas tarde, Rainer Lienhart [LM02]
propone un nuevo conjunto de caracterısticas Haar-like rotadas.
B.2.3. LBP
LBP es un simple descriptor de textura propuesto por [OPH96]. El operador
se basa en representar cada pixel de una imagen como una codificacion binaria a
partir de la informacion de sus pixeles vecinos, ver Figura B.4. En su version inicial,
la tecnica se realiza analizando una zona de 3 × 3 pixeles, donde el valor del pixel
central es utilizado como referencia y se compara con cada uno de sus vecinos. Si
el valor del pixel central es menor o igual a su vecino, este ultimo es etiquetado
con valor 1, en caso contrario se etiqueta con valor 0. Como resultado se obtiene
un vector binario de 8 dimensiones. Este proceso se realiza sobre toda los pixeles de
la imagen. Por cada pixel se obtiene una representacion decimal y se utiliza para
construir un histograma que se utiliza como descriptor, ver Figura B.5.
Figura B.4: Calculo del descriptor LBP en la version propuesta en [OPH96].
Una descripcion formal de LBP es dada por:
LBP (xc, yc) =
p−1∑n=0
2n(in − ic), (B.2)
Con (xc, yc) es el pixel central con valor de intensidad ic e in los valores de
intensidad de los pixeles vecinos, s se define como la funcion:
f(n) =
{1 if ≥ 0
0 else(B.3)
122 Caracterısticas visuales para caras
Figura B.5: Calculo del descriptor LBP [MRH07].
Existen versiones mas recientes para el calculo de los descriptores que utilizan
diferentes radios de vecinos y patrones uniformes que mejoran las heurısticas de
codificacion del vector binario [OPM02].
B.2.4. SIFT
Scale Invariant Feature Transform (SIFT) es un detector y descriptor disenado
por Lowe [Low04]. El algoritmo permite transformar la imagen a una representacion
compuesta de puntos de interes invariantes a la escala de la imagen y a la rotacion.
Ademas provee de descriptores robustos para emparejamiento, admitiendo substan-
ciales rangos de distorsion afın, cambios de perspectiva, adicion de ruido y cambios
de iluminacion.
Para cada descriptor obtenido con SIFT, todos los gradientes ponderados se nor-
malizan a la orientacion principal de la region circular. La region circular alrededor
del punto de interes es dividido en regiones de 4x4 pixeles sin sobreponerse y el gra-
diente de histograma y se calculan los histogramas orientaciones gradiente dentro
de estas regiones. El suavizado del histograma se realiza con el fin de evitar cambios
repentinos de la orientacion y el tamano del contenedor se reduce a 8 con el fin de
limitar el tamano del descriptor. Esto se traduce en un vector de caracterısticas de
128 dimensiones (4x4x8) para cada punto de interes. En la Figura B.6 se ilustra
el procedimiento descrito para una ventana de 2x2 en vez de 4x4, por lo que el
histograma obtenido tiene solo 32 dimensiones.
B.2 Descriptores Locales 123
Figura B.6: Diagrama que muestra como se obtiene un descrip-
tor SIFT. (Fuente: https://gilscvblog.wordpress.com/2013/08/18/
a-short-introduction-to-descriptors/)
B.2.5. HOG
El metodo Histograma de Gradiente Orientado (HOG), que se hereda de la
Transformacion de Caracterısticas Invariables a la Escala (SIFT), se aplica para
la deteccion humana. La idea basica de HOG se basa en que la observacion en la
apariencia local del objeto y la forma pueden a menudo caracterizarse bastante bien
por la distribucion de los gradientes de intensidad locales o direcciones de bordes.
Las caracterısticas de HOG se derivan en base a una serie de locales orientacio-
nes de histogramas de gradiente de la imagen bien normalizados en una densa red.
En particular, la imagen se divide en primer lugar en celdas pequenas. Para cada
celda, un histograma local del gradiente, direcciones u orientaciones de borde, se
acumula sobre los pıxeles de la celda. Todos los histogramas dentro de las celdas de
un bloque se normalizan para reducir el efecto de la variacion de iluminacion. Los
bloques se pueden superponer entre sı para mejorar el rendimiento. Las caracterısti-
cas finales del HOG se forman mediante la concatenacion de todos los histogramas
normalizados en un unico vector, ver Figura B.7.
124 Caracterısticas visuales para caras
Figura B.7: Diagrama de bloque que muestra como calcular un descriptor basado
en HoG [KKN12].
Apendice C
Resultados de la tesis
C.1. Publicaciones Indexadas
Robust gender recognition by exploiting facial attributes dependencies. Juan
Bekios-Calfa, Jose Miguel Buenaposada, Luis Baumela. Pattern Recognition
Letters 36: 228-234 (2014).
Class-Conditional Probabilistic Principal Component Analysis: Application to
Gender Recognition. Juan Bekios-Calfa, Jose Miguel Buenaposada, Luis Bau-
mela. Computacion y Sistemas 14(4) (2011)
Revisiting Linear Discriminant Techniques in Gender Recognition. Juan Bekios-
Calfa, Jose Miguel Buenaposada, Luis Baumela. IEEE Trans. Pattern Anal.
Mach. Intell. 33(4): 858-864 (2011)
C.2. Congresos Indexados
Alignment-Free Gender Recognition in the Wild. Juan Bekios-Calfa, Jose Mi-
guel Buenaposada, Luis Baumela. Pattern Recognition and Image Analysis -
6th Iberian Conference, IbPRIA 2013, Funchal, Madeira, Portugal, June 5-7,
2013.
On the Importance of Multi-dimensional Information in Gender Estimation
from Face Images. Juan Bekios-Calfa, Jose Miguel Buenaposada, Luis Bau-
mela. Progress in Pattern Recognition, Image Analysis, Computer Vision, and
125
126 Resultados de la tesis
Applications - 16th Iberoamerican Congress, CIARP 2011, Pucon, Chile, No-
vember 15-18, 2011.
Age Regression from Soft Aligned Face Images Using Low Computational Re-
sources. Juan Bekios-Calfa, Jose Miguel Buenaposada, Luis Baumela. Pattern
Recognition and Image Analysis - 5th Iberian Conference, IbPRIA 2011, Las
Palmas de Gran Canaria, Spain, June 8-10, 2011.
Apperance-Based Tracking and Face Identification in Video Sequences. Jose Mi-
guel Buenaposada, Juan Bekios, Luis Baumela. Articulated Motion and De-
formable Objects, 5th International Conference, AMDO 2008, Port dAndratx,
Mallorca, Spain, July 9-11, 2008.
C.3. Patente
Referencia: P201030025. Dispositivo y procedimiento automatico para estable-
cer el sexo al que pertenecen los rostros que aparecen en imagenes.
Bibliografıa
[AC09] A.A. Freitas A. Carvalho. A tutorial on multi-label classification
techniques. Foundations of Computational Intelligence Volume 5:
Function Approximation and Classification. Springer, 2009.
[ad] Redpepper ad. FACEDEALS Get personalized deals. http:
//redpepperland.com/lab/details/check-in-with-your-face.
[Online; accessed 02-September-2014].
[AW09] Haizhou Ai and Gao Wei. Face gender classification on consumer
images in a multiethnic environment. In Advances in Biometrics.
Springer, 2009.
[ax314] ax3battery. Touch screen vending machines?! http://ax3battery.
com/2013/04/15/touch-screen-vending-machines-2/, April
2014. [Online; accessed 02-September-2014].
[BCBB11] Juan Bekios-Calfa, Jose M. Buenaposada, and Luis Baumela. Re-
visiting linear discriminant techniques in gender recognition. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 33(in
press), 2011.
[BCBB14] Juan Bekios-Calfa, Jose M. Buenaposada, and Luis Baumela. Ro-
bust gender recognition by exploiting facial attributes dependencies.
Pattern Recognition Letters, 36:228 – 234, 2014.
[BDTB05] Boris Babenko, Piotr Dollar, Zhuowen Tu, and Serge Belongie. Si-
multaneous Learning and Alignment: Multi-Instance and Multi-Pose
Learning. In ECCV Workshop on Faces in Real-Life Images: De-
tection, Alignment, and Recognition, 2005.
[BDTB08] B. Babenko, P. Dollar, Z. Tu, and S. Belongie. Simultaneous learning
and alignment: Multi-instance and multi-pose learning. In Faces in
Real-Life Images, October 2008.
127
[BHK97] P.N. Belhumeur, J.P. Hespanha, and D.J. Kriegman. Eigenfaces
vs. fisherfaces: Recognition using class specific linear projection.
IEEE Transactions on Pattern Analysis and Machine Intelligence,
19(7):711–720, July 1997.
[Blu11] A.G. Bluman. Elementary Statistics: A Step by Step Approach.
McGraw-Hill Education, 2011.
[BM09] Lubomir D. Bourdev and Jitendra Malik. Poselets: Body part de-
tectors trained using 3d human pose annotations. In ICCV, pages
1365–1372, 2009.
[BMM11] Lubomir Bourdev, Subhransu Maji, and Jitendra Malik. Describing
people: A poselet-based approach to attribute classification. In Pro-
ceedings of the 2011 International Conference on Computer Vision,
ICCV ’11, pages 1543–1550, Washington, DC, USA, 2011. IEEE
Computer Society.
[BR07] Shumeet Baluja and Henry A. Rowley. Boosting sex identification
performance. International Journal of Computer Vision, 71(1), Ja-
nuary 2007.
[BZS09] Ni Bingbing, Song Zheng, and Yan Shuicheng. Web image mining
towards universal age estimation. In Proc. of ACM International
Conference on Multimedia, October 2009.
[CET01] Timothy F. Cootes, Gareth J. Edwards, and Christopher J. Tay-
lor. Active appearance models. IEEE Trans. Pattern Anal. Mach.
Intell., 23(6):681–685, June 2001.
[Cla06] Kenneth L. Clarkson. Nearest-neighbor searching and metric space
dimensions. In Gregory Shakhnarovich, Trevor Darrell, and Piotr
Indyk, editors, Nearest-Neighbor Methods for Learning and Vision:
Theory and Practice, pages 15–59. MIT Press, 2006.
[Com94] Pierre Comon. Independent component analysis, a new concept?
Signal Processing, 36(3):287 – 314, 1994. Higher Order Statistics.
[CSLNRB13] Modesto Castrillon-Santana, Javier Lorenzo-Navarro, and Enrique
Ramon-Balmaseda. Improving gender classification accuracy in the
wild. In Jose Ruiz-Shulcloper and Gabriella Sanniti di Baja, editors,
Progress in Pattern Recognition, Image Analysis, Computer Vision,
and Applications, volume 8259 of Lecture Notes in Computer Scien-
ce, pages 270–277. Springer Berlin Heidelberg, 2013.
128
[CV95] Corinna Cortes and Vladimir Vapnik. Support-vector networks. Ma-
chine Learning, 20(3):273–297, 1995.
[Dau85] J. G. Daugman. Uncertainty relation for resolution in space, spa-
tial frequency, and orientation optimized by two-dimensional visual
cortical filters. Journal of the Optical Society of America A: Optics,
Image Science, and Vision, 2(7):1160–1169, 1985.
[DCGJYAC11] P. Dago-Casas, D. Gonzalez-Jimenez, Long Long Yu, and J.L. Alba-
Castro. Single- and cross- database benchmarks for gender classifica-
tion under unconstrained settings. In Computer Vision Workshops
(ICCV Workshops), 2011 IEEE International Conference on, pages
2152–2159, Nov 2011.
[DGFG12] M. Dantone, J. Gall, G. Fanelli, and L. Van Gool. Real-time facial
feature detection using conditional regression forests. In CVPR,
2012.
[DGSA+10] David Delgado-Gomez, Federico Sukno, David Aguado, Carlos San-
tacruz, and Antonio Artes-Rodriguez. Individual identification using
personality traits. Journal of Network and Computer Applications,
33(3):293 – 299, 2010. Recent Advances and Future Directions in
Biometrics Personal Identification.
[DPCG12] Kun Duan, Devi Parikh, David J. Crandall, and Kristen Grauman.
Discovering localized attributes for fine-grained recognition. In 2012
IEEE Conference on Computer Vision and Pattern Recognition,
Providence, RI, USA, June 16-21, 2012, pages 3474–3481, 2012.
[EG99] John P. Eakins and Margaret E. Graham. Content-based Image Re-
trieval: A report to the JISC Technology Applications Programme.
Technical report, Institute for Image Data Research, University of
Northumbria at Newcastle, 1999.
[EHSH93] Paul Ekman, Thomas J. Huang, Terrence J. Sejnowski, and Jo-
seph C. Hager. Final Report to NSF of the Planning Workshop
on Facial Expression Understanding. Technical report, University
of California, San Francisco, CA 94143, 03 1993.
[Fac] Face++. Faceplusplus face detection. http://www.faceplusplus.
com/. [Online; accessed 02-September-2014].
[FEHF09] A. Farhadi, I. Endres, D. Hoiem, and D. Forsyth. Describing objects
by their attributes. In Computer Vision and Pattern Recognition,
129
2009. CVPR 2009. IEEE Conference on, pages 1778–1785, June
2009.
[Fis36] R. A. Fisher. The use of multiple measurements in taxonomic pro-
blems. Annals of Eugenics, 7(7):179–188, 1936.
[FSA99] Yoav Freund, Robert Schapire, and N Abe. A short introduction
to boosting. Journal-Japanese Society For Artificial Intelligence,
14(771-780):1612, 1999.
[Fuk90] Keinosuke Fukunaga. Introduction to statistical pattern recognition.
Academic Press, 1990.
[Gab46] Dennis Gabor. Theory of communication. J. Inst. Elect. Eng.,
93:429–457, 1946.
[GC09] Andrew C. Gallagher and Tsuhan Chen. Understanding images of
groups of people. In Proc. of CVPR, pages 256–263, 2009.
[GDFH09] Guodong Guo, Charles R. Dyer, Yun Fu, and Thomas S. Huang. Is
gender recognition affected by age? In Proc. of IEEE International
Workshop on Human-Computer Interaction (HCI’09), pages 2032–
2039, 2009.
[GLS90] B. A. Golomb, D. T. Lawrence, and T. J. Sejnowski. Sexnet: A
neural network identifies sex from human faces. In Advances in
Neural Information Processing Systems, pages 572–577, 1990.
[GM10] Guodong Guo and Guowang Mu. A study of large-scale ethnicity
estimation with gender and age variations. In IEEE Int. Workshop
on Analysis and Modeling of Faces and Gestures (AMFG’10), pages
79–86, 2010.
[GMC+10] Ralph Gross, Iain Matthews, Jeffrey Cohn, Takeo Kanade, and Si-
mon Baker. Multi-pie. Image Vision Comput., 28(5):807–813, May
2010.
[GMF+09] Guodong Guo, Guowang Mu, Yun Fuo, Charles Dyer, and Thomas
Huang. A study on automatic age estimation using a large database.
In Proc. of ICCV, pages 1986–1991. IEEE, 2009.
[GMFH09] Guodong Guo, Guowang Mu, Yung Fu, and Thomas S. Huang. Hu-
man age estimation using bio-inspired features. In Proc. of CVPR,
pages 112–119, 2009.
130
[HMP14] Andrew Harrison, Brian Mennecke, and Anicia Peters. Marketing
avatars revisited: A commentary on facial recognition and embodied
representations in consumer profiling. Business Horizons, 57(1):21
– 26, 2014.
[HO00] A. Hyvarinen and E. Oja. Independent component analysis: Algo-
rithms and applications. Neural Netw., 13(4-5):411–430, May 2000.
[HRBLM07] Gary B. Huang, Manu Ramesh, Tamara Berg, and Erik Learned-
Miller. Labeled faces in the wild: A database for studying face
recognition in unconstrained environments. Technical Report 07-
49, University of Massachusetts, Amherst, October 2007.
[HTF09] Trevor Hastie, Robert Tibshirani, and Jerome Friedman. The ele-
ments of statistical learning: data mining, inference and prediction.
Springer series in statistics. Springer, February 2009.
[Hyv99] Aapo Hyvarinen. Survey on independent component analysis, 1999.
[imr] imrsv. CARA Emotion Measurement. https://imrsv.com/. [On-
line; accessed 02-September-2014].
[JBT10] Amirhossein Jahanbekam, Cristian Bauckhage, and Christian Thu-
rau. Age recognition in the wild. In Proc. of ICPR, pages 392–395.
IEEE, 2010.
[JDM00] A.K. Jain, R.P.W. Duin, and Jianchang Mao. Statistical pattern
recognition: a review. Pattern Analysis and Machine Intelligence,
IEEE Transactions on, 22(1):4–37, Jan 2000.
[JH04] Amit Jain and Jeffrey Huang. Integrating independent components
and linear discriminant analysis for gender classification. In Proc.
of International Conference on Automatic Face and Gesture Recog-
nition, pages 159–163, 2004.
[JW98] R.A. Johnson and D.W. Wichern. Applied Multivariate Statistical
Analysis. Prentice-Hall, 1998.
[KBBN09] N. Kumar, A. C. Berg, P. N. Belhumeur, and S. K. Nayar. Attribute
and Simile Classifiers for Face Verification. In Proc. of ICCV, Oct
2009.
[KCF14] Karel Kleisner, Veronika Chvatalova, and Jaroslav Flegr. Perceived
intelligence is associated with measured intelligence in men but not
women. PLoS ONE, 9(3):e81237, 03 2014.
131
[KKN12] ByoungChul Ko, Joon-Young Kwak, and Jae-Yeal Nam. Wildfire
smoke detection using temporospatial features and random forest
classifiers. Optical Engineering, 51(1):017208–1–017208–10, 2012.
[Klo08] James E. Kloeppel. Step right up, let the computer look at your
fae and tell you your age. http://news.illinois.edu/news/08/
0923age.html, September 2008. [Online; accessed 29-August-2014].
[KR07] Kidiyo Kpalma and Joseph Ronsin. An Overview of Advances of
Pattern Recognition Systems in Computer Vision. In Prof. Goro
Obinata and Dr. Ashish Dutta, editors, Vision Systems, page 26.
Advanced Robotic Systems, May 2007. 26 pages.
[KS90] M. Kirby and L. Sirovich. Application of the karhunen-loeve proce-
dure for the characterization of human faces. IEEE Trans. Pattern
Anal. Mach. Intell., 12(1):103–108, January 1990.
[KS14] V. Kazemi and J. Sullivan. One millisecond face alignment with
an ensemble of regression trees. In Computer Vision and Pattern
Recognition (CVPR), 2014 IEEE Conference on, pages 1867–1874,
June 2014.
[Kul12] Brian Kulis. Metric learning: A survey. Foundations and Trends R©in Machine Learning, 5(4):287–364, 2012.
[KWSC10] T.-K. Kim, T. Woodley, B. Stenger, and R. Cipolla. Online multi-
ple classifier boosting for object tracking. In Workshop on Online
Learning for Computer Vision, San Francisco, June 2010.
[Lea06] Erik G. Learned-Miller. Data driven image models through conti-
nuous joint alignment. IEEE Trans. Pattern Anal. Mach. Intell.,
28(2):236–250, 2006.
[Lew06] Michael S. Lew. Content-based multimedia information retrieval:
State of the art and challenges. ACM Trans. Multimedia Comput.
Commun. Appl, 2:1–19, 2006.
[LM02] Rainer Lienhart and Jochen Maydt. An extended set of haar-like
features for rapid object detection. In IEEE ICIP 2002, pages 900–
903, 2002.
[LMJV06] Agata Lapedriza, Manuel Jesus Marin-Jimenez, and Jordi Vitria.
Gender recognition in non controlled environments. In Proc. of
ICPR, pages 834–837, 2006.
132
[LNH09] C.H. Lampert, H. Nickisch, and S. Harmeling. Learning to detect un-
seen object classes by between-class attribute transfer. In Computer
Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Confe-
rence on, pages 951–958, June 2009.
[Low04] David G. Lowe. Distinctive image features from scale-invariant key-
points. Int. J. Comput. Vision, 60(2):91–110, November 2004.
[Mah36] Prasanta Chandra Mahalanobis. On the generalized distance in sta-
tistics. Proceedings of the National Institute of Sciences (Calcutta),
2:49–55, 1936.
[Mar08] Pedro Martins. Active appearance models for facial expression re-
cognition and monocular head pose estimation. Technical report,
University of Coimbra, Faculty of Sciences and Technology, June
2008.
[Mas13] The Mashaper. List of 50+ Face Detection / Recogni-
tion APIs, libraries, and software. http://blog.mashape.com/
list-of-50-face-detection-recognition-apis/, June 2013.
[Online; accessed 02-September-2014].
[Mic] Signbox Microsystems. signEye. http://www.signbox.tv/
digital-signage-with-facial-recognition. [Online; accessed
02-September-2014].
[MK01] Aleix M. Martinez and Avinash C. Kak. Pca versus lda. IEEE Tran-
sactions on Pattern Analysis and Machine Intelligence, 23(2):228–
223, February 2001.
[MP04] M. Minear and D. C. Park. A lifespan database of adult facial
stimuli. Behavior Research Methods, Instruments and Computers,
36:630–633, 2004.
[MP13] Brian E. Mennecke and Anicia Peters. From avatars to mavatars:
The role of marketing avatars and embodied representations in con-
sumer profiling. Business Horizons, 56(3):387 – 397, 2013.
[MR08a] Erno Makinen and Roope Raisamo. Evaluation of gender clas-
sification methods with automatically detected and aligned faces.
IEEE Transactions on Pattern Analysis and Machine Intelligence,
30(3):541 – 547, March 2008.
133
[MR08b] Erno Makinen and Roope Raisamo. An experimental compari-
son of gender classification methods. Pattern Recognition Letters,
29(10):1544–1556, July 2008.
[MRH07] Sebastien Marcel, Yann Rodriguez, and Guillaume Heusch. On the
recent use of local binary patterns for face authentication. Inter-
national Journal on Image and Video Processing Special Issue on
Facial Image Processing, 0 2007. IDIAP-RR 06-34, accepted for
publication but withdrawn because of author charges.
[MY02] Baback Moghaddam and Ming-Hsuan Yang. Learning gender with
support faces. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 24(5):707–711, May 2002.
[NEC] NEC. Metadata Search. http://www.nec.com/en/global/
solutions/safety/critical_infra/metadata.html. [Online; ac-
cessed 29-August-2014].
[NSY11] Bingbing Ni, Zheng Song, and Shuicheng Yan. Web image and video
mining towards universal and robust age estimator. IEEE Transac-
tions on Multimedia, 13(6):1217–1229, 2011.
[NTG12] Choon Boon Ng, Yong Haur Tay, and Bok-Min Goi. Recognizing
human gender in computer vision: A survey. In Patricia Anthony,
Mitsuru Ishizuka, and Dickson Lukose, editors, PRICAI, volume
7458 of Lecture Notes in Computer Science, pages 335–346. Springer,
2012.
[OFT14] Christopher Y. Olivola, Friederike Funk, and Alexander Todorov.
Social attributions from faces bias human choices. Trends in Cog-
nitive Sciences, 18(11):566 – 570, 2014.
[OPH96] Timo Ojala, Matti Pietikainen, and David Harwood. A comparati-
ve study of texture measures with classification based on featured
distributions. Pattern Recognition, pages 51–59, 1996.
[OPM02] Timo Ojala, Matti Pietikainen, and Topi Maenpaa. Multiresolution
gray-scale and rotation invariant texture classification with local bi-
nary patterns. IEEE Trans. Pattern Anal. Mach. Intell., 24(7):971–
987, July 2002.
[OPSO97] M Oren, C Papageorgiou, P Sinha, and E Osuna. Pedestrian detec-
tion using wavelet templates. In Proceedings of CVPR’97, Puerto
Rico, 1997.
134
[Pea01] K. Pearson. On lines and planes of closest fit to systems of points
in space. Philosophical Magazine, 2(6):559–572, 1901.
[Pla99] John C. Platt. Fast training of support vector machines using se-
quential minimal optimization. In Advances in kernel methods: sup-
port vector learning, pages 185–208. MIT Press, 1999.
[PMRR00] P. Phillips, H. Moon, P. Rauss, and S. Rizvi. The feret evaluation
methodology for face recognition algorithms. IEEE Transactions
on Pattern Analysis and Machine Intelligence, 22(10):1090–1104,
October 2000.
[PP00] Constantine Papageorgiou and Tomaso Poggio. A trainable system
for object detection. Int. J. Comput. Vision, 38(1):15–33, June 2000.
[PWHR98] Phillips, Harry Wechsler, Jeffery Huang, and Patrick J. Rauss. The
FERET database and evaluation procedure for face-recognition al-
gorithms. Image and Vision Computing, 16(5):295–306, April 1998.
[Qui] Quividi. Automated Audience Measurement. http://www.
quividi.com/vidireports.html. [Online; accessed 02-September-
2014].
[RBLNCS12] Enrique Ramon-Balmaseda, Javier Lorenzo-Navarro, and Modesto
Castrillon-Santana. Gender classification in large databases. In Luis
Alvarez, Marta Mejail, Luis Gomez, and Julio Jacobo, editors, Pro-
gress in Pattern Recognition, Image Analysis, Computer Vision, and
Applications, volume 7441 of Lecture Notes in Computer Science,
pages 74–81. Springer Berlin Heidelberg, 2012.
[RGB05] Iain Matthews Ralph Gross and Simon Baker. Generic vs. person
specific active appearance models. Image and Vision Computing,
23(11):1080–1093, 2005.
[RN09] S. J. Russell and P. Norvig. Artificial Intelligence: A Modern Ap-
proach. Prentice Hall, 3rd edition, 2009.
[RSC+13] D. A. Reid, S. Samangooei, C. Chen, M. S. Nixon, and A. Ross. Soft
Biometrics for Surveillance: An Overview. In Handbook of statistics,
volume 31, chapter 13, pages 327–351. Elsevier, 2013.
[RT06] K. Ricanek and T. Tesafaye. Morph: a longitudinal image database
of normal adult age-progression. In Automatic Face and Gesture Re-
cognition, 2006. FGR 2006. 7th International Conference on, pages
341–345, April 2006.
135
[Sav10] Vlad Savov. Japan takes vending machines to their logical, 47-inch
touchscreen extreme. http://www.engadget.com/2010/08/11/
japan-takes-vending-machines-to-their-logical-47-inch-extreme/
%22%20http://www.engadget.com/2010/08/11/
japan-takes-vending-machines-to-their-logical-47-inch-extreme/,
August 2010. [Online; accessed 02-September-2014].
[Sce] SceneTap. SceneTap lets you check out the scene in real-time. http:
//scenetap.com/. [Online; accessed 02-September-2014].
[Sin11] Natasha Singer. Face Recognition Makes the Leap From
Sci-Fi. http://www.nytimes.com/2011/11/13/business/
face-recognition-moves-from-sci-fi-to-social-media.
html?_r=0, November 2011. [Online; accessed 02-September-2014].
[SJ89] B. W. Silverman and M. C. Jones. E. fix and j.l. hodges (1951):
An important contribution to nonparametric discriminant analysis
and density estimation: Commentary on fix and hodges (1951). In-
ternational Statistical Review / Revue Internationale de Statistique,
57(3):pp. 233–238, 1989.
[Sky] Skybiometry. Cloud-based Face Detection and Recognition API.
http://www.skybiometry.com/. [Online; accessed 02-September-
2014].
[Sof] Softtelecom. Totem payment solutions. http://softtelecom.e.
telefonica.net/commerce.html. [Online; accessed 02-September-
2014].
[SVM02] Gregory Shakhnarovich, Paul A. Viola, and Baback Moghaddam. A
unified learning framework for real time face detection and classifi-
cation. In Proc. of International Conference on Automatic Face and
Gesture Recognition, pages 16–26, 2002.
[TA09] M. Toews and T. Arbel. Detection, localization, and sex classi-
fication of faces from arbitrary viewpoints and under occlusion.
Pattern Analysis and Machine Intelligence, IEEE Transactions on,
31(9):1567–1581, Sept 2009.
[TFM07] Hiroyuki Takeda, Sina Farsiu, and Peyman Milanfar. Kernel regres-
sion for image processing and reconstruction. IEEE Transactions
on Image Processing, 16(2):349–366, 2007.
136
[TK07] Grigorios Tsoumakas and Ioannis Katakis. Multi-label classification:
An overview. Int J Data Warehousing and Mining, 2007:1–13, 2007.
[TKV10] Grigorios Tsoumakas, Ioannis Katakis, and Ioannis Vlahavas. Ran-
dom k-labelsets for multi-label classification. IEEE Transactions on
Konwledge and Data Engineering, 2010.
[TM08] Tinne Tuytelaars and Krystian Mikolajczyk. K.: Local invariant
feature detectors: A survey. FnT Comp. Graphics and Vision, pages
177–280, 2008.
[TODMS15] Alexander Todorov, Christopher Y. Olivola, Ron Dotsch, and Peter
Mende-Siedlecki. Social attributions from faces: Determinants, con-
sequences, accuracy, and functional significance. Annual Review of
Psychology, 66(1):519–545, 2015. PMID: 25196277.
[TP91] Matthew Turk and Alex Pentland. Eigenfaces for recognition. J.
Cognitive Neuroscience, 3(1):71–86, January 1991.
[Tre11] James Trew. Kraft vending machine teases children with adult-
only pudding dispenser. http://www.engadget.com/2011/12/27/
kraft-vending-machine-teases-children-with-adult-only-pudding-di/,
December 2011. [Online; accessed 02-September-2014].
[Tru] TruMedia. TruMedia - The leader in Audience Measurement
Solutions. http://www.tru-media.com/. [Online; accessed 02-
September-2014].
[VHH07] M. Asuncion Vicente, Patrick O. Hoyer, and Aapo Hyvarinen.
Equivalence of some common linear feature extraction techniques
for appearance-based object recognition tasks. IEEE Transactions
on Pattern Analysis and Machine Intelligence, 29(5):896–900, May
2007.
[VJ01] Paul Viola and M. Jones. Rapid object detection using a boosted
cascade of simple features. In Proc. of CVPR, volume I, pages 511–
518. IEEE, 2001.
[VJ04] Paul Viola and Michael J. Jones. Robust real-time face detection. In-
ternational Journal of Computer Vision, 57(2):137–154, May 2004.
[VRdsC06] Rodrigo Verschae, Javier Ruiz-del solar, and Mauricio Corea. Gen-
der classification of faces using adaboost. In Proc. of Iberoamerican
Congress on Pattern Recognition, CIARP, volume 4225 of LNCS,
pages 68–78. Springer-Verlag, 2006.
137
[Wat85] Satosi Watanabe. Pattern Recognition: Human and Mechanical.
John Wiley & Sons, Inc., New York, NY, USA, 1985.
[Web02] Andrew R. Webb. Statistical Pattern Recognition, Second Edition.
Wiley, 2002.
[Wik14] Wikipedia. Demographic profile. http://www.test.org/doe/, Ju-
ne 2014. [Online; accessed 29-August-2014].
[YFH10] Guodong Guo Yun Fu and Thomas S. Huang. Age synthesis and es-
timation via faces: A survey. IEEE Transactions on Pattern Analysis
and Machine Intelligence, 32(11):1955–1976, 2010.
[YJPP04] Jieping Ye, Ravi Janardan, Cheong Hee Park, and Haesun Park.
An optimization criterion for generalized discriminant analysis on
undersample problems. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 26(8):982–994, 2004.
[Yu12] Felix X. Yu. Weak attributes for large-scale image retrieval. In Pro-
ceedings of the 2012 IEEE Conference on Computer Vision and Pat-
tern Recognition (CVPR), CVPR ’12, pages 2949–2956, Washing-
ton, DC, USA, 2012. IEEE Computer Society.
[YY03] Jian Yang and Jing-yu Yang. Why can lda be performed in pca
transformed space? Pattern Recognition, 36:563–566, 2003.
[YZL+08] Shuichen Yan, Xi Zhou, Ming Liu, Mark Hasegawa-Johnson, and
Thomas S. Huang. Regression from patch-kernel. In Proc. of CVPR,
2008.
[ZM06a] Manli Zhu and Aleix M. Martınez. Selecting principal components
in a two-stage lda algorithm. In Proc. of CVPR, volume I, pages
132–137, 2006.
[ZM06b] Manli Zhu and Aleix M. Martinez. Subclass discriminant analysis.
IEEE Trans. Pattern Anal. Mach. Intell., 28(8):1274–1286, August
2006.
[ZY07] Haizhou Ai Zhiguang Yang. Demographic classification with lo-
cal binary patterns. In Proc. of the International Conference on
Biometrics, ICB 2007, Seoul, Korea., volume 4642 of LNCS, pages
464–473. Springer-Verlag, 2007.
138
[ZZ05] Min-Ling Zhang and Zhi-Hua Zhou. A k-nearest neighbor based al-
gorithm for multi-label classification. In Granular Computing, 2005
IEEE International Conference on, volume 2, pages 718 – 721 Vol.
2, july 2005.
[ZZZ04] Wenming Zheng, Li Zhao, and Cairong Zou. An efficient algorithm
to solve the small sample size problem for lda. Pattern Recognition,
37:1077–1079, 2004.
139
Indice alfabetico
aprendizaje
no supervisado, 13
supervisado, 13
atributos, 6
atributos faciales, 7
faciales, 13
faciales demograficos, 13
atributos faciales demograficos, 68, 74
atributos visuales, 74
biometrıa, 8
rasgos biometricos blandos, 8
soft-biometric, 8
caracterısticas, 5
categorizacion automatica de texto, 70
clasificacion
multi-label, 72, 77
error de clasificacion, 68
extraccion de caracterısticas, 5, 12
metadatos, 9
metodos
no supervisados, 12
supervisados, 12
patch, 11
predictores multidimensionales, 70, 80
reconocimiento de objetos, 5, 6
reconstruccion, 5
seleccion de caracterısticas, 12
sliding windows, 11
tarea de prediccion multidimensional, 78
variable clase, 76, 78
ventana deslizante, 11
141