UNIVERSIDAD POLITECNICA DE MADRID - oa.upm.esoa.upm.es/39508/1/JUAN_DEMOSTENES_BEKIOS_CALFA.pdfpor...

UNIVERSIDAD POLITECNICA DE MADRID

ESCUELA TECNICA SUPERIOR DE INGENIEROSINFORMATICOS

TESIS DOCTORALEstimacion eficiente de atributos demograficos del rostro

humano en imagenes

presentada en el

DEPARTAMENTO DE INTELIGENCIA ARTIFICAL

de la

UNIVERSIDAD POLITECNICA DE MADRID

para la obtencion del

GRADO DE DOCTOR EN INTELIGENCIA ARTIFICIAL

AUTOR: Juan D. Bekios Calfa

DIRECTOR: Luis Baumela Molina

CO-DIRECTOR: Jose Miguel Buenaposada Biencinto

Madrid, 2015

A mi familia

i

“No entiendes algo hasta que lo aprendes a hacer de mas de una forma”

Marvin Minsky

iii

Agradecimientos

Cuando entre por primera vez al laboratorio de Percepcion Computacional y

Robotica (PCR) una de las cosas que mas me llamo la atencion fue la calidez y

el apoyo con el que fui recibido. En el grupo PCR aprendı, entre muchas cosas,

la importancia del trabajo duro y riguroso que debe ser invertido para producir

investigacion seria. Agradezco a Luis Baumela y a Jose Miguel Buenaposada por

tener la paciencia y el compromiso de mostrarme este camino y el apasionante

mundo de la vision por computador. Ademas, de tutelar esta tesis.

Sin embargo, este gran esfuerzo no lo hice solo. Agradezco enormemente a Ximena

por acompanarme en este desafıo y a mis hijos Nikolas y Constantino por entender

que todo lo que vivimos involucro una gran cuota de sacrificio pero que a su vez

fue un proceso interesante y digno de vivir. Tambien agradezco a mis padres Juan

y Elena, mis hermanas Elena y Ana Marıa, quienes siempre confiaron en el buen

termino de este trabajo.

Finalmente, quisiera expresar mi gratitud a todas las personas que colaboraron

de alguna u otra forma. A mis amigos del “lab” como Antonio, Yadira, Pablo,

Kike, Fede y Gonzalo ya que siempre me tendieron una mano cuando lo necesitaba

y por las grandes conversaciones que tenıamos a la hora del almuerzo. Agradezco

especialmente a Antonio y Yadira por los cafes y dıas de “patatus” (entre otros

lugares) para conversar sobre el rock, el punk o cualquier tema que se nos cruzara por

la cabeza. A Julio Garcıa del Real por sus apasionadas conversaciones sobre la musica

clasica. Tambien, quisiera agradecer a las personas que me apoyaron con diferentes

becas como es el caso de Pedro Larranaga, Jesus Cardenosa y Jesus Barbero. A

mis amigos de Vision Artificial Desarrollos I+D en especial a Jesus, Aday, Angel

y Santiago por su amistad y profesionalismo. Quisiera poder nombrar a todas las

personas que fueron parte importante en el desarrollo de esta tesis pero que faltarıan

hojas para poder agregarlos a todos, a pesar de esto, mis mas infinitas gracias.

v

Indice general

Agradecimientos V

Resumen XXI

Abstract XXIII

Glosario XXV

I Introduccion 1

1. Introduccion y objetivos 3

1.1. Motivacion de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.1. Aplicaciones y sistemas automaticos de analisis facial . . . . . 7

1.2. Problema a resolver . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.3. Hipotesis de trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.4. Objetivos de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.5. Contribucion y estructura de la tesis . . . . . . . . . . . . . . . . . . 11

vii

II Prediccion de Atributos Faciales 13

2. Clasificador Unidimensional de Atributos Faciales Demograficos 15

2.1. Clasificador de genero . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2. Estado del arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.3. Analisis Discriminante Lineal (LDA) . . . . . . . . . . . . . . . . . . 23

2.3.1. LDA en el subespacio transformado PCA (I),

PCA+LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.3.2. LDA en el subespacio transformado PCA (II),

PCA-M+LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.3.3. LDA en el espacio transformado ICA (ICA+LDA) . . . . . . 28

2.4. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.4.1. Pruebas con una unica base de datos . . . . . . . . . . . . . . 34

2.4.2. Pruebas con cruce de base de datos . . . . . . . . . . . . . . . 45

2.4.3. Analisis del coste computacional . . . . . . . . . . . . . . . . . 50

2.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3. Regresores Demograficos Unidimensionales 55

3.1. Regresor de Edad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.2. Estado del arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.3. Regresion de edad desde imagenes de caras . . . . . . . . . . . . . . . 62

3.3.1. Proyeccion PCA+LDA como una matriz metrica para la edad 62

3.3.2. Regresion K-NN . . . . . . . . . . . . . . . . . . . . . . . . . 64

viii

3.4. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

3.4.1. Pruebas con una unica base de datos . . . . . . . . . . . . . . 67

3.4.2. Pruebas con cruce de base de datos . . . . . . . . . . . . . . . 70

3.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4. Dependencias entre atributos faciales 75

4.1. Powerset de atributos faciales para la clasificacion . . . . . . . . . . . 78

4.2. Reconocimiento de genero robusto . . . . . . . . . . . . . . . . . . . . 80

4.2.1. Sobre la dependencia entre los atributos de edad y genero . . . 81

4.2.2. Sobre la dependencias entre los atributos genero y pose . . . . 84

4.3. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

4.3.1. Base de datos de caras . . . . . . . . . . . . . . . . . . . . . . 89

4.3.2. Estimacion de genero y edad . . . . . . . . . . . . . . . . . . . 90

4.3.3. Clasificacion de genero no alineado . . . . . . . . . . . . . . . 91

4.3.4. Cabeza fuera del plano de rotacion para la estimacion de genero 93

4.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

III Conclusiones 97

5. Conclusiones 99

5.1. Lıneas futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

A. Bases de datos 105

ix

A.1. Base de datos en condiciones ideales . . . . . . . . . . . . . . . . . . . 105

A.1.1. Base de datos Gray FERET . . . . . . . . . . . . . . . . . . . 106

A.1.2. Base de datos Color FERET . . . . . . . . . . . . . . . . . . . 106

A.1.3. Base de datos PAL . . . . . . . . . . . . . . . . . . . . . . . . 107

A.1.4. Bade de datos MULTI-PIE . . . . . . . . . . . . . . . . . . . . 108

A.2. Base de datos en condiciones semi-reales . . . . . . . . . . . . . . . . 108

A.2.1. Base de datos UCN . . . . . . . . . . . . . . . . . . . . . . . . 110

A.2.2. Base de datos MORPH-II . . . . . . . . . . . . . . . . . . . . 110

A.3. Base de datos en condiciones reales . . . . . . . . . . . . . . . . . . . 111

A.3.1. Base de datos FG-NET . . . . . . . . . . . . . . . . . . . . . . 112

A.3.2. Base de datos GROUPS . . . . . . . . . . . . . . . . . . . . . 112

A.3.3. Base de datos LFW . . . . . . . . . . . . . . . . . . . . . . . . 113

B. Caracterısticas visuales para caras 115

B.1. Descriptores Globales . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

B.1.1. PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

B.1.2. ICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

B.1.3. LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

B.2. Descriptores Locales . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

B.2.1. Bancos de filtros de Gabor . . . . . . . . . . . . . . . . . . . . 118

B.2.2. Haar-Like . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

B.2.3. LBP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

x

B.2.4. SIFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

B.2.5. HOG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

C. Resultados de la tesis 125

C.1. Publicaciones Indexadas . . . . . . . . . . . . . . . . . . . . . . . . . 125

C.2. Congresos Indexados . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

C.3. Patente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

Bibliografıa 139

Indice alfabetico 142

xi

Indice de figuras

1.1. Tres metodos de la vision por computador. . . . . . . . . . . . . . . . 5

1.2. Diferentes apariencias de la cara de una misma persona . . . . . . . . 7

1.3. Ejemplo simplificado de un sistema de analisis facial . . . . . . . . . . 8

1.4. Caricatura de futuros usos de indexacion y busqueda de contenidos

por medio de analisis facial . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1. Etapas para la clasificacion automatica de la cara utilizando atributos

faciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2. Esquema que representa una aproximacion basada en la apariencia . . 19

2.3. Ejemplo de una aproximacion basada en caracterısticas . . . . . . . . 19

2.4. La informacion discriminante no esta relacionada con la magnitud de

los valores propios de la matriz Sm. En (a) los datos tienen una gran

varianza sobre el eje Z . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.5. Algunas imagenes recortadas y redimensionadas, despues de la detec-

cion: (a) Base de datos UCN, (b) Base de datos PAL y (c) base de

datos Color FERET. . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.6. La figura muestra imagenes de la base de datos UCN: La primera

fila muestra las imagenes originales recortadas desde el detector de

caras [VJ04] y la segunda fila muestra las imagenes ecualizadas y con

la mascara ovalada que ayuda a eliminar el fondo. . . . . . . . . . . . 33

2.7. Los experimentos basados en LDA utilizan un clasificador Bayesiano. 34

xiii

2.8. Pruebas sobre un clasificador SVM+RBF utilizando diferentes parame-

tros C y γ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.9. Coordenadas de ojos manualmente etiquetados utilizando FERET,

Face Recognition Technology, fa y OpenCV . . . . . . . . . . . . . . . 36

2.10. Rendimiento de la clasificacion a medida que el subespacio intermedio

PCA incrementa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.11. Rendimiento de la clasificacion (variable Rj en el Algoritmo 2.3) a

medida que el subespacio intermedio ICA incrementa para ICA+LDA. 40

2.12. Comparacion entre PCA+LDA y ICA+LDA utilizando las bases de

datos FERET (a) y UCN (b). . . . . . . . . . . . . . . . . . . . . . . . . 42

2.13. Sensiblidad de los clasificadores para giros de la cara fuera del plano

de rotacion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.14. Los histogramas muestran la frecuencia de los valores proyectados de

las imagenes de pruebas dentro del subespacio PCA+LDA calculadas

desde el conjunto de imagenes de entrenamiento . . . . . . . . . . . . 46

2.15. Reconstruccion de la imagen de una cara a partir de su proyeccion

LDA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.16. Algunos ejemplos de imagenes clasificadas erroneamente cuando se

entrena con FERET y se prueba con las imagenes de PAL, (Productive

Aging Lab Face) [MP04] . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.1. Imagenes que muestran el cambio en la apariencia de la edad cuando

se utilizan drogas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.2. AAM aplicados a dos distintos planos de rotacion [Mar08]. En ambas

figuras se puede observar que el modelo de textura (Texture Model)

muestra una cara alineada a una pose canonica a pesar de los cambios

de orientacion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.3. Comparacion de distancias euclıdeas entre diferentes individuos y eda-

des . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.4. Estimacion de la edad por medio de un regresor K-NN . . . . . . . . 64

xiv

3.5. Curvas de valores de porcentajes acumulados para experimentos sobre

FG-NET, Face and Gesture Recognition Research Network, base de

datos de imagenes de 1002 individuos con un promedio de 12 imagenes

de diferentes edades por cada uno utilizando validacion cruzada con

imagenes de 25× 25 pixeles de tamano . . . . . . . . . . . . . . . . . 68

3.6. Curvas de valores de porcentajes acumulados para experimentos de

cruce de base de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.1. Powerset de Atributos es una extension a la aproximacion multi-

label LP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4.2. Experimentos previos que demuestran la dependencia del genero y la

edad dada la apariencia . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.3. Distribucion de probabilidades de la apariencia dada la edad y el

genero sobre la base de datos GROUPS [GC09] . . . . . . . . . . . . 83

4.4. Ejemplo de imagenes capturadas desde PAL, GROUPS y LFW . . . . . . 84

4.5. Imagen canonica de 60× 60 pixeles con la posicion de todos los pares

de ojos(Ple, Pre) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

4.6. Los clusters muestran las posiciones de los ojos dentro de una ventana

canonica de deteccion de caras . . . . . . . . . . . . . . . . . . . . . . 87

4.7. Ejemplos de caras de la base de datos Multi-PIE despues de la deteccion 94

A.1. Seleccion de imagenes obtenidas desde la base de datos Gray FERET. . 106

A.2. Seleccion de imagenes obtenidas desde la base de datos color FERET

gallerıa fa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

A.3. Imagenes obtenidas desde la base de datos color PAL con diferentes

expresiones faciales, poses, etnias y genero. . . . . . . . . . . . . . . . 108

A.4. La imagen muestra la posicion de cada una de las camaras. (Fuente:

http://www.multipie.org/) . . . . . . . . . . . . . . . . . . . . . . 109

xv

http://www.multipie.org/

A.5. Las imagenes muestran las vistas obtenidas de las 15 camaras captu-

ras con iluminacion frontal. (Fuente: http://www.multipie.org/) . . 109

A.6. Imagenes obtenidas de la base de datos UCN. . . . . . . . . . . . . . . 110

A.7. Imagenes obtenidas de la base de datos MORPH-II. . . . . . . . . . . . 111

A.8. Imagenes obtenidas desde la base de datos FG-NET. Las imagenes son

capturadas en diferentes condiciones ambientales y de adquisicion.

Por cada individuo se almacenan un grupo de imagenes de diferentes

edades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

A.9. Imagenes obtenidas desde la base de datos color GROUPS. Las imagenes

muestran que las condiciones de adquisicion son diferentes para cada

imagen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

A.10.Imagenes obtenidas desde la base de datos LFW. Las imagenes corres-

ponden a diferentes personajes publicos obtenidos desde la Web. . . . 113

B.1. Representacion grafica de los nuevos ejes generados por PCA e ICA.

(Fuente: http://meg.aalip.jp/ICA/) . . . . . . . . . . . . . . . . . 117

B.2. Ejemplos de diferentes filtros de Gabor aplicados a tres tipos de

imagenes diferentes. (Fuente: http://scikit-image.org/docs/dev/

auto_examples/plot_gabor.html#example-plot-gabor-py) . . . . 119

B.3. Haar Wavelet : a) Representa la funcion Haar Wavelet b) Represen-

ta tres tipos de Haar wavelets no estandares: vertical, horizontal y

diagonal [PP00]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

B.4. Calculo del descriptor Locally Binary Patterns, LBP en la version

propuesta en [OPH96]. . . . . . . . . . . . . . . . . . . . . . . . . . . 121

B.5. Calculo del descriptor LBP [MRH07]. . . . . . . . . . . . . . . . . . . 122

B.6. Diagrama que muestra como se obtiene un descriptor SIFT . . . . . . 123

B.7. Diagrama de bloque que muestra como calcular un descriptor basado

en Histogram of Oriented Gradients, HoG [KKN12]. . . . . . . . . . . 124

xvi


http://meg.aalip.jp/ICA/

http://scikit-image.org/docs/dev/auto_examples/plot_gabor.html#example-plot-gabor-py


Indice de tablas

2.1. Tasas de acierto para el conjunto de imagenes seleccionadas por Maki-

nen y Raisamo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

2.2. Tasas de acierto y desviacion estandar sobre una unica base de datos

para entrenamiento y pruebas utilizando validacion cruzada 5-fold . . 44

2.3. Tasas de clasificacion para experimentos con cruce de base de datos . 47

3.1. Grupos discretos para entrenamiendo del subespacio PCA+LDA para

las bases de datos FG-NET y PAL. . . . . . . . . . . . . . . . . . . . 67

3.2. Grupos y rangos de edad etiquetadas en la base de datos GROUPS. . 68

3.3. Se comparan los resultados de edad sobre FG-NET utilizando valida-

cion cruzada Leave-One-Person-Out : Tecnica de validacion cruzada

que realiza una prueba por cada sujeto (persona) que existe en la ba-

se de datos para luego calcular una estimacion global del clasificador.

Para cada prueba se seleccionan todas las observaciones (imagenes)

de un individuo como conjunto de pruebas y el resto de los individuos

son utilizados para el entrenamiento del estimador . . . . . . . . . . . 69

3.4. MAE sobre cada rango de edad para experimentos realizados en cruce

de base de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.1. Dependencia entre genero y edad . . . . . . . . . . . . . . . . . . . . 82

4.2. Numero de imagenes por genero y grupos de pose . . . . . . . . . . . 86

4.3. Dependencia entre el genero y la pose . . . . . . . . . . . . . . . . . . 88

xvii

4.4. Tasa de acierto para de los AP de Genero × Edad para el experimento

GROUPS/PAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

4.5. Tasa de acierto de los AP para Genero×Pose con validacion cruzada

5-fold y base de datos GROUPS . . . . . . . . . . . . . . . . . . . . . . 92

4.6. Experimentos de cruce de bases de datos sobre genero y pose, entre-

nado sobre GROUPS y probado sobre LFW . . . . . . . . . . . . . . . . 92

4.7. Tasa de acierto para genero utilizando validacion cruzada 5-fold en

experimentos sobre GROUPS sin ninos con imagenes detectadas sin

alinear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

4.8. Experimentos para genero y pose 3D. La primera fila muestra los

resultados para un clasificador de genero y la segunda fila despliega

los resultados para un clasificador AP que considera los atributos

Genero× 3D. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

xviii

Lista de algoritmos

2.1. Entrenamiento utilizado para seleccionar el mejor parametro d para

el clasificador basado en PCA+LDA. . . . . . . . . . . . . . . . . . . 26


el clasificador basado en PCA-M+LDA. . . . . . . . . . . . . . . . . . 29


el clasificador basado en ICA+LDA. . . . . . . . . . . . . . . . . . . . 31

3.1. Entrenamiento utilizado para seleccionar el mejor parametro d y k

para el regresor de edad basado en PCA+LDA. . . . . . . . . . . . . 65

xix

Resumen

Sin duda, el rostro humano ofrece mucha mas informacion de la que pensamos.

La cara transmite sin nuestro consentimiento senales no verbales, a partir de las

interacciones faciales, que dejan al descubierto nuestro estado afectivo, actividad

cognitiva, personalidad y enfermedades. Estudios recientes [OFT14, TODMS15] de-

muestran que muchas de nuestras decisiones sociales e interpersonales derivan de un

previo analisis facial de la cara que nos permite establecer si esa persona es confia-

ble, trabajadora, inteligente, etc. Esta interpretacion, propensa a errores, deriva de

la capacidad innata de los seres humanas de encontrar estas senales e interpretarlas.

Esta capacidad es motivo de estudio, con un especial interes en desarrollar metodos

que tengan la habilidad de calcular de manera automatica estas senales o atributos

asociados a la cara.

Ası, el interes por la estimacion de atributos faciales ha crecido rapidamente

en los ultimos anos por las diversas aplicaciones en que estos metodos pueden ser

utilizados: marketing dirigido, sistemas de seguridad, interaccion hombre-maquina,

etc. Sin embargo, estos estan lejos de ser perfectos y robustos en cualquier dominio

de problemas. La principal dificultad encontrada es causada por la alta variabilidad

intra-clase debida a los cambios en la condicion de la imagen: cambios de iluminacion,

oclusiones, expresiones faciales, edad, genero, etnia, etc.; encontradas frecuentemente

en imagenes adquiridas en entornos no controlados.

Este de trabajo de investigacion estudia tecnicas de analisis de imagenes para

estimar atributos faciales como el genero, la edad y la postura, empleando metodos

lineales y explotando las dependencias estadısticas entre estos atributos. Adicional-

mente, nuestra propuesta se centrara en la construccion de estimadores que tengan

una fuerte relacion entre rendimiento y coste computacional. Con respecto a este

ultimo punto, estudiamos un conjunto de estrategias para la clasificacion de genero

y las comparamos con una propuesta basada en un clasificador Bayesiano y una

adecuada extraccion de caracterısticas. Analizamos en profundidad el motivo de

porque las tecnicas lineales no han logrado resultados competitivos hasta la fecha y

xxi

mostramos como obtener rendimientos similares a las mejores tecnicas no-lineales.

Se propone un segundo algoritmo para la estimacion de edad, basado en un regre-

sor K-NN y una adecuada seleccion de caracterısticas tal como se propuso para

la clasificacion de genero. A partir de los experimentos desarrollados, observamos

que el rendimiento de los clasificadores se reduce significativamente si los estos han

sido entrenados y probados sobre diferentes bases de datos. Hemos encontrado que

una de las causas es la existencia de dependencias entre atributos faciales que no

han sido consideradas en la construccion de los clasificadores. Nuestro resultados

demuestran que la variabilidad intra-clase puede ser reducida cuando se consideran

las dependencias estadısticas entre los atributos faciales de el genero, la edad y la

pose; mejorando el rendimiento de nuestros clasificadores de atributos faciales con

un coste computacional pequeno.

xxii

Abstract

Surely the human face provides much more information than we think. The

face provides without our consent nonverbal cues from facial interactions that re-

veal our emotional state, cognitive activity, personality and disease. Recent studies

[OFT14, TODMS15] show that many of our social and interpersonal decisions de-

rive from a previous facial analysis that allows us to establish whether that person

is trustworthy, hardworking, intelligent, etc. This error-prone interpretation derives

from the innate ability of human beings to find and interpret these signals. This

capability is being studied, with a special interest in developing methods that have

the ability to automatically calculate these signs or attributes associated with the

face.

Thus, the interest in the estimation of facial attributes has grown rapidly in

recent years by the various applications in which these methods can be used: targe-

ted marketing, security systems, human-computer interaction, etc. However, these

are far from being perfect and robust in any domain of problems. The main diffi-

culty encountered is caused by the high intra-class variability due to changes in the

condition of the image: lighting changes, occlusions, facial expressions, age, gender,

ethnicity, etc.; often found in images acquired in uncontrolled environments.

This research work studies image analysis techniques to estimate facial attributes

such as gender, age and pose, using linear methods, and exploiting the statistical

dependencies between these attributes. In addition, our proposal will focus on the

construction of classifiers that have a good balance between performance and compu-

tational cost. We studied a set of strategies for gender classification and we compare

them with a proposal based on a Bayesian classifier and a suitable feature extraction

based on Linear Discriminant Analysis. We study in depth why linear techniques

have failed to provide competitive results to date and show how to obtain similar

performances to the best non-linear techniques. A second algorithm is proposed for

estimating age, which is based on a K-NN regressor and proper selection of features

such as those proposed for the classification of gender. From our experiments we

xxiii

note that performance estimates are significantly reduced if they have been trai-

ned and tested on different databases. We have found that one of the causes is the

existence of dependencies between facial features that have not been considered in

the construction of classifiers. Our results demonstrate that intra-class variability

can be reduced when considering the statistical dependencies between facial attri-

butes gender, age and pose, thus improving the performance of our classifiers with

a reduced computational cost.

xxiv

Glosario

C Numero de clases.

D Numero de total de dimensiones.

K Numero de instancias cercanas a otra utilizada como referencia.

N Numero de instancias de la muestra.

P Numero total de pıxeles de una imagen.

R Tasa de acierto del clasificador.

I Imagen media.

T Conjunto de N atributos faciales.

f Funcion matematica.

h Clasificador representado como una funcion.

D Matriz diagonal.

M Matriz de metrica aprendida.

PPCA Matriz base PCA donde los vectores propio se encuentran ordenados en orden

decreciente con respecto a sus valores propios.

SB Matriz de dispersion entre-clase.

SW Matriz de dispersion intra-clase.

Sm Matriz de dispersion total (SB+SW ).

W Matriz de proyeccion (Matriz cuyas columnas son vectores propios).

X Matriz formada por vectores columnas.

xxv

Cx Producto Cartesiano de todos los conjuntos de valores Vi.

L Vector de etiquetas, o valores clase, asociado a cada una de las instancias de

entrada.

Vi Vector con los posibles valores del atributo facial Vi.

x Entrada.

xi Entrada i-esima del conjunto representado por x.

z Entrada x proyecta sobre un nuevo subespacio.

zi Entrada i-esima del conjunto representado por z.

{xi}Ni=1 Conjunto de x con ındice i.

d Numero de entradas (dimensionalidad de entrada).

yi Salida o etiqueta asociada al vector de entrada xi.

FastICA Es un popular algoritmo para Analisis de Componentes Independientes

desarrollado por Aapo Hyvarinen de la Universidad Politecnica de Helsinki.

(Implementacion de FastICA para Matlab: http://research.ics.aalto.fi/

ica/fastica/).

ICA+LDA Subespacio transformado LDA que utiliza como entrada de datos el

subespacio ICA obtenido del conjunto original de datos.

ICA Analisis de Componente Independiente

(Independent Component Analysis, en ingles).

LDA Analisis de discriminante lineal o analisis de discriminante de Fisher

(Linear Discriminant Analysis, en ingles).

PCA+LDA Subespacio transformado LDA que utiliza como entrada de datos el

subespacio PCA obtenido del conjunto original de datos.

PCA-M+LDA Subespacio transformado LDA que utiliza como entrada de datos

el subespacio PCA obtenido del conjunto original de datos y cuyos vectores

propios son ordenados en importancia segun el criterio de Zhu y Martınez [ZM06a].

PCA Analisis de Componentes Principales

(Principal Component Analysis, en ingles).

AP Powerset de Atributos (Attributes Powerset), adaptacion del metodo Label

Powerset para el problema de atributos faciales (Capıtulo 4).

xxvi

http://research.ics.aalto.fi/ica/fastica/

http://research.ics.aalto.fi/ica/fastica/

LP Label Powerset, metodo de clasificacion multi-label que transforma un problema

de multiples etiquetas en un problema multi-clase [TK07, AC09, TKV10].

AAM Modelos de Apariencia Activa (Active Appearance Models) [CET01].

BIF Caracterısticas de inspiracion biologica (Bio-inspired Features, BIF) [GMFH09].

DCT Transformada discreta del coseno (Discrete Cosine Transform).

FERET Base de datos de imagenes de caras con etiquetas de edad y raza princi-

palmente. (Face Recognition Technology).

FG-NET Base de datos de imagenes de caras con etiquetas de edad, genero, en-

tre otras. (Face and Gesture Recognition Research Network (FG-NET ) Aging

Database).

fold Termino utilizado cuando se realiza validacion cruzada de datos K-fold (K-fold

cross-validation). Donde el conjunto de entrenamiento inicial se divide en K

folds o K subconjunto de datos. Para cada subconjunto individual de datos se

genera otro con el resto de los subconjuntos K − 1, el primero se utiliza como

datos de prueba y el resto como datos de entrenamiento. Para cada par de

subconjuntos se construye su modelo de prediccion y se evalua su rendimiento

por medio de metricas. Finalmente, se hace una evaluacion global de todos los

resultados.

GMM Modelo de mezcla de gaussianas (Gaussian Mixture Model).

GROUPS Base de datos de imagenes de caras con etiquetas de genero y grupos

de edad [GC09].

HoG Histograma de gradientes orientados (Histogram of Oriented Gradients).

K-NN K vecinos mas cercanos (K-Nearest Neighbor), es un clasificador que utiliza

un metodo de aprendizaje supervisado.

LBP Patrones binarios locales (Locally Binary Patterns) [OPM02, OPH96].

LFW Labeled faces in the wild, es una base de datos utilizada para el estudio del

reconocimiento de caras en condiciones no controladas [HRBLM07].

xxvii

LOPO Leave-One-Person-Out. Tecnica de validacion cruzada que realiza una prue-

ba por cada sujeto (persona) que existe en la base de datos para luego calcular

una estimacion global del clasificador. Para cada prueba se seleccionan todas

las observaciones (imagenes) de un individuo como conjunto de pruebas y el

resto de los individuos son utilizados para el entrenamiento del estimador.

MAE Error Absoluto Medio (Mean Absolute Error).

Multi-PIE CMU Multi-PIE, base de datos que contiene imagenes de caras adqui-

ridas con diferentes condiciones de iluminacion y orientacien de la cara sobre

337 individuos [GMC+10]..

OpenCV Librerıa libre para vision por computador. http://opencv.org/ .

PAL Base de datos de imagenes de caras con etiquetas de edad, genero y raza.

Productive Aging Lab Face [MP04].

RBF Funcion de kernel de base radial (Radial Basis Function Kernel).

RPK Regression from Patch Kernel [YZL+08].

SVM Maquina de soporte vectorial (Support Vector Machine) [CV95].

SVM+RBF Maquina de soporte vectorial (Support Vector Machine) que utiliza

una funcion de kernel de base radial (Radial Basis Function Kernel) para la

clasificacion no lineal de datos.

UCN Base de datos privada de imagenes de caras de propiedad de la Universidad

Catolica del Norte. Antogasta, Chile.

xxviii

Parte I

Introduccion

1

Capıtulo 1

Introduccion y objetivos

Si las puertas de la percepcion se depurasen,

todo aparecerıa a los hombres como

realmente es: infinito. Pues el hombre se ha

encerrado en sı mismo hasta ver todas las

cosas a traves de las estrechas rendijas de su

caverna.

William Blake

RESUMEN: Una de las primeras habilidades que rapidamente aprendemos

los seres humanos es la de reconocer los objetos que nos rodean. Desde que

nacemos contamos con la capacidad para clasificar caras facilmente y de mane-

ra robusta. Nuestra destreza para reconocer atributos faciales, como la edad

y el genero, en una persona particular es destacable. Ası mismo, existe un

especial interes en estudiar metodos eficientes que logren automatizar estas

capacidades y cuyas soluciones han surgido desde el area de la vision por

computador, que es el proposito de esta tesis. El presente capıtulo detalla el

tema del trabajo de investigacion.

3

4 Introduccion y objetivos

Construir maquinas inteligentes siempre ha sido un anhelo de sonadores,

visionarios y cientıficos. El gran desafıo consiste en construir maquinas

que por una parte realicen las tareas repetitivas o peligrosas que nosotros

no deseamos realizar y, por otra, que sean capaces de interactuar con nosotros tal

como lo hacemos los seres humanos a diario.

Es evidente que se han realizado importantes avances en este ambito, sin embar-

go, falta un enorme camino por recorrer. Hoy en dıa, la comunidad cientıfica se ha

concentrado en explotar distintos dominios del conocimiento para dar solucion a tal

iniciativa. Los aportes son diversos y vienen de diferentes areas de especializacion co-

mo la mecanica, la electronica, la informatica, etc. Dentro del area de la informatica

la inteligencia artificial cumple la labor de dotar de “inteligencia” a estas maquinas.

La inteligencia artificial, al igual que cualquier rama del conocimiento, se especializa

en diferentes areas. Una de ellas es la percepcion, la cual provee de informacion del

mundo a las maquinas, o agentes, a traves de la interpretacion de los datos obtenidos

por medio de sensores utilizados para este proposito. Los sensores simulan los cinco

sentidos del ser humano: el tacto, la audicion, el olfato, el gusto o la vision [RN09].

En el caso particular de la vision, vision por computador (en lengua espanola), el

objetivo de esta es poder entender el mundo que nos rodea por medio de imagenes.

Los datos obtenidos a partir de las imagenes son excepcionalmente abundantes en

comparacion con otro tipo de sensores puesto que las imagenes contienen una gran

cantidad implıcita de elementos utiles [RN09] (texturas, aspectos geometricos, ilu-

minacion, color, profundidad, entre otros). Por ejemplo, una camara web de vıdeo

estandar puede capturar imagenes de 1920 × 1080 pixels a 30 frames por segundo.

Si solo consideramos una imagen en escala de grises tenemos aproximadamente 1.9

Megabytes de datos por cada 0.033 segundos de vıdeo.

El problema que busca resolver la vision por computador es transformar la gran

cantidad de datos redundantes a un conjunto reducido de informacion util. Segun

Russell y Norvig [RN09] el problema de vision por computador puede ser resuelto

por medio de tres metodos: 1) extraccion de caracterısticas: Tecnica en la que

a traves de calculos simples aplicados directamente sobre la imagen se obtiene un

representacion reducida de esta, en general, su representacion viene dada por un

vector de caracterısticas compacto; 2) reconocimiento de objetos: Establece dis-

tinciones entre un conjunto de objetos, utilizando informacion visual u otra. En ese

sentido, el reconocimiento puede ser utilizado para etiquetar imagenes, indicando si

estas poseen una cualidad particular o no; y 3) reconstruccion: A partir de una

imagen o un conjunto de ellas se construye un modelo geometrico del mundo. Ver

Figura 1.1.

1.1 Motivacion de la tesis 5

(a) Extraccion de caracterısticas.

(b) Reconocimiento de objetos. (c) Reconstruccion.

Figura 1.1: Tres metodos de la vision por computador.

(Fuente: (a)SIFT aplicado a un individuo de la base de datos Multi-pie [GMC+10],

(b)http://homes.cs.washington.edu/~bcr/ y

(c)http://www.cs.cmu.edu/~hyunsoop/trajectory_reconstruction.html)

1.1. Motivacion de la tesis

Una de las primeras habilidades que rapidamente aprendemos los seres humanos

es la de reconocer los objetos que nos rodean. Desde que nacemos, desarrollamos

en pocos meses las habilidades necesarias para diferenciar cuales son aquellos obje-

tos o formas que nos gustan e incluso advertimos aquellos que pueden ser daninos o

perjudiciales. Desde el punto de vista afectivo, aprendemos a reconocer a las perso-

nas que nos dan confianza y rechazamos a las que no [EHSH93]. Al pasar los anos,

estas habilidades aumentan y se especializan cada vez mas, lo que permite mejorar

el entendimiento de los objetos, y su relacion con el mundo. Dentro de las nuevas

habilidades destaca la capacidad para reconocer individuos distintos, independien-

te de: sus cambios de apariencia generados por la edad, de oclusiones, del uso de

accesorios, de enfermedades, etc. Para lograr este fin, sin duda el sentido mas utili-

zado es el de la vista, en complemento con los otros sentidos. El ser humano utiliza

toda la informacion que tiene disponible dentro del contexto de la observacion, tal

como la cara de la persona, la forma de moverse o la apariencia de todo el cuerpo

http://homes.cs.washington.edu/~bcr/

http://www.cs.cmu.edu/~hyunsoop/trajectory_reconstruction.html


para poder descubrir los atributos adecuados y determinar cualidades interesantes

que logren deducir informacion sobre nosotros mismos [NTG12]. Los atributos en

sı mismos, nos permiten caracterizar a una persona dentro de un contexto. En el caso

demografico podemos determinar el genero o la edad de una persona. Tambien estos

atributos nos pueden servir para cualificar a las personas, determinando su identi-

dad [KBBN09], o pueden ser usados para establecer contextos sociales que ayudan

a complementar el desarrollo de otras tareas de prediccion [GC09] o incluso para

inferir nuevos patrones a traves de atributos relacionados con su comportamiento

psicologico [DGSA+10]. Algunos expertos [KCF14, EHSH93] senalan que esta habi-

lidad nos permite conocer y entender nuestro entorno social por medio de atributos

obtenidos directamente de la cara.

Esta capacidad humana ha sido motivo de estudio con un especial interes en

desarrollar metodos que tengan la habilidad de calcular de manera automatica estos

atributos y que no requieran la intervencion humana o la ayuda del sujeto estudiado

en cuestion [NTG12]. En los ultimos anos, se ha investigado mucho el problema de

la percepcion del rostro humano. Los atributos faciales, permiten transmitir una

significativa cantidad de informacion y relacionan datos visuales relevantes para la

estimacion de la edad, la expresion facial, el genero y origen etnico. Desempenando

un papel importante en el analisis automatico de la cara.

Sin embargo, los sistemas automaticos estan lejos de contar con esta habilidad

humana de funcionar correctamente en condiciones no controladas o de la vida dia-

ria. Esto se debe principalmente a dos factores: 1) condiciones de captura que

pueden afectar seriamente la estimacion debido a factores ambientales, tales como,

la iluminacion, resolucion de las imagenes, calidad de la camara digital, oclusiones,

etc; y 2) variabilidad inherente del rostro humano que considera los cambios

dados por la expresion facial, pose, genero, edad, etnia, entre otros factores. En la

Figura 1.2, se muestra un conjunto de imagenes asociadas a una misma persona. En

estas se pueden ver distintos cambios de iluminacion, pose, complexion de la cara,

etc. Estas transformaciones en la apariencia de la cara, incluso, pueden confundir al

ojo humano mas experimentado cuando se trata de indentificar personas o estimar

atributos, tales como, el genero y la edad. Aun, cuando se trate de la misma persona.

Las tecnologıas aplicadas en la estimacion de atributos faciales no dejan indi-

ferentes a muchos empresarios que ven valor en su uso cotidiano. En un futuro no

muy lejano, nuestro cuerpo, y en especial nuestra cara, nos ayudara a crear siste-

mas que se adaptaran a nuestras necesidades, dependiendo del analisis realizado a

nuestros rostros de manera automatica. Los profesores Brian Manneckea y Anicia

Peters [MP13, HMP14], de la Universidad Estatal de Iowa, observan que las ultimas


Figura 1.2: Diferentes apariencias de la cara de una misma persona.

(Fuente: http://zombietime.com/really_truly_hillary_gallery/)

tendencias en publicidad y medios de comunicacion social unidas a las tecnologıas

de reconocimiento facial y corporal permitiran crear perfiles diferenciados, depen-

diendo de los tipos de atributos estimados. Ellos hablan de un nuevo tipo de avatar

asociado a operaciones de marketing, denominados “mavatars” [MP13] y que pue-

den ser utilizados para la comercializacion de productos y para el soporte de un sin

numero de nuevas aplicaciones, ver Figura 1.3.

1.1.1. Aplicaciones y sistemas automaticos de analisis facial

Dada la significativa expansion de las tecnologıas y aplicaciones de analisis facial

es importante delimitar y regular el uso de estas en la vida diaria. En las publi-

caciones de [MP13, HMP14] se revisan las futuras implicancias del uso de estas

tecnologıas y se hace una separacion entre aquellas que utilizaremos de forma vo-

luntaria, de otras que no. Ademas, de la forma como seran empleadas y distribuidas

en caso de que las aplicaciones lo requieran. Esto, sin duda, cambiara la manera de

comunicarnos no solo en en el futuro, sino tambien en el presente inmediato. Entre

las aplicaciones estudiadas, podemos listar las siguientes:

http://zombietime.com/really_truly_hillary_gallery/


Figura 1.3: Ejemplo simplificado de un sistema de analisis facial aplicado. Por

ejemplo, en la industria de la publicidad dirigida.

Biometrıa y Vigilancia La biometrıa es el conjunto de tecnicas que nos permite

reconocer personas, a traves de rasgos conductuales o fısicos. En la actua-

lidad, se esta utilizando el termino de rasgos biometricos blandos (soft-

biometric) [RSC+13] para mejorar el rendimiento de los sistemas biometricos

tradicionales que sirvan para identificacion de personas por medio de la des-

cripcion de atributos humanos. Los rasgos biometricos blandos incluyen ca-

racterısticas, tales como, la altura, el peso, la geometrıa del cuerpo, cicatrices,

marcas y tatuajes, el genero, la edad, la etnia, etc. [RSC+13][DGSA+10]

Indexacion y busqueda de contenidos Desde el punto de vista de la seguridad,

la estimacion de atributos faciales permite buscar sujetos que cumplan ciertas

caracterısticas fısicas generales para lograr ası un analisis mas especıfico. Estas

tecnicas permiten mejorar el rendimiento de sistemas de identificacion o verifi-

cacion de personas para dirigir la busqueda sobre grupos de personas [NEC]. La

principal idea es generar de manera automatica los metadatos [Lew06, EG99]

de una imagen, para poder realizar la busqueda y/o indexacion. A manera de

ejemplo, Facebook utiliza esta tecnologıa para que los usuarios puedan relacio-

nar sus fotografıas con los perfiles de otros usuarios. Ver Figura 1.4.

Estudios demograficos Diferentes actores tanto polıticos como empresariales sue-

len combinar varias variables para definir un perfil demografico. Un perfil de-

mografico, a menudo llamado “grupo demografico”, proporciona suficiente in-

formacion tıpica para crear una imagen mental asociada a ese grupo [Wik14].

Por ejemplo, podemos asociar ciertos atributos como: hombre, clase media de

18 a 24 anos a un buen comprador de vıdeo juegos o a un futuro estudiante

universitario con pertenencia a una idea polıtica, lo que se puede traducir en

el futuro proximo como un potencial voto. Existen aplicaciones o sistemas que

hacen esos tipos de estudios [Klo08, JH04, MR08b].


Figura 1.4: Caricatura de futuros usos de indexacion y busqueda de contenidos por

medio de analisis facial. (Fuente: http://blogs-images.forbes.com/

kashmirhill/files/2011/10/Dating-in-the-Internet-age.png)

Publicidad dirigida Una de las principales aplicaciones utilizada, a partir del

analisis facial, es poder identificar los atributos necesarios para ofrecer pro-

ductos o servicios ajustados al gusto de los usuarios [Sof, Qui, Tru, Mic, imr,

HMP14]. Existen novedosas aplicaciones que utilizan los patrones demograficos

y de conducta para mejorar el servicio de sus ofertas. La empresa Redpepper ad

ha creado una aplicacion llamada FaceDeals que ofrece cupones personaliza-

dos de compra, usando reconocimiento facial [ad]. SceneTap es una aplicacion

para telefono movil que permite explorar un bar con una camara de vıdeo.

Esta informacion es procesada para estimar atributos demograficos como: el

genero, la edad y la cantidad de personas detectadas en el bar. Luego, esta in-

formacion es trasmitida a otros usuarios que quieran conocer el porcentaje de

hombres y mujeres, su edad promedio y disponibilidad que existe en los bares

de Chicago inscritos en el sistema [Sin11, Sce]. Tambien existen maquinas que

son capaces de distinguir la edad de un individuo y que suministran ciertos

bocadillos gratis (Jello Temptations) solo a adultos [Tre11] o maquinas sumi-

nistradoras de bebidas que guıan nuestra compra al estimar nuestros atributos

faciales y asociarnos a un perfil demografico [Sav10, ax314].

De todo esto se desprende que existe un mercado de explotacion en expansion,

donde nuevos productos, asociados al analisis facial, y de atributos faciales, seran

http://blogs-images.forbes.com/kashmirhill/files/2011/10/Dating-in-the-Internet-age.png

http://blogs-images.forbes.com/kashmirhill/files/2011/10/Dating-in-the-Internet-age.png


desarrollados en el corto y mediano plazo lo que comprometera un importante es-

fuerzo de nuevas investigaciones e innovaciones para crear productos robustos para

su uso en la vida diaria. Actualmente, existen numerosas iniciativas dirigidas en ese

sentido, como es el caso de [Mas13] donde podemos encontrar un extenso listado de

plataformas, servicios y librerıas para el desarrollo de aplicaciones de analisis facial

que utilizan una variedad de tecnicas de imagenes 2D, 3D o ambas. Dentro de estas

aplicaciones se pueden encontrar algunas bastante basicas y otras para uso comer-

cial. Cada una de ellas con sus ventajas o desventajas asociadas. Entre los sistemas

ofrecidos (API) mas destacados para la extraccion de atributos faciales destacan

Skybiometry [Sky] y Face++ [Fac].

1.2. Problema a resolver

El trabajo de esta tesis se concentra en analizar automaticamente el rostro hu-

mano en imagenes y descubrir atributos faciales, utilizando la apariencia completa

de la cara. Existen numerosos atributos faciales interesantes que pueden obtenerse

a partir de una inspeccion visual de la cara como el bigote, perilla, flequillo, boca

(abierta, cerrada), forma de las cejas, tatuajes, pelo, expresion facial, etc. Pondremos

especial atencion en un subconjunto de atributos faciales que nosotros denominamos

atributos faciales demograficos y que se refieren a aquellos atributos considera-

dos, generalmente, en los estudios de tipo demografico. Los atributos seleccionados

para este estudio son el genero, la edad y la orientacion de la cara.

Nuestro interes se concentra en disenar y/o mejorar los modelos matematicos

que puedan predecir atributos faciales, bajo los siguientes requerimientos:

Altas tasas de acierto de los clasificadores.

Clasificadores extremadamente rapidos y que funcionen en tiempo real en dis-

positivos de bajo coste computacional. (20/30 imagenes por segundo)

Que funcionen correctamente en unas condiciones realistas de operacion.

1.3. Hipotesis de trabajo

H1 Convenientemente entrenados, los metodos lineales proporcionan un compromiso

excelente entre rendimiento y coste computacional para construir un buen

1.4 Objetivos de la tesis 11

clasificador de atributos faciales demograficos (genero, edad, y etnia).

H2 Existen dependencias entre los diferentes atributos faciales demograficos que

cuando se tienen en cuenta influyen positivamente en las tasas de acierto de

los estimadores.

1.4. Objetivos de la tesis

El objetivo general de la tesis, sobre la base de las hipotesis de trabajo plan-

teadas, es desarrollar tecnicas de analisis de imagenes para estimar atributos faciales

como el genero, la edad y la orientacion de la cara, empleando metodos lineales, y

explotando las dependencias estadısticas entre estos atributos.

Los objetivos especıficos son:

Construir modelos de prediccion de atributos faciales simples y de facil compu-

to.

Construir modelos de prediccion robustos, a cambios de iluminacion, pose y

condiciones de adquisicion.

Mejorar la prediccion explotando las relaciones estadısticas entre las variables

a predecir.

1.5. Contribucion y estructura de la tesis

En el presente trabajo, exploraremos y probaremos diferentes tecnicas de analisis

del rostro con un especial enfasis en el uso de modelos de prediccion lineal sobre

atributos faciales, tales como el genero, la edad y la raza. Para lograr este proposito

la tesis ha sido dividida en seis capıtulos.

El Capitulo I introduce al lector en el problema de vision por computador que

se desea resolver. Ademas de motivar a valorar la importancia de la investigacion

desarrollada desde el punto de vista teorico y tecnologico. Al mismo tiempo, defi-

ne los requisitos de la solucion, hipotesis de trabajo y objetivos propuestos. En el

Capıtulo II se estudian modelos lineales y no lineales para establecer el estado del


arte en estimacion de genero. Adicionalmente, se analiza en detalle la estimacion del

genero en imagenes de caras y se propone una mejora al entrenamiento de modelos

lineales sobre genero, con resultados similares a los presentados en el estado del arte

en terminos de tasa de acierto. El Capıtulo III se analiza el problema de estimacion

de la edad y se propone el estado del arte para este. Al igual que el Capıtulo II, se

utilizan modelos lineales para construir el vector de caracterısticas y se propone un

regresor no-lineal basado en K-NN . En el Capıtulo IV, se estudia las dependencias

entre las variables clase genero, edad y pose, utilizando una aproximacion similar a

las usadas en la clasificacion multi-label, confirmando una mejora en el rendimien-

to y robustez de la estimacion en genero. Finalmente, el Capıtulo V, se exponen

las conclusiones generales de la tesis, ası como tambien, las lıneas de investigacion

abiertas y de trabajo a futuro que se generaron a partir de este tema de tesis.

Parte II

Prediccion de Atributos Faciales

13

Capıtulo 2

Clasificador Unidimensional de

Atributos Faciales Demograficos

La cara es el espejo del alma, y los ojos son

sus interpretes.

Marco Tulio Ciceron

RESUMEN: El aumento de aplicaciones de vision por computador y re-

conocimiento de patrones en dispositivos moviles requieren del desarrollo de

algoritmos que funcionen sobre recursos computacionales limitados. Las tecni-

cas de clasificacion lineal tienen un importante papel que jugar en este con-

texto, debido a su simplicidad y bajos requerimientos computacionales. El

presente capıtulo revisa el estado del arte en clasificacion de genero, prestan-

do especial atencion en las tecnicas lineales. Ademas, se analiza el motivo de

porque las tecnicas lineales no han logrado resultados competitivos en el pasa-

do y mostramos como obtener rendimientos similares a los encontrados en el

estado del arte previos a la publicacion de nuestros resultados. Adicionalmen-

te, efectuamos experimentos cruzando bases de datos y probamos que aquellos

efectuados sobre una sola base de datos estan sesgados de manera optimista.

De los experimentos de este capıtulo se desprende que, si contamos con un

numero suficiente de datos y recursos computacionales, los clasificadores de

genero implementados con Maquinas de Soporte Vectorial son superiores al

resto. Cuando los recursos computacionales son escasos pero hay suficientes

datos, las aproximaciones de boosting y lineales son las adecuadas. Finalmen-

te, si los datos de entrenamiento y recursos computacionales son muy escasos,

entonces las aproximaciones lineales son la mejor opcion.

15

16 Clasificador Unidimensional de Atributos Faciales Demograficos

La facilidad con que nosotros reconocemos una cara, su expresion facial, el

genero, la raza y la edad, a la que pertenecen, oculta el proceso increıble-

mente complejo que subyace detras de estos actos de reconocimiento de

patrones. Para nosotros, un patron, en contraposicion al caos, es una entidad, va-

gamente definida, a la que se le puede asignar un nombre [Wat85]. Entonces, dado

un patron, podemos reconocer y clasificar este a traves de las siguientes tareas de

aprendizaje [JDM00, KR07]: 1) clasificacion supervisada en la cual el patron

de entrada es identificado como un miembro de una clase predefinida, 2) clasifica-

cion no supervisada (clustering) donde el patron se le asigna una clase hasta ese

momento desconocida, y que tiene que ver con la semejanza que tienen estos.

El trabajo desarrollado en este capıtulo se orienta a la clasificacion supervisada

donde el patron de entrada es un vector de caracterısticas obtenido a partir de

una imagen de intensidades de la cara y su clase es una variable de tipo cualitativa

(categorica o discreta) [HTF09] [Blu11]. En nuestro caso, y a modo de ejemplo, cada

variable clase representa un atributo facial demografico como el genero, la raza y la

edad.

En general, un sistema automatico de clasificacion de caras esta divido en cuatro

etapas:

Deteccion de la cara. Dada una imagen detectamos y localizamos automatica-

mente una o varias caras. Usualmente, se utiliza un clasificador dicotomico

que analiza diferentes subregiones de la imagen, a diferentes escalas y posicio-

nes, para identificar o no la presencia de una cara.

Procesamiento de la imagen. Se mejora el aspecto de la imagen y se hacen mas

evidentes los detalles que nos interesan estudiar.

Extraccion/Seleccion de caracterısticas. En esta etapa se utilizan tecnicas de

reduccion de dimensionalidad con el proposito de evitar errores en la siguiente

etapa de clasificacion inducida por informacion redundante o ruido potencial

que puedan contener los datos generados en el paso anterior.

Clasificacion. Finalmente, el nuevo espacio de caracterısticas se divide en regiones

separadas por hiperplanos de decision donde cada una estas representa una

clase. Para cada nueva entrada es posible asignar automaticamente una ca-

tegorıa. Para esto se debe construir un modelo matematico, el clasificador, a

partir de un conjunto de datos de entrenamiento utilizando un algoritmo de

aprendizaje.

2.1 Clasificador de genero 17

En la Figura 2.1 se resume cada una de las etapas que involucran la fase de

entrenamiento de un clasificador de atributos faciales. El proceso comienza a partir

de un conjunto de imagenes obtenidas por medio de un detector automatico de

caras y etiquetadas con su atributo facial manualmente. A cada imagen aplicamos

un pre-procesamiento para poder mejorarla. Luego, cada una de las imagenes se

transforma a un vector para facilitar su empleo en la clasificacion. Sin embargo,

los vectores generados por cada imagen contienen informacion redundante debido

a su alta dimensionalidad. Utilizamos algoritmos de extraccion de caracterısticas

para generar vectores mas compactos que conservan la informacion contenida en los

vectores originales. Finalmente, en la etapa de clasificacion se construye el modelo

matematico que ajusta una funcion, f , cuyo dominio son los vectores formados por

el nuevo espacio de caracterısticas, y su recorrido es el atributo facial que deseamos

estimar. Una vez entrenado el clasificador podemos utilizarlo para estimar atributos

faciales a partir de una nueva imagen, donde esta se debe transformar al nuevo

espacio de caracterısticas antes de realizar la consulta.

El presente capıtulo centrara su estudio en las etapas de reduccion de dimensio-

nalidad y de clasificacion. Se analizara particularmente el atributo facial demografico

de genero con el objetivo de encontrar un marco de trabajo base para la clasificacion

de otros atributos faciales.

2.1. Clasificador de genero

La clasificacion demografica, y en particular el reconocimiento de genero, es un

tema con alto potencial de aplicacion en areas como la vigilancia, reconocimiento

de rostros, indexacion de vıdeos, estudios de marketing dinamico, entre otras apli-

caciones. Esto ha atraıdo el interes de investigadores en vision por computador y el

reconocimiento de patrones en las ultimas decadas [MY02, BR07, MR08a, MR08b,

GLS90, SVM02, LMJV06] y siendo SEXNET [GLS90] uno de los primeros intentos

para reconocer el genero de una persona a partir de su rostro.

En la literatura existen muchas soluciones propuestas a este problema [MY02,

BR07, MR08a, MR08b, GLS90, SVM02, LMJV06, VRdsC06, ZY07], que pueden

ser agrupadas, en general, dentro de dos aproximaciones:

Basadas en apariencia global (appearance-based). Este tipo de aproximacio-

nes utilizan toda la imagen de una cara para la clasificacion. La imagen original

se obtiene por medio de un detector de caras o manualmente. Esta imagen se


Figura 2.1: Etapas para la clasificacion automatica de la cara utilizando atributos

faciales. Donde Ci representa una variable clase que corresponde a un atributo facial

como el genero (hombre, mujer).

ajusta a un tamano estandar para luego normalizar su textura en iluminacion

(ecualizacion de histograma, por ejemplo). En algunos casos, se agrega una

mascara para eliminar el efecto que pueda tener el fondo que esta detras de

la cara. Finalmente, se utiliza toda la informacion obtenida, del proceso antes

descrito, como vector de entrada para la clasificacion. Ver Figura 2.2.

Basadas en caracterısticas (feature-based). Por otro lado, esta aproximacion

extrae un conjunto de caracterısticas especıficas y discrimantes de la imagen de

la cara que son utilizadas como entrada para el entrenamiento del clasificador,

y su posterior uso. Ver Figura 2.3.

2.2. Estado del arte

Uno de los primeros trabajos importantes en el reconocimiento de genero fue

desarrollado por Moghaddam y Yang [MY02]. Adoptaron una aproximacion ba-

sada en apariencia y utilizaron un clasificador para entrada de datos no lineales;

denominado maquina de soporte vectorial (Support Vector Machine) con una fun-

2.2 Estado del arte 19

Figura 2.2: Esquema que representa una aproximacion basada en la apariencia: Se

detecta la cara, se reduce de tamano y se normaliza en iluminacion, finalmente se

utiliza toda la informacion de la imagen resultante como entrada al clasificador.

Figura 2.3: La imagen muestra un ejemplo de una aproximacion basada en carac-

terısticas. Para cada imagen mostrada en la figura se seleccionan diferentes regiones

de esta para la clasificacion. La primera imagen a la izquierda, muestra las carac-

terısticas seleccionadas para un clasificador de genero utilizando un algoritmo de

boosting [ZY07]. Las imagenes siguientes, segunda, tercera y cuarta, muestran las

regiones seleccionadas para estimar la etnia (Asiatico/No Asiatico), ninez (Nino/

No Nino) y vejez (Anciano/No Anciano).

cion kernel de base radial (Radial Basis Function Kernel), SVM+RBF [MY02].

Obtuvieron una tasa de acierto para reconocimiento de genero del 96,6 % utilizando

1775 imagenes seleccionadas desde la base de datos FERET [PMRR00]. Las image-

nes utilizadas fueron recortadas y alineadas automaticamente. Para las pruebas del

clasificador utilizaron validacion cruzada 5-fold .

Baluja y Rowley [BR07], por otro lado, encontraron e informaron sobre un sesgo

en el trabajo presentado por Moghaddam y Yang [MY02] causado por el uso de

individuos con la misma identidad en diferentes folds de la validacion cruzada. En el


mismo experimento Baluja y Rowley [BR07] lograron un 93,5 % de tasa de acierto

utilizando SVM+RBF con alineacion manual y una validacion cruzada apropiada

que considera diferentes sujetos para cada fold de entrenamiento y prueba.

Para las aproximaciones basadas en caracterısticas se pueden encontrar tra-

bajos que utilizan las diferencias de niveles de gris a partir de un par de pıxe-

les [BR07], Haar-like wavelets [MR08a, SVM02], bancos de filtros multiescala (multi-

scale filter banks) [LMJV06] o LBP [MR08a, MR08b]. Shakhmarovich [SVM02]

logro un 79 % y un 79,2 % de precision en la clasificacion de genero y origen etnico

respectivamente sobre un conjunto complicado de imagenes obtenidas desde la web.

Utiliza caracterısticas Haar-like con una aproximacion basada en el clasificador Ada-

Boost, este clasificador es varios ordenes de magnitud mas rapido que el clasificador

SVM . Baluja y Rowley [BR07] utilizaron comparaciones de parejas de pıxeles en

niveles de gris como clasificadores debiles (weak classifiers) sobre un esquema de

aprendizaje basado en AdaBoost. Emplearon imagenes alineadas manualmente de

la base de datos de Color FERET, especıficamente las galerıas “fa” y “fb”, donde

lograron una precision del 94 %. Sus clasificadores son 50 veces mas rapidos que la

solucion SVM propuesta por Moghaddam y Yang [MY02].

Makinen y Raisamo [MR08a] realizaron un conjunto de experimentos utilizan-

do 411 imagenes (304 para entrenamiento y 107 para pruebas) de la base de datos

FERET. Compararon las aproximaciones basadas en apariencia y caracterısticas, con

imagenes alineadas y no alineadas. Obtuvieron resultados de rendimientos simila-

res para las aproximaciones basadas en caracterısticas (AdaBoost) y las basadas en

apariencia (utilizando clasificadores SVM+RBF ). El mejor resultado fue de 86 %

y 82,62 % como tasas de acierto para imagenes de caras escaladas a un tamano

estandar de 36 × 36 y 24 × 24 pıxeles respectivamente, utilizando una aproxima-

cion basada en apariencia y un clasificador SVM+RBF . En otro trabajo [MR08b],

Makinen y Raisamo experimentaron con diferentes bases de datos, combinaciones

de clasificadores y normalizaciones sobre la cara. La principal conclusion de su tra-

bajo es que la alineacion automatica debe de ser muy precisa para que sea util.

Obtuvieron un 86 % de tasa acierto en imagenes de caras no alineadas utilizando

SVM+RBF y una aproximacion basada en apariencia. En un conjunto diferente de

experimentos [MR08b] tambien estudiaron la importancia de considerar el pelo de

la frente en su clasificacion. En este trabajo, lograron un 84 % de tasa de acierto en

el reconocimiento de genero sobre un conjunto de 900 imagenes utilizando la base

de datos FERET. Para este experimento emplearon nuevamente un clasificador SVM

y una funcion kernel RBF , sin alineacion de las imagenes. La principal conclusion

de este segunda parte de experimentos es que la alineacion geometrica (en este caso

manual) es mas importante que utilizar el pelo de la cabeza como una caracterıstica


visual.

En contraste con Makinen [MR08a], Verschae y otros [VRdsC06] tambien reali-

zaron varios experimentos con distintos tipos de caracterısticas y clasificadores. Ob-

teniendo resultados similares a los encontrados por Makinen [MR08a] usando la base

de datos de imagenes FERET, la mejor tasa de acierto corresponde a un experimen-

to que utiliza una version modificada de LBP y un clasificador AdaBoost [FSA99]

con una tasa de acierto del 85,56 % para alineacion manual y un 85,89 % de tasa

de acierto para alineacion automatica de los ojos. Tambien lograron tasas de reco-

nocimiento similares utilizando SVM+RBF . Dago-Casas [DCGJYAC11] comparan

la aproximacion basada en apariencia con otros descriptores de la cara sobre dos

conjuntos de imagenes capturadas en condiciones de adquisicion no controladas (“in

the wild”), LFW [HRBLM07] y GROUPS [GC09], con imagenes escaladas a 105× 90 y

120×105 pıxeles. Los mejores resultados obtenidos fueron 79,16 % para la aproxima-

cion basada en apariencia y un 86,61 % utilizando otros descriptores de la cara sobre

la base de datos GROUPS. En igual forma, obtienen sobre la base de datos LFW 89,24 %

y 93,83 % respectivamente. Castrillon [CSLNRB13] utilizo diferentes descriptores de

la cara y la fusion de diferentes clasificadores sobre las bases de datos de adquisicion

no controladas LFW, GROUPS y MORPH-II [RT06] con mejoras superiores al 3 % con

respecto a [DCGJYAC11]. En el estudio del reconocimiento de genero sobre image-

nes con cambios bruscos en la pose de la cara [BCBB14] obtuvo una tasa de acierto

entre el 84,31 % y el 88,04 % sobre la base de datos Multi-PIE [GMC+10]. Toews

y Arbel [TA09] obtuvieron un 83,7 % de tasa de acierto sobre FERET, utilizando

un novedoso metodo basado en caracterısticas que utiliza zonas especificas de las

imagenes descritas con SIFT [Low04].

La principal conclusion obtenida de los resultados encontrados en la literatu-

ra, es que las aproximaciones basadas en apariencia que utilizan un clasificador

SVM+RBF , y las basadas en caracterısticas locales que utilizan clasificadores basa-

dos en AdaBoost, eran los mejores clasificadores publicados para entornos contrala-

dos como en FERET y PAL . La primera aproximacion es marginalmente superior en

terminos de tasas de aciertos en la clasificacion, y la segunda es ordenes de magnitud

mas rapido que el primero. La mayorıa de los resultados encontrados en la litera-

tura se obtuvieron utilizando validacion cruzada (cross-validation) sobre una unica

base de datos. En este capıtulo se demuestra empıricamente que estas estimaciones

son sesgadas y optimistas, puesto que las imagenes contenidas en una unica base

de datos tienden a poseer dependencias inherentes a las condiciones de adquisicion

y, en la mayorıa de los casos, con condiciones similares de demografıa. Trabajos

posteriores al nuestro [BCBB11], como el de Dago-Casas [DCGJYAC11] han vali-

dado estos resultados. En resumen, de los resultados encontrados en la literatura


se obtiene que las aproximaciones basadas en apariencia y caracterısticas tienen un

comportamiento similar cuando se validan sobre bases de datos que fueron captura-

das en condiciones controladas [BCBB11, MR08b]. Sin embargo, cuando la base de

datos contiene imagenes capturadas en condiciones no controladas, o con cambios

de apariencia bruscos, los rendimientos mejoran cuando se utiliza una aproximacion

basada en caracterısticas [DCGJYAC11, CSLNRB13, RBLNCS12].

Otra importante conclusion obtenida es que los resultados publicados no son

faciles de comparar debido a que en la mayorıa de los casos los investigadores no

utilizan las mismas bases de datos en sus estudios. Por el contrario, si las utilizan, no

siempre seleccionan las mismas imagenes en sus experimentos. No obstante, Maki-

nen y Raisamo [MR08a] desarrollaron un amplio conjunto de experimentos para el

reconocimiento de genero sometido a las mismas condiciones de validacion. Desafor-

tunadamente, utilizaron un conjunto reducido de imagenes (441) lo que no permite

arguir conclusiones definitivas. Sin embargo, es posible deducir de su trabajo que el

estado del arte en reconocimiento de genero es aproximadamente un 93 % de tasa

de acierto utilizando la base de datos FERET. Estos resultados tambien son cohe-

rentes con los obtenidos por Baluja y Rowley [BR07]. Por otro lado, el rendimiento

del clasificador, aunque importante, no es solo la unica variable de nuestro interes.

Con la notable excepcion del trabajo de Baluja y Rowley [BR07], las aproximacio-

nes existentes para el reconocimiento de genero se han enfocado principalmente en

sistemas de computacion de alto rendimiento y no han considerado la eficiencia del

clasificador como un factor relevante. El considerable aumento de las aplicaciones de

vision por computador en dispositivos de bajas prestaciones (bajo poder de compu-

to) como camaras fotograficas digitales y moviles inteligentes (smart-phones) nos

hace considerar que la eficiencia del clasificador como un aspecto importante. En

este capıtulo, y los proximos, nos concentraremos en la revision y construccion de

algoritmos cuya principal caracterıstica sea su bajo coste computacional y un alto

rendimiento en terminos de tasa de acierto para la clasificacion de genero, entre

otros atributos faciales. Hasta el momento, solo los algoritmos propuestos por Balu-

ja et al [BR07] y Shakhmarovich et al [SVM02], ambos basados en el algoritmo de

clasificacion AdaBoost, cumplen con este requisito computacional.

Para concluir, observamos que las propuestas estudiadas sobre clasificacion de

genero han subestimado una de las tecnicas de clasificacion lineal mas simples: Un

clasificador Bayesiano cuyas variables de entrada son obtenidas a partir de un subes-

pacio reducido por medio de un Analisis de Discriminante Lineal (LDA, Linear

Discriminant Analysis).

En la seccion 2.3 revisaremos los conceptos basicos para la seleccion de carac-

2.3 Analisis Discriminante Lineal (LDA) 23

terısticas por medio del analisis discriminante. Ademas se propondra una forma sen-

cilla, y lineal, para la seleccion de caracterısticas cuya aproximacion logra resultados

comparables a los mejores clasificadores de genero encontrados en la literatura como

los basados en SVM+RBF [MY02] y Boosting [BR07]. Finalmente, se comparan los

resultados obtenidos con los encontrados en la literatura.

2.3. Analisis Discriminante Lineal (LDA)

Dado un problema de clasificacion multiclase con C clases y N numero de ins-

tancias de entrada de x, {xi}Ni=1, el analisis discriminante lineal (LDA) proporciona

una proyeccion lineal sobre los datos iniciales de la muestra dentro de un subespa-

cio de a lo sumo d = C−1 dimensiones. Con la proyeccion se busca una medida

que maximice la separacion entre las diferentes clases (variabilidad entre-clase) y

minimice variabilidad dentro de cada clase (variabilidad intra-clase). Es decir, la

proyeccion de las instancias asociadas a una misma clase se encuentran lo mas cerca

posible unas de las otras, mınima dispersion intra-clase; de la misma manera se

espera que las medias proyectadas de cada clase esten lo mas lejos posible unas de

las otras, maxima separacion entre-clases.

La base del nuevo subespacio transformado de d dimensiones, {wi}di=1, se obtiene

maximizando

J(w) =d∑

i=1

w>i SBwi

w>i SWwi

, (2.1)

donde SB y SW son respectivamente las matrices de dispersion entre-clase e intra-

clase [Fuk90], que se definen como:

SB =1

N

c∑j=1

nj(µj − µ)(µj − µ)>,

SW =1

N

c∑j=1

nj

∑i∈j

(xi − µj)(xi − µj)>, (2.2)

Siendo nj el numero de elementos que pertenecen a la clase j, N =∑c

j=1 nj el

numero de elementos de toda la muestra, µj el promedio de los elementos de la

muestra que pertenecen a la clase j, y µ el promedio de toda la muestra.


El valor maximo de J(W ) viene dado por los valores propios generalizados de

SBW = SWWD, donde W es una matriz cuyas columnas son wi y D es la matriz diagonal

de valores propios. El rango de la matriz SB es como maximo C−1 y sera el rango

de la matriz de proyeccion LDA, W. En el caso de que la matriz SW sea no singular,

el problema de autovalores generalizados se puede convertir en un problema de

autovalores:

S−1W SBW = WD (2.3)

En las secciones 2.3.1, 2.3.2 y 2.3.3 describiremos tres tecnicas de reduccion de

dimensiones que son utilizadas como paso previo para el calculo del nuevo subes-

pacio LDA. Cada uno de los resultados obtenidos son comparados en la seccion de

experimentos.

2.3.1. LDA en el subespacio transformado PCA (I),

PCA+LDA

Cuando se trata con problemas de clasificacion de imagenes, es comun encontrar

bases de datos que cuentan con un numero limitado de imagenes. En algunos casos,

la cantidad de imagenes puede ser menor que el espacio de caracterısticas (espacio

d-dimensional) necesario para el buen funcionamiento del clasificador. Por ejemplo,

si se trabaja bajo una aproximacion basada en apariencia lo normal serıa que las

variables del vector de caracterısticas de entrada sean los pıxeles de toda la imagen,

si consideramos una imagen de 32×32 pıxeles el tamano del vector de caracterısticas

serıa de 1024 variables o dimensiones. En el caso en que el numero de imagenes de

la base de datos sea menor a la cantidad de variables de entrada, para el ejemplo

serıan menos de 1024 imagenes, la matriz de dispersion intra-clase, SW , no se puede

utilizar para el calculo de la ecuacion 2.3.

Sin embargo, una solucion alternativa posible es utilizar la matriz de covarianza

de toda la muestra, Sm:

Sm = SB + SW (2.4)

La matriz Sm, de la ecuacion 2.4, reemplaza a la matriz de dispersion intra-clase,

SW . La solucion de valores propios de la ecuacion 2.3 no cambiara si utilizamos la ma-


triz Sm [YY03, ZM06a]. Ademas, si realizamos Analisis de Componentes Principales

(Pricipal Component Analysis, PCA) previo a la transformacion LDA, y retenemos

solo aquellos vectores propios cuyos valores propios asociados son distintos de cero,

el nuevo subespacio LDA construido a partir del subespacio PCA es equivalente al

calculado solo utilizando LDA, subespacio original [YY03]. No obstante, si en la

construccion del subespacio PCA desechamos los vectores propios asociados a va-

lores propios no nulos, el modelo PCA+LDA no sera estrictamente equivalente al

subespacio generado solo utilizando LDA. A partir de este momento denominaremos

PCA+LDA al metodo que utiliza el subespacio transformado PCA como entrada

previa para el calculo del LDA, independiente de la forma de como sean elegidos los

vectores propios en el paso PCA.

Uno de los resultados mas antiguos utilizando PCA+LDA aplicado a imagenes

son los FisherFaces de Belhumeur [BHK97]. En el caso FisherFaces se asume que

el numero de imagenes de la muestra, N , es mas bajo que el numero de pıxeles

de la imagen, P , y el numero de vectores propios PCA retenidos, antes de aplicar

el metodo LDA, es P − C. Para el caso particular de esta tesis, la mayorıa de los

datos de entrada utilizados para el entrenamiento contaran con mas imagenes que

pıxeles. Por lo tanto, gran parte de los valores propios obtenidos al transformar los

datos de entrenamiento al subespacio PCA seran distintos de cero. Hemos compro-

bado empıricamente, que dependiendo de la cantidad de datos de entrenamiento

el rendimiento del clasificador tiende a disminuir cuando utilizamos todos los vec-

tores propios asociados a valores propios no nulos obtenidos al aplicar PCA (ver

figuras 2.10 y 2.11). Como consecuencia de esto, y dentro de nuestras mejoras pro-

puestas, un paso importante para obtener un rendimiento optimo en la clasificacion

utilizando una aproximacion lineal, es elegir de manera adecuada aquellos vectores

propios PCA que contengan la mayor informacion discriminante posible.

Para seleccionar las dimensiones adecuadas del subespacio PCA, proponemos un

esquema de validacion cruzada en vez de la aproximacion tradicional de retener los

vectores propios dependiendo de su porcentaje de varianza. Usualmente se seleccio-

nan los vectores propios que estan contenidos en la relacion de valores propios con un

porcentaje varianza del 95 % o 99 % [JW98]. El algoritmo de entrenamiento propues-

to prueba diferentes conjuntos de vectores propios PCA. Los vectores propios PCA

se ordenan de mayor a menor con respecto a su magnitud y se seleccionan secuen-

cialmente. En el algoritmo 2.1 mostramos en detalle su funcionamiento, donde, P es

el numero de pıxeles en una imagen, X es una matriz con los datos de entrenamiento

donde cada imagen es un vector columna, L es el vector con las correspondientes

etiquetas clase (Masculino o Femenino), PPCA es la matriz base PCA ordenada con

los vectores propios en orden decreciente con respecto a su varianza, I es la imagen


media, R es la mejor tasa de acierto obtenida y d es la mejor dimension.

En la seccion 2.4, de experimentos, demostraremos empıricamente que este proce-

so de seleccion de caracterısticas es esencial para lograr tasas de acierto, en genero,

similares a los encontrados en el estado del arte para aproximaciones basadas en

apariencia mediante un procedimiento lineal PCA+LDA. Sin embargo, esta no es la

primera vez que se menciona este tipo de procedimiento en la literatura. Martınez

y Kak [MK01] comparan diferentes aproximaciones PCA y LDA aplicadas al reco-

nocimientos de objetos sobre modelos de apariencia. Ellos tambien seleccionan las

mejores dimensiones PCA antes de aplicar LDA.

Algoritmo 2.1 Entrenamiento utilizado para seleccionar el mejor parametro d para

el clasificador basado en PCA+LDA.

Entradas: X, L

Resultados: R, d

1: R⇐ 0 {Inicializar la mejor tasa de clasificacion a 0}2: d⇐ 1 {Inicializar el mejor numero de caracterısticas a 1}3: Dividir {X,L} en l folds F = {{X1,L1}, . . . , {Xl,Ll}}.4: for j = 1 to D do {Validacion cruzada l-fold con j caracterısticas retenidas

antes de aplicar LDA}5: for i = 1 to l do

6: {Xtest,Ltest} ⇐ {Xi,Li} {Probar con fold i}7: {Xtrain,Ltrain} ⇐ F − {Xi,Li} {Entrenar con el resto de los folds}8: [PPCA, I] ⇐ PCA(Xtrain) {Analisis de Componentes Principales}9: A B se le asignan las j columnas en PPCA.

10: Y⇐ B>(Xtrain − [I. . .I]) {Proyeccion sobre el subespacio PCA}11: PLDA ⇐ LDA(Y,Ltrain) {Analisis de discriminante lineal de Fisher}12: Z⇐ PLDAY {Proyeccion sobre el subespacio LDA}13: C ⇐ entrenarClasificadorBayesiano(Z, Ltrain)

14: Ztest ⇐ PLDAB>(Xtest − [I. . .I])

15: ri ⇐ clasificar(C, Ztest, Ltest)

16: end for

17: Rj ⇐ 1l

∑li=1 ri

18: if Rj > R then

19: R⇐ Rj

20: d⇐ j

21: end if

22: end for


2.3.2. LDA en el subespacio transformado PCA (II),

PCA-M+LDA

Cuando se realiza PCA+LDA un paso importante es escoger adecuadamente

los vectores propios que retengan la mayor cantidad de informacion discriminante

posible. Zhu y Martınez [ZM06a], argumentaron que no se puede decir a priori que

los valores propios cercanos a cero son producto del ruido ni que son altamente

discriminantes.

Utilizaron la matriz de covarianza total para una muestra de imagenes, Sm, en

lugar de SW . Ası, el problema de los valores propios para el LDA queda:

S−1m SBW = WD

Zhu y Martınez [ZM06a] definen un criterio para ordenar los vectores propios de

la matriz Sm en terminos de sus correlaciones con la matriz SB. Para ser discrimi-

nantes, un vector propio de Sm, uj, deberıa estar correlado con al menos un vector

propio wi, de SB, ver Figura 2.4. Esto significa que damos mayor importancia a los

vectores propios de Sm paralelos al subespacio generado LDA.

(a) (b)

Figura 2.4: La informacion discriminante no esta relacionada con los valores propios

de la matriz Sm. En (a) los datos mostrados en la figura tienen una gran varianza

sobre el eje Z y en otro ejemplo (b) la varianza es pequena en el mismo eje. En

ambos casos observamos que la informacion en el eje Z no proporciona informacion

discriminante [ZM06a].

Debido a esto, una camino alternativo para seleccionar los vectores propios PCA


es de acuerdo a su correlacion con la matriz SB [ZM06a]. En este caso daremos

importancia a los vectores propios paralelos al subespacio generado por los prototipos

de las clases (medias). La importancia de los vectores propios de Sm, uj, se calculan

por medio de la siguiente ecuacion:

Ij =

q∑i=1

(u>j vi)2, q = rank(SB), (2.5)

Donde vi son los vectores propios de SB [ZM06a].

Con PCA-M+LDA indicamos que el algoritmo utiliza PCA, y que ordena sus

vectores propios en orden decreciente empleando el valor de correlacion calculado en

la ecuacion 2.5, Ij. Se seleccionan los primeros k vectores propios del nuevo orden

y finalmente se lleva a cabo el LDA. En el caso PCA-M+LDA el procedimiento de

entrenamiento se muestra en el algoritmo 2.2 pero con una importante diferencia:

Despues de la (lınea 8), en el algoritmo PCA-M+LDA se ordenan las columnas PPCA

por medio de los valores decrecientes Ij asociados.

2.3.3. LDA en el espacio transformado ICA (ICA+LDA)

ICA intenta explicar los datos de la muestra original, en terminos de vecto-

res aleatorios estadısticamente independientes. Sea X una matriz de datos cuyas

columnas son los vectores de la muestra. Los algoritmos lineales ICA encuentran

una matriz P que proyecta X dentro del subespacio de componentes independientes,

S = PX. Las columnas de S contienen las versiones proyectadas de los vectores de la

muestra.

La mayorıa de los investigadores utilizan los resultados de algoritmos basados en

ICA tales como FastICA o Infomax [VHH07]. Estos procedimientos buscan vectores

vi, filas de la matriz P, tal que las filas de S tengan distribuciones no Gaussianas y

que esten mutuamente (aproximadamente) no correlados. Una forma sencilla para

lograr este objetivo es construir un PCA, retener solo los vectores propios que tengan

valores propios distintos a cero, despues blanquearlos1 (escalando las proyeccion

PCA por la inversa de sus valores propios), y a continuacion estimar una matriz de

rotacion para R,

1Whittening en ingles. Donde nos interesa que la proyeccion de cada uno de sus componentes

tengan media cero, sean incorrelados y sus varianzas sean uno.



el clasificador basado en PCA-M+LDA.

Entradas: X, L, Sm, SbResultados: R, d



6: {Xtest,Ltest} ⇐ {Xi,Li} {Probar con fold i}7: {Xtrain,Ltrain} ⇐ F − {Xi,Li} {Entrenar con el resto de los folds}8: [PPCA, I] ⇐ PCA(Xtrain) {Analisis de Componentes Principales}9: I ⇐ calcularImportancia(Sm, Sb) {Indices que consideran la correlacion en-

tre los vectores propios de Sm y Sb}10: PPCA−M ⇐ ordenar(PPCA, I)

11: A B se le asignan las j columnas en PPCA−M .

12: Y⇐ B>(Xtrain − [I. . .I]) {Proyeccion sobre el subespacio PCA−M}13: PLDA ⇐ LDA(Y,Ltrain) {Analisis de discriminante lineal de Fisher}14: Z⇐ PLDAY {Proyeccion sobre el subespacio LDA}15: C ⇐ entrenarClasificadorBayesiano(Z, Ltrain)



18: end for

19: Rj ⇐ 1l

∑li=1 ri

20: if Rj > R then

21: R⇐ Rj

22: d⇐ j

23: end if

24: end for


S = R>Λ−1B>X = R>Z, (2.6)

donde Z son las proyecciones blanqueadas (normalizadas e incorreladas) PCA

de los vectores de la muestra en X, y Λ es la matriz diagonal con valores propios

distintos de cero, B son los vectores propios asociados con la matriz diagonal Λ con

valores propios distintos a cero [VHH07].

Abusando del concepto de independencia, algunas aproximaciones usan los com-

ponentes independientes obtenidos por ICA como una base para expandir el subes-

pacio lineal [JH04]. El algoritmo 2.3 detalla el entrenamiento para el clasificador

FastICA+LDA. A diferencia de los algoritmos anteriores, las lineas entre 8 y 10

utilizan FastICA para estimar la matriz de proyeccion P, seleccionando las primeras

j filas de P y proyectando Xtrain dentro de los primeras j caracterısticas FastICA

obtenidas de la matriz Y.

2.4. Experimentos

En esta seccion se evalua el rendimiento y se comparan las aproximaciones linea-

les con los mejores clasificadores no lineales encontrados en la literatura, SVM+RBF

como el usado por Moghaddam y Yang [MY02], y el algoritmo de Baluja y Row-

ley’s [BR07] basado en parejas de pıxeles y boosting.

Para entrenar y evaluar las diferentes aproximaciones en igualdad de condiciones

y escenarios se selecciono un conjunto heterogeneo de bases de datos de imagenes

cuyas caracterısticas diferıan en cantidad de imagenes, calidad y condiciones de

captura. Las bases de datos que utilizamos son (Ver Apendice A para mas detalles):

UCN. Base de datos privada. Desarrollada en la Universidad Catolica del Norte de

Chile. Ver figura 2.5(a).

PAL. Productive Aging Lab Face de la University of Texas at Dallas [MP04]. Ver

figura 2.5(b).

FERET. Color FERET es una base de datos de caras que esta disponible para la

investigacion en analisis de caras [PMRR00]. Ver figura 2.5(c).

Mak-ba. Conjunto de imagenes utilizadas por Makinen y Raisamo [MR08a] de la

base de datos Gray FERET.

2.4 Experimentos 31


el clasificador basado en ICA+LDA.

Entradas: X, L, Sm, SbResultados: R, d



6: {Xtest,Ltest} ⇐ {Xi,Li} {Probar con fold i}7: {Xtrain,Ltrain} ⇐ F − {Xi,Li} {Entrenar con el resto de los folds}8: [PICA, I] ⇐ ICA(Xtrain) {Analisis de Componentes Independientes}9: A B se le asignan las j columnas en PICA.

10: Y⇐ B>(Xtrain − [I. . .I]) {Proyeccion sobre el subespacio ICA}11: PLDA ⇐ LDA(Y,Ltrain) {Analisis de discriminante lineal de Fisher}12: Z⇐ PLDAY {Proyeccion sobre el subespacio LDA}13: C ⇐ entrenarClasificadorBayesiano(Z, Ltrain)



16: end for

17: Rj ⇐ 1l

∑li=1 ri

18: if Rj > R then

19: R⇐ Rj

20: d⇐ j

21: end if

22: end for


Antes de comenzar la tarea de clasificacion, primero detectamos las caras utili-

zando las librerıas soportadas por OpenCV 2.0.02 (OpenCV cuenta con un detector

de caras que esta basado en [VJ04]). Cada imagen obtenida por el detector es recor-

tada y redimensionada a 25× 25 pıxeles. En el caso de que alineemos las imagenes

manualmente utilizaremos el centro de los ojos y la boca como referencia. Adicional-

mente, hacemos una ecualizacion de histograma a las imagenes con el fin de ganar

cierto grado de independencia a los cambios de iluminacion. Por ultimo, se aplica

una mascara con forma ovalada para evitar que el fondo influya en los resultados fi-

nales. En la Figura 2.5 se muestran ejemplos de las imagenes despues de la deteccion

y posterior recorte, se puede observar que las condiciones de adquisicion son dife-

rentes para cada una de las muestras obtenidas en las diferentes bases de datos. En

la Figura 2.6 observamos algunas de las imagenes de la base de datos UCN despues

de haber sido procesadas. A cada imagen aplicamos una ecualizacion de histograma,

un escalado y una mascara ovalada para eliminar el fondo.

En todos los experimentos basados en LDA se utilizo un clasificador Bayesiano,

Figura 2.7, asumimos que la funcion de densidad de probabilidad condicionada de

cada clase es Gaussiana (Ver Figura 2.14 para verificar que la suposicion es razona-

ble).

Para las pruebas SVM+RBF entrenamos el clasificador utilizando una Opti-

mizacion Mınima Secuencial (Sequential Minimal Optimization) [Pla99], algoritmo

implementado en WEKA Explorer 3. Y buscamos los mejores parametros para C

(balance entre el margen y error de entrenamiento) y gama, γ, (Radio RBF) en una

rejilla con diferentes combinaciones de valores para ambos. En todas las bases de

datos, a excepcion de la base de datos UCN, utilizamos diferentes valores de C en un

rango de 1 a 991 con saltos de 10 (99 muestras) y en el caso de γ los valores que

probamos fueron entre 0.001 a 0.01 con saltos de 0.001 unidades (100 muestras).

Para el caso especial de la base de datos UCN tomamos los valores {1, 10, 100, 1000}para el parametro C y {0.001, 0.002, 0.004, 0.006, 0.008} para los valores de γ.

Ver Figura 2.8 para observar los distintos resultados obtenidos en cada uno de los

experimentos para diferentes combinaciones de los parametros. Finalmente, en la

Tabla 2.2 proporcionamos los mejores valores para los parametros C y γ para cada

una de las base de datos. Al mismo tiempo, implementamos el algoritmo propuesto

por Baluja y Rowley [BR07] que esta basado en la comparacion de parejas de pıxeles

y un clasificador del tipo AdaBoost. Utilizamos 1000 clasificadores debiles a partir

de la evaluacion del 1 % de todas las posibles combinaciones de clasificadores debiles

construidos a partir de las parejas de pıxeles obtenidas desde la imagen. A este clasi-

2http://opencv.willowgarage.com3http://www.cs.waikato.ac.nz/ml/weka

2.4 Experimentos 33

(a) Base de datos UCN

(b) Base de datos PAL

(c) Base de datos Color FERET

Figura 2.5: Algunas imagenes recortadas y redimensionadas, despues de la deteccion:

(a) Base de datos UCN, (b) Base de datos PAL y (c) base de datos Color FERET.

Figura 2.6: La figura muestra imagenes de la base de datos UCN: La primera fila

muestra las imagenes originales recortadas desde el detector de caras [VJ04] y la

segunda fila muestra las imagenes ecualizadas y con la mascara ovalada que ayuda

a eliminar el fondo.


Figura 2.7: Los experimentos basados en LDA utilizan un clasificador Bayesiano.

ficador se le llamo Baluja1000. Adicionalmente, y para propositos de comparacion,

tambien se entreno un clasificador denominado Baluja625, el cual se ajusto para

poder compararlo en complejidad con los clasificadores lineales mostrados en el do-

cumento. Los mejores parametros fueron escogidos para las pruebas utilizando 625

(Baluja625) y 1000 (Baluja1000) clasificadores debiles.

2.4.1. Pruebas con una unica base de datos

Los primeros experimentos se efectuaron sobre las bases de datos descritas al co-

mienzo de esta seccion, para mas detalle recomendamos revisar el Apendice A. Cada

base de datos la evaluamos individualmente, y para cada experimento utilizamos un

esquema de validacion cruzada (5-fold) para comprobar la bondad de cada modelo.

En la tabla 2.2 se muestra el resultado de cada uno de estos experimentos, en

general, la mayorıa de los experimentos utilizan imagenes de caras que no han sido

alineadas manualmente excepto en el caso de la base de datos FERET. En este

caso particular, realizamos un experimento para aquellas imagenes que estaban no

alineadas (Columna FERET, en tabla 2.2) y, otro, para las imagenes que fueron

2.4 Experimentos 35

10−3

10−2

10−1

88

89

90

91

92

93

94

95

96

GAMMA

Tasa d

e a

cie

rto

CHILE−UCN

C1

C10

C1000

(a) Experimento UCN

10−3

10−2

10−1

72

74

76

78

80

82

84

86

88

90

X: 0.044

Y: 87.22

GAMMA

Tasa d

e a

cie

rto

PAL

C1

C21

C991

(b) Experimento PAL

10−3

10−2

10−1

85

86

87

88

89

90

91

92

93

94

GAMMA

Tasa d

e a

cie

rto

FERET

C1

C101

C991

(c) Experimento FERET no alineado

10−3

10−2

10−1

80

82

84

86

88

90

92

94

GAMMA

Tasa d

e a

cie

rto

FERET−ALIGN

C1

C11

C991

(d) Experimento FERET alineado

Figura 2.8: Pruebas sobre un clasificador SVM+RBF utilizando diferentes parame-

tros C y γ para varias bases de datos.

alineadas manualmente (Columna FERET alineadas, en tabla 2.2).

De los resultados obtenidos en cada uno de los experimentos se puede observar

que para cada clasificador sobre una unica base de datos se obtiene un comporta-

miento distinto dependiendo de diferentes factores que son discutidos a continuacion:

Alineamiento manual vs caras no alineadas. Uno de los primeros resultados

visibles que encontramos en la Tabla 2.2 es que no encontramos una diferencia

significativa entre los rendimientos de los clasificadores entrenados con image-

nes de caras alineadas manualmente o las que utilizamos directamente desde el

detector de caras. Confirmando los resultados previos obtenidos por Makınen


y otros [MR08a]. Creemos que esto se debe a la capacidad del detector de caras

de entregar imagenes lo suficientemente alineadas para ser utilizadas directa-

mente por el clasificador sin perjudicar significativamente su rendimiento.

Para confirmar esta hipotesis realizamos un pequeno experimento utilizando

las imagenes alineadas de la galerıa FERET fa. Sobre estas aplicamos el detector

de caras implementado en OpenCV . A partir de la informacion conseguida de

las coordenadas originales (etiquetadas manualmente) y las obtenidas por el

detector de caras, dibujamos la distribucion de coordenadas originales dentro

de la ventana adquirida desde el detector de caras ajustada a una imagen de

25 × 25 pıxeles, ver Figura 2.9. La desviacion estandar de los nuevos puntos

coordenados es de 0.5 pıxel. Esto confirma que para caras escaladas a 25× 25

desde FERET fa la precision de detector de caras es cerca del la mitad de un

pıxel. Cabe observar, que esto es solo verdadero para la galerıa frontal de FERET

fa, obviamente, cuando las caras estan rotadas la precision del clasificador, en

terminos de tasa de acierto, deberıa disminuir.

5 10 15 20 25

5

10

15

20

25

Figura 2.9: Coordenadas de ojos manualmente etiquetados (puntos rojos y azules) a

partir de caras detectadas desde la galerıa FERET fa utilizando el detector de caras

de OpenCV.

Clasificacion LDA. En la clasificacion utilizando LDA logramos un 77,68 % de

tasa de acierto sobre FERET. En las pruebas no se considero la base de datos

PAL ya que la matriz Sm tiene un rango cercano a cero, causado por el pequeno

tamano de la muestra. Estos experimentos confirman los malos resultados ob-

tenidos por Moghaddam y Yang [MY02] utilizando LDA. Ellos obtuvieron un

86,07 % para el reconocimiento de genero en terminos de tasa de acierto, y

que incluso es superior al obtenido en nuestros experimentos. Esta diferencia

la podemos explicar por la forma en que desarrollaron sus experimentos, don-

de incluyeron imagenes de los mismos individuos en los diferentes folds para

2.4 Experimentos 37

la validacion de sus clasificadores. Ademas, contaban con un numero mayor

de imagenes (alrededor de 2000) que las utilizadas en nuestros experimentos.

Estos exiguos resultados preliminares nos llevan a pensar que esta pudo haber

sido la causa de que las subsecuentes aproximaciones hayan desestimado el

algoritmo LDA.

Por el contrario, si utilizamos LDA sobre una base de datos con un gran numero

de imagenes como las contenidas en UCN, con alrededor de 10000 imagenes,

obtenemos una tasa de acierto del 92,65 %. A partir estos resultados, se puede

concluir que a causa de la “maldicion” de la dimensionalidad, 993 imagenes no

son suficientes para suministrar informacion para que el LDA encuentre la o

las proyecciones correctas para un espacio de 625 dimensiones. Incrementando

el numero de imagenes de entrenamiento a 10000 ofrecemos suficientes datos

al LDA para llegar a obtener un clasificador competitivo.

De igual manera, si el problema es de alta dimensionalidad como en nuestro

caso (625 dimensiones) una base de datos como FERET (994 imagenes) no

entrega una buena solucion al usar LDA, a pesar de que Sm sea una matriz de

rango completo.

Clasificacion PCA+LDA. Uno de los principales motivos de mejora vistos has-

ta ahora es seleccionar de manera adecuada los mejores vectores propios cal-

culados a partir del algoritmo PCA. Esto nos permite construir vectores de

caracterısticas apropiados para el entrenamiento del subespacio LDA. En este

estudio probamos dos metodos para la seleccion de caracterısticas:

1. PCA+LDA (Pagina 24).

2. PCA-M+LDA (Pagina 27).

En cada caso, se utilizo el Algoritmo 2.1 y el Algoritmo 2.2, respectivamen-

te, para seleccionar las mejores dimensiones para el subespacio PCA. En la

Tabla 2.2 se muestran los resultados logrados para este procedimiento ite-

rativo. Se puede advertir que el LDA no tiene la capacidad para aprender

la mejor proyeccion cuando se utilizan pocas imagenes, como es el caso 993

imagenes (ver la columna FERET de la Tabla 2.2). Sin embargo, si aplicamos

una reduccion de la dimensionalidad antes del LDA, tal como PCA+LDA y

PCA-M+LDA, logramos rendimientos competitivos y comparables al estado

del arte. Estos resultados se obtienen a partir de un clasificador lineal y una

apropiada extraccion de caracterısticas.

En ambos casos, tanto para PCA+LDA como PCA-M+LDA, realizamos las

pruebas utilizando una validacion cruzada 5-fold iterativa, que incrementa el

numero de vectores propios calculados al aplicar PCA, previo al LDA para


buscar el mejor clasificador. Los graficos PCA-M+LDA y PCA+LDA mostra-

dos en la Figura 2.10 confirman el buen rendimiento conseguido al utilizar un

procedimiento de ordenamiento de los valores propios, y en consecuencia de

los vectores propios, generados por el PCA. Seleccionamos aquellos vectores

que contribuyen con una mayor varianza iterativamente, en grupos de diez en

diez, hasta lograr una tasa de acierto optima en la proyeccion generada por el

LDA. En las curvas mostradas en las figuras, observamos que en general para

el algoritmo que utiliza una proyeccion PCA-M+LDA obtenemos la mejor tasa

de clasificacion dentro de los 100 primeros vectores propios ordenados por los

ındices Ij y calculados a partir de la ecuacion 2.5. En las mismas circunstancias,

la mejor tasa de clasificacion para PCA+LDA se encuentra entre los primeros

130 vectores propios con una mayor varianza. Igualmente, confirmamos que al

usar una base de datos grande, como lo es UCN, el rendimiento del clasificador

no depende de las las dimensiones intermedias del subespacio generado por el

PCA. En este caso, se puede asegurar que el rendimiento del LDA tendra un

rendimiento equivalente si se aplica directamente sobre los datos originales o

sobre el subespacio intermedio generado por el PCA cuando se utilizan todas

sus dimensiones de proyeccion.

¿Cual es la razon para conseguir tan buenos resultados con los algoritmos

PCA+LDA y PCA-M+LDA? La razon de que los algoritmos PCA+LDA y

PCA-M+LDA sean exitosos se debe a que ellos disminuyen la maldicion de

la dimensionalidad del LDA ya que como paso previo solo seleccionamos las

direcciones mas discriminantes dadas por el PCA. En los experimentos mos-

trados, tanto el PCA+LDA como el PCA-M+LDA se comportan de manera

similar. Esto es porque en nuestro problema los vectores propios mas discri-

minantes son aquellos que tienen la mayor varianza, ya que la mayorıa de

las imagenes empleadas no tienen grandes cambios de iluminacion, son expre-

siones neutras y frontales. A consecuencia de esto, la mayor variabilidad se

concentra solo en las diferencias que observamos entre una persona u otra, y

por lo tanto los cambios de apariencia en el genero aparecen explicados en la

mayorıa de la varianza existente de los datos. En conclusion, para este tipo

de problemas los clasificadores lineales propuestos funcionan correctamente y

con rendimientos que bordean o igualan el estado del arte. Es probable que

esta afirmacion no sea completamente cierta en otras bases de datos de image-

nes donde los cambios de pose, calidad de adquisicion, iluminacion, entre otros

factores; sean diferentes o con mayor variabilidad que las consideradas en estos

experimentos.

Otro hecho interesante es que dependiendo del numero de imagenes, el nume-

ro de caracterısticas PCA necesarias para obtener una buena clasificacion es

2.4 Experimentos 39

0 100 200 300 400 500 6000.78

0.8

0.82

0.84

0.86

0.88

0.9

0.92

0.94

0.96

Número de características

Tasa d

e a

cie

rto

PCA + LDA

UCN

FERET

FERET ALIGN

(a)

0 100 200 300 400 500 6000.78

0.8

0.82

0.84

0.86

0.88

0.9

0.92

0.94

0.96


Tasa d

e a

cie

rto

PCA M+LDA

UCN

FERET

FERET ALIGN

(b)

Figura 2.10: Rendimiento de la clasificacion (variable Rj en el Algoritmo 2.1) a

medida que el subespacio intermedio PCA incrementa para (a) PCA+LDA y (b)

PCA-M+LDA.


distinto (p. ej. En la base de datos FERET los resultados obtenidos utilizando

PCA, Tabla 2.2, necesitaron 130 caracterısticas mientras que en el caso de la

base de datos UCN fueron necesarias 460). Estos resultados se oponen a los

encontrados en la literatura donde generalmente se utiliza un numero fijo de

caracterısticas para la clasificacion o se calcula por medio de la proporcion de

varianza explicada [ZM06a], ambos metodos no son los mas indicados para una

buena seleccion de caracterısticas. Como resultado de esto, advertimos que es

necesario considerar una correcta seleccion de las caracterısticas PCA antes de

la clasificacion.

Clasificacion ICA+LDA. Otro resultado interesante es el de estimar el subespa-

cio intermedio utilizando ICA en lugar de PCA. En el Algoritmo 2.3 mostramos

como estimar la dimension del subespacio y obtener las mejores caracterısticas

para la etapa de clasificacion. En la Tabla 2.2 y en la Figura 2.11 se mues-

tran los resultados de nuestros experimentos. No es sorprendente observar que

los resultados para ICA+LDA y PCA+LDA sean muy similares. Al mismo

tiempo, ambas aproximaciones tienen las mismas tasas de clasificacion cuando

el numero de caracterısticas seleccionadas es lo suficientemente grande, ver

Fig. 2.12. Estos resultados eran teoricamente previsibles, puesto que, FastICA

es equivalente a blanqueado del PCA mas una rotacion [VHH07] y LDA es

una tecnica que es invariante a la rotacion, en ese sentido tanto PCA+LDA

como FastICA son equivalentes cuando no realizamos una seleccion de carac-

terısticas.

0 100 200 300 400 500 600

0.76

0.78

0.8

0.82

0.84

0.86

0.88

0.9

0.92

0.94

0.96


Tasa d

e a

cie

rto

ICA+LDA, Distancia a la media

UCN DBFERETFERET ALign

Figura 2.11: Rendimiento de la clasificacion (variable Rj en el Algoritmo 2.3) a

medida que el subespacio intermedio ICA incrementa para ICA+LDA.

2.4 Experimentos 41

Para los experimentos realizados con ICA+LDA utilizamos una base datos

de prueba con 993 individuos seleccionados desde Color FERET. Siguiendo el

mismo camino utilizado para los algoritmos PCA+LDA o PCA-M+LDA, rea-

lizamos las pruebas con un numero diferente de caracterısticas ICA antes de

utilizar LDA con un esquema de validacion cruzada 5-fold (ver Tabla 2.2 y

Figura 2.11) un clasificador Bayesiano (Tabla 2.2, fila ICA+LDA).

Un resultado empırico interesante es que tanto las aproximaciones ICA+LDA

y PCA+LDA tienen las mismas tasas de clasificacion cuando el numero de ca-

racterısticas seleccionadas es lo suficientemente grande (ver Figura 2.12). Este

resultado no contradice lo explicado anteriormente y confirma los resultados

obtenidos [VHH07].

De la misma manera, Jain y Huang publicaron una tasa de acierto del 99,3 %

en un experimento utilizando FastICA+LDA y un clasificador euclıdeo [JH04].

Probaron su aproximacion con 500 imagenes utilizando la base de datos FERET.

Para el entrenamiento utilizaron 200 imagenes (100 hombres y 100 mujeres)

y las 300 imagenes restantes (150 hombres y 150 mujeres) se utilizaron para

pruebas. Ademas, alinearon las imagenes utilizando la posicion de los ojos, las

ecualizaron, agregaron una mascara para evitar la influencia del fondo en la

imagen y, finalmente, las redimensionaron a una escala de 64×96 pıxeles. Para

construir el clasificador utilizaron 200 caracterısticas ICA (las mismas que el

numero de imagenes que fueron utilizadas para el entrenamiento). Dentro de

los experimentos desarrollados, no nos fue posible reproducir los resultados

obtenidos por Jain y Huang [JH04]. En los experimentos realizados, la mejor

tasa de acierto obtenida fue 93,57 %, y que coincide con los experimentos

PCA+LDA y PCA-M+LDA. La razon mas probable de esta discrepancia entre

los resultados de [JH04] y los presentados en la Tabla 2.2, se deba a que

utilizaron una base de datos pequena y que sus evaluaciones pueden haber

estado sesgadas.

Base de datos de Makinen and Raisamo. Finalmente, por completitud, pro-

cesamos el mismo conjunto de datos usados por Makinen y Raisamo en sus

experimentos [MR08a]. Para esto empleamos el mismo procedimiento descrito

en este capıtulo (deteccion de la cara, ecualizacion del histograma y recorte

de la imagen). Debido al tamano de la base de datos, desarrollamos todos los

experimentos excepto el que utiliza LDA sin un subespacio intermedio, debido

a que la muestra de imagenes no es lo suficientemente grande para condicionar

bien la matriz Sm.

Una vez entrenados los clasificadores con los Algoritmos 2.1, 2.2 y 2.3 con

el conjunto de imagenes de entrenamiento y pruebas propuesto por Makinen

and Raisamo (304 imagenes y 107 imagenes, respectivamente) calculamos la


0 100 200 300 400 500 6000.8

0.82

0.84

0.86

0.88

0.9

0.92

0.94


Tasa d

e a

cie

rto

PCA+LDA vs ICA+LDA (FERET)

PCA+LDAICA+LDA

(a)

0 100 200 300 400 500 6000.78

0.8

0.82

0.84

0.86

0.88

0.9

0.92

0.94

0.96


Tasa d

e a

cie

rto

PCA+LDA vs ICA+LDA (UCN)

PCA+LDAICA+LDA

(b)

Figura 2.12: Comparacion entre PCA+LDA y ICA+LDA utilizando las bases de

datos FERET (a) y UCN (b).

2.4 Experimentos 43

bondad de cada clasificador, ver Tabla 2.1. Estos resultados confirman el nota-

ble rendimiento logrado por los metodos lineales. Estos experimentos tambien

corroboran la equivalencia entre la implementacion SVM que utilizamos y la

publicada en [MR08a], donde lograron un 82,62 % de tasa de acierto en image-

nes de 24× 24 pıxeles. En nuestro experimentos logramos una tasa de acierto

81,30 % para imagenes de 25× 25 pıxeles.

Clasificador Base de Datos: Makınen & Raisamo

SVM+RBF 81,30 % (156)

PCA+LDA 85,98 % (48)

PCA-M+LDA 85,04 % (56)

ICA+LDA 85,98 % (48)

Tabla 2.1: Tasas de acierto para el conjunto de imagenes seleccionadas por Makinen

y Raisamo [MR08a]. En la fila SVM+RBF , se muestra la tasa de acierto obtenida y

entre parentesis los vectores de soporte utilizados por el clasificador. Para los resulta-

dos PCA/ICA, se muestra la tasa de acierto obtenida y el numero de caracterısticas

retenidas antes de aplicar LDA entre parentesis.

Finalmente, los resultados mostrados en la Tabla 2.1 muestran, de nuevo, el

buen rendimiento de los metodos lineales (ver fila PCA+LDA, PCA-M+LDA

e ICA+LDA en la tabla) y una mejor capacidad de generalizacion de estos

metodos sobre SVM+RBF , en el caso de clasificacion de genero.

Un ultimo asunto a considerar es la sensibilidad de los clasificadores frente a

los giros de la cara fuera del plano de rotacion . En este experimento, entrenamos

los diferentes clasificadores con las 304 imagenes de caras frontales del subconjunto

seleccionado por Makinen and Raisamo [MR08a] de la base de datos Gray FERET.

Para las pruebas se utilizaron 1008 imagenes tomadas en diferentes orientaciones

horizontales de la cara de la misma base de datos. A diferencia de la mayorıa de

los experimentos desarrollados en este capıtulo, se alinearon las caras manualmente

debido a que para angulos extremos el detector de caras perdıa la mayorıa de estas.

En la Figura 2.13 se muestran los resultados de estas pruebas. Las asimetrıas vistas

en el grafico son causadas por que algunas imagenes de entrenamiento que han sido

rotadas levemente hacia angulos negativos. En promedio, todos los metodos tienen

un rendimiento similar, mostrando un mejor rendimiento en los angulos de rotacion

negativos mas extremos con respecto a los angulos positivos. Para los algoritmos

basados en Boosting observamos un rendimiento levemente mejor para los rangos

negativos, mientras que los metodos lineales son marginalmente superiores en los

rangos positivos.


ClasificadorBase de Datos

FERET FERET Alineada PAL UCN

SVM+RBF93,95±2,60 % (247)

C=100; γ = 0, 001

93,46±1,65 % (314)

C=10; γ = 0, 003

89,81±1,55 % (320)

C=20; γ = 0, 01

95,39±0,21 % (1891)

C=100; γ = 0, 002

PCA+LDA 93,33±2,33 % (130) 93,57±1,39 % (120) 85,52±3,01 % (180) 92,86±0,64 % (460)

PCA-M+LDA 92,83±0,75 % (100) 93,57±1,25 % (60) 84,83±1,98 % (140) 92,86±0,77 % (300)

ICA+LDA 93,33±2,33 % (130) 93,57±1,39 % (120) 85,52±3,01 % (180) 92,86±0,64 % (460)

LDA 77,68±2,61 % 77,09±2,26 % —— 92,65±0,65 %

Baluja625 92,12±1,36 % 93,17±1,65 % 85,86±2,48 % 93,87±0,64 %

Baluja1000 93,33±1,06 % 93,07±1,99 % 87,24±1,27 % 94,67±0,30 %

Tabla 2.2: Tasas de clasificacion y desviacion estandar sobre una unica base de

datos para entrenamiento y pruebas utilizando validacion cruzada 5-fold. En las filas

SVM y LDA, respectivamente, se muestra entre parentesis el numero de vectores

de soporte o el numero de caracterısticas capturadas para antes de realizar el LDA.

Para el caso del SVM tambien se muestran los mejores parametros C y γ.

−60 −40 −20 0 20 40 600.5

0.55

0.6

0.65

0.7

0.75

0.8

0.85

0.9

0.95

Ángulo en grados

Tasa

de a

ciert

o

PCA+LDA

PCA−M+LDA

Baluja625

Baluja1000

SVM−RBF

Sensibilidad de los clasi cadores fuera del plano de rotación

Figura 2.13: Sensiblidad de los clasificadores para giros de la cara fuera del plano de

rotacion.

2.4 Experimentos 45

En general, el rendimiento de todos los experimentos con clasificadores sobre una

unica base de datos es muy similar a lo visto en el estado del arte. Sin embargo, en

la Tabla 2.2 podemos observar una significativa diferencia de rendimiento cuando

empleamos un gran conjunto de imagenes para el entrenamiento de un clasificador,

como es el caso de UCN. El clasificador SVM+RBF muestra el mejor rendimiento, lo

que ratifica los resultados equivalentes entrados en [MR08a, BR07].

2.4.2. Pruebas con cruce de base de datos

En estos experimentos efectuamos un conjunto de pruebas de clasificacion cru-

zando bases de datos. Es decir, se utilizo una base de datos para el entrenamiento

del clasificador y otra base de datos totalmente diferente para probar su rendimien-

to. La idea principal de este tipo de experimentos es poder evaluar la capacidad

de generalizacion que tienen los clasificadores al enfrentar conjuntos de imagenes

nuevas con condiciones ambientales diferentes (razas, edades, iluminaciones, dispo-

sitivos de captura, etc.). Para esta segunda etapa de experimentos, los algoritmos

lineales usaron la mejor dimension del subespacio previo obtenido en los entrena-

mientos realizados sobre una unica base de datos, Seccion 2.4.1. Los resultados de

estos experimentos se pueden observar en la Tabla 2.3.

Con el proposito de ilustrar de mejor manera el comportamiento obtenido en los

experimentos realizados, esquematizamos un conjunto de histogramas para mostrar

el comportamiento de los clasificadores basados en la proyeccion PCA+LDA. En

la Figura 2.14(a) y Figura 2.14(b) mostramos la frecuencia obtenida a partir de las

imagenes del conjunto de pruebas proyectadas sobre el espacio generado PCA+LDA

del conjunto de entrenamiento. En ambas figuras se muestra el caso extremo de

proyectar el conjunto de pruebas sobre el subespacio generado PCA+LDA de la

misma base de datos. Donde observamos que la distribucion entre las proyeccio-

nes asociadas a hombres y mujeres tienen una clara forma Gaussiana. Igualmente,

realizamos el mismo tipo de esquemas cruzando bases de datos distintas. En las

Figura 2.14(c), Figura 2.14(d), Figura 2.14(e) y Figura 2.14(f) notamos que las

proyecciones PCA+LDA del conjunto de pruebas muestran una clara tendencia a

distribuciones Gaussianas, sin embargo, esto no es tan evidente en los casos cuando

las bases de datos contienen imagenes con grandes cambios de apariencia debido a

su demografıa, por ejemplo PAL. Adicionalmente, advertimos en los resultados obte-

nidos de los conjuntos de pruebas donde hay cambios bruscos de demografıa, que las

distribuciones entre hombres y mujeres tienden a estar mas solapadas lo que tiene un

impacto directo en la capacidad discriminante del clasificador y su rendimiento. En


−100 −50 0 50 1000

500

1000

1500Hombre

Mujer

Fre

cuen

cia

Entrenamiento: UCN Prueba: UCN

PCA+LDA−200 −100 0 100 200

0

20

40

60

80HombreMujer

Fre

cuen

cia

Entrenamiento: FERET Prueba: FERET

PCA+LDA

(a) (b)

−100 −50 0 50 1000

50

100

150Entrenamiento:UCN Prueba:FERET

HombreMujer

Fre

cuen

cia

PCA+LDA−300 −200 −100 0 100 200 300

0

100

200

300

400

500

600Hombre

Mujer

Fre

cuen

cia

Entrenamiento: FERET Prueba: UCN

PCA+LDA

(c) (d)

−100 −50 0 50 1000

20

40

60

80Hombre

Mujer

Fre

cuen

cia

Entrenamiento: UCN Prueba: PAL

PCA+LCA−200 −100 0 100 200

0

10

20

30

40

Hombre

Mujer

Fre

cuen

cia

Entrenamiento: FERET Prueba: PAL

PCA+LDA

(e) (f)

Figura 2.14: Los histogramas muestran la frecuencia de los valores proyectados de las

imagenes de pruebas dentro del subespacio PCA+LDA calculadas desde el conjunto

de imagenes de entrenamiento. Los histogramas (a) y (b) muestran el caso extremo

de entrenar y proyectar el conjunto de pruebas sobre la misma base de datos. Los

histogramas (c) y (d) muestran las proyecciones con un conjunto de entrenamiento

y pruebas diferentes pero con un grupos demograficos similares. Finalmente, los

histogramas (e) y (f) muestran las proyecciones con un conjunto de entrenamiento

y pruebas diferentes con grupos demograficos diferentes.

2.4 Experimentos 47

ClasificadorEntrenamiento/Pruebas

FERET/UCN UCN/FERET FERET/PAL UCN/PAL

SVM+RBF 81,29 % 91,03 % 67,53 % 79,27 %

PCA+LDA 80,90 % 88,72 % 70,64 % 72,88 %

PCA-M+LDA 80,35 % 88,92 % 71,50 % 73,23 %

LDA 72,99 % 88,72 % 63,73 % 73,75 %

Baluja625 83,75 % 90,72 % 68,39 % 74,61 %

Baluja1000 84,18 % 89,85 % 70,12 % 73,57 %

ClasificadorEntrenamiento/Pruebas

PAL/FERET PAL/UCN Mak-ba/PAL Mak-ba/UCN

SVM+RBF 78,65 % 74,09 % 64,07 % 60,86 %

PCA+LDA 74,32 % 76,53 % 75,47 % 72,11 %

PCA-M+LDA 76,13 % 76,09 % 70,12 % 67,16 %

LDA —— —— —— ——

Baluja625 77,14 % 75,18 % 71,50 % 65,24 %

Baluja1000 78,85 % 76,23 % 65,53 % 61,43 %

Tabla 2.3: Tasas de clasificacion para experimentos con cruce de base de datos (Base

de datos de entrenamiento/Base de datos de pruebas).

la Tabla 2.3 observamos este hecho cuando utilizamos FERET o UCN como conjunto

de entrenamiento y PAL como conjunto de pruebas, el rendimiento del clasificador

cae entre un 10 % y 20 % aproximadamente en terminos de tasa de acierto. A pesar

de estos resultados, la aproximacion que utiliza LDA logra resultados comparables a

las de un clasificador SVM+RBF cuando este se entrena con suficientes datos y con

una seleccion adecuada de caracterısticas previas. Los algoritmos LDA y SVM+RBF

no pueden generalizar tan bien como PCA+LDA o PCA-M+LDA en las pruebas

FERET/PAL. Esto se puede deber al sobreajuste generado al entrenar el clasificador

con la base de datos FERET.

Como complemento a lo anterior, y para relacionar la informacion contenida en

el valor de la proyeccion LDA, mostramos la imagen retroproyectada de este cuando

entrenamos el LDA utilizando las imagenes de la base de datos FERET. Se puede

apreciar en la Figura 2.15 que las imagenes obtenidas a partir del LDA con valores

negativos generan caras que tiene una apariencia mas relacionada con el genero

masculino, por otro lado, las proyecciones mas positivas muestran reconstrucciones

de imagenes con una apariencia mas femenina.

Finalmente, y desde de los resultados obtenidos en la Tabla 2.3 y la Figura 2.14


LDA: −150 LDA: −137 LDA: −124 LDA: −111 LDA: −98 LDA: −85 LDA: −72 LDA: −59

LDA: −46 LDA: −33 LDA: −20 LDA: −7 LDA: 6 LDA: 19 LDA: 32 LDA: 45

LDA: 58 LDA: 71 LDA: 84 LDA: 97 LDA: 110 LDA: 123 LDA: 136 LDA: 149

Figura 2.15: Reconstruccion de la imagen de una cara a partir de su proyeccion

LDA.

observamos que, al igual que los resultados encontrados en los experimentos para

una unica base de datos, el rendimiento de los clasificadores es diferente dependiendo

del tipo de base de datos que utilicemos para el entrenamiento y las pruebas. A

continuacion se discuten los resultados:

Cruces con grupos demograficos similares. Las bases de datos FERET y UCN

tienen similar demografıa pero con diferentes condiciones de adquisicion. Las

pruebas entre las bases de datos FERET y UCN nos muestran resultados similares

a los discutidos en las pruebas sobre una unica base de datos, Seccion 2.4.1. Sin

embargo, existe una notoria disminucion en el rendimiento cuando entrenamos

un clasificador usando la base de datos FERET y luego probamos con la base

de datos UCN (FERET/UCN), quizas causado por las condiciones mas generales

de adquisicion de las imagenes que se encuentran en la base de datos UCN.

Tambien, observamos que los resultados obtenidos en FERET/UCN son bastante

malos, en comparacion con el resto, utilizando el clasificador LDA. Sin embar-

go, cuando en el entrenamiento utilizamos las imagenes de la base de datos

UCN y luego la probamos empleando la base de datos FERET (UCN/FERET), la

aproximacion LDA puede competir con otros procedimientos de clasificacion.

Este resultado confirma los experimentos previos que realizamos sobre una

unica base de datos.

Cruces con grupos demograficos diferentes. El cruce de base de datos entre

PAL, FERET y UCN implica una mayor exigencia en terminos de las capacidades

2.4 Experimentos 49

de generalizacion del clasificador. Por ejemplo, cuando utilizamos PAL obser-

vamos que la demografıa es muy diferente a la que encontrarıamos en FERET y

UCN. PAL es una base de datos que incluye diferentes grupos etnicos y un amplio

rango de edades, ver Figura 2.5. Tanto FERET como UCN son demograficamente

hablando un subconjunto de PAL. Estas diferencias en las condiciones de ad-

quisicion entre las diferentes bases de datos nos permite destacar el impacto

que tienen estas al entrenar un clasificador. Si el entrenamiento se hace sobre

una base de datos grande, el clasificador SVM+RBF claramente logra el mejor

rendimiento (UCN/PAL). Cuando el entrenamiento es sobre bases de datos mas

pequenas (PAL y FERET), la diferencia entre rendimientos llega a ser mas estre-

cha. En los casos mas complicados, como el cruce FERET/PAL, dado que base

de datos FERET cuenta con una variedad demografica de caras y condiciones de

iluminacion muy homogeneas; y el cruce PAL/UCN, donde la base de pruebas

UCN contiene imagenes con condiciones de adquisicion variables, el desempeno

del clasificador SVM+RBF esta ligeramente por detras de las aproximaciones

de boosting y clasificadores lineales, siendo este ultimo clasificador el que ob-

tuvo el mejor rendimiento. En las pruebas PAL/FERET las aproximaciones de

SVMs y boosting son marginalmente mejores, a pesar de que PAL es una base

de datos pequena. Esto quizas se deba a que PAL ofrece una amplia demografıa

en caras, especialmente en lo que se refiere a tipos de razas y rango de edades.

Tamano de la base de datos. Los experimentos, junto con el analisis de sensibi-

lidad de la Seccion 2.4.1, parecen sugerir que los clasificadores lineales tienden

a ser mejores en situaciones donde los datos son muy escasos y con baja varia-

bilidad (p. ej. con demografıa restringida). Para confirmar esta hipotesis hemos

desarrollado un ultimo experimento entrenando los clasificadores con la galerıa

FERET propuesta por Makinen and Raisamo [MR08b], pose-ba, la cual contiene

112 imagenes de caras frontales (56 de hombres y 56 de mujeres) y donde la ma-

yorıa de estas son caucasicos. Las bases de pruebas que seleccionamos son PAL

y UCN debido a su variabilidad demografica y/o de condiciones de adquisicion.

Para el entrenamiento de los clasificadores empleamos el mismo procedimien-

to de la Seccion 2.4.1. Los parametros utilizados para el entrenamiento de los

clasificadores son: 1) C=10 y γ = 0, 007 para SVM+RBF , 2) 37 caracterısti-

cas para PCA+LDA y 3) 80 caracterısticas para PCA-M+LDA. En este caso,

ver las columnas Mak-ba/PAL y Mak-ba/UCN en la Tabla 2.3, las diferencias

de rendimientos entre los clasificadores es bastante grande. SVM+RBF tie-

ne un rendimiento mas bajo en comparacion al clasificador PCA+LDA que

esta claramente por delante del resto.


Analisis de los errores de clasificacion

Como es evidente, los clasificadores presentan errores en su estimacion. En esta

seccion, analizaremos algunos de los errores de clasificacion encontrados en los ex-

perimentos FERET/PAL porque son posiblemente el conjunto de datos mas desafiante

en terminos de generalizacion requerida para un clasificador (ver Figura 2.16). Los

errores encontrados son causados principalmente por los cambios de apariencia en-

tre las diferentes edades o razas que no se encuentran presentes en los conjuntos de

entrenamiento. Por ejemplo, en el caso de FERET tenemos muy pocas imagenes de

mujeres ancianas, esto presenta una gran desventaja cuando probamos el clasifica-

dor con la base de datos PAL. En este experimento, gran parte de las imagenes son

clasificadas como hombres (ver las primeras dos imagenes en la segunda fila de la

Figura 2.16).

De igual manera, la mayorıa de las imagenes en FERET son caucasicos (de raza

blanca). Por consiguiente es mas probable que las muestras en PAL que pertenezcan a

otras razas sean mas difıciles de clasificar. Finalmente, incluso con razas y diferentes

rangos de edades en el conjunto de entrenamiento hay caras que son difıciles de

clasificar (ver las primeras dos imagenes en la primera fila o la tercera imagen en la

segunda fila de la Figura 2.16).

Figura 2.16: Algunos ejemplos de imagenes clasificadas erroneamente cuando se

entrena con FERET y se prueba con las imagenes de PAL. La primera fila, muestra

imagenes hombres clasificadas como mujeres. La segunda fila, muestra las imagenes

de mujeres clasificadas como hombres.

2.4.3. Analisis del coste computacional

El rendimiento en la clasificacion, en terminos de tasas de acierto, no es el unico

parametro a medir cuando trabajamos en desarrollo de herramientas para el analisis

facial. El coste computacional tambien es un factor clave cuando se procesan millones

2.5 Conclusiones 51

de imagenes [BR07] o cuando se implementan estos algoritmos en dispositivos tales

como telefonos moviles o en camaras IP. En terminos de coste computacional los

algoritmos de comparacion de pıxeles, como el clasificador de tipo Boosting usado

por Baluja [BR07], y los clasificadores lineales son los algoritmos mas rapidos para

reconocimiento de genero. El algoritmo de Baluja selecciona pares de pıxeles y luego

compara sus niveles de gris, esta operacion es muy simple y rapida para calcular sus

caracterısticas de manera eficiente. Por ejemplo, el clasificador Baluja625 harıa del

orden de 625 operaciones para clasificar una imagen. En el caso de los clasificadores

lineales, el tamano de la matriz de proyeccion es independiente de la dimension

intermedia PCA. Las matrices de proyeccion PCA+LDA y PCA-M+LDA son, de

hecho, un vector cuyo tamano es el numero de pıxeles en la imagen. La clasificacion es

el resultado de la umbralizacion de la imagen proyectada, cuyo resultado es tambien

1× 25× 25 = 625 operaciones para clasificar una imagen.

Por otro lado, la tarea de prediccion empleando un clasificador SVM+RBF siem-

pre sera mucho mas exigente en terminos de coste computacional. Por ejemplo, se-

leccionemos un clasificador SVM+RBF con una cantidad relativamente pequena de

vectores de soporte como los mostrados en la Tabla 2.2 en la columna FERET. El

clasificador SVM+RBF necesita 247× 25× 25 = 154,375 operaciones entre pıxeles

para poder clasificar una imagen. En el caso particular de la base de datos UCN el

numero de operaciones se incrementa y es de 1,891× 25× 25 = 1,181,875, las cuales

son ordenes de magnitud mas grandes que las aproximaciones lineales y de Boosting.

2.5. Conclusiones

En este capıtulo hemos revisado el estado del arte en el reconocimiento de gene-

ro. En los experimentos con bases de datos individuales, este trabajo confirma los

resultados previos encontrados en la literatura sobre el rendimiento de los clasi-

ficadores como SVM s y los algoritmos de Boosting, que utilizan comparacion de

pixeles [BR07, MR08a], siendo el primero ligeramente superior cuando se trabaja

con grandes bases de datos. Tambien, hemos comprobado que las tecnicas lineales

pueden lograr tasas de acierto similares dentro de ese contexto. Asimismo, hemos

confirmado experimentalmente que las tecnicas lineales basadas en ICA+LDA son

equivalentes a las PCA-M+LDA y PCA+LDA. Esto no de sorprender ya que la ma-

yorıa de los algoritmos implementados para ICA son equivalentes a un blanqueado

de PCA mas una rotacion.

Con la excepcion de [MR08b], las comparaciones experimentales entre los di-


ferentes algoritmos de clasificacion de genero encontrados en la literatura se han

realizado sobre una unica base de datos. Hemos probado empıricamente que los ex-

perimentos desarrollados sobre una sola base de datos estan sesgados de manera

optimista. Esto se debe, principalmente, a que las condiciones de demografıa y ad-

quisicion son usualmente similares en las imagenes de una misma base de datos, y

que estas condiciones tienen un impacto positivo en el rendimiento del clasificador.

Las diferencias surgen cuando entrenamos y probamos los clasificadores en diferentes

bases de datos donde observamos caıdas en el rendimiento del clasificador.

En cuanto al tamano de la muestra, encontramos que si hay 10.000 o mas image-

nes para el entrenamiento, SVM+RBF es el mejor clasificador. En una prueba mas

complicada UCN/PAL este logra una tasa de acierto del 80 %, con un coste requeri-

do de 106 operaciones sobre pıxeles para poder clasificar una imagen. Si, por otro

lado, se tiene restricciones de tiempo o de recursos computacionales, las aproxima-

ciones de Boosting y clasificadores lineales logran aproximadamente un 75 % de tasa

de acierto con solo 625 operaciones. Si hay pocos datos de entrenamiento (500 a

1000 ejemplos) con una amplia demografıa, entonces todos los enfoques probados

logran similares tasas de clasificacion. Finalmente, si los datos de entrenamiento son

escasos (300 imagenes o menos) y con una demografıa limitada, la aproximacion

PCA+LDA es la mejor eleccion. El exito para una tecnica lineal tan simple, dentro

de este contexto, se debe posiblemente a la alta dimensionalidad del espacio de datos

de entrada, lo que hace innecesario un paso de kernelizacion previo para lograr la

separabilidad lineal, y que la mayorıa de las imagenes son frontales.

Por otro lado, encontramos evidencia experimental que apoya la existencia de

dependencias entre diferentes variables demograficas como el genero, la edad, y la

raza. Cuando un clasificador de genero se entrena con un conjunto de datos de poca

variabilidad demografica (FERET o UCN), y luego se prueba con conjuntos de datos

de una amplia variabilidad demografica, como el caso de la base de datos PAL, la

tasa de acierto cae significativamente. Estas relaciones o dependencias entre la esti-

macion de genero, la edad [GMF+09] o la etnia [AW09] tambien fueron encontradas

en otras publicaciones. Creemos que es posible desarrollar nuevos espacios para la

investigacion sobre genero, y en general para la clasificacion demografica, donde se

tomen en cuenta las relaciones entre el genero, la edad y la etnia con el proposito

de mejorar la clasificacion.

En los ultimos anos, muchas investigaciones se han centrado en resolver el pro-

blema de analisis discriminante lineal cuando Sm o SW son matrices singulares, p.

ej., [ZZ05, ZZZ04, YJPP04]. A partir de los experimentos presentados podemos

concluir que una muestra pequena puede comprometer seriamente el rendimiento

2.5 Conclusiones 53

de un clasificador discriminante lineal, incluso si las matrices de covarianza no son

singulares. Para dar solucion a este problema, hemos probado experimentalmente

que escoger una correcta dimension intermedia como paso previo a la proyeccion

del subespacio LDA mejora su considerablemente el rendimiento del clasificador, a

pesar de no contar con datos suficientes.

Capıtulo 3

Regresores Demograficos

Unidimensionales

Cada cual tiene la edad de sus emociones

Anatole Francois Thibault

RESUMEN: El paso inicial en la mayorıa de los sistemas de estimacion de

edad consiste de una alineacion precisa a la salida de un detector de caras

(p. ej. Modelos de apariencia activa (AAM, Active Appearance Models)). Este

proceso de ajuste es muy costoso en terminos de recursos computaciones y es

propenso a atascarse en mınimos locales. Esto hace difıcil su aplicacion en el

analisis de caras cuando contamos con dispositivos de recursos computacio-

nales limitados. En este capıtulo, desarrollamos un estimador de edad basado

en un regresor no lineal que utiliza como entrada las caras recortadas obte-

nidas por un detector. Nuestro procedimiento emplea un regresor basado en

K-NN y una distancia basada en el Analisis Discriminante Lineal (LDA). En

los experimentos, logramos un Error Absoluto Medio (MAE ) de 5.72 anos en

la base de datos FG-NET con caras alineadas manualmente, y cuyo resultado

se encuentra dentro del estado del arte. Para caras sin alinear, usando direc-

tamente la salida de un detector de caras, obtenemos un MAE de 6.87 anos

sobre la misma base de datos. Al igual que en el capıtulo anterior, utilizamos

en nuestros experimentos cruces de bases de datos, obteniendo un MAE 12

anos, lo que es representativo del rendimiento real esperable.

55

56 Regresores Demograficos Unidimensionales

La estimacion de la edad es una de las tareas mas desafiantes y esenciales

para nuestra convivencia. Los seres humanos nos organizamos dependiendo

de nuestra edad, y muchas de las normas sociales que respetamos estan

asociadas a un rango de edad especıfico. Para los seres humanos la estimacion de

la edad es una tarea relativamente sencilla. Por el contrario, para una computador

es una tarea mucho mas compleja debido a la gran cantidad de parametros que

es necesario considerar para realizar una buena estimacion. Cuando estimamos el

atributo facial de la edad, utilizamos diferentes pistas visuales: apariencia facial, la

manera de caminar, la forma de vestir o el estilo de peinado entre muchas otras. El

ser humano no solo se apoya en caracterısticas visuales sino tambien en otras como es

el caso de la voz. Adicionalmente, esta tarea se complica, aun mas, si consideramos

que la apariencia visual puede variar dependiendo del tipo de persona y que en

ocasiones no refleja la edad real con exactitud. Entre los diferentes factores que

influyen en la apariencia de la edad podemos considerar: el ambiente donde vive, las

condiciones de salud, habitos alimenticios, condiciones de trabajo, fumar, drogas,

tiempo de exposicion al sol, etc. [YFH10], ver Figura 3.1.

La estimacion automatica de edad tiene interesantes aplicaciones, como por ejem-

plo, hacer cumplir las restricciones legales de edad para el uso de maquinas expende-

doras, estudios automaticos de marketing en centros de compras, medir la audiencia

en television, publicidad comercial orientada por la edad, identificacion de personas

basadas en fotografıas antiguas, estimar la edad automaticamente desde secuencias

de vıdeos para uso policial, etc. En publicaciones previas, este tipo de aplicaciones se

han implementado en funcion del tipo de tarea de prediccion que se desea realizar:

como un problema de clasificacion multi-clase, donde nos interesa predecir grupos de

edad (p. ej. bebes, jovenes, adultos, ancianos, etc.) o como un problema de regresion.

3.1. Regresor de Edad

Cuando entrenamos un estimador de edad, f , con salidas esperadas cuyos valores

son numericos y que pueden ser listados y ordenados [Blu11, HTF09] hablamos de

un regresor. Un regresor tiene la capacidad de estimar variables de salida de tipo

cuantitativo. Las variables cuantitativas son aquellas que se expresan por un numero

y es posible realizar operaciones matematicas entre ellas. Estas variables pueden ser

discretas, es decir, son aquellas que toman valores aislados y que no admite valores

intermedios en dos valores observados. Por ejemplo, cuando la variable observada

explica el numero de hijos en una familia, el numero de estudiantes en una sala, el

numero de llamadas recibidas, etc. Cuando la variable de salida tiene un numero

3.1 Regresor de Edad 57

Figura 3.1: Imagenes que muestran el cambio en la apariencia de la edad cuando se

utilizan drogas en perıodos de tiempo relativamente cortos. (Fuente: Pelıcula “From

Drugs to Mugs”)

infinito de valores intermedios entre dos valores se dice que esta es del tipo continua.

Como por ejemplo, la temperatura del cuerpo, la altura, el peso o la edad de una

persona.

En el desarrollo de este capıtulo nos centraremos en el diseno e implementacion

de un estimador de edad basado en un regresor no-lineal y cuya salida sera una va-

riable continua. Tambien, evaluaremos el rendimiento de nuestro regresor utilizando

una medida de rendimiento llamada Error Absoluto Medio (MAE , Mean Absolute

Error). El MAE mide la magnitud promedio de todos los errores de un conjun-

to de estimaciones y no tiene en cuenta su direccion. Esta medida es util cuando

evaluamos salidas continuas. La Ecuacion 3.1 muestra como calcular esta medida,

MAE =1

N

M∑i=1

|yi − yi|, (3.1)

donde yi es la etiqueta real relacionada con la imagen de la cara e yi es la edad

estimada entregada por el algoritmo. Para la validacion del regresor y evitar el sesgo

en la pruebas se utilizara una tecnica denominada Leave One Person Out, LO-

PO . Este procedimiento de validacion cruzada selecciona un individuo para realizar

las pruebas y utiliza el resto de las imagenes como datos de entrenamiento para

construir el regresor, este procedimiento se repite para cada uno de los individuos

que pertenecen a la base de datos. A partir de los resultados obtenidos se calcula


el error total del estimador. Finalmente, los resultados seran comparados con los

encontrados en la literatura.

3.2. Estado del arte

La estimacion de la edad, a partir de una imagen de la cara, es un tema de

investigacion que ha tenido un crecimiento sostenido en estos ultimos anos. Princi-

palmente, por el surgimiento y desarrollo de nuevas tecnologıas y aplicaciones. Sin

embargo, y debido a la complejidad inherente de esta tarea, no encontramos un

gran numero de publicaciones asociadas a la estimacion de edad a diferencia de la

clasificacion de genero. Esto se debe, segun Fu [YFH10], a tres razones:

La estimacion de edad no es un problema de prediccion estandar.

Dado que, dependiendo de los diferentes escenarios de aplicacion esta tarea

puede ser implementada como una de clasificacion multi-clase (categorıas o

grupos de edades) o una de regresion (valores enteros o decimales).

No existen grandes bases de datos publicas de edad.

De una calidad apropiada y que contengan una serie cronologica de edades por

individuo.

La edad aparente de una cara puede no tener relacion con la edad real.

Esta es una variable que no podemos controlar y depende de diversos factores

individuales asociados a cada persona, ver Figura 3.1. La estimacion de la edad

real utilizando la cara, por tanto, puede ser una tarea imposible para algunos

individuos para los que la edad aparente diverge de la de otros individuos con

la misma edad.

En el presente capıtulo nos centraremos en el estudio de los problemas de regre-

sion, y como consecuencia, en la revision del estado del arte solo consideraremos este

tipo de problemas. La investigacion desarrollada en este capıtulo sobre estimadores

de edad se organiza dentro de dos grupos:

Los fuertemente alineados. La mayorıa de los algoritmos de estimacion de edad

estudiados dependen de un cuidadoso posicionamiento de la imagen de la cara

dentro de una determinada orientacion canonica. Esto permite que la posicion


de las caracterısticas queden fijas a un sistema de coordenadas para su pos-

terior estudio. Generalmente, este posicionamiento se implementa de manera

manual, es decir, cada una de las imagenes de la base de datos se marcan ma-

nualmente: en el centro de los ojos, la boca u otros puntos de interes. De igual

manera, existen algoritmos especializados, como los AAM [CET01], ver Figu-

ra 3.2., que encuentran estos puntos automaticamente. Desafortunadamente,

los procedimientos de alineacion automaticos son poco practicos debido a la

gran cantidad de tiempo y computo que es necesario para su ejecucion, ademas,

de su falta de robustez. Esto hace que en la practica su rendimiento final sea

inferior a aquellos que no realizan un alineamiento previo [MR08b]. De to-

das formas, esta tendencia podrıa cambiar en los proximos anos debido a la

aparicion de nuevos algoritmos de deteccion de puntos de interes de la cara

(landmarks) que no tienen los problemas de los AAM s [DGFG12, KS14].

Figura 3.2: AAM aplicados a dos distintos planos de rotacion [Mar08]. En ambas

figuras se puede observar que el modelo de textura (Texture Model) muestra una

cara alineada a una pose canonica a pesar de los cambios de orientacion.

Los debilmente alineados. Existen otros estimadores de edad que parten del su-

puesto que la alineacion entregada por el detector de caras es suficiente para

realizar un buen entrenamiento. Tambien existen otras aproximaciones, como

la que se vera en este capıtulo, que asumen que los efectos negativos de una ma-

la alineacion del detector pueden ser aprendidas en la fase de entrenamiento.

El evitar una etapa de alineacion previa permite el desarrollo de aplicaciones

reales y de mayor eficiencia computacional.

En este marco de trabajo, existen dos publicaciones importantes asociadas al gru-

po de estimacion de edad utilizando imagenes fuertemente alineadas: Una basa-

da en caracterısticas de inspiracion biologica (Bio-inspired Features, BIF) [GMFH09]

y otra que utiliza un metodo de regresion a partir de trozos de la imagen de la cara

(Regression from Patch Kernel, RPK ) [YZL+08]. En la primera aproximacion, BIF


aplica un banco de filtros Gabor, sobre una imagen, en diferentes escalas y orienta-

ciones con una combinacion de capas, para finalmente utilizar estas caracterısticas

como paso previo a una reduccion de dimensiones PCA. Se utilizan como entrada

del procedimiento, caras manualmente alineadas de 60×60 pıxeles. Los resultados

publicados son de 4,77 anos de MAE (Mean Absolute Error) utilizando una vali-

dacion cruzada LOPO . Aunque este resultado es el mejor encontrado hasta ahora,

los requerimientos computacionales para la ejecucion de este algoritmo son bastante

altos. Por otro lado, la aproximacion RPK utiliza imagenes de entrada de 32×32

pıxeles que se dividen en trozos de igual tamano de 8×8 pıxeles cada una. Cada

trozo de imagen se describe utilizando la transformada discreta del coseno (Discrete

Cosine Transform, DCT ). Adicionalmente, a cada trozo descrito, se agrega la posi-

cion (x, y) del centro de la imagen como informacion adicional al vector de entrada

utilizado por el modelo. La distribucion de probabilidades de cada uno de los des-

criptores de la imagen se calcula por medio de un Modelo de Mezcla de Gaussianas

(Gaussian Mixture Model, GMM ) y la edad finalmente se estima utilizando un mo-

delo de regresion, Kernel Regression [TFM07, YZL+08]. Esta aproximacion logra

un MAE de 4.95 anos sobre FG-NET con una validacion estandar LOPO .

Dentro de los resultados publicados que utilizan imagenes debilmente ali-

neadas podemos citar a [JBT10] quienes desarrollaron sus experimentos a partir

de imagenes obtenidas directamente desde un detector de caras, es decir, no hay

alineacion automatica de caras mas que el proporcionado por el detector. A partir

de esas imagenes se construyen los modelos de entrenamiento y pruebas. Su pro-

puesta consiste en extraer un histograma de gradientes orientados (HoG), patrones

binarios locales (LBP) y las diferencias locales de intensidad, en trozos obtenidos

al dividir la imagen en una cuadrıcula uniforme. El regresor que utilizaron esta-

ba basado en un modelo Random Forest entrenado con 250 imagenes seleccionadas

aleatoriamente desde la base de datos FG-NET. En sus experimentos, lograron un

MAE de 7.54 anos. Sus resultados estan sesgados de manera optimista porque que

el mismo sujeto puede estar tanto en el conjunto de entrenamiento como en el de

prueba. En [BZS09, NSY11], construyen una base de datos con imagenes de ca-

ras a partir de consultas realizadas sobre edad en la web (Por ejemplo, realizar la

consulta: “cumpleanos numero veinte” y recuperar las imagenes encontradas). Tam-

bien utilizaron varios detectores de caras con los que logran obtener un conjunto

de imagenes de caras bien alineadas. Posteriormente, aplicaron PCA a cada con-

junto de imagenes asociadas a un grupo de edad para eliminar aquellas instancias

que tengan un gran error de reconstruccion. Seguido de esto, describieron la imagen

aplicando DCT [BZS09] o BIF [NSY11] localmente. Finalmente, construyeron un

regresor multi-instancia para realizar la estimacion de edad. Utilizaron esta aproxi-

macion porque no podıan asegurar que las instancias seleccionadas por cada grupo


edad fueran las correctas. Una aproximacion basada en aprendizaje multi-instancia

(multi-instance learning) construye el modelo de clasificacion o regresion por medio

de bolsas de instancias donde no se asegura completamente que todas ellas sean

positivas, es decir, puede que existan otro tipos de instancias en la bolsa. Su apor-

tacion es que proponen una cadena completamente automatizada de procesos que

van desde la coleccion de la base de datos hasta la estimacion de la edad como una

regresion. La principal limitacion de esta aproximacion es que para dispositivos de

recursos limitados es computacionalmente complejo.

Una importante cuestion a considerar dentro del marco de este estudio es en-

contrar estimadores de edad precisos pero que a su vez resuelvan el problema con

el menor costo computacional posible. La mayorıa de las publicaciones relacionadas

con estimacion de edad utilizan AAM para alinear la cara [YFH10]. Desafortunada-

mente, el ajuste de un AAM es propenso a atascarse en un mınimo local [RGB05].

Por otra parte, el ajuste de un AAM puede ser una tarea con unos requisitos de

computo muy elevados que la hacen prohibitiva cuando existen muchas caras en

una imagen o cuando el calculo se realiza sobre un dispositivo de recursos limita-

dos, como por ejemplo, un smart phone o una camara IP. Una alternativa es usar

algoritmos debilmente alineados.

En lo que sigue de este capıtulo se propone un metodo para poder estimar la

edad utilizando una aproximacion con imagenes debilmente alineadas empleando un

detector de caras estandar [VJ04] para el entrenamiento del modelo. Para lograr el

objetivo de estimacion de edad utilizamos un regresor K-NN (K-nearest neighbor)

mas una metrica aprendida. La metrica deriva del calculo de la matriz de proyeccion

LDA. Para calcular esta matriz dividimos las caras de la base de datos en diferentes

grupos de edades disjuntas. A cada grupo de edad se le asigna una etiqueta que se

utiliza como entrada para el paso de entrenamiento. Con esta aproximacion logramos

obtener resultados muy cercanos al estado del arte para la estimacion de la edad. Por

otro lado, al evitar la alineacion de las imagenes, y por ende, utilizar las imagenes

no alineadas obtenidas directamente desde el detector de caras tiene como beneficio

adicional la construccion de un algoritmo de estimacion de la edad mas simple y

eficiente.

La explicacion del modelo de entrenamiento sobre una base de datos y posterior

validacion cruzada entre diferentes bases de datos se analizara en la seccion 3.3. Para

las pruebas se utilizo un esquema de validacion cruzada LOPO sobre FG-NET donde

se obtuvo aproximadamente 5 anos de MAE . Finalmente, para mostrar la robustez

de los clasificadores realizamos cruces entre distintas bases de datos, donde se logra

un MAE de 12 anos, que es un valor realista para una aplicacion real.


3.3. Regresion de edad desde imagenes de caras

Basandonos en un clasificador K-NN proponemos un regresor no lineal para la

estimacion de la edad. Consideremos {(xi, yi)}Ni=1 donde cada xi corresponde a los

niveles de gris de una imagen capturada por columnas de p× p pıxeles y dimension

total P (p2 × 1) e yi es la etiqueta de edad correspondiente a xi. La distancia

euclıdea en el espacio de las imagenes no es una buena medida de semejanza. Si

comparamos dos imagenes de edades diferentes lo mas probable es que encontremos

que sus distancias sean muy similares al comparar otras dos imagenes de la misma

edad o de un grupo cercano (Figura 3.3). Para resolver este problema proponemos

utilizar una aproximacion basada en el “metric learning” [Kul12] consistente en

considerar la correlacion inherente entre las imagenes que pertenecen a un mismo

grupo de edad. Para esto, utilizaremos una aproximacion basada en la distancia de

Mahalanobis [Mah36] que emplea la matriz M aprendida a partir de los datos de

entrenamiento con la finalidad de obtener distancias pequenas cuando se comparan

imagenes que pertenecen a una misma edad, y valores mayores para grupos de edades

diferentes. La Ecuacion 3.2 muestra como calcular la distancia de Mahalanobis entre

los vectores xi y xj.

dM(xi,xj) = ||xi − xj||2M = (xi − xj)>M(xi − xj) (3.2)

En la siguiente seccion se explicara como estimar la matriz M utilizando LDA.

3.3.1. Proyeccion PCA+LDA como una matriz metrica pa-

ra la edad

Como ya se estudio en el seccion 2.3.1, podemos utilizar el algoritmo PCA+LDA

para calcular la matriz de proyeccion W la cual permite construir un nuevo subespacio

de caracterısticas de menor dimension, z, que el espacio de caracterısticas original,

x. Esta proyeccion la podemos calcular por medio de la ecuacion 3.3,

z = Wx (3.3)

Basados en esta idea, calculamos desde el conjunto de entrenamiento la mejor

matriz de proyeccion W por medio del algoritmo PCA+LDA visto en capıtulo ante-

rior, ver Algoritmo 2.1.

3.3 Regresion de edad desde imagenes de caras 63

Figura 3.3: Comparacion de distancias euclıdeas entre diferentes individuos y edades.

Para la figura se utilizaron imagenes de caras de 200×200 pixeles, alineadas a partir

del centro de los ojos y ecualizadas por histograma. Si comparamos un nino con

un adulto obtenemos una distancia de 2020.30 en niveles de intensidad, para un

adulto con un anciano obtenemos 2070.48 y si comparamos un nino con un anciano

obtenemos 2058.93. Se observa que las distancias son similares entre las diferentes

apariencias de edad y no aportan significativa informacion discriminante.

Ahora bien, si consideramos que la distancia euclıdea se define tal como se mues-

tra en la Ecuacion 3.4, y utilizamos los valores proyectados del subespacio de ins-

tancias, z, podemos escribir la ecuacion de distancia de la siguiente forma,

de(zi, zj) = ||(zi − zj)||2 (3.4)

La Ecuacion 3.4, puede facilmente modificarse para que utilice la matriz de pro-

yeccion W calculada a partir del algoritmo PCA+LDA. Ası, la distancia euclıdea es

redefinida como la distancia dM,

dM(xi,xj) = ||W(xi − xj)||2 = (xi − xj)>W>W(xi − xj), (3.5)

lo cual significa que la matriz de distancia aprendida viene dada por M = W>W.

Como se ha visto en el Capıtulo 2, seccion 2.3, el LDA es una tecnica supervisada

para reduccion de dimensiones que maximiza la separacion de diferentes clases. Como

la edad es una variable continua, primero debemos discretizar la edad en C grupos,

en la seccion 3.4 se describen los grupos de edades usados en los experimentos para

distintas bases de datos. Dado que el problema es multi-clase con C clases y N

instancias de la muestra, {xi}Ni=1. La base en el subespacio transformado, {wi}di=1,


se obtiene mediante la maximizacion de [Fuk90] J(w) =∑d

i=1w>

i SBwi

w>i Smwi

donde SB y

Sm son respectivamente la matriz de dispersion entre-clases y la matriz de dispersion

total.

Utilizamos la aproximacion PCA+LDA descrita en el Capıtulo 2 de la sec-

cion 2.3.1 para la implementacion del regresor de edad. Esta aproximacion ordena los

vectores propios de acuerdo a los valores propios en orden decreciente. Luego, selec-

cionamos los mejores vectores propios mediante multiples iteraciones de validacion

cruzada k-fold , ver el Algoritmo 2.1.

Figura 3.4: La figura muestra subespacio PCA+LDA del conjunto de instancias ya

proyectadas z. Si queremos estimar el valor de la edad para una entrada zentrada =

Wxentrada, y considerando K= 3: Podemos obtener las distancias de los vecinos mas

cercanos (zi, zj, zk), sus distancias con respecto a zentrada, y los valores reales de sus

etiquetas de edad, (yi, yj, yk), obtenidas del conjunto de entrenamiento.

3.3.2. Regresion K-NN

La Ecuacion 3.5 se puede interpretar como la proyeccion de una imagen, xi,

en el subespacio PCA+LDA, zi, cuya matriz de transformacion asociada es W. Se-

guidamente, entrenamos un regresor en el subespacio transformado utilizando una

distancia euclıdea. A partir de esta aproximacion se construye la implementacion

del regresor K-NN [SJ89, Cla06].

3.3 Regresion de edad desde imagenes de caras 65

Algoritmo 3.1 Entrenamiento utilizado para seleccionar el mejor parametro d y k

para el regresor de edad basado en PCA+LDA.

Entradas: X, L

Resultados: MAE, d, k

1: MAE ⇐ 99 {Inicializar con un MAE de 99 anos, peor caso}2: d⇐ 1 {Inicializar el mejor numero de caracterısticas a 1}3: Dividir {X,L} en l folds F = {{X1,L1}, . . . , {Xl,Ll}}.4: for j = 1 to D do {Numero de caracterısticas retenidas del subespacio PCA}5: for ks = 1 to K do {Numero de vecinos seleccionados antes de aplicar K-NN }6: for i = 1 to l do {Validacion cruzada l-fold con j caracterısticas retenidas

antes de aplicar LDA}7: {Xtest,Ltest} ⇐ {Xi,Li} {Probar con fold i}8: {Xtrain,Ltrain} ⇐ F − {Xi,Li} {Entrenar con el resto de los folds}9: [PPCA, I] ⇐ PCA(Xtrain) {Analisis de Componentes Principales}

10: A B se le asignan las j columnas en PPCA.

11: Y⇐ B>(Xtrain − [I. . .I]) {Proyeccion sobre el subespacio PCA}12: PLDA ⇐ LDA(Y,Ltrain) {Analisis de discriminante lineal de Fisher}13: Ztrain ⇐ PLDAY {Proyeccion sobre el subespacio LDA}14: C ⇐ entrenarRegresorKNN(ks, Ztrain, Ltrain)


16: maei ⇐ calcularMAE(C, Ztest, Ltest) {MAE por fold}17: end for

18: MAEj,ks ⇐ 1l

∑li=1 maei

19: if MAEj,ks < MAE then

20: MAE ⇐MAEj,ks

21: d⇐ j

22: k ⇐ ks23: end if

24: end for

25: end for


Inicialmente, el algoritmo de regresion proyecta cada vector del conjunto de entre-

namiento, xi, dentro del subespacio PCA+LDA utilizando la Ecuacion 3.3. Seguido

de esto, estimamos el numero optimo de vecinos, K, por medio de validacion cruzada

k-fold , ver Algoritmo 3.1.

La salida del regresor de edad estara en funcion de la entrada z y se calcula con-

siderando los K vecinos mas cercanos a la instancia, ver Figura 3.4. Si consideramos

la entrada xentrada que luego es proyectada en el subespacio PCA+LDA, zentrada,

podemos estimar la edad de salida, y, por medio de la media ponderada del inverso

de las distancias de los K vecinos cercanos seleccionados utilizando la Ecuacion 3.6.

y =K∑i=1

wiyi, (3.6)

donde yi es la etiqueta real de la edad obtenida del conjunto de entrenamiento

y wi es la distancia inversa normalizada del i-esimo vecino cercano a zentrada, que se

calcula como se muestra en la Ecuacion 3.7,

wi =wi∑Kj=1wj

(3.7)

donde wi es la distancia inversa entre zentrada y un vecino zi,

wi =1

||zentrada − zi||(3.8)

En el caso especial de que alguna distancia entre zentrada y su i-esimo vecino, zi,

sea cercana o igual a cero (p. ej. ||z− zi|| <= 10−6), elegimos la etiqueta yi como el

vecino mas cercano, retornado ese valor como respuesta del regresor.

3.4. Experimentos

A continuacion evaluamos el rendimiento del regresor de edad. Para realizar los

experimentos utilizamos las imagenes de las bases de datos PAL, GROUPS y FG-NET,

ver Apendice A para mas detalles. Para entrenar el algoritmo propuesto, prime-

ro estimamos los parametros optimos para el numero de vecinos cercanos, K, y la

dimension PCA por medio de un esquema de validacion cruzada 5-fold iterativa

3.4 Experimentos 67

que selecciona la mejor configuracion con respecto al menor valor MAE conseguido,

ver Algoritmo 3.1. En todos los experimentos usamos el mismo procedimiento del

Capıtulo 2 para una aproximacion basada en apariencia global: 1) las imagenes de

las caras son detectadas, 2) cortadas y redimensionadas a imagenes de 25× 25 pıxe-

les, 3) ecualizadas en histograma para ganar algo de independencia a los cambios

de iluminacion y 4) agregamos una mascara ovalada para evitar la influencia del

fondo en el calculo de los resultados. Para el paso 1) utilizamos el detector de caras

suministrado por OpenCV . Adicionalmente, realizamos dos experimentos emplean-

do la base de datos FG-NET con una aproximacion basada en imagenes fuertemente

alineadas. En estos experimentos las caras son marcadas y recortadas manualmente,

finalmente, cada una de las imagenes es alineada utilizando las siguientes transfor-

maciones geometricas:

Transformacion de semejanza. Se alinean utilizando las marcas del centro de

los ojos.

Transformacion afın. Esta transformacion utiliza la informacion del centro de los

ojos y de la boca.

Para poder entrenar el subespacio PCA+LDA discretizamos las diferentes edades

de las bases de datos FG-NET y PAL dentro de 11 grupos, Tabla 3.1.

Numero de Grupo 1 2 3 4 5 6 7 8 9 10 11

Rango de Edad 0-2 3-7 8-12 13-19 20-28 29-37 38-46 47-55 56-64 65-73 74-82

Tabla 3.1: Grupos discretos para entrenamiendo del subespacio PCA+LDA para las

bases de datos FG-NET y PAL.

En caso de las imagenes de la base de datos GROUPS, no fue necesario etique-

tarlas ya que cada una de las imagenes tienen asociado un grupo de edad discreto,

Tabla 3.2. Para los experimentos desarrollados con esta base de datos solo utilizamos

imagenes de caras detectadas cuyo tamano fuera de al menos 60× 60 pıxels (13051

de un total de 28231).

3.4.1. Pruebas con una unica base de datos

Para poder comparar los rendimientos del regresor propuesto con los modelos

encontrados en la literatura, realizamos un conjunto de experimentos sobre la base


Numero de Grupo 1 2 3 4 5 6 7

Rango de Edad 0-2 3-7 8-12 13-19 20-36 37-65 66+

Tabla 3.2: Grupos y rangos de edad etiquetadas en la base de datos GROUPS.

Figura 3.5: Curvas de valores de porcentajes acumulados para experimentos sobre

FG-NET utilizando validacion cruzada con imagenes de 25× 25 pixels de tamano. La

figura muestra una comparacion entre los resultados de nuestros experimentos y los

metodos propuestos en el estado del arte.

de datos FG-NET en el que utilizamos el metodo de validacion cruzada LOPO pa-

ra encontrar los parametros optimos para el mejor regresor de edad. Ademas, para

cuantificar la influencia de la alineacion en la prediccion de la edad, realizamos dos

grupos de experimentos: Uno que utiliza imagenes de caras obtenidas directamente

del detector, aproximacion debilmente alineada, y otro con imagenes alineadas

manualmente desde la base de datos FG-NET, ver Tabla 3.3. Los resultados mues-

tran que para la aproximacion de imagenes fuertemente alineadas la diferencia de los

errores MAE entre la transformacion global afın (usando ojos y boca) es menor que

0.2 anos con respecto a la transformacion global de similaridad (usando solo ojos).

Cuando se utilizan caras debilmente alineadas, obtenidas directamente del detector,

el MAE se degrada en aproximadamente 1,2 anos.

Los resultados obtenidos sobre la base de datos FG-NET se comparan con los

encontrados en las literatura bajo las mismas condiciones de validacion usando LO-

3.4 Experimentos 69

PO con alineacion manual de los ojos, ver Tabla 3.3. En terminos del MAE global,

los resultados obtenidos muestran que en los experimentos con ojos alineados ma-

nualmente nuestra aproximacion es un ano peor que las obtenidas en los trabajos

de [YZL+08] y [GMFH09]. En los experimentos que utilizan imagenes con alineacion

debil los resultados obtenidos fueron de aproximadamente 2 anos peor a los traba-

jos antes mencionados. Las curvas de valores acumulados de la Figura 3.5 confirma

que las aproximaciones RPK [YZL+08] o BIF [GMFH09] son marginalmente me-

jores que el algoritmo presentado con caras manualmente alineadas. Sin embargo,

la aproximacion que desarrollamos en este capıtulo es mucho mas simple y puede

funcionar sobre dispositivos con recursos computacionales reducidos. Recordemos

que el metodo BIF depende del procesamiento de la imagen a traves de un banco de

filtros y la aproximacion RPK depende de la adaptacion de un modelo de mezclas

de Gaussians a partir de la descripcion de la imagen de la cara por medio de la DCT

aplicada a un conjunto de pedazos de esta, ambas aproximaciones necesitan muchos

mas recursos computacionales para su buen funcionamiento.

Rangos de Edad

Experimentos 0-9 10-19 20-29 30-39 40-49 50-59 60+ Global

1 Alineacion semejanza 2,85 3,76 5,60 11,58 19,65 27,67 42,11 5,70

2 Alineacion afın 2,72 3,84 5,62 11,19 19,68 29,43 40,53 5,56

3 Detector de caras 4,68 4,39 6,57 13,62 19,84 29,68 38,12 6,90

4 RPK [YZL+08] 2,30 4,86 4,02 7,32 15,24 22,20 33,15 4,95

5 BIF [GMFH09] 2,99 3,39 4,30 8,24 14,98 20,49 31,62 4,77

Tabla 3.3: Se comparan los resultados sobre FG-NET utilizando validacion cruzada

LOPO . En nuestros experimentos sobre imagenes de la cara de 25× 25: 1) y 2) son

sobre imagenes alineadas manualmente utilizando una transformacion de similaridad

y una transformacion afın, en 3) se utilizan solo las caras detectadas por OpenCV .

Estas se pueden comparar con los resultados de 4) y 5) que fueron obtenidos de la

literatura con respecto a su MAE calculado por grupo de edad y como promedio

global.

En el trabajo de Jahanbekam y otros [JBT10] se usan caras extraıdas direc-

tamente desde un detector sobre la base de datos FG-NET. El MAE obtenido por

[JBT10] es de 7,54 anos, el cual esta optimisticamente sesgado debido a que ellos no

utilizaron una evaluacion LOPO , y por consiguiente, el mismo sujeto puede estar

en el conjunto de entrenamiento o pruebas. En este caso, y a pesar del sesgo, nues-

tro algoritmo supera al de [JBT10], ya que el MAE obtenido en los experimentos

desarrollados en este capitulo estan alrededor de los 6,9 anos de MAE , ver Tabla 3.3.


3.4.2. Pruebas con cruce de base de datos

La mayorıa de los algoritmos para estimacion de edad encontrados en la literatura

desarrollaron sus experimentos sobre una unica base de datos. Para evaluar la capa-

cidad generalizadora de nuestro algoritmo, desarrollamos el siguiente procedimiento

de pruebas: primero entrenamos el regresor utilizando una base de datos (GROUPS

o FERET) y luego evaluamos la bondad del regresor empleando otra base de datos

totalmente diferente (GROUPS, FG-NET o PAL). Para los experimentos se utilizan las

bases de datos GROUPS y PAL con una validacion cruzada de 10-fold con el objetivo

de que los resultados sean comparables con otros estudios. Para el entrenamiento

con FG-NET se realizo una validacion cruzada LOPO . En la Figura 3.6 se muestra

las curvas de valores acumulados para diferentes rangos de MAE . En la Tabla 3.4

se muestran los resultados de MAE obtenidos en los experimentos estratificado por

rangos de edad.

Experimento/Rango de edad 0-9 10-19 20-29 30-39 40-49 50-59 60+ Global

IAD/FG-NET[BZS09] 10,98 8,15 6,05 7,92 13,42 22,75 29,96 9,49

GROUPS/FG-NET 15,55 12,98 6,88 5,65 12,20 19,66 22,64 12,62

GROUPS/PAL — 10,42 7,59 6,69 9,30 17,27 28,90 17,54

FG-NET/GROUPS 9,56 5,77 9,41 — — 29,55 53,52 15,79

FG-NET/PAL — 5,56 5,84 14,27 23,62 32,85 49,10 27,63

Tabla 3.4: MAE sobre cada rango de edad para experimentos realizados en cruce de

base de datos.

Los experimentos realizados se han divido en dos grupos dependiendo del tamano

de la base de datos de entrenamiento.

Para el primer grupo de experimentos el entrenamiento se realiza sobre una base

de datos con una gran cantidad de imagenes como es el caso de GROUPS, y se evalua

sobre las bases de datos FG-NET y PAL. En este caso se logro un MAE promedio a

los 15 anos.

En el segundo grupo de experimentos el entrenamiento se hizo sobre una base de

datos con una cantidad reducida de imagenes, que en nuestro caso, corresponde a

FG-NET, que probamos sobre la base de datos GROUPS y PAL. En el caso de entrenar

con la base de datos FG-NET y probar con la base de datos GROUPS los resultados

tambien fueron de 15 anos. Sin embargo, en el cruce de base de datos FG-NET contra

PAL se obtuvo un MAE mucho mayor ya que la distribucion de edades de ambas

bases de datos es diferente. FG-NET tiene menos sujetos con edades sobre los 40

3.4 Experimentos 71

Figura 3.6: Curvas de valores de porcentajes acumulados para experimentos de cruce

de base de datos.

anos que PAL donde la mayorıa de los individuos fotografiados estan por sobre los

40 anos. Esto explica los malos resultados encontrados en el cruce de base de datos

entre FG-NET/PAL para los grupos de edades sobre 40 anos, ver Tabla 3.4.

Los resultados obtenidos entre el cruce de GROUPS/FG-NET los podemos comparar

con otras soluciones encontradas en la literatura que utilizan un detector de caras

sin realizar alineamiento alguno [BZS09]. En AID [BZS09] se construye una base

de datos a partir de 219.892 imagenes bajadas directamente desde Internet. Luego,

para el entrenamiento del estimador de edad se emplea un regresor de tipo kernel.

El estimador de edad desarrollado por [BZS09] se prueba utilizando la base de datos

FG-NET (ver fila IAD/FG-NET en Tabla 3.4), obteniendo como resultado un MAE

de 9,49 anos. Los resultados mostrados en esta tesis se probaron con una base de

datos de 13.501 muestras y el MAE obtenido fue de 12,62 anos, en nuestro caso el

experimento lo implementamos entrenando el estimador con la base de datos GROUPS

y luego como base de datos de pruebas utilizamos, nuevamente, la base de datos

FG-NET, ver Tabla 3.4. Nuestros resultados muestran que los experimentos realizados

tienen un MAE un poco mayor que los resultados obtenidos en la literatura [BZS09],

esto se debe, a que la base de datos utilizada por nosotros es un orden de magnitud

mas pequena y con una pobre resolucion en la distribucion de edades. Sin embargo,

cuando se observa los MAE s estratificados por rangos de edad se puede ver que el

procedimiento propuesto funciona mejor en los rangos de edad: 30-39, 40-49, 50-59

y 60+ (ver filas IAD/FG-NET y GROUPS/FG-NET y las columnas de rango de


edad en la Tabla 3.4). La razon es que en esos rangos de edad tenemos mas ejemplos

de entrenamiento en GROUPS y nuestro metodo es capaz de sacar partido de ellos.

3.5. Conclusiones

En este capıtulo se ha presentado una contribucion para el problema de regresion

sobre edad a traves de imagenes capturadas directamente desde un detector de caras

con resultados cercanos al estado del arte. Siguiendo el principio de la Navaja de

Ockham, principio de parsimonia, se ha estudiado este problema teniendo en mente

una perspectiva basada en la sencillez y una solucion de bajo coste computacional.

Observamos que algunas soluciones en la literatura son computacionalmente com-

plejas de conseguir, y que como resultado se obtiene una ganancia marginal en la

estimacion de la edad.

Para alineaciones manuales se obtienen resultados competitivos utilizando un al-

goritmo muy simple y rapido. Los resultados muestran que cuando se utiliza solo la

alineacion del detector de caras la estimacion del MAE es solo un ano peor que el ob-

tenido empleando alineacion manual. No esta claro si una alineacion completamente

automatica, la cual es computacionalmente intensiva, es el camino correcto. Se ha

encontrado en la literatura que la falta de alineacion en las imagenes de caras para

el problema de reconocimiento de genero no influye mayormente en el rendimiento

del clasificador y que en algunos casos la alineacion automatica tampoco aporta una

ventaja significativa [MR08a, BCBB11].

Sin embargo, se cree que el problema de alineacion puede ser resuelto por medio

del entrenamiento, lo que harıa que el computo en lınea fuera mucho mas eficiente.

Al no requerir de un proceso fuertemente alineado, el metodo presentado es simple y

rapido tanto en entrenamiento como su uso en un sistema en lınea para estimacion de

edad. Dado que los requerimientos computacionales son bajos, este metodo puede

ser implementado en smart-phones o camaras IP. En los siguientes capıtulos se

abordara algunas soluciones para poder implementar esta propuesta.

Sobre el estado del arte sobre FG-NET no se pueden extraer resultados conclu-

yentes. Esto se debe a que esta base de datos cuenta con un numero pequeno de

imagenes en ciertos rangos de edad, lo que hace difıcil poder entrenar un estimador

que sea capaz de generalizar todos los casos encontrados. Nuestra reflexion apunta a

que los experimentos de cruce de base de datos deben ser pensados como una nece-

sidad para poder impulsar el futuro de un correcto estado del arte en la estimacion

3.5 Conclusiones 73

facial de la edad.

Capıtulo 4

Dependencias entre atributos

faciales

Yo hago lo que usted no puede, y usted hace

lo que yo no puedo. Juntos podemos hacer

grandes cosas

Madre Teresa de Calcuta

RESUMEN: La estimacion del genero a partir de imagenes del rostro hu-

mano es un problema que ha sido estudiado ampliamente por sus diversas

aplicaciones en la industria. Por otra parte, existen publicaciones recientes

que muestran una caıda de rendimiento en la clasificacion de genero cuando

se evaluan problemas denominados “in the wild”, es decir, con amplia demo-

grafıa y condiciones ambientales no controladas. Nuestra hipotesis considera

que la causa puede ser la existencia de dependencias entre atributos faciales

demograficos que no han sido consideradas en la construccion del clasificador.

En este capıtulo se estudian las dependencias entre los atributos faciales de

genero, la edad y la pose. Adicionalmente, al considerar la relacion entre los

atributos faciales de genero y pose logramos evitar el uso de procedimientos

de alineacion de la cara que, por lo general, son computacionalmente costosos

y poco robustos. Los experimentos desarrollados confirman la existencia de

dependencias entre los atributos faciales del genero, la edad y la pose. Final-

mente, demostramos que podemos mejorar el rendimiento y la robustez de los

clasificadores de genero mediante la explotacion de estas dependencias.

75

76 Dependencias entre atributos faciales

Los atributos visuales definen un conjunto de propiedades observables que

dotan de significado a las imagenes y que en base a esa informacion es posi-

ble entender de mejor forma el entorno fısico que nos rodea (por ejemplo, el

tipo de accesorios que utilizamos, la cantidad de pelo en nuestro rostro, el genero, la

edad, etc). Las representaciones basadas en atributos han recibido mucha atencion,

recientemente, debido a que estos se han utilizado con exito en aplicaciones para

la recuperacion de imagenes [Yu12], para el reconocimiento de objetos [DPCG12],

para describir objetos desconocidos [FEHF09], e incluso para aprender objetos que

no se encuentran en la base de entrenamiento o pruebas [FEHF09, LNH09]. En el

caso de los atributos faciales, estos son utilizados con exito para la verificacion fa-

cial [KBBN09]. Hay un gran interes en la estimacion de atributos faciales como el

estilo y color del pelo, expresiones faciales, etc. No obstante, los principales estudios

de atributos faciales estan dirigidos al genero, la raza y la edad. En este capıtulo

analizaremos nuevamente el atributo facial del genero y su relacion con los atributos

faciales de la edad y la orientacion de la cara (pose).

En el Capıtulo 2, estudiamos el estado del arte sobre la estimacion de genero y

se obtivieron los mejores resultados cuando se utiliza una unica base de datos para

entrenar y validar (incluso cuando se hace correctamente con validacion cruzada).

Por otro lado, vimos que el rendimiento del clasificador se reduce significativamen-

te si los clasificadores han sido entrenados y probados sobre diferentes bases de

datos. Por ejemplo, si entrenamos nuestro clasificador utilizando la base de datos

FERET [PMRR00] y probamos con la base de datos PAL [MP04], el rendimiento cae

aproximadamente a un 70 % en terminos de tasa de acierto [BCBB11]. Esto se debe

principalmente a las diferentes distribuciones demograficas de cada una de las bases

de datos. En FERET gran parte de los individuos son adultos caucasicos, mientras

que en PAL existe un amplio rango de individuos que considera diferentes grupos

etnicos y de edad. En general, cuando un clasificador de genero se entrena con un

conjunto de datos limitado en demografıa y luego se prueba con un conjunto de

datos mas general la tasa de acierto en la clasificacion cae significativamente. Esto

sugiere la existencia de dependencias entre el atributo facial del genero con otras

variables demograficas.

Aunque la base de datos Color FERET se utiliza como un estandar de compara-

cion en la estimacion de genero, en la practica, su desempeno para la estimacion

de genero en entornos reales serıa deficiente ya que fue adquirida en condiciones de

laboratorio. En los ultimos anos, hay una nueva tendencia en lo que respecta a la

validacion de clasificadores de atributos faciales que considera utilizar bases de caras

adquiridas en condiciones no controladas. Estas bases de datos son denominadas en

77

la literatura como “in the wild”. The images of Groups Dataset1 [GC09] es una

base de datos con una gran cantidad de imagenes de grupos de personas adquiridas

principalmente desde internet y que fueron etiquetadas manualmente con los atri-

butos de genero y grupo de edad. En esta base de datos, Gallagher y otros [GC09]

lograron un 69,9 % de tasa de acierto en genero utilizando 23218 imagenes de entre-

namiento alineadas a partir de los ojos y probadas con 1881 imagenes de la misma

base de datos. Utilizaron siete proyecciones de analisis discriminante lineal (LDA),

una por cada rango de edad, y un clasificador de K vecinos mas cercanos (K-NN ).

Aun cuando Gallagher y Chen [GC09] emplearon imagenes alineadas utilizando la

posicion de los ojos, etiquetadas en la base de datos, la clasificacion esta lejos de

ser perfecta. La razon de esta pobre tasa de acierto en la clasificacion se debe a

que las imagenes de GROUPS representan situaciones del mundo real: cambios de ilu-

minacion, expresiones faciales, orientaciones de la cara y una amplia distribucion

demografica. Cuando estimamos los atributos faciales en imagenes del mundo real

nos encontramos usualmente que la variabilidad intra-clases es mayor a la varia-

bilidad entre-clases. Los cambios de apariencia producidos por la orientacion de la

cabeza (pose), iluminacion o expresiones faciales hacen que la apariencia de la cara

cambie de forma drastica. Al eliminar la variabilidad intra-clases el rendimiento en

el reconocimiento de genero puede mejorar significativamente.

Nuestra hipotesis, estudiada en este capıtulo, considera que las variaciones de

pose de la cara y los cambios de edad son fuentes de variabilidad intra-clase para

la estimacion de genero. Explotaremos las dependencias encontradas en las aproxi-

maciones basadas en apariencia entre el genero, la edad y la pose con el objetivo de

reducir la variabilidad intra-clase y mejorar el rendimiento en la estimacion de los

clasificadores.

En los trabajos sobre clasificacion de genero en entornos reales, generalmente, las

imagenes han sido alineadas con una pose canonica [MR08a, GC09, DCGJYAC11,

RBLNCS12]. La alineacion de una cara necesita de una deteccion manual o au-

tomatica de un conjunto de puntos fiduciarios [MR08a, GC09] o de un paso previo

de congealling (alinear todas las imagenes de un conjunto por medio de la reduc-

cion de entropıa [Lea06]). Makinen y Raisamo [MR08a] demostraron que, aunque

las caras alineadas manualmente incrementan las tasas de acierto en la clasificacion

de genero la mejora lograda en rendimiento no es significativa. Sobre todo porque

las soluciones basadas en alineacion son bastantes costosas en terminos de recursos

computacionales y no son robustas.

En este capıtulo consideramos la pose como un atributo en la clasificacion y

1http://chenlab.ece.cornell.edu/people/Andy/ImagesOfGroups.html

http://chenlab.ece.cornell.edu/people/Andy/ImagesOfGroups.html


transferimos el problema de alineacion a la fase de entrenamiento, eliminando la

necesidad de realizar un alineamiento explıcitamente. En la literatura existen es-

tudios previos donde los clasificadores aprenden simultaneamente el alineamiento y

sus atributos [BDTB05, KWSC10]. Sin embargo, en nuestro trabajo seguimos un

camino diferente. Primero, encontramos un conjunto de clusters con las poses de las

caras a partir de las imagenes obtenidas despues de la deteccion. A continuacion,

entrenamos un clasificador con las etiquetas de pose y de genero simultaneamente.

Para probar nuestro procedimiento utilizamos la base de datos GROUPS logrando un

incremento del 5 % en el rendimiento del clasificador con respecto a los resultados

del estado del arte sobre aproximaciones basadas en la apariencia global.

Por otro lado, para analizar la influencia de la edad en la estimacion de gene-

ro, tambien hemos estudiado la relacion entre los atributos de edad y genero. El

estudio de las dependencias entre diferentes variables demograficas ha sido tambien

estudiadas en trabajos previos. En Wei y Ai [AW09] se demostro experimentalmente

que al explotar la relacion entre etnia y genero obtiene un aumento de la tasa de

acierto entre un 4 a 5 % en clasificacion de genero para caras mongoloides y africa-

nas. Guo y My [GM10], en experimentos desarrollados utilizando la base de datos

MORPH-II [RT06], encontraron que la estimacion de edad puede contener grandes

errores si la influencia de el genero y la etnia no se toman en cuenta. Finalmente,

Guo y otros [GDFH09] consideraron las dependencias entre la edad y el genero.

Encontraron que la tasa de acierto fue 10 % superior en las caras de adultos que

en las caras de jovenes y ancianos. Ademas, estudiaron la influencia de diferentes

tipos de extraccion de caracterısticas sobre la imagen (LBP , HoG y BIF ). En este

capıtulo, tambien consideraremos la influencia de la edad en la estimacion del gene-

ro, pero desde una perspectiva completamente diferente. Ademas, estudiaremos si

la tasa de acierto en la estimacion de genero puede ser mejorada conjuntamente con

la estimacion de la edad y el genero.

4.1. Powerset de atributos faciales para la clasi-

ficacion

Con la idea principal de poder combinar multiples atributos para la tarea de

aprendizaje de los clasificadores propuestos, hemos utilizado uno de los enfoques

basicos utilizados para la clasificacion multi-label. La aproximacion pertenece a la

familia de los metodos de transformacion del problema o metodo independiente del

algoritmo, denominado Label Powerset (LP) [TK07, AC09, TKV10]. LP explora

4.1 Powerset de atributos faciales para la clasificacion 79

toda las posibles combinaciones entre etiquetas y crea un nuevo conjunto extendido

de etiquetas donde cada una de ellas representa subconjuntos o combinaciones de

las etiquetas originales, convirtiendo un problema multi-label en uno multi-clase.

Hemos adaptado la idea implıcita detras del metodo LP a nuestro problema, de-

nominando a nuestra aproximacion Powerset de Atributos (AP). Sea T= {V1, . . . ,Vd}el conjunto de atributos faciales de un problema dado y Vi= {vi1, . . . , viq} el con-

junto de valores posibles para cada atributo Vi donde q = |Vi|. Se define Cx=

{V1×V2 . . .×Vd} como el producto cartesiano de todos los valores de los atributos

de los conjuntos Vi. La salida de un clasificador Powerset de Atributos para una

entrada de una instancia, x, es un vector z ∈ Cx. Finalmente, la tarea de aprendizaje

se reduce a encontrar el clasificador h que minimice el error de clasificacion:

h : X → T

(x1, . . . , xm) 7→ (v1r , . . . , v

dw)

Donde r y w son los ındices de los valores de atributos calculados por el clasifi-

cador.

Por ejemplo, para el problema de clasificacion de atributos faciales demograficos,

un posible enunciado podrıa ser aquel que defina dos atributos, T= {genero, edad}y sus valores por atributo se definen:

Vgenero = {hombre,mujer}Vedad = {0− 2, 3− 7, 8− 12, 13− 19, 20− 36, 37− 65, 66+}

En este caso, el Powerset de atributos se calcula como:

Cx = {(hombre, 0− 2), (hombre, 3− 7), . . . , (mujer, 37− 65), (mujer, 66+)},

donde la cardinalidad de todas las nuevas tuplas que forman el AP es |Cx| = 14,

ver Figura 4.1.

Con el objetivo de obtener subclases bien separadas y compactas, hemos rea-

lizado una reduccion de dimensionalidad sobre el conjunto de entrenamiento utili-

zando Analisis Discriminante Lineal de Fisher (LDA). Nuestra aproximacion para


Figura 4.1: Powerset de Atributos es una extension a la aproximacion multi-label LP .

En la figura observamos las variables clase Vgenero y Vedad cuyos valores son combi-

nados para generar una etiqueta unica.

reduccion de dimensionalidad esta relacionado con el Analisis Discriminante con

Subclases (SDA, Subclass Discriminant Analysis) [ZM06b]. Sin embargo, en lugar

de encontrar las subclases con un procedimiento de clusterizacion en el espacio de

caracterısticas [ZM06b] nosotros deduciremos las subclases a partir de los valores

definidos a traves de la combinacion de los atributos faciales. Si el numero de datos

de entrenamiento no es lo suficientemente grande o el numero de clases derivado

de la transformacion Powerset es alto, los resultados del LDA pueden verse seria-

mente comprometidos [BCBB11]. En este caso, aplicamos Analisis de Componentes

Principales (PCA, Principal Component Analysis) con una validacion cruzada para

reducir la dimensionalidad de los datos antes de aplicar LDA [BCBB11].

4.2. Reconocimiento de genero robusto

Las variaciones de edad y de postura de la cara son fuentes de variabilidad intra-

clase que reducen el rendimiento de los clasificadores de genero. En esta seccion

analizaremos la relacion entre la estimacion de los atributos de genero, la edad y los

cambios de pose de la cara.

4.2 Reconocimiento de genero robusto 81

4.2.1. Sobre la dependencia entre los atributos de edad y

genero

Las variables de genero y edad son estadısticamente independientes. Si conside-

ramos que para los distintos rangos de edad hay un numero similar de hombres y

mujeres, y para cualquier instancia de genero la distribucion de sus edades es si-

milar, entonces podemos concluir que las variables demograficas de genero y edad

son estadısticamente independientes. Esto es, P (G,E) = P (G)P (E), donde G y E

denota las variables de genero y edad respectivamente y P la probabilidad de un

evento.

Figura 4.2: Experimentos previos que demuestran la dependencia del genero y la

edad dada la apariencia. En la figura de la izquierda se entrena toda la base de

datos GROUPS y se prueba con la base de datos PAL. A la derecha realiza el mis-

mo experimento pero se separan las imagenes por rango de edad y se entrena un

clasificador de genero por cada uno de los grupos.

No obstante, y a partir de nuestra intuicion, creemos que existe una dependencia

condicional entre el genero y la edad dada la apariencia de la cara. Para ilustrar

el problema, suponemos que deseamos estimar el genero al que pertenece una cara

en una imagen. Si la imagen corresponde a la de un nino es muy probable que sea


mucho mas difıcil clasificarla como hombre o mujer que en el caso de un adulto,

ver Figura 4.3. Para confirmar esta dependencia hemos entrenado un clasificador de

genero, tal como se explico en la Seccion 4.1, utilizando la base de datos GROUPS,

y validada sobre PAL, ver Figura 4.2. Entrenamos el clasificador con imagenes de

hombres y mujeres, de todos los rangos de edades. En la primera fila de la Tabla 4.1

se muestran los resultados obtenidos en estos experimentos estratificados en cuatro

rangos de edad. Del experimento destacamos el resultado obtenido en el rango de

imagenes entre los 20− 36 anos y que estan por encima del estado del arte propues-

to en [BCBB11]. Por el contrario, los resultados mostrados para los rangos de edad

restantes son claramente menores. Estos resultados indican que el rendimiento del

clasificador depende de los rangos de edad. Para confirmar la existencia de depen-

dencias entre la edad y el genero entrenamos cuatro clasificadores de genero, uno

por cada rango de edad, utilizando la base de datos GROUPS y probando estos con los

mismos rangos de edad establecidos sobre la base de datos PAL, ver Figura 4.2. Estos

experimentos proporcionan informacion sobre el rendimiento de un clasificador de

genero que conoce la apariencia y el rango de edad del sujeto. Como nosotros pode-

mos ver en la segunda fila de la Tabla 4.1, el rendimiento mejora, sobre todo para

los el rango de los ancianos. Este experimento muestra claramente la existencia de

dependencias entre el genero, G, y la edad E, dada la apariencia facial, representada

por el variable X.

Experimento/Categorıa de Edad 13-19 20-36 37-65 66+ T.Global

Genero 65,62 % 75,56 % 65,04 % 64,53 % 68,73 %

Genero | Edad 65,62 % 76,47 % 73,98 % 74,87 % 74,78 %

Tabla 4.1: Dependencia entre genero y edad utilizando la base de datos GROUPS para

el entrenamiento y PAL para las pruebas. Separamos las imagenes en cuatro rangos

de edad. Cada fila muestra el resultado de diferentes procesos de entrenamiento.

En la primera fila el clasificador de genero se entreno utilizando todos los rangos

de edad. En la segunda fila un clasificador de genero se entreno por cada rango

de edad independientemente. La primeras cuatro columnas muestran los resultados

estratificados por rango de edad. La ultima columna muestra el promedio de todos

los resultados obtenidos por rango de edad.

En resumen, si el rendimiento de un clasificador de genero basado en apariencia

cambia cuando agregamos informacion sobre la edad, entonces:

P (G|X) 6= P (G|X,E)


�60 �40 �20 0 20 40 600.00

0.01

0.02

0.03

0.04

0.05

0.06P(x|G=[m,w],E=[0-2])

�60 �40 �20 0 20 40 600.00

0.01

0.02

0.03

0.04

0.05

0.06P(x|G=[m,w],E=[3-7])

�60 �40 �20 0 20 40 600.00

0.01

0.02

0.03

0.04

0.05

0.06P(x|G=[m,w],E=[8-12])

�60 �40 �20 0 20 40 600.00

0.01

0.02

0.03

0.04

0.05P(x|G=[m,w],E=[13-19])

�60 �40 �20 0 20 40 600.00

0.01

0.02

0.03

0.04

0.05P(x|G=[m,w],E=[20-36])

�60 �40 �20 0 20 40 600.000

0.005

0.010

0.015

0.020

0.025

0.030

0.035

0.040

0.045P(x|G=[m,w],E=[37-65])

�60 �40 �20 0 20 40 600.000

0.005

0.010

0.015

0.020

0.025

0.030

0.035

0.040

0.045P(x|G=[m,w],E=[66+])

Figura 4.3: Distribucion de probabilidades de la apariencia dado el genero y la edad

sobre la base de datos GROUPS. La figura muestra que dada la edad y el genero la

apariencia no es condicionalmente independiente (P (X|G,E) 6= P (X|G)P (X|E))

porque la distribucion de apariencia es diferente en cada grafica.


Esto implica que el genero, G, y la edad, E, son atributos demograficos condi-

cionalmente dependientes dada la apariencia de la cara, X.

Figura 4.4: Ejemplo de imagenes. La primera y segunda fila son imagenes capturadas

desde la base de datos PAL. La tercera y cuarta fila son imagenes capturadas desde

la base de datos GROUPS. Las dos ultimas filas corresponden a imagenes capturadas

desde la base de datos LFW.

4.2.2. Sobre la dependencias entre los atributos genero y

pose

En esta seccion nos interesa tratar las variaciones de alineacion u orientacion

(pose) de la cara dentro de una ventana de deteccion. Los detectores de caras se

entrenan para ser insensibles a los cambios de pose de la cara, ver Figura 4.4. Esta

caracterıstica de los algoritmos de deteccion hace que la estimacion de atributos

faciales sea mucho mas compleja. En general, para el buen funcionamiento de un

clasificador de genero las imagenes deben ser alineadas a alguna pose canonica por

algun metodo manual o automatico [MR08a, GC09]. En el caso particular del ali-

neamiento automatico, el proceso es computacionalmente muy intensivo y propenso

a errores, tal como lo publicado por Makinen y otros [MR08a]. En esta seccion pro-

ponemos transferir el problema de alineacion a la fase de aprendizaje evitando la

necesidad de alinear las caras a medida que se van detectando. Existen resultados


previos sobre clasificacion y alineacion simultanea [BDTB08, KWSC10]. En nuestro

caso, seguiremos una aproximacion diferente. Para este fin, encontraremos grupos

de poses utilizando las caras obtenidas despues del proceso de deteccion a partir del

conjunto de entrenamiento y emplearemos estos para entrenar un clasificador que

reconozca tanto el genero como la pose de la cara.

Figura 4.5: Imagen canonica de 60× 60 pixeles con la posicion de todos los pares de

ojos (Ple, Pre) encontrados en la base de datos de GROUPS. Los colores indican a que

cluster pertenece cada pareja de puntos de puntos.

Utilizaremos la salida suministrada por el detector de caras como unico proceso

de alineacion. Nuestro objetivo es modelar y aprender las desalineaciones producidas

por el detector de caras. Aprovecharemos y explotaremos el hecho de que GROUPS

tiene etiquetadas las coordenadas del centro de los ojos de todas sus imagenes. Para

adquirir las imagenes desde la base de datos GROUPS, configuramos el detector de

caras para obtener un numero muy bajo de falsos negativos (lo que incrementa el

numero de falsos positivos). Las detecciones erroneas fueron eliminadas posterior-

mente utilizando las etiquetas del centro de los ojos contenidas en GROUPS. Aquellas

imagenes detectadas que no contengan los puntos de los ojos fueron descartadas.


El resultado de este proceso nos deja un conjunto de 22,948 imagenes de la cara

correctamente detectadas (ver tercera y cuarta fila de la Figura 4.4): 11,932 mujeres

y 11,016 hombres.

Una vez obtenidas las caras a partir del detector, aprendemos las desalineacio-

nes de las caras clusterizando la posicion de los ojos (aproximacion similar a la idea

de Poselets [BMM11, BM09]). Para nuestra implementacion, definimos una imagen

canonica de tamano 60 × 60 pixeles. Las coordenadas reales de los ojos, obtenidas

originalmente de la base de datos GROUPS, las calculamos desde la posicion relati-

va superior izquierda de la ventana adquirida con el detector de caras para luego

transformarlas al nuevo sistema de coordenadas respecto a la imagen canonica. Para

la clusterizacion se usara un vector de caracterısticas (xle, yle, xre, yre)> donde le es

la posicion del ojo izquierdo y re es la posicion del ojo derecho en las coordenadas

transformadas sobre la imagen canonica, ver Figura 4.5. Para encontrar los clusters

se utilizo el algoritmo de K −means con un valor obtenido experimentalmente de

K = 6. En la Figura 4.6 se muestra la posicion media de los ojos sobre la imagen

canonica para cada cluster. Para este conjunto de imagenes se obtuvo una distribu-

cion balanceada de imagenes para cada muestra, ver Tabla 4.2. Como consecuencia,

el aprendizaje no se vera influido por la cantidad de datos de cada clase.

Genero/Pose 0 1 2 3 4 5

Mujeres 1359 2561 2677 1627 1599 2109

(5,92 %) (11,16 %) (11,66 %) (7,08 %) (6,96 %) (9,19 %)

Hombres 1987 2565 1713 1660 1526 1565

(8,65 %) (11,17 %) (7,46 %) (7,23 %) (6,64 %) (6,81 %)

Tabla 4.2: Numero de imagenes por genero y grupos de pose. El porcentaje sobre el

numero total de datos se muestra entre parentesis.

Si asumimos que para cualquier posicion de los ojos, U , hay igual numero de

hombres y de mujeres para algun genero, G, y la distribucion de la posicion de los

ojos es similar, asumimos implıcitamente que la posicion de los ojos y el genero son

estadısticamente independientes. Esto es, P (U,G) = P (U)P (G).

Nuevamente, para evaluar si U y G son condicionalmente independientes, dada

la apariencia facial, X, hemos entrenado un clasificador de genero como el explicado

en la seccion 4.1 con las 22,948 imagenes desde la base de datos GROUPS utilizada pa-

ra encontrar los clusters. En la primera fila de la Tabla 4.3 mostramos los resultados

del clasificador de genero entrenado con todas la imagenes y estratificado por pose.

Asimismo, entrenamos un clasificador sobre el conjunto de etiquetas generado por


Figura 4.6: Los clusters muestran las posiciones de los ojos dentro de una ventana

canonica de deteccion de caras. En la columna de la izquierda mostramos la media

de la posicion de los ojos asociada a cada cluster. En las otras columnas mostramos

una muestra de las imagenes asignadas a cada uno de los clusters.


un Powerset de atributos para genero y la posicion de los ojos, ver Tabla 4.5. En los

resultados de esta ultima aproximacion podemos observar que la estimacion de gene-

ro mejora en todas las poses. Por otro lado, es interesante destacar que en las tasas

de acierto se logran importantes incrementos, cerca de un 4 %, en los clusters donde

los cambios de apariencia son mas evidentes, y que corresponden a rotaciones de la

cara. Estos experimentos evidencian la existencia de una dependencia condicional

entre la posicion de los ojos, U , y el genero, G, dada la apariencia facial, representada

por el clasificador de variables discriminantes X (P (G,U |X) 6= P (G|X)).

Experimento/Pose 0 1 2 3 4 5 Global

Genero73,40 % 78,22 % 76,65 % 74,20 % 73,05 % 78,34 % 76,02 %

±0,77 ±0,79 ±1,89 ±1,41 ±1,62 ±0,68 ±0,38

Genero | Pose76,77 % 78,46 % 76,26 % 78,94 % 77,66 % 77,40 % 77,58 %

±1,41 ±1,31 ±1,51 ±1,27 ±0,73 ±0,89 ±1,21

Tabla 4.3: Dependencia entre el genero y la pose. Validacion cruzada 5-fold en

experimentos sobre GROUPS para seis desalineaciones del detector de caras. En cada

fila se muestran los resultados de las pruebas. En la primera fila, el clasificador de

genero se evalua usando todas las imagenes sin importar su alineacion. En la segunda

fila, el clasificador se evalua independientemente para cada grupo de desalineaciones.

Las primeras seis columnas muestran el resultado de las seis clases de desalineaciones.

La ultima columna muestra la tasa de acierto promedio de todas las desalineaciones.

Las desviaciones estandar son mostradas con el sımbolo ±.

4.3. Experimentos

En esta seccion demostraremos que explotando las dependencias del genero con

la edad y la posicion de los ojos podemos mejorar la precision de la estimacion de

genero en problemas del mundo real. Para este fin, evaluamos el rendimiento de

la estimacion de genero empleando el metodo AP en problemas de estimacion para

diferentes atributos faciales que involucran la edad y la posicion de los ojos. En todos

los experimentos, recortamos y redimensionamos las imagenes a un tamano base de

25 × 25 pixeles usando el detector de caras de Viola y Jones en la implementacion

de OpenCV2.

2http://opencv.willowgarage.com

4.3 Experimentos 89

4.3.1. Base de datos de caras

Debido a que actualmente no existe una base de datos unica con todos los atri-

butos faciales que necesitamos para esta tesis, optamos por utilizar diferentes tipos

de bases datos para resolver y estudiar los diferentes problemas:

Condiciones controladas para la estimacion de genero y edad. Para

este problema utilizamos la base de datos PAL [MP04]. Esta base de datos

contiene imagenes frontales de 576 individuos. Hay una sola cara frontal por

individuo, aunque existe el caso de tres individuos que tienen una imagen

repetida en la base de datos. Para nuestros experimentos utilizamos las 576

imagenes, 219 hombres y 357 mujeres. La edad es un atributo disponible para

cada imagen. En nuestros experimentos solo utilizamos una cara frontal por

individuo. En la Figura 4.4, en la fila 1 y 2 mostramos algunas de las caras

detectadas para los experimentos. Ver filas 1 y 2 de la Figura 4.4.

Condiciones no controladas para genero y edad. Para este problema

usamos la base de datos GROUPS [GC09]3. Esta contiene 28,231 imagenes que

fueron etiquetadas con el atributo del genero y un grupo de determinado de

edad y que fueron extraıdas de 5,800 fotografıas de grupos de personas. La

mayorıa de las caras fueron detectadas automaticamente. En GROUPS existen

siete categorıas de edad: 0 − 2, 3 − 7, 8 − 12, 13 − 19, 20 − 36, 37 − 65,

y 66+. Cada rango de edad tiene asociada una etiqueta de tipo entera que

representa el valor medio de cada grupo. GROUPS es una base de datos del

mundo real que fue adquirida en condiciones no controladas: con cambios de

iluminacion, expresiones faciales, tipos de poses u orientaciones, y una amplia

gama demografica de caras. Ver filas 3 y 4 de la Figura 4.4.

Condiciones no controladas para genero. Otra base de datos utilizada

con condiciones no controladas de adquisicion es “Labeled Faces on the Wild”

(LFW) [HRBLM07]. Esta base de datos contiene 13,233 imagenes de caras de

5,740 sujetos diferentes obtenidos desde la web. Las imagenes de caras obte-

nidas empleando el detector de caras de Viola-Jones. Proponemos LFW como

benchmark para el reconocimiento de genero4. Esta base de datos tiene una

distribucion de edad bastante limitada que se concentra mayormente en adul-

tos de mediana edad. Ademas, el genero no esta balanceado (10,256 imagenes

de hombres y 2,977 imagenes de mujeres). A pesar de ello, para los experimen-

tos, utilizamos LFW como el conjunto de prueba para validar el rendimiento

3http://chenlab.ece.cornell.edu/people/Andy/ImagesOfGroups.html4http://fipa.cs.kit.edu/downloads/LFW-gender-folds.dat


y generalizacion de nuestros clasificadores. Primero, entrenamos con la base

de datos GROUPS y luego validamos con la base de datos LFW, ambas bases

de datos tienen las mismas condiciones no controladas de adquisicion y son

obtenidas desde el “mundo real”. Ver filas 5 y 6 de la Figura 4.4.

Clasificacion de genero y pose 3D. Para el desarrollo de estos experimentos

usamos la base de datos CMU Multi-PIE [GMC+10]. Esta es una base de

datos de imagenes de caras adquiridas con diferentes iluminaciones y cambios

de pose 3D. Esta base de datos contiene 337 sujetos fotografiados bajo 15

puntos de vista diferentes y 19 condiciones de iluminacion en un maximo de

cuatro sesiones. Esta es una excelente base de datos para probar la influencia de

la pose 3D sobre los algoritmos de genero. Para los experimentos utilizaremos

todas las iluminaciones de la primera sesion de grabacion para cada sujeto.

No se utilizan expresiones faciales. En la figura 4.7 se observa un conjunto de

caras de esta base de datos despues de la deteccion para un unico individuo.

4.3.2. Estimacion de genero y edad

Para la estimacion de genero realizamos dos experimentos, uno utilizando solo

el atributo de Genero, ver Tabla 4.1, y otro que usa Powerset de atributos (AP)

Genero × Edad, ver Tabla 4.4.

Asumir que la edad es conocida antes de estimar el genero, como lo realizado en

la seccion 4.2.1, no es una suposicion realista ya que por lo general la edad no es un

atributo conocido. Es por esta razon que usamos AP (ver Seccion 4.1) con la idea

de estimar simultaneamente el genero y la edad. Nosotros tenemos dos valores para

genero y siete categorıas para edad. Como consecuencia de ello, tenemos 14 clases

para resolver un problema multi-clase con AP . Para realizar las pruebas, utilizamos

validacion cruzada 5− fold para entrenar un clasificador K-NN sobre el espacio de

caracterısticas transformado LDA. En el caso particular de la base de datos PAL, se

debe considerar que no existen imagenes de caras para gente joven dentro del rango

de edad de 0 a 12 anos. La tasa de acierto global (calculada por la media ponderada

de la tasa de acierto de cada categorıa de edad y la proporcion de datos de estas

con respecto al total de datos) a la aproximacion de AP (Genero× Edad) es mejor

a la que solo utiliza el atributo de Genero en un 3 %. Es interesante destacar, que

la aproximacion que utiliza AP supera a la que usa solo una etiqueta en todos los

rangos de edad de la Tabla 4.1. Las categorıas de edad que son mas difıciles de

discriminar para el clasificador de solo Genero son 13 − 19 y 66+, que presentaron

mejoras de un 3, 13 % y 7, 39 % respectivamente bajo la aproximacion AP . Esto

4.3 Experimentos 91

muestra que el procedimiento de AP permite explotar las dependencias de distintos

atributos y mejorar la tasa de acierto en la estimacion de genero.

Experimento/Categorıa de Edad 13-19 20-36 37-65 66+ T.Global

Genero × Edad 68,75 % 76,01 % 65,85 % 71,92 % 72,01 %

Tabla 4.4: Tasa de acierto para el AP de Genero × Edad para el experimento

GROUPS/PAL. Las primeras cuatro columnas muestran los resultados estratificados

por rango de edad. La ultima columna nuestra el promedio de los resultados para

todos los rangos de edad.

4.3.3. Clasificacion de genero no alineado

Como hemos mostrado en la Seccion 4.2.1, el Powerset de atributos puede explo-

tar las dependencias entre el genero y la posicion de los ojos permitiendo mejorar la

estimacion de genero. Hemos realizado dos grupos de experimentos: uno que solo usa

el atributo de Genero y otro que utiliza el AP sobre Genero × Alineacion. Por otra

parte, hemos organizado el entrenamiento y pruebas en dos tipos de experimentos:

Experimentos sobre una base de datos. En este caso hemos entrenado los cla-

sificadores con la base de datos GROUPS empleando el metodo de validacion

cruzada 5−fold. Los resultados representan el promedio de las tasas de acier-

to de cada fold y su desviacion estandar.

Experimentos de cruce de base de datos. En este caso se entreno un clasificador

con la base de datos GROUPS y las pruebas para la validacion del atributo del

genero se desarrollaron sobre las base de datos LFW.

En los experimentos desarrollados sobre una unica base de datos podemos obser-

var que empleando el AP logramos una mejora global del 2 % en lo que se refiere a

estimacion de genero utilizando imagenes directamente del detector de caras. En la

fila uno de la Tabla 4.5 mostramos los resultados del entrenamiento del clasificador

de genero sobre imagenes desalineadas (imagenes obtenidas directamente desde el

detector de caras). De los resultados obtenidos podemos observar que para el caso de

imagenes de caras “casi” frontales (caras no alineadas pertenecientes a los clusters :

0, 1 y 2) los resultados son mas bien modestos, entre el 1 % y 2 %. Sin embargo,

observamos una importante mejora de las tasas de acierto, entre un 3 % y 4 %, de


Experimento/Pose 0 1 2 3 4 5 T.Global

Genero×Pose75,70 % 79,92 % 77,10 % 77,73 % 77,02 % 78,90 % 77,89 %

±1,37 ±1,24 ±1,84 ±1,19 ±1,16 ±1,36 ±0,33

Tabla 4.5: Tasa de acierto de los AP para Genero×Pose con validacion cruzada 5-

fold y base de datos GROUPS. Las primeras seis columnas muestran los resultados de

genero para los seis grupos de poses obtenidos por medio de K-Means . La ultima

columna muestra el promedio de la tasa de acierto para genero. Las desviaciones

estandar se presentan mediante el sımbolo ±.

aquellos clusters donde existen grandes variaciones de la orientacion de la cara. El

resultado es que se ha logrado mejorar el reconocimiento de genero para los casos

que generalmente son mas complicados de predecir sin una alineacion previa (ya sea

automatica o manual).

GROUPS/LFW GROUPS/LFW (sin ninos)

Genero 77,95 % 78,33 %

Genero×Pose 79,11 % 79,53 %

Tabla 4.6: Experimentos de cruce de bases de datos sobre genero y pose, entrenado

sobre GROUPS y probado sobre LFW. La primera columna muestra los resultados sobre

el clasificador de genero. La segunda fila ensena los resultados utilizando un Powerset

para Genero×Pose. La tercera columna muestra los resultados cuando entrenamos

con las imagenes de GROUPS sin utilizar los rangos de edad de ninos (grupos 0-2, 3-7

y 8-12 anos).

En la misma forma, los experimentos entre base de datos muestran las capaci-

dades de generalizacion del procedimiento Powerset de atributos. Para esto, entre-

namos con la base datos GROUPS y validamos con la base de datos LFW, ya que esta

tambien posee imagenes del “mundo real” pero con un numero limitado de rangos

de edad (solo adultos). En la columna GROUPS/LFW de la Tabla 4.6, mostramos la

tasa de acierto obtenidas en las pruebas. De nuevo, el clasificador entrenado con

atributos de Genero×Pose logra mejores resultados que solo utilizando el atributo

de Genero. Esto confirma que los resultados obtenidos previamente con otras bases

de datos.

Como es bien conocido, la estimacion del genero en ninos es un problema difıcil

debido a la poca variabilidad de apariencia que existe entre un nino o una nina. Por

lo tanto, las caras de los ninos pueden ser consideradas como ruido para la ejecucion

4.3 Experimentos 93

de algoritmos para el reconocimiento del genero. En los ultimos experimentos proba-

mos nuestros clasificadores eliminando las caras de ninos. Los experimentos se han

realizado entrenando con GROUPS sin considerar los rangos de edad comprendidos

entre: 0− 2, 3− 7 y 8− 12 anos. La Tabla 4.7 muestras las mejoras obtenidas para

el reconocimiento de genero, donde se observa una clara mejora, sobre el 2 %, com-

parado con los experimentos donde se utilizo la base de datos con todas las caras.

Por otro lado, el considerar la alineacion para la clasificacion de genero mejora los

resultados de esta sobre el que utiliza solo el atributo de genero en mas del 2 %. Sin

embargo, en los experimentos de cruce de bases de datos (ver tercera columna en la

Tabla 4.6) los resultados de ambos experimentos (con y sin ninos) son equivalentes,

esto se debe a que la base de datos LFW no tiene ninos.

0 1 2 3 4 5 Global

Genero74,43 % 82,91 % 78,47 % 76,77 % 75,80 % 80,19 % 78,49 %

±2,54 ±0,93 ±2,02 ±1,68 ±1,22 ±0,63 ±0,61

Genero×Pose77,71 % 84,15 % 78,80 % 81,56 % 80,06 % 81,16 % 80,53 %

±1,23 ±1,08 ±2,27 ±0,84 ±1,75 ±1,33 ±0,63

Tabla 4.7: Tasa de acierto para genero utilizando validacion cruzada 5-fold en expe-

rimentos sobre GROUPS sin ninos con imagenes detectadas sin alinear. La primera

fila muestra los resultados para clasificacion de genero entrenado con imagenes de

todas las posiciones 2D sin alinear. La segunda fila presenta los resultados obtenidos

con Powerset con Genero×Pose. Las primeras seis columnas despliegan los resulta-

dos de las seis clases sin alinear. La ultima columna muestra el promedio de la tasa

de acierto sobre genero utilizando validacion cruzada. Las desviaciones estandar se

presentan mediante el sımbolo ±.

4.3.4. Cabeza fuera del plano de rotacion para la estimacion

de genero

En la seccion 4.2.2 analizamos las dependencias entre la pose 2-D (en el plano de

desalineacion) y el genero. En esta seccion mostraremos que el atributo de genero

y la orientacion 3-D de la cara tambien son dependientes, permitiendonos explotar

estas relaciones para una estimacion de genero mas robusta.

En nuestros experimentos utilizamos la base de datos Multi-PIE que contiene

las imagenes de 337 sujetos. Cada sujeto fue fotografiado desde 15 puntos de vista

diferentes. Seleccionamos para los experimentos 11 puntos de vista en el plano de


rotacion 3-D descartando los dos perfiles mas extremos y dos vistas tomadas sobre

la cabeza. Como primer paso, obtuvimos todas las imagenes utilizando un detector

de caras frontales y otro de perfil incluidos en las librerıas de OpenCV 5. Utilizamos

ambos detectores al mismo tiempo para simular un detector de caras multi-vista.

Despues de la deteccion, las caras son cortadas y escaladas a imagenes de 25 ×25 pixeles como en los otros experimentos. Para evaluar el clasificador agrupamos

todas las imagenes de un solo sujeto en un fold y aplicamos Leave One Person Out

(LOPO). Es decir, para el entrenamiento utilizamos todas las imagenes de todos

los sujetos menos uno que es utilizado para la etapa de pruebas, esta operacion la

realizamos por cada uno de los sujetos que se encuentran en la base de datos.

12_0 09_0 08_0 13_0 14_0 05_1

05_0 04_1 19_0 20_0 01_0

Figura 4.7: Ejemplos de caras de la base de datos Multi-PIE, con diferentes orien-

taciones, despues de la deteccion.

Como Multi-PIE tiene un numero relativamente grande de sujetos (337) para

ejecutar el procedimiento de validacion LOPO utilizamos un clasificador K-NN .

En la Tabla 4.8 mostramos la tasa de acierto utilizando solo el atributo de Genero

y Powerset de atributos que considera el Genero y la posicion 3-D de la cabeza.

El Powerset de atributos mejora el reconocimiento de genero en un 4 % para este

caso. Este resultado, junto con el resultado obtenido utilizando la pose 2-D, ver

Seccion 4.2.2, muestran claramente que es posible mejorar o hacer mas robusta la

estimacion del genero cuando se toman en cuenta las dependencias entre el genero

y otros atributos faciales.

5http://opencv.willowgarage.com

4.4 Conclusiones 95

Multi-PIE Tasa de Acierto

Genero 84,31 %

Genero×Pose 3D 88,04 %

Tabla 4.8: Experimentos para genero y pose 3D. La primera fila muestra los resul-

tados para un clasificador de genero y la segunda fila despliega los resultados para

un clasificador AP que considera los atributos Genero× 3D.

4.4. Conclusiones

En este capıtulo estudiamos el problema de reconocimiento de genero desde una

perspectiva de multiples atributos. El reconocimiento de genero en condiciones de

laboratorio (p. ej. Color FERET)6 es un problema bien conocido y cuyo estado del arte

proporciona rendimientos superiores al 90 %. Sin embargo, cuando esos algoritmos

han sido probados en escenarios reales o entornos no controlados su rendimiento

cae significativamente. Hemos encontrado que la causa es la existencia de depen-

dencias entre atributos faciales que no han sido consideradas en la construccion de

los clasificadores. En este capıtulo explotamos estas dependencias para mejorar el

rendimiento en el reconocimiento de genero.

Confirmamos los resultados previos encontrados en la literatura sobre la exis-

tencia de dependencias entre el genero y la edad. Adicionalmente, mostramos otras

dependencias relacionados con la alineacion de la cara en el plano 2-D y 3-D. Nuestra

aproximacion explora la combinacion de varias variables demograficas y demuestra

el beneficio de explotar estas para mejorar el rendimiento de un clasificador. De

igual manera, para el aprendizaje de atributos no condicionados a la demografıa,

como es el caso de la pose, logramos evitar el uso de procedimientos de alineacion

automatica de caras que en la practica tienen un costo computacional elevado y, en

ciertos escenarios, son poco robustos. En los experimentos confirmamos la existencia

de dependencias condicionales entre los atributos faciales del genero, la edad y la

pose; y evidenciamos que podemos mejorar el rendimiento de los clasificadores de

genero explotando estas relaciones.

Nuestra intencion en este trabajo es probar que al considerar las dependencias

del genero con otros atributos faciales podemos mejorar la tasa de acierto y efi-

ciencia de la estimacion del genero. Esto es especialmente util cuando utilizamos

bases de datos obtenidas en condiciones no controladas de adquisicion como es el

6http://www.nist.gov/itl/iad/ig/colorferet.cfm


caso de GROUPS. Galagger y otros [GC09] logran un 69, 6 % de tasa de acierto uti-

lizando la totalidad de las caras de GROUPS sobre un clasificador K-NN . En los

experimentos desarrollados obtenemos una tasa de acierto del 78, 49 % usando LDA

y un clasificador K-NN , el cual esta dentro del estado del arte para procedimientos

de reconocimiento de genero [BCBB11].

En los clasificadores presentados utilizamos caracterısticas simples sobre la apa-

riencia global de la cara, ya que la finalidad del capıtulo no es obtener el mejor

clasificador de genero sino mostrar como podemos mejorar el reconocimiento de

genero.

Parte III

Conclusiones

97

Capıtulo 5

Conclusiones

La presente tesis tuvo como objetivo desarrollar tecnicas de analisis de image-

nes para estimar atributos faciales como el genero, la edad y la orientacion de

la cara empleando metodos lineales. Nuestro esfuerzo se centro en el desarrollo de

modelos simples y eficientes, robustos a cambios de iluminacion, pose y condicio-

nes de adquisicion. Elementos relevantes para la implementacion de algoritmos que

funcionen en tiempo real y en dispositivos de bajo coste computacional. En esta

investigacion nuestro desafıo fue comprobar que los modelos propuestos son capaces

de funcionar en condiciones realistas de operacion con una alta tasa de acierto. No

nos preocupamos en utilizar descriptores de la cara sofisticados y, en cambio, em-

pleamos los niveles de gris por ser un descriptor sencillo de la imagen. En resumen,

nuestra principal preocupacion fue dar una oportunidad a los clasificadores lineales.

Para demostrarlo, primero desarrollamos un conjunto de experimentos orienta-

dos a medir la eficiencia y el rendimiento de los estimadores (clasificador o regresor)

utilizando metodos lineales. Hasta la publicacion de los resultados de la presente

tesis, los trabajos relacionados con la estimacion de atributos faciales por medio de

metodos lineales se habıan subestimados debido al bajo rendimiento obtenido. En

nuestros experimentos observamos que convenientemente entrenados, los estimado-

res lineales mejoran notablemente su rendimiento. Adicionalmente, encontramos que

existen dependencias entre los atributos faciales que influyen en la tasa de acierto de

los estimadores. A partir de esto, proponemos una tecnica simple para poder explo-

tar estas dependencias y mejorar su rendimiento ademas de ser robusto a cambios

de pose.

En el Capıtulo 2 analizamos que la mayorıa de los trabajos desarrollados sobre

99

100 Conclusiones

reconocimiento de genero se centraban en bases de datos adquiridas en condiciones

de laboratorio (p.eg. Color FERET). A pesar de esto, muchos de los experimentos

propuestos en la literatura no son comparables en igualdad de condiciones debido

principalmente a que los autores seleccionan o utilizan las imagenes de las bases de

datos de manera distinta. Esta condicion no permite realizar un analisis consistente

de los resultados y por lo tanto no se pueden obtener, en muchos casos, conclusiones

definitivas. Como consecuencia de esto, en el Capıtulo 2 proponemos un procedi-

miento para probar los clasificadores utilizando validacion cruzada y cruces de bases

de datos. Los resultados demuestran que los experimentos ejecutados sobre una base

de datos (validacion cruzada) son similares encontrados a la literatura. Sin embargo,

estos sufren una fuerte caıda en su tasa de acierto cuando los modelos se entrenan

sobre una base de datos y luego validados en otra. Esta disminucion se debe a que

cada base de datos tiene diferentes propiedades en cuanto a la distribucion de sus

atributos faciales etiquetados. Esto significa que podemos encontrar bases de da-

tos con grupos homogeneos en edad, expresiones, etnia, etc; y por contra de otras

bases de datos donde su distribucion es mas heterogenea. Esto nos demuestra que

existen ciertas dependencias entre los atributos faciales, y que al no considerarlas

impactan negativamente en nuestros resultados de clasificacion. Adicionalmente, de-

mostramos que el uso de modelos lineales (LDA) mas un adecuado entrenamiento

mejora considerablemente el rendimiento del clasificador. La conclusion del analisis

realizado en este capıtulo es que, si contamos con un numero suficiente de datos y

recursos computacionales, los clasificadores de genero implementados con Maquinas

de Soporte Vectorial son superiores al resto. Cuando los recursos computacionales

son escasos pero hay suficientes datos, las aproximaciones de boosting y lineales son

las adecuadas. Finalmente, si los datos de entrenamiento y recursos computacionales

son muy escasos, entonces las aproximaciones lineales son la mejor opcion.

En el Capıtulo 3 aplicamos el mismo procedimiento de validacion para la esti-

macion de edad, al igual de lo que ocurrıa en el genero. Observamos que cuando

cruzamos las bases de datos los resultados obtenidos son peores que cuando se uti-

liza una base de datos. Por otro lado, los experimentos muestran que la estimacion

de edad utilizando metodos lineales funciona mejor en ciertos rangos de edad debido

a que la mayorıa de las bases de datos probadas no tiene una distribucion similar

para los diferentes grupos de edad.

De manera semejante, en los Capıtulos 2 y 3 demostramos que es posible obtener

resultados competitivos, con respecto al estado del arte, en cuanto a la tasa de

acierto y sobre todo en terminos de eficiencia computacional utilizando Analisis

Discriminante Lineal (LDA) y buena seleccion de caracterısticas. Como consecuencia

de esto, los estimadores lineales desarrollados utilizando PCA+LDA obtienen los

101

resultados mejores y un rendimiento superior cuando los recursos computacionales

son escasos. Sin embargo, no se puede concluir si estos son robustos en condiciones

reales debido a que los experimentos demuestran que existe una fuerte caıda en su

tasa de acierto cuando se utilizan diferentes bases de datos para su entrenamiento

y prueba.

A partir del estudio anterior, proponemos una manera de aprovechar la informa-

cion contenida en los diferentes grupos de atributos faciales (genero, edad y pose de

la cara). En el Capıtulo 4 demostramos empıricamente que al utilizar la informacion

contenida en las distintas etiquetas de atributos faciales mejoramos de forma signifi-

cativa los resultados obtenidos con respecto a su tasa de acierto. Lo que confirma los

resultados previos encontrados en la literatura sobre la existencia de dependencias

entre el genero y la edad. Adicionalmente, encontramos otros tipos de dependencias

relacionados a la alineacion de la cara en el plano 2D y 3D. Hemos descubierto que

al utilizar estas dependencias entre atributos de manera lineal podemos construir

un clasificador de genero que tenga en cuenta la posicion de los ojos. De tal forma

que no hace falta alinear de manera explıcita la imagen de la cara. En resumen,

confirmamos la existencia de dependencias entre atributos faciales demograficos y

otros relacionados con la apariencia de la cara probando que es posible mejorar la

clasificacion del genero explotandolas adecuadamente.

Finalmente, de los resultados obtenidos en la tesis (Apendice C) podemos resumir

nuestra contribucion en:

Revision del estado del arte en genero y edad. Observamos que en el momen-

to de realizar esta tesis los metodos utilizados para validar los resultados eran

confusos y de difıcil comparacion. Especialmente aquellos obtenidos sobre una

unica base de datos utilizando validacion cruzada con resultados demasiados

optimistas y sesgados. Ademas, aquellos experimentos desarrollados sobre ba-

se de datos ideales (Apendice A) no pueden ser extrapoladas a aplicaciones

que funcionen en condiciones reales.

Desarrollo de una metodologıa de validacion. Como resultado de lo anterior

se formula una estrategia de validacion que considera el cruce de base de

datos. El beneficio inmediato de este procedimiento es que entrega informacion

adicional que no es posible encontrar en validaciones que utilizan una unica

base de datos. Tambien, en nuestros experimentos utilizamos dos bases de

datos que contienen imagenes capturadas en ambientes no controlados (GROUPS

y LFW). Este tipo de experimentos no eran habituales en las publicaciones

estudiadas antes de la publicacion de nuestros resultados. Posteriormente otros

102 Conclusiones

autores han adoptado el mismo esquema de evaluacion [DCGJYAC11].

Implementacion de una estimacion simple y eficiente. En los experimentos

desarrollados quisimos dar una oportunidad a los metodos basados en una

aproximacion lineal. Nuestros resultados demuestran que para cierto tipo de

problemas es posible obtener resultados comparables a los encontrados en el

estado de genero y edad. Podemos senalar que es posible construir estimadores

competitivos basados en aproximaciones lineales con un fuerte impacto en la

reduccion del costo computacional.

Uso de las dependencias de los atributos faciales. Como consecuencia de los

puntos anteriormente expuestos, fue posible detectar que existen dependencias

entre los atributos asociados a imagenes de la cara y que pueden ser utilizados

para mejorar la estimacion del genero y la edad.

Estimacion de atributos sin alineacion fuerte. A partir del uso de las depen-

dencias entre los atributos faciales, disenamos un metodo para poder entrenar

un clasificador de genero que tome en cuenta los cambios de orientacion de la

cara. Con esta simple tecnica logramos eliminar el paso de alineacion automati-

ca, y el coste computacional asociado, previo a la entrada del clasificador.

5.1. Lıneas futuras

A partir de los resultados obtenidos en el desarrollo experimental de esta tesis

identificamos las siguientes lineas de investigacion como trabajo futuro:

Aprovechar de mejor forma las dependencias de los atributos faciales.

En el Capıtulo 5 se demuestra empıricamente que existe una sustancial mejora

en la estimacion del genero cuando se consideran otros atributos faciales. Sin

embargo, la metodologıa seleccionada tiene como deficiencia que al introducir

una cantidad mayor de atributos faciales la explosion combinatorial asocia-

da a las nuevas etiquetas generadas hace que el problema sea practicamente

intratable. Por otro lado, la mayorıa las bases de datos de imagenes no cuen-

tan con las instancias necesarias para cubrir todas las instancias necesarias

asociadas a un tipo de combinacion de atributos faciales, por ejemplo, para la

combinacion Genero×Edad puede ser que no existan instancias asociadas a la

combinacion de hombres que tienen cinco anos. En la bibliografıa este termino

se denomina un problema de cobertura. En Tsoumakas [TKV10] propone un

solucion multi-label que podrıa ser extrapolada a nuestra solucion.

5.1 Lıneas futuras 103

Construir clasificadores o regresores independientes de la pose.

Una de las aplicaciones encontradas en el desarrollo de este trabajo es poder

estimar los atributos faciales de edad y genero independientes de la pose. En

el Capıtulo 5 observamos que esto es posible debido a los buenos resultados

encontrados utilizando la base de datos Multi-PIE, ver Apendice A para mas

informacion. Creemos que es posible extender esta solucion a cualquier cambio

de la pose.

Utilizar una aproximacion basada en caracterısticas locales.

En los experimentos desarrollados en la presente memoria encontramos que

la aproximacion basada en apariencia global tiene varias limitaciones con res-

pecto a los cambios de iluminacion, oclusiones y cambios bruscos en la pose.

Creemos que es posible adaptar este trabajo para utilizar aproximaciones ba-

sadas en caracterısticas locales. Existe un numero emergente de publicaciones

que estudian la forma de describir estas caracterısticas y su impacto en la me-

jora de la estimacion de atributos faciales. Nosotros esperamos que se puedan

construir estimadores lineales que utilicen como entradas estas caracterısti-

cas y que permitan obtener mejores resultados que los modelos basados en la

apariencia global estudiados en este trabajo de tesis.

Extender este estudio a base de datos realistas (no de laboratorio).

A partir del estudio del arte realizado, constatamos que el problema del genero

esta resuelto para condiciones de adquisicion de laboratorio y con imagenes

frontales. En estos ultimos anos notamos que existe un creciente esfuerzo en

extender este tipo de aplicaciones a base de datos “in the wild” principalmente

enfocadas a ambientes de trabajo reales no controlados. Este nuevo desafıo nos

lleva a buscar nuevas estrategias de desarrollo que permitan estimar atributos

faciales sobre una gran cantidad de imagenes, en tiempo real y en condiciones

de adquisicion mucho mas complicadas. Y aunque en esta tesis, Capıtulo 4,

utilizamos las bases de datos GROUPS y LFW para la validacion de nuestros

experimentos, creemos que la nueva tendencia es seguir trabajando en la cons-

truccion de estimadores de atributos robustos y rapidos en cualquier condicion

de adquisicion para el desarrollo de aplicaciones practicas y de uso en entornos

reales.

104 Conclusiones

Apendice A

Bases de datos

Uno de los principales componentes para la validacion de los modelos matemati-

cos propuestos es contar con un conjunto de imagenes y etiquetas adecuadas.

En el estudio de esta tesis hemos observado que existe una cantidad suficiente de

bases de datos para el desarrollo de experimentos en esta investigacion. Sin embargo,

su calidad y etiquetado no siempre es la mejor para desarrollar un trabajo adecuado

de validacion. Dentro de ese contexto, seleccionamos un conjunto de bases de datos

que fueron separadas en dos grupos: Uno que contiene imagenes capturadas en con-

diciones ideales o controladas llamadas base de datos ideales. Por el contrario, el otro

grupo considera imagenes sin restricciones de adquisicion las cuales denominamos

bases de datos en condiciones reales o ‘in the wild”.

A.1. Base de datos en condiciones ideales

Cuando hablamos de condiciones ideales nos referimos a aquellas imagenes de

caras que fueron capturadas condiciones ambientales controladas. Donde cada cap-

tura fue realizada considerando mınimos cambios en las condiciones de iluminacion,

de fondo (con respecto a la cara), expresiones faciales y de pose. Ademas, muchas de

estas bases de datos poseen un conjunto de imagenes de buena calidad considerando

aspectos de contraste, resolucion y ruido.

A continuacion se detallan las bases de datos que fueron utilizadas en el desarrollo

de esta tesis para el reconocimiento de genero y edad.

105

106 Bases de datos

A.1.1. Base de datos Gray FERET

Desarrollada a partir del ano 1993 hasta 1997 en el programa “Facial Recogni-

tion Technology” (FERET) [PWHR98]. Patrocinado por el Departamento de Defensa

en el Programa de Desarrollo de Tecnologıa Antidrogas a traves de la Agencia de

Proyectos de Investigacion Avanzados de Defensa (DARPA). Su objetivo era desa-

rrollar capacidades para el reconocimiento de caras que puedan ser empleadas en

seguridad, inteligencia y el resguardo de la ley. Las imagenes de la base de datos

FERET fueron tomadas con un camara color Kodak Ultra en condiciones controladas

y fueron coleccionadas en 15 sesiones entre 1993 y 1996. Lo que agrega cierto grado

de variabilidad en las condiciones de adquisicion sobre todo en las condiciones de

iluminacion. La base de datos esta compuesta de 14.051 imagenes de caras en tonos

de grises con diferentes tipos de poses.

En nuestros experimentos utilizamos un subconjunto de las imagenes Gray FERET

que fueron propuestas por Makinen y Raisamo [MR08a] para analisis de sensibilidad

giros de la cara fuera del plano de rotacion que utiliza 304 imagenes frontales de la

cara para entrenamiento y 1.008 imagenes organizada en 9 diferentes orientaciones

de +60 a −60 grados para pruebas.

Figura A.1: Seleccion de imagenes obtenidas desde la base de datos Gray FERET.

A.1.2. Base de datos Color FERET

Esta base de datos es una de las mas utilizadas para la investigacion en siste-

mas de reconocimiento facial. Fue desarrollada por el programa “Facial Recognition

A.1 Base de datos en condiciones ideales 107

Technology” (FERET) y que es administrado por la Agencia (DARPA) (Defense Ad-

vanced Research Projects Agency) y (NIST) (National Institute of Standards and

Technology). Es un recurso publico y disponible para investigacion[PMRR00].

En el ano 2003 se libera una nueva version de esta base de datos Gray FERET.

Ahora denominada Color FERET y que contiene multiple imagenes de 994 individuos.

Cada individuo fue capturado en distintas condiciones de pose y expresiones lo que

da un total de 11.338 imagenes de rostros humanos de las cuales 591 individuos son

hombres y 403 son mujeres. Las imagenes tienen una resolucion de 512×769 pixeles.

En la Figura A.2 se muestra un conjunto de imagenes de caras de la galerıa fa la

cual contiene un conjunto de imagenes de caras frontales, con expresiones neutras y

sin una pose aparente.

Figura A.2: Seleccion de imagenes obtenidas desde la base de datos color FERET

gallerıa fa.

A.1.3. Base de datos PAL

PAL es una base de datos que fue elaborada por el Productive Aging Laboratory

de la Universidad de Texas en Dallas[MP04]. El conjunto de imagenes esta formado

por 576 individuos los cuales se dividen en 219 hombres y 357 mujeres. Cada indi-

viduo fue etiquetado con su genero, edad, etnia y expresion facial. Las etiquedas de

edad varıan entre los 18 y 93 anos. En el caso de la etnia las etiquetas identificadas

son Caucasicos, Afro-Americano, Latinos y Asiaticos. Tambien se agregan algunas

expresiones faciales como alegrıa, tristeza, asco, entre otras. Actualmente, se han

agregado caras de perfil.

108 Bases de datos

Las imagenes fueron tomadas con una camara digital Kodac DC 3400 de 2.3

megapixels, utilizando flash y una resolucion de 1760 × 1168. Las imagenes adqui-

ridas fueron editadas para una mayor uniformidad puesto que fueron adquiridas en

condiciones ambientales diferentes. Las imagenes finales son de 640 × 480 pixeles.

La Figura A.3 muestra algunas imagenes pertenecientes a la base de datos PAL.

Figura A.3: Imagenes obtenidas desde la base de datos color PAL con diferentes

expresiones faciales, poses, etnias y genero.

A.1.4. Bade de datos MULTI-PIE

La base de datos Multi-PIE [GMC+10], creada por los investigadores de la Car-

negie Mellon University. Contiene imagenes de caras adquiridas en diferentes con-

diciones de iluminacion, pose y expresion facial. Las imagenes corresponden a 337

individuos (235 hombres y 102 mujeres) que fueron tomadas en cuatro sesiones en

un perıodo de 6 meses con un total de imagenes es de 755.370. La base de datos

comprende diferentes grupos etnicos (60 % europeos-americanos, 35 % asiaticos, 3 %

africanos y 2 % otros) y su edad promedio es de 27, 9 anos. Cada individuo fue fo-

tografiado utilizando 15 camaras de manera simultanea aplicando 19 cambios de

iluminacion. 13 camaras fueron colocadas a la altura de la cabeza con una variacion

de 15 grados entre ellas. Adicionalmente, se instalo dos camaras sobre la altura de

la cabeza tal como se muestra en la Figura A.4 y Figura A.5.

A.2. Base de datos en condiciones semi-reales

Este es un caso intermedio en la adquision de imagenes. Aquı las imagenes son

capturadas sin considerar equipos especıficos de adquision (no se consideran aspectos

A.2 Base de datos en condiciones semi-reales 109

Figura A.4: La imagen muestra la posicion de cada una de las camaras. (Fuente:

http://www.multipie.org/)

Figura A.5: Las imagenes muestran las vistas obtenidas de las 15 camaras capturas

con iluminacion frontal. (Fuente: http://www.multipie.org/)



110 Bases de datos

de calidad de la imagen, ruido, etc.) pero las condiciones ambientales son controladas:

un edificio o un habitacion sin cambios bruscos de fondo o iluminacion.

A.2.1. Base de datos UCN

La base de datos UCN es un conjunto de imagenes no publicas obtenidas en la

Universidad Catolica del Norte (Chile) de alumnos y academicos (uno por individio).

Las imagenes fueron adquiridas con diferentes dispositivos (camaras web, camaras

digitales, etc), bajo diferentes resoluciones, condiciones de iluminacion y las caras

no estan estrictamente de frente. La base de datos contiene 10.700 individuos, 5.628

hombres y 5.054 mujeres.

En nuestros experimentos utilizamos las imagenes de 5.628 hombres y 5.041

mujeres ya que el detector utilizado perdio algunas de ellas al preparar los datos.

Figura A.6: Imagenes obtenidas de la base de datos UCN.

A.2.2. Base de datos MORPH-II

MORPH-II (Craniofacial Longitudinal Morphological Face Database), es la base

de datos de imagenes de caras mas grande a disposicion del publico [RT06]. Esta

cuenta con tres series de imagenes dos para el uso comercial (Album 1 y 2) y un

subconjunto compuesta por imagenes del Album 2 disponible para invesgacion que

denominamos MORPH-II. Las tres series de imagenes incluyen como metadata: raza,

genero, fecha de nacimiento y fecha de adquision de la imagen. La base de datos

se compone de 55.124 imagenes en color de mas de 13.000 personas, con diferentes

resoluciones de 200×240 o 400×480 pixeles, tomadas entre los anos 2003 y 2007. El

A.3 Base de datos en condiciones reales 111

rango de edad varıa desde los 16 a 77 anos. El promedio de imagenes por individuo

es de 4 y el tiempo medio entre cada foto es de 164 dıas. Los individos tienen una

distribucion de genero de 46.645 imagenes de hombres (84, 60 %) y 8.489 imagenes

de mujeres (15,40 %) y la etnia esta compuesta de un 80 % de afro-americanos (el

resto correponde a caucasicos, asiaticos, hispanos y otros). La Figura A.7 muestra

algunas imagenes de la base de datos.

Figura A.7: Imagenes obtenidas de la base de datos MORPH-II.

A.3. Base de datos en condiciones reales

Existe un grupo muy interesante de bases de datos de imagenes de caras que

consideran la captura de estas en condiciones ambientales no controladas. General-

mente estas imagenes son coleccionadas directamente desde Internet o de ambientes

cotidianos como camaras publicas, fotos de fiestas, de viajes, etc. Estas imagenes

muestran grandes cambios de iluminacion, pose, escala, expresiones, oclusiones, rui-

do, entre otras variables. Hoy en dıa, existe un gran interes en estudiar este tipo de

base de datos ya que sus resultados permiten enfrentar los modelos de analisis facial

a entornos mas cercanos al mundo real.

112 Bases de datos

A.3.1. Base de datos FG-NET

La base de datos de edad “The Face and Gesture Recognition Research Net-

work” (FG-NET) contiene las imagenes de 82 individuos. Cada individuo tiene en

promedio 12 imagenes en diferentes edades que fluctuan entre 0 a 69 anos. Cada

cara fue anotada manualmente con 68 puntos de referencia (landmark points). Adi-

cionalmente, existe un archivo por cada imagen que contiene el tipo, la calidad,

tamano e informacion adicional sobre la edad, el genero, las gafas, sombrero, bigote,

barba y pose. Esta base de datos no tiene una buena distribucion de las edades y

sobre todo en imagenes de individuos mayores a los 40 anos.

Figura A.8: Imagenes obtenidas desde la base de datos FG-NET. Las imagenes son

capturadas en diferentes condiciones ambientales y de adquisicion. Por cada indivi-

duo se almacenan un grupo de imagenes de diferentes edades.

A.3.2. Base de datos GROUPS

La base de datos de caras GROUPS [GC09] consiste de 28231 imagenes de caras.

Las cuales fueron extraıdas de 5800 imagenes de grupos de personas, etiquetadas con

genero, una categorıa de edad (0-2, 3-7, 8-12, 13-19, 20-36, 73-65, y 66+). Muchas

de las imagenes de caras son de baja resolucion, donde la media de la distancia

interpupilar (considerando el centro del ojo) es de 18.5 pixeles y el 25 % de las

imagenes no superan los 12.5 % de estas medidas. La Figura A.10 muestra algunas

imagenes que fueron obtenidas desde la base de datos.

A.3 Base de datos en condiciones reales 113

Figura A.9: Imagenes obtenidas desde la base de datos color GROUPS. Las imagenes

muestran que las condiciones de adquisicion son diferentes para cada imagen.

A.3.3. Base de datos LFW

La base de datos “Labeled Faces in the Wild” tiene 13.233 imagenes de caras de

5.749 individuos (4.263 hombres y 1.486 mujeres). Cada imagen tiene una resolucion

de 250 × 250 pixeles y fueron obtenidas desde la Web [HRBLM07] utilizando el

detector de caras propuesto por Viola y Jones [VJ04]. 1.680 personas tienen dos

imagenes y el resto tienen una imagen. La mayorıa de las imagenes estan en color.

La distribucion de edades se centra en adultos de mediana edad. Las imagenes estan

divididas en 10.256 hombres (77, 50 %) y 2.977 mujeres(22, 50 %).

Figura A.10: Imagenes obtenidas desde la base de datos LFW. Las imagenes corres-

ponden a diferentes personajes publicos obtenidos desde la Web.

Apendice B

Caracterısticas visuales para caras

Una imagen es una representacion grafica del mundo que nos rodea y esta co-

dificada digitalmente en unidades mınimas llamadas pixeles. Los valores contenidos

en los pixeles contienen suficiente informacion para almacenar sus caracterısticas

inherentes y que son relevantes para su posterior analisis. Sin embargo, para po-

der automatizar este proceso es necesario contar con una representacion adecuada

que permita extraer la informacion relevante e ignorar la menos significativa. La

representacion de las caracterısticas visuales en una imagen son resueltas utilizan-

do descriptores visuales mediante calculos matematicos que capturan propiedades

elementales como la forma, el color, la textura o el movimiento, entre otros. Selec-

cionar un buen descriptor visual es clave para cualquier procesamiento y analisis

de la imagen. En general, un buen descriptor visual debe cumplir con las siguientes

propiedades [TM08]: 1) repetibilidad: Dada dos imagenes de la misma escena u

objeto obtenidas bajo diferentes condiciones, un alto porcentaje de caracterısticas

visuales calculadas deben ser encontradas en ambas; 2) diferenciabilidad: Las ca-

racterısticas detectadas deben tener un alto grado de variabilidad con respecto a

otras imagenes para poder distinguirlas y compararlas; 3) Locales: Las caracterısti-

cas deben ser locales para reducir la probabilidad de oclusiones; 4) Cantidad: La

cantidad de caracterısticas detectadas debe ser suficientemente grande, de mane-

ra que un numero razonable de caracterısticas son detectadas incluso en objetos

pequenos; 5) Precision: Las caracterısticas detectadas deben ser localizadas con

precision, tanto en ubicacion de la imagen, como con respecto a su escala y forma;

6) Eficiencia: La deteccion y representacion de las caracterısticas en nueva imagen

se deberıa calcular en aplicaciones de tiempo crıtico.

115

116 Caracterısticas visuales para caras

B.1. Descriptores Globales

Resumen todo el contenido de una imagen en un unico vector o matriz de ca-

racterısticas. Su ventaja radica en representar una gran cantidad de datos en una

pequena cantidad de informacion util. Son ampliamente utilizadas por su bajo coste

computacional. Su principal desventaja, sensible a oclusiones y cambios de fondo.

B.1.1. PCA

Analisis de Componentes Principales (PCA), es una tecnica que permite reducir

las dimensiones del vector del espacio de caracterısticas inicial a uno que conserva

la mayor cantidad de informacion posible. Es un metodo no supervisado, es decir

solo utiliza la informacion de las observaciones para su calculo y no la de sus etique-

tas, para la extraccion de caracterısticas y fue desarrollado por Pearson [Pea01]. El

metodo es una transformacion lineal de los datos que mantiene la mayor informacion

posible bajo un criterio de reconstruccion Euclıdeo, ver Figura B.1.

Sea W la matriz que representa la transformacion lineal que mapea desde el es-

pacio d−dimensional original a un subespacio f−dimensional donde normalmente

f � d. Los nuevos vectores de caracterısticas yi = <f se definen por yi = W>xi,

i = 1, . . . , N . Las columnas de la matriz W son los vectores propios ei obtenidos

mediante la descomposicion de los valores y vectores propios de λiei = Qei, donde

Q = XX> es la matriz de covarianza y λi el valor propio asociado al vector propio

ei.

Una de las primeras aplicaciones PCA para clasificacion de caras fue realizado

por Kirby [KS90] y mas tarde, Turk y Pentland [TP91] desarrollaron la nocion de

eigenfaces para la clasificacion utilizando PCA. Hoy en dıa PCA es utilizado en

un sin numero de aplicaciones para la clasificacion y analisis de atributos faciales.

En el Capıtulo 2 utilizamos este concepto para mejorar la clasificacion de atributos

faciales como el genero.

B.1.2. ICA

El Analisis de Componente Independiente (ICA) es un metodo lineal de extrac-

cion de caracterısticas no supervisado que encuentra nuevas caracterısticas maximi-

B.1 Descriptores Globales 117

zando la independencia estadıstica de los componentes estimados [HO00]. La tecnica

ICA es especialmente apropiada para la reduccion de redundancia ya que asume que

la senal fuente esta compuesta por un conjunto de senales independientes, ver Fi-

gura B.1. El calculo de la matriz de transformacion se puede resolver utilizando

una aproximacion de maxima verosimilitud, maximizando la no gausianidad de los

componentes independientes [Hyv99] o minimizando su informacion mutua [Com94].

Figura B.1: Representacion grafica de los nuevos ejes generados por PCA e ICA.

(Fuente: http://meg.aalip.jp/ICA/)

B.1.3. LDA

El Analisis Discriminante Lineal (LDA) [Fis36, Fuk90] es probablemente la tecni-

ca supervisada de extraccion mas conocida para la extraccion de caracterısticas pa-

ra problemas de clasificacion de caras, entre otras muchas aplicaciones. Este es un

metodo lineal y busca maximizar la separabilidad entre-clases, SB, y minimizar la

dispersion intra-clase, SB.

Segun Webb [Web02] las caracterısticas del metodo son:

1. Se produce una transformacion a un subespacio de a lo sumo C−1 dimensiones,

donde C es el numero de clases.

2. La transformacion es libre de la distribucion de los datos de entrada.

3. Los ejes del sistema de coordenadas transformado pueden ser ordenados en

terminos de su “importancia de discriminacion”.

http://meg.aalip.jp/ICA/


4. La discriminacion puede ser realizada sobre el nuevo subespacio utilizando

cualquier tipo de clasificador.

5. El analisis de discriminante lineal se puede utilizar para post-procesos mas

complejos, clasificadores no lineales.

B.2. Descriptores Locales

Se calculan sobre regiones de interes previamente calculadas e identificadas. Por

cada region se obtiene un vector que la describe y toma en cuenta la informacion de

los pixeles vecinos.

B.2.1. Bancos de filtros de Gabor

El filtro de Gabor, propuesto por Gabor [Gab46], se define como el producto de

una exponencial compleja por una funcion gaussiana. Son filtros que tienen como

principal caracterıstica que, al introducir el envolvente gaussiano, se localizan tanto

en el dominio espacial como en el de la frecuencia. Daugman [Dau85] extiende el

original filtro de Gabor a una representacion de 2 dimensiones.

El filtro de Gabor es una onda tıpica y se puede utilizar para extraer informa-

cion local de la region de imagen tanto en el dominio espacial y de frecuencia, en

contraposicion a las tecnicas globales como la transformada de Fourier que extrae

caracterıstica que representa las propiedades de toda la imagen. Para el analisis de la

textura y la segmentacion la imagen se descompone en un conjunto de canal espacial

de frecuencias de banda estrecha por un banco de filtros de Gabor cuyas respuestas

son analizadas, ver Figura B.2.

B.2.2. Haar-Like

Hasta finales de los noventa muchos de los descriptores utilizados en vision por

computador se basaron en utilizar todos los valores de la imagen. El calculo es-

tas caracterısticas era costoso en terminos computacionales y no ofrecıa, en la ma-

yorıa de los casos, una representacion adecuada de la imagen. En el trabajo Michael

Oren [OPSO97] se propuso un nuevo conjunto de caracterısticas basadas en los Haar

B.2 Descriptores Locales 119

Figura B.2: Ejemplos de diferentes filtros de Gabor aplicados a tres tipos de imagenes

diferentes. (Fuente: http://scikit-image.org/docs/dev/auto_examples/plot_

gabor.html#example-plot-gabor-py)




Wavelet. Esta nueva forma de presentar una imagen ofrecıa como ventaja una simple

y economica forma de describir la estas por medio de la diferencia de intensidades

encerradas entre rectangulos, similares a las formas definidas por los Haar Wave-

lets, ver Figura B.3. Para cada imagen se aplican una serie de funciones (filtros) que

implementan diferentes caracterısticas Haar. Esto permite que se pueda detectar la

estructura de los objetos aunque cambie su apariencia por diferentes factores (pose,

iluminacion, textura, etc).

Una caracterıstica Haar se calcula sobre un trozo de la imagen, de tamano y

orientacion variable. Esta se divide en regiones rectangulares y se definen en zonas de

tipo positiva y negativa. En la Figura B.3(b) observamos tres tipos de caracterısticas

Haar, cada una define una region negativa (color gris) y una region positiva (color

blanco). Para calcular la caracterıstica Haar para un punto particular se utiliza la

siguiente ecuacion:

H =∑

(x,y) ∈ rb

I(x, y)−∑

(x,y) ∈ rg

I(x, y) (B.1)

donde rb es el conjunto de pixeles que pertenecen a la region blanca y rg es el

conjunto de pixeles que pertenecen a la region gris. H es la caracterıstica calculada

para un filtro Haar.

Figura B.3: Haar Wavelet : a) Representa la funcion Haar Wavelet b) Representa

tres tipos de Haar wavelets no estandares: vertical, horizontal y diagonal [PP00].

Este metodo de extraccion de caracterısticas ha sido ampliamente utilizado en


un sin numero de aplicaciones de vision por computador. Entre las publicaciones

mas destacadas en el uso de estas caracterısticas se encuentra el detector de caras

desarrollado por Paul Viola [VJ01] donde extienden las caracterısticas Haar-like y

proponen un algoritmo de clasificacion. Un ano mas tarde, Rainer Lienhart [LM02]

propone un nuevo conjunto de caracterısticas Haar-like rotadas.

B.2.3. LBP

LBP es un simple descriptor de textura propuesto por [OPH96]. El operador

se basa en representar cada pixel de una imagen como una codificacion binaria a

partir de la informacion de sus pixeles vecinos, ver Figura B.4. En su version inicial,

la tecnica se realiza analizando una zona de 3 × 3 pixeles, donde el valor del pixel

central es utilizado como referencia y se compara con cada uno de sus vecinos. Si

el valor del pixel central es menor o igual a su vecino, este ultimo es etiquetado

con valor 1, en caso contrario se etiqueta con valor 0. Como resultado se obtiene

un vector binario de 8 dimensiones. Este proceso se realiza sobre toda los pixeles de

la imagen. Por cada pixel se obtiene una representacion decimal y se utiliza para

construir un histograma que se utiliza como descriptor, ver Figura B.5.

Figura B.4: Calculo del descriptor LBP en la version propuesta en [OPH96].

Una descripcion formal de LBP es dada por:

LBP (xc, yc) =

p−1∑n=0

2n(in − ic), (B.2)

Con (xc, yc) es el pixel central con valor de intensidad ic e in los valores de

intensidad de los pixeles vecinos, s se define como la funcion:

f(n) =

{1 if ≥ 0

0 else(B.3)


Figura B.5: Calculo del descriptor LBP [MRH07].

Existen versiones mas recientes para el calculo de los descriptores que utilizan

diferentes radios de vecinos y patrones uniformes que mejoran las heurısticas de

codificacion del vector binario [OPM02].

B.2.4. SIFT

Scale Invariant Feature Transform (SIFT) es un detector y descriptor disenado

por Lowe [Low04]. El algoritmo permite transformar la imagen a una representacion

compuesta de puntos de interes invariantes a la escala de la imagen y a la rotacion.

Ademas provee de descriptores robustos para emparejamiento, admitiendo substan-

ciales rangos de distorsion afın, cambios de perspectiva, adicion de ruido y cambios

de iluminacion.

Para cada descriptor obtenido con SIFT, todos los gradientes ponderados se nor-

malizan a la orientacion principal de la region circular. La region circular alrededor

del punto de interes es dividido en regiones de 4x4 pixeles sin sobreponerse y el gra-

diente de histograma y se calculan los histogramas orientaciones gradiente dentro

de estas regiones. El suavizado del histograma se realiza con el fin de evitar cambios

repentinos de la orientacion y el tamano del contenedor se reduce a 8 con el fin de

limitar el tamano del descriptor. Esto se traduce en un vector de caracterısticas de

128 dimensiones (4x4x8) para cada punto de interes. En la Figura B.6 se ilustra

el procedimiento descrito para una ventana de 2x2 en vez de 4x4, por lo que el

histograma obtenido tiene solo 32 dimensiones.


Figura B.6: Diagrama que muestra como se obtiene un descrip-

tor SIFT. (Fuente: https://gilscvblog.wordpress.com/2013/08/18/

a-short-introduction-to-descriptors/)

B.2.5. HOG

El metodo Histograma de Gradiente Orientado (HOG), que se hereda de la

Transformacion de Caracterısticas Invariables a la Escala (SIFT), se aplica para

la deteccion humana. La idea basica de HOG se basa en que la observacion en la

apariencia local del objeto y la forma pueden a menudo caracterizarse bastante bien

por la distribucion de los gradientes de intensidad locales o direcciones de bordes.

Las caracterısticas de HOG se derivan en base a una serie de locales orientacio-

nes de histogramas de gradiente de la imagen bien normalizados en una densa red.

En particular, la imagen se divide en primer lugar en celdas pequenas. Para cada

celda, un histograma local del gradiente, direcciones u orientaciones de borde, se

acumula sobre los pıxeles de la celda. Todos los histogramas dentro de las celdas de

un bloque se normalizan para reducir el efecto de la variacion de iluminacion. Los

bloques se pueden superponer entre sı para mejorar el rendimiento. Las caracterısti-

cas finales del HOG se forman mediante la concatenacion de todos los histogramas

normalizados en un unico vector, ver Figura B.7.

https://gilscvblog.wordpress.com/2013/08/18/a-short-introduction-to-descriptors/

https://gilscvblog.wordpress.com/2013/08/18/a-short-introduction-to-descriptors/


Figura B.7: Diagrama de bloque que muestra como calcular un descriptor basado

en HoG [KKN12].

Apendice C

Resultados de la tesis

C.1. Publicaciones Indexadas

Robust gender recognition by exploiting facial attributes dependencies. Juan

Bekios-Calfa, Jose Miguel Buenaposada, Luis Baumela. Pattern Recognition

Letters 36: 228-234 (2014).

Class-Conditional Probabilistic Principal Component Analysis: Application to

Gender Recognition. Juan Bekios-Calfa, Jose Miguel Buenaposada, Luis Bau-

mela. Computacion y Sistemas 14(4) (2011)

Revisiting Linear Discriminant Techniques in Gender Recognition. Juan Bekios-

Calfa, Jose Miguel Buenaposada, Luis Baumela. IEEE Trans. Pattern Anal.

Mach. Intell. 33(4): 858-864 (2011)

C.2. Congresos Indexados

Alignment-Free Gender Recognition in the Wild. Juan Bekios-Calfa, Jose Mi-

guel Buenaposada, Luis Baumela. Pattern Recognition and Image Analysis -

6th Iberian Conference, IbPRIA 2013, Funchal, Madeira, Portugal, June 5-7,

2013.

On the Importance of Multi-dimensional Information in Gender Estimation

from Face Images. Juan Bekios-Calfa, Jose Miguel Buenaposada, Luis Bau-

mela. Progress in Pattern Recognition, Image Analysis, Computer Vision, and

125

126 Resultados de la tesis

Applications - 16th Iberoamerican Congress, CIARP 2011, Pucon, Chile, No-

vember 15-18, 2011.

Age Regression from Soft Aligned Face Images Using Low Computational Re-

sources. Juan Bekios-Calfa, Jose Miguel Buenaposada, Luis Baumela. Pattern

Recognition and Image Analysis - 5th Iberian Conference, IbPRIA 2011, Las

Palmas de Gran Canaria, Spain, June 8-10, 2011.

Apperance-Based Tracking and Face Identification in Video Sequences. Jose Mi-

guel Buenaposada, Juan Bekios, Luis Baumela. Articulated Motion and De-

formable Objects, 5th International Conference, AMDO 2008, Port dAndratx,

Mallorca, Spain, July 9-11, 2008.

C.3. Patente

Referencia: P201030025. Dispositivo y procedimiento automatico para estable-

cer el sexo al que pertenecen los rostros que aparecen en imagenes.

Bibliografıa

[AC09] A.A. Freitas A. Carvalho. A tutorial on multi-label classification

techniques. Foundations of Computational Intelligence Volume 5:

Function Approximation and Classification. Springer, 2009.

[ad] Redpepper ad. FACEDEALS Get personalized deals. http:

//redpepperland.com/lab/details/check-in-with-your-face.

[Online; accessed 02-September-2014].

[AW09] Haizhou Ai and Gao Wei. Face gender classification on consumer

images in a multiethnic environment. In Advances in Biometrics.

Springer, 2009.

[ax314] ax3battery. Touch screen vending machines?! http://ax3battery.

com/2013/04/15/touch-screen-vending-machines-2/, April

2014. [Online; accessed 02-September-2014].

[BCBB11] Juan Bekios-Calfa, Jose M. Buenaposada, and Luis Baumela. Re-

visiting linear discriminant techniques in gender recognition. IEEE

Transactions on Pattern Analysis and Machine Intelligence, 33(in

press), 2011.

[BCBB14] Juan Bekios-Calfa, Jose M. Buenaposada, and Luis Baumela. Ro-

bust gender recognition by exploiting facial attributes dependencies.

Pattern Recognition Letters, 36:228 – 234, 2014.

[BDTB05] Boris Babenko, Piotr Dollar, Zhuowen Tu, and Serge Belongie. Si-

multaneous Learning and Alignment: Multi-Instance and Multi-Pose

Learning. In ECCV Workshop on Faces in Real-Life Images: De-

tection, Alignment, and Recognition, 2005.

[BDTB08] B. Babenko, P. Dollar, Z. Tu, and S. Belongie. Simultaneous learning

and alignment: Multi-instance and multi-pose learning. In Faces in

Real-Life Images, October 2008.

127

http://redpepperland.com/lab/details/check-in-with-your-face

http://redpepperland.com/lab/details/check-in-with-your-face

http://ax3battery.com/2013/04/15/touch-screen-vending-machines-2/

http://ax3battery.com/2013/04/15/touch-screen-vending-machines-2/

[BHK97] P.N. Belhumeur, J.P. Hespanha, and D.J. Kriegman. Eigenfaces

vs. fisherfaces: Recognition using class specific linear projection.

IEEE Transactions on Pattern Analysis and Machine Intelligence,

19(7):711–720, July 1997.

[Blu11] A.G. Bluman. Elementary Statistics: A Step by Step Approach.

McGraw-Hill Education, 2011.

[BM09] Lubomir D. Bourdev and Jitendra Malik. Poselets: Body part de-

tectors trained using 3d human pose annotations. In ICCV, pages

1365–1372, 2009.

[BMM11] Lubomir Bourdev, Subhransu Maji, and Jitendra Malik. Describing

people: A poselet-based approach to attribute classification. In Pro-

ceedings of the 2011 International Conference on Computer Vision,

ICCV ’11, pages 1543–1550, Washington, DC, USA, 2011. IEEE

Computer Society.

[BR07] Shumeet Baluja and Henry A. Rowley. Boosting sex identification

performance. International Journal of Computer Vision, 71(1), Ja-

nuary 2007.

[BZS09] Ni Bingbing, Song Zheng, and Yan Shuicheng. Web image mining

towards universal age estimation. In Proc. of ACM International

Conference on Multimedia, October 2009.

[CET01] Timothy F. Cootes, Gareth J. Edwards, and Christopher J. Tay-

lor. Active appearance models. IEEE Trans. Pattern Anal. Mach.

Intell., 23(6):681–685, June 2001.

[Cla06] Kenneth L. Clarkson. Nearest-neighbor searching and metric space

dimensions. In Gregory Shakhnarovich, Trevor Darrell, and Piotr

Indyk, editors, Nearest-Neighbor Methods for Learning and Vision:

Theory and Practice, pages 15–59. MIT Press, 2006.

[Com94] Pierre Comon. Independent component analysis, a new concept?

Signal Processing, 36(3):287 – 314, 1994. Higher Order Statistics.

[CSLNRB13] Modesto Castrillon-Santana, Javier Lorenzo-Navarro, and Enrique

Ramon-Balmaseda. Improving gender classification accuracy in the

wild. In Jose Ruiz-Shulcloper and Gabriella Sanniti di Baja, editors,

Progress in Pattern Recognition, Image Analysis, Computer Vision,

and Applications, volume 8259 of Lecture Notes in Computer Scien-

ce, pages 270–277. Springer Berlin Heidelberg, 2013.

128

[CV95] Corinna Cortes and Vladimir Vapnik. Support-vector networks. Ma-

chine Learning, 20(3):273–297, 1995.

[Dau85] J. G. Daugman. Uncertainty relation for resolution in space, spa-

tial frequency, and orientation optimized by two-dimensional visual

cortical filters. Journal of the Optical Society of America A: Optics,

Image Science, and Vision, 2(7):1160–1169, 1985.

[DCGJYAC11] P. Dago-Casas, D. Gonzalez-Jimenez, Long Long Yu, and J.L. Alba-

Castro. Single- and cross- database benchmarks for gender classifica-

tion under unconstrained settings. In Computer Vision Workshops

(ICCV Workshops), 2011 IEEE International Conference on, pages

2152–2159, Nov 2011.

[DGFG12] M. Dantone, J. Gall, G. Fanelli, and L. Van Gool. Real-time facial

feature detection using conditional regression forests. In CVPR,

2012.

[DGSA+10] David Delgado-Gomez, Federico Sukno, David Aguado, Carlos San-

tacruz, and Antonio Artes-Rodriguez. Individual identification using

personality traits. Journal of Network and Computer Applications,

33(3):293 – 299, 2010. Recent Advances and Future Directions in

Biometrics Personal Identification.

[DPCG12] Kun Duan, Devi Parikh, David J. Crandall, and Kristen Grauman.

Discovering localized attributes for fine-grained recognition. In 2012

IEEE Conference on Computer Vision and Pattern Recognition,

Providence, RI, USA, June 16-21, 2012, pages 3474–3481, 2012.

[EG99] John P. Eakins and Margaret E. Graham. Content-based Image Re-

trieval: A report to the JISC Technology Applications Programme.

Technical report, Institute for Image Data Research, University of

Northumbria at Newcastle, 1999.

[EHSH93] Paul Ekman, Thomas J. Huang, Terrence J. Sejnowski, and Jo-

seph C. Hager. Final Report to NSF of the Planning Workshop

on Facial Expression Understanding. Technical report, University

of California, San Francisco, CA 94143, 03 1993.

[Fac] Face++. Faceplusplus face detection. http://www.faceplusplus.

com/. [Online; accessed 02-September-2014].

[FEHF09] A. Farhadi, I. Endres, D. Hoiem, and D. Forsyth. Describing objects

by their attributes. In Computer Vision and Pattern Recognition,

129

http://www.faceplusplus.com/

http://www.faceplusplus.com/

2009. CVPR 2009. IEEE Conference on, pages 1778–1785, June

2009.

[Fis36] R. A. Fisher. The use of multiple measurements in taxonomic pro-

blems. Annals of Eugenics, 7(7):179–188, 1936.

[FSA99] Yoav Freund, Robert Schapire, and N Abe. A short introduction

to boosting. Journal-Japanese Society For Artificial Intelligence,

14(771-780):1612, 1999.

[Fuk90] Keinosuke Fukunaga. Introduction to statistical pattern recognition.

Academic Press, 1990.

[Gab46] Dennis Gabor. Theory of communication. J. Inst. Elect. Eng.,

93:429–457, 1946.

[GC09] Andrew C. Gallagher and Tsuhan Chen. Understanding images of

groups of people. In Proc. of CVPR, pages 256–263, 2009.

[GDFH09] Guodong Guo, Charles R. Dyer, Yun Fu, and Thomas S. Huang. Is

gender recognition affected by age? In Proc. of IEEE International

Workshop on Human-Computer Interaction (HCI’09), pages 2032–

2039, 2009.

[GLS90] B. A. Golomb, D. T. Lawrence, and T. J. Sejnowski. Sexnet: A

neural network identifies sex from human faces. In Advances in

Neural Information Processing Systems, pages 572–577, 1990.

[GM10] Guodong Guo and Guowang Mu. A study of large-scale ethnicity

estimation with gender and age variations. In IEEE Int. Workshop

on Analysis and Modeling of Faces and Gestures (AMFG’10), pages

79–86, 2010.

[GMC+10] Ralph Gross, Iain Matthews, Jeffrey Cohn, Takeo Kanade, and Si-

mon Baker. Multi-pie. Image Vision Comput., 28(5):807–813, May

2010.

[GMF+09] Guodong Guo, Guowang Mu, Yun Fuo, Charles Dyer, and Thomas

Huang. A study on automatic age estimation using a large database.

In Proc. of ICCV, pages 1986–1991. IEEE, 2009.

[GMFH09] Guodong Guo, Guowang Mu, Yung Fu, and Thomas S. Huang. Hu-

man age estimation using bio-inspired features. In Proc. of CVPR,

pages 112–119, 2009.

130

[HMP14] Andrew Harrison, Brian Mennecke, and Anicia Peters. Marketing

avatars revisited: A commentary on facial recognition and embodied

representations in consumer profiling. Business Horizons, 57(1):21

– 26, 2014.

[HO00] A. Hyvarinen and E. Oja. Independent component analysis: Algo-

rithms and applications. Neural Netw., 13(4-5):411–430, May 2000.

[HRBLM07] Gary B. Huang, Manu Ramesh, Tamara Berg, and Erik Learned-

Miller. Labeled faces in the wild: A database for studying face

recognition in unconstrained environments. Technical Report 07-

49, University of Massachusetts, Amherst, October 2007.

[HTF09] Trevor Hastie, Robert Tibshirani, and Jerome Friedman. The ele-

ments of statistical learning: data mining, inference and prediction.

Springer series in statistics. Springer, February 2009.

[Hyv99] Aapo Hyvarinen. Survey on independent component analysis, 1999.

[imr] imrsv. CARA Emotion Measurement. https://imrsv.com/. [On-

line; accessed 02-September-2014].

[JBT10] Amirhossein Jahanbekam, Cristian Bauckhage, and Christian Thu-

rau. Age recognition in the wild. In Proc. of ICPR, pages 392–395.

IEEE, 2010.

[JDM00] A.K. Jain, R.P.W. Duin, and Jianchang Mao. Statistical pattern

recognition: a review. Pattern Analysis and Machine Intelligence,

IEEE Transactions on, 22(1):4–37, Jan 2000.

[JH04] Amit Jain and Jeffrey Huang. Integrating independent components

and linear discriminant analysis for gender classification. In Proc.

of International Conference on Automatic Face and Gesture Recog-

nition, pages 159–163, 2004.

[JW98] R.A. Johnson and D.W. Wichern. Applied Multivariate Statistical

Analysis. Prentice-Hall, 1998.

[KBBN09] N. Kumar, A. C. Berg, P. N. Belhumeur, and S. K. Nayar. Attribute

and Simile Classifiers for Face Verification. In Proc. of ICCV, Oct

2009.

[KCF14] Karel Kleisner, Veronika Chvatalova, and Jaroslav Flegr. Perceived

intelligence is associated with measured intelligence in men but not

women. PLoS ONE, 9(3):e81237, 03 2014.

131

https://imrsv.com/

[KKN12] ByoungChul Ko, Joon-Young Kwak, and Jae-Yeal Nam. Wildfire

smoke detection using temporospatial features and random forest

classifiers. Optical Engineering, 51(1):017208–1–017208–10, 2012.

[Klo08] James E. Kloeppel. Step right up, let the computer look at your

fae and tell you your age. http://news.illinois.edu/news/08/

0923age.html, September 2008. [Online; accessed 29-August-2014].

[KR07] Kidiyo Kpalma and Joseph Ronsin. An Overview of Advances of

Pattern Recognition Systems in Computer Vision. In Prof. Goro

Obinata and Dr. Ashish Dutta, editors, Vision Systems, page 26.

Advanced Robotic Systems, May 2007. 26 pages.

[KS90] M. Kirby and L. Sirovich. Application of the karhunen-loeve proce-

dure for the characterization of human faces. IEEE Trans. Pattern

Anal. Mach. Intell., 12(1):103–108, January 1990.

[KS14] V. Kazemi and J. Sullivan. One millisecond face alignment with

an ensemble of regression trees. In Computer Vision and Pattern

Recognition (CVPR), 2014 IEEE Conference on, pages 1867–1874,

June 2014.

[Kul12] Brian Kulis. Metric learning: A survey. Foundations and Trends R©in Machine Learning, 5(4):287–364, 2012.

[KWSC10] T.-K. Kim, T. Woodley, B. Stenger, and R. Cipolla. Online multi-

ple classifier boosting for object tracking. In Workshop on Online

Learning for Computer Vision, San Francisco, June 2010.

[Lea06] Erik G. Learned-Miller. Data driven image models through conti-

nuous joint alignment. IEEE Trans. Pattern Anal. Mach. Intell.,

28(2):236–250, 2006.

[Lew06] Michael S. Lew. Content-based multimedia information retrieval:

State of the art and challenges. ACM Trans. Multimedia Comput.

Commun. Appl, 2:1–19, 2006.

[LM02] Rainer Lienhart and Jochen Maydt. An extended set of haar-like

features for rapid object detection. In IEEE ICIP 2002, pages 900–

903, 2002.

[LMJV06] Agata Lapedriza, Manuel Jesus Marin-Jimenez, and Jordi Vitria.

Gender recognition in non controlled environments. In Proc. of

ICPR, pages 834–837, 2006.

132

http://news.illinois.edu/news/08/0923age.html

http://news.illinois.edu/news/08/0923age.html

[LNH09] C.H. Lampert, H. Nickisch, and S. Harmeling. Learning to detect un-

seen object classes by between-class attribute transfer. In Computer

Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Confe-

rence on, pages 951–958, June 2009.

[Low04] David G. Lowe. Distinctive image features from scale-invariant key-

points. Int. J. Comput. Vision, 60(2):91–110, November 2004.

[Mah36] Prasanta Chandra Mahalanobis. On the generalized distance in sta-

tistics. Proceedings of the National Institute of Sciences (Calcutta),

2:49–55, 1936.

[Mar08] Pedro Martins. Active appearance models for facial expression re-

cognition and monocular head pose estimation. Technical report,

University of Coimbra, Faculty of Sciences and Technology, June

2008.

[Mas13] The Mashaper. List of 50+ Face Detection / Recogni-

tion APIs, libraries, and software. http://blog.mashape.com/

list-of-50-face-detection-recognition-apis/, June 2013.

[Online; accessed 02-September-2014].

[Mic] Signbox Microsystems. signEye. http://www.signbox.tv/

digital-signage-with-facial-recognition. [Online; accessed

02-September-2014].

[MK01] Aleix M. Martinez and Avinash C. Kak. Pca versus lda. IEEE Tran-

sactions on Pattern Analysis and Machine Intelligence, 23(2):228–

223, February 2001.

[MP04] M. Minear and D. C. Park. A lifespan database of adult facial

stimuli. Behavior Research Methods, Instruments and Computers,

36:630–633, 2004.

[MP13] Brian E. Mennecke and Anicia Peters. From avatars to mavatars:

The role of marketing avatars and embodied representations in con-

sumer profiling. Business Horizons, 56(3):387 – 397, 2013.

[MR08a] Erno Makinen and Roope Raisamo. Evaluation of gender clas-

sification methods with automatically detected and aligned faces.

IEEE Transactions on Pattern Analysis and Machine Intelligence,

30(3):541 – 547, March 2008.

133

http://blog.mashape.com/list-of-50-face-detection-recognition-apis/

http://blog.mashape.com/list-of-50-face-detection-recognition-apis/

http://www.signbox.tv/digital-signage-with-facial-recognition

http://www.signbox.tv/digital-signage-with-facial-recognition

[MR08b] Erno Makinen and Roope Raisamo. An experimental compari-

son of gender classification methods. Pattern Recognition Letters,

29(10):1544–1556, July 2008.

[MRH07] Sebastien Marcel, Yann Rodriguez, and Guillaume Heusch. On the

recent use of local binary patterns for face authentication. Inter-

national Journal on Image and Video Processing Special Issue on

Facial Image Processing, 0 2007. IDIAP-RR 06-34, accepted for

publication but withdrawn because of author charges.

[MY02] Baback Moghaddam and Ming-Hsuan Yang. Learning gender with

support faces. IEEE Transactions on Pattern Analysis and Machine

Intelligence, 24(5):707–711, May 2002.

[NEC] NEC. Metadata Search. http://www.nec.com/en/global/

solutions/safety/critical_infra/metadata.html. [Online; ac-

cessed 29-August-2014].

[NSY11] Bingbing Ni, Zheng Song, and Shuicheng Yan. Web image and video

mining towards universal and robust age estimator. IEEE Transac-

tions on Multimedia, 13(6):1217–1229, 2011.

[NTG12] Choon Boon Ng, Yong Haur Tay, and Bok-Min Goi. Recognizing

human gender in computer vision: A survey. In Patricia Anthony,

Mitsuru Ishizuka, and Dickson Lukose, editors, PRICAI, volume

7458 of Lecture Notes in Computer Science, pages 335–346. Springer,

2012.

[OFT14] Christopher Y. Olivola, Friederike Funk, and Alexander Todorov.

Social attributions from faces bias human choices. Trends in Cog-

nitive Sciences, 18(11):566 – 570, 2014.

[OPH96] Timo Ojala, Matti Pietikainen, and David Harwood. A comparati-

ve study of texture measures with classification based on featured

distributions. Pattern Recognition, pages 51–59, 1996.

[OPM02] Timo Ojala, Matti Pietikainen, and Topi Maenpaa. Multiresolution

gray-scale and rotation invariant texture classification with local bi-

nary patterns. IEEE Trans. Pattern Anal. Mach. Intell., 24(7):971–

987, July 2002.

[OPSO97] M Oren, C Papageorgiou, P Sinha, and E Osuna. Pedestrian detec-

tion using wavelet templates. In Proceedings of CVPR’97, Puerto

Rico, 1997.

134

http://www.nec.com/en/global/solutions/safety/critical_infra/metadata.html

http://www.nec.com/en/global/solutions/safety/critical_infra/metadata.html

[Pea01] K. Pearson. On lines and planes of closest fit to systems of points

in space. Philosophical Magazine, 2(6):559–572, 1901.

[Pla99] John C. Platt. Fast training of support vector machines using se-

quential minimal optimization. In Advances in kernel methods: sup-

port vector learning, pages 185–208. MIT Press, 1999.

[PMRR00] P. Phillips, H. Moon, P. Rauss, and S. Rizvi. The feret evaluation

methodology for face recognition algorithms. IEEE Transactions

on Pattern Analysis and Machine Intelligence, 22(10):1090–1104,

October 2000.

[PP00] Constantine Papageorgiou and Tomaso Poggio. A trainable system

for object detection. Int. J. Comput. Vision, 38(1):15–33, June 2000.

[PWHR98] Phillips, Harry Wechsler, Jeffery Huang, and Patrick J. Rauss. The

FERET database and evaluation procedure for face-recognition al-

gorithms. Image and Vision Computing, 16(5):295–306, April 1998.

[Qui] Quividi. Automated Audience Measurement. http://www.

quividi.com/vidireports.html. [Online; accessed 02-September-

2014].

[RBLNCS12] Enrique Ramon-Balmaseda, Javier Lorenzo-Navarro, and Modesto

Castrillon-Santana. Gender classification in large databases. In Luis

Alvarez, Marta Mejail, Luis Gomez, and Julio Jacobo, editors, Pro-

gress in Pattern Recognition, Image Analysis, Computer Vision, and

Applications, volume 7441 of Lecture Notes in Computer Science,

pages 74–81. Springer Berlin Heidelberg, 2012.

[RGB05] Iain Matthews Ralph Gross and Simon Baker. Generic vs. person

specific active appearance models. Image and Vision Computing,

23(11):1080–1093, 2005.

[RN09] S. J. Russell and P. Norvig. Artificial Intelligence: A Modern Ap-

proach. Prentice Hall, 3rd edition, 2009.

[RSC+13] D. A. Reid, S. Samangooei, C. Chen, M. S. Nixon, and A. Ross. Soft

Biometrics for Surveillance: An Overview. In Handbook of statistics,

volume 31, chapter 13, pages 327–351. Elsevier, 2013.

[RT06] K. Ricanek and T. Tesafaye. Morph: a longitudinal image database

of normal adult age-progression. In Automatic Face and Gesture Re-

cognition, 2006. FGR 2006. 7th International Conference on, pages

341–345, April 2006.

135

http://www.quividi.com/vidireports.html

http://www.quividi.com/vidireports.html

[Sav10] Vlad Savov. Japan takes vending machines to their logical, 47-inch

touchscreen extreme. http://www.engadget.com/2010/08/11/

japan-takes-vending-machines-to-their-logical-47-inch-extreme/

%22%20http://www.engadget.com/2010/08/11/

japan-takes-vending-machines-to-their-logical-47-inch-extreme/,

August 2010. [Online; accessed 02-September-2014].

[Sce] SceneTap. SceneTap lets you check out the scene in real-time. http:

//scenetap.com/. [Online; accessed 02-September-2014].

[Sin11] Natasha Singer. Face Recognition Makes the Leap From

Sci-Fi. http://www.nytimes.com/2011/11/13/business/

face-recognition-moves-from-sci-fi-to-social-media.

html?_r=0, November 2011. [Online; accessed 02-September-2014].

[SJ89] B. W. Silverman and M. C. Jones. E. fix and j.l. hodges (1951):

An important contribution to nonparametric discriminant analysis

and density estimation: Commentary on fix and hodges (1951). In-

ternational Statistical Review / Revue Internationale de Statistique,

57(3):pp. 233–238, 1989.

[Sky] Skybiometry. Cloud-based Face Detection and Recognition API.

http://www.skybiometry.com/. [Online; accessed 02-September-

2014].

[Sof] Softtelecom. Totem payment solutions. http://softtelecom.e.

telefonica.net/commerce.html. [Online; accessed 02-September-

2014].

[SVM02] Gregory Shakhnarovich, Paul A. Viola, and Baback Moghaddam. A

unified learning framework for real time face detection and classifi-

cation. In Proc. of International Conference on Automatic Face and

Gesture Recognition, pages 16–26, 2002.

[TA09] M. Toews and T. Arbel. Detection, localization, and sex classi-

fication of faces from arbitrary viewpoints and under occlusion.

Pattern Analysis and Machine Intelligence, IEEE Transactions on,

31(9):1567–1581, Sept 2009.

[TFM07] Hiroyuki Takeda, Sina Farsiu, and Peyman Milanfar. Kernel regres-

sion for image processing and reconstruction. IEEE Transactions

on Image Processing, 16(2):349–366, 2007.

136

http://www.engadget.com/2010/08/11/japan-takes-vending-machines-to-their-logical-47-inch-extreme/%22%20http://www.engadget.com/2010/08/11/japan-takes-vending-machines-to-their-logical-47-inch-extreme/




http://scenetap.com/

http://scenetap.com/

http://www.nytimes.com/2011/11/13/business/face-recognition-moves-from-sci-fi-to-social-media.html?_r=0



http://www.skybiometry.com/

http://softtelecom.e.telefonica.net/commerce.html

http://softtelecom.e.telefonica.net/commerce.html

[TK07] Grigorios Tsoumakas and Ioannis Katakis. Multi-label classification:

An overview. Int J Data Warehousing and Mining, 2007:1–13, 2007.

[TKV10] Grigorios Tsoumakas, Ioannis Katakis, and Ioannis Vlahavas. Ran-

dom k-labelsets for multi-label classification. IEEE Transactions on

Konwledge and Data Engineering, 2010.

[TM08] Tinne Tuytelaars and Krystian Mikolajczyk. K.: Local invariant

feature detectors: A survey. FnT Comp. Graphics and Vision, pages

177–280, 2008.

[TODMS15] Alexander Todorov, Christopher Y. Olivola, Ron Dotsch, and Peter

Mende-Siedlecki. Social attributions from faces: Determinants, con-

sequences, accuracy, and functional significance. Annual Review of

Psychology, 66(1):519–545, 2015. PMID: 25196277.

[TP91] Matthew Turk and Alex Pentland. Eigenfaces for recognition. J.

Cognitive Neuroscience, 3(1):71–86, January 1991.

[Tre11] James Trew. Kraft vending machine teases children with adult-

only pudding dispenser. http://www.engadget.com/2011/12/27/

kraft-vending-machine-teases-children-with-adult-only-pudding-di/,

December 2011. [Online; accessed 02-September-2014].

[Tru] TruMedia. TruMedia - The leader in Audience Measurement

Solutions. http://www.tru-media.com/. [Online; accessed 02-

September-2014].

[VHH07] M. Asuncion Vicente, Patrick O. Hoyer, and Aapo Hyvarinen.

Equivalence of some common linear feature extraction techniques

for appearance-based object recognition tasks. IEEE Transactions

on Pattern Analysis and Machine Intelligence, 29(5):896–900, May

2007.

[VJ01] Paul Viola and M. Jones. Rapid object detection using a boosted

cascade of simple features. In Proc. of CVPR, volume I, pages 511–

518. IEEE, 2001.

[VJ04] Paul Viola and Michael J. Jones. Robust real-time face detection. In-

ternational Journal of Computer Vision, 57(2):137–154, May 2004.

[VRdsC06] Rodrigo Verschae, Javier Ruiz-del solar, and Mauricio Corea. Gen-

der classification of faces using adaboost. In Proc. of Iberoamerican

Congress on Pattern Recognition, CIARP, volume 4225 of LNCS,

pages 68–78. Springer-Verlag, 2006.

137

http://www.engadget.com/2011/12/27/kraft-vending-machine-teases-children-with-adult-only-pudding-di/

http://www.engadget.com/2011/12/27/kraft-vending-machine-teases-children-with-adult-only-pudding-di/

http://www.tru-media.com/

[Wat85] Satosi Watanabe. Pattern Recognition: Human and Mechanical.

John Wiley & Sons, Inc., New York, NY, USA, 1985.

[Web02] Andrew R. Webb. Statistical Pattern Recognition, Second Edition.

Wiley, 2002.

[Wik14] Wikipedia. Demographic profile. http://www.test.org/doe/, Ju-

ne 2014. [Online; accessed 29-August-2014].

[YFH10] Guodong Guo Yun Fu and Thomas S. Huang. Age synthesis and es-

timation via faces: A survey. IEEE Transactions on Pattern Analysis

and Machine Intelligence, 32(11):1955–1976, 2010.

[YJPP04] Jieping Ye, Ravi Janardan, Cheong Hee Park, and Haesun Park.

An optimization criterion for generalized discriminant analysis on

undersample problems. IEEE Transactions on Pattern Analysis and

Machine Intelligence, 26(8):982–994, 2004.

[Yu12] Felix X. Yu. Weak attributes for large-scale image retrieval. In Pro-

ceedings of the 2012 IEEE Conference on Computer Vision and Pat-

tern Recognition (CVPR), CVPR ’12, pages 2949–2956, Washing-

ton, DC, USA, 2012. IEEE Computer Society.

[YY03] Jian Yang and Jing-yu Yang. Why can lda be performed in pca

transformed space? Pattern Recognition, 36:563–566, 2003.

[YZL+08] Shuichen Yan, Xi Zhou, Ming Liu, Mark Hasegawa-Johnson, and

Thomas S. Huang. Regression from patch-kernel. In Proc. of CVPR,

2008.

[ZM06a] Manli Zhu and Aleix M. Martınez. Selecting principal components

in a two-stage lda algorithm. In Proc. of CVPR, volume I, pages

132–137, 2006.

[ZM06b] Manli Zhu and Aleix M. Martinez. Subclass discriminant analysis.

IEEE Trans. Pattern Anal. Mach. Intell., 28(8):1274–1286, August

2006.

[ZY07] Haizhou Ai Zhiguang Yang. Demographic classification with lo-

cal binary patterns. In Proc. of the International Conference on

Biometrics, ICB 2007, Seoul, Korea., volume 4642 of LNCS, pages

464–473. Springer-Verlag, 2007.

138

http://www.test.org/doe/

[ZZ05] Min-Ling Zhang and Zhi-Hua Zhou. A k-nearest neighbor based al-

gorithm for multi-label classification. In Granular Computing, 2005

IEEE International Conference on, volume 2, pages 718 – 721 Vol.

2, july 2005.

[ZZZ04] Wenming Zheng, Li Zhao, and Cairong Zou. An efficient algorithm

to solve the small sample size problem for lda. Pattern Recognition,

37:1077–1079, 2004.

139

Indice alfabetico

aprendizaje

no supervisado, 13

supervisado, 13

atributos, 6

atributos faciales, 7

faciales, 13

faciales demograficos, 13

atributos faciales demograficos, 68, 74

atributos visuales, 74

biometrıa, 8

rasgos biometricos blandos, 8

soft-biometric, 8

caracterısticas, 5

categorizacion automatica de texto, 70

clasificacion

multi-label, 72, 77

error de clasificacion, 68

extraccion de caracterısticas, 5, 12

metadatos, 9

metodos

no supervisados, 12

supervisados, 12

patch, 11

predictores multidimensionales, 70, 80

reconocimiento de objetos, 5, 6

reconstruccion, 5

seleccion de caracterısticas, 12

sliding windows, 11

tarea de prediccion multidimensional, 78

variable clase, 76, 78

ventana deslizante, 11

141

UNIVERSIDAD POLITECNICA DE MADRID - oa.upm.esoa.upm.es/39508/1/JUAN_DEMOSTENES_BEKIOS_CALFA.pdfpor...

Documents

Transcript of UNIVERSIDAD POLITECNICA DE MADRID - oa.upm.esoa.upm.es/39508/1/JUAN_DEMOSTENES_BEKIOS_CALFA.pdfpor...