universidad de chile facultad de ciencias fÍsicas y ...biométrica de individuos, etc. la...

80
UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS DEPARTAMENTO DE INGENIERÍA ELÉCTRICA OPTIMIZACIÓN DE MÉTODOS DE COMPENSACIÓN DE ILUMINACIÓN PARA RECONOCIMIENTO DE ROSTROS MEMORIA PARA OPTAR AL TÍTULO DE INGENIERO CIVIL ELECTRICISTA LUIS ERNESTO CASTILLO FAUNE PROFESOR GUÍA: CLAUDIO PÉREZ FLORES MIEMBROS DE LA COMISIÓN: HÉCTOR AGUSTO ALEGRÍA CLAUDIO HELD BARRANDEGUY SANTIAGO DE CHILE OCTUBRE 2008

Upload: others

Post on 26-Nov-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS DEPARTAMENTO DE INGENIERÍA ELÉCTRICA

OPTIMIZACIÓN DE MÉTODOS DE COMPENSACIÓN DE ILUMINACIÓNPARA RECONOCIMIENTO DE ROSTROS

MEMORIA PARA OPTAR AL TÍTULO DE INGENIERO CIVIL ELECTRICISTA

LUIS ERNESTO CASTILLO FAUNE

PROFESOR GUÍA:CLAUDIO PÉREZ FLORES

MIEMBROS DE LA COMISIÓN:HÉCTOR AGUSTO ALEGRÍA

CLAUDIO HELD BARRANDEGUY

SANTIAGO DE CHILEOCTUBRE 2008

Page 2: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

RESUMEN DE LA MEMORIAPARA OPTAR AL TÍTULO DEINGENIERO CIVIL ELECTRICISTAPOR: LUIS CASTILLO FAUNEFECHA: 27/10/2008PROF.GUÍA: SR. CLAUDIO PÉREZ

“OPTIMIZACIÓN DE MÉTODOS DE COMPENSACIÓN DE ILUMINACIÓNPARA RECONOCIMIENTO DE ROSTROS”

El reconocimiento de rostros es utilizado en la actualidad para interacción con interfaces hombre-máquina y para identificación biométrica aplicable en seguridad. Durante esta década se han desarrollado diversos métodos de compensación de iluminación con el fin de incrementar la tasa de aciertos en el reconocimiento de rostros. Existen métodos de compensación de iluminación que necesitan una extensa base de datos para crear un modelo de iluminación, mientras que otros precisan de un ajuste de parámetros para su funcionamiento. En esta memoria se investiga mejorar un conjunto de métodos de compensación de iluminación que requieren sólo de ajuste de parámetros. La mayoría de los métodos que se investigan en esta memoria tienen en común que entregan buenos resultados bajo condiciones de iluminación no homogéneas, pero no así bajo condiciones homogéneas de iluminación.

El objetivo de esta memoria es obtener una compensación de iluminación que permita tener un reconocimiento robusto de rostros frontales bajo diversas condiciones de iluminación. Para esto se optimizaron utilizando algoritmos genéticos los parámetros de tres métodos de compensación de iluminación: Discrete Cosine Transform (DCT), Local Normalization (LN) y Self-Quotient Image (SQI). Además, se exploró la aplicación de estos métodos de compensación de iluminación en cascada de a pares y optimizar con algoritmos genéticos estas cascadas.

Se utilizaron bases de datos internacionales y nacionales con imágenes de rostros frontales bajo distintas condiciones de iluminación. Los entrenamientos de los algoritmos genéticos se efectuaron sobre las bases de datos con condiciones no homogéneas de iluminación, y las validaciones y pruebas se llevaron a cabo sobre bases de datos con condiciones homogéneas y no homogéneas de iluminación. Las pruebas de reconocimiento de rostros se realizaron con dos clasificadores distintos: Principal Components Analysis (PCA) y Local Matching Gabor.

Los resultados muestran que hubo un incremento en la tasa de reconocimiento de rostros utilizando el clasificador PCA luego de optimizar los métodos de compensación de iluminación. Los mejores resultados se obtuvieron para la aplicación en cascada de LN seguida por SQI mejorando en hasta un 4,2% el porcentaje de clasificación con respecto a los métodos de compensación de iluminación existentes. Para el reconocimiento de rostros a través del clasificador Local Matching Gabor se obtuvo tasas de reconocimiento de rostros similares entre las imágenes con iluminación compensada y aquellas con iluminación ambiental, cercanas en algunos casos al 100%, lo que significa que no se observan mejoras significativas.

Se concluye que la cascada LN+SQI optimizada por algoritmos genéticos entrega una compensación de iluminación robusta para reconocer rostros mediante el clasificador PCA y que el clasificador Local Matching Gabor no es sensible a la compensación de iluminación.

i

Page 3: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Agradecimientos.

En primer lugar, agradezco a mis padres, Ernesto y Elizabeth, por todo el amor que me han entregado siempre, por el esfuerzo que han puesto de su parte para sacarnos adelante a mí y mis hermanos, por su dedicación, por su entrega, por su apoyo incondicional, por darme este tesoro tan grande llamado educación y por creer siempre en que me titularía. ¡Misión cumplida! :')

Agradezco a mis hermanos, Fabián y Yasmina, por hacerme reír cuando lo necesitaba y por tener una fe ciega en su hermano mayor. Agradezco a mi familia en general por los hermosos momentos compartidos y también por creer en mí: a los de Santiago, los de Antofagasta y los de Buenos Aires, a quienes están y a quienes ya partieron al descanso eterno.

Agradezco a mi profesor guía, el señor Claudio Pérez, por confiarme parte de su investigación y por su disposición, apoyo, ayuda y acertadas acotaciones durante el tiempo de desarrollo de esta Memoria de Título. Agradezco a los profesores Héctor Agusto y Claudio Held, miembros de la Comisión Examinadora, por los aportes entregados al corregir este trabajo. También les doy las gracias al profesor Javier Ruiz del Solar por darme la oportunidad de conocer el mundo de la investigación en el Laboratorio de Robótica. En general, agradezco a mis maestros, aquellos profesores que no sólo me enseñaron algún algoritmo, tipo de célula o fechas de batallas, sino que también con sus consejos o actitudes me enseñaron a ser una mejor persona.

Les doy las gracias a mis amigos, a quienes lo fueron y a quienes siguen siéndolo. Agradezco a quienes han sido parte de aquella noble institución llamada Boletín SEI Inc. por acompañarme y alegrarme la existencia durante casi 5 años y medio que llevo dentro (y también por imprimirme los borradores). En especial agradezco a Gross, alias Carlos Navarro, y a Pau, alias Paulina Ramírez, por estar siempre ahí cuando he necesitado compartir mis penas y alegrías. Agradezco a la gente del GUR por su confianza y su buena onda. Gracias, Sylvia, por refrescar mis casi olvidados conocimientos algebraicos.

Agradezco a la gente de los Laboratorios de Bioingeniería por integrarme al grupo apenas llegué y hacerme sentir como en casa. En especial, agradezco a Leonardo Cament (eterno colega, compañero de grupos de trabajos y de prácticas) y Leonel Medina por ayudarme con algunos temas relacionados con la Memoria de Título.

Agradezco al Proyecto FONDECYT Nº 1080593 por financiar el trabajo de investigación dentro del cual se enmarca esta Memoria de Título.

ii

Page 4: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

A mis padres...

iii

Page 5: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Índice de contenido1 Introducción............................................................................................................................................1

1.1 Motivación.......................................................................................................................................11.2 Objetivos.........................................................................................................................................2

1.2.1 Objetivo general.......................................................................................................................21.2.2 Objetivos específicos...............................................................................................................2

2 Contextualización....................................................................................................................................32.1 Métodos de compensación de iluminación......................................................................................3

2.1.1 Modelo lambertiano de superficie...........................................................................................32.1.2 Modelo Retinex.......................................................................................................................42.1.3 Transformada Coseno Discreta (DCT) aplicada en el dominio logarítmico............................42.1.4 Normalización Local (LN).......................................................................................................92.1.5 Imagen de cuociente propio (SQI).........................................................................................11

2.2 Algoritmos genéticos.....................................................................................................................142.3 Clasificadores................................................................................................................................15

2.3.1 PCA.......................................................................................................................................152.3.2 Clasificador Local Matching Gabor.......................................................................................21

3 Metodología..........................................................................................................................................243.1 Optimización del método de la Transformada Coseno Discreta (DCT)........................................24

3.1.1 Variaciones hechas al método y consideraciones para su optimización................................243.1.2 Estrategias de optimización...................................................................................................24

3.2Optimización del método de Normalización Local (LN)...............................................................253.3 Imagen de cuociente propio (SQI).................................................................................................263.4 Métodos combinados en cascada...................................................................................................283.5 Bases de datos de imágenes de rostros frontales...........................................................................283.6 Optimización para reconocimiento de rostros a través de un clasificador PCA...........................29

3.6.1 Entrenamiento del algoritmo genético...................................................................................303.6.2 Entrenamiento del clasificador PCA.....................................................................................303.6.3 Elección de la función objetivo (fitness)...............................................................................31

3.7 Optimización para reconocimiento de rostros mediante Local Matching Gabor..........................323.7.1 Conjuntos de entrenamiento, validación y prueba para el algoritmo genético......................333.7.2 Entrenamiento del clasificador Local Matching Gabor.........................................................333.7.3 Elección de función objetivo.................................................................................................34

3.8 Descripción de la optimización utilizando algoritmos genéticos..................................................344 Resultados.............................................................................................................................................36

4.1 Clasificador PCA...........................................................................................................................364.1.1 Entrenamiento A....................................................................................................................364.1.2 Entrenamiento B....................................................................................................................45

4.2 Clasificador Local Matching Gabor..............................................................................................515 Discusión...............................................................................................................................................56

5.1 Análisis del error en el reconocimiento de rostros........................................................................565.1.1 Clasificador PCA...................................................................................................................565.1.2 Clasificador Local Matching Gabor.......................................................................................62

5.2 Análisis de parámetros optimizados..............................................................................................62

iv

Page 6: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

5.2.1 DCT.......................................................................................................................................625.2.2 LN..........................................................................................................................................645.2.3 SQI.........................................................................................................................................64

6 Conclusiones.........................................................................................................................................676.1 Trabajo a futuro.............................................................................................................................68

v

Page 7: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

1 Introducción

1.1 MotivaciónLa detección y el reconocimiento de rostros son importantes en diversas aplicaciones relacionadas con interfaces hombre-máquina, monitoreo para conducción de vehículos, identificación biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia por video, y en seguimiento y reconocimiento de rostros [1]. Además, la detección de rostro y la estimación de la mirada son cruciales en el desarrollo de aplicaciones para realidad virtual, video vigilancia, reconocimiento de rostros y manejo de bases de datos de rostros [2][3][4][5]. Se están desarrollando nuevas aplicaciones con interfaces hombre-máquina en que la mirada o los gestos pueden ser empleados para controlar máquinas ocupadas en ayudar a personas con discapacidad física o en ambientes tecnológicamente complejos como quirófanos, cabinas de mando en aviones o unidades de control industrial [2][6][7][8][9]. La estimación de la mirada, así como técnicas para detección de rostros han sido desarrolladas para aprendizaje en robots [10] y reconocimiento de gestos humanos [11][12]. Se han desarrollado aplicaciones que cumplen funciones similares a las de un ratón de computador utilizando estimación de mirada [13] o detección de rostro y nariz [14]. La estimación de mirada también está siendo utilizada en ambientes de aprendizaje en línea o virtual que miden la atención u otros aspectos cognitivos del aprendizaje [15].

La iluminación es un factor que afecta en forma significativa la apariencia de un objeto. Las imágenes de rostros cambian dramáticamente según las variaciones de iluminación y ocasionan serias disminuciones en el rendimiento de algoritmos de detección y reconocimiento de rostros [16], [17]. Cuando se utiliza detección de rostros para una interfaz hombre-máquina, la iluminación no es controlada ya que depende del lugar donde esté sentado el sujeto frente a la cámara conectada al computador. El sujeto puede estar al lado de una ventana, o cerca de una lámpara, o con iluminación desde una fuente de luz en el techo, etc. Un método para compensar condiciones de iluminación con sólo una imagen registrada fue desarrollado basado en ejemplares iluminados sintetizados a partir de imágenes fotométricas estéreo del conjunto de entrenamiento [16]. Se usaron al menos tres imágenes por rostro con dirección de iluminación aleatoria para construir los ejemplares [16]. Este requerimiento trae consigo algunas restricciones para aplicaciones donde no se dispone de distintas imágenes bajo diferentes condiciones de iluminación. La otra desventaja de este método es su alta complejidad computacional debido a la necesidad de sintetizar los ejemplares iluminados para todas las imágenes de entrada [16]. Otro método propone obtener una imagen con iluminación compensada utilizando como datos la imagen original del rostro y 3 imágenes de rostros (no necesariamente el mismo rostro de la imagen original) cuya iluminación sea linealmente independiente entre sí [18]. Todos estos métodos requieren más de una imagen por individuo para realizar comparaciones o para construir modelos de fuentes de iluminación.

Recientemente se propusieron tres nuevos métodos de compensación de iluminación que realizan un preprocesamiento estándar en que no se requieren imágenes previas para su funcionamiento. El primer método es la Transformada Coseno Discreta o DCT por sus siglas en inglés (Discrete Cosine Transform) [19]. El segundo es la Normalización Local o LN por sus siglas en inglés (Local Normalization) [20]. El tercer método es la Imagen de Cuociente Propio o SQI por sus

1

Page 8: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

siglas en inglés (Self-Quotient Image) [21]. Estos métodos entregan una muy buena compensación para imágenes con iluminación no homogénea, no obstante, tienen un efecto negativo en imágenes con iluminación homogénea.

Los métodos de detección y reconocimiento de rostros existentes tienen diversos problemas de robustez [referencia]. Es muy importante resolver estos problemas para el correcto funcionamiento en interfaces hombre-máquina, las cuales son aplicables en un amplio rango de posibles escenarios.

1.2 Objetivos

1.2.1 Objetivo generalEl objetivo general de este trabajo de título es investigar modificaciones a métodos de compensación de iluminación que permitan mejorar el reconocimiento de rostros frontales bajo distintas condiciones de iluminación. Para ello se modifican métodos de compensación existentes para mejorar su desempeño, ajustando parámetros críticos que antes no habían sido modificados. Además se explora la idea de combinar los métodos de compensación de iluminación existentes, ajustando también los parámetros críticos, para mejorar el reconocimiento de rostros. Dicha combinación consiste en aplicar los métodos de compensación de iluminación en cascada de a pares, esto es, procesar las imágenes con uno de los métodos de compensación de iluminación y, sobre las imágenes resultantes, emplear un segundo método.

1.2.2 Objetivos específicos● Optimizar los parámetros de los métodos de compensación de iluminación DCT, LN y

SQI para el reconocimiento de rostros frontales utilizando el clasificador PCA [22] y el clasificador Local Matching Gabor [23].

● Optimizar los parámetros de los métodos combinados en cascada para el reconocimiento de rostros frontales mediante el clasificador PCA (análisis de componentes principales) y a través del clasificador Local Matching Gabor .

2

Page 9: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

2 ContextualizaciónEn este capítulo se explican los conceptos necesarios para la comprensión de este trabajo de título. En 2.1 se describen los métodos de compensación de iluminación utilizados (DCT, LN y SQI) y sus fundamentos. En 2.2 se da una breve explicación acerca de los algoritmos genéticos, la herramienta utilizada para optimizar los métodos de compensación de iluminación. En 2.3 se hace una descripción de los clasificadores utilizados en el reconocimiento de rostros para los cuales se busca optimizar los métodos de compensación de iluminación: PCA y Local Matching Gabor.

2.1 Métodos de compensación de iluminaciónLa compensación de iluminación tiene como propósito separar la componente de iluminación de una imagen de la información propia de los objetos mostrados en la imagen. Dado que estos objetos tienen distintas características de forma y textura, los métodos de compensación de iluminación se enfocan a cierta clase de objetos. Debido a que en una imagen de un rostro la iluminación varía lentamente en comparación con la reflexión (salvo contadas excepciones), se postula que la información sobre las variaciones de iluminación se concentra en las frecuencias bajas [19]. En 2.1.1 y 2.1.2 se describen 2 modelos para las intensidades de grises en una imagen. En 2.1.3, 2.1.4 y 2.1.5 se describen respectivamente los métodos de compensación de iluminación DCT, LN y SQI. Los métodos de compensación de iluminación se basan en alguno de los modelos de intensidades de grises o en ambos.

2.1.1 Modelo lambertiano de superficieEl modelo lambertiano de superficie postula que la intensidad de grises I(x,y) en una imagen depende del vector normal a la superficie n x , y , del albedo de la superficie del objeto capturado en la imagen ρ(x,y) y del vector s que representa la fuente puntual de luz [20][21]:

I x , y =x , y n x , y T ·s . (2.1)

El albedo ρ(x,y) se define como el cuociente entre la radiación electromagnética reflejada por un cuerpo y la radiación electromagnética incidente sobre éste, por lo que tiene valores entre 0 y 1 [24]. Por otra parte, la magnitud del vector s es la intensidad de la fuente puntual de luz y la dirección del vector s es igual a la dirección de la fuente puntual de luz [20]. En el caso de la compensación de iluminación para el reconocimiento de rostros se asume que la piel humana es una superficie lambertiana, es decir, es una superficie que difunde la luz incidente en todas las direcciones [20]. En la Figura 2.1 se muestra un esquema que representa el comportamiento de una superficie lambertiana. Además, la normal a la superficie del rostro humano tiene zonas con cambios leves y otras con cambios abruptos [21]. Estas afirmaciones aplicadas a la ecuación (2.1) sirven de fundamentos para los distintos métodos de compensación de iluminación [20][21].

3

Page 10: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Figura 2.1: Esquema de la reflexión de luz de una superficie lambertiana. Una superficie lambertinana tiene como característica que la luz incidente difunde en todas direcciones.

2.1.2 Modelo RetinexEl nombre de este modelo deriva de unir las palabras en inglés “retina” y “cortex” que respectivamente significan en castellano “retina” y “corteza cerebral”, sugiriendo que tanto el ojo como el cerebro están involucrados en el procesamiento de imágenes. Este modelo postula que la intensidad de grises I(x,y) es proporcional al producto entre la reflexión R(x,y) y la iluminación L(x,y) [19][21]:

I x , y =R x , y L x , y . (2.2)

2.1.3 Transformada Coseno Discreta (DCT) aplicada en el dominio logarítmicoLa Transformada Coseno Discreta o DCT por sus siglas en inglés (Discrete Cosine Transform) permite obtener, en forma similar a la Transformada de Fourier, el espectro de frecuencia de una imagen localizando los componentes de más baja frecuencia en el extremo superior izquierdo del espectro. Siendo I(x,y) una imagen de M x N píxeles, su DCT C(u,v) se define como [19]:

C u , v = uv∑x=0

M−1

∑y=0

N−1

I x , y cos 2x1u2M cos2y1v

2N 0≤u≤M −10≤v≤N−1 (2.3)

donde x e y son números enteros. La antitransformada IDCT (Inverse Discrete Cosine Transform) se define como [19]:

I x , y =∑u=0

M−1

∑v=0

N−1

u v C u , v cos 2x1u2M cos2y1v

2N 0≤ x≤M−10≤y≤N−1 (2.4)

4

Page 11: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

donde:

● u y v son números enteros y

● u={ 1M

,u=0

2M

,u≠0v ={ 1

N,v=0

2N

,v≠0.

A modo de ejemplo, en la Figura 2.2 se muestra la Transformada Coseno Discreta para algunos patrones.

Figura 2.2: Efecto de la aplicación de la Transformada Coseno Discreta a patrones: (a) Patrones (b) Transformadas DCT respectivas

En [19] la Transformada Coseno Discreta no se aplica a la imagen original, sino al logaritmo de ésta. El logaritmo se utiliza comúnmente para producir un estiramiento de contraste con mayor énfasis en los niveles de gris más oscuros [19]. Basándose en el modelo Retinex, al transformar la ecuación (2.2) al dominio logarítmico se tiene:

log I x , y=log R x , y log L x , y (2.5)

donde las componentes de reflexión R e iluminación L de la imagen I se han separado en 2 sumandos.

Sea I'(x,y) una imagen con iluminación uniforme y L'(x,y) la componente de iluminación uniforme de la imagen I'(x,y). En forma análoga a la ecuación (2.5) se tiene que:

5

Page 12: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

log I ' x , y =log R x , ylog L ' x , y (2.6)

donde la componente de reflexión R(x,y) no cambia, pues es propia del objeto y es independiente de la iluminación. Se define el término de compensación de iluminación D(x,y) como:

D x , y =log L x , y −log L ' x , y . (2.7)

A partir de esta ecuación se llega a una expresión para log L'(x,y):

log L ' x , y =log L x , y−D x , y . (2.8)

Al reemplazar log L'(x,y) en la ecuación (2.6) se llega a:

log I ' x , y =log R x , ylog L x , y −D x , y (2.9)

A partir de las ecuaciones (2.5) y (2.9) se llega a:.

log I ' x , y =log I x , y −Dx , y (2.10)

La ecuación (2.10) muestra que, en el dominio logarítmico, una imagen con iluminación uniforme I'(x,y) se obtiene sustrayendo el término de compensación D(x,y) a una imagen con iluminación cualquiera I(x,y). Dado que las componentes de iluminación son de baja frecuencia, sustraer el término de compensación D(x,y) en la ecuación (2.10) es equivalente a anular, en el dominio logarítmico, coeficientes DCT de baja frecuencia en la reconstrucción de la imagen original en la ecuación (2.4). Se define E(u,v) como el término de la sumatoria en la aplicación de la IDCT en el dominio logarítmico:

E u ,v =u v C u , v cos2x1u2M cos2y1v

2N . (2.11)

Basándose en la ecuación (2.4) se obtiene la expresión para la imagen reconstruida en el dominio logarítmico F(x,y):

6

Page 13: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

F x , y=∑u=0

M−1

∑v=0

N−1

E u , v (2.12)

donde F(x,y)=log I(x,y). Una primera aproximación para la imagen con iluminación uniforme en el dominio logarítmico F'(x,y) es:

F ' x , y ≈F x , y −∑i=1

n

E ui , vi (2.13)

donde ∑i=1

n

E ui , v i son los n coeficientes DCT de baja frecuencia anulados en la reconstrucción

de la imagen a través de la IDCT.

El primer coeficiente DCT C(0,0) (es decir, la componente continua) concentra la información sobre la iluminación global de una imagen [25]. Se restituye la componente continua C(0,0) como:

C 0,0 =log MN (2.14)

donde µ el promedio de las intensidades de gris de la imagen original. De este modo, E(0,0) queda definido como:

E 0,0=00C 0,0= 1M

1N

log MN=log . (2.15)

Por lo tanto, la imagen con iluminación uniforme en el dominio logarítmico F'(x,y) se define como:

F ' x , y =F x , y −∑i=1

n

E ui , v iE 0,0 (2.16)

En [19] se anulan aquellos coeficientes DCT C(u,v) en posiciones tales que p+q ≤ Ddis, es decir, aquellos que se encuentren en un triángulo rectángulo isósceles de lado Ddis en el extremo superior izquierdo de la DCT de la imagen, como se muestra en la Figura 2.3 extraída de [19]. En [19] se señala que se obtienen los mejores y más estables rendimientos en el reconocimiento de rostros con valores de Ddis entre 18 y 25. Esta manera de eliminar los coeficientes DCT es escogida luego de observar las desviaciones estándares de los coeficientes DCT en el espacio

7

Page 14: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

logarítmico para 64 imágenes de un mismo individuo como se muestra en la Figura 2.4 extraída de [19]. En la Figura 2.5 extraída de [19] se observa el efecto de aplicar DCT sobre la misma imagen utilizando distintos valores de Ddis.

Figura 2.3: Eliminación de coeficientes DCT dentro de un triángulo de lado Ddis.

8

Page 15: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Figura 2.4: Desviaciones estándares de los coeficientes DCT en el dominio logarítmico.

Figura 2.5: Imagen compensada con DCT en el dominio logarítmico con distintos Ddis: (a) Imagen original, (b) Ddis=3, (c) Ddis=6,(d) Ddis=15, (e) Ddis=20, (f) Ddis=35, (g) Ddis=50.

9

Page 16: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

2.1.4 Normalización Local (LN)El método de la Normalización Local o LN por sus siglas en inglés (Local Normalization) se basa en el modelo lambertiano de superficie que se muestra en la ecuación (2.1) y en la representación del rostro humano en computación gráfica como una secuencia de pequeñas facetas planas [20]. En cada una de estas facetas planas la normal a la superficie es constante. Dentro de una faceta W, sea I(x,y) la intensidad de gris del píxel en una imagen con iluminación uniforme s y sea I'(x,y) la intensidad de gris del píxel en la imagen original con una fuente de iluminación cualquiera s ' . Se define la proporción de iluminación R dentro de la faceta W como [20]:

R= I ' x , y I x , y

= x , y n x , y T · s 'x , yn x , yT ·s

=n x , y T · s 'n x , yT ·s

=A x , y∈W . (2.17)

En la ecuación (2.17) A depende de la normal a la faceta W y de la fuente de iluminación original. Para una fuente de iluminación cualquiera, el valor de A es constante dentro de la faceta W. Para un tipo particular de iluminación a partir de la ecuación (2.17) se llega a:

I ' x , y =A· I x , y x , y∈W . (2.18)

Si se considera además el efecto del ruido en cada punto (x,y) de la faceta W, el modelo de iluminación resulta ser:

I ' x , y =A· I x , y B x , y∈W (2.19)

donde A es el ruido multiplicativo y B es el ruido aditivo en el píxel (x,y). Los ruidos A y B son constantes dentro de la faceta W [20].

El problema se traduce en que los ruidos A y B son desconocidos. En vez de intentar obtener los valores de los ruidos se busca eliminar su efecto. Se define la imagen normalizada I'LN(x,y) obtenida a partir de la imagen I' de acuerdo a:

I L N' x , y=

I ' x , y −E I ' x , y I ' x , y

x , y∈W (2.20)

donde E(I'(x,y)) y σ(I'(x,y)) son respectivamente la media y la desviación estándar de I'(x,y) dentro de la faceta W. A partir de la ecuación (2.19), calculando la media y la desviación estándar se llega a:

10

Page 17: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

E I ' x , y =E A · I x , yB=A· E I x , y B x , y∈W (2.21)

I ' x , y =∑ I ' x , y−E I ' x , y 2

N

I ' x , y =A ·∑ I x , y −E I x , y 2

N=A · I x , y x , y∈W (2.22)

y por ende [20]:

I L N' x , y = I x , y −E I x , y

I x , y x , y∈W . (2.23)

En forma análoga a la ecuación (2.20) se define la imagen normalizada ILN(x,y) obtenida a partir de una imagen con iluminación uniforme de acuerdo a:.

I L N x , y = I x , y −E I x , y I x , y x , y∈W (2.24)

A partir de las ecuaciones (2.23) y (2.24) se observa que I'LN(x,y)=ILN(x,y), es decir, al normalizar una imagen con una iluminación cualquiera y una imagen con iluminación normal se llega a una misma imagen resultante, lo que valida el uso de las imágenes normalizadas en reconocimiento de rostros. Dado que no se conoce una forma de determinar las dimensiones y las formas de las facetas, esta normalización se aplica dentro de ventanas cuadradas pequeñas. En [20] se concluye que la mejor ventana de normalización, desde el punto de vista de su aplicación en reconocimiento de rostros, tiene un tamaño de 7x7 píxeles. En la Figura 2.6 extraída de [20] se observa el efecto de aplicar LN sobre imágenes con diferentes condiciones de iluminación.

11

Page 18: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Figura 2.6: Efecto de la compensación de iluminación mediante LN. En la fila superior se muestran las imágenes originales. En la fila inferior se muestran las imágenes con iluminación

compensada. (Tomada de [20]).

2.1.5 Imagen de cuociente propio (SQI)El método de la imagen de cuociente propio o SQI por sus siglas en inglés (Self-Quotient Image) se basa en el modelo de reflexión-iluminación descrito en la ecuación (2.2). Dado que la información sobre las variaciones de iluminación se concentra en las frecuencias bajas, se puede obtener esta información aplicando un filtro pasa bajos a la imagen. Si se aplica un filtro pasa bajos F a una imagen I, la iluminación L se obtiene como L=F*I y la reflexión se obtiene como:

R= IL= I

F∗I . (2.25)

Basándose en lo anterior, se define la imagen de cuociente propio Q:

Q= IÎ= I

F∗I (2.26)

donde Î es la imagen I suavizada por un filtro pasa bajos F [21].

En presencia de sombras en la imagen, la ecuación (2.1) correspondiente al modelo lambertiano de superficie puede ser representada como [21]:

I x , y =min x , yn x , yT ·s ,0 . (2.27)

A partir de esta representación, se consideran 3 casos de diferentes formas y condiciones de sombras en el análisis de SQI.

12

Page 19: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

● Caso 1: Regiones sin sombra y con pequeñas variaciones en la normal a la superficie. En este caso se tiene que n x , y T ·s≈C , donde C es una constante, por lo que Q se puede definir como:

Q= IÎ≈

x , y Cx , y C∗F

=x , y

x , y ∗F(2.28)

donde se observa que Q está aproximadamente libre de la componente de iluminación y depende sólo del albedo del rostro.

● Caso 2: Regiones sin sombra y con grandes variaciones en la normal a la superficie. En este caso las regiones poseen planos, por lo que n x , y T ·s no es constante y Q queda definido como:

Q= IÎ=

x , y n x , y T ·sF∗[x , yn x , y T ·s ]

. (2.29)

En estas regiones Q depende de la forma, del albedo y de la iluminación s . Por lo tanto Q no está libre de la componente de iluminación.

● Caso 3: Regiones sombreadas. En estas regiones las intensidades de grises son bajas, por lo que las variaciones entre estas intensidades de grises son pequeñas, y la iluminación está distribuida uniformemente en toda la región, es decir, para todo nT . Por lo tanto, en este caso Q se escribe de la misma forma que en la ecuación (2.28) y está aproximadamente libre de la componente de iluminación.

A partir del análisis anterior se concluye que este método entrega imágenes con zonas sin componentes de iluminación en los casos 1 y 3, pero con componentes de iluminación en el caso 2. Además, las propiedades de Q dependen del tamaño del filtro pasa bajos F utilizado. Si F es muy pequeño la imagen Q tiende a tomar valores unitarios y se pierde información de la textura de la superficie, mientras que si F es muy grande aparecen aureolas en torno a los bordes de la imagen [21].

Se define Ik, con k número natural, como una imagen que contiene información de baja frecuencia de la imagen original como:

I k=I∗G= I∗ 1N

W k G k (2.30)

13

Page 20: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

donde:

● Wk es un filtro cuadrado de lado 2k+1 definido como:

W k x , y ={0, I x , y I prom

1, I x , y ≥I prom. (2.31)

● Gk es un filtro gaussiano cuadrado de lado 2k+1 y N es un factor de normalización de manera que se cumpla:

1N ∑k

W k G k=1 . (2.32)

De este modo se obtienen filtros pasa bajos anisotrópicos, es decir, que afectan sólo a una parte de la región filtrada en vez de la región completa. En regiones con variaciones leves en las intensidades de gris, es decir, en zonas que no corresponden a bordes, la aplicación de estos filtros tienen un efecto similar al de los filtros pasa bajos isotrópicos (que afectan a toda la región filtrada).Por otra parte, en regiones con grandes variaciones de intensidades de gris, es decir, zonas de bordes, estos filtros sólo suavizan una parte de la región, sin afectar la nitidez del borde.

Para obtener la k-ésima imagen de cuociente propio Qk(x,y) se realiza una división punto a punto entre los píxeles de la imagen original I(x,y) y la imagen con información de baja frecuencia Ik(x,y) como:

Qk x , y = I x , y I k x , y (2.33)

Debido a que la imagen con información de baja frecuencia Ik(x,y) puede tener algunos valores cercanos a cero, al efectuar la división se obtienen en la imagen de cuociente propio Qk algunos píxeles con valores demasiado altos con respecto a los demás. Para eliminar el ruido (efecto no deseado) introducido por la división se evalúa la imagen de cuociente propio en una función no lineal T como:

Dk x , y =T Qk x , y . (2.34)

Finalmente se suman las k imágenes ponderándolas por un valor mk como:

14

Page 21: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

D x , y =∑k

m k Dk x , y . (2.35)

En [21] se señala que los ponderadores mk comúnmente tienen un valor igual a 1. En la Figura2.7 extraída de [21] se muestra el resultado de la aplicación de SQI.

(a) (b)

Figura 2.7: Efectos de la aplicación de SQI: (a) imagen original, (b) imagen con iluminación compensada por SQI. (Tomada de [21]).

2.2 Algoritmos genéticos

Los algoritmos evolutivos son métodos robustos de búsqueda de valores óptimos para una función de adaptación o fitness. Estos algoritmos operan sobre una población P(t)={x1

t,...,xnt}

para la generación t, donde cada individuo xi es un punto de búsqueda en el espacio de posibles soluciones. El desempeño de cada individuo es evaluado por una función de adaptación f(x i) y según este desempeño se ordenan del mejor al peor individuo. La población inicial evoluciona sucesivamente hacia mejores regiones dentro del espacio de búsqueda mediante procesos probabilísticos de selección de los mejores individuos y operaciones a los individuos seleccionados [26].

En el caso de los algoritmos genéticos, los puntos de búsqueda xi= xi 1 , ... , xi m se representan mediante tiras binarias o cromosomas, codificando cada una de las m variables en bj bits y concatenando las representaciones binarias, obteniendo individuos de largo∑ b j bits [26].

Los métodos de selección permiten reproducir con un mayor número de copias los individuos más aptos, desechando o asignando menor cantidad de copias a los individuos menos aptos. Existen 3 procesos probabilísticos de selección de los mejores individuos: selección proporcional, selección por ranking y selección por torneo [26].

Los operadores aplicados sobre los individuos son la recombinación o crossover y la mutación. La recombinación es un operador que intercambia el material genético de padres y crea nuevos individuos normalmente diferentes a sus padres. La mutación consiste en invertir un bit de un individuo ocasionalmente, es decir, con baja probabilidad de ocurrencia [26].

15

Page 22: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

2.3 ClasificadoresSe estudia el desempeño de los métodos de compensación de iluminación utilizando 2 clasificadores distintos para el reconocimiento de rostros: el clasificador PCA (análisis de componentes principales) [22] y el clasificador Local Matching Gabor basado en filtros Gabor y recuento de Borda [23].

2.3.1 PCAEl Análisis de Componentes Principales o PCA (Principal Components Analysis en inglés) es una herramienta de análisis de datos. En tareas de reconocimiento de patrones es muy importante la selección de un adecuado conjunto de características. Las características no deben estar correlacionadas entre sí, de manera que cada una aporte nueva información para el proceso de clasificación. PCA se utiliza normalmente para reducir el conjunto inicial de características. Este conjunto de características es elegido en forma arbitraria, es decir, no se utiliza información previa para escoger el mejor conjunto de características [27].

Dado un espacio n-dimensional de entrada (una representación de los individuos como vectores de tamaño n), se desea encontrar m nuevas características, es decir, una representación de los individuos como vectores de características de m componentes, que permitan representar el espacio de entrada, donde m<n. Dada la condición de que los vectores de características a encontrar sean ortogonales entre sí, el problema equivale a proyectar un espacio de dimensión n en uno de dimensión m, lo cual conlleva una reducción de dimensión. PCA es un método para realizar esta reducción de dimensión que mantiene la información intrínseca de los datos de entrada y reduce al máximo el error generado desde el punto de vista del error cuadrático medio [27].

La idea central del método PCA consiste en realizar un cambio de coordenadas (la proyección mencionada en el párrafo anterior) de tal forma que los nuevos ejes, ortogonales entre sí, se orienten en aquellas direcciones donde los datos de entrada presentan mayor varianza. Las proyecciones de los datos de entrada en los ejes del nuevo sistema de coordenadas corresponden a los componentes principales. El primer componente principal se elige a lo largo de la dirección con máxima varianza. Este proceso se repite con todos los componentes principales [27].

Los vectores propios de la matriz de covarianza cruzada o de correlación cruzada corresponden a las direcciones de los componentes principales. De este modo la dirección del k-ésimo componente principal es el vector propio correspondiente al k-ésimo mayor valor propio de la matriz de covarianza. Un paso previo al cálculo de la matriz de covarianza es calcular el promedio de los vectores de entrada y restar el vector promedio a cada vector de entrada [27].

La correlación cruzada entre 2 características xi y xj corresponde a Cij. La varianza de una característica corresponde a Cii. La matriz de correlación cruzada, que es una matriz simétrica, corresponde a la matriz de los Cij, calculada como C=E {⟨ X · X T ⟩} , donde X es una matriz formada por los vectores de entrada dispuestos en columnas. Los vectores de entrada representan a los individuos. Por lo tanto la matriz C queda de la siguiente forma [27]:

16

Page 23: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

C=[C11 C12 ⋯ C1n

C12 C22 ⋮⋮ ⋱

C1n ⋯ ⋯ Cnn] . (2.36)

Se desea que la correlación cruzada entre características sea cero, lo que equivale a buscar una matriz de covarianza cruzada C' tal que C'ij=0 para i distinto de j. Esta matriz C' se obtiene mediante una diagonalización de C, lo que equivale al cambio de coordenadas mencionado anteriormente. La diagonalización de C se calcula como:

C '=U T ·C ·U (2.37)

donde C' es una matriz diagonal compuesta por los valores propios de C:

C '=[1 0 ⋯ 00 2 ⋱ ⋮⋮ ⋱ ⋱ 00 ⋯ 0 n

] (2.38)

y U es una matriz formada por los vectores propios u i equivalentes a las nuevas coordenadas, tales que [27]:

uiT ·u j={1, i= j

0, i≠ j . (2.39)

La proyección aj de un vector de entrada x en una de las nuevas coordenadas u j , es decir, en uno de los componentes principales, está determinada por [27]:

a j=u jT ·x=xT ·u j j=1,... , n . (2.40)

La síntesis, es decir, la expansión o representación de un vector de entrada x sobre los vectores propios está determinada por [27]:

x=∑j=1

n

a ju j . (2.41)

17

Page 24: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Como se ha mencionado anteriormente, uno de las mayores ventajas de PCA es la reducción de la dimensionalidad. Un vector de entrada x se representa en forma aproximada en un espacio de m dimensiones, con m<n, mediante un vector x ' definido por:

x '=∑j=1

m

a ju j (2.42)

y el error de la aproximación, perpendicular a x ' , está determinado por [27]:

e= ∑j=m1

n

a ju j . (2.43)

Para el caso particular del reconocimiento de rostros mediante PCA, primero se efectúa el cálculo de los rostros propios (eigenfaces) siguiendo los pasos que se señalan a continuación [28]:

Paso 1: Obtener imágenes de rostros I1, I2,..., IM para ser utilizadas como conjunto de entrenamiento. Estas imágenes deben estar centradas y deben tener el mismo tamaño (P píxeles de alto por Q píxeles de lado, con P y Q enteros)

Paso 2: Representar cada imagen Ii como un vector i . En total se obtienen M vectores. Cada vector tiene N=PxQ elementos.

Paso 3: Calcular el vector promedio :

= 1M ∑i=1

M i . (2.44)

Paso 4: Restar el vector promedio:

i= i− . (2.45)

Paso 5: Calcular la matriz de covarianza C:

C= 1M ∑n=1

Mnn

T=A AT . (2.46)

18

Page 25: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

donde A=[12⋯M ] es una matriz de dimensión NxM y, por lo tanto, C tiene una dimensión

de NxN.

Paso 6: Calcular los vectores propios u i de la matriz C=AAT. Para imágenes típicas de rostros, calcular los valores propios y los vectores propios de la matriz C tiene un costo computacional alto. Por ejemplo, para imágenes de dimensión 100x200 píxeles se tendrían que calcular 20000 valores propios y 20000 vectores propios. Si la cantidad de individuos en la base de datos es menor a la cantidad de píxeles en una imágen (M<N), entonces existen sólo M-1 vectores propios significativos, pues el resto de los vectores propios están asociados a valores propios iguales a cero. Por lo tanto, basta con calcular los vectores propios de una matriz de dimensión MxM y asociar los vectores propios de esta matriz a los vectores propios de C.

Si se calculan los vectores propios vi de una matriz L=ATA de dimensión MxM se tiene que:

Lv i=AT Av i=iv i . (2.47)

Si se premultiplica ambos lados de la ecuación (2.47) por A se tiene que:

A AT Avi=i Av i (2.48)

lo que equivale a:

C Av i=i Av i . (2.49)

Por lo tanto, se tiene que Avi son los vectores propios de la matriz C.

Se define entonces la matriz L=ATA de dimensión MxM, donde Lmn=mT n y se calculan los M

vectores propios vi de la matriz L. Los vectores propios vi de la matriz L se relacionan linealmente con los vectores propios u i de la matriz C:

u i=∑k=1

M

v ikk , i=1, ... , M (2.50)

donde vik es el k-ésimo elemento del vector v i .

19

Page 26: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Paso 7: Seleccionar los M' vectores propios asociados a los M' valores propios más altos (M'<M) para reducir la dimensionalidad.

Los rostros propios (eigenfaces) calculados definen lo que se denomina un “espacio de rostros” que corresponde a un subespacio dentro del espacio de todas las imágenes. A modo de ejemplo, en la Figura 2.8 se muestra el conjunto de imágenes de entrenamiento utilizado en [28], en la Figura 2.9 se muestra el rostro promedio obtenido a partir de las imágenes de entrenamiento y en la Figura 2.10 se muestran 7 de los rostros propios (eigenfaces) calculados.

Figura 2.8: Imágenes de entrenamiento utilizadas en [28].

20

Page 27: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Figura 2.9: Rostro promedio del conjunto de entrenamiento de la Figura 2.8 (tomada de [28]).

Figura 2.10: Siete de los rostros propios (eigenfaces) calculados a partir de las imágenes de entrenamiento de la Figura 2.8 (tomada de [28]).

Una vez calculados los rostros propios (eigenfaces), el reconocimiento de un nuevo rostro en una imagen I, centrada del mismo modo que las imágenes de entrenamiento, se efectúa a través de los siguientes pasos [28]:

Paso 1: Transformar la imagen I en un vector .

21

Page 28: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Paso 2: Calcular las proyecciones ωk del vector sobre los M' rostros propios (eigenfaces):

k=ukT − . (2.51)

Paso 3: Crear un vector que contenga todas las proyecciones calculadas en el paso anterior:

T=[12...M ' ] . (2.52)

Paso 4: Buscar la mínima distancia euclideana entre el vector y los vectores k que contienen las proyecciones de las imágenes de una cierta clase k (es decir, pertenecientes al individuo k) sobre los rostros propios (eigenfaces):

min k2=∥ −k ∥

2 (2.53)

donde cada vector k es calculado como el promedio de las proyecciones sobre los rostros propios (eigenfaces) de un pequeño conjunto de imágenes del rostro del individuo k.

Paso 5: Imponer un umbral para k bajo el cual un rostro es reconocido como perteneciente a la clase k y, por lo tanto, al individuo k.

2.3.2 Clasificador Local Matching GaborEste clasificador funciona basado en la extracción de características a través de Gabor jets. Los Gabor jets son conjuntos de filtros Gabor en 2 dimensiones que coinciden en posición y longitud de onda, pero difieren en orientación [23]. Un filtro Gabor en dos dimensiones corresponde a una función sinusoidal modulada por una función gaussiana:

,=∥k ,∥

2

2 e−∥k ,∥

2∥z∥2

22 [ei k , z−e−2

2 ] (2.54)

donde k ,=k ei , z=(x,y), µ y ν definen la orientación y escala de los filtros Gabor, k=k max

f ,

=N , kmax es la máxima frecuencia y f es el factor de espaciado entre los kernels en el

22

Page 29: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

dominio de la frecuencia. σ=2π, kmax=2 y f =2 [29]. Para el clasificador Local Matching

Gabor se utilizan 4172 Gabor jets distribuidos en 5 grillas con diferentes escalas expresadas en longitudes de onda ∈{4,42,8,82,16} (en píxeles) y con 8 orientaciones distintas (N=8 y µ=[0,...,7]). La distribución de los 4172 Gabor jets es la siguiente: 2420 para una longitud de onda de =4 , 1015 para una longitud de onda de =42 , 500 para una longitud de onda de=8 , 165 para una longitud de onda de =82 y 72 para una longitud de onda de =16 [23]. En la Figura 2.11 se muestra la parte real de los filtros Gabor en 5 escalas diferentes y con 8 orientaciones distintas. En la Figura 2.12 se muestra la magnitud de los filtros Gabor para 5 longitudes de onda diferentes [30].

Figura 2.11: Parte real de los filtros Gabor en 5 escalas diferentes y con 8 orientaciones distintas

con los siguientes parámetros: σ=2π, kmax=2 y f =2 (tomada de [30]).

Figura 2.12: Magnitud de los filtros Gabor en 5 escalas diferentes con los mismos parámetros de la Figura 2.11 (tomada de [30]).

23

Page 30: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Para el reconocimiento de rostros mediante Local Matching Gabor primero se escoge un conjunto de imágenes de entrenamiento I1, I2, ..., IM. Se aplican sobre cada imagen Ij en el conjunto de entrenamiento los filtros Gabor presentes en los 4172 Gabor jets. Para el i-ésimo Gabor jet se guarda en un vector v ji el resultado de la aplicación de los 8 filtros asociados a las 8 orientaciones sobre la imagen Ij. Por lo tanto, cada imagen Ij se caracteriza por 4172 vectores v ji

de largo 8. Una vez caracterizados las imágenes de entrenamiento, para reconocer el rostro en una nueva imagen I, se caracteriza esta imagen I por 4172 vectores v i de largo 8 aplicando el mismo procedimiento utilizado sobre las imágenes de entrenamiento. Luego, para cada Gabor jet i se comparan los vectores v ji y v i efectuando un producto punto entre ellos p ji=v ji ·vi (mientras más similares son estos vectores, más alto es el resultado del producto punto) y se aplica recuento Borda (Borda count en inglés) sobre estos resultados [23]. El recuento Borda consiste en ordenar los resultados pji de mayor a menor y asignar puntajes Pji a los resultados pji en virtud de su posición: si el conjunto de entrenamiento tiene M imágenes, al primer lugar se le otorgan M puntos, al segundo lugar se le asignan M-1 y así sucesivamente hasta el último lugar, al que se le otorga 1 punto. Para cada imagen Ij se suman los puntajes obtenidos para cada Gabor jet i y se

obtiene el puntaje total P j=∑i=1

4172

p ji . Finalmente, se clasifica el rostro de la imagen I como

perteneciente al individuo cuyo rostro se encuentra en la imagen Ij asociada al puntaje Pj más alto.

24

Page 31: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

3 MetodologíaPara optimizar los métodos de compensación de iluminación para el reconocimiento de rostros es necesario realizar sobre éstos pequeñas variaciones con el fin de tener espacios de búsqueda que contengan las configuraciones originales de estos métodos. Por otra parte, para cada clasificador se escogen distintos conjuntos de entrenamiento, validación y prueba para optimización y distintos conjuntos de entrenamiento y prueba para clasificación.

3.1 Optimización del método de la Transformada Coseno Discreta (DCT)

3.1.1 Variaciones hechas al método y consideraciones para su optimizaciónPara aplicar la compensación de iluminación, en vez de anular coeficientes DCT dentro de un triángulo en la zona como se propone en [19], se ponderan estos coeficientes por un valor en el intervalo [0,1]. Se define γ(u,v) en el intervalo [0,1] como la ponderación del coeficiente C(u,v) de baja frecuencia en la etapa de reconstrucción de la imagen a través de la IDCT mostrada en la ecuación (2.4) que, luego de la ponderación del coeficiente DCT C(u,v), queda como:

I x , y =∑u=0

M−1

∑v=0

N−1

u v u ,v C u , vcos2x1u2M cos 2y1v

2N (3.1)

donde:

0≤ x≤M −10≤ y≤N−1

u={ 1M

,u=0

2M

,u≠0v ={ 1

N,v=0

2N

,v≠0(3.2)

Luego de establecer una zona de baja frecuencia, mediante algoritmos genéticos se optimizan las ponderaciones γ(u,v) dentro de esta zona.

3.1.2 Estrategias de optimizaciónSe intenta optimizar este método utilizando 3 estrategias distintas que tienen en común el uso de una región triangular isósceles como zona de baja frecuencia.

● DCTa: dentro de un triángulo rectángulo isósceles de lado 32 píxeles se entrega una ponderación común a los coeficientes dentro de grupos cuadrados de lado 4 píxeles, requiriendo 36 ponderaciones en total como se muestra en la Figura 3.1(a), donde cada celda representa una región cuadrada de lado 4 píxeles. Si bien se señala en [19] que el

25

Page 32: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

tamaño óptimo para el lado del triángulo isósceles a elegir como zona de baja frecuencia se encuentra entre 18 y 25 píxeles, al escoger una zona de baja frecuencia de mayor tamaño se amplía el espacio de búsqueda de soluciones.

● DCTb: dentro de un triángulo rectángulo isósceles de lado 20 píxeles se asignan una ponderación para cada coeficiente, requiriendo 210 ponderaciones en total como se muestra en la Figura 3.1(b). El tamaño de la zona de baja frecuencia se ha escogido de manera que esté dentro del tamaño recomendado en [19] y que la cantidad de ponderaciones a buscar no sea tan alta con el objetivo de aminorar el costo computacional en la búsqueda de soluciones.

● DCTc: dentro de un triángulo rectángulo isósceles de lado 30 píxeles se hacen ponderaciones en bandas de frecuencia diagonales, requiriendo 30 ponderaciones en total como se muestra en la Figura 3.1(c). Se escoge una zona de baja frecuencia más grande que lo recomendado en [19] (entre 18 y 25 píxeles de lado) para ampliar el espacio de búsqueda de soluciones.

1 2 3 4 5 6 7 8 1 2 3 ... 17 18 19 20 1 2 3 ... 27 28 29 309 10 11 12 13 14 15 21 22 23 ... 37 38 39 2 3 ... 27 28 29 30

16 17 18 19 20 21 40 41 42 ... 56 57 3 ... 27 28 29 3022 23 24 25 26 ... ... ... ... ... ... 27 28 29 3027 28 29 30 201 202 203 204 27 28 29 3031 32 33 205 206 207 28 29 3034 35 208 209 29 3036 210 30

(a) (b) (c)Figura 3.1: Estrategias para optimizar DCT asignando pesos a los coeficientes de la DCT para

baja frecuencia: (a) DCTa (cada celda representa una región cuadrada de lado 4 píxeles), (b) DCTb, (c) DCTc. Los números representan la ubicación de las ponderaciones.

3.2 Optimización del método de Normalización Local (LN)

En [20], tal como se explica en 2.1.4, se calcula la media y la desviación estándar dentro de una ventana de tamaño NxN píxeles para efectuar la Normalización Local. Para optimizar este método se reemplazan los estadísticos utilizados para normalizar. En vez de la media se usa la media ponderada Imp:

I mp=∑i=1

N

∑j=1

N

ij I ij

∑i=1

N

∑j=1

N

ij

(3.3)

donde αij es el valor de ponderación del píxel que está en la posición (i,j) dentro de la ventana de normalización. Los valores de las ponderaciones αij se definen en forma circular, es decir, todas

26

Page 33: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

las ponderaciones αij que se encuentran a la misma distancia del centro del filtro tienen igual valor, pues se asume que sólo es importante la distancia de un píxel dentro de la ventana de normalización con respecto al centro de esta ventana y no sus coordenadas en la ventana. Por otra parte, se reemplaza la desviación estándar por la desviación con respecto a la media ponderada:

I dmp= 1N 2∑

i=1

N

∑j=1

N

I ij− I mp2 (3.4)

Finalmente la normalización local modificada ILN se define como:

I L N x , y=I x , y − Imp

I dmp(3.5)

Mediante algoritmos genéticos se optimizan las ponderadociones αij. Se debe notar que el caso en que ij=1, ∀ i,j corresponde a precisamente a la Normalización Local inicial publicada en [20].

3.3 Imagen de cuociente propio (SQI)Se utilizan 8 filtros gaussianos cuadrados Gk en la expresión de la ecuación (2.30). El filtro más pequeño, G1, tiene un tamaño de 3x3 píxeles y el filtro más grande, G8, tiene un tamaño de 17x17 píxeles. No se escogen filtros más grandes ni más pequeños para no tener los efectos no deseados señalados en 2.1.5. Se reemplaza la definición de la matriz Wk(x,y) de la ecuación (2.31) por:

W k x , y ={0, I x , y k I prom

1, I x , y≥k I prom(3.6)

donde βk es una ponderación en el intervalo [0,1] de la media Iprom dentro del filtro Gk. A través de algoritmos genéticos se optimizan las ponderaciones βk. Se debe notar que el caso en quek=1 ∀k corresponde a la versión original del método.

En 2.1.5, para la etapa de eliminación del ruido introducido por la división al obtener las imágenes de cuociente propio Qk se plantea utilizar la arcotangente atan(Qk(x,y)) o la sigmoide

sig Qk x , y = 11e−Q k x , y . Los gráficos de estas funciones, mostrados en la Figura 3.2,

sugieren pensar en otras funciones que tienen características similares en el dominio de Qk(x,y) (que está en el intervalo [0,∞] ) como la función tangente hiperbólica

tanhQk x , y = eQ k x , y−e−Q k x , y

eQ k x , ye−Qk x , y o una función T' que sature los valores de Qk(x,y) mayores

que 1, es decir, que T'(Qk(x,y))=1 cuando Qk(x,y)>1 y que T'(Qk(x,y))=Qk(x,y) cuando Qk(x,y)<1 .

27

Page 34: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Aquella función T es el mínimo entre 1 y Qk(x,y): min(1,Qk(x,y)). Los gráficos de las funciones min(1,Qk(x,y)) y tangente hiperbólica se muestran en la Figura 3.3. A través de algoritmos genéticos se busca la función óptima de eliminación de ruido entre las funciones arcotangente, sigmoide, mínimo y tangente hiperbólica.

28

0 0,5 1 1,5 2 2,5 3 3,5 40

0,2

0,4

0,6

0,8

1

1,2

1,4

Qk(x,y )

atan

(Qk(

x,y)

)

0 0,5 1 1,5 2 2,5 3 3,5 40

0,2

0,4

0,6

0,8

1

1,2

1,4

Qk(x,y )si

g(Q

k(x,

y))

(a) (b)

Figura 3.2: Funciones no lineales de eliminación de ruido sugeridas en [21]: (a) Arcotangente, (b) Sigmoide.

Page 35: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

0 0,5 1 1,5 2 2,5 3 3,5 40

0,2

0,4

0,6

0,8

1

1,2

1,4

Qk(x,y )

min

(1,Q

k(x,

y))

0 0,5 1 1,5 2 2,5 3 3,5 40

0,2

0,4

0,6

0,8

1

1,2

1,4

Qk(x,y )

tanh

(Qk(

x,y)

)

(a) (b)

Figura 3.3: Funciones no lineales de eliminación de ruido propuestas en este trabajo: (a) Mínimo, (b) Tangente hiperbólica.

Para ampliar el espacio de búsqueda de soluciones, se define un valor α en el intervalo [0,1] (que también es buscado a través de algoritmos genéticos) tal que, mientras más bajo sea el valor de α, más estricta sea la eliminación de ruido. Esto se logra aplicando los siguientes cambios a las funciones de eliminación de ruido:

• Arcotangente: atan Q k x , y (3.7)

• Sigmoide: sig Qk x , y= 11e−Q k x , y (3.8)

• Tangente hiperbólica: tanhQ k x , y=eQ k x , y−e−Q k x , y

eQ k x , ye−Q k x , y (3.9)

• Mínimo: min ,Q k x , y={Q k x , y , Qk x , y≤ , Qk x , y

(3.10)

Para la etapa de obtención de la imagen final de cuociente propio D(x,y), en 2.1.5 se plantea que todas las ponderaciones mk sean iguales a 1. Con algoritmos genéticos se buscan las ponderaciones mk óptimas para los 8 filtros utilizados, buscando los valores para mk en el intervalo [0,1].

29

Page 36: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

3.4 Métodos combinados en cascadaLos métodos de compensación de iluminación combinados en cascada se optimizan en forma simultánea del mismo modo que si se aplicasen en forma separada, es decir, las etapas DCT se optimizan tal como en 3.1, las etapas LN como en 3.2 y las etapas SQI como en 3.3.

3.5 Bases de datos de imágenes de rostros frontalesA continuación se describen las bases de datos de imágenes de rostros frontales utilizadas para optimizar los métodos de compensación de iluminación. Se utiliza el término “iluminación homogénea” para hacer notar que las imágenes de la base de datos han sido iluminada de tal forma que se observa el rostro completo. Consecuentemente, se utiliza el término “iluminación no homogénea” para destacar que dentro de la base de datos hay algunas imágenes iluminadas bajo condiciones extremas, esto es, que en algunas imágenes el rostro aparece parcial o casi totalmente sombreado.

• CMU PIE: esta base de datos contiene imágenes con y sin iluminación de fondo [31]. En este caso se utilizan sólo las imágenes sin iluminación de fondo, tal como en [19], que corresponden a 1425 imágenes de rostros frontales de 68 individuos (21 imágenes de 67 individuos y 18 imágenes de un individuo) capturadas bajo iluminación no homogénea en un intervalo de tiempo de aproximadamente 2 segundos.

• FERET: se hace una selección de 508 imágenes de rostros frontales de 127 individuos (4 imágenes por individuo) capturadas bajo iluminación homogénea en fechas distintas [32].

• UChile: contiene 308 imágenes de rostros frontales de 77 individuos (4 imágenes por individuo) capturadas bajo iluminación homogénea en fechas distintas. Esta base de datos fue confeccionada por investigadores del Departamento de Ingeniería Eléctrica de la Universidad de Chile y hasta la fecha no ha sido documentada.

• Yale: contiene 150 imágenes de rostros frontales de 15 individuos (10 imágenes por individuo) en que un par de imágenes ha sido iluminada intencionalmente desde los costados derecho e izquierdo del individuo [33].

• YaleB: contiene 650 imágenes de rostros frontales de 10 individuos (65 imágenes por individuo) capturadas bajo iluminación no homogénea en un intervalo de tiempo de aproximadamente 2 segundos [34].

3.6 Optimización para reconocimiento de rostros a través de un clasificador PCA

Para la optimización de los métodos de compensación de iluminación para el reconocimiento de rostros a través de un clasificador PCA se utilizan las bases de datos CMU PIE, FERET, UChile y YaleB. Se aplican recortes a las imágenes de las bases de datos. En las bases de datos CMU PIE y YaleB se hacen recortes de tamaño 105x120 píxeles, que es el tamaño de recorte que se utiliza en las pruebas de DCT en [19] como se muestra en las Figuras 3.4 y 3.7 respectivamente, mientras que en las bases de datos FERET y UChile el recorte es de 100x200 píxeles como se muestra en

30

Page 37: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

ls Figuras 3.5 y 3.6 respectivamente.

Figura 3.4: Ejemplos de recortes de rostros frontales de la base de datos CMU PIE utilizados para reconocimiento a través de un clasificador PCA.

Figura 3.5: Ejemplos de recortes de rostros frontales de la base de datos FERET utilizados para reconocimiento a través de un clasificador PCA.

Figura 3.6: Ejemplos de recortes de rostros frontales de la base de datos UChile utilizados para reconocimiento a través de un clasificador PCA.

31

Page 38: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Se explican a continuación los criterios para escoger los conjuntos de entrenamiento, validación y prueba para la optimización y los conjuntos de entrenamiento y prueba para la clasificación.

3.6.1 Entrenamiento del algoritmo genético

Se realizan dos tipos de entrenamientos. En ambas se escoge la base de datos YaleB como conjunto de entrenamiento debido a que es aquella que presenta mayor variabilidad en la iluminación de los rostros. La diferencia radica en la elección de los conjuntos de entrenamiento y prueba y en la forma de entrenar el clasificador PCA.

● Entrenamiento A: como conjunto de validación se utiliza la base UChile y como conjunto de prueba, la base FERET.

● Entrenamiento B: como conjunto de validación se utiliza la base PIE y como conjunto de prueba, la base FERET.

3.6.2 Entrenamiento del clasificador PCA

El entrenamiento del clasificador PCA se lleva a cabo en forma diferente en cada base de datos.

• FERET: se escoge una imagen por individuo para entrenamiento (127 imágenes en total) y el resto de las imágenes forman el conjunto de prueba; se lleva a cabo lo anterior 4 veces cambiando la imagen de entrenamiento por otra no utilizada anteriormente; y se calculan la media y la desviación estándar del porcentaje de error de reconocimiento. Se emplea 126 componentes principales, la cantidad máxima de componentes principales que se pueden obtener, pues con esta cantidad de componentes principales se obtiene la más alta tasa de reconocimiento de rostros.

• UChile: se utiliza una imagen por individuo como conjunto de entrenamiento (77 imágenes en total) y el resto de las imágenes como conjunto de prueba; se realiza lo anterior 4 veces cambiando la imagen de entrenamiento por otra no enrolada anteriormente; y se calcula la media y la desviación estándar del porcentaje de error en el reconocimiento. Se usan 76 componentes principales, la máxima cantidad de componentes principales que se pueden calcular, por el mismo motivo que en caso de la

32

Figura 3.7: Ejemplos de recortes de rostros frontales de la base de datos YaleB utilizados para reconocimiento a través de un clasificador PCA.

Page 39: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

base de datos FERET.• YaleB: del mismo modo que en [34], se divide la base de datos en 5 subconjuntos en

función del ángulo que forma la fuente de iluminación con el eje de la cámara. El subconjunto 1 está formado por 70 imágenes con ángulo de iluminación de hasta 12º, el subconjunto 2 contiene 120 imágenes con ángulo de iluminación entre 13º y 25º, el subconjunto 3 se compone de 120 imágenes con ángulo de iluminación entre 26º y 50º, el subconjunto 4 está formado por 140 imágenes con ángulo de iluminación entre 51º y 77º y el subconjunto 5 contiene 190 imágenes con ángulo sobre 77º. Esto implica desechar la imagen con iluminación ambiental. En el entrenamiento A se utiliza como conjunto de entrenamiento 2 imágenes del subconjunto 1 por individuo (20 imágenes en total) y como conjunto de prueba el resto de las imágenes (es decir, las 8 imágenes restantes del subconjunto 1 y todas las imagenes de los subconjuntos 2, 3, 4 y 5), se efectúa lo anterior 10 veces cambiando las 2 imágenes por individuo elegidas para entrenar y se calculan la media y la desviación estándar del porcentaje de error de reconocimiento dentro de cada subconjunto, empleándose para ello 14 componentes principales. Se escoge esta cantidad de componentes principales para efectuar comparaciones con otros experimientos desarrollados en el Departamento de Ingeniería Eléctrica de la Universidad de Chile, cuyos resultados se exponen en el capítulo 4. En el entrenamiento B se utilizan las 7 imágenes por individuo del subconjunto 1 como conjunto de entrenamiento y como conjunto de prueba las imágenes de los subconjuntos 3,4 y 5; y se emplean 50 componentes principales par emular la prueba efectuada para DCT en [19].

• CMU PIE: para cada individuo se escoge la imagen con iluminación frontal para entrenamiento (etiquetada como imagen 11 en la base de datos) y el resto de las imágenes forma el conjunto de prueba. Luego se calcula el error de reconocimiento. Se utilizan 50 componentes principales, tal como se realiza la prueba para DCT en [19],

3.6.3 Elección de la función objetivo (fitness)Una vez que se entrena el clasificador PCA en el conjunto de entrenamiento del algoritmo genético, es decir, en la base de datos YaleB, se obtienen N medias ei (dispuestas en un vector e ) y N desviaciones estándares asociadas a los errores ei en los N subconjuntos de la base de datos YaleB utilizados como conjunto de prueba para el entrenamiento del clasificador PCA (es decir, N=5 para el entrenamiento A y N=3 para el entrenamiento B). La función objetivo (fitness) escogida para minimizar a través de algoritmos genéticos es la norma del vector e dentro de los subconjuntos de la base de datos YaleB:

Min f e =∑i=1

N

ei2 (3.11)

De este modo se pretende minimizar conjuntamente el error ante diferentes condiciones de iluminación:

33

Page 40: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

3.7 Optimización para reconocimiento de rostros mediante Local Matching GaborLa optimización de los métodos de compensación de iluminación para reconocimiento de rostros a través del clasificador Local Matching Gabor se lleva a cabo utilizando las bases de datos FERET, UChile, Yale y YaleB. Al igual que en 3.6, se aplican recortes a las imágenes de las bases de datos. En este caso, los recortes tienen un tamaño de 203x251 píxeles con el fin de emular las pruebas efectuadas en el artículo en que se publica el clasificador Local Matching Gabor [23]. En las Figuras 3.8, 3.9, 3.10, 3.11 se muestran ejemplos de recortes para las bases de datos FERET, UChile, Yale y YaleB respectivamente.

Figura 3.8: Ejemplos de recortes de rostros frontales de la base de datos FERET utilizados para reconocimiento a través del clasificador Local Matching Gabor.

Figura 3.9: Ejemplos de recortes de rostros frontales de la base de datos UChile utilizados para reconocimiento a través del clasificador Local Matching Gabor.

Figura 3.10: Ejemplos de recortes de rostros frontales de la base de datos Yale utilizados para reconocimiento a través del clasificador Local Matching Gabor..

34

Page 41: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Figura 3.11: Ejemplos de recortes de rostros frontales de la base de datos YaleB utilizados para reconocimiento a través del clasificador Local Matching Gabor.

3.7.1 Conjuntos de entrenamiento, validación y prueba para el algoritmo genético

En forma análoga a 3.6.1, se escoge en primera instancia como conjunto de entrenamiento la base de datos YaleB debido a que presenta mayor variabilidad en la iluminación de los rostros. Al efectuar la clasificación mediante Local Matching Gabor sobre esta base de datos para imágenes sin procesar y para imágenes cuya iluminación es compensada con los métodos DCT, LN y SQI con las configuraciones recomendadas en [19][20][21] respectivamente, se observa que la tasa de error en el reconocimiento de rostros es muy bajo o nulo como se muestra en la Tabla 4.14 del Capítulo 4. No se utiliza esta base de datos, pues la tasa de reconocimiento de rostros es óptima. Se infiere que se obtuvo tal tasa de error en el reconocimiento de rostros en esta base de datos debido a que las imágenes fueron obtenidas en aproximadamente 2 segundos y por lo tanto prácticamente no presentan cambios de gesticulación [34]. Se elige como conjunto de entrenamiento la base de datos Yale ya que presenta un par de imágenes por individuo iluminadas desde los costados derecho e izquierdo. Como conjunto de validación y prueba se escogen respectivamente las bases UChile y FERET.

3.7.2 Entrenamiento del clasificador Local Matching Gabor

El entrenamiento se efectúa en forma similar para las 3 bases de datos con que se trabaja finalmente. En el caso de las bases de datos FERET y UChile el entrenamiento es idéntico al que se realiza para el clasificador PCA en 3.6.2. Para la base de datos Yale se escoge como conjunto de entrenamiento una imagen por individuo (15 imágenes en total) y el resto de las imágenes se utilizan como conjunto de prueba, se efectúa lo anterior 10 veces cambiando la imagen de entrenamiento por otra no utilizada anteriormente y se calculan la media y la desviación estándar del error en el reconocimiento de rostros.

3.7.3 Elección de función objetivo

La función objetivo escogida para minimizar es el error en el reconocimiento de rostros en el conjunto de entrenamiento del algoritmo genético, es decir, en la base de datos Yale. Así, mientras más negativa es la función objetivo, mayor es la tasa de reconocimiento de rostros alcanzada.

3.8 Descripción de la optimización utilizando algoritmos genéticos

Para optimizar los 3 métodos de compensación de iluminación y sus combinaciones utilizando

35

Page 42: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

algoritmos genéticos se interpretan los genes como valores numéricos o como elección de alguna configuración del método optimizado. En los casos en que se necesita generar números en [0,1] se utilizan n genes (típicamente n=3 ó n=4) para crear 2n niveles en [0,1]. Cada nivel es igual a

i2n−1

, donde i equivale a la representación decimal de los n genes escogidos. Si n es la

cantidad de genes en los cromosomas, entonces el tamaño de población se escoge entre n y 2n individuos [35]. En caso de cromosomas muy largos, se acota el tamaño de población en un máximo de 100 individuos. Para asegurar la obtención de óptimos globales en vez de óptimos locales se ejecutan 2 pruebas independientes y una vez que finalizan, se eliminan los individuos repetidos de la poblaciones correspondientes a la última generación de cada prueba y se corre una tercera prueba cuya población inicial es la unión de las poblaciones de las 2 pruebas anteriores. El tipo de recombinación o crossover utilizado es el cruce de dos puntos. El cruce de dos puntos consiste en seleccionar 2 números enteros aleatorios m y n entre 1 y el valor del largo del cromosoma L. Los “hijos”(individuos de la siguiente generación) se crean a partir de 2 “padres” (individuos de la generación actual) escogiendo los primeros m genes del primer padre, los genes m+1 a n del segundo padre y los genes (n+1)-ésimo en adelante del primer padre. Se asegura la supervivencia de 2 individuos de élite por generación. El 80% de la población de una generación (sin contar a los individuos de élite) está formada por individuos creados por recombinación (crossover). Se aplica mutación uniforme, es decir, cada gen de un individuo tiene la misma probabilidad de ser mutado. La probabilidad de mutación utilizada es de 1%. Los individuos a operar se eligen mediante selección estocástica uniforme.

(a)DCTa: se codifica cada una de las 36 ponderaciones γ(u,v) en 3 ó 4 bits o genes, obteniendo como resultado cromosomas de 144 genes.

(b)DCTb: se codifica cada una de las 210 ponderaciones γ(u,v) en 3 ó 4 bits o genes, dando origen a cromosomas de 630 u 840 genes.

(c)DCTc: se codifica cada una de las 30 ponderaciones γ(u,v) en 3 ó 4 bits o genes, obteniendo como resultado cromosomas de 90 o 120 genes.

(d)LN: se codifica cada una de las ponderaciones en 3 ó 4 bits. Si el tamaño del filtro es

NxN, la cantidad de ponderaciones necesarias es P=∑i=1

N12

i y la cantidad de genes

necesarios es nP, donde n es la cantidad de bits escogidos para codificar las ponderaciones.

(e)SQI: se codifican cada uno de los 8 umbrales βk en 3 ó 4 bits o genes. Como existen 4 opciones de funciones de eliminación de ruido, la elección se efectúa utilizando 2 bits: la combinación 00 se asigna a la arcotangente, la combinación 01 a la función de saturación, la combinación 10 a la sigmoide y la combinación 11 a la tangente hiperbólica. El parámetro α de la función de eliminación de ruido se codifica en 8 bits . Estos 8 bits se interpretan según su valor decimal x. El parámetro α se obtiene como:

=0,150,85 x255 (3.12)

Se acota el valor de α en un mínimo de 0,15 ya que tras pruebas experimentales se ha

36

Page 43: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

determinado que con valores inferiores se obtienen imágenes con todos sus píxeles con intensidad de tonos de grises igual a 0, con lo que la imagen compensada se torna inutilizable: Cada uno de los 8 pesos mk se codifican en 3 ó 4 bits. Por lo tanto, el largo de los cromosomas oscila entre los 58 y los 74 genes.

(f) Métodos combinados en cascada: tal como se explicó en 3.4, la optimización en estos casos se realiza del mismo modo que con los métodos aislados. El largo de los cromosomas en estos casos es igual a la suma de los largos de los cromosomas necesarios para optimizar los métodos involucrados por separado.

37

Page 44: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

4 ResultadosSe exponen los resultados obtenidos luego de optimizar los métodos de compensación de iluminación para cada clasificador y, en el caso del clasificador PCA, según los entrenamientos realizados. Los resultados corresponden a los errores en el reconocimiento de rostros.

Se consideran las siguientes configuraciones iniciales de los métodos de compensación de iluminación:

● DCT: anulación de los coeficientes DCT dentro de un tríángulo de lado 20 píxeles.

● LN: normalización dentro de una ventana de tamaño 7x7 píxeles.

● SQI: utilización de 8 filtros gaussianos anisotrópicos cuyos tamaños varian entre 3x3 y 17x17 píxeles, umbral para la aplicación de los filtros gaussianos igual a la media dentro de la ventana del filtro, uso de la función arcotangente para la eliminación de ruido en las imágenes de cuociente propio y ponderaciones uniformes y unitarias para todas las imágenes de cuociente propio en la etapa de obtención de la imagen de cuociente propio final.

4.1 Clasificador PCA

4.1.1 Entrenamiento AEn la Tabla 4.1 se muestra el error de reconocimiento de rostros en los 5 subconjuntos del conjunto de entrenamiento del algoritmo genético, la base de datos YaleB, y el fitness definido en 3.6.3. En la primera fila se muestra el error de reconocimiento en imágenes sin compensar. En las siguientes 3 filas se muestra el error de reconocimiento compensando la iluminación de las imágenes con DCT, LN y SQI con los parámetros originales dados en [19][20][21] respectivamente. En las filas próximas se muestra el error de reconocimiento en imágenes con iluminación compensada con los métodos optimizados y con los mismos métodos optimizados aplicados en cascada simbolizados con un signo '+'.

38

Page 45: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Tabla 4.1: Errores de reconocimiento de rostros en los 5 subconjuntos de la base de datos de entrenamiento YaleB y fitness para el entrenamiento A al utilizar un clasificador PCA.

PCA Prueba A Subconjuntos FitnessYaleB 1 [%] 2 [%] 3 [%] 4 [%] 5 [%]Sin procesar 0 0,92 ± 1,90 14,67 ± 5,06 54,57 ± 2,39 80,68 ± 1,94 98,50DCT 0 0,42 ± 0,71 0,67 ± 1,17 4,00 ± 2,70 4,63 ± 0,95 6,17LN 0 0,08 ± 0,26 0 3,43 ± 2,12 2,11 ± 2,48 4,03SQI 0 0,17 ± 0,53 0,17 ± 0,35 2,00 ± 1,34 5,47 ± 2,12 5,83DCTa 0 0,08 ± 0,26 0,33 ± 0,58 1,64 ± 1,22 1,47 ± 1,18 2,23DCTb 0 0 0,25 ± 0,56 1,21 ± 1,01 0,79 ± 0,71 1,47DCTc 0 0 0,42 ± 1,06 2,93 ± 1,37 2,74 ± 1,26 4,03LN optimizado 0 0 0 3,21 ± 1,82 1,68 ± 1,73 3,63SQI optimizado 0 0,25 ± 0,79 0 0,57 ± 0,88 1,95 ± 0,93 2,04DCTa + LN opt. 0 1,83 ± 0,95 0 4,21 ± 0,98 2,37 ± 2,06 5,17DCTb + LN opt. 0 0,42 ± 0,59 0 4,14 ± 1,93 2,37 ± 2,08 4,79DCTc + LN opt. 0 0,67 ± 1,23 0 4,29 ± 1,43 1,74 ± 1,81 4,67DCTa + SQI opt. 0,14 ± 0,45 1,33 ± 1,05 0,42 ± 1,06 3,71 ± 1,57 2,74 ± 2,36 4,82DCTb + SQI opt. 0,14 ± 0,45 1,08 ± 0,97 0,67 ± 1,46 2,71 ± 1,30 2,58 ± 2,23 3,96DCTc + SQI opt. 0,14 ± 0,45 1,33 ± 1,31 0,42 ± 0,81 3,43 ± 1,38 3,00 ± 2,33 4,77LN opt. + DCTa 0 3,42 ± 1,14 0 5,93 ± 1,72 2,21 ± 2,38 7,19LN opt. + DCTb 0 0,92 ± 0,92 0 3,64 ± 1,70 1,47 ± 1,62 4,04LN opt. + DCTc 0 2,58 ± 0,47 0 5,79 ± 1,80 2,42 ± 2,87 6,78LN opt. + SQI opt. 0 2,67 ± 1,02 0 5,07 ± 2,14 1,89 ± 2,84 6,03SQI opt. + DCTa 0 1,92 ± 1,62 0,67 ± 1,41 6,79 ± 3,18 6,05 ± 2,09 9,32SQI opt. + DCTb 0 0,83 ± 0,88 0,58 ± 1,25 3,14 ± 1,79 4,74 ± 1,70 5,77SQI opt. + DCTc 0 1,33 ± 1,25 0,33 ± 0,70 6,00 ± 3,93 5,42 ± 1,95 8,20SQI opt. + LN opt. 0 4,83 ± 1,70 0 8,43 ± 2,52 4,95 ± 5,03 10,90

En la Tabla 4.2 se muestran resultados análogos a los de la Tabla 4.1, pero ahora sobre el conjunto de validación del algoritmo genético, la base de datos UChile.

39

Page 46: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Tabla 4.2: Error de reconocimiento en la base de datos de validación UChile al ejecutar el entrenamiento A.

Prueba Error [%]Sin procesar 48,2 ± 2,7DCT 43,6 ± 2,0LN 21,8 ± 3,2SQI 34,5 ± 3,1DCTa 33,5 ± 1,3DCTb 37,2 ± 3,8DCTc 34,1 ± 1,5LN optimizado 20,6 ± 2,0SQI optimizado 36,1 ± 4,2DCTa + LN optimizado 28,0 ± 1,8DCTb + LN optimizado 26,1 ± 2,0DCTc + LN optimizado 27,5 ± 2,4DCTa + SQI optimizado 39,4 ± 3,9DCTb + SQI optimizado 39,7 ± 2,7DCTc + SQI optimizado 38,0 ± 2,7LN opt. + SQI opt. 19,2 ± 1,6SQI optimizado +DCTa 59,4 ± 1,3SQI optimizado +DCTb 56,4 ± 1,7SQI optimizado+DCTc 56,1 ± 2,7SQI opt. + LN opt. 26,0 ± 2,7

A partir de las Tablas 4.1 y 4.2 se observa que los resultados de compensación de iluminación a través de métodos en cascada son dispares desde el punto de vista de la generalización. Existen algunas cascadas que son óptimas para una base de datos, pero están lejos de serlo para otra base de datos (por ejemplo, DCTb + SQI optimizado es la mejor cascada para YaleB, pero no para UChile y SQI optimizado + LN optimizado es la peor cascada para YaleB, pero la segunda mejor cascada para UChile), existen otras que funcionan mal sobre ambas bases de datos (por ejemplo, SQI optimizado + DCTa) y otras cascadas que funcionan relativamente bien sobre ambas bases de datos (por ejemplo, DCTc + LN optimizado). En este trabajo se optimizan las cascadas del último tipo. Con el fin de escoger de la mejor manera las cascadas a optimizar, se crea un método que consiste en tomar en cuenta la suma y el producto entre el fitness en el conjunto de entrenamiento del algoritmo genético (YaleB) y el error promedio de reconocimiento en el conjunto de validación del algoritmo genético (UChile). Las cascadas escogidas son: aquella que presenta la mínima suma, aquella que presenta el mínimo producto y, en caso de que existan, las cascadas quetengan asociadas un producto menor o igual al método con mínima suma o una suma menor o igual al método con el mínimo producto. Bajo este criterio, se optimizan las cascadas DCTb+LN (mínimo producto), DCTc+LN (producto menor al del método con mínima suma) y LN+SQI optimizado (mínima suma). En la Tabla 4.3 se muestran los resultados obtenidos al aplicar este criterio.

40

Page 47: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Tabla 4.3: Resultados del criterio de elección de las cascadas a optimizar en función de la suma y el producto entre el fitness en la base de datos YaleB y el error promedio en la base de datos

UChile.

Prueba Fitness YaleB (1) Promedio Error UChile (2) (1) + (2) (1) x (2)DCTa + LN7 5,17 28,0 33,17 144,77DCTb + LN7 4,79 26,1 30,89 125,02DCTc + LN7 4,67 27,5 32,17 128,48DCTa + SQIopt 4,82 39,4 44,22 190,01DCTb + SQIopt 3,96 39,7 43,66 157,09DCTc + SQIopt 4,77 38,0 42,77 181,16LN7 + SQIopt 7,19 19,2 26,39 138,06SQIopt +DCTa 4,04 59,4 63,44 239,68SQIopt +DCTb 6,78 56,4 63,18 382,56SQIopt +DCTc 6,03 56,1 62,13 338,56SQIopt + LN7 9,32 26,0 35,32 242,23

Como una forma de ampliar el espacio de búsqueda de soluciones para los métodos en cascada, se plantea aumentar el tamaño de la ventana de normalización para las etapas LN, teniendo en consideración el tiempo de procesamiento de esta etapa. Luego de probar el método LN con distintos tamaños de ventana sobre la base de datos YaleB y calcular el tiempo de procesamiento, se obtiene el gráfico que se muestra en la Figura 4.1. El computador utilizado para esta prueba tiene un procesador Intel ® Core ™ 2 Duo a 2.66 GHz, 2 GB de memoria RAM y oper bajo el sistema operativo Ubuntu 7.10. A raíz de los resultados que se observan en el gráfico de la Figura4.1, se toma la decisión de utilizar una ventana de normalización de 9x9 píxeles en las etapas LN.

3 5 7 9 11 13 15 170

50

100

150

200

250

Lado de la v entana de normalización [píxeles]

Tiem

po d

e pr

oces

amie

nto

[s]

Figura 4.1: Tiempo de procesamiento de LN en los recortes de la base de datos de entrenamiento YaleB en función del tamaño del lado de la ventana de normalización.

41

Page 48: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

En las Tablas 4.4 y 4.5 se observa el error de reconocimiento de rostros en los conjuntos de entrenamiento (base de datos YaleB) y validación (base de datos UChile) respectivamente al compensar la iluminación con las cascadas optimizadas en el entrenamiento A.

Tabla 4.4: Error en el reconocimiento de rostros en la base de datos YaleB al optimizar los métodos de compensación de iluminación en cascada en el entrenamiento A.

PCA Prueba A Subconjuntos FitnessYaleB 1 [%] 2 [%] 3 [%] 4 [%] 5 [%](DCTb + LN) optimizada 0 0 0 1,00 ± 1,02 0,26 ± 0,28 1,03(DCTc + LN) optimizada 0 0 0 1,36 ± 1,09 0,68 ± 0,86 1,52(LN + SQI) optimizada 0 0,25 ± 0,40 0 1,07 ± 0,77 0,21 ± 0,44 1,12

Tabla 4.5: Error en el reconocimiento de rostros en la base de datos UChile al optimizar los métodos de compensación de iluminación en cascada en el entrenamiento A.

Prueba Error [%](DCTb + LN) optimizada 22,7 ± 2,7(DCTc + LN) optimizada 26,5 ± 1,6(LN + SQI) optimizada 18,5 ± 0,2

En la Tabla 4.6 se muestra el error de reconocimiento dentro del conjunto de prueba, la base de datos FERET, en imágenes sin iluminación compensada, con iluminación compensada por los métodos sin optimizar, con iluminación compensada por los métodos optimizados y con iluminación compensada por las cascadas optimizadas.

Tabla 4.6: Error en el reconocimiento de rostros de la base de datos FERET al realizar el entrenamiento A para el clasificador PCA.

Prueba FERETSin procesar 22,4 ± 0,9DCT 36,6 ± 1,1LN 22,0 ± 1,9SQI 25,9 ± 1,4DCTa 18,9 ± 1,6DCTb 20,0 ± 0,4DCTc 27,0 ± 1,0LN optimizado 20,1 ± 1,4SQI optimizado 29,9 ± 3,2(DCTb + LN) optimizada 37,9 ± 2,8(DCTc + LN) optimizada 44,5 ± 1,3(LN + SQI) optimizada 18,4 ± 1,7

42

Page 49: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

A continuación se muestran las configuraciones optimizadas para los métodos de compensación de iluminación. Primero se muestran las ponderaciones γ(u,v) obtenidas al optimizar DCT a través de las estrategias DCTa, DCTb y DCTc. Luego se muestran las ponderaciones αij

optimizadas para LN. Más adelante se muestran las ponderaciones βk para el umbral que define la aplicación de los filtros gaussianos anisotrópicos, la función para la eliminación del ruido en las imágenes de cuociente propio Qk(x,y), el parámetro α asociado a la función de eliminación de ruido escogida y las ponderaciones mk para la obtención de la imagen final de cuociente propio en SQI. Por último se muestran los parámetros optimizados para las cascadas DCTb+LN, DCTc+LN y LN+SQI.

En las Figuras 4.2, 4.3 y 4.4 se muestran las ponderaciones seleccionadas por los algoritmos genéticos para la optimización de DCT bajo las estrategias DCTa, DCTb y DCTc respectivamente.

115×

2 1 1 11 3 11 13 154 2 0 9 6 6 106 1 5 2 4 5

12 8 5 15 128 8 15 51 13 4

13 1214

Figura 4.2: Ponderaciones γ(u,v) optimizadas por algoritmos genéticos para DCTa en el entrenamiento A. Cada celda representa la ponderación de un área de 4x4 píxeles.

17×

2 1 0 2 0 0 0 3 4 1 3 2 1 1 3 7 7 2 3 62 6 7 0 5 7 6 0 1 6 1 5 1 0 0 7 7 0 32 1 0 3 1 1 3 3 4 0 0 1 3 7 0 7 0 54 3 7 4 3 2 7 0 0 1 2 7 2 7 1 4 42 1 5 1 4 1 7 6 1 5 2 5 2 6 2 20 2 2 4 2 0 7 1 4 7 2 5 6 2 03 7 6 5 0 1 0 3 2 0 1 5 2 12 0 6 7 0 5 0 6 2 0 1 2 47 6 4 1 7 5 0 0 3 3 0 72 5 7 2 2 5 0 6 6 2 25 7 1 1 3 4 3 5 6 13 7 1 2 7 0 3 4 27 7 0 1 7 6 4 34 1 7 5 3 2 77 7 0 4 4 46 0 6 5 61 1 7 57 0 46 06

Figura 4.3: Ponderaciones γ(u,v) optimizadas por algoritmos genéticos para DCTb en el entrenamiento A.

43

Page 50: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

17×

0 0 0 1 1 2 3 2 2 1 0 2 2 2 1 7 5 4 5 5 0 6 1 3 7 7 5 4 7 50 0 1 1 2 3 2 2 1 0 2 2 2 1 7 5 4 5 5 0 6 1 3 7 7 5 4 7 50 1 1 2 3 2 2 1 0 2 2 2 1 7 5 4 5 5 0 6 1 3 7 7 5 4 7 51 1 2 3 2 2 1 0 2 2 2 1 7 5 4 5 5 0 6 1 3 7 7 5 4 7 51 2 3 2 2 1 0 2 2 2 1 7 5 4 5 5 0 6 1 3 7 7 5 4 7 52 3 2 2 1 0 2 2 2 1 7 5 4 5 5 0 6 1 3 7 7 5 4 7 53 2 2 1 0 2 2 2 1 7 5 4 5 5 0 6 1 3 7 7 5 4 7 52 2 1 0 2 2 2 1 7 5 4 5 5 0 6 1 3 7 7 5 4 7 52 1 0 2 2 2 1 7 5 4 5 5 0 6 1 3 7 7 5 4 7 51 0 2 2 2 1 7 5 4 5 5 0 6 1 3 7 7 5 4 7 50 2 2 2 1 7 5 4 5 5 0 6 1 3 7 7 5 4 7 52 2 2 1 7 5 4 5 5 0 6 1 3 7 7 5 4 7 52 2 1 7 5 4 5 5 0 6 1 3 7 7 5 4 7 52 1 7 5 4 5 5 0 6 1 3 7 7 5 4 7 51 7 5 4 5 5 0 6 1 3 7 7 5 4 7 57 5 4 5 5 0 6 1 3 7 7 5 4 7 55 4 5 5 0 6 1 3 7 7 5 4 7 54 5 5 0 6 1 3 7 7 5 4 7 55 5 0 6 1 3 7 7 5 4 7 55 0 6 1 3 7 7 5 4 7 50 6 1 3 7 7 5 4 7 56 1 3 7 7 5 4 7 51 3 7 7 5 4 7 53 7 7 5 4 7 57 7 5 4 7 57 5 4 7 55 4 7 54 7 57 55

Figura 4.4: Ponderaciones γ(u,v) optimizadas por algoritmos genéticos para DCTc en el entrenamiento A.

En la Figura 4.5 se muestran las ponderaciones αij seleccionadas por el algoritmo genético para la optimización de LN.

115×

7 7 6 13 6 7 77 5 0 4 0 5 76 0 1 1 1 0 6

13 4 1 14 1 4 136 0 1 1 1 0 67 5 0 4 0 5 77 7 6 13 6 7 7

Figura 4.5: Ponderaciones αij optimizadas por algoritmos genéticos para LN en el entrenamiento A.

En la Tabla 4.7 se muestran los ponderadores βk para los filtros gaussianos anisotrópicos con tamaño entre 3 y 17, los ponderadores mk para las imágenes de cuociente propio obtenidas a partir de los filtros gaussianos anisotrópicos, la función no lineal de eliminación de ruido y el parámetro α de la función hallados por algoritmos genéticos al optimizar SQI mediante el entrenamiento A.

44

Page 51: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Tabla 4.7: Parámetros para SQI optimizados por algoritmos genéticos en el entrenamiento A.Función

3 5 7 9 11 13 15 17 3 5 7 9 11 13 15 17 no lineal - 1 1 1/ 7 0 0 - - - 3/ 5 2/ 3 2/15 4/15 2/15 - - 0,9867

β k mk α

min(α ,x)

En las Figuras 4.6 y 4.7 se muestran respectivamente las ponderaciones γ(u,v) para la etapa DCTb y las ponderaciones αij para la etapa LN encontradas por el algoritmo genético al optimizar la cascada DCTb+LN.

115×

10 1 8 14 13 12 6 9 7 1 11 11 10 6 10 13 5 11 3 143 13 3 12 2 15 14 14 2 0 15 2 2 9 13 13 12 5 9

10 2 4 15 10 2 15 12 10 9 4 8 5 12 15 13 1 214 3 12 5 15 15 11 1 3 4 12 0 13 6 14 15 613 7 7 7 4 14 10 13 1 3 5 6 10 5 11 06 0 3 7 0 12 0 12 11 1 15 10 2 6 120 0 6 5 11 3 12 6 0 11 3 13 9 129 12 6 11 12 13 4 8 3 8 5 12 5

12 13 1 13 2 10 13 1 1 6 8 157 10 8 0 1 2 14 0 14 7 7

10 2 5 10 3 14 15 2 12 1512 13 12 3 5 13 8 1 215 0 10 15 3 8 5 30 11 14 8 8 12 11

15 9 11 6 1 1114 0 11 12 05 6 9 12

11 4 130 143

Figura 4.6: Ponderaciones γ(u,v) optimizadas por algoritmos genéticos para la etapa DCTb de la cascada DCTb+LN en el entrenamiento A.

115×

13 13 7 15 7 15 7 13 1313 10 9 8 2 8 9 10 137 9 8 11 6 11 8 9 7

15 8 11 6 7 6 11 8 157 2 6 7 2 7 6 2 7

15 8 11 6 7 6 11 8 157 9 8 11 6 11 8 9 7

13 10 9 8 2 8 9 10 1313 13 7 15 7 15 7 13 13

Figura 4.7: Ponderaciones αij optimizadas por algoritmos genéticos para la etapa LN de la cascada DCTb+LN en el entrenamiento A.

En las Figuras 4.8 y 4.9 se muestran respectivamente las ponderaciones γ(u,v) para la etapa DCTc y las ponderaciones αij para la etapa LN encontradas por el algoritmo genético al optimizar la

45

Page 52: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

cascada DCTc+LN.

115×

13 8 9 2 6 8 1 7 9 1 10 10 9 12 2 14 6 7 13 9 14 3 11 12 0 3 15 11 14 108 9 2 6 8 1 7 9 1 10 10 9 12 2 14 6 7 13 9 14 3 11 12 0 3 15 11 14 109 2 6 8 1 7 9 1 10 10 9 12 2 14 6 7 13 9 14 3 11 12 0 3 15 11 14 102 6 8 1 7 9 1 10 10 9 12 2 14 6 7 13 9 14 3 11 12 0 3 15 11 14 106 8 1 7 9 1 10 10 9 12 2 14 6 7 13 9 14 3 11 12 0 3 15 11 14 108 1 7 9 1 10 10 9 12 2 14 6 7 13 9 14 3 11 12 0 3 15 11 14 101 7 9 1 10 10 9 12 2 14 6 7 13 9 14 3 11 12 0 3 15 11 14 107 9 1 10 10 9 12 2 14 6 7 13 9 14 3 11 12 0 3 15 11 14 109 1 10 10 9 12 2 14 6 7 13 9 14 3 11 12 0 3 15 11 14 101 10 10 9 12 2 14 6 7 13 9 14 3 11 12 0 3 15 11 14 10

10 10 9 12 2 14 6 7 13 9 14 3 11 12 0 3 15 11 14 1010 9 12 2 14 6 7 13 9 14 3 11 12 0 3 15 11 14 109 12 2 14 6 7 13 9 14 3 11 12 0 3 15 11 14 10

12 2 14 6 7 13 9 14 3 11 12 0 3 15 11 14 102 14 6 7 13 9 14 3 11 12 0 3 15 11 14 10

14 6 7 13 9 14 3 11 12 0 3 15 11 14 106 7 13 9 14 3 11 12 0 3 15 11 14 107 13 9 14 3 11 12 0 3 15 11 14 10

13 9 14 3 11 12 0 3 15 11 14 109 14 3 11 12 0 3 15 11 14 10

14 3 11 12 0 3 15 11 14 103 11 12 0 3 15 11 14 10

11 12 0 3 15 11 14 1012 0 3 15 11 14 100 3 15 11 14 103 15 11 14 10

15 11 14 1011 14 1014 1010

Figura 4.8: Ponderaciones γ(u,v) optimizadas por algoritmos genéticos para la etapa DCTc de la cascada DCTc+LN en el entrenamiento A.

115×

15 15 15 15 15 15 15 15 1515 15 15 15 15 15 15 15 1515 15 15 15 15 15 15 15 1515 15 15 15 15 15 15 15 1515 15 15 15 15 15 15 15 1515 15 15 15 15 15 15 15 1515 15 15 15 15 15 15 15 1515 15 15 15 15 15 15 15 1515 15 15 15 15 15 15 15 15

Figura 4.9: Ponderaciones αij optimizadas por algoritmos genéticos para la etapa LN de la cascada DCTc+LN en el entrenamiento A.

En la Figura 4.10 se muestran las ponderaciones αij encontradas por los algoritmos genéticos para la etapa LN de la cascada LN+SQI y en la Tabla 4.8, los parámetros optimizados mediante algoritmos genéticos para la etapa SQI de la cascada LN+SQI.

46

Page 53: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

115×

15 15 15 15 15 15 15 15 1515 15 15 15 15 15 15 15 1515 15 13 14 8 14 13 15 1515 15 14 7 3 7 14 15 1515 15 8 3 8 3 8 15 1515 15 14 7 3 7 14 15 1515 15 13 14 8 14 13 15 1515 15 15 15 15 15 15 15 1515 15 15 15 15 15 15 15 15

Figura 4.10: Ponderaciones αij optimizadas por algoritmos genéticos para la etapa LN de la cascada LN+SQI en el entrenamiento A.

Tabla 4.8: Parámetros optimizados por algoritmos genéticos para la etapa SQI de la cascada LN+SQI en el entrenamiento A.

Función3 5 7 9 11 13 15 17 3 5 7 9 11 13 15 17 no lineal0 2/15 2/15 1 1 2/5 0 0 0 4/15 1/5 8/15 1 4/15 0 2/15 0,9100

β k mk α

min(α ,x)

4.1.2 Entrenamiento B

En forma análoga a 4.1.1, en la Tabla 4.9 se muestra el error de reconocimiento de rostros en los subconjuntos 3, 4 y 5 del conjunto de entrenamiento del algoritmo genético, la base de datos YaleB, y el fitness. En la primera fila se muestra el error de reconocimiento en imágenes sin compensar. En las siguientes 3 filas se muestra el error de reconocimiento compensando la iluminación de las imágenes con DCT, LN y SQI con los parámetros originales. En las demás filas se muestra el error de reconocimiento en imágenes cuya iluminación fue compensada con los métodos optimizados aplicados en forma aislada y en cascada. En este caso sólo se optimizan las cascadas escogidas en 4.1.1.

47

Page 54: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Tabla 4.9: Errores de reconocimiento de rostros en los subconjuntos 3, 4 y 5 de la base de datos YaleB y fitness para el entrenamiento B.

Entrenamiento B Subconjuntos FitnessYaleB 3 [%] 4 [%] 5 [%]Sin compensar 3,33 51,43 76,32 92,09DCT 0 0,71 2,63 2,73LN 0 0,71 0 0,71SQI 0 0 3,68 3,68DCTa 0 0 0,53 0,53DCTb 0 1,43 1,58 2,13DCTc 0 0,71 1,05 1,27LN optimizada 0 0 0 0SQI optimizada 0 0 0 0(DCTb+LN) opt. 0 0 0 0(DCTc+LN) opt. 0 0 0 0(LN+SQI) opt. 0 0 0 0

En la Tabla 4.10 se muestra el error de reconocimiento en el conjunto de validación, la base de datos CMU PIE.

Tabla 4.10: Error de reconocimiento en la base de datos CMU PIE al ejecutar el entrenamiento B.

Prueba Error [%]Sin compensar 40,83DCT 0,37LN 0,29SQI 1,11DCTa 0,29DCTb 0,29DCTc 0,37LN optimizada 0,36SQI optimizada 0,96(DCTb+LN) opt. 0,22(DCTc+LN) opt. 0,15(LN+SQI) opt. 0,15

En la Tabla 4.11 se muestra el error de reconocimiento en el conjunto de prueba, la base de datos FERET.

48

Page 55: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Tabla 4.11: Error de reconocimiento al ejecutar el entrenamiento B en la base de datos FERET.Prueba Error [%]Sin compensar 22,4 ± 0,9DCT 36,6 ± 1,1LN 22,0 ± 1,9SQI 25,9 ± 1,4DCTa 19,0 ± 0,9DCTb 22,0 ± 1,5DCTc 27,2 ± 1,8LN7opt 23,8 ± 1,6SQIopt 53,9 ± 2,4DCTb+LN 37,1 ± 1,8DCTc+LN 41,3 ± 3,0LN+SQI 18,2 ± 1,6

En forma análoga a 4.1.1, se muestran a continuación las configuraciones optimizadas para los métodos de compensación de iluminación. En primer lugar se exponen las ponderaciones γ(u,v) obtenidas al optimizar DCT a través de las estrategias DCTa, DCTb y DCTc. Luego, las ponderaciones αij optimizadas para LN. Posteriormente, las ponderaciones βk para el umbral que define la aplicación de los filtros gaussianos anisotrópicos, la función para la eliminación del ruido en las imágenes de cuociente propio Qk(x,y), el parámetro α asociado a la función de eliminación de ruido escogida y las ponderaciones mk para la obtención de la imagen final de cuociente propio en SQI. Finalmente se muestran los parámetros optimizados para las cascadas DCTb+LN, DCTc+LN y LN+SQI.

En las Figuras 4.11, 4.12 y 4.13 se muestran las ponderaciones γ(u,v) optimizadas para DCT halladas por los algoritmos genéticos para el entrenamiento bajo las estrategias DCTa, DCTb y DCTc respectivamente .

115×

1 1 1 1 0 8 8 02 1 4 9 0 15 148 0 4 13 11 24 4 3 10 09 1 9 14

11 15 1513 140

Figura 4.11: Ponderaciones γ(u,v) optimizadas por algoritmos genéticos para DCTa en el entrenamiento B.

49

Page 56: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

115×

5 0 0 3 1 4 5 5 6 6 7 12 3 5 2 8 10 6 4 58 10 5 0 0 10 1 7 2 15 14 12 14 11 7 4 6 2 126 2 0 8 2 13 9 7 6 14 4 13 7 1 6 10 6 29 10 0 3 12 1 3 6 1 2 9 7 11 1 8 0 00 6 2 8 10 4 0 11 4 13 1 9 8 0 3 97 7 8 2 1 15 4 9 0 11 5 9 0 15 39 8 2 6 9 8 4 8 0 6 3 7 7 13

12 1 4 1 5 4 0 6 14 9 0 3 914 1 7 13 7 5 7 3 4 10 4 1015 7 7 8 7 3 3 15 0 12 314 4 3 0 5 2 10 14 4 22 9 13 9 5 2 10 12 14 3 6 5 8 7 5 07 13 3 0 12 1 4

14 1 14 14 10 215 5 8 1 37 11 11 5

15 0 129 112

Figura 4.12: Ponderaciones γ(u,v) optimizadas por algoritmos genéticos para DCTb en el entrenamiento B.

115×

13 1 3 7 1 5 1 6 3 7 6 2 7 3 5 7 14 9 14 2 5 0 1 4 4 8 14 9 10 61 3 7 1 5 1 6 3 7 6 2 7 3 5 7 14 9 14 2 5 0 1 4 4 8 14 9 10 63 7 1 5 1 6 3 7 6 2 7 3 5 7 14 9 14 2 5 0 1 4 4 8 14 9 10 67 1 5 1 6 3 7 6 2 7 3 5 7 14 9 14 2 5 0 1 4 4 8 14 9 10 61 5 1 6 3 7 6 2 7 3 5 7 14 9 14 2 5 0 1 4 4 8 14 9 10 65 1 6 3 7 6 2 7 3 5 7 14 9 14 2 5 0 1 4 4 8 14 9 10 61 6 3 7 6 2 7 3 5 7 14 9 14 2 5 0 1 4 4 8 14 9 10 66 3 7 6 2 7 3 5 7 14 9 14 2 5 0 1 4 4 8 14 9 10 63 7 6 2 7 3 5 7 14 9 14 2 5 0 1 4 4 8 14 9 10 67 6 2 7 3 5 7 14 9 14 2 5 0 1 4 4 8 14 9 10 66 2 7 3 5 7 14 9 14 2 5 0 1 4 4 8 14 9 10 62 7 3 5 7 14 9 14 2 5 0 1 4 4 8 14 9 10 67 3 5 7 14 9 14 2 5 0 1 4 4 8 14 9 10 63 5 7 14 9 14 2 5 0 1 4 4 8 14 9 10 65 7 14 9 14 2 5 0 1 4 4 8 14 9 10 67 14 9 14 2 5 0 1 4 4 8 14 9 10 6

14 9 14 2 5 0 1 4 4 8 14 9 10 69 14 2 5 0 1 4 4 8 14 9 10 6

14 2 5 0 1 4 4 8 14 9 10 62 5 0 1 4 4 8 14 9 10 65 0 1 4 4 8 14 9 10 60 1 4 4 8 14 9 10 61 4 4 8 14 9 10 64 4 8 14 9 10 64 8 14 9 10 68 14 9 10 6

14 9 10 69 10 6

10 66

Figura 4.13: Ponderaciones γ(u,v) optimizadas por algoritmos genéticos para DCTc en el entrenamiento B.

En la Figura 4.14 se muestran las ponderaciones elegidas por el algoritmo genéticos para LN.

50

Page 57: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

115×

3 2 0 14 0 2 32 15 11 8 11 15 20 11 3 4 3 11 0

14 8 4 2 4 8 140 11 3 4 3 11 02 15 11 8 11 15 23 2 0 14 0 2 3

Figura 4.14: Ponderaciones αij seleccionadas por el algoritmo genético para LN en el entrenamiento B.

En la Tabla 4.12 se muestran los ponderadores βk para los filtros gaussianos anisotrópicos con tamaño entre 3 y 17, los ponderadores mk para las imágenes de cuociente propio obtenidas a partir de los filtros gaussianos anisotrópicos, la función no lineal de eliminación de ruido y el parámetro α de la función optimizados por algoritmos genéticos para SQI en el entrenamiento B.

Tabla 4.12: Parámetros optimizados por algoritmos genéticos para SQI en el entrenamiento B.Función α

3 5 7 9 11 13 15 17 3 5 7 9 11 13 15 17 no lineal 14/15 0 2/5 0 0 1 - - 1/15 14/15 2/15 14/15 14/15 4/5 - - 0,9967

β k mk

sig(α x)

En las Figuras 4.15 y 4.16 se muestran respectivamente las ponderaciones γ(u,v) para la etapa DCTb y las ponderaciones αij para la etapa LN encontradas por el algoritmo genético al optimizar la cascada DCTb+LN.

115×

15 0 0 0 4 15 11 3 0 11 1 7 6 15 6 8 0 14 5 213 4 14 15 4 10 15 6 14 7 3 3 12 3 5 13 8 14 34 7 2 13 2 14 3 5 12 11 8 2 4 13 11 15 3 85 15 5 10 5 14 9 7 11 15 14 6 5 4 4 15 97 11 13 9 1 0 8 12 15 7 12 15 6 13 1 93 13 13 5 11 10 4 15 8 3 11 3 11 14 119 1 3 9 0 1 14 6 0 14 0 13 0 159 3 2 11 4 15 6 4 3 12 0 15 3

13 7 15 4 4 12 7 2 10 0 4 137 13 1 2 15 7 12 2 0 11 79 11 10 9 15 3 2 6 4 1

12 11 12 9 0 5 3 8 613 5 6 2 2 14 4 23 1 14 14 13 10 99 15 7 15 5 3

15 2 0 3 51 11 6 116 10 147 14

Figura 4.15: Ponderaciones γ(u,v) optimizadas por algoritmos genéticos para la etapa DCTb de la cascada DCTb+LN en el entrenamiento B.

51

Page 58: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

115×

5 12 1 14 13 14 1 12 512 2 14 13 4 13 14 2 121 14 7 9 5 9 7 14 1

14 13 9 10 10 10 9 13 1413 4 5 10 3 10 5 4 1314 13 9 10 10 10 9 13 141 14 7 9 5 9 7 14 1

12 2 14 13 4 13 14 2 125 12 1 14 13 14 1 12 5

Figura 4.16: Ponderaciones αij optimizadas por algoritmos genéticos para la etapa LN de la cascada DCTb+LN en el entrenamiento B.

En las Figuras 4.17 y 4.18 se muestran respectivamente las ponderaciones γ(u,v) para la etapa DCTc y las ponderaciones αij para la etapa LN encontradas por el algoritmo genético al optimizar la cascada DCTc+LN.

115×

6 15 12 15 3 11 3 13 7 5 3 7 9 7 7 1 2 11 9 8 15 2 13 11 2 14 9 8 8 1015 12 15 3 11 3 13 7 5 3 7 9 7 7 1 2 11 9 8 15 2 13 11 2 14 9 8 8 1012 15 3 11 3 13 7 5 3 7 9 7 7 1 2 11 9 8 15 2 13 11 2 14 9 8 8 1015 3 11 3 13 7 5 3 7 9 7 7 1 2 11 9 8 15 2 13 11 2 14 9 8 8 103 11 3 13 7 5 3 7 9 7 7 1 2 11 9 8 15 2 13 11 2 14 9 8 8 10

11 3 13 7 5 3 7 9 7 7 1 2 11 9 8 15 2 13 11 2 14 9 8 8 103 13 7 5 3 7 9 7 7 1 2 11 9 8 15 2 13 11 2 14 9 8 8 10

13 7 5 3 7 9 7 7 1 2 11 9 8 15 2 13 11 2 14 9 8 8 107 5 3 7 9 7 7 1 2 11 9 8 15 2 13 11 2 14 9 8 8 105 3 7 9 7 7 1 2 11 9 8 15 2 13 11 2 14 9 8 8 103 7 9 7 7 1 2 11 9 8 15 2 13 11 2 14 9 8 8 107 9 7 7 1 2 11 9 8 15 2 13 11 2 14 9 8 8 109 7 7 1 2 11 9 8 15 2 13 11 2 14 9 8 8 107 7 1 2 11 9 8 15 2 13 11 2 14 9 8 8 107 1 2 11 9 8 15 2 13 11 2 14 9 8 8 101 2 11 9 8 15 2 13 11 2 14 9 8 8 102 11 9 8 15 2 13 11 2 14 9 8 8 10

11 9 8 15 2 13 11 2 14 9 8 8 109 8 15 2 13 11 2 14 9 8 8 108 15 2 13 11 2 14 9 8 8 10

15 2 13 11 2 14 9 8 8 102 13 11 2 14 9 8 8 10

13 11 2 14 9 8 8 1011 2 14 9 8 8 102 14 9 8 8 10

14 9 8 8 109 8 8 108 8 108 10

10

Figura 4.17: Ponderaciones γ(u,v) optimizadas por algoritmos genéticos para la etapa DCTc de la cascada DCTc+LN en el entrenamiento B.

52

Page 59: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

115×

14 5 3 13 3 13 3 5 145 15 2 9 9 9 2 15 53 2 1 4 1 4 1 2 3

13 9 4 10 10 10 4 9 133 9 1 10 11 10 1 9 3

13 9 4 10 10 10 4 9 133 2 1 4 1 4 1 2 35 15 2 9 9 9 2 15 5

14 5 3 13 3 13 3 5 14

Figura 4.18: Ponderaciones αij optimizadas por algoritmos genéticos para la etapa LN de la cascada DCTc+LN en el entrenamiento B.

En la Figura 4.19 se muestran las ponderaciones αij encontradas por los algoritmos genéticos para la etapa LN de la cascada LN+SQI y en la Tabla 4.13, los parámetros optimizados mediante algoritmos genéticos para la etapa SQI de la cascada LN+SQI.

115×

11 3 3 7 15 7 3 3 113 12 9 3 5 3 9 12 33 9 13 12 15 12 13 9 37 3 12 8 15 8 12 3 7

15 5 15 15 1 15 15 5 157 3 12 8 15 8 12 3 73 9 13 12 15 12 13 9 33 12 9 3 5 3 9 12 3

11 3 3 7 15 7 3 3 11

Figura 4.19: Ponderaciones αij optimizadas por algoritmos genéticos para la etapa LN de la cascada LN+SQI en el entrenamiento B.

Tabla 4.13: Parámetros optimizados por algoritmos genéticos para la etapa SQI de la cascada LN+SQI en el entrenamiento B.

Función3 5 7 9 11 13 15 17 3 5 7 9 11 13 15 17 no lineal- 0 2/5 1 1 1 1 13/15 - 1/3 1/3 4/5 1/3 4/5 8/15 1 0,9967

β k mk α

min(α ,x)

4.2 Clasificador Local Matching GaborEn la Tabla 4.14 se muestra el error de reconocimiento dentro de la base de datos YaleB. Dado que este error es nulo o prácticamente inexistente al utilizar imágenes con iluminación compensada, no se puede utilizar esta base de datos como conjunto de entrenamiento, pues no es optimizable. Se utiliza entonces para este efecto la base de datos Yale, pues también contiene

53

Page 60: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

imágenes iluminadas en condiciones extremas intencionalmente, como se señala en 3.5.

Tabla 4.14: Errores de reconocimiento de rostros en los 5 subconjuntos de la base de datos YaleB y fitness para el entrenamiento A al utilizar el clasificador Local Matching Gabor.

Prueba 1 [%] 2 [%] 3 [%] 4 [%] 5 [%] FitnessSin procesar 0 0 0 0 0,53 ± 0,00 0,5263DCT 0 0 0 0 0 0LN 0 0 0 0 0 0SQI 0 0 0 0 0,53 ± 0,00 0,5263

En las Tablas 4.15, 4.16 y 4.17 se muestran respectivamente los errores de reconocimiento de rostros en los conjuntos de entrenamiento (base de datos Yale), validación (base de datos UChile) y prueba (base de datos FERET).

Tabla 4.15: Error de reconocimiento en la base de datos Yale para el clasificador Local Matching Gabor.

Prueba YaleSin compensar 1,56 ± 1,65DCT20 1,48 ± 1,52LN 7 0,89 ± 0,98SQI 1,48 ± 1,48DCTa 1,33 ± 1,39DCTb 1,26 ± 1,40DCTc 1,33 ± 1,43LN7opt 0,74 ± 0,78SQIopt 1,04 ± 1,06

54

Page 61: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Tabla 4.16: Error de reconocimiento en la base de datos UChile para el clasificador Local Matching Gabor.

.

Prueba UChileSin compensar 11,69 ± 0,35DCT20 18,07 ± 4,72LN 7 14,61 ± 2,97SQI 12,23 ± 1,82DCTa 16,88 ± 4,31DCTb 17,64 ± 3,61DCTc 17,97 ± 3,71LN7opt 15,04 ± 2,65SQIopt 12,01 ± 1,63

Tabla 4.17: Error de reconocimiento en la base de datos FERET para el clasificador Local Matching Gabor.

Prueba FERETSin compensar 4,07 ± 1,40DCT20 4,79 ± 1,40LN 7 2,95 ± 1,59SQI 4,40 ± 1,49DCTa 5,12 ± 1,29DCTb 5,05 ± 1,34DCTc 5,05 ± 1,33LN7opt 2,82 ± 1,46SQIopt 4,27 ± 1,64

En las Figuras 4.20, 4.21 y 4.22 se muestran las ponderaciones γ(u,v) óptimas encontradas por los algoritmos genéticos para DCT con las estrategias DCTa, DCTb y DCTc respectivamente.

55

Page 62: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

115×

1 3 15 10 8 15 3 1014 6 15 10 10 7 38 13 10 6 8 102 10 11 8 2

12 2 14 87 11 74 5

10

Figura 4.20: Ponderaciones γ(u,v) optimizadas por los algoritmos genéticos al ejecutar la estrategia DCTa para reconocimiento de rostros por Local Matching Gabor.

115×

0 4 8 5 8 1 15 6 7 0 12 8 15 13 2 11 14 1 9 113 10 8 15 13 14 4 5 11 0 2 9 15 13 6 10 15 1 69 3 9 14 15 11 6 4 8 0 7 8 9 15 6 3 6 75 8 7 8 1 2 0 0 9 12 1 2 6 5 3 1 140 1 13 11 14 9 2 12 14 0 10 3 2 5 0 12

15 10 15 12 13 2 14 10 12 15 15 12 5 2 30 15 6 2 3 8 1 0 14 4 2 0 14 127 6 3 15 10 12 15 12 1 9 9 8 83 10 12 10 13 3 15 14 7 14 13 09 0 3 8 7 6 9 10 11 3 00 12 14 13 2 3 2 4 6 1

12 3 2 13 11 12 9 13 135 8 1 13 15 15 0 102 8 11 4 1 3 00 3 10 6 13 40 13 0 10 80 14 12 15 10 3

11 137

Figura 4.21: Ponderaciones γ(u,v) optimizadas por los algoritmos genéticos al ejecutar la estrategia DCTb para reconocimiento de rostros por Local Matching Gabor.

56

Page 63: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

115×

14 7 11 6 11 5 9 1 5 1 9 14 13 11 0 13 0 14 13 9 13 6 6 8 12 1 3 1 11 47 11 6 11 5 9 1 5 1 9 14 13 11 0 13 0 14 13 9 13 6 6 8 12 1 3 1 11 4

11 6 11 5 9 1 5 1 9 14 13 11 0 13 0 14 13 9 13 6 6 8 12 1 3 1 11 46 11 5 9 1 5 1 9 14 13 11 0 13 0 14 13 9 13 6 6 8 12 1 3 1 11 4

11 5 9 1 5 1 9 14 13 11 0 13 0 14 13 9 13 6 6 8 12 1 3 1 11 45 9 1 5 1 9 14 13 11 0 13 0 14 13 9 13 6 6 8 12 1 3 1 11 49 1 5 1 9 14 13 11 0 13 0 14 13 9 13 6 6 8 12 1 3 1 11 41 5 1 9 14 13 11 0 13 0 14 13 9 13 6 6 8 12 1 3 1 11 45 1 9 14 13 11 0 13 0 14 13 9 13 6 6 8 12 1 3 1 11 41 9 14 13 11 0 13 0 14 13 9 13 6 6 8 12 1 3 1 11 49 14 13 11 0 13 0 14 13 9 13 6 6 8 12 1 3 1 11 4

14 13 11 0 13 0 14 13 9 13 6 6 8 12 1 3 1 11 413 11 0 13 0 14 13 9 13 6 6 8 12 1 3 1 11 411 0 13 0 14 13 9 13 6 6 8 12 1 3 1 11 40 13 0 14 13 9 13 6 6 8 12 1 3 1 11 4

13 0 14 13 9 13 6 6 8 12 1 3 1 11 40 14 13 9 13 6 6 8 12 1 3 1 11 4

14 13 9 13 6 6 8 12 1 3 1 11 413 9 13 6 6 8 12 1 3 1 11 49 13 6 6 8 12 1 3 1 11 4

13 6 6 8 12 1 3 1 11 46 6 8 12 1 3 1 11 46 8 12 1 3 1 11 48 12 1 3 1 11 4

12 1 3 1 11 41 3 1 11 43 1 11 41 11 4

11 44

Figura 4.22: Ponderaciones γ(u,v) optimizadas por los algoritmos genéticos al ejecutar la estrategia DCTc para reconocimiento de rostros por Local Matching Gabor.

En la Figura 4.23 se muestran las ponderaciones αij seleccionadas por los algoritmos genéticos para LN dentro de un filtro de tamaño 7x7.

115×

9 3 8 14 8 3 93 4 10 9 10 4 38 10 12 6 12 10 8

14 9 6 14 6 9 148 10 12 6 12 10 83 4 10 9 10 4 39 3 8 14 8 3 9

Figura 4.23: Ponderaciones αij optimizadas por los algoritmos genéticos para LN para reconocimiento de rostros por Local Matching Gabor.

En la Tabla 4.18 se muestran los ponderadores βk para los filtros gaussianos anisotrópicos con tamaño entre 3 y 17, los ponderadores mk para las imágenes de cuociente propio obtenidas a partir de los filtros gaussianos anisotrópicos, la función no lineal de eliminación de ruido y el parámetro α de la función optimizados por algoritmos genéticos para SQI.

57

Page 64: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Tabla 4.18: Parámetros optimizados por los algoritmos genéticos para SQI para reconocimiento de rostros por Local Matching Gabor.

Local Gabor Función α

3 5 7 9 11 13 15 17 3 5 7 9 11 13 15 17 no linealSQI 13/15 - - 1/3 1 0 1/5 2/3 1/15 - - 1 14/15 2/3 1/15 7/15 atan 0,46

β k mk

58

Page 65: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

5 DiscusiónLa discusión se enfoca hacia el análisis del error en el reconocimiento de rostros y el análisis de los parámetros optimizados para los métodos de compensación de iluminación (DCT, LN y SQI) obtenidos utilizando algoritmos genéticos.

5.1 Análisis del error en el reconocimiento de rostrosEn este análisis se estudian los errores en el reconocimiento de rostros en imágenes sin iluminación compensada, en imágenes procesadas por métodos de compensación de iluminación con los parámetros iniciales o recomendados [19][20][21] y en imágenes con iluminación compensada por métodos optimizados cuyas configuraciones se detallan en el Capítulo 4. Para facilitar este análisis se representa en gráficos de barras el fitness en el caso de la base de datos YaleB, el error de reconocimiento en el caso de la base de datos CMU PIE o el error promedio de reconocimiento en el caso de las bases de datos FERET, UChile y Yale.

5.1.1 Clasificador PCAPrimero se analizan por separado los errores de reconocimiento de rostros en los entrenamientos A y B y luego se comparan ambos entrenamientos según los resultados obtenidos.

(a) Entrenamiento AAl observar el gráfico de la Figura 5.1 se ve que el reconocimiento de rostros mejora considerablemente al aplicar cualquiera de los métodos de compensación de iluminación sobre la base de datos YaleB. La base de datos YaleB tiene iluminación es no homogénea, es decir, cuenta con algunas imágenes iluminadas de forma tal que los rostros se encuentran parcial o totalmente sombreados. En cambio, los gráficos de las Figuras 5.3 y 5.4 muestran que la aplicación de métodos de compensación de iluminación sobre sobre imágenes con iluminación homogénea como UChile y FERET no siempre resulta beneficiosa para el reconocimiento de rostros, pudiendo incluso ser perjudicial.

En cuanto a la aplicación de métodos de compensación de iluminación en forma aislada, se observa a partir de los gráficos de las Figuras 5.2, 5.3 y 5.4 que LN presenta el mejor desempeño antes de la optimización en las tres bases de datos estudiadas. Luego de la optimización no se obtiene un método de compensación de iluminación con resultados generalizables, es decir, con el mejor resultado en las tres bases de datos.

Acerca de los métodos de compensación de iluminación combinados en cascada, se observa en las Figuras 5.2, 5.3 y 5.4 que, luego de optimizar a través de algortimos genéticos, la cascada LN+SQI entrega resultados generalizables en el reconocimiento para las tres bases de datos estudiadas. En otras palabras, se ha encontrado un método que funciona de buena forma sin importar el tipo de iluminación de la imagen y que entrega mejores resultados que el anterior método de compensación de iluminación con resultados generalizables, LN.

59

Page 66: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Figura 5.1: Gráfico de barras del fitness en la base de datos YaleB luego del entrenamiento A. Los datos son tomados de las Tablas 4.1 y4.4.

Figura 5.2: Gráfico de barras del fitness en la base de datos YaleB luego del entrenamiento A sin considerar las imágenes originales con el fin de facilitar la comparación entre métodos de

compensación de iluminación. Los datos son tomados de las Tablas 4.1 y 4.4.

60

Sin procesar

DCTLN SQI

DCTaDCTb

DCTcLN optimizado

SQI optimizados

DCTa + LN optimizado

DCTb + LN optimizado

DCTc + LN optimizado

DCTa + SQI optimizado

DCTb + SQI optimizado

DCTc + SQI optimizado

LN optimizado + DCTa

LN optimizado + DCTb

LN optimizado + DCTc

LN optimizado + SQIopt

SQI optimizado + DCTa

SQI optimizado + DCTb

SQI optimizado + DCTc

SQI optimizado + LN optimizado

(DCTb + LN) optimizada

(DCTc + LN) optimizada

(LN + SQI) optimizada

0,0010,0020,0030,0040,0050,0060,0070,0080,0090,00

100,00

Fitn

ess

DCTLN SQI

DCTaDCTb

DCTcLN optimizado

SQI optimizados

DCTa + LN optimizado

DCTb + LN optimizado

DCTc + LN optimizado

DCTa + SQI optimizado

DCTb + SQI optimizado

DCTc + SQI optimizado

LN optimizado + DCTa

LN optimizado + DCTb

LN optimizado + DCTc

LN optimizado + SQIopt

SQI optimizado + DCTa

SQI optimizado + DCTb

SQI optimizado + DCTc

SQI optimizado + LN optimizado

(DCTb + LN) optimizada

(DCTc + LN) optimizada

(LN + SQI) optimizada

0,00

2,00

4,00

6,00

8,00

10,00

12,00

Fitn

ess

Page 67: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Sin procesar

DCTLN SQI

DCTaDCTb

DCTcLN optimizado

SQI optimizado

DCTa + LN optimizado

DCTb + LN optimizado

DCTc + LN optimizado

DCTa + SQI optimizado

DCTb + SQI optimizado

DCTc + SQI optimizado

LN7 + SQI optimizado

SQI optimizado +DCTa

SQI optimizado +DCTb

SQI optimizado +DCTc

SQI optimizado + LN optimizado

(DCTb + LN) optimizada

(DCTc + LN) optimizada

(LN + SQI) optimizada

0

10

20

30

40

50

60

Err

or p

rom

edio

[%

]

Figura 5.3: Gráfico de barras del error promedio de reconocimiento en la base de datos UChile luego del entrenamiento A. Los datos son tomados de las Tablas 4.2 y 4.5.

Figura 5.4: Gráfico de barras del error promedio de reconocimiento en la base de datos FERET luego del entrenamiento A. Los datos son tomados de la Tabla 4.6.

(b) Entrenamiento BAl observar los gráficos de las Figuras 5.5y 5.7 se saca la misma conclusión que en la parte (a): que para las bases de datos con iluminación no homogénea, como YaleB y CMU PIE, la compensación de iluminación aumenta considerablemente el rendimiento del clasificador. Para la

61

Sin compensar

DCTLN SQI

DCTaDCTb

DCTcLN optimizado

SQI optimizado

(DCTb+LN) optimizada

(DCTc+LN) optimizada

(LN+SQI) optimizada

0

5

10

15

20

25

30

35

40

45

50

Erro

r pro

med

io [%

]

Page 68: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

base de datos con iluminación homogénea, FERET, la compensación de iluminación puede llegar a ser perjudicial, como se observa en el gráfico de la Figura 5.9.

En cuanto a la aplicación de métodos de compensación de iluminación en forma aislada, el gráfico de la Figura 5.8 muestra que LN también presenta el mejor desempeño antes de la optimización en la base de datos CMU PIE. Luego de la optimización no es claro que exista un método de compensación de iluminación con resultados generalizables, que es lo mismo que ocurre en el entrenamiento A:

Acerca de los métodos combinados en cascada, a partir del los gráficos de las Figuras 5.6, 5.8 y 5.9 se infiere, al igual que en la parte (a) de este ítem, que la cascada LN+SQI entrega buenos resultados en el reconocimiento de rostros sin importar las condiciones de iluminación de las imágenes.

Al optimizar los métodos combinados en cascada se observa que LN+SQI es la que entrega el mejor resultado, pues al procesar distintas bases de datos con esta cascada se presenta el mínimo error de reconocimiento de rostros en todas ellas.

Figura 5.5: Gráfico de barras del fitness en la base de datos YaleB luego del entrenamiento B. Los datos son tomados de la Tabla 4.9.

62

Sin compensar

DCTLN SQI

DCTaDCTb

DCTcLN optimizado

SQI optimizado

(DCTb+LN) optimizada

(DCTc+LN) optimizada

(LN+SQI) optimizada

0

10

20

30

40

50

60

70

80

90

100

Fitn

ess

Page 69: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Figura 5.6: Gráfico de barras del fitness en la base de datos YaleB luego del entrenamiento B sin considerar las imágenes originales con el propósito de facilitar la comparación entre métodos de

compensación de iluminación. Los datos son tomados de la Tabla 4.9.

Figura 5.7: Gráfico de barras del error de reconocimiento en la base de datos CMU PIE luego del entrenamiento B. Los datos son tomados de la Tabla 4.10.

63

Sin compensar

DCTLN SQI

DCTaDCTb

DCTcLN optimizado

SQI optimizado

(DCTb+LN) optimizada

(DCTc+LN) optimizada

(LN+SQI) optimizada

0

5

10

15

20

25

30

35

40

45

Erro

r pro

med

io [%

]

DCTLN SQI

DCTaDCTb

DCTcLN optimizado

SQI optimizado

(DCTb+LN) optimizada

(DCTc+LN) optimizada

(LN+SQI) optimizada

0

0,5

1

1,5

2

2,5

3

3,5

4

Fitn

ess

Page 70: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Figura 5.8: Gráfico de barras del error de reconocimiento en la base de datos CMU PIE luego del entrenamiento B sin considerar las imágenes originales con el propósito de facilitar la

comparación entre métodos de compensación de iluminación.. Los datos son tomados de la Tabla4.10.

Figura 5.9: Gráfico de barras del error promedio de reconocimiento en la base de datos FERET luego del entrenamiento B. Los datos son tomados de la Tabla 4.11.

(c) Comparación entre ambos entrenamientosLuego de observar los gráficos del reconocimiento de rostros en el conjunto de prueba, la base de datos FERET, en las Figuras 5.4 y 5.9 se observa que a través del entrenamiento A se llega en general a mejores resultados, pese a que en este entrenamiento la cantidad de componentes

64

Sin compensar

DCTLN SQI

DCTaDCTb

DCTcLN optimizado

SQI optimizado

(DCTb+LN) optimizada

(DCTc+LN) optimizada

(LN+SQI) optimizada

0

10

20

30

40

50

60

Erro

r pro

med

io [%

]

DCTLN SQI

DCTaDCTb

DCTcLN optimizado

SQI optimizado

(DCTb+LN) optimizada

(DCTc+LN) optimizada

(LN+SQI) optimizada

0

0,2

0,4

0,6

0,8

1

1,2

Erro

r pro

med

io [%

]

Page 71: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

principales en el conjunto de entrenamiento del algoritmo genético es muy inferior con respecto a la del entrenamiento B (se utilizan 14 componentes principales en el entrenamiento A y 50 componentes principales en el entrenamiento B). Sin embargo, otros factores influyen en el resultado:

1. Al calcular el fitness en el conjunto de entrenamiento usando sólo los 3 subconjuntos peor iluminados no se está efectuando una optimización para un tipo de iluminación que está presente en varias de las imágenes del conjunto de prueba, que presenta iluminación homogénea.

2. Al utilizar una base de datos con iluminación no homogénea como conjunto de validación se está sobreajustando los métodos a esta condición de iluminación.

No obstante, a través de ambos entrenamientos se llega a que la cascada LN+SQI es la mejor forma de compensar la iluminación de una imagen, obteniéndose un resultado robusto.

5.1.2 Clasificador Local Matching GaborLuego de la optimización de los métodos de compensación de iluminación para el clasificador Local Matching Gabor, se observa en las Tablas 4.15, 4.16 y 4.17 que la aplicación de métodos de compensación de iluminación no modifica de forma notoria el resultado del reconocimiento de rostros. Para determinar si efectivamente la compensación de iluminación incide en los resultados obtenidos, se efectúa sobre estos resultados un test ANOVA o análisis de varianza (Analysis of Variance por sus siglas en inglés) en que la hipótesis nula corresponde a plantear que los métodos de compensación de iluminación no afectan al reconocimiento de rostros. Al aplicar el test ANOVA sobre los datos del conjunto de prueba (la base de datos FERET) que se muestran en la Tabla 4.17, se obtiene un p-valor igual a 0,2012 que implica aceptar la hipótesis nula. Por lo tanto, la compensación de iluminación no afecta al reconocimiento de rostros a través del clasificador Local Matching Gabor.

5.2 Análisis de parámetros optimizadosEste análisis consiste en determinar la relación entre los parámetros optimizados con los algoritmos genéticos y los parámetros originales de cada método de compensación de iluminación, junto con identificar patrones comunes entre los parámetros optimizados bajo los distintos entrenamientos. Con el objetivo de facilitar el análisis se muestran los parámetros optimizados de una forma diferente a como se hace en el Capítulo 4. Los parámetros optimizados de DCT y LN se representan en imágenes con tonos de grises en que el valor 0 está asociado al color negro y el valor 1 al color blanco, mientras que los parámetros optimizados βk y mk de SQI se muestran en gráficos de barras. Sólo se analizan los parámetros optimizados para el clasificador PCA, pues en 5.1.2 se ha determinado que los parámetros encontrados para optimizar el reconocimiento mediante el clasificador Local Matching Gabor no inciden en el desempeño de este clasificador.

5.2.1 DCT

Según lo descrito en 2.1.3, se espera que las ponderaciones γ(u,v) asignadas sean bajas o nulas en las zonas de baja frecuencia y que estas ponderaciones vayan creciendo a medida que aumentan

65

Page 72: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

las frecuencias, es decir, mientras los coeficientes se alejan del extremo superior izquierdo. Esto se cumple parcialmente y sólo en algunos casos como se ve a continuación.

En los Entrenamientos A y B para el clasificador PCA, al optimizar este método con las estrategias DCTa (Figura 5.10) y DCTc (Figura 5.12) se observa que se concentran las ponderaciones más bajas en la zona asociada a los coeficientes de bajas frecuencias y que las ponderaciones altas sólo existen en la zona asociada a coeficientes de altas frecuencias, lo que concuerda con lo esperado. Sin embargo, también se observan ponderaciones bajas en la zona asociada a los coeficientes de altas frecuencias. En el caso de la optimización mediante la estrategia DCTc y entrenamiento B se observa que el coeficiente del extremo superior izquierdo tiene una alta ponderación como se observa en la Figura 5.12 (b), pero esta ponderación no se toma en cuenta ya que este coeficiente, el coeficiente continuo, se calcula de acuerdo a la ecuación (2.18). Al optimizar DCT para el clasificador PCA con la estrategia DCTb, cuyo resultado se muestra en la Figura 5.11, se obtienen coeficientes que no están acorde a lo esperado, es decir, que no son intuitivos.

(a) (b)

Figura 5.10: Representación en escala de grises de las ponderaciones de los coeficientes DCT obtenidas al optimizar el método con la estrategia DCTa: (a) Entrenamiento A (b) Entrenamiento

B.

(a) (b)

Figura 5.11: Representación en escala de grises de las ponderaciones de los coeficientes DCT obtenidas al optimizar el método con la estrategia DCTb: (a) Entrenamiento A (b) Entrenamiento

B.

66

Page 73: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

(a) (b)

Figura 5.12: Representación en escala de grises de las ponderaciones de los coeficientes DCT obtenidas al optimizar el método con la estrategia DCTc: (a) Entrenamiento A (b) Entrenamiento

B.

5.2.2 LNLas ponderaciones originales son unitarias y, por lo tanto, lo esperado es que las ponderaciones optimizadas no sean muy diferentes a las originales.

Para el clasificador PCA, luego de los entrenamientos A y B se obtienen ponderaciones muy distintas a las ponderaciones unitarias originales, sin encontrarse entre ellas un patrón común que las caracterice.

(a) (b)

Figura 5.13: Representación en escala de grises de las ponderaciones optimizadas por algoritmos genéticos para LN: (a) Entrenamiento A (b) Entrenamiento B.

5.2.3 SQIEn 2.1.5 se indica que los filtros gaussianos anisotrópicos a utilizar deben ser lo suficientemente pequeños comparados con la variación de la normal a la superficie del rostro y lo suficientemente grandes como para que la información sobre la textura de la superficie del rostro no se pierda.

67

Page 74: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Además, dado que se establece como umbral para la aplicación de los filtros gaussianos anisotrópicos la media de las intensidades de grises dentro de los filtros, se espera que los ponderadores βk (definidos en 3.3) optimizados sean unitarios.

El gráfico de la Figura 5.14 (b) obtenido luego de ejecutar el entrenamiento A refleja que sólo basta con utilizar 5 de las 8 imágenes de cuociente propio para implementar óptimamente el método. Esta afirmación equivale a señalar que deben operar 5 de los 8 filtros gaussianos anisotrópicos, eliminándose justamente el filtro más pequeño y los dos filtros más grandes. Por otra parte, el gráfico de la Figura 5.15 (b) obtenido a partir del entrenamiento B muestra que se deben utilizar 6 de las 8 imágenes de cuociente propio iniciales, lo que equivale a utilizar 6 los 8 filtros gaussianos anisotrópicos, eliminándose nuevamente los dos filtros de mayor tamaño. No obstante, al filtro más pequeño se le asigna la ponderación más baja con respecto a los demás filtros seleccionados. Estos resultados concuerdan con lo esperado a partir de la teoría descrita en 2.1.5.

En cuanto a los umbrales para aplicación de los filtros gaussianos, en el gráfico de la Figura 5.14 (a) obtenido luego de ejecutar el entrenamiento A se observa que los dos filtros más pequeños a utilizar son anisotrópicos, el tercer filtro tiene una pequeña anisotropía y los dos filtros más grandes son isotrópicos. Si bien se podría pensar que esto contradice lo planteado en 2.1.5, se debe tener en cuenta que las ponderaciones mk asociadas a los tres filtros de mayor tamaño son las más pequeñas como se observa en la Figura 5.14 (b). Por lo tanto, estos resultados no son muy diferentes de lo esperado. Por otra parte, en el gráfico de la Figura 5.15 (a) se observan disparidades en la isotropía de los filtros y, por lo tanto, los resultados obtenidos no guardan relación con lo señalado en 2.1.5.

La función no lineal de eliminación de ruido escogida en los entrenamientos A y B por los algoritmos genéticos es la función mínimo, que corresponde a una de las funciones no lineales propuestas en este trabajo.

68

Page 75: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

3 5 7 9 11 13 15 170

0,10,2

0,30,4

0,50,60,70,80,9

1

Tamaño de filtro [píxeles]

bk

3 5 7 9 11 13 15 170

0,10,2

0,30,4

0,50,60,70,80,9

1

Tamaño de filtro [píxeles]

mk

(a) (b)

Figura 5.14: Gráfico de barras de los parámetros escogidos por los algoritmos genéticos luego del entrenamiento A: (a) βk, (b) mk.

3 5 7 9 11 13 15 170

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,80,9

1

Tamaño de f iltro [píxeles]

bk

3 5 7 9 11 13 15 170

0,10,2

0,30,4

0,5

0,60,7

0,80,9

1

Tamaño de filtro [píxeles]

mk

(a) (b)

Figura 5.15: Gráfico de barras de los parámetros escogidos por los algoritmos genéticos luego del entrenamiento B: (a) βk, (b) mk.

69

Page 76: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

6 ConclusionesSe utilizaron algoritmos genéticos para optimizar tres métodos de compensación de iluminación DCT, LN y SQI para el reconocimiento de rostros mediante dos clasificadores distintos: el clasificador PCA y el clasificador Local Matching Gabor.

En el reconocimiento de rostros utilizando un clasificador PCA, se obtuvieron mejores parámetros para los métodos de compensación de iluminación DCT, LN, SQI. Acerca de DCT, en algunos casos los parámetros optimizados tienen cierta concordancia con los que se esperaban a partir de la teoría asociada, pues se tienen bajas ponderaciones para la zona de baja frecuencia y ponderaciones más altas sólo en zonas de más alta frecuencia, pero también existen bajas ponderaciones en zonas de alta frecuencia. Esto revela que, si bien la mayor parte de la información relacionada con las variaciones de iluminación se concentran en las frecuencias bajas, también existe parte de esta información contenida en frecuencias más altas, como los cambios abruptos entre luz y sombra. En otros casos se tienen ponderaciones dispares, pero que de todos modos son mejores que las originales. Sobre LN, la introducción de nuevos estadísticos para la normalización local entregó mejores resultados que los estadísticos utilizados originalmente. En cuanto a SQI, los parámetros optimizados a través de algoritmos genéticos justifican lo planteado teóricamente en relación a la necesidad de aplicar filtros gaussianos anisotrópicos de un tamaño determinado. Por otra parte, fue útil proponer otras funciones para eliminar el ruido en las imágenes de cuociente propio, pues en algunos casos resultaron ser las mejores funciones para este fin. La idea de aplicar los métodos de compensación de iluminación en cascada fue provechosa, pues a través de esta vía se encontró la cascada LN+SQI, que resultó ser un método de compensación de iluminación que funciona en forma robusta, es decir, que presenta los mejores resultados en el reconocimiento de rostros para todas las bases de datos utilizadas y que incrementa en un 4,2% el porcentaje de clasificación en PCA en la base de datos YaleB.

Al intentar optimizar los métodos de compensación de iluminación para el reconocimiento mediante el clasificador Local Matching Gabor se comprobó que el desempeño del clasificador no sólo es independiente de las condiciones de iluminación, sino también que no existe un método de compensación de iluminación que mejore los resultados en el reconocimiento de rostros con este clasificador..

Otro aporte surgido a raíz de este trabajo es que, producto de la búsqueda de parámetros óptimos para distintas condiciones de iluminación, fue necesario probar los métodos existentes en varias bases de datos. En los artículos existentes, las pruebas para cada método de compensación de iluminación se realizan en dos o tres bases de datos, mientras que en este trabajo se han efectuado pruebas en 5 bases de datos distintas: CMU PIE, FERET, UChile, Yale y YaleB. Estas pruebas han dejado al descubierto las condiciones de iluminación en que trabaja cada método de compensación de iluminación existente. Por ejemplo, la aplicación de DCT no siempre mejora la tasa de reconocimiento de rostros (con respecto a la obtenida al utilizar las imágenes originales) en bases de datos con iluminación homogénea como FERET, mientras que la aplicación de LN siempre incrementa la tasa de reconocimiento de rostros sin importar el tipo de iluminación.

Al momento de buscar soluciones numéricas óptimas a través de algoritmos genéticos debió discretizarse o limitarse el espacio de búsqueda de soluciones. La discretización de algunos

70

Page 77: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

espacios de búsqueda se realizó en ocasiones de manera bastante gruesa (por ejemplo, al buscar valores en el intervalo [0,1] utilizando múltiplos de 1/7) pues, en caso contrario, se habrían tenido individuos con cromosomas muy extensos por lo que habría sido necesario utilizar un gran tamaño de población para asegurar la diversidad de soluciones, lo que a su vez implica un gran tiempo de ejecución por generación y una lenta convergencia del algoritmo genético en el tiempo. Sin duda, disponiendo de mayores recursos computacionales o mayor cantidad de tiempo se puede discretizar de manera más fina el espacio de soluciones o relajar algunos límites impuestos. No obstante, las soluciones encontradas permiten tener un esbozo de los parámetros óptimos de los métodos, como la cantidad de filtros anisotrópicos en SQI, la concentración de ponderaciones bajas en zonas de bajas frecuencias para DCT o la no-uniformidad de las ponderaciones para LN.

Por otra parte, las estrategias de optimización elegidas en el caso particular de DCT también limitan la búsqueda en el espacio de soluciones, pues se imponen restricciones a las ponderaciones a optimizar, como la agrupación de ponderaciones en DCTa o las bandas de ponderaciones iguales en DCTc.

6.1 Trabajo a futuroSe sugiere que el trabajo futuro esté orientado a optimizar los métodos de compensación de iluminación para el clasificador PCA utilizando otras herramientas para este fin como la Optimización por Enjambre de Partículas o PSO por sus siglas en inglés (Particle Swarm Optimization), pues esta herramienta no requiere una discretización del espacio de búsqueda, lo que permitirá encontrar mejores soluciones numéricas.

Se recomienda también estudiar en profundidad las causas del buen funcionamiento de la cascada LN+SQI en el reconocimiento de rostros a través del clasificador PCA con el objetivo de crear un nuevo método con efectos similares sobre las imágenes y menor tiempo de ejecución.

Finalmente, se propone optimizar los métodos de compensación de iluminación utilizando estrategias distintas a las de esta memoria de título y sobre distintos clasificadores para probar la sensibilidad de éstos a los cambios de iluminación.

71

Page 78: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Bibliografía[1] S. Phimoltares, C.L. Lursinsap, K. Chamnongthai, "Face detection and facial feature localization without considering the appearance of image context", Image and Vision Computing, Vol.25 (5), pp.741-753, May 2007

[2] S. Sirohey, A. Rosenfeld, Z. Duric, "A method of detecting and tracking irises and eyelids in video", Pattern Recognition, Vol.35(6), pp.1389-1401, 2002

[3] J. G. Wang, E. Sung, "Study on eye gaze estimation", IEEE Trans. on Systems, Man, and Cybernetics-Part B, Vol.32(3), pp.332-350, 2002

[4] C.A. Pérez, C. Salinas, P.A. Estévez, P. Valenzuela, "Genetic design of biologically inspired receptive fields for neural pattern recognition", IEEE Trans. on Systems, Man, and Cybernetics-Part B, Vol.33(2), pp.258-270, 2003

[5] C.A. Pérez, G. González, L.E. Medina, F.J. Galdames, "Linear Versus Non-Linear Neural Modeling for 2D Pattern Recognition", IEEE Trans. on Systems, Man and Cybernetics-Part A Vol.35(6), pp.955-964, 2005

[6] J. Kim, K. R. Park, J. J. Lee, S. R. LeClair, "Intelligent process control via gaze detection technology", Eng. Apps. AI, 13, pp.577-587, 2000

[7] K. S. Park, C. J. Lim, "A simple vision-based tracking method for eye-controlled human/computer interface", Int'l J. Human-Computer Studies, Vol.54, pp.319-332, 2001

[8] C.A. Pérez, C. Peña, C.A. Holzmann, C.M. Held, "Design of a Virtual Keyboard Based on Iris Tracking", Proc. Second Joint Conf. of the IEEE/EMBS and BMES, Houston, TX, USA, pp.2428-2429, 2002

[9] Y. Li, L. Chen, R.S. Goonetilleke, "A heuristic-based approach to optimize keyboard design for single-finger keying applications", International Journal of Industrial Ergonomics, Vol.36(8), pp.695-704, August 2006

[10] A. Belardinelli, F. Pirri, A. Carbone, "Bottom-Up Gaze Shifts and Fixations Learning by Imitation", IEEE Transactions on Systemsn Man and Cybernetics, Part B, Vol.37(2), pp.256–271, April 2007[11] L.P. Morency, C. Sidner, C. Lee, T. Darrell, "Head gestures for perceptual interfaces: The role of context in improving recognition", Artificial Intelligence, Vol.171(8-9), pp.568-585, June 2007[12] T. Lee, S.-K. Park and M. Park, "An effective method for detecting facial features and face in human–robot interaction", Information Sciences, Vol. 176(21), pp.3166-3189, November 2006

[13] C. Lin, C. Ho, K. Chang, S. Hung, H. Shei, M. Yeh, "A novel device for head gesture measurement system in combination with eye-controlled human–machine interface", Optics and

72

Page 79: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Lasers in Engineering, Vol. 44(6), pp.597-614, June 2006

[14] D.O. Gorodnichy, G. Roth, "Nouse ‘use your nose as a mouse’ perceptual vision technology for hands-free games and interfaces", Image and Vision Computing, Vol. 22(12), pp.931-942, October 2004

[15] C. Conati, C. Merten, "Eye-tracking for user modeling in exploratory learning environments: An empirical evaluation", Knowledge-Based Systems, Vol. 20(6), pp.557-574, August 2007

[16] S.W. Lee, S.H Moon, S.W. Lee, "Face recognition under arbitrary illumination using illuminated exemplars", Pattern Recognition, Vol. 40(5), pp.1605-1620, May 2007

[17] S. Choi, C. Kim, C. Choi, "Shadow compensation in 2D images for face recognitionShadow compensation in 2D images for face recognition", Pattern Recognition, Vol. 40(7), pp.2118-2125, July 2007

[18] A. Shashua, T. Riklin-Raviv, "The quotient image: Class-based re-rendering and recognition with varying illuminations", IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 23, No. 2, pp.129-139, 2001

[19] W. Chen, M. J. Er, S. Wu, "Illumination Compensation and Normalization for Robust Face Recognition Using Discrete Cosine Transform in Logarithm Domain", IEEE Transactions on Systems, Man and Cybernetics. Part B: Cybernetics Vol.36(2), pp.458-466, 2006

[20] X. Xie, K. M. Lam, "An efficient illumination normalization method for face recognition", Pattern Recognition Letters 27, pp.609-617, 2006

[21] H. Wang, S. Z. Li, Y. Wang, "Face Recognition under Varying Lighting Conditions Using Self Quotient Image", Proceedings of the Sixth IEEE International Conference on Automatic Face and Gesture Recognition, Seoul, Korea , pp.819-824, 2004

[22] M.A. Turk, A.P. Pentland, "Face recognition using eigenfaces", Computer Vision and Pattern Recognition, IEEE Computer Society Conference on,Proceedings CVPR '91, Maui, HI, USA, pp.586-591, 1991

[23] J. Zou, Q. Ji, G. Nagy, "A Comparative Study of Local Matching Approach for Face Recognition", IEEE Transactions on Image Processing, vol. 16, No. 10, pp. 2617-2628, October 2007

[24] R. C. Weast, D. R. Lide, “CRC handbook of chemistry and physics : a ready reference book of chemical and physical data”, 70th Edition, Boca Raton: CRC Press, 1989

[25] L. Rojas-Cárdenas, L. Millán-García, G. Rojas-Cárdenas, "Low Cost Visual Event Detection over JPEG Flows", Proceedings of the 16th IEEE International Conference on Electronics,

73

Page 80: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y ...biométrica de individuos, etc. La detección de rostros juega un rol fundamental en la interacción hombre-computador, en vigilancia

Communications and Computers, pp.16, 2006

[26] P. Estévez, "Optimización mediante algoritmos genéticos", Anales del Instituto de Ingenieros de Chile, pp.83-92, Agosto 1997

[27] J. Ruiz del Solar, “Procesamiento Avanzado de Imágenes”, Universidad de Chile, 2000[28] M. Turk, A. Pentland, "Eigenfaces for recognition", Journal of Cognitive Neuroscience, pp.71-76, 1991

[29] L. Wang, Y. Li, C. Wang, H. Zhang, "2D Gaborface representation method for face recognition with ensemble and multichannel model", Image and Vision Computing, Vol.26(6), pp.820-828, 2008

[30] C. Liu, H. Wechsler, "Gabor Feature Based Classification Using theEnhanced Fisher Linear Discriminant Modelfor Face Recognition", IEEE Transactions on Image Processing, Vol. 11, pp.467-476, April 2002

[31] T. Sim, S. Baker, M. Bsat, "The CMU Pose, Illumination, and Expression (PIE) Database", Proceedings of the IEEE International Conference on Automatic Face and Gesture Recognition,Washington, DC, USA, pp.46-51, May 2002

[32] P. J. Phillips, H. Wechsler, J. Huang, P. Rauss, "The FERET database and evaluation procedure for face recognition algorithms", Image and Vision Computing., Vol.16(5), pp.295-306, 1998

[33] P. N. Belhumeur, J. P. Hespanha, D. J. Kriegman, "Eigenfaces vs. fisherfaces: Recognition using class specific linear projection", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 19, pp.711-720, 1997

[34] A. S. Georghiades, P. N. Belhumeur, D. J. Kriegman, "From Few to Many: Illumination Cone Models for Face Recognition under Variable Lighting and Pose", IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 23, No. 6, pp.643-660, June 2001

[35] J. T. Alander, "On optimal population size of genetic algorithms", Proceedings of CompEuro '92. 'Computer Systems and Software Engineering', The Hague, Netherlands, pp.65-70, 1992

74