Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020136297 - METHOD FOR REMOVING BIAS IN BIOMETRIC RECOGNITION SYSTEMS

Note: Text based on automatic Optical Character Recognition processes. Please use the PDF version for legal matters

[ ES ]

MÉTODO PARA LA ELIMINACIÓN DEL SESGO EN SISTEMAS DE

RECONOCIMIENTO BIOMÉTRICO

D E S C R I P C I Ó N

OBJETO DE LA INVENCIÓN

La presente invención está referida a un método para eliminar el sesgo debido al género, etnia o edad en sistemas de reconocimiento biométrico.

ANTECEDENTES DE LA INVENCIÓN

La inteligencia artificial ha dado grandes avances en los últimos años. En determinadas tareas como el reconocimiento biométrico, los sistemas automáticos han conseguido alcanzar e incluso superar el rendimiento humano. Esto ha hecho que la tecnología de reconocimiento biométrico se despliegue a nivel global de forma masiva. Algunos ejemplos de este despliegue masivo son el programa Aadhaar de la India, a través del cual se han registrado los datos biométricos (huella dactilar, cara e iris) de más de 600 millones de ciudadanos; la tecnología de reconocimiento para móviles como TouchID o FaceID de Apple incorporada en cientos de millones de dispositivos; el sistema del FBI con más de 100 millones de huellas dactilares.

Este despliegue se ha visto impulsado por una comunidad científica y una industria muy activas en los últimos 20 años. La comunidad científica y la industria se han centrado en desarrollar sistemas de reconocimiento biométricos cada vez más precisos, económicos y usables. Este desarrollo, sin embargo, no se ha centrado en un aspecto clave como es la discriminación algorítmica. La discriminación se puede definir como un trato diferenciado debido a razones de género, edad, etnia o religión. La discriminación no es exclusiva de los seres humanos. El aprendizaje automático no está libre de sesgos y las principales técnicas utilizadas por la industria y comunidad científica son muy sensibles a estos sesgos. Los sistemas entrenados para optimizar una tasa de reconocimiento, no se fijarán si para ello utilizan características de género, etnia o edad. Este entrenamiento centrado puramente en la tasa de reconocimiento, independientemente del tipo de información explotada, es peligrosa.

Se hace necesario desarrollar tecnologías que garanticen el derecho a la no discriminación de los ciudadanos. Este es un derecho fundamental recogido en gran cantidad de tratados y regulaciones internacionales. Así por ejemplo, la Unión Europea puso en vigor en abril de 2018 la nueva regulación general de protección de datos (EU 2016/679 General Data Protection Regulation GDPR). El GDPR define los datos biométricos como datos sensibles por su capacidad para reconocer a las personas e identificar rasgos como sus orígenes étnicos. En el párrafo 71 de esta ley se especifica la obligatoriedad de implementar técnicas apropiadas que prevengan efectos discriminatorios. No existe ningún sistema biométrico comercial que garantice el trato igualitario y la no discriminación de los ciudadanos que lo utilicen. Esto pone en una situación complicada a las empresas comercializadoras ya que podrían estar incumpliendo la legislación vigente.

En lo que respecta a la comunidad científica, existen algunos esfuerzos en desarrollar sistemas que incorporen la discriminación o el sesgo como aspecto a tener en cuenta. Una forma de reducir el sesgo es introducir un mayor grado de privacidad en los datos biométricos. Existen técnicas para ofuscar atributos como el género o la etnia dentro de datos biométricos como la cara. Estas técnicas se conocen como de-identificación. Estas tecnologías permiten trasformar los datos de entrada para engañar a sistemas de detección de atributos. Se trata de enmascarar esta información para confundir a los detectores de género, etnia, o edad. El principal problema de la de-identificación es que está pensada para introducir privacidad en los datos, no para combatir el sesgo. El objetivo de los sistemas de de-identificación es engañar a sistemas entrenados con muestras normales (no de-identificadas). Estas tecnologías no eliminan el sesgo, lo ocultan. Modelos entrenados con muestras de-identificadas, son capaces de reconocer el género con tasas superiores al 95%, incluso en los sistemas más actuales.

La literatura centrada en la reducción del sesgo en muestras biométricas es escasa y tradicionalmente ha estado centrada en reducir el impacto del sesgo en el rendimiento, no en su eliminación. En [1] se propone un sistema de eliminación de sesgo basado en un entrenamiento con dos objetivos: mantener el rendimiento de detección de edad, mientras se elimina el sesgo introducido por el género. El método trata de combatir el sesgo debido a que las mujeres tienden a parecer más jóvenes que los hombres en la base de datos de celebridades utilizada para sus experimentos. La propuesta de [1] se inspira en las técnicas de aprendizaje automático basadas en adaptación a dominio. El método propone un aprendizaje basado en una función de pérdidas relativa a la tarea principal (detección de edad en este caso) y dos funciones de pérdidas relacionadas con la tarea secundaria (detección de género en este caso). Estas dos funciones de perdidas secundarias son opuestas entre si y por tanto se deben entrenar por separado. El sistema se enfoca principalmente a la reducción del sesgo en términos de pérdida de rendimiento en tareas de clasificación como la detección de edad. Un método similar se propone en [2] basado en Redes Convolucionales Multitarea y“joint dynamic loss weight adjustment”. En [2] se añade la etnia además del género y la edad. El objetivo del algoritmo propuesto en [2] es minimizar los efectos de bases de datos sesgadas utilizadas para entrenar algoritmos de clasificación de los atributos mencionados. En la literatura no se han encontrado trabajos que muestren evidencias objetivas de la eliminación del sesgo en tareas como el reconocimiento biométrico de personas.

DESCRIPCIÓN DE LA INVENCIÓN

Es un objeto de la presente invención un método para desarrollar sistemas de inteligencia artificial justos, más trasparentes y libres de sesgo. Entre las diferentes aplicaciones, el método se puede aplicar para desarrollar sistemas biométricos cuya toma de decisión esté basada exclusivamente en características del individuo no dependientes de su género, etnia o edad. Es otro objeto del método el desarrollo de un método que permita eliminar el sesgo de sistemas de reconocimiento biométrico ya entrenados a través de la incorporación de una etapa de eliminación de la información potencialmente discriminante; y el entrenamiento de sistemas desde cero para la eliminación del sesgo en tareas de reconocimiento biométrico. Estos objetos se alcanzan con el método de la reivindicación 1. En realizaciones dependientes se describen realizaciones particulares del método propuesto.

Más concretamente, el método propuesto se utiliza para entrenar un sistema a través de un proceso iterativo en el que se elimina la información con potencial discriminante (e.j. género, etnia o edad). El método de aprendizaje se basa en un aprendizaje automático que mantiene el rendimiento de reconocimiento, mientras se elimina el sesgo. Para ello, se define un conjunto formado por M muestras de Y personas diferentes etiquetadas a partir de atributos como el género, etnia o edad. Las muestras A (Ancla) y las muestras P (Positivas) se corresponden con muestras de la misma identidad, mientras que las muestras N (Negativas) se corresponde con

diferentes identidades. Se introduce además un valor s (Bias) que medirá el sesgo presente en cada muestra. El método es una extensión de las técnicas de aprendizaje basadas en tripletes o“triplet loss” propuestas en [3] Estas técnicas de aprendizaje minimizan la distancia entre muestras de la misma clase, mientras que la aumentan para muestras de diferente clase. Con ello se busca mejorar el rendimiento de los sistemas de reconocimiento. Esta patente extiende esta idea y amplía la función de perdidas añadiendo una componente de sesgo a minimizar s y un método iterativo para conseguirlo. Por tanto, el método de la invención comprende las etapas de: (i) minimizar la distancia entre los vectores de características de A y P; (ii) maximizar la distancia entre los vectores de características A y N; y (iii) reducir el sesgo s en las muestras.

Gracias a la presente invención es posible adaptar la tecnología de reconocimiento biométrico actual a la nueva y exigente legislación (e.j. GDPR) en términos de discriminación de los ciudadanos. Además, perite eliminar el sesgo de los sistemas de reconocimiento biométrico que, a diferencia de los sistemas conocidos en el estado de la técnica, se centra en ofrecer un trato igualitario (independientemente de género, etnia o edad), mientras se garantiza un rendimiento de reconocimiento competitivo.

La presente invención elimina el sesgo de las muestras biométricas. A diferencia de los sistemas de de-identificación, que simplemente lo enmascaran. Además, elimina el sesgo de modelos ya entrenados, no requiriendo entrenamientos desde cero y es compatible con la mayoría de las tecnologías de reconocimiento biométrico del estado del arte. Finalmente, el método propuesto ha sido probado en una de las tareas más complejas como es el reconocimiento biométrico facial sin restricciones (in the wild).

A lo largo de la descripción y de las reivindicaciones, la palabra «comprende» y sus variantes no pretenden excluir otras características técnicas, aditivos, componentes o pasos. Para los expertos en la materia, otros objetos, ventajas y características de la invención se desprenderán en parte de la invención y en parte de la práctica de la invención. Los siguientes ejemplos y dibujos se proporcionan a modo de ilustración y no se pretende que restrinjan la presente invención. Además, la invención cubre todas las posibles combinaciones de realizaciones particulares y preferidas aquí indicadas.

DESCRIPCIÓN DE LOS DIBUJOS

Para complementar la descripción que se está realizando y con objeto de ayudar a una mejor comprensión de las características de la invención, de acuerdo con un ejemplo preferente de realización práctica de la misma, se acompaña como parte integrante de dicha descripción, un juego de dibujos en donde con carácter ilustrativo y no limitativo, se ha representado lo siguiente:

Figura 1 Muestra un diagrama de bloques de la integración de la tecnología propuesta en modelos ya pre-entrenados.

Figura 2.- Muestra un diagrama del proceso de aprendizaje a partir del cual se reduce la variabilidad intraclase, mientras se maximiza la interclase y se elimina el sesgo.

Figuras 3A y 3B.- Muestran las curvas ROC para verificación de identidad (figura 3A) y clasificación de género (figura 3B) antes de aplicar el método Bit (línea continua) y después (línea discontinua) en un ejemplo de aplicación del método de la invención.

Figuras 4A y 4B.- Muestran las curvas ROC para verificación de identidad (figura 4A) y clasificación de etnia (figura 4B) antes de aplicar el método Bit (línea continua) y después (línea discontinua) en un ejemplo de aplicación del método de la invención.

REALIZACIÓN PREFERENTE DE LA INVENCIÓN

Seguidamente se expone, con ayuda de las figuras anteriores 1 -4B, una descripción detallada de un ejemplo de realización preferente de un método para la eliminación del sesgo en sistemas de reconocimiento biométrico, de acuerdo con la presente invención.

Tal y como se ha indicado anteriormente, el método de la presente invención permite desarrollar tecnología de reconocimiento biométrico sin sesgo de dos modos: (a) eliminando el sesgo de sistemas de reconocimiento biométrico ya entrenados a través de la incorporación de una etapa de eliminación de la información potencialmente discriminante; y (b) mediante el entrenamiento de sistemas desde cero para la eliminación del sesgo en tareas de reconocimiento biométrico.

Eliminación del sesgo de sistemas de reconocimiento facial va entrenados

El método propuesto actúa en el espacio de características de un sistema de aprendizaje automático. En reconocimiento de patrones, un espacio de características (5), es un espacio abstracto donde cada muestra es representada como un punto en un espacio d-dimensional. El método propuesto actúa en este espacio de características aprendiendo una transformación 9i ) que permita pasar del espacio sesgado 5 a un nuevo espacio de características P-dimensional s' sin sesgo. Dada una muestra biométrica ^ y un modelo pre-entrenado que extrae un vector de características s en un espacio s de dimensión
e| método propuesto transforma el espacio de características
a un espacio de características 5* de dimensión P en el que el nuevo vector de características y(c) no contenga información sesgada que pueda discriminar de forma injusta a los usuarios. La Figura 1 muestra el diagrama de bloques de la integración de la tecnología desarrollada con el método propuesto en sistemas ya entrenados.

La Figura 2 representa el proceso de aprendizaje del método propuesto. En este ejemplo se utilizan 3 muestras (A+P+N). Para el caso de 3 muestras, el método se divide en los siguientes pasos:

a. Se genera una base de datos de tripletes (?) a partir de las M muestras disponibles de Y identidades. Las muestras se agrupan en conjuntos de 3, en los que 2 muestras pertenecen a una misma identidad y una tercera pertenece a otra identidad distinta.

b. Se pasa cada una de las tres muestras por el modelo pre-entrenado y se genera un vector de características s de dimensión 1 x<

c. Se entrena un detector de sesgo a partir de los vectores de características y sus etiquetas asociadas (e.j. género, etnia, edad). El detector de sesgo puede basarse en diferentes algoritmos de clasificación y dará como salida un valor ft^) proporcional al nivel de sesgo presente en el vector de características s. Un ejemplo de detector de sesgo puede ser una red neuronal con una capa de entrada y una capa de salida binaria entrenada con una función softmax o similar.

d. Se añade una etapa de extracción de sesgo formada por una red neuronal que incluye una capa de entrada (que será la salida del paso b) y una capa de salida con número de neuronas L.

e. Se entrenan los pesos de esta capa para encontrar una función de transformación fKx) que minimice la función de coste tal que:

f.


donde K&,
¾ son los vectores obtenidos en el paso (b) y donde en un ejemplo no limitativo se calcula este coste a través de la siguiente ecuación (2):

donde sk, XP, ¾ son los vectores obtenidos en el paso b para cada uno de los tripletes 1 de la base de datos T, ¿TCsi es un escalar que definen la cantidad de sesgo presente en los vectores de características de cada triplete,
es una distancia entre vectores de características y a una constante. La cantidad de sesgo representa la capacidad de un algoritmo para detectar atributos sesgados en ese espacio de características. Una posible forma de calcularlo es a través de una ecuación como (3):


donde b es una constante es la salida del detector de sesgo entrenado

previamente en el paso c para la muestra A. se calculan de

forma análoga.

g. Se repiten los pasos c, d y e hasta conseguir eliminar el sesgo. Se reemplazan los vectores de características del paso b por los obtenidos en el paso e. Entrenando por tanto el detector de sesgo del paso c cada vez que se añade una nueva capa de extracción de sesgo.

h. El proceso acaba cuando el detector implementado en el paso c no es capaz de superar un rendimiento mínimo de detección de sesgo.

El resultado final es una transformación que permite eliminar el sesgo introducido durante el entrenamiento del modelo-pre-entrenado sin reducir la utilidad del espacio de características.

Entrenamiento de sistemas desde cero para la eliminación del sesgo.

En este caso no se parte del modelo pre-entrenado, por lo que se tiene libertad total para entrenar tu propio modelo en base al doble objetivo de rendimiento y eliminación de sesgo. El método consiste en utilizar la función de coste propuesta en el paso e para entrenar el modelo a partir de conjuntos de muestras como los sugeridos en el paso a. Al introducir la dimensión de sesgo en el entrenamiento, este será eliminado desde el principio y no se introducirá en el modelo como si ocurre en aquellos sistemas entrenados solo a partir de funciones de coste que evalúen e rendimiento de verificación/identificación. En este caso, el espacio de características s que se obtiene al finalizar el entrenamiento ya no contiene la información sesgada.

Ejemplo de aplicación del método de la invención

El método propuesto trabaja en el dominio abstracto del espacio de características por lo que es independiente de la muestra biométrica, el modelo pre-entrenado o el sesgo a eliminar. A continuación, se muestran los resultados obtenidos para la eliminación del sesgo en tareas de reconocimiento facial tanto para el caso de género como de etnia.

Para probar el rendimiento del sistema se ha utilizado el conjunto de test de la base de datos pública Labeled Face in the Wild (LFW), referente en la literatura de reconocimiento facial. El objetivo de un algoritmo de eliminación de sesgo es doble: eliminar el sesgo y mantener el rendimiento del sistema de reconocimiento de identidad. Para llevar a cabo los experimentos se ha utilizado un modelo pre-entrenado de reconocimiento facial basado en la red convolucional Resnet-50. Se ha escogido este modelo por sus altas prestaciones en diferentes bases de datos adquiridas en entornos operacionales. Para este experimento se han utilizado tripletes (paso a del método propuesto) formados a partir del subconjunto de entrenamiento de la base de datos LFW, mientras que para entrenar el detector de género (paso d) se ha utilizado un subconjunto de 5000 imágenes (equidistribuidas entre hombres, mujeres, blancos, negros y asiáticos) no incluidas en la base de datos LFW.

La Figura 3B muestra en rendimiento del modelo pre-entrenado antes y después de añadir la etapa de eliminación de sesgo. Mientras que en la Figura 3A se muestra en rendimiento de detección de género para diferentes algoritmos. Los resultados muestran una reducción del rendimiento de verificación de un 2% (del 98% al 96% de Equal Error Rate) mientras que el rendimiento en la detección de género cae por encima del 37% (del 98% al 61% de Equal Error Rate). Se observa por tanto como el método propuesto es capaz de reducir considerablemente el sesgo de género, mientras mantiene un rendimiento de verificación competitivo.

Análogamente, las Figuras 4A y 4B muestran el mismo experimento para la eliminación del sesgo de etnia. En este caso, se mantiene la pequeña caída de un 2% en cuanto al rendimiento de verificación, pero se reduce la eliminación de sesgo a un 16%. Flay que tener en cuenta que las fronteras entre las características faciales de diferentes etnias no siempre son claras.

REFERENCIAS

[1] M. Alvi, A. Zisserman, C. Nellaker, "Turning a Blind Eye: Explicit Removal of Biases and Variation from Deep Neural Network Embeddings", in Proc. of European Conference on Computer Vision, September 2018.

[2] A. Das, A. Dantcheva and F. Bremond, "Mitigating Bias in Gender, Age, and Ethnicity Classification: a Multi-Task Convolution Neural Network Approach", in Proc. of European Conference on Computer Vision Workshops, September 2018.

[3] K. Q. Weinberger, J. Blitzer, and L. K. Saúl,“Distance metric learning for large margin nearest neighbor classification”, Journal of Machine Learning Research, vol. 10, pp. 207-244, 2009.