Processing

Please wait...

PATENTSCOPE will be unavailable a few hours for maintenance reason on Tuesday 26.10.2021 at 12:00 PM CEST
Settings

Settings

Goto Application

1. WO2020136303 - METHOD FOR IDENTIFYING BONE IMAGES

Note: Text based on automatic Optical Character Recognition processes. Please use the PDF version for legal matters

[ ES ]

PROCEDIMIENTO DE IDENTIFICACIÓN DE IMÁGENES ÓSEAS


SECTOR DE LA TÉCNICA

La presente invención se ubica en los campos de la identificación forense y de la inteligencia artificial, y más específicamente en los ámbitos del aprendizaje automático, la visión artificial, y los sistemas de ayuda a la toma de decisiones.

La presente invención se aplica en la identificación de seres humanos cuando se dispone de, al menos, una imagen de alguna de sus estructuras anatómicas rígidas (EAR). En particular, la invención se puede enmarcar dentro de las técnicas de identificación forense basadas en el esqueleto, y se ocupa de la identificación humana a partir de imágenes digitales de huesos y cavidades aéreas obtenidas por medio de radiografías, tomografía axial computarizada (TAC), resonancia magnética (MRI, por sus siglas en inglés, Magnetic Resonance Imaging), u otra modalidad de imagen radiológica o escaneo 3D.

ESTADO DE LA TÉCNICA

Identificación forense

La identificación humana es de suma importancia en nuestra sociedad. No sólo resulta de utilidad a la hora de resolver graves dilemas legales y sociales, sino también contribuye a proporcionar una solución a las familias, afligidas por alguna pérdida o desaparición, que necesitan poner fin a su angustia. Durante las dos últimas décadas, técnicas como el ADN o las huellas dactilares han sido empleadas en numerosos escenarios de identificación. Sin embargo, la aplicación de estos métodos falla cuando, en el escenario concreto de la identificación de muertos, no se dispone de la suficiente información ante-mortem (AM) o post-mortem (PM), debido a la falta de datos (una segunda muestra de ADN) o por el estado de conservación del cadáver. Mientras el esqueleto generalmente sobrevive a ambos procesos de descomposición natural y no natural (incendios, sal, agua, etc.), los tejidos blandos se degradan progresivamente y se pierden, como suele suceder con la identificación de víctimas en escenarios de desastres masivos (DVI, por sus siglas en inglés, Disaster Victim Identification).

Las técnicas de identificación forense basadas en el esqueleto (SFI, por sus siglas en inglés, Skeletal Forensic Identification) empleados por antropólogos forenses, odontólogos y patólogos son cruciales en la recolección de datos AM y perfiles biológicos, y aún más importante, representan la última oportunidad para la identificación de la víctima utilizando técnicas como la comparación de radiografías, que incluye la comparación dental, o la superposición craneofacial (CFS, por sus siglas en inglés, Craniofacial Superimpositiorí).

Según las directrices del Scientific Working Group for Forensic Anthropology (SWGANTH), se pueden distinguir dos niveles dentro de los métodos de SFI: 1) métodos de SFI para la identificación positiva, en donde se ubican la comparación de radiografías y la identificación de implantes quirúrgicos; 2) métodos secundarios que son empleados para tareas de filtrado en la identificación (es decir, descarte de posibles candidatos), en donde los más representativos son el perfil biológico y la CFS.

Comparación de Radiografías

A pesar de que la presente invención podría ser empleada con cualquier tipo de imagen médica, las radiografías y TACs representan, debido a sus características, las modalidades más adecuadas para tareas de identificación forense y, por lo tanto, más extendidas. La comparación de radiografías (CR) implica la comparación de dos radiografías para identificar si ambas corresponden al mismo sujeto. En escenarios de DVI, tradicionalmente conlleva la comparación de radiografías ante-mortem (AM), realizadas generalmente por razones clínicas, con radiografías post-mortem (PM) tomadas tratando de simular las radiografías AM en orientación y proyección. A continuación, expertos forenses realizan una comparación punto por punto, en busca de consistencias e inconsistencias en: morfología ósea, patrones trabeculares, anomalías esqueléticas, características dentales, y condiciones patológicas, entre otras. Sin embargo, a pesar de ser el método más empleado y útil en SFI, su aplicación todavía se basa en una comparación manual de los datos AM-PM a través de un proceso de inspección visual tedioso y propenso a errores. Dicho proceso depende por completo de la habilidad y experiencia del experto. Como consecuencia, su utilidad se reduce debido al tiempo requerido para su aplicación, así como a los errores relacionados con el cansancio del analista. Mientras tanto, un enorme número de ciudadanos sigue sin identificar ya que los medios humanos y tecnológicos resultan insuficientes para analizarlos y compararlos adecuadamente. Además, en los últimos años ha habido un cambio en los tribunales de justicia en aras de emplear enfoques progresivamente más objetivos y reproducibles: se ha pasado de los análisis de evidencias basados en la experiencia y juicio de un perito, a otros obtenidos a partir de una evaluación judicial más objetivable e independiente de la fiabilidad de un experto concreto o una metodología particular [Bowers CM (2001). Jurísprudence issues in forensic odontology. Dent Clin North Am 45:399-415]

A pesar de la más que probada validez de las técnicas de CR para fines de identificación (usando distintos huesos, como los senos frontales del cráneo [Christensen AM (2005). Testing the reliability of frontal sinuses in positive Identification . J Forensic Sci 50(1 ): 18—22], la clavícula [Stephan CN, Amidan B, Trease H, Guyomarch P, Pulsipher T, Byrd JE (2014). Morphometric Comparison of Clavicle Outlines from 3D Bone Scans and 2D Chest Radiographs: A Shortlisting Tool to Assist Radiographic Identification of Human Skeletons. J Forensic Sci 59(2):306-13], los dientes [Flint DJ, Dove SB, Brumit PC, White M, Senn DR (2009). Computer-aided Dental Identification: An Objective Method for Assessment of Radiographic Image Similarity. J Forensic Sci 54(1): 177-84], o características vertebrales [Kahana T, Goldin L, Hiss J (2002). Personal Identification Based on Radiographic Vertebral Features. The Am J Forensic Med and Pathol 23(1):36-41], entre otros), las aproximaciones automáticas y objetivas siguen todavía en sus inicios en este campo. Desde el punto de vista de la utilización de técnicas de visión artificial, también llamada visión por computador ( Computer visión en inglés), solamente hay unos pocos enfoques que las emplean para la comparación ósea de radiografías (por lo tanto, en 2D). En concreto, utilizan técnicas de morfometría geométrica (análisis de la elíptica de Fourier) para la comparación automática e imparcial de senos frontales [Christensen AM (2005). Testing the reliability of frontal sinuses in positive identification. J Forensic Sci 50(1): 18-22], bóveda craneal [Maxwell AB, Ross AH (2014). A Radiographic Study on the Utility of Cranial Vault Outlines for Positive Identifications. J Forensic Sci 59(2):314-318], clavículas [Stephan CN, Amidan B, Trease H, Guyomarch P, Pulsipher T, Byrd JE (2014). Morphometric Comparison of Clavicle Outlines from 3D Bone Scans and 2D Chest Radiographs: A Shortlisting Tool to Assist Radiographic Identification of Human Skeletons. J Forensic Sci 59(2) :306-13] y rótulas [Niespodziewanski E, Stephan CN, Guyomarc'h P, Fenton TW (2016). Human Identification vía Lateral Patella Radiographs: A Validation Study. Journal of Forensic Sciences 61 (1): 134-140], por poner cuatro ejemplos. Por un lado, las dos primeras referencias siguen el enfoque subjetivo y propenso a errores tradicional de CR que requiere la adquisición de radiografías PM en las mismas condiciones que las radiografías AM. Por otro lado, las dos últimas referencias se basan en la adquisición de modelos 3D de clavículas, pero la comparación final todavía implica un conjunto de imágenes 2D obtenidas a través de una serie de rotaciones predefinidas del modelo 3D (a diferencia de [Gómez O, Ibáñez O, Valsecchi A, Cordón O, Kahana T (2018). 3D-2D Silhouette-based Image Registration for Comparative Radiography-based Forensic Identification. Pattern Recognition. In Press] que realiza la estimación con 7 grados de libertad sin necesidad de limitarse a un conjunto predefinido de posibles soluciones). Es importante remarcar que todos los enfoques mencionados requieren una segmentación manual del hueso (seno frontal, rótula y clavícula) para obtener los descriptores de Fourier.

En la línea de usar modelos 3D PM de los huesos, en [Pfaeffli M, Vock P, Dirnhofer R, Braun M, Bolliger SA, Thali M (2007). Postmortem radiológica I CT Identification based on classical ante-mortem X-ray examinations. Forensic Sci Int 171 (2— 3): 11 1— 7], los autores obtienen la imagen de reconstrucción 3D de la superficie pélvica y de un cráneo a partir de un estudio TAC. Mediante el uso de rayos X virtuales, y la integración virtual de la información de la sección en la dirección del ángulo a imitar, la estación de trabajo (herramienta de software "RaySum") produce una imagen que resulta ser la proyección 2D del volumen 3D original. De este modo, replican el proceso manual seguido habitualmente en la CR, evitando la adquisición de radiografías hasta que se obtenga una proyección adecuada (el mismo de la radiografía AM).

La técnica más empleada y discriminatoria de entre todas las empleadas es la identificación dental. Dicho proceso de identificación puede comenzar con la búsqueda en una base de datos de una dentición AM compatible con una dentición PM dada (lo más frecuente en escenarios de DVI) [Plass Data DVI system, http://www.plassdata.com/news/whv-dvi-svstem-international.html1, pero siempre implica una etapa final de CR. A pesar de que en la última década se han realizado grandes esfuerzos investigadores en la automatización de la identificación dental basada en radiografías 2D, se trata todavía de un problema abierto. El procedimiento más común implica los siguientes pasos: segmentación de imágenes, extracción de características, registro de atlas y emparejamiento. El ejemplo más representativo de dicho procedimiento es el Sistema de Identificación Dental Automática (ADIS) [ADIS:

Automated Dental Identification System, http://www.csee.wvu.edu/adis/index.ht l1, cuyo objetivo es comparar automáticamente una radiografía dental PM dada con una base de datos de radiografías AM para encontrar una lista reducida de candidatos que posean características dentales idénticas o cercanas a las del sujeto. De alguna manera similar, Flint et al. [Flint DJ, Dove SB, Brumit PC, White M, Senn DR (2009). Computer-aided Dental Identification: An Objective Method for Assessment of Radiographic Image Similarity. J Forensic Sci 54(1): 177-84] abordaron la comparación de radiografías dentales como un problema de registrado de imágenes. Las imágenes se registraron utilizando cuatro puntos de referencia correspondientes en radiografías AM y PM. Tanto el enfoque ADIS como el enfoque Flint son ejemplos representativos de un conjunto más amplio de sistemas de identificación dental limitados por el empleo de imágenes 2D (en donde cada una de ellas representa una proyección particular de parte de un objeto 3D, la dentición). Entre las limitaciones de dichos métodos se podría mencionar su incapacidad para alinear correctamente las radiografías AM y PM si no contienen el mismo número de dientes, o el hecho de que la mayoría de estas técnicas 2D hayan sido desarrolladas y validadas únicamente con radiografías interproximales (o de aleta mordida).

Recientemente, se ha propuesto un enfoque ADIS más avanzado para la biometría dental: Zhong et al. [Zhong X, Yu D, Wonga YS, Sim T, Lu WF, Foong KWC, Cheng HL (2013). 3D dental biometrícs: Alignment and matching of dental casts for human Identification. Comput Ind 64:1355-70] desarrollaron algoritmos para la segmentación automática, la extracción de características, y registrado de modelos 3D de la dentadura. Sin embargo, la utilidad de este enfoque en el campo de la identificación dental es limitada debido a la necesidad de moldes dentales AM. Además, los enfoques computarizados de SFI existentes no modelan el razonamiento humano en presencia de conocimiento parcial e incierto. Este el caso de los sistemas automáticos de identificación dental, como puede ser el caso de los anteriormente mencionados Flint y Zhong, cuando la dentición AM difiere de la PM (nuevas restauraciones, dientes perdidos, dañados o rotos). Tampoco hay ningún trabajo previo que aborde de manera computarizada la comparación de estructuras óseas articuladas, como por ejemplo el conjunto de la columna vertebral.

Como resulta evidente, en los procesos de identificación humana se intenta aplicar todo el espectro de conocimientos forenses a la totalidad de los restos humanos disponibles. El enfoque existente más cercano a esta aproximación holística a la identificación es el sistema de Plass Data DVI [Plass Data DVI system, http://www.plassdata.com/news/whv-dvi-svstem-international.html1, que opera con bases de datos estructuradas de datos AM y PM con capacidad de búsqueda. Sin embargo, no existe una sola propuesta en la literatura científica ni un producto comercial que se acerque al procedimiento SFI del mundo real y que consista en analizar el esqueleto completo y buscar consistencias e inconsistencias con todos los datos AM disponibles. Sólo se centran en un método de identificación en particular y, en consecuencia, no se enfrentan al problema de combinar los resultados de diferentes métodos teniendo en cuenta su precisión, la calidad del material AM y el estado del hueso que se está examinando.

Por todo ello, y a pesar de los avances realizados en este campo, es necesario disponer de procedimientos automatizados y reproducibles de CR que permitan:

• evitar la subjetividad y la falta de reproducibilidad en las identificaciones;

• agregar de manera automática la información de diferentes superposiciones, tanto de un mismo tipo de hueso o cavidad como de varios, dándole un peso diferente a cada tipo en función de su fiabilidad en estudios forenses;

• permitir hacer grandes comparaciones en un escenario n contra n, de forma que se pueda comparar un caso PM contra una gran "biblioteca" de imágenes AM, y obtener los ejemplos más " parecidos ", reduciendo así el número de comparaciones que tenga que hacer el experto humano.

BREVE DESCRIPCIÓN DE LA INVENCIÓN

La presente invención proporciona un procedimiento que permite obtener información útil para determinar si dos o más imágenes óseas corresponden a un mismo sujeto, empleando técnicas de inteligencia artificial y visión artificial, permite reducir costes y tiempo de identificación en el campo de la SFI, proporcionando una mayor fiabilidad y objetividad que los métodos conocidos. La principal aplicación de la invención es servir de soporte para la toma de decisiones en la identificación forense.

Así, el primer objeto de la invención es un procedimiento de identificación a partir de la comparación automática de dos o más imágenes óseas. En particular, imágenes obtenidas en dos instantes temporales diferentes como pueden ser post-mortem (PM) y ante-mortem (AM), útil para la identificación forense.

Un caso particular de esta invención es su aplicación a la técnica de CR, anteriormente descrita, cuando la imagen AM es una radiografía.

En sus realizaciones preferentes, al menos una de las dos imágenes óseas, a priori la obtenida en el instante posterior en el tiempo, será una imagen ósea tridimensional. De forma aún más preferente, las dos imágenes óseas serán tridimensionales, dado que ello implica disponer de una mayor información.

Un segundo objeto de la invención se refiere a programas de ordenador que implementan el procedimiento del primer objeto de la invención.

Un tercer objeto de la invención se refiere al sistema que es capaz de llevar a cabo el procedimiento del primer objeto de la invención.

La presente invención supera muchas de las limitaciones en el estado de la técnica conocido:

• En primer lugar, permite automatizar e integrar toda una serie de operaciones (segmentación y registrado de imágenes) necesarias para la identificación por comparación de imágenes óseas y que, hasta el momento, se realizan de manera primordialmente manual e independiente.

• En segundo lugar, el método comprende una etapa de ayuda a la toma de decisiones que permite agregar toda la información existente (tal como la calidad de una o varias superposiciones, la calidad de las imágenes, y la visibilidad de los huesos en ellas) para facilitar la decisión final del experto forense.

• En tercer lugar, en el caso concreto de CR y de que se utilice una imagen AM 2D y una imagen PM 3D, se elimina la necesidad de realizar manualmente una radiografía PM que emule la pose y efecto de perspectiva de la radiografía AM, o de realizar la comparación únicamente con un conjunto reducido de proyecciones 2D obtenidos a través de la rotación, con unos ángulos predeterminados, del modelo 3D. En una realización particular, el presente método puede segmentar automáticamente la estructura ósea de la imagen 2D o volumen 3D y, a continuación, buscar de manera automática la transformación proyectiva que, aplicada al modelo 3D, genere la proyección más similar a la radiografía AM. Resulta crucial recordar que, con la invención propuesta, es posible llevar a cabo tanto el pre-procesado de las imágenes AM y PM (segmentación de imágenes) como la superposición de las mismas, de forma automática, por lo que no requiere ningún tipo de intervención del experto.

• Finalmente, el método también permite realizar comparaciones de diferentes

huesos o cavidades (estructuras anatómicas) en un único sistema, permitiendo la agregación de la información de cada uno de ellos para asistir de forma más adecuada al experto forense en la decisión final de identificación.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

A continuación, se presenta una descripción breve de cada una de las figuras usadas para completar la descripción de la invención a través de dos realizaciones preferentes, no limitativas, de la misma.

Figura 1.- Flujograma de una realización preferente del escenario de identificación forense con tres etapas. Se parte de dos imágenes, AM y PM, que pueden poseer la misma dimensionalidad (2D-2D o 3D-3D) o diferente (2D-3D o 3D-2D), cuya superposición implica la segmentación (etapa 1) y el cálculo del solapamiento (etapa 2) de ambas. Las dos etapas se realizan de modo automático sin ningún tipo de intermediación por parte del experto humano. Para cada par de imágenes se lleva a cabo un proceso de superposición, de modo que si se dispone de n pares de imágenes se llevarán a cabo n superposiciones, y cada una proporcionará un valor de calidad de la superposición que, a su vez, será empleado en la toma de decisiones (etapa 3). El resultado de dicha etapa final conllevará la generación de un informe que dará soporte a la identificación por medio del filtrado de casos negativos (es decir, exclusión de aquellas imágenes PM que no se correspondan a la imagen AM) o la identificación de casos positivos.

Figura 2.- Esquema de una técnica de aprendizaje automático aplicada al problema de segmentación. La etapa 1 incluye la segmentación completamente automática de las estructuras óseas. Para ello, la realización preferente de la invención propuesta incluye un clasificador, y más concretamente una red neuronal profunda, capaz de segmentar las clavículas de una radiografía con precisión igual o superior a la de un operador humano. En la parte izquierda de la figura se puede observar la entrada a la red, una radiografía del torso de un sujeto. En la parte intermedia de la figura se observan una serie de bloques que realizan operaciones no lineales y que constituyen la red neuronal profunda (con una estructura encoder-decoder). A la derecha se muestra la salida de la red con las clavículas segmentadas en amarillo.

Figura 3.- Visión general del algoritmo de solapamiento de imágenes óseas en el caso de identificación forense 2D-3D. En esta realización concreta, la entrada al método de solapamiento incluye, por un lado, la segmentación de la imagen 2D de un EAR AM y, por otro, la segmentación de una imagen 3D de un EAR PM. Se realiza un proceso iterativo que realiza la búsqueda de los parámetros de la transformación proyectiva que maximizan el solapamiento de la silueta de la proyección 2D del modelo 3D de la imagen de la EAR PM con la silueta 2D de la imagen de la EAR AM. Dicho proceso iterativo proporciona, en último término, la transformación óptima que maximiza el solapamiento entre la imagen 2D y la proyección 2D de la imagen 3D.

Figura 4.- Visión general del enfoque jerárquico de 4 niveles (criterio, superposición, EAR y varios EARs) para el sistema de ayuda a la toma de decisiones en el escenario 2D-3D. En esta realización concreta, la entrada son una o varias superposiciones de uno o varios EARs, y la salida es el grado de confianza de que los datos AM y PM pertenezcan o no al mismo sujeto.

Figura 5.- Flujograma de un ejemplo de utilización del proceso de la invención en un escenario de identificación forense 2D-3D con tres etapas. Se parte de radiografías AM (2D) y TACs PM (3D) pertenecientes a varios EARs y, mediante el procedimiento de la invención, se obtiene el grado de confianza de que los datos AM y PM pertenezcan al mismo sujeto.

Figura 6.- Grado de confianza en la identificación a través de funciones de pertenencia basadas en la agregación de toda la información disponible. Dicha confianza se manifiesta de manera gradual en base a la evidencia de si las imágenes óseas de un mismo EAR, corresponden o no a la misma persona.

EXPLICACIÓN DETALLADA DE LA INVENCIÓN

Definiciones

El término“imagen ósea” comprende imágenes de una EAR tanto bidimensionales (como pueda ser una radiografía) como tridimensionales (como puedan ser el TAC, el MRI, o el escaneo 3D de la superficie de la EAR, lo que excluye cavidades aéreas, obtenido mediante láser, fotogrametría, luz estructurada, etc.). De forma preferente, la estructura anatómica rígida será un hueso, si bien el término se considerará ampliado a otras estructuras rígidas como cavidades aéreas (senos frontales o maxilares).

A lo largo de la presente invención se entenderá por“radiología 3D” la especialidad que se ocupa de generar imágenes tridimensionales del interior del cuerpo humano por medio de diferentes agentes físicos (rayos X, ultrasonidos, o campos magnéticos, entre otros) y de utilizar dichas imágenes para el diagnóstico y el tratamiento de enfermedades. Más concretamente, la tomografía axial computarizada (“TAC") es una modalidad radiológica que permite realizar exploraciones tridimensionales de todos los órganos del cuerpo incorporando, a un tubo de rayos X giratorio, un potente ordenador que es capaz de reconstruir las imágenes. La diferencia con una “radiografía convencional’ (Rx) reside en que ésta última utiliza un único haz de rayos X, lo que provoca que el TAC pueda llegar a ofrecer imágenes más detalladas. De forma resumida, podríamos afirmar que un TAC implica la superposición de muchas radiografías realizadas desde diferentes ángulos.

Desde el punto de vista del tipo de operaciones que podemos realizar con las imágenes médicas, y que están directamente relacionadas con la invención propuesta, deberíamos definir la“ segmentación” y el“registrado". La“segmentación” consiste en la delimitación de los bordes de un objeto dentro de una imagen o, dicho de otro modo, la partición de una imagen en regiones disjuntas en base a algún criterio (como pueda ser el nivel de gris, la textura o el color). Por otra parte, el “registrado” (empleado para computar el solapamiento de dos imagen ósea), se refiere a la alineación/solapamiento de dos imágenes de forma que pasen a compartir un mismo sistema de coordenadas. Dicho proceso de registrado puede ser 2D-2D (si la imagen de referencia y la imagen móvil, a la que se le aplican las transformaciones de forma que el solapamiento del contenido común entre ambas se maximice, son bidimensionales), 3D-2D (si una de las dos imágenes a registrar es tridimensional), o 3D-3D (en caso de que ambas representen volúmenes tridimensionales). El resultado de un proceso de registrado entre dos imágenes se denomina “superposición”.

Tanto en la segmentación como en el registrado, y de manera genérica en muchos otros problemas en ciencias de la computación, se emplean funciones que permiten cuantificar las similitudes y diferencias entre dos imágenes de la misma dimensionalidad. En adelante estas funciones se denominarán “métricas de

similitud’. Un ejemplo concreto podría ser la métrica Dice ( Sorensen-Dice Similarity Coefficient, en inglés), que generalmente mide el nivel de solapamiento entre dos siluetas 2D en un proceso de segmentación. A continuación, se especifica la utilidad de las métricas dentro de los tres escenarios contemplados anteriormente (2D-2D, 2D-3D, 3D-3D) en el marco del registrado:

• Escenario 2D-2D: la comparación se puede realizar utilizando la métrica Dice u otras métricas como la de Hausdorff.

• Escenario 2D-3D: se utilizan las mismas métricas que en el escenario 2D-2D, ya que la comparación se realiza entre la imagen 2D y una proyección 2D de la imagen 3D.

• En el caso 3D-3D hay dos posibles casuísticas:

o Comparación de CTs/MRIs: se utilizan métricas tales como información mutua [Pluim, J. P., Maintz, J. A., & Viergever, M. A. (2003). Mutual-information-based registration of medical images: a survey. IEEE transactions on medical imaging, 22(8), 986-1004] o Comparación de la segmentación de una CT/MRI (AM) y un modelo de superficie 3D (PM): se utilizarán métricas tales como la distancia media de cada punto de uno de los modelos 3D al punto más cercano del otro modelo 3D con la transformación dada.

Por“identificación forense" se entiende cualquier técnica que permita establecer la identidad de un sujeto con fines legales. El término“ sujeto” se refiere en la presente invención a cualquier animal vertebrado y, en particular (y más comúnmente), a seres humanos. Desde el punto de vista de la identificación forense a partir de la comparación de radiografías, la casuística más habitual implica, como ya se ha venido indicando, una radiografía ante-mortem (AM) y otra post-mortem (PM). El término“ ante-mortem” se refiere, con carácter general, a la imagen ósea adquirida en algún momento previo al proceso de identificación. En una realización particular, se refiere a un momento antes de la muerte del sujeto. El término“ post-mortem” se refiere, con carácter general, a un momento posterior al momento“ante-mortem” y, preferentemente, al momento en el que comienza el proceso de identificación. En una realización particular, se referirá a un momento después de la muerte del sujeto.

Por“datos de apoyo a la decisión” se entenderán aquellos que pueden ser empleados por el sistema de ayuda a la toma de decisiones dado su valor discriminatorio: la calidad de una superposición, la calidad de los huesos (conservación) e imágenes (resolución, artefactos, etc.) examinados, la presencia de características especiales/poco frecuentes considerando la frecuencia de las mismas, las incertidumbres del proceso (por ejemplo, errores de segmentación), perfil biológico del sujeto, criterios anatómicos (morfología ósea, patrones trabeculares, condiciones patológicas y traumáticas, etc.), y la suma de múltiples evidencias del propio hueso (comparación de más de una imagen AM, evaluación de más de un criterio anatómico).

Se entiende por“criterio de superposición” cualquier principio metodológico que permita evaluar la calidad de una superposición de manera objetiva como, por ejemplo, la comparación morfológica entre las siluetas de dos EARs. Cada criterio es evaluado a través del uso de una o varias métricas de similitud.

El término “sistema de ayuda a la toma de decisiones” se refiere a un sistema computarizado que, de forma automática o semiautomática, asista al experto en la realización de una tarea compleja de alto nivel, como por ejemplo un diagnóstico médico o una identificación forense. En caso concreto de la antropología forense, las tareas en la que el sistema puede ayudar a un experto van desde la realización automática de informes de similitudes y diferencias entre un caso AM y un caso PM, al filtrado de casos de la lista de candidatos, o la obtención del candidato o candidatos más probables según el sistema.

Finalmente, el término“modelo jerárquico difuso” o“modelo de análisis jerárquico difuso” se refiere a un modelo compuesto por varios niveles de agregación de la información, cada uno con un grado diferente de abstracción, ordenados de más simple a más complejo, donde el valor de un nivel depende de la salida del anterior junto con nueva información propia de dicho nivel. Cada nivel puede operar en base a una lógica difusa que permite lidiar con la incertidumbre de cada proceso, y que puede ser traducida a etiquetas lingüísticas fácilmente comprensibles por un ser humano.

Procedimiento de comparación automática de imágenes óseas de la invención

Dentro del contexto mencionado, la presente invención describe un procedimiento, en adelante “procedimiento de la invención que permite comparar de forma automática dos imágenes óseas de la misma EAR para determinar si corresponden al mismo sujeto.

Concretamente, el procedimiento de la invención comprende una etapa de toma de decisiones caracterizada por calcular un valor numérico, dentro de una escala o intervalo previamente acotado, empleando técnicas de sofí computing a partir de una medida del solapamiento de las imágenes, y un conjunto de datos de apoyo a la decisión ajenos al propio solapamiento de las imágenes óseas.

Etapa de toma de decisiones

El procedimiento de la invención comprende una etapa de toma de decisiones que proporciona, mediante un modelo jerárquico difuso, un valor fuzzy (difuso), o valor numérico dentro de una escala prefijada (en particular, un valor entre 0 y 1), que refleje el grado de emparejamiento de las imágenes óseas y, este a su vez, y basándose en estudios estadísticos previos, la probabilidad de que las imágenes óseas correspondan al mismo sujeto.

El modelo jerárquico difuso empleado por el procedimiento de la invención comprende, dependiendo de los datos disponibles, al menos, tres niveles de abstracción:

• Nivel 4 (Criterio): Agrega la información obtenida por diferentes métricas para analizar un criterio concreto en una superposición (como las diferencias morfológicas entre información AM y PM), teniendo en cuenta la fiabilidad individual de cada métrica. La salida de este nivel es finalmente ponderada por la fiabilidad del criterio analizado.

• Nivel 3 (Superposición): Agrega los diferentes criterios evaluados de una superposición (realizada en el nivel 4). Este nivel incluye toda la información relativa a una superposición concreta (es decir, un proceso de registrado entre dos imágenes óseas determinadas), así como la calidad de las imágenes examinadas (resolución, artefactos, etc.).

• Nivel 2 (EAR): Agrega la información relativa a todas las superposiciones de un EAR concreto (realizada en el nivel 3), así como la calidad de las

estructuras óseas involucradas en la superposición (estado de conservación), estudios estadísticos del poder discriminatorio de la EAR, la presencia de características especiales/poco frecuentes, y la suma de múltiples evidencias del propio EAR.

En cada nivel se utilizan diferentes funciones de agregación. La agregación de la información de todos los niveles se realiza utilizando técnicas de sofí computing (también llamada computational intelligence) y, dentro de éstas, funciones de agregación [Beliakov G, Pradera A, Calvo T (2007). Aggregation functions: A guide for practitioners, volume 221 , Springer] En cada nivel se utilizan diferentes funciones de agregación.

En una realización preferente, así como de manera estándar, las funciones de agregación empleadas serían las siguientes (o combinaciones de las mismas):

• Niveles 2 y 3: media aritmética ponderada y media geométrica ponderada.

• Nivel 4: mínimo, producto y media aritmética.

En una realización aún más preferente, se emplean las siguientes funciones de agregación:

y n-jnétrícas resultadom fiabilidadm

resultado nivel 4 = min(l, _ (0.9 +

n- métricas

e [0, 1] {Ec. 1) n- métricas

)) · fiabilidad criterio

10

donde nü métricas es el número de métricas utilizadas para evaluar un criterio; resultadom es el resultado de evaluar un criterio mediante la métrica m fiabilidadm es la fiabilidad asociada dicha métrica; y f labilidad criteri0 es la fiabilidad del criterio evaluado.

y n-y cerniterio

-nn = l resultado _nivel_ 4m

resultado nivel 3 = min(l, (0.9 +

nü criterios

e [0, 1] ( Ec . 2) n- criterios

)) · calidadlmg1 calidadlmg2

10

donde nü criterios es el número de criterios utilizados para evaluar una superposición; resultadojiivel 4mes el resultado de haber evaluado el criterio m en el nivel 4; y calidadlmg representa la calidad de las imágenes involucradas en el proceso de superposición.

donde nü Imágenes de la EAR es el número de comparaciones realizadas entre imágenes de un EAR; resultadojiivel 3mes el resultado de haber evaluado la superposición/comparación m en el nivel 3; calidadEAR representa el estado de conservación de la EAR; y fiabMdadEAR representa el poder discriminatorio de un EAR.

En ausencia de más información, la fiabilidad de cada criterio será, preferentemente, 1.

No obstante, es importante remarcar que las funciones estándar anteriormente mencionadas deben tomarse con cautela, dado que la elección de las mismas no es un problema trivial y no debe ser establecida sin la realización de un estudio previo acerca de su comportamiento en el caso de estudio particular (por ejemplo, algunas funciones de agregación pueden ser descartadas debido a que no sean compatibles con la semántica del problema concreto). La elección de las funciones de agregación está guiada en buena medida por los datos, lo que hace que sea una condición necesaria para el estudio contar con un número suficientemente grande de casos que reflejen suficientemente bien la casuística del escenario real bajo estudio. Todo este proceso busca la optimización del maximizar el porcentaje de positivos reales ( true positives) y negativos reales ( true negatives ), y minimizar el porcentaje de falsos positivos ( false positives) y falsos negativos ( false negatives).

En una realización particular, en la que se dispone de imágenes óseas de distintos EAR del mismo sujeto en cada uno de los instantes temporales, el procedimiento de la invención combina la información de cada EAR para obtener una comparación combinada. Para aquellos casos en los que se disponga de imágenes de más de una EAR de un mismo sujeto, el modelo jerárquico difuso del procedimiento de la invención comprende un cuarto nivel de abstracción:

• Nivel 1 (Sujeto): Agrega la información de todos los EARs disponibles de un mismo sujeto.

La función de agregación, en una realización particular, para el nivel 1 es la media aritmética o la media geométrica. En una realización preferente de la media aritmética, la función de agregación empleada es la determinada por la Ec. 4:

donde nü EARs es el número de EARs disponibles en la comparación de las imágenes óseas de dos sujetos; y resultadoe es el resultado de haber evaluado todas las imágenes óseas de un mismo EAR en el nivel 2.

Las ecuaciones 1 , 2, 3 y 4 contienen un término ponderador ((0.9 + en

Ec. 1) para dar más peso a aquellos casos en donde múltiples métricas, criterios, imágenes de un EAR, y EARs, respectivamente, sean empleados: el objetivo es dotar de mayor fiabilidad a aquellos casos en que se utilice más información en la toma de decisiones.

En una realización particular, la toma de decisiones tiene en cuenta una serie de datos de apoyo a la decisión, entre los que se distinguen dos tipos: datos estadísticos del sistema, datos proporcionados al sistema de la invención por el experto forense, datos calculados automáticamente por el sistema.

Los datos proporcionados al sistema por el experto en una realización preferente son los siguientes:

• Calidad de la imagen ósea. Este valor es proporcionado por el experto al sistema. Puede tomar siete valores comprendidos entre [0, 1] dependiendo del estado de conservación [J. E. Buikstra, D. H. Ubelaker, Standards for data collection from human skeletal remains]: la etapa 0 tendrá un valor de 1.0, la etapa 1 de 0.8, la etapa 2 de 0.6, la etapa 3 de 0.4, la etapa de 0.2, la etapa 5 de 0.1 , y la etapa 6 de 0.0.

• Presencia o ausencia de características especiales/poco frecuentes considerando la frecuencia de las mismas. Este dato está compuesto por una lista de valores, una para cada característica especial que se pueda tener un EAR dado, de valores booleanos. Estas características permiten capturar múltiples evidencias de la EAR y así variar la fiabilidad final de la EAR concreta en función de sus particularidades.

En caso de ausencia de información se les asignará un valor de 1 a la calidad ósea y se considerará que el EAR no presenta ninguna característica infrecuente.

Mientras tanto, los datos calculados automáticamente por el sistema en una realización preferente son los siguientes:

• Calidad de las imágenes, para lo cual se puede emplear alguno de los

métodos y métricas presentados con anterioridad, como los citados en [Deng, Y., Loy, C. C., & Tang, X. (2017). Image aesthetic assessment: An experimental survey. IEEE Signal Processing Magazine, 34(4), 80-106] En una realización preferente se utilizará la medida/métrica de calidad de imágenes descrita en [Mittal, A., Moorthy, A. K., & Bovik, A. C. (2012). No- reference image quality assessment in the spatial domain. IEEE Transactions on Image Processing, 21 (12), 4695-4708] que proporciona un valor entre [0, 1], y en donde no es necesaria una referencia que opere como ground truth y cuya calidad se considere‘perfecta’.

• Criterios anatómicos. Los criterios anatómicos considerados en una realización preferente son los siguientes (estos son algunos ejemplos de criterios preferentes de evaluación de superposición en el nivel 4):

o Criterio 1 : comparación morfológica AM-PM mediante

■ Rl 3D-2D o 2D-2D - métrica Dice. Mide el error del solapamiento entre los píxeles de un EAR en dos imágenes (en el caso 3D, se compararía con una proyección de la misma) obteniendo un valor en el rango [0, 1], donde 0 indica que no hay solapamiento y 1 indica que hay un solapamiento perfecto. Por defecto, en esta realización preferente, esta métrica es invertida mediante la siguiente fórmula: 1-D/ce.

■ Rl 3D-2D o 2D-2D - métrica Hausdorff. Proporciona la máxima de las distancias mínimas entre dos contornos del mismo EAR en dos imágenes (en el caso 3D se compararía con una proyección de la misma). La métrica Hausdorff proporciona un valor entre [0, diagonal de la imagen]. Por defecto, en esta realización preferente, esta métrica es normalizada por la diagonal de la imagen obteniendo un valor en el rango [0, 1] En la práctica, del mismo modo que la métrica Dice mide la cantidad de solapamiento entre dos objetos, la métrica Hausdorff proporciona una referencia a cerca de la proximidad de los contornos resultantes.

■ Rl 3D-3D (superficie) - métrica Hausdorff. Proporciona la máxima de las distancias mínimas entre dos mallas del mismo EAR en dos imágenes. La métrica Hausdorff proporciona un

valor entre [0, la diagonal más grande de los bounding box (región de interés) de las dos imágenes]. Por defecto, en esta realización preferente, esta métrica es normalizada por la diagonal del bounding box.

o Criterio 2: comparación de la densidad del hueso (patrones trabeculares, densidad de todo el hueso, etc.) mediante:

■ Rl 2D (Rx) - 2D (Rx) - métrica de información mutua normalizada. La información mutua representa tanto la cantidad de información que la imagen A (en este caso una Rx) contiene de la imagen B (en este caso, otra Rx), como la cantidad de información que B contiene de A. Para registrar imágenes se intenta maximizar dicha información. La información mutua normalizada trata de portar los posibles valores a un rango acotado, en concreto [0,1] A mayor valor del índice, mayor correlación de las imágenes y, por tanto, mejor resultado del proceso de registrado.

■ Rl 3D (volumen) - 2D (Rx) - métrica de información mutua normalizada. Su funcionamiento es idéntico al anteriormente mencionado, pero en este caso se emplearía sobre la Rx 2D y la proyección 2D del volumen 3D.

■ Rl 3D-3D (volumen) - métrica de información mutua normalizada. Su funcionamiento es idéntico al anteriormente descrito pero en un espacio tridimensional [Pluim, J. P., Maintz, J. A., & Viergever, M. A. (2003). Mutual-information-based registration of medical images: a survey. IEEE transactions on medical imaging, 22(8), 986-1004]

• Poder discriminatorio de la EAR del sujeto. Para obtenerlo se hace uso del poder discriminatorio de cada EAR y es modificado en función de las presencia o ausencia de características especiales/poco frecuentes definida previamente en el sistema y normalmente proporcionadas por el experto forense (cada una podrá aumentar en diferente medida el poder discriminatorio final de la EAR del sujeto) obteniéndose siempre un valor en el rango [0, 1] El poder discriminatorio de cada EAR es un valor fijo en el rango [0, 1] que representa el poder discriminatorio de la EAR en estudios estadísticos forenses.

Para obtener el valor final en la etapa de decisiones, a los datos de apoyo a la decisión que se agregan en cada nivel se les asocia un peso, o valor ponderador, almacenado previamente en el sistema y que puede ser obtenido en base a conocimiento humano experto, estudios estadísticos sobre la fiabilidad de cada dato, así como estudios experimentales que permitan asociar pesos con datos de apoyo a la decisión, de forma que la precisión y la robustez se maximicen. Dichos pesos, en una realización preferente, serán establecidos y actualizados a partir de un proceso de aprendizaje automático basado en los propios datos (estudios existentes, información experta disponible).

En una realización preferente, el sistema de toma de decisiones agregaría todas las fuentes de información disponibles para obtener un valor de la confianza de la identificación. Dicha información se va agregando siguiendo un enfoque jerárquico mediante la utilización de los niveles 4, 3 y 2.

En una realización particular, en la que se dispone de JA imágenes AM y JP imágenes PM de K EARs ( 07), del mismo sujeto, el procedimiento de la invención combina la información de cada uno para proporcionar una decisión más robusta y fiable. En este caso, se añade al modelo un último el nivel (nivel 1) que agrega la información de todos los EAR disponibles de un mismo sujeto. El enfoque jerárquico utilizado de esta realización es el siguiente:

• Nivel 1 : Varios EARs de un mismo sujeto.

o 1.1 : Calidad del emparejamiento PM-AM del huesok (salida del nivel 2), k = 1, ... , número huesos.

o 1.2: Información relativa al perfil biológico del sujeto a identificar

• Nivel 2: Imagen(es) correspondiente(s) a cada EAR.

o 2.1 : Calidad del emparejamiento de la imagen PM con imagen AMy (salida del nivel 3), con j = 1, ... , número radiografías del hueso. o 2.2: Calidad conservación EARs ( weathering stages).

o 2.3: Poder discriminatorio de cada estructura anatómica concreta. Que es obtenida a partir de:

■ 2.3.1. Poder discriminatorio de la estructura anatómica en

estudios estadísticos.

■ 2.3.2. Presencia/ausencia de características infrecuentes según sexo, edad, ascendencia (asimetrías, patologías, anomalías, etc).

• Nivel 3: Por cada imagen analizamos diferentes criterios.

o 3.1 : Calidad del solapamiento AM-PM según el criterio, (salida del nivel 4).

o 3.2: Calidad imagen (resolución, artefactos, etc.) AM.

o 3.3: Calidad imagen (resolución, artefactos, etc.) PM.

• Nivel 4: Cada criterio se puede analizar de diferentes formas.

o 4.1 : Resultado de cada métrica

o 4.2: Fiabilidad de cada métrica

o 4.3: Fiabilidad de cada criterio.

o 4.4: Incertidumbre en la aplicación del criterio (incertidumbre/ nivel de oclusión de la segmentación en criterio 1 , diferencia temporal adquisición AM-PM en criterio 2).

o Criterio 1 : comparación morfológica AM-PM mediante:

■ Rl 3D-2D - métrica Dice.

■ Rl 3D-2D - métrica Hausdorff.

En una realización particular, con un mismo modelo 3D de hueso PM, el algoritmo se ejecuta sobre una base de datos de radiografías AM, de forma que la salida del procedimiento consiste en una lista ordenada de candidatos.

Esta salida es útil para facilitar la identificación final, de forma que el propio operador del procedimiento pueda aportar información subjetiva que corrija posibles errores en la identificación automática.

Etapas previas a la toma de decisiones

El procedimiento de la invención puede complementarse con varias etapas de preprocesamiento de los datos que proporcionan información que se agregará en el modelo jerárquico difuso de la etapa de toma decisiones.

La primera etapa previa se corresponde con la segmentación y mejora de las imágenes óseas, mientras que la segunda hace referencia al solapamiento

automático de imágenes óseas bajo estudio.

Así, en una realización preferente, el procedimiento de la invención comprende al menos una de estas etapas, y en una aún más preferente el procedimiento de la invención comprende ambas etapas. Éstas se describen a continuación:

Etapa de Segmentación y mejora de las imágenes óseas

El objetivo de esta etapa es realizar la segmentación de las imágenes óseas que se desean comparar, ahorrando tiempo y dinero a los operadores humanos, así como disminuyendo los errores propios de la fatiga (por tratarse de una operación lenta, tediosa y repetitiva). El procedimiento de la invención puede tomar como dato de partida imágenes segmentadas previamente manualmente, pero esta invención propuesta ya incluye un método de segmentación automática de imágenes óseas. En el caso que nos ocupa, la segmentación de las imágenes óseas supone segmentar la silueta de la EAR en el caso de una imagen bidimensional, o bien segmentar el volumen de la EAR en el caso imágenes tridimensionales como TACs, o filtrar el escaneo 3D para que la única malla sea la relativa al EAR que se desea comparar. Este proceso de segmentación también incluye la segmentación de la región de oclusión o incertidumbre, es decir, la segmentación de aquella zona donde el experto tiene dudas sobre la presencia o ausencia de la EAR.

La segmentación puede hacerse de manera manual (a través de la tediosa, lenta y propensa a errores intervención humana), semi-automática (mediante la intervención o supervisión humana directa en alguna de las fases del algoritmo de segmentación), o incluso automática (cuando la intervención del operador humano para obtener el resultado de la segmentación es inexistente, véase como ejemplo [Ronneberger O, Fischer P, Brox T (2015). U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted inten/ention, 234-241]).

En una realización preferente, la segmentación se realiza mediante el empleo de una red neuronal profunda que comprende los siguientes pasos:

1. Recolección de un conjunto de imágenes óseas y la segmentación correcta (lo que se conoce como ground truth, GT) de la EAR a segmentar. Dicho conjunto se conoce como conjunto de entrenamiento y, es a partir de él, que la red aprenderá por sí misma a segmentar imágenes óseas.

2. Entrenamiento de la red para una o varias estructuras óseas particulares utilizando el método de retropropagación del error ( backpropagation ) [LeCun Y, Bottou L, Bengio Y, Haffner P (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(1 1), pp.2278-2324]

3. En este punto se tendría una red neuronal entrenada para segmentar automáticamente cierto(s) EAR(s) en una imagen ósea (por ejemplo, la clavícula, la rótula, o los senos frontales). Por lo tanto, el método de segmentación podría ser validado con casos diferentes de los vistos en el entrenamiento y ser utilizado en casos reales.

A diferencia de los enfoques clásicos de segmentación, esta realización particular de la etapa de segmentación, basada en redes de neuronas artificiales profundas, permite identificar automáticamente, a partir de los propios datos (y sin ningún tipo de supervisión humana, a parte del conjunto de datos de entrenamiento correctamente anotado) patrones complejos.

Etapa de Solapamiento automático de imágenes óseas

El objetivo de esta etapa es buscar el mejor solapamiento posible entre las dos imágenes óseas que se desea comparar. Para ello se resuelve un problema de registrado de imágenes y el resultado será una transformación que convierte una de las dos imágenes de forma que sea lo más similar posible a la otra. En concreto, en el caso 2D-3D en CR, se trataría de una proyección del modelo 3D PM lo más similar posible a la imagen AM. A continuación, se pueden comparar la imagen estática (o de referencia; que en el caso 2D-3D es siempre la 2D) y la transformada para obtener diferentes medidas de "calidad" a través de las métricas de similitud. En esta etapa se pueden emplear una o varias formulaciones matemáticas existentes o propias para modelar la transformación entre las dos imágenes óseas y, en particular, la proyección de la geometría de una imagen 3D sobre una imagen 2D. El algoritmo de registrado emplea una función objetivo que mide las distancias entre dos imágenes óseas en función de una métrica de similitud. Esta función se optimiza, de forma preferente, mediante algoritmos estocásticos de optimización basados en metaheurísticas (por ejemplo, differential evolution [Storn R, Price K (1997) Differential evolution-a simple and efficient heuristic for global optimization over continuous spaces, Journal of Global Optimization 11 (4), 341-359]) por ser un problema computacionalmente complejo y multimodal no solucionado satisfactoriamente, hasta el momento, por métodos determinísticos y basados exclusivamente en el cálculo del gradiente.

En una realización preferente, el grado de solapamiento se calcula empleando el método descrito en Gómez O, Ibáñez O, Valsecchi A, Cordón O, Kahana T (2018). 3D-2D Silhouette-based Image Registration for Comparative Radiography-based Forensic Identification. Pattern Recognition. Volume 83, November2018, Pages 469-480], que también es objeto de la presente invención y emplea un optimizador estocástico para buscar la mejor proyección 2D del modelo de superficie, de forma que se minimicen las diferencias con la segmentación 2D de la EAR.

Aplicaciones del procedimiento de la invención

En una realización particular, el procedimiento de la invención se utiliza para comparar imágenes óseas tomadas ante-mortem con imágenes óseas tomadas post-mortem, y proporcionar información útil de cara a la toma de decisiones en identificación forense.

Implementación del procedimiento de la invención

También son objeto de la invención programas de ordenador que comprenden instrucciones para hacer que un ordenador lleve a cabo el procedimiento de la invención.

La invención abarca programas de ordenador que pueden estar en forma de código fuente, de código objeto o en un código intermedio entre código fuente y código objeto, tal como en forma parcialmente compilada, o en cualquier otra forma adecuada para usar en la implementación de los procesos de acuerdo con la invención. En particular, los programas de ordenador también abarcan aplicaciones en la nube que implementen el procedimiento de la invención.

Estos programas pueden estar dispuestos sobre o dentro de un soporte apto para su lectura, en adelante,“medio portador” o“portador”. El medio portador puede ser cualquier entidad o dispositivo capaz de portar el programa. Cuando el programa va incorporado en una señal que puede ser transportada directamente por un cable u otro dispositivo o medio, el medio portador puede estar constituido por dicho cable u otro dispositivo o medio. Como variante, el medio portador podría ser un circuito integrado en el que va incluido el programa, estando el circuito integrado adaptado para ejecutar, o para ser utilizado en la ejecución de, los procesos correspondientes. A modo de ejemplo, los programas podrían estar incorporados en un medio de almacenamiento, como una memoria ROM, una memoria CD ROM o una memoria

ROM de semiconductor, una memoria USB, o un soporte de grabación magnética, por ejemplo, un disco flexible o un disco duro. Alternativamente, los programas podrían estar soportados en una señal portadora transmisible. Por ejemplo, podría tratarse de una señal eléctrica u óptica que podría transportarse a través de cable eléctrico u óptico, por radio o por cualesquiera otros medios.

En este sentido, otro objeto de la invención es un medio de almacenamiento legible por un ordenador que comprende instrucciones de programa capaces de hacer que un ordenador lleve a cabo el procedimiento de la invención.

Finalmente otro objeto de la invención se refiere a una señal transmisible que comprende instrucciones de programa capaces de hacer que un ordenador lleve a cabo el procedimiento de la invención.

Sistema de la invención

En otro aspecto, la invención tiene por objeto un sistema, en adelante“sistema de la invención que comprende medios para llevar a cabo el procedimiento de la invención.

Más concretamente, el sistema de la invención comprende:

Medios para capturar o adquirir imágenes.

Medios de procesado de información adecuados para ejecutar instrucciones que permitan llevar a cabo el procedimiento de la invención. Los medios para capturar o adquirir imágenes se refieren a todos los sistemas que permiten obtener imágenes óseas tales como máquinas de rayos X, TACs, MRIs, escáneres de luz estructurada, sistemas de fotogrametría, etc.

Como ejemplo de medio de procesado de información puede emplearse cualquier equipo con un procesador con capacidad suficiente para ejecutar las instrucciones de programa que implementa el procedimiento de la invención. En una realización preferente, el medio de procesado será un servidor con una alta capacidad de cómputo al que el usuario accede como servicio web y que le permitirá realizar el procedimiento de la invención sin necesidad por su parte de hardware o software específico facilitando así la accesibilidad de la invención.

MODOS DE REALIZACIÓN DE LA INVENCIÓN

A continuación se presenta una realización concreta de la invención propuesta, particularizada al escenario de identificación forense mediante comparación de imágenes óseas 3D y 2D de EARs. En concreto, se utilizarán radiografías de la EAR como imagen ósea AM, y TACs, o modelos de superficie 3D, como imagen ósea PM. El procedimiento de esta realización consiste en la comparación de un caso PM, compuesto por una única imagen 3D de cada uno de los EAR, presentes en los restos PM del sujeto y que se encuentran en un buen estado de conservación, contra una lista de diferentes candidatos (es decir, casos AM) cada uno con una o varias imágenes óseas de uno o varios EARs (nótese que las listas de EARs AM y PM no tienen que ser iguales), con el objetivo de obtener un listado ordenado de los casos AM en función de la probabilidad de que pertenezcan al sujeto del caso PM. En un caso ideal, el caso positivo (cuando se compara un caso AM y PM pertenecientes al mismo sujeto) estará ubicado en la primera posición de la lista.

El procedimiento para obtener la probabilidad de que un caso AM y PM pertenezcan a un mismo sujeto se realiza comparando todos sus EARs comunes. Primero, se realiza la superposición de cada uno de los EAR PM contra todas las imágenes AM del mismo EAR mediante el uso de las dos etapas previas de preprocesamiento anteriormente descritas. A continuación, se comparan todas las superposiciones mediante la etapa de toma de decisiones (Fig. 1). Es importante remarcar que la etapa 3 comprende 4 niveles.

La realización preferente de las tres etapas son las siguientes:

Etapa 1. Segmentación y mejora de imágenes óseas

En esta etapa se distinguen varios procedimientos automáticos en función de la modalidad de la imagen a segmentar.

• La segmentación de radiografías AM se realizará mediante el procedimiento 1.1 (descrito más adelante).

• La segmentación de modelos de superficie PM se realizará mediante el procedimiento 1.2 (descrito más adelante).

• La segmentación de TACs PM se realizará mediante el procedimiento 1.3 (descrito más adelante).

Procedimiento 1.1. Segmentación de radiografías

En radiografías es necesario segmentar dos regiones o estructuras: la silueta de la EAR y la región de oclusión (el área dudosa, en dónde no se puede determinar con total certeza si el EAR está presente o no). Este procedimiento se realiza de forma automática mediante la utilización de una red de neuronas profunda. Dicha red, tal y como se muestra en la Fig. 2, recibe como entrada una radiografía y como salida proporciona la probabilidad de cada píxel de la imagen de pertenecer o no al EAR. Dichas probabilidades se umbralizan y discretizan de forma que la imagen ósea se segmenta en tres categorías: fondo, zona de oclusión y silueta de la EAR.

La red utilizada está inspirada en InvertedNet [Novikov, A. A., Lenis, D., Major, D., Hladúvka, J., Wimmer, M., & Bühler, K. (2018). Fully convolutional architectures for multi-class segmentation in chest radiographs. IEEE Transactions on Medical Imaging], que está basada a su vez en U-Net [Ronneberger O, Fischer P, Brox T (2015). U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention, 234-241] A partir de ahora la red de neuronas profunda utilizada para segmentación será referenciada como EARSegNet. En relación a InvertedNet, EARSegNet introduce los siguientes cambios que conllevan una mejora significativa de los resultados:

• La introducción de un tipo especial de convolución, denominada atrous convolution, en el centro de la red [Chen, L. C., Papandreou, G., Schroff, F., & Adam, H. (2017). Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv: 1706.05587] En concreto, el centro de EARSegNet está formado por cinco capas con atrous convolution con los siguientes dilatation rates : 1 (equivalente a una capa convolucional normal), 2, 4, 8 y 16.

• La utilización de batch normalization [loffe S and Szegedy C. (2015) Batch normalization: Accelerating deep network training by reducing internal covariate shift, International Conference on Machine Learning, 448-456] en todas las capas convolucionales.

• La utilización de una capa final de Conditional Random Fields (CRF) [Zheng S, Jayasumana S, Romera-Paredes B, Vineet V, Su Z, Du D, Huang C, Torr PHS (2015). Conditional random fields as recurrent neural networks. IEEE International Conference on Computer Vision, 1529-1537]

• Se ha simplificado la red para poder trabajar con imágenes de una mayor dimensionalidad, dado que los métodos del estado del arte se restringen a utilizar imágenes de tamaño menor o igual a 256x256 píxeles o, de emplear mayores tamaños, emplean soluciones multi-GPU que requieren costosas y complejas modificaciones hardware. En nuestro caso, la simplificación de la red se ha llevado a cabo mediante:

o La reducción del número de filtros por capa convolucional a la mitad o La eliminación de las primeras dos capas convolucionales al principio de la arquitectura debido a la significativa cantidad de memoria que requieren sus mapas de activación.

Relacionado con este último punto, el procedimiento para segmentar radiografías de dimensión superior a 256x256 es el siguiente:

1) Entrenar la red EARSegNet (sin la capa final de CRF) con imágenes de 256x256 (en caso de poseer originalmente un tamaño diferente, serían redimensionadas a 256x256).

2) Extender EARSegNet a la dimensión objetivo (pongamos por ejemplo 1024x1024) añadiendo, antes del principio de la red, las capas de max pooling necesarias para alcanzar la dimensionalidad de 256x256 y, al final de la red, las capas de up sampling y convolucionales conectadas con las salidas de los max pooling del principio hasta alcanzar la dimensionalidad original.

3) Entrenar la nueva red inicializando su“núcleo” (representado por la red con los pesos obtenidos en el paso 1).

4) Añadir la capa final de CRF y reentrenar la red a partir de los pesos obtenidos en el paso 3.

La segmentación de cada tipo de EAR se hará, bien con una red entrenada específicamente para su segmentación (es decir, se tendrían tantas redes como tipos de EARs), bien con una red multitarea que segmente varias EARs de manera simultánea. El entrenamiento de la red de cada EAR no se hará desde cero sino que se partirá de los pesos de otra red de un EAR similar y, si fuera posible, utilizando como función de pérdida la métrica Dice.

La utilización de la red, una vez entrenada, es inmediata, lo que permite obtener una segmentación en menos de un segundo. La segmentación obtenida es ligeramente refinada mediante la eliminación de artefactos y el uso de modelos deformables [Mesejo P, Ibáñez O, Cordón O, Cagnoni S (2016). A sun/ey on image segmentation using metaheuristic-based deformable models: State of the art and critical analysis. Applied Soft Computing, 44, 1-29]

Procedimiento 1.2. Mejora de escaneos de superficie

Este proceso consiste en la limpieza de artefactos presentes en el modelo de superficie, así como la simplificación del modelo 3D PM si fuera necesario.

En esta realización preferente, la simplificación se hace uso del algoritmo Quadric Edge Collapse Decimation de Meshlab [Cignoni, P., Callieri, M., Corsini, M., Dellepiane, M., Ganovelli, F., Ranzuglia, G. (2008) Meshlab: an open-source mesh Processing tool. In: Sixth Eurographics Italian Chapter Conference, pp. 129-136] Procedimiento 1.3. Segmentación de TACs

La segmentación automática de TACs se hace utilizando la arquitectura EARSegNet para segmentar todo el volumen de un EAR de manera integral (de forma similar a la forma en que V-Net [Milletari, F., Navab, N., & Ahmadi, S. A. (2016). V-net: Fully convolutional neural networks for volumetric medical image segmentation. 2016 Fourth International Conference on 3D Vision (3DV), pp. 565-571] utiliza U-Net para la segmentación de MRI). Al igual que en el procedimiento 1.1. se entrenará una red específica para la segmentación de cada tipo de EAR.

Etapa 2. Solapamiento automático de imágenes óseas

La realización preferente de la etapa de registrado de imágenes 3D-2D es muy próxima a [Gómez O, Ibáñez O, Valsecchi A, Cordón O, Kahana T (2018). 3D-2D Silhouette-based Image Registration for Comparative Radiography-based Forensic Identification. Pattern Recognition. Volume 83, November 2018, Pages 469-480] en el sentido de que se hace uso de un optimizador estocástico para buscar la mejor proyección 2D del modelo de superficie, de forma que se minimicen las diferencias con la segmentación 2D de la EAR. Sin embargo, esta realización preferente presenta varias diferencias significativas que mejoran el método con respecto a la referencia citada:

• La transformación modelada es una proyección de perspectiva que también considera movimientos en el punto principal. En total tiene 9 parámetros: 3 transladaciones, 3 rotaciones, 1 SID ( source image distance ), 2 movimientos del punto principal. El movimiento del punto principal permite modelar protocolos radiográficos dónde el rayo que une el emisor y el centro del receptor no es perpendicular (p. ej. radiografías en pose Waters).

• Utilización de una nueva metaheurística ganadora de varias competiciones de optimización costosa llamada MVMO-PHM [Rueda JL, Erlich I (2016). Solving the CEC2016 Reai-Parameter Single Objective Optimization Probiems through MVMO-PHM (Technical Report)]. Por optimización costosa nos referimos a aquellos problemas en donde la evaluación de una posible solución al problema de optimización requiera de muchos recursos, en términos de tiempo y/o memoria.

• Utilización de una métrica de similitud basada en la combinación y ponderación de las métricas Dice y Hausdorff sin tener en cuenta la información dentro de las áreas de oclusión. Esto permite no solo optimizar el solapamiento de las siluetas sino también la precisión de sus contornos.

Etapa 3. Toma de decisiones

Para el sistema de ayuda a la toma de decisiones, se toma el mismo marco explicativo que el presentado en la explicación detallada de la invención, y se concreta para el escenario forense 2D-3D. La etapa 3 comprende los 4 niveles de abstracción presentados en la descripción de la invención. Más concretamente, se considerará el modelo jerárquico de la última realización preferente presentada en dicha descripción.

Ejemplo de utilización de la invención

A continuación, se mostrará un ejemplo de aplicación de esta realización preferente de la invención a un caso de identificación concreto para verificar si los datos AM y PM pertenecen al mismo sujeto. En este ejemplo tenemos tres EARs: Un cráneo y dos clavículas (izquierda y derecha), estando presentes estas dos últimas EARs en la misma imagen ósea, tanto AM como PM (véase la Figura 4)

Así, los datos AM y PM disponibles son los siguientes:

• Radiografía de cráneo AM (AM1).

• TAC de cráneo PM (PM1).

• Radiografía torácica AM (AM2).

• TAC torácico PM (PM2).

En este caso concreto es necesario realizar tres superposiciones: una para el EAR de senos frontales comparando AM 1 y PM1 ; y una para cada EAR clavícula comparando AM2 y PM2. Para ello, primero es necesario realizar la segmentación de los EARs en las cuatro imágenes (AM1 , PM1 , AM2 y PM2) mediante la etapa 1 de la presente invención. Segundo, se realiza la superposición de AM1 y PM1 (senos frontales), la de AM2 y PM2 (clavícula izquierda), y la de AM2 y PM2 (clavícula derecha) mediante la etapa 2. Por último, se evalúan las superposiciones mediante la etapa 3 y se obtiene el grado de confianza de que sea una identificación positiva (véase la Fig. 5), siendo este grado de confianza un valor fuzzy (difuso) que se interpreta del modo que se muestra en la Fig. 6.

En concreto, los cálculos realizados en la etapa 3 con las superposiciones obtenidas de la etapa 2 son los siguientes:

• Nivel 4. Se realiza el cálculo del valor de las diferentes métricas que permiten medir la calidad del criterio de la comparación morfológica (primer y único criterio utilizado en este ejemplo). Las métricas utilizadas son las siguientes: Dice y distancia de Hausdorff. La fiabilidad de estas métricas son 0.85 y 0.9, respectivamente. Todas las métricas han sido adaptadas para obtener un valor en el rango [0,1] ( Dice no necesita ninguna adaptación; y la métrica Hausdorff es normalizado por la diagonal del cuadrado delimitador de la silueta) y se cambia su representación para que el mejor valor sea 1 y el peor 0. Estas métricas son agregadas mediante el agregador de la ecuación 1 , esta ecuación proporciona un valor para cada criterio morfológico de todas las superposiciones.

y n- nétrícas resultadom fiabilidadm

resultado nivel 4 = min(l, _ (0.9 +

n- métricas e [0, 1] {Ec. 1) n- métricas

)) ·

10 fiabilidad criterio

A continuación puede verse los cálculos realizados en este nivel con las dos superposiciones de este ejemplo:

o Agregación métricas para el criterio morfológico de la superposición 1 de la EAR seno frontal mediante la ecuación 1 : (((0.92*0.85+0.9*0.9)/2)*(0.9+2/10)*1 = 0.87.

■ Resultado métrica Dice·. 0.92.

■ Resultado métrica Hausdorff. 0.90.

■ Fiabilidad criterio morfológico: 1.

o Agregación métricas para el criterio morfológico de la superposición 1 de la EAR clavícula izquierda mediante la ecuación 1 :

(((0.95*0.85+0.89*0.9)/2)*(0.9+2/10)*1= 0.88.

■ Resultado métrica Dice·. 0.95.

■ Resultado métrica Hausdorff. 0.89.

■ Fiabilidad criterio morfológico: 1.

o Agregación métricas para el criterio morfológico de la superposición 1 de la EAR clavícula derecha mediante la ecuación 1 :

(((0.94*0.85+0.87*0.9)/2)*(0.9+2/10)= 0.87.

■ Resultado métrica Dice·. 0.94.

■ Resultado métrica Hausdorff. 0.87.

• Nivel 3. Se realiza la agregación de todos los criterios de una misma superposición. En este ejemplo no se utilizan múltiples criterios, igualmente este nivel sigue siendo necesario para agregar la información relativa a la calidad de las imágenes. Este cálculo se puede hacer haciendo uso de la ecuación 2.

y n- criterio

m = 1 resultado jiivel_Am

resultado nivel 3 = min(l, (0.9 +

nü criterios

e [0, 1] ( Ec . 2) n- criterios

)) · calidadlmg1 calidadlmg2

10

A continuación puede verse los cálculos realizados en este nivel con las dos superposiciones de este ejemplo:

o Agregación de los criterios mediante la ecuación 2 para la superposición 1 de la EAR senos frontales: = (0.87/1 )*1 *1*1= 0.87.

■ resultadojiível _41= 0.87

■ calidadlmg = 1

■ calidadlmg2= 1

o Agregación de los criterios mediante la ecuación 2 para la superposición 1 de la EAR clavícula izquierda: = (0.88/1)*1*1*1= 0.88.

■ resultadojiível _41= 0.88

■ calidadlmg = 1

■ calidadlmg2= 1

o Agregación de los criterios mediante la ecuación 2 para la superposición 1 de la EAR clavícula derecha: = (0.87/1)*1*1*1= 0.87.


0.87

■ calidadlmg = 1

■ calidadlmg2= 1

• Nivel 2. Se realiza la agregación de todas las superposiciones de un EAR. En este ejemplo no se utilizan múltiples superposiciones por lo que este nivel no es necesario. Este cálculo se puede hacer haciendo uso de la ecuación 3.

A continuación puede verse los cálculos realizados en este nivel con las dos superposiciones de este ejemplo:

o Agregación de los criterios mediante la ecuación 3 para la superposición 1 de la EAR senos frontales: = (0.87/1)*1*1*0.9= 0.78.

■ resultadojilvel _31= 0.87

■ calidadEAR= 1

■ fiabilidad_EAR = 0.90

o Agregación de los criterios mediante la ecuación 3 para la superposición 1 de la EAR clavícula izquierda: = (0.88/1 )*1 *1*0.85=

0.74.

■ resultadojilvel _31= 0.88

■ calidadEAR= 1

m flabllldad_EAR= 0.85

o Agregación de los criterios mediante la ecuación 3 para la superposición 1 de la EAR clavícula derecha: = (0.87/1)*1*1*0.85 =

0.73.

■ resultadojilvel _31= 0.87

■ calidadEAR= 1

■ flabllldad_EAR= 0.85

• Nivel 1. Se realiza la agregación de todos los EARs mediante media aritmética ponderada. Los pesos de cada EAR se obtienen de estudios estadísticos acerca del poder identificador de cada EAR, junto con la presencia o ausencia de características infrecuentes. En este ejemplo no se consideran características infrecuentes por lo que el único factor que influirá en los pesos son los estudios estadísticos. Este cálculo se puede hacer haciendo uso de la ecuación 4.

Continuando con el ejemplo los cálculos realizados en este nivel son los siguientes:

o Resultado del nivel 1 : ((0.81 +0.78+0.73)/3)*(0.9+3/10) = 0.92

■ EAR 1 : Seno frontal.

• Resultado EAR: 0.78.

■ EAR 2: Clavícula Izquierda.

• Resultado EAR: 0.74.

■ EAR 3: Clavícula Derecha.

• Resultado EAR: 0.73.

Obteniéndose una fiabilidad fuerte (véase la Fig. 6) de que los datos AM y PM pertenezcan al mismo sujeto.