Processing

Please wait...

Settings

Settings

Goto Application

1. WO2011009965 - METHOD FOR CHARACTERISING THREE-DIMENSIONAL OBJECTS

Note: Text based on automatic Optical Character Recognition processes. Please use the PDF version for legal matters

[ FR ]

PROCEDE DE CARACTERISATION D'OBJETS TRIDIMENSIONNELS

La présente invention concerne les procédés de caractérisation, de comparaison et de criblage d'objets tridimensionnels dans le but notamment d'identifier en automatique leurs caractéristiques remarquables, de comparer ces objets à d'autres éléments connus pour inférer des fonctions, et évaluer ou approfondir les possibles interactions physiques entre ces objets.

La comparaison d'objets tridimensionnels appartient entre autres au domaine de la reconnaissance de forme et comporte de nombreuses applications, notamment en physique (interaction entre objets, calcul des surfaces de contacts et potentiels énergétiques correspondants), en biologie (criblage de régions et de molécules, spécificité des régions), en chimie (prédiction d'interactions entre composés synthétisables) en chirurgie (détection fines des régions à opérer, malgré les variations interpatients) en biométrie (reconnaissance d'empreintes), en robotique (détermination des objets qui peuvent-être saisis par un bras mécanique), dans l'aérospatiale (localisation de cibles et amarrage), ou plus généralement dans toutes les branches de l'industrie où la reconnaissance systématique et rapide d'objets ou de sous-objets complexes est nécessaire.

L'invention vise notamment la reconnaissance de forme de molécules et les approches dites in silico (c'est-à-dire par des approches purement numériques), par exemple afin de déterminer de manière systématique les molécules portant une région fonctionnelle donnée, ou de déterminer de manière systématique les interactions moléculaires (i.e. les partenaires d'une cible) et les structures des assemblages moléculaires correspondants, quelle que soit leur taille ou le type de molécules impliquées.

On connaît par exemple des méthodes de criblage in silico de petits motifs structuraux (tels que les sites catalytiques), des méthodes de

criblage in vitro ou in vivo (double hybride (Y2H), TAP-TAG) de macro molécules, ou encore le « docking » (méthode in silico qui consiste à prédire la forme de l'assemblage d'un ligand avec un récepteur pour former un complexe stable, mais dont la durée d'exécution varie de quelques heures à plusieurs jours pour un seul assemblage, ce qui le rend difficilement applicable aux problématiques de criblage).

Les approches in vitro/in vivo à haut débit demeurent longues, coûteuses et difficiles à mettre en œuvre, et ne permettent pas d'obtenir des résultats suffisamment précis, limitant ainsi leurs applications et leur efficacité dans des domaines tels que ceux de l'industrie pharmaceutique, cosmétique, chimique ou agro-alimentaire.

En effet, les approches in vitro/in vivo à hauts débits ont des sensibilités et des précisions démontrées dans la littérature comme étant trop faibles pour identifier avec un haut degré de confiance les interactions moléculaires. D'autres approches in vitro/in vivo permettent d'identifier et de caractériser avec une quasi-certitude des interactions moléculaires (notamment la cristallographie, la résonance magnétique nucléaire, la calorimétrie) mais demandent de plusieurs semaines à plusieurs mois (voire plusieurs années) pour valider une seule interaction.

In vitro/ln vivo, la détermination de la localisation de ces sites de liaisons nécessite par exemple d'effectuer de nombreuses expériences de mutagénèse qui sont longues et coûteuses. Ces sites de liaisons sont pourtant fondamentaux pour la compréhension des mécanismes moléculaires du fonctionnement cellulaire et des pathologies. Ils sont pour l'industrie pharmaceutique comme pour l'industrie cosmétique, une clé essentielle pour aider à la création de composés actifs et spécifiques.

Par ailleurs, les approches existantes de criblage in silico ne permettent de répondre qu'à trois questions : (i) rechercher dans une banque de données un composé existant capable de lier une cible biologique; (ii) créer un composé capable de lier une cible biologique ; (iii) rechercher les molécules portant un petit motif structural donné. Ces approches qui permettent essentiellement de sélectionner un composé capable de lier une cible, ne permettent pas de cribler les macromolécules (i.e. protéine, ADN, ARN, lipides) qui sont les cibles biologiques des petits composés, ni de préciser quelles sont les autres cibles biologiques de ces composés.

Il devient donc essentiel de pouvoir caractériser de manière fonctionnelle des macromolécules biologiques pour mieux comprendre le fonctionnement d'une cellule, d'une pathologie, des voies métaboliques et de régulations, ainsi que pour mieux identifier le mode d'action de ces composés. Par exemple, on cherche à connaître les différentes cibles et sites de liaisons d'un composé pour un type cellulaire donné, ou encore, déterminer si le composé risque d'interférer avec des interfaces biologiques et perturber le bon fonctionnement de la cellule. La meilleure caractérisation des macromolécules, de leurs régions et de leurs sites de liaisons permettrait notamment d'évaluer et de moduler l'efficacité et les possibles causes de toxicité d'un composé dans un contexte cellulaire défini par un ensemble de macromolécules.

Les différentes étapes décrites dans les descriptions qui suivront permettent d'approfondir les connaissances sur l'objet en précisant ses caractéristiques remarquables (plus loin appelées « empreintes structurales ») et d'évaluer ses interactions avec d'autres objets d'un environnement bien défini (i.e. en biologie, un environnement cellulaire ; en robotique, une chaine de montage ; en biométrie, une collection d'empreintes ; en Intelligence Artificielle, une reconstruction tridimensionnelle de l'environnement). Le procédé prévoit également de décrire l'objet et son environnement de sorte qu'il soit possible de préciser la fréquence des sous-parties qui le composent, et en particulier de détecter ses sous-parties qui le rendent unique dans l'environnement étudié.

L'invention a donc pour objectif de proposer un procédé de caractérisation d'éléments tridimensionnels permettant de comparer avec précision, de cribler à haute vitesse, de regrouper et/ou de différencier les objets d'un environnement en fonction de leurs structures tridimensionnelles.

Un autre objectif de l'invention est de déterminer in silico les caractéristiques remarquables de certaines parties des objets tridimensionnels, notamment des propriétés géométriques et/ou physicochimiques et/ou évolutives remarquables ; c'est-à-dire des propriétés présentant un intérêt dans le domaine et dans l'application étudiés.

L'invention vise également à proposer, pour un objet tridimensionnel donné ayant des propriétés d'intérêt dans son domaine et/ou l'application, un procédé de caractérisation permettant de trouver un ou plusieurs objets ayant des propriétés complémentaires ou similaires desdites propriétés et d'inférer des fonctions à l'objet criblé, soit par similarité soit par complémentarité avec d'autres objets de l'environnement.

Un autre objectif de l'invention est de proposer un procédé de caractérisation qui permet de cribler de manière efficace, rapide, traçable et reproductible des objets tridimensionnels, quelles que soient leur taille, leur type ou leurs propriétés.

Enfin, un objectif de l'invention est de fournir une cartographie d'un objet tridimensionnel donné, en analysant et regroupant l'ensemble des informations portant sur cet objet dans une visualisation tridimensionnelle simple et descriptive.

Les objectifs précités sont atteints grâce à un procédé de caractérisation d'objets tridimensionnels comprenant les étapes consistant à :

i) générer une reconstruction tridimensionnelle d'un objet tridimensionnel;

ii) générer un maillage de l'objet, ledit maillage étant constitué de points reliés deux à deux par une arête ;

iii) caractériser les points et/ou les facettes du maillage de l'objet en fonction des états respectifs de propriétés remarquables en ces points et/ou facettes ; et

iv) segmenter l'objet en régions tridimensionnelles contigϋes à partir du maillage et de la caractérisation des points de l'objet.

Selon un deuxième aspect, l'invention propose également un procédé de caractérisation d'objets tridimensionnels, dans lequel l'objet tridimensionnel est une molécule, ledit procédé comprenant les étapes consistant à :

i) générer une reconstruction tridimensionnelle de la molécule; ii) générer un maillage de l'objet, ledit maillage étant constitué et points reliés deux à deux par une arête ;

iii) caractériser les points et/ou les facettes du maillage de la molécule en fonction des états respectifs de propriétés remarquables en ces points et/ou facettes ; et

iv) segmenter la molécule en régions tridimensionnelles contigϋes à partir du maillage et de la caractérisation des points de la molécule.

On viendra ensuite typiquement mettre en œuvre une étape de comparaison au cours de laquelle des états prédéterminés des propriétés remarquables d'une région de l'objet (région d'une molécule notamment) sont comparés aux états des mêmes propriétés remarquables de régions connues afin de déterminer si les régions connues sont similaires ou complémentaires de la région de l'objet.

D'autres caractéristiques, buts et avantages apparaîtront mieux à la lecture de la description détaillée qui va suivre, et en regard des dessins annexés donnés à titre d'exemples non limitatifs et sur lesquels :

La figure 1 a illustre l'approximation par le parcours du plus petit chemin d'arêtes pondérés d'une distance géodésique entre deux points conformément à une forme de réalisation de l'invention ;

La figure 1 b illustre la génération d'une région à partir d'un maillage ou graphe d'un objet quelconque conformément à une forme de réalisation de l'invention ;

La figure 1 c illustre la génération d'une région sous contrainte d'un vecteur de direction à partir d'un maillage ou graphe d'un objet quelconque conformément à une forme de réalisation de l'invention ;

La figure 1 d illustre le calcul de la distance séparant deux points en fonction de propriétés les caractérisant ;

La figure 2 illustre le calcul de la courbure locale en des points quelconques de la surface conformément à une forme de réalisation de l'invention ;

La figure 3 illustre la différence entre une distance géodésique et une distance euclidienne au sens de l'invention ;

La figure 4a illustre le comportement d'une fonction logistique L, utilisée dans le calcul d'un score d'énergie, en fonction de l'écart Δ des valeurs d'une propriété donnée en deux points ;

La figure 4b illustre le comportement de la fonction logistique L pour une tolérance donnée, pour un écart de propriété Δ et un écart de propriété normalisé Δ* entre deux points ;

La figure 5a illustre un exemple de schéma de correspondance entre les points de deux régions ;

La figure 5b illustre une première forme de réalisation de l'alignement de deux régions à comparer ;

Les figures 6a et 6b illustrent une deuxième forme de réalisation de l'alignement de deux régions à comparer ;

La figure 7 illustre l'alignement d'une région L avec plusieurs régions dans le but de localiser les points spécifiques de L, pouvant notamment servir de points d'ancrage pour le développement de molécules plus spécifiques ;

La figure 8 illustre de manière générale le procédé selon l'invention, permettant de retrouver des collections d'objets portant soit des régions similaires, soit des régions complémentaires ;

Les figures 9 et 10 sont deux graphes indiquant la précision du criblage du FAD (Flavine Adénine Dinucléotide) et du mannose respectivement par rapport au nombre de résultats considérés.

Un objet tridimensionnel est défini par la localisation spatiale d'un ensemble de points dans un repère arbitraire, où chaque point peut être caractérisé par une taille, une probabilité de distribution sur sa localisation, et un ensemble de propriétés distinctes qui permettent une description détaillée de l'objet en ce point.

L'objet tridimensionnel peut être creux (i.e. défini uniquement par les points de son enveloppe), ou plein (c'est le cas notamment des molécules, où chaque point définissant l'objet correspond à un atome).

L'enveloppe (ou surface) de l'objet tridimensionnel définit l'ensemble des points de l'objet en contact direct avec le milieu extérieur, ou suffisamment proches pour pouvoir participer aux contacts avec le milieu extérieur sous certaines conditions (cas notamment des objets déformables).

Un objet tridimensionnel est dit déformable si sa structure est malléable, c'est-à-dire si tout ou partie de ses points est susceptible de pouvoir changer de localisation spatiale.

Ces changements, qui altèrent les coordonnées de tout ou partie des points de l'objet, peuvent avoir des conséquences importantes comme la définition d'une nouvelle enveloppe de l'objet tridimensionnel.

Par exemple, une molécule est considérée comme un objet plein et déformable, tandis qu'un tube industriel est considéré comme un objet creux et indéformable.

Les atomes formant une molécule ont différentes tailles qui dépendent notamment de leurs environnements local et global. La modélisation des surfaces moléculaires est donc particulièrement complexe, dans la mesure ou il faut à la fois tenir compte des interactions atomiques intermoléculaires, mais également des déformations de ces surfaces induites à la fois par ces interactions avec des partenaires et par des variations plus ou moins fines dans leur environnement.

Modélisation de l'objet tridimensionnel

Nous allons décrire le procédé de caractérisation selon l'invention pour un objet tridimensionnel quelconque.

Selon l'invention, on modélise tout d'abord cet objet par une reconstruction de sa surface et éventuellement de son volume interne.

Pour cela, de nombreux algorithmes existent et permettent une reconstruction plus ou moins fidèle de la surface et du volume interne d'un objet.

On distingue notamment la reconstruction exacte, servant davantage à la visualisation qu'à l'analyse informatique en raison de sa complexité importante, et la reconstruction simplifiée discrétisant la surface et/ou le volume de l'objet à des fins d'analyses informatiques. En général, une reconstruction simplifiée est suffisante pour caractériser les propriétés d'un objet avec des résultats proches de ceux obtenus par une reconstruction exacte.

Parmi les reconstructions simplifiées, on notera en particulier le pavage de Voronoï (ou tesselation de Voronoï, qui permet de déterminer la zone d'influence de chaque point) à partir duquel peut-être construit le complexe de Delaunay dans lequel l'ensemble de l'objet est segmenté de sorte que chaque arête relie d'une certaine façon les points les plus proches dans une direction donnée. Le complexe alpha dérive du complexe de

Delaunay en ne conservant que les arêtes dont la taille est inférieure à un seuil.

En particulier, la forme alpha obtenue à partir du complexe de Delaunay (également appelée forme duale lorsque alpha = 0) permet d'obtenir une enveloppe de l'objet tridimensionnel, et donc de modéliser sa surface. Le complexe de Delaunay, le complexe alpha et la forme alpha (H.Edelsbrunner) présentent l'avantage d'être des reconstructions simplifiées conservant la position des points de l'objet.

En variante, la reconstruction surfacique de l'objet tridimensionnel est mise en œuvre selon une approche de type marching cube, une approche de type marching tetraedra ou par les harmoniques sphériques.

Lors de l'analyse systématique des objets, on choisit donc de préférence une reconstruction simplifiée ou une reconstruction exacte sans interpolation et avec une résolution adéquate au problème afin d'en simplifier la représentation. En particulier, il est possible d'utiliser des représentations de faible résolution où l'objet est décrit par un petit nombre de facettes, afin d'effectuer un premier filtrage avant des comparaisons plus lourdes et détaillées.

Par ailleurs, l'intérieur de l'objet correspond aux points de l'objet qui ne sont pas suffisamment proches du milieu extérieur.

Par exemple, dans le cas des molécules, les atomes formant l'intérieur de l'objet sont les atomes qui ne sont pas accessibles au milieu extérieur (via un calcul de l'accessibilité de l'atome), ou qui sont suffisamment proches de l'enveloppe de surface (en accord avec la notion de profondeur). Ce calcul d'accessibilité ou de profondeur développé pour l'analyse moléculaire reste cependant valide pour tout autre type d'objet tridimensionnel plein.

Dans le cas où l'on souhaite également obtenir une représentation du volume intérieur de l'objet, il est possible d'utiliser notamment le complexe de Delaunay ou le complexe alpha, car ils permettent de segmenter un

objet plein en tétraèdres, qui est une structure géométrique pouvant être mise à profit pour la détermination des points internes de l'objet, et par conséquent pour la construction de régions internes (ne comprenant pas de points de surface) et de régions intermédiaires (comprenant à la fois des points de surface et des points internes).

A partir de la modélisation de l'objet tridimensionnel par l'une de ces différentes reconstructions de surface (ou de volume), on génère un maillage de l'objet, c'est-à-dire une triangulation (ou dérivé de triangulation) des points de l'objet et/ou des points de surface afin de créer et de représenter son volume tridimensionnel.

Avantageusement, le maillage est ensuite transposé dans des graphes de différents types.

Cette transposition du maillage de l'objet dans un graphe est optionnelle mais permet de bénéficier directement des algorithmes robustes et performants de la Théorie des Graphes pour la description, l'analyse et la comparaison des surfaces, des régions de surface, des régions intermédiaires et des régions internes de l'objet.

En effet, la Théorie des Graphes propose des solutions particulièrement optimisées. On notera en particulier l'intérêt dans le cadre des graphes d'algorithmes tels que le plus court chemin de Dijkstra, la détermination de composantes connexes, et dans le cadre des graphes connexes et triangulés, des algorithmes de correspondance de graphes (également appelée « graph matching ») et de détection de Cliques.

Par exemple, le maillage peut être transposé dans un graphe dans lequel chaque point du maillage correspond à un nœud du graphe et la triangulation du maillage définit les arêtes du graphe.

Il est également possible de définir une pluralité de graphes dans lesquels un nœud du graphe correspond à plusieurs points du maillage, et la définition d'une arête dans le graphe repose sur un ou plusieurs critères, tel que le fait d'avoir au moins un nombre déterminé d'arêtes du maillage

entre deux ensembles de points formant deux nœuds du graphe pour que ces deux nœuds soient reliés par une arête dans le graphe.

De préférence, le maillage est transposé dans un graphe connexe et triangulé de sorte à pouvoir bénéficier de certains algorithmes et heuristiques de la Théorie des Graphes, notamment pour la correspondance de graphes (en anglais, « Graph Matching »).

Selon une forme de réalisation, les points de l'objet tridimensionnel sont regroupés en une pluralité d'ensembles de points préalablement à la modélisation de sa surface et/ou de son volume. Ainsi, le maillage de l'objet est généré à partir de ces ensembles de points, et sa transposition dans un graphe résulte en une triangulation de ces ensembles.

Dans le cas des surfaces moléculaires, quatre graphes peuvent être décrits simplement : les graphes des points de surface, les graphes des atomes de surface, les graphes des résidus de surface et les graphes de regroupements fonctionnels.

Dans un graphe des points de surface, chaque point du maillage de surface correspond à un nœud du graphe et chaque arête de la triangulation du maillage correspond à une arête dans le graphe. Ce graphe est définissable pour les surfaces de tout objet tridimensionnel.

Dans un graphe des atomes de surface, chaque atome de surface

(accessible au milieu extérieur, i.e. ayant une zone de surface accessible (ou ASA, pour Accessible Surface Area) positive) correspond à un nœud du graphe et chaque intersection entre atomes de surface correspond à une arête dans le graphe.

En variante, seules certaines de ces intersections sont prises en compte, en effectuant une filtration sur différents critères géométriques et/ou physico-chimiques.

On remarquera d'ailleurs que dans le cas de la forme duale (aussi appelée forme alpha pour alpha égale à zéro), les graphes des points de surface et les graphes des atomes de surface sont strictement identiques étant donné qu'un point de surface correspond à un atome.

Dans les graphes des résidus de surface, chaque résidu accessible

(ASA > 0) ou résidu de surface correspond à un nœud du graphe et un nombre déterminé d'intersections entre les atomes de ces résidus (ou la distance entre les barycentres des résidus) permet de décrire une arête dans le graphe.

Enfin, dans les graphes des groupements fonctionnels de surface, tous les atomes voisins formant un même groupement fonctionnel (hydroxyle, carboxyle, cétone, etc.) sont rassemblés pour former un nœud dans le graphe, et l'arête relie les groupements fonctionnels en contact (intersection des rayons atomiques des groupements voisins) ou suffisamment proches (critère arbitraire de distance auquel peuvent s'ajouter des critères d'orientations et d'accessibilités des groupements).

Plus généralement, à partir du maillage d'un objet tridimensionnel, il est donc possible de créer une pluralité de graphes caractérisant des propriétés et des phénomènes propres à l'objet, à sa surface, à son volume intérieur ou à ses zones intermédiaires.

Par exemple, quelque soit l'objet tridimensionnel, il est possible de définir un graphe des courbures de surface dans lequel (1 ) tous les points de surface de l'objet ayant des valeurs de courbure proches et étant contigus sont regroupés dans un nœud du graphe, et où (2) une arête entre deux nœuds est définie soit par des critères arbitraires tels que la distance ou l'écart entre leurs valeurs de courbure moyenne, ou par le contact direct dans le maillage de ces groupes de points.

Pour tout objet possédant une distribution spatiale des charges

(comme une prise électrique, un dipôle, un circuit intégré, ou une molécule), il est également possible de définir un graphe de surface qui caractérise cette distribution de charges en regroupant dans un nœud du graphe l'ensemble des points du maillage qui portent une charge équivalente et qui sont contigus, et où la définition d'arête est définie par des critères

arbitraires ou par le contact dans le maillage des sous-régions comprenant les points des nœuds associés.

Il est en outre possible de faire un graphe combinant à la fois la courbure et la distribution de charges, auquel cas les régions d'un objet complexe ou les zones importantes de l'objet doivent exhiber à la fois une forme (courbure) et une charge (ex: borne cationique ou anionique, zone d'attache conductrice ou isolante, etc.).

En effet, s'il est possible à partir d'un maillage de définir des graphes caractérisant une propriété précise de l'objet tridimensionnel, il est également possible de définir des graphes caractérisant un ensemble de propriétés remarquables de l'objet tridimensionnel (empreintes structurales) en regroupant tous les points pour lesquels la distance entre les valeurs numériques de leurs propriétés est suffisamment faible.

Lorsque l'objet est plein et que la représentation permet une triangulation ou une tétraédrisation des points internes, il est également possible de définir des graphes des régions internes de l'objet.

On différencie les graphes et régions de surface comprenant uniquement les points de surface, les graphes et régions internes comprenant uniquement les points internes (qui ne sont pas de surface), et les graphes et régions intermédiaires comprenant à la fois des points de surface et des points internes.

Néanmoins, dans cette description, l'ensemble des étapes du procédé selon l'invention qui sont mises en œuvre sur le fondement des graphes de surface peut être transposé directement aux graphes internes ainsi qu'aux graphes intermédiaires.

Génération de régions et d'empreintes structurales

Selon l'invention, le procédé de caractérisation comporte une étape au cours de laquelle on segmente l'objet étudié en régions, de manière à ouvrir de nouveaux champs d'applications, d'accroître de façon systématique et automatisée les connaissances sur l'objet et d'accélérer l'étape de comparaison avec d'autres objets tridimensionnels.

Pour cela, on génère une ou plusieurs régions de l'objet, puis on les compare à d'autres régions appartenant soit au même objet, soit à d'autres objets tridimensionnels de manière à déterminer notamment si certaines de ces régions sont similaires ou complémentaires, et afin d'évaluer notamment la représentativité (fréquence) de ces régions pour un ensemble d'objets. Plus généralement, on comparera une région avec une collection de régions représentative du champ application et de la question posée. On pourra par ailleurs inférer par exemple une ou plusieurs fonctions d'un objet par similarité et/ou complémentarité de ses régions avec des régions d'autres objets.

Avantageusement, selon le type d'objet tridimensionnel considéré

(microscopique ou macroscopique) et sa déformabilité, on génère différentes formes (ou conformations) de l'objet suivant des approches usuelles pour obtenir plusieurs objets secondaires (dérivés) à analyser suivant le procédé de l'invention.

Optionnellement, on génère les conformations stables des régions en les considérants comme des entités indépendantes, afin de limiter les calculs.

Dans le cas des molécules, la dynamique moléculaire et la mécanique moléculaire permettent de décrire leurs mouvements avec précision et finesse, et donc de nouveaux jeux de coordonnées spatiales pour chacun des points de l'objet, que ceux-ci aient une localisation interne ou de surface.

Dans le cas de la dynamique moléculaire, il est même envisageable d'analyser les changements de conformation possibles sur un intervalle de temps donné (typiquement de l'ordre de la microseconde).

D'autres approches existent, notamment les modes normaux applicables à tout objet tridimensionnel, selon laquelle on applique une tension de ressort à chacune des arêtes du maillage afin de générer ses modes normaux. Les différentes conformations sont obtenues rapidement mais sont moins fines que dans le cas de la dynamique moléculaire ou de la mécanique moléculaire. Elles permettent néanmoins de renseigner sur les grandes tendances possibles ainsi que sur les conformations les plus stables de l'objet tridimensionnel, de sa surface et de ses points internes.

Aussi, lorsque l'on cherche à comparer deux objets déformables comme des molécules, on génère avantageusement les conformations les plus stables de ces objets tridimensionnels, et l'on applique le procédé selon l'invention à chacune de ces configurations de l'objet, plutôt qu'à une seule. On obtient alors davantage de régions à comparer, et éventuellement davantage de propriétés remarquables intéressantes dans l'application qui est étudiée. Typiquement, et comme il va être décrit par la suite, on détermine, pour chacune des configurations de l'objet, les propriétés remarquables au niveau de chaque point du maillage (ou nœud du graphe), avant (ou éventuellement après) la segmentation de chaque conformation stable de l'objet tridimensionnel en régions, puis on les compare à d'autres collections de régions de manière à déterminer un ensemble de régions similaires ou complémentaires.

On remarquera que lorsque la probabilité de distribution de la localisation des points de l'objet existe (ce qui est le cas notamment du b-facteur pour les molécules), on peut utiliser cette information pour générer de nouvelles conformations ou pour guider la génération des conformations les plus stables selon l'une des méthodes énumérées ci-dessus (dynamique moléculaire, mécanique moléculaire ou modes normaux).

Cette étape optionnelle de génération de tout ou partie des conformations permet d'accroître la sensibilité de l'approche, mais peut réduire la spécificité du criblage si trop de conformations sont considérées.

L'invention propose toutefois de compenser cette perte de spécificité lors de l'évaluation de la qualité de l'alignement des régions, comme nous le verrons dans la suite de la description.

Le procédé est ensuite appliqué directement à l'objet tridimensionnel ou aux objets secondaires issus de la génération de ses différentes conformations stables.

On génère ensuite un ensemble de régions selon un ou plusieurs critères déterminés à partir de la représentation de l'objet tridimensionnel, qu'il s'agisse de son maillage ou de son graphe.

Plusieurs méthodes existent pour définir des régions d'un objet tridimensionnel. Néanmoins, ces méthodes ne permettent pas d'assurer la notion de contiguïté de la région, ni de générer de façon systématique et rapide un catalogue exhaustif des régions d'un objet avec ou sans contraintes de forme : c'est-à-dire, des régions contigϋes de tailles et de formes variées. La notion de contiguïté est importante car elle assure que l'on travaille sur un bloc unique et indivisible, et non sur un ensemble de sous-blocs éparpillés dans l'espace : une région contigϋe est le plus petit bloc indivisible, fonctionnel ou non, d'un objet. La notion de contiguïté est également nécessaire pour permettre la génération des complémentaires d'une région (i.e. des régions pouvant s'emboiter dans la région initiale).

Une première méthode existante consiste à regrouper tous les points de l'objet à l'intérieur d'une sphère d'un rayon choisi. Cependant, la définition de telles régions de surface n'assure pas la notion de contigϋité.

En particulier, lorsque l'on cherche à décrire un objet par l'intermédiaire de ses régions, il est préférable de travailler sur des régions contigϋes de manière à pouvoir ensuite les réunir ou les diviser, et former ainsi un nouvel ensemble de régions contigϋes. En particulier, lorsque l'on recherche un motif de taille importante, il est possible de le diviser en sous-régions contigϋes et de les cribler séparément, de manière à faire

apparaître des sous-régions spécifiques de cette région de l'objet et de détailler davantage la fonctionnalité de l'objet.

Dans les exemples qui suivront, le procédé de segmentation est mis en œuvre sur le fondement d'un graphe dans lequel on a transposé le maillage de l'objet. Ceci n'est cependant pas limitatif dans la mesure où ces procédés peuvent également être mis en œuvre directement sur le fondement du maillage, la différence étant que la mise en œuvre de la Théorie des Graphes nécessitera une ou plusieurs étapes supplémentaires d'adaptation des algorithmes.

II est possible de mettre en œuvre une approche de segmentation des surfaces en régions contigϋes soit en fonction d'un critère de distance, soit en fonction d'un critère sur le nombre de points formant la région, soit en fonction de propriétés remarquables des points de l'objet, soit en fonction d'une combinaison de ces critères. Dans le cas de la génération de régions sur le fondement d'états de propriétés remarquables, la région obtenue est une « empreinte structurale » : elle caractérise plus particulièrement une région remarquable de l'objet obtenue sans a priori de forme ou de taille (comme cela est le cas avec le critère de distance). L'utilisation du maillage et du graphe associé permet alors de générer des régions par extension depuis un point du graphe, ce qui assure la contigϋité de la région.

Dans ce qui va suivre, plusieurs critères de segmentation d'un objet tridimensionnel en régions tridimensionnelles vont être décrits. Cette liste de critères n'est cependant pas limitative et n'est donnée qu'à titre d'illustration.

Par ailleurs, selon le procédé de l'invention, les régions et empreintes structurales peuvent être obtenues à partir d'un seul ou d'une combinaison de ces critères de segmentation, de manière à obtenir un grand nombre de types de régions et empreintes structurales.

Critère de distance spatiale

Pour chaque point (ou sous-groupe de points) de surface, il est possible d'approximer et de calculer la distance géodésique qui le sépare de tout autre point de surface.

La distance géodésique entre deux points de l'objet est approximée comme étant la longueur du chemin le plus court - ou de l'un des chemins les plus courts s'il en existe plusieurs - entre les deux points correspondants du graphe : elle est donc propre à la représentation de l'objet.

Dans le cadre de l'invention, les distances géodésiques sont utilisées plus généralement pour regrouper tous les points de l'objet suffisamment proches (selon le critère de distance et/ou du nombre de points) et former ainsi une ou plusieurs région(s) contiguë(s).

Par exemple, dans le cas du graphe des points de surface, chaque arête a pour poids la distance euclidienne qui sépare ses deux points. Une approximation de la distance géodésique entre deux points S1 et S2 correspond alors à la somme des distances euclidiennes des arêtes formant le plus court chemin entre ces deux points.

On a représenté sur la figure 1 a un exemple d'approximation de la distance géodésique entre deux points A et B d'un graphe, comprenant un ensemble de points et d'arêtes ayant un poids donné. Sur cette figure, le poids entre deux points adjacents est inscrit au dessus de l'arête qui les sépare : comme on peut le voir, la distance géodésique qui sépare les points A et B est égale à 1 + 0.8 + 1.4 = 3.2 (en suivant le chemin en pointillés dans le graphe).

En reprenant l'algorithme performant de Dijkstra pour la détermination du plus court chemin pour l'approximation du calcul des

distances géodésiques, il est possible d'établir un nouvel algorithme plus rapide en établissant de nouveaux critères de fin afin de limiter le calcul aux seules distances géodésiques qui sont nécessaires à la segmentation de l'objet en régions.

Pour cela, on transpose le maillage de l'objet dans un graphe G(S, A) connexe triangulé avec S sommets et A arêtes.

On définit alors un ensemble (non vide) de points de surface à partir duquel on souhaite créer une région, et l'on choisit un ou plusieurs point(s) Pc dans cette région. A chaque point de l'ensemble est assignée une distance infinie alors qu'au(x) point(s) Pc est assignée une distance nulle.

La figure 1 b illustre la génération d'une région à partir d'un graphe. Sur cette figure, le point Pc représente le centre de la région à générer, les arêtes en gras représentent les arêtes sélectionnées pour la génération de la région, et N représente le nombre d'arêtes pouvant être parcourues à partir du centre Pc.

Le parcours des points voisins permet alors de déterminer le plus court chemin (et donc les distances géodésiques) entre les points Pc de l'ensemble de départ et tous les autres points de l'objet. On remarquera à cet égard que les graphes décrivant des maillages étant connexes triangulés et que les poids de leurs arêtes sont toujours positifs (dans la mesure où il s'agit d'une distance), il existe toujours un plus court chemin entre deux points S1 et s2 du graphe.

On intègre alors un critère de fin à cet algorithme afin de ne calculer que les distances nécessaires. Par exemple, sur la figure 1 b, la région grisée correspond à la région générée avec comme critère de fin N=2 où N est le nombre maximal d'arêtes qui peuvent-être parcourues pour agglomérer des points dans la région.

Ce critère de fin peut notamment être un critère de distance, ou un critère du nombre de points formant la région en cours de génération.

Selon le critère de distance, on détermine lors de l'itération de l'algorithme le point le plus proche du point choisi Pc parmi la liste des points qu'il reste à traiter (i.e. des points pour lesquels il faut encore assigner la distance du plus court chemin au(x) point(s) Pc). Dès lors que la distance entre ce point et le point Pc est plus grande qu'un seuil prédéterminé, l'algorithme s'arrête et renvoie la liste des points qui ont été traités. Les points traités correspondent à l'ensemble des points contigus au(x) point(s) Pc et qui sont à une distance inférieure ou égale à la distance géodésique seuil choisie. Tous les autres points qui n'ont pas été traités sont nécessairement à une distance géodésique du(des) point(s) Pc qui est supérieure à la distance seuil.

Selon le critère du nombre, l'itération de l'algorithme s'arrête lorsque l'on a sélectionné au plus un nombre déterminé de points.

En variante, on génère des régions en forme d'anneau en ne sélectionnant pas (ou en éliminant de la région obtenue) l'ensemble des points pour lesquels la distance les séparant du point (ou des points) Pc choisi est inférieure à une distance minimale seuil.

Si l'on travaille sur une représentation volumique de l'objet telle que le complexe de Delaunay ou le complexe alpha (modélisant également les points internes et les arêtes les reliant), le procédé est généralisable et permet la génération de régions internes et intermédiaires à partir du calcul de la distance géodésique entre deux points quelconques de l'objet.

Critère de distance dépendant de propriétés remarquables

Selon une autre forme de réalisation, la segmentation de l'objet en régions contigϋes est mise en œuvre en fonction de l'état de propriétés remarquables, c'est-à-dire des propriétés géométriques, physico-chimiques ou évolutives, etc. ayant un intérêt pour le domaine ou l'application de l'objet qui est étudié, de manière à générer en automatique des régions correspondant à une ou plusieurs de ces propriétés. Ces régions caractérisant des états bien précis de l'objet sont construites sans a priori de forme ni de taille et sont appelées par conséquent des empreintes

structurales. Bien entendu, l'une au moins des propriétés utilisées pour la génération de l'empreinte structurale peut être une propriété de localisation spatiale : on obtient alors simplement une région selon le critère de distance, qui peut en outre éventuellement caractériser des propriétés remarquables de l'objet.

Typiquement, il s'agit (1 ) de la localisation spatiale (coordonnées de points de l'objet)) ; (2) de la courbure locale d'une surface ; (3) de l'orientation de la normale locale de surface ou d'un point de cette surface ;

(4) de l'indice de flexibilité local (obtenu par exemple par des approches de dynamique ou mécanique moléculaire, ainsi que par les modes normaux);

(5) de l'indice de malléabilité local (obtenu par exemple soit à partir des données de flexibilité et/ou à partir de la localisation spatiale des cavités, vides et zones de faibles densités de l'objet); (6) la présence d'un groupe fonctionnel (hydroxyle, carboxyle, etc.) ; (7) le potentiel électrostatique ou la charge locale ; (8) l'indice de conduction local, dépendant par exemples des matériaux utilisés en chaque point de l'objet ; (9) la densité locale (dépendant du matériau) ; (10) la résistance locale (étant dérivée soit de mesures pré-établies ou déterminées par un procédé semblable à celui de la malléabilité); (1 1 ) dans le cas des molécules, le score de conservation déterminé à partir des alignements multiples des séquences ou des structures des molécules homologues. Ce score de conservation renseigne sur la variabilité observée d'un résidu (ou d'un groupement d'atomes) précis au cours de l'Evolution (et dans certains cas pour un clade précis). Une fois l'alignement multiple obtenu, il peut-être calculé notamment à partir de l'entropie de Shannon, dérivée de la Théorie de l'Information ; (12) le score de coévolution de la région déterminé à partir des alignements multiples des séquences ou de structures homologues en observant si les changements évolutifs d'un résidu (ou groupement d'atomes) semblent corrélés aux changements évolutifs observés sur d'autres résidus (ou groupement d'atomes). Il renseigne sur de possibles liens fonctionnels entre différentes régions de la molécule, notamment dans le cas des phénomènes allostériques.

Cette forme de réalisation peut notamment être cumulée avec la forme de réalisation précédente, de manière à générer des régions et/ou des empreintes structurales ayant à la fois des propriétés géométriques, physico-chimiques et/ou évolutives remarquables et respectant le critère de distance.

Pour cela, les propriétés étudiées doivent être numérisables, et optionnellement normalisables.

Avantageusement, pour l'implémentation de cette forme de réalisation, le maillage de l'objet tridimensionnel est transposé dans un graphe de manière à pouvoir disposer des outils de la Théorie des Graphes.

De la sorte, il est possible de calculer, pour une propriété P ayant par exemple des valeurs dans l'intervalle [0,1 ], une distance relative à cette propriété qui sépare deux nœuds N1 et N2 du graphe correspondant à des points S1 et S2 du maillage d'un objet tridimensionnel donné (Figure 1 d).

Par exemple, on peut calculer la distance (euclidienne, de Manhattan, etc., et relative à une ou plusieurs propriétés) séparant deux nœuds donnés N1 et N2 directement reliés entre eux par une arête en calculant la distance entre les valeurs P( N1 ) et P( N2 ).

De même, on peut calculer la distance géodésique séparant deux nœuds donnés N1 et N2 indirectement reliés en calculant la somme des sous-distances issues du plus court chemin entre les nœuds N1 et N2 .

Pour cette propriété P, la distance « géodésique » Dp(N1N2) séparant les deux nœuds N1 et N2 est alors égale à :

Plus généralement, étant données n propriétés P1 , P2 , ..., Pn ayant des valeurs sur l'intervalle [0,1 ], la distance géodésique entre


les états de ces propriétés pour les nœuds N1 et N2 se généralise alors à:


Le paramètre 1/n est optionnel et permet de normaliser la distance par le nombre de propriétés. En assignant au poids w(N1 N2) de l'arête reliant les nœuds N1 et N2 la distance euclidienne calculée à


partir des différences d'états entre les nœuds N1 et N2 pour les propriétés P1 , P2, ..., Pn , il devient possible de générer des régions à partir d'un ensemble de propriétés, sans a priori de forme ni de taille. Ces empreintes structurales caractérisent des régions généralement importantes et propres à l'objet, à une sous-famille ou à une famille d'objets. Cette description nouvelle des objets tridimensionnels accroît la connaissance qui peut-être extraite de façon systématique et sans intervention humaine depuis la structure de l'objet et à partir de propriétés telles que la courbure, la distribution des charges, ou des indices colorimétriques assignés eux aussi de façon automatique. Cette caractérisation automatique des empreintes structurales de l'objet (régions remarquables) a des applications notamment en Intelligence Artificielle (IA) pour permettre au robot de mieux décrire et interagir seul avec son environnement, ainsi que pour établir des classifications (liens) entre objets à partir de leurs empreintes structurales. En biologie, cette caractérisation permet de mieux décrire et comparer les molécules, notamment afin de les regrouper et de mieux en comprendre les multiples fonctions. En analyse d'image, en utilisant une propriété telle que la couleur ou la teinte de gris, elle permet de sélectionner des régions de l'image ayant une couleur ou une teinte similaire. En particulier, l'approche permet alors de déterminer le contour et la sélection d'objets contenus dans une image en tolérant un facteur d'erreur paramétrable permettant l'extension d'une région définissant un objet.

En variante, le poids w(N1 N2) assigné à l'arête reliant les deux nœuds N1 et N2 peut être défini comme étant la distance de Manhattan la distance P-ième de Minkowski

ou la distance de Chebyshev

Afin de favoriser (respectivement défavoriser) une propriété Pi par rapport à une (ou plusieurs) autre(s) propriété(s) pj , il est possible de pondérer l'importance de chacune des propriétés Pi , Pj . On obtient alors les équations suivantes, où ai est un coefficient de pondération de la propriété Pi :

Par ailleurs et dans le cadre de la détection des empreintes structurales d'un objet tridimensionnel, il est possible de fixer un nombre minimum de points pour la constitution d'une empreinte afin que celle-ci soit de taille suffisante selon les critères de l'application désirée.

Dans le cas où la propriété Pi est la localisation (coordonnées), ce critère correspond au critère de distance spatiale préalablement décrit, dans lequel la distance géodésique entre deux états de la propriété est égale à la distance spatiale le long de la surface de l'objet entre les deux points associés.

La génération des empreintes structurales (i.e. des régions générées sans a priori de forme ou de taille) sur le fondement de l'état de propriétés remarquables en chaque point de l'objet se fait donc selon un algorithme similaire à celui utilisé pour générer des régions sur le fondement du critère de distance spatiale. Toutefois, dans le cas d'une empreinte structurale caractérisant une ou plusieurs propriétés remarquables données, on tient également compte de l'état de cette propriété (l'isolation d'une zone, sa conduction, la profondeur d'un creux, sa planéité, etc.). Ainsi, au lieu d'assigner une valeur nulle aux nœuds formant le centre de la région comme dans le cas du critère de distance, on leur assigne une valeur égale à la distance entre leur état réel et l'état recherché pour cette propriété remarquable (i.e. pour la propriété courbure, l'état recherché est par exemple une crevasse de valeur numérique proche de 0, et l'état réel d'un point est sa valeur de courbure calculée). Cette différence permet de tenir compte dès le début de la génération de l'empreinte de l'erreur introduite par l'état du centre et de limiter l'expansion de l'empreinte en fonction de cette erreur originelle. Plus généralement, lors de l'étape d'initialisation qui permet de générer une empreinte structurale, on assigne à tous les points du maillage de l'objet (ou du graphe associé) la distance entre leurs états réels et leurs états recherchés.

Par exemple, dans le cas où l'on souhaite retrouver l'ensemble des régions creuses d'une surface d'objet, c'est-à-dire les ensembles de points contigus dont la valeur de courbure Ps est proche de 0 - des exemples de méthode de calcul de la courbure locale d'une région seront donnés dans la suite de cette description - on détermine en premier lieu la valeur de courbure en chaque point de la surface de l'objet, et on choisit un point de l'objet pour générer une région correspondant à une crevasse et d'après les valeurs de courbure en chaque point. Pour une valeur de courbure P(Ci)=0.2 en Ci , on assigne alors une valeur d'erreur ||P(Ci)- Ps || à Ci égale à 0.2, puis on étend la région jusqu'à atteindre un certain seuil d'erreur (généralement faible) sur les états des propriétés recherchées. Par exemple, lors de la détection des crevasses d'un objet tridimensionnel, on pourra rechercher un état de courbure proche de 0, et un seuil d'erreur de l'ordre de 0.1 permettant une propagation flexible de la région

En itérant sur tous les points de surface, il est alors possible d'identifier l'ensemble des régions creuses de la surface de l'objet.

Dans le cas de plusieurs propriétés, on assigne à chacun des points du maillage de l'objet (ou du graphe associé) la somme des distances entre chacun de leurs états et les états souhaités. Comme vu précédemment, cette somme des distances peut toutefois être normalisée par le nombre de propriétés de sorte que la valeur d'extension à choisir n'en soit pas dépendante. Dans le cas contraire, si N propriétés étaient choisies, le paramètre d'extension des empreintes structurales devrait généralement être de l'ordre k * N où k serait la valeur d'extension si une seule propriété était utilisée.

Les régions ainsi obtenues caractérisent donc des aspects bien précis des objets tridimensionnels qui sont étudiés.

Dans le cas des surfaces moléculaires, il est donc possible de caractériser l'objet en le segmentant en régions creuses et conservées (qui sont des cibles de choix pour les composés actifs), ou en régions creuses et comportant un potentiel électrostatique donné (dont le rôle est important notamment dans le domaine du « Drug Design »), etc.

Dans le cas d'une utilisation industrielle, il est possible de rechercher de façon systématique les régions d'un objet tridimensionnel étant à la fois isolante et résistante.

Dans le cas d'une application chirurgicale, le procédé selon l'invention permet de définir les régions endommagées d'un tissu ou d'un organe, ainsi que leurs limites, en utilisant notamment comme propriétés remarquables des données colorimétriques (mettant en évidence une lésion), des propriétés de courbures ou encore de résistance du tissu. Ce procédé comme illustré précédemment peut également être mis à profit pour générer les régions définissant des objets présents dans une image, à partir d'empreintes structurales générées sur la distance entre les pixels, et sur l'état colorimétrique des points.

Dans d'autres domaines tels que la robotique, des propriétés telles que la courbure, la flexibilité, la densité, la résistance, la conductance ou l'isolation de l'objet sont importantes et peuvent être prises en compte afin de déterminer par exemple la région la plus adéquate au vu des critères sélectionnés pour permettre l'amarrage d'un bras robotique.

L'ensemble des régions, que ce soit par le critère de distance et/ou en fonction de propriétés remarquables, peut être généré de manière efficace et rapide en automatique.

Par ailleurs, la génération de telles régions permet de regrouper et de classer des objets tridimensionnels complexes dont elles sont issues en fonction de la présence de ces régions ou empreintes structurales, caractérisant des propriétés et aptitudes précises de l'objet tridimensionnel.

En particulier, la génération de ces régions peut être utilisée afin de simplifier la représentation d'objets tridimensionnels ou de régions plus importantes.

Par exemple, selon un mode de réalisation, on définit un graphe dans lequel chaque nœud correspond à une région obtenue à partir d'une ou de plusieurs propriétés remarquables, et où chaque arête correspond à une liaison entre deux de ces régions, définie soit par un contact existant dans le maillage initial entre ces deux régions, soit sur un critère de distance arbitraire entre les états des propriétés de ces régions. De la sorte, on simplifie la comparaison des objets tridimensionnels en comparant les graphes de leurs régions.

De la même façon, une région pourra être décrite par des sous-régions obtenues à partir de certaines propriétés, notamment des propriétés physico-chimiques et/ou géométriques, afin d'en simplifier la représentation et la comparaison ultérieures avec d'autres régions ou objets-tridimensionnels.

Décrire une région R en sous-régions peut en outre permettre de déterminer les sous-régions spécifiques de R, c'est-à-dire, les sous-régions que l'on retrouve uniquement sur l'objet considéré dans un contexte environnemental donné : par exemple un environnement cellulaire, un atelier de montage comprenant différents objets et outils, une photographie ou une scène tridimensionnelle comprenant plusieurs objets. La modélisation d'un environnement est alors atteinte en rassemblant dans une base de données la collection des régions et empreintes structurales susceptibles d'être générées à partir des objets de cet environnement.

Critère de propagation (contraintes de formes)

Selon une autre forme de réalisation, des régions contigϋes sont créées en imposant également des critères de propagation (et donc de forme) à la région.

Pour cela, on définit un vecteur orienté dans un plan du graphe, puis on pondère le parcours en fonction de la direction et/ou de l'orientation de chaque arête du graphe par rapport au vecteur
Ainsi, le poids d'une arête (défini selon le critère de distance et/ou en fonction de propriétés remarquables) reliant deux points S1 et S2 du graphe sera égal à la distance les séparant à laquelle est ajoutée un facteur tenant compte de l'angle
entre l'arête et le vecteur plus l'angle (ou l'orientation)

entre l'arête et le vecteur est faible, plus le poids de cette arête

sera faible, et inversement :

en fonction de la direction de :



en fonction de l'orientation de :



où correspond au poids de l'arête et



correspond à l'angle en radian entre les vecteurs et

; et


Kd et K0 sont des constantes.

On obtient ainsi des régions allongées dans la direction ou le sens du vecteur contrainte .


La figure 1 c illustre notamment la génération d'une région à partir d'un graphe d'objet selon un vecteur contrainte
avec pour centre de la région à générer le point Pc. A nouveau, les arêtes sélectionnées pour la génération de la région sont en gras, et la région obtenue est grisée.

Il est de même possible de générer des régions de forme arbitraire en définissant plusieurs vecteurs et en appliquant le critère de

propagation avec chacun d'eux :

en fonction de la direction de


en fonction de l'orientation de



correspond au poids de l'arête
et

Kd1 , ..., Kdn et Ko1 , ..., Kon sont des constantes.

En variante de cette forme de réalisation, il est possible de défavoriser l'expansion d'une région qui correspond à la direction (respectivement l'orientation) d'un ou plusieurs vecteurs en augmentant le poids de l'arête lorsque l'angle entre l'arête et le vecteur est faible.



Par ailleurs, la croissance de la pénalité peut être adaptée en appliquant différents opérateurs tels que racine carrée et exponentielle à

D'autres modes de détermination du poids des arêtes en fonction de l'orientation ou de la direction d'au moins un vecteur sont possibles.

Par exemple, dans le cas d'une expansion en fonction d'un vecteur contrainte d'orientation, l'équation suivante peut également être utilisée :


où \\π\\ correspond au modulo de π ; et

Kπ est une constante.

Dans cette forme de réalisation, la pénalité


est croissante sur l'intervalle [0, π[ et à valeurs sur [0, π], tandis que sur l'intervalle ]π,2π[, la pénalité est décroissante et à

valeurs sur [ π, 0]. Pour un angle de 0, il faut alors assigner la pénalité 0, et pour un angle de π, il faut assigner la pénalité π.

Selon une forme de réalisation, on tient compte de l'orientation globale de la région dans l'espace tridimensionnel (si le vecteur est tridimensionnel), ou de son orientation simplifiée dans un plan tangent au point Pc à partir duquel la région est étendue, en projetant les vecteurs
et dans le plan tangent.


Critère d'orientation du contour

Selon une autre forme de réalisation encore, particulièrement adaptée à la définition des régions de petits objets et cumulable avec les formes de réalisations précédemment décrites, on définit des régions en limitant leur contour à une orientation donnée, de manière à ne sélectionner que la région de cet objet qui présente un intérêt plutôt que l'objet dans son intégralité (étant donné sa petite taille).

En effet, si l'objet est suffisamment petit et que la région est suffisamment grande, la région obtenue est non seulement contiguë, mais également cyclique et englobe l'ensemble de l'objet, de sorte qu'un point extrême de la région est connecté au point extrême opposé, ce qui permet notamment d'obtenir des tores. Dans le cas extrême, la région correspond à l'enveloppe de l'objet.

Selon une forme de réalisation de ce critère de segmentation, on génère une région Ri selon un algorithme quelconque, typiquement selon un critère de distance.

Dans un deuxième temps, on définit une normale de la région en

calculant la moyenne des normales aux facettes (ou des normales aux points, chaque normale en un point étant obtenue en effectuant la moyenne des normales des facettes adjacentes à ce point) de la région :

où Si est un point de la région quelconque ;


est la normale à une facette comportant le point Si, ou la normale au point Si ;

Cette moyenne peut-être pondérée par la distance géodésique (ou éventuellement euclidienne) de la normale à un point de la région, l'aire de la facette portant la normale, la combinaison à la fois de la distance et de l'aire de la facette portant la normale, etc.

On génère ensuite le contour CRi de la région Ri . Pour cela, on choisit un point quelconque Ci de la région Ri, typiquement son barycentre.

Dans un troisième temps, on détermine le point CPi de la région pour lequel la distance géodésique séparant ce point du point Ci est la plus grande puis, parmi l'ensemble des points de la région Ri qui sont directement adjacents au point CPi, on détermine le point P adji qui est séparé du point Ci par la distance géodésique la plus grande.

Les points CPi et P adji sont donc, par définition, deux points du contour CRi .

On réitère alors l'opération en partant du point qui vient d'être déterminé, de manière à obtenir un ensemble de points P adji ,


situés à la périphérie de la région Ri, et ce tant que le point adjacent


est différent du point CPi.

On détermine ainsi, de proche en proche, l'ensemble des points qui appartiennent au contour CRi de cette région Ri.

Une fois le contour de la région déterminé, on définit un angle seuil, puis on élimine l'ensemble des points Padjk parmi les point CPi,


du contour CRi pour lesquels l'angle dépasse l'angle

seuil,

ou est 'a normale à la surface au point Padjik


est la normale de la région Ri .


On obtient ainsi une sous-région Ri 1 de la région Ri comportant l'ensemble des point de la région initiale Ri , à l'exception des points Padjk du contour CRi qui ne respectaient pas le critère d'orientation, c'est-à-dire dont la normale forme un angle plus important que l'angle seuil avec la normale de la région.

On réitère alors l'algorithme sur le fondement de cette sous-région Ri1 , de manière à éliminer du contour de cette sous-région Ri1 l'ensemble des points qui ne satisfont pas non plus au critère de continuité.

De proche en proche, on obtient alors une sous-région Ri j de la région initiale Ri , pour laquelle le contours respecte le critère d'orientation.

Selon une autre forme de réalisation, le contour de ces régions limitées à une orientation donnée est obtenu en déterminant l'ensemble des points dont la profondeur est maximale, et en générant de manière itérative la liste des points du contour CRi de la région à partir de ces points les plus profonds. La profondeur est définie comme étant le plus petit nombre d'arêtes séparant un point de la région au plus proche point central Pc à partir de laquelle la région à été générée.

Par exemple, les points les plus profonds (distants du ou des points centraux) peuvent être déterminés selon l'algorithme de Dijkstra en assignant à chaque point sa distance à un point d'origine déterminée en fonction du nombre d'arrêtés parcourues lors du parcours des voisins.

La condition d'arrêt de la recherche des points du contour est alors que tous les points du contour doivent être reliés par au moins une arête, de manière à garantir que la région obtenue est contigϋe et donc connexe.

Critère d'orientation des points de la région

II est également possible, lors de la construction d'une région, de ne retenir que les points dont la normale forme un angle avec la normale
de la région inférieur à l'angle seuil. Cependant, cette approche peut générer des régions comportant des trous internes, notamment lorsque la région Ri présente une forme tridimensionnelle accidentée (plissée). Ces trous internes doivent donc être détectés, et les points qui ont été injustement retirés doivent être rajoutés.

Toutefois, dans le cas d'objets se liant dans des cavités, par exemple des composés de petite taille se liant dans des cavités de molécules, la sélection d'une région englobant tout le composé, ou plus précisément la sélection de l'enveloppe même du composé, peut s'avérer plus judicieuse que sa segmentation, auquel cas il peut être avantageux de sélectionner l'une ou l'autre des approches en fonction de l'application et de l'information recherchée.

Ainsi, à partir d'un ensemble de points de surface d'un objet tridimensionnel, et donc d'un ensemble de nœuds dans le graphe de surface associé, il est possible de définir N régions suivant un ou plusieurs critères de segmentation et d'obtenir notamment des régions pleines, en anneau, suivant une extension normale ou dirigée par un voire plusieurs vecteurs, etc.

Toutefois, la génération en automatique de régions et empreintes structurales selon ces différents critères résulte en l'obtention de régions redondantes, c'est-à-dire de régions comportant un grand nombre de points en commun.

Avantageusement, la présente invention propose d'éliminer tout ou partie de ces régions redondantes afin de réduire le nombre de régions à tester, et d'accélérer ainsi l'utilisation des régions obtenues grâce au procédé selon l'invention, notamment lors de la génération des bases de données de régions, lors du criblage d'objets tridimensionnels, la recherche de régions comportant des propriétés remarquables particulières, etc.

Selon un mode de réalisation avantageux, on définit un sous-ensemble M des N régions générées qui comprend les régions non-redondantes de N (c'est-à-dire un ensemble de régions R1, .., RN où, pour tout couple de régions ( Ri, Rj), le pourcentage de points communs est inférieur à un seuil).

Pour cela, au cours d'une première étape, une étiquette unique est attribuée à chaque point de l'ensemble N, par exemple lors de la génération du maillage de surface selon les techniques connues du « marching cube » (un algorithme d'infographie permettant de générer un objet polygonal à partir d'un champ scalaire tridimensionnel généré par approximation d'une isosurface) ou sur la base de la localisation spatiale du point lorsque celle-ci est unique (par exemple en transformant en chaîne de caractères les coordonnées arrondies du point).

Une table de hachage (i.e. une structure de données permettant une association clé-élément) est ensuite définie pour chaque région Ri, dans laquelle les éléments sont constitués par les points de la région Ri, tandis que les clés associées sont définies sur le fondement de leur étiquette unique respective.

Puis, afin de déterminer si deux sous régions Ri et Rj de N sont redondantes, les tables de hachage respectives des deux régions sont comparées afin de déterminer le pourcentage de points qu'elles ont en commun. Si ce pourcentage est supérieur à un seuil prédéfini, par exemple 85%, les régions Ri et Rj sont considérées comme redondantes et l'une d'entre elles est éliminée.

A nouveau, il est possible de mettre en œuvre les approches que l'on vient de décrire pour définir des régions contigϋes qui intègrent également (ou exclusivement) des points à l'intérieur de l'objet tridimensionnel (si celui-ci est plein) en utilisant par exemple le maillage obtenu par le complexe de Delaunay décrit par Fletcher et al dans le brevet américain US 7 023 432. La définition de ces régions internes permet alors de comparer des objets tridimensionnels aussi bien à partir de leurs régions de surface qu'à partir de leurs régions internes ou de leurs régions intermédiaires (comprenant des points internes et des points de surface).

Les propriétés remarquables

Après avoir généré un ensemble de régions et/ou d'empreintes structurales à partir du maillage ou du graphe représentant l'objet tridimensionnel, on caractérise des régions de l'objet en fonction de l'état de certaines propriétés géométriques et/ou physico-chimiques qui ont un intérêt dans l'application et/ou le domaine étudié.

En variante, cette étape est mise en œuvre sur l'objet directement, avant génération des régions et/ou empreintes structurales.

Dans ce qui va suivre, des propriétés géométriques, physicochimiques et/ou évolutives vont être décrites. Cette description n'est cependant donnée qu'à titre d'exemple et n'est aucunement limitative.

La courbure locale

Une première propriété géométrique est la courbure locale en chaque point de la surface de l'objet. Cette propriété de surface est une information importante à la fois pour la visualisation de la région (et de l'objet tridimensionnel) mais aussi pour l'interprétation informatique et automatisée des surfaces. Elle permet de décrire pour tout point de surface la tendance locale de la région, et d'indiquer par exemple si le point étudié appartient à une sous-région concave (en forme de creux), plate ou convexe (en forme de bosse).

Différentes approches existent pour définir une telle courbure. Ces approches usuelles sont généralement basées sur l'utilisation de l'angle solide ou de la densité atomique locale (celle-ci étant corrélée à la forme locale de la région de surface) qui induit cependant un biais potentiel lors de la présence de cavités (zone exempte de points) sous la surface. Le

procédé de calcul de courbure que nous proposons fonctionne sur tout objet tridimensionnel pour lequel une enveloppe (surface) est définissable, que l'objet soit creux ou plein.

Dans un espace en deux dimensions, pour un ensemble de points de surface S1 , S2 , ..., S n , reliés deux à deux par des segments [S1S2], [S2S3], ...,

[Sn-1,Sn] , la tangente à la surface au niveau de chacun de ces points ainsi que la normale perpendiculaire à cette tangente et passant par le point peuvent être déterminées de manière conventionnelle. Les normales normalisées (de norme unitaire) à la surface sont ensuite

assignées aux points S1 , S2 , ..., Sn .

Dans un espace à trois dimensions, plusieurs méthodes permettent de déterminer la normale en un point en faisant intervenir les facettes adjacentes ou proches à ces points. Notamment, la normale à une facette peut être calculée à partir du produit vectoriel des deux vecteurs définis par deux de ses arêtes adjacentes ; ce produit vectoriel étant alors par définition perpendiculaire à la facette. Ces méthodes sont applicables à toute surface, et permettent de calculer la courbure locale en tout point d'une région ou de l'objet tridimensionnel. Elles ne sont donc pas limitées aux régions obtenues selon l'invention, ni même au procédé selon l'invention.

Selon une forme de réalisation, on calcule de manière conventionnelle la normale en un point S1 pour lequel on souhaite calculer sa courbure locale, en moyennant l'ensemble des normales de chacune des facettes (ou points) adjacents ou contigϋes à S1. Chaque normale ainsi moyennée peut alors être pondérée, notamment par la distance de S1 au centre des facettes (ou points) contigϋes et/ou par l'aire des facettes contigϋes.

Puis, si S1T est la transposée du point S1 par sa normale s2τ
est la transposée du point S2 par sa normale et plus généralement SiT

est la transposée du point Si par sa normale la courbure locale au

point Si est alors définie en deux dimensions comme la moyenne C(Si)

des rapports et



Sur la figure 2, on peut voir que et donc que le

point S2 est sur une bosse, tandis que et donc que le

point S5 est dans un creux.

De manière générale, à partir d'un point de surface Si , il est possible de créer une zone contigϋe Z1 autour de ce point en rassemblant les points Sj les plus proches du point Si . Pour cela, on définit une distance seuil et on détermine l'ensemble des points S1 , S 2 , ..., S n de la région pour lesquels la distance au point Si est inférieure ou égale à cette distance seuil. La définition de la distance seuil dépend notamment de la précision souhaitée pour la courbure locale : plus la distance seuil est faible, plus la courbure reflète des tendances locales ; plus la distance seuil est grande, plus la courbure reflète des tendances globales de surface.

La courbure locale C(Si) au niveau d'un point Si est alors égale à la

moyenne de tous les rapports où d( SiSj ) est de préférence la

distance géodésique entre les points Si et Sj :


En variante, Cl(SiS1 ) est la distance euclidienne entre les points S1 et

Si .

Lorsque le rapport C(Si) est strictement supérieur à 1 (respectivement strictement inférieur à 1 ou strictement égal à 1 ), le point se trouve sur une bosse (respectivement un creux ou un plat).

En variante, afin de disposer d'une valeur de courbure normalisée et continue sur l'intervalle [0,1 ] la courbure C(Si) peut également être calculée selon la formule suivante :



est l'angle en radian entre les vecteurs normaux et
et


Kc est un facteur de pondération permettant de moduler le contraste entre une courbure plate et une bosse ou un creux.

Lorsque les variations d'angle entre
et sont comprises entre

0 et une valeur adéquate pour Kc déterminée empiriquement est 0.3.

Si la valeur de la courbure C(Si) n'appartient plus à l'intervalle [0,1 ], il suffit de l'écraser de sorte que lorsqu'elle est supérieure à 1 , la valeur de la courbure soit ajustée à 1 , et que lorsqu'elle est inférieure à 0, elle soit ajustée à 0.

Analytiquement, pour une courbure normalisée et continue sur l'intervalle [0,1 ], lorsque la valeur de C(Si) est proche de 0, 0.5 ou 1 , le point Si est au niveau d'un creux, sur un plat, ou au niveau d'une bosse respectivement.

En fonction des besoins et afin de faire ressortir davantage la tendance locale ou globale de la courbure, il est possible soit de faire varier la taille de la zone Zi (en faisant varier la taille de la distance seuil), soit de pondérer la courbure des points Sj de Zi , notamment par l'inverse de leur distance géodésique au point central Si multiplié par une constante L

En variante, de même que pour la détermination des normales, plutôt que d'effectuer la moyenne arithmétique ou la moyenne pondérée par l'inverse des distances, on pondère le calcul de la courbure par l'aire des facettes adjacentes.

Selon une autre variante encore, on obtient des valeurs de courbure sur l'intervalle [-1 ,1 ], les creux, les plats et les bosses étant alors

définis pour des valeurs proches de -1 , 0 et 1 respectivement, en suivant la formule suivante :


Ces différentes variantes de la méthode générale de calcul de la courbure que nous venons de détailler peuvent être mise en œuvre pour tout type d'objet tridimensionnel ou de région tridimensionnelle, tant qu'un maillage de l'objet ou de la région, éventuellement transposé dans un graphe, a été généré. La méthode de calcul de la courbure locale n'est donc pas limitée au procédé selon l'invention. Elle présente l'avantage d'être exacte et rapide à calculer.

Le potentiel électrostatique

Une deuxième propriété est relative aux groupes fonctionnels et au potentiel électrostatique de la région étudiée. Le potentiel électrostatique peut notamment être obtenu par l'une des nombreuses approches existantes qui résout l'équation de Poisson Boltzmann.

On entend par groupe fonctionnel tout ensemble de points présentant une charge partielle ou complète, ou tout ensemble de points partageant un même potentiel vis-à-vis des interactions électrostatiques.

Typiquement, pour une molécule, il s'agit des groupements chimiques fonctionnels usuels tels que la cétone, le carboxyle, etc., tandis que pour des objets tridimensionnels industriels, il s'agit par exemple de bornes électriques ayant des pôles positifs et négatifs, des surfaces conductrices, des surfaces isolantes, etc.

Le tableau suivant présente des groupements fonctionnels en chimie organique. L'intérêt de les différencier lors de la comparaison de molécules tient en ce que chaque groupe dispose d'un potentiel d'interaction et d'une réactivité chimique différente :

Pour déterminer de manière efficace les interactions entre des objets ou des régions d'objets, il peut être nécessaire de prendre en compte à la fois la notion de courbure et la notion de potentiel électrostatique, la complémentarité de forme n'étant pas toujours suffisante.

En effet, dans le cas des objets déformables, l'importance des interactions électrostatiques entre deux objets (et plus précisément entre leurs régions qui interagissent) peut être plus grande que l'apport de la propriété de courbure lors de leur comparaison et en vue de prédire leur interaction. Ce phénomène est en particulier dû aux possibles changements de conformations des objets et régions lors de leur interaction.

La déformabilité

Lors de la comparaison d'objets tridimensionnels pleins, afin de quantifier la quantité de vide sous la surface de l'objet et de déterminer la malléabilité de la structure, il est possible de détecter les cavités présentes dans l'objet. En effet, la malléabilité (ou déformabilité) d'un objet est la conséquence de plusieurs facteurs comprenant la présence de cavités (ou zones de faibles densités) et/ou l'indice de flexibilités de la zone.

Typiquement, dans le cas des molécules, la présence de cavités peut permettre la fixation de ligands. Il s'agit donc, pour ce type d'objet tridimensionnel, d'une propriété remarquable qu'il peut être utile d'étudier.

Afin de quantifier la déformabilité potentielle d'un objet, on calcule la quantité de vide sous la surface (cavités) pour chaque point de la région.

Un exemple de réalisation de ce procédé de quantification du vide sous la surface en chaque point P de la région est de récupérer l'ensemble Pcav des points faisant partie d'une ou plusieurs cavités et suffisamment proches du point P. Dès lors, il est possible de fournir une approximation du volume des cavités sélectionnés par ces points Pcav en considérant pour chaque cavité, que le volume de vide proche de P équivaut au volume total de la cavité multiplié par le pourcentage de points Pcav de cette cavité sélectionnée. Ainsi par exemple, si au voisinage du point P une cavité de 800 Å3 est présente sous la surface et que l'on sélectionne 20% des points Pcav de cette cavité, alors la quantité de vide approximée au point P sera de 160 Å 3.

Le volume d'une cavité peut notamment être approximé en calculant la somme des volumes des tétraèdres vides qui la composent dans le complexe de Delaunay.

Le rayon de la région

Une autre propriété remarquable d'une région Ri est son rayon T(Ri ) .

Pour générer le rayon T(Ri ) d'une région Ri, on détermine de manière conventionnelle le barycentre Cgi de cette région Ri.

Le rayon euclidien T(Ri ) de la région Ri peut alors être calculé selon la formule suivante :


où est la distance euclidienne entre le barycentre Cgi et un

point Sci du contour.

En variante, on calcule le rayon moyen euclidien de la région en sommant la moyenne et l'écart type moyen (std) des distances séparant tous les points Si de la région Ri et Cgi :

Selon une autre variante encore, il est possible de calculer un rayon géodésique de la région en remplaçant par d(Cgi Si) qui renvoie la

distance géodésique entre les points Cgi et Si. Dans le cas des régions générées sans contrainte de forme et suivant un critère de distance spatiale géodésique, le rayon géodésique de la région sera proche de la distance seuil utilisée lors de la génération de la région.

Dans le cas des régions formées avec contraintes, il est cependant possible de définir plusieurs tailles dans la direction (respectivement l'orientation) des vecteurs contraintes.

Selon une autre variante encore, on effectue une Analyse en

Composante Principale (ACP) afin de déterminer les axes principaux de la région.

Score d'énergie et filtres sur les comparaisons

Nous allons à présent décrire les étapes de comparaison des objets et régions tridimensionnels selon l'invention.

Score d'énergie

Afin d'évaluer la qualité de l'alignement de deux régions R1 et R2 en fonction de propriétés remarquables déterminées, l'invention propose de calculer, pour chaque alignement de ces régions, un score d'énergie.

Le score d'énergie dépend en grande partie de la nature de l'objet considéré. Toutefois dans le cas de la comparaison des régions de surfaces d'objets, certaines propriétés telles que la courbure, la résistance (ou la malléabilité), la densité, la localisation spatiale des points de surface (ainsi qu'une probabilité de distribution indiquant l'erreur possible sur leur localisation) et les normales aux points et facettes de surface sont des propriétés communes à tous les objets tridimensionnels, et peuvent donc

systématiquement intervenir dans le calcul du score d'énergie et dans la comparaison des régions.

Etant données n propriétés Pi définies pour chaque point et/ou pour chaque facette d'une région R1 , le score d'énergie local Scorelocal (S1 S2) correspondant à l'alignement d'un point S1 de la région R1 et d'un point S2 de la région R2 est donné par la formule suivante :


où αi est un paramètre de pondération du score Sœrep de la propriété

Pi pour les deux points alignés S1 et S2 .

De préférence, tous les renvoient un score normalisé sur un

même intervalle, de sorte que pour des coefficients αi égaux à 1 , les propriétés contribuent de manière égale au score global.

Par ailleurs, afin de répondre aux conventions usuelles sur les scores d'énergies et les scores d'entropies, le score d'énergie pour

une propriété Pi renvoie de préférence une valeur normalisée sur l'intervalle [-1 , 1 ], de sorte que le score d'énergie de cette propriété tend vers -1 lorsque les états de la propriété sont similaires aux points S1 et S2 , et vers 1 lorsqu'ils diffèrent.

Pour tenir compte de la variabilité intrinsèque d'une région fonctionnelle d'un objet lors de sa comparaison, un exemple de réalisation consiste à introduire un seuil de tolérance Tpi, généralement empirique et propre à la propriété Pi .

Ce seuil de tolérance Tpi définit l'écart acceptable entre les états respectifs de la propriété Pi en deux points S1 et S2 des régions R1 et R2 respectivement.

Dès lors que l'écart observé entre les états de la propriété au points S1 et S2 est inférieur à ce seuil de tolérance Tpi, la variation de la propriété Pi en ces points est considérée comme « normale », et le score d'énergie renvoie - conformément avec les conventions de cette forme

de réalisation - une valeur négative.

Par opposition, dans le cas d'un écart observé supérieur au seuil de tolérance Tpi, le score d'énergie renvoie une valeur positive,

indiquant que la variation de la propriété est « anormale » en ces points.

Un exemple de calcul du selon cette forme de réalisation

consiste à calculer dans un premier temps l'écart effectif des états

de la propriété Pi en deux points S1 et S2 et l'écart effectif normalisé

Pour cela,' on calcule la différence entre l'écart observé

Δ observé des états de cette propriété aux points S1 et S2 , et le seuil de tolérance fixé Tpi pour cette propriété selon les équations suivantes :


où Pi(S1) est la valeur de l'état de la propriété Pi au point S1 ; et

Pi(S2) est la valeur de l'état de la propriété Pi au point S2 .

Le score d'énergie aux points S1 et S2 sera alors égal,

pour une propriété Pi normalisée, à la valeur renvoyée par la fonction logistique L :


avec :

où λ est une constante ; et est la différence des valeurs des états

respectifs des points S1 et S2 pour la propriété Pi (Figure 4a).

Pour une propriété Pi non normalisée, le score d'énergie


aux points S1 et S2 est alors égal à la valeur renvoyée par la fonction logistique L :


avec :


où λ est une constante ; et est la différence des valeurs des états

respectifs des points S1 et S2 pour la propriété Pi., normalisée par la tolérance Tpi relative à cette propriété (Figure 4b).

Ainsi, lorsque la différence entre les états Pi(S1) et Pi(S2) de la propriété Pi est supérieure à la tolérance et sont

positifs et et renvoient une valeur positive au plus

égale à 1 , pénalisant ainsi le mauvais alignement des points S1 et S2 pour la propriété Pi (Figure 4a).

Inversement, lorsque la différence entre les états Pi(S1) et Pi(S2) est inférieure à la tolérance TPi (indiquant donc une variation normale de l'état de la propriété), Δ est négatif et L(A) renvoie une valeur négative au plus égale à -1 , récompensant ainsi le bon alignement des points S1 et S2 pour la propriété Pi.

Typiquement, une valeur adéquate pour la constante λ de la fonction logistique L est 6.

L'avantage de l'utilisation d'un tel score d'énergie basé à la fois sur la définition de tolérances et l'utilisation d'une fonction logistique renvoyant des valeurs sur l'intervalle [-1 , 1 ], tient en ce qu'il est possible d'intégrer une pluralité de propriétés remarquables P1 , P2, ..., Pn souhaitées à l'équation du score local Scorelocal (S1 S2) , tout en conservant un score d'énergie cohérent et performant, tant que les propriétés P1 , P2, ..., Pn sont numérisables et qu'il est possible de leur assigner des tolérances sur les écarts acceptés.

Par ailleurs, si un point Si de la région R1 ne possède pas d'équivalent Sj dans la région R2 pour la propriété Pi, le score d'énergie renvoie une valeur qui est fixée préalablement en fonction des

critères de recherche.

Par exemple, si l'on recherche une région de taille analogue, le score d'énergie correspondant au non alignement du point Si de la région R1 est pénalisant. La valeur du score d'énergie pour ce non alignement peut alors être fixée à la valeur correspondant au score d'énergie (ou à une fraction du score) le plus élevé parmi les scores d'énergie calculés pour les propriétés remarquables P1, P2, ..., Pn étudiées dans les régions comparées. Cette valeur correspond alors au plus mauvais score d'alignement (ou à une fraction du plus mauvais score d'alignement) défini par le score d'énergie pour ces n propriétés. Optionnellement, on pondère la valeur fixée de ce score d'énergie par un facteur de pondération de manière à ajuster l'importance de ce défaut de correspondance, notamment dans le cas où les points non alignés ont un intérêt particulier pour la recherche effectuée.

Au contraire, si l'on recherche une région de taille inférieure à celle de la région R1 (i.e une sous-région de la région étudiée), le score d'énergie correspondant au défaut d'alignement du point Si peut être fixé à une valeur nulle et n'aura donc pas d'incidence sur le score d'énergie global Scoreglobal (R1 R2) . Cela nécessite alors de vérifier le pourcentage de points des régions R1 et R2 qui sont alignés, en plus du score d'énergie, afin de déterminer si l'alignement est réellement pertinent (si la sous-région est suffisamment grande pour présenter un intérêt).

Le score global Scoreglobal (R1 R2) correspondant à l'alignement de deux régions R1 et R2 pour l'ensemble des propriétés remarquables P1, P2, ..., Pn étudiées est alors donné par la somme des scores d'énergie locaux Scorelocal (S1 S2) Pour chacun des couples de points Si et Sj (alignés et non alignés) :


où correspond au point Sj de R2 qui est aligné avec le point Si

de R1 (voir Figure 5a pour le schéma de correspondance des points de deux régions).

Si aucun point ne correspond dans R2 , comme c'est le cas des points S1 et S2 sur la figure 5a, on renvoie alors la valeur fixée pour le score d'énergie correspondant au non-alignement des points Si et Sj .

Ainsi, grâce à ce score d'énergie global renseignant sur la ressemblance de deux régions d'objets tridimensionnels en fonction de N propriétés définies par le domaine et/ou l'application étudiés, il est notamment possible de créer des classifications de ces régions. Les classifications sont alors dépendantes des propriétés choisies lors de la comparaison, si bien que pour un même ensemble de régions, il est possible d'obtenir différentes classifications correspondant chacune aux propriétés utilisées lors de la comparaison / du criblage (ex : l'ensemble des régions convexes, l'ensemble des régions conductrices, etc.)

La classification des régions en groupes se fait alors en fonction des comparaisons par couples de régions et selon leur score d'énergie respectif. Pour chaque couple de régions, le score assigné renseigne sur

leur ressemblance ou leur éloignement en fonction des propriétés remarquables qui ont été choisies pour le calcul du score.

Il est donc possible de construire ces classifications sur la base du score d'énergie global en utilisant les algorithmes de classifications supervisées ou non-supervisées usuelles (k-mean, itératif k-mean, neighbour joining, kohonen, etc).

Par ailleurs, afin de simplifier la classification et de préciser de façon systématique les résultats qui sont les plus pertinents, il est en outre possible de normaliser le score global de chaque alignement.

Pour cela, on cherche à déterminer le score d'énergie le plus élevé que l'on puisse obtenir lors du criblage d'une région, ce qui revient à calculer le score d'alignement de cette région avec elle-même. Par définition, l'alignement de la région avec elle-même renvoie le score maximal atteignable lors de tout criblage. Rappelons ici que le score d'alignement dépendant du nombre de points de la région à cribler, ainsi que des propriétés utilisées pour cette comparaison, les scores maximaux pour deux régions quelconques R1 et R2 ne sont donc pas nécessairement les mêmes.

II suffit alors de normaliser le score de tout alignement obtenu lors du criblage d'une région par ce score maximal obtenu par l'alignement de la région avec elle-même.

Il est ainsi possible de créer une échelle de classification des alignements en fonction de leur qualité. Par exemple, lorsque le score normalisé d'un alignement est supérieur à 80 (sur 100), le criblage a permis de retrouver des régions très similaires et la plupart partagent une même fonction ; pour un score compris entre 50 et 80 (sur 100), certaines de ces régions similaires ne présentent pas une même fonction (on accepte davantage de variabilité) ; pour un score compris entre 35 et 50 (sur 100), on estime que l'on obtient des régions similaires mais pas forcément fonctionnellement identiques ; en dessous d'un score normalisé de 25 ou de 30, les régions retrouvées sont dans l'ensemble similaires mais ne présentent probablement que peu d'analogie de fonction.

Autrement dit, ici on normalise le score global de comparaison afin de pouvoir différencier rapidement les alignements pertinents de ceux qui le sont moins et de pouvoir comparer les alignements provenant de deux criblages distincts. Il devient également possible de former des catégories de confiance qui renseignent sur la quantité d'erreurs attendues.

Exemple:

La comparaison d'une région R avec elle même donne un score d'énergie global de -500 selon le calcul du score que nous avons détaillé plus haut.

La comparaison de la région R avec des régions L1 et L2 donnent respectivement un score d'énergie global de -230 et -390. Les scores d'énergies normalisés de (R, L1) et de (R, L2) sont alors respectivement 0.46 (ou 46 sur 100) et 0.78 (ou 78 sur 100).

Optionnellement, il est possible d'analyser l'alignement optimal de deux régions R1 et R2 afin de déterminer si les erreurs d'alignements des points de R1 et de R2 sont réparties sur l'ensemble de la région, ou si ces erreurs sont concentrées localement dans une ou plusieurs sous-régions.

En effet, la somme de nombreuses petites erreurs réparties sur tout l'alignement peut être équivalente, dans le calcul du score global de cette forme de réalisation, à la somme d'un petit nombre d'erreurs importantes concentrées dans une sous-région. Il peut donc être intéressant de distinguer ces deux cas, et, en particulier, de pénaliser celui comportant une forte concentration d'erreurs locales, donnant souvent de moins bons résultats dans le domaine du criblage notamment que celui comportant de nombreuses petites erreurs réparties dans l'ensemble de la région.

L'erreur commise pour chaque couple de points (Si, Sj) de deux régions R1 et R2 alignées (ainsi que pour tout point Sk de R1 n'ayant pas de correspondance dans la région R2) est donnée par le score local du couple Scorelocal (S1 S2). En effet, étant donné que le score local du couple (Si, Sj) renvoie une valeur renseignant sur les ressemblances et/ou les différences entre ces points pour l'ensemble des propriétés remarquables étudiées, il fournit également une mesure de l'erreur commise lors de l'alignement ou du non alignement du point S1 de R1 avec le point S2 de R2.

Ainsi, à partir des deux régions R1 et R2 alignées de façon optimale selon le procédé de l'invention, il est possible de générer des sous-régions de l'une des régions R1 ou R2, sur le modèle de la génération des empreintes structurales, en se fondant cette fois sur la valeur du score local en chaque point de la région R1.

On définit alors un graphe comportant un ensemble de nœuds correspondant à un ou plusieurs points de la région, et on assigne à chaque nœud du graphe la valeur du score local associé au(x) point(s) correspondant(s) de la région. En variante, on définit une erreur maximale admissible, et on assigne au nœud la distance entre l'erreur maximale et la valeur du score local correspondant à ce(s) point(s).

Ainsi, à chaque point est assigné un score renseignant sur l'erreur locale, et à chaque arête reliant deux points est assignée la distance entre ces scores, de sorte que l'on va permettre l'extension d'une région erreur par ces arêtes.

On choisit ensuite un paramètre d'expansion permettant de définir les limites de l'expansion de la région. Dès lors, lorsque celles-ci existent, il est alors possible de générer les sous-régions qui regroupent les points mal alignés concentrés (c'est-à-dire les points ayant une erreur importante et répartis dans une sous-région de la région).

Par exemple, si l'on compare deux régions R1 et R2 à partir d'une seule propriété, l'erreur maximale admissible pouvant être commise sur l'alignement d'un point de R1 avec un point de R2 (ou le non alignement d'un point de R1) est alors égale au score local maximal en ces points, à savoir

1 , tandis que la ressemblance maximale est égale à -1.

Alors, pour deux points A et B de R1 ayant pour points correspondants A' et B' dans R2, si les erreurs commises lors de l'alignement de A avec A' et de B avec B' sont respectivement 1 et 0.8, on assigne aux arêtes reliant A à B et A' à B' un poids égal à 0.2.

Si tous les autres points des régions R1 et R2 sont correctement alignés (i.e. leur score local d'alignement est négatif), alors le poids de n'importe quel arête reliant l'un de ces points à A (resp. B) aura une valeur au moins supérieur à 1 (resp. 0.8). Si l'on recherche une région erreur (points avec des valeurs proches de 1 ) et que l'on choisit un paramètre d'expansion pour la formation de ces régions d'erreurs de 0.3, seule une sous-région d'erreur sur R1 comprenant les points A et B peut être générée sur R1.

En revanche, si le paramètre d'expansion est égal à 0.1 , alors seule une région d'erreur comprenant le point A aura été formée.

En effet, la valeur recherchée dans cet exemple est 1 : l'erreur commise en A est donc nulle, tandis que l'erreur commise en B est de 0.2. Si l'on considère une valeur d'expansion de 0.1 , on génère alors une unique région d'erreur contenant le point A.

On détermine alors le nombre de sous-régions d'erreurs générées dont le cardinal est supérieur ou égal à un cardinal seuil défini (c'est-à-dire, dont le nombre de points formant la région d'erreur est supérieur à un seuil).

Il est alors possible de déterminer si les erreurs d'alignements des points de R1 et de R2 sont réparties sur l'ensemble de la région, ou si ces erreurs sont concentrées localement dans une ou plusieurs sous-régions, notamment en déterminant le nombre de sous-régions d'erreurs générées dont le cardinal est supérieur ou égal à un cardinal seuil défini, et en tenant compte du nombre de points par sous-régions d'erreur.

La définition de ces sous-régions d'erreurs renseigne donc sur la répartition des erreurs faites sur l'alignement optimal de deux régions. Elle permet notamment de distinguer le cas où les erreurs sont faibles mais

réparties sur toute la région (beaucoup de petites sous-régions d'erreurs), du cas où les erreurs sont fortes mais concentrées localement (une ou plusieurs grandes sous-régions d'erreurs).

Il est possible de tenir compte de ces erreurs dans le score global correspondant à l'alignement optimal des deux régions, en déclassant l'alignement s'il y a trop d'erreurs localisées, c'est-à-dire en supprimant la région du résultat du criblage, ou en ajoutant une pénalité au score global, fonction de la taille (nombre de points mal alignées) et/ou du nombre de sous-régions erreurs.

Un exemple de score pénalisant à rajouter au score global est alors:


où ERi est une sous-région erreur ;

card ( ERi ) correspond au nombre de points de la sous-région erreur ERi ; et

C est une constante permettant de donner plus ou moins d'importance à cette pénalité, face au score global d'alignement.

Enfin, lorsque l'on génère une pluralité de conformations stable de l'objet tridimensionnel de manière à obtenir plusieurs objet tridimensionnels secondaires issus de l'objet tridimensionnel initial, nous avons vu que la précision du criblage pouvait être réduite si trop de conformations étaient considérées. Afin de compenser cette perte de précision, il est alors possible, selon une forme de réalisation du score d'énergie, de cribler une région ainsi que ses dérivés conformationnels les plus stables en réduisant les paramètres de tolérance Tpi. En effet, ces paramètres de tolérances sont introduits afin de tenir compte de la variabilité intrinsèque de la région et des différentes conformations que celle-ci peut prendre. Si cette variabilité est générée en entrée, la tolérance aux variations peut alors être très faible et le criblage très précis.

Ces différentes formes de calcul du score d'énergie peuvent être

mises en œuvres afin d'évaluer l'alignement de deux régions ou objets tridimensionnels quelconques, indépendamment du procédé selon l'invention, tant que l'on dispose d'un maillage et/ou d'un graphe desdites régions ou objets.

Afin de comparer de manière rapide, efficace et robuste plusieurs régions entre elles, l'invention propose en premier lieu de simplifier les représentations des régions en mettant en œuvre un ou plusieurs « filtres » de manière à réduire au final la complexité des régions et/ou le nombre de régions à comparer avec la région étudiée.

L'utilisation de tout ou partie de ces filtres est bien entendu optionnelle, mais ils permettent notamment d'éliminer rapidement des régions qui ne peuvent ressembler à la région étudiée ainsi que les régions qui ne comportent pas certaines propriétés remarquables recherchées.

Simplification de la représentation de l'objet tridimensionnel

Le premier filtre tient essentiellement dans la simplification de la représentation de l'objet suivant au moins un procédé de simplification (que nous développerons dans la suite de cette description).

En particulier, les formes dual, ou encore les harmoniques sphériques peuvent être mises en œuvre afin de simplifier la représentation de la surface de l'objet, et donc les graphes et régions associés. Dans le cas des surfaces obtenues selon les approches de « marching cube » et ses dérivées, il est également possible de jouer sur les paramètres de taille de grille et d'interpolation des intersections afin d'obtenir des représentations plus ou moins simplifiées de l'objet.

En variante, la simplification de l'objet est réalisée sur la base du regroupement de points de l'objet qui possèdent des états de propriétés similaires. En particulier, comme expliqué précédemment, il est possible de regrouper l'ensemble des points ayant une valeur de courbure proche et/ou l'ensemble des points ayant des groupements fonctionnels proches.

Plus généralement, il est possible de générer de façon systématique l'ensemble des empreintes structurales de l'objet pour en simplifier la représentation, et donc la comparaison.

Simplification de la représentation de la région tridimensionnelle

Le second filtre tient essentiellement dans la simplification de la représentation de la région suivant au moins un procédé de simplification.

Une région peut être décrite par un graphe. Le graphe peut être utilisé en soi comme une représentation simplifiée en regroupant les nœuds ayant des états de propriétés similaires (contraction de nœuds). Le graphe de la région devient alors un graphe décrivant par exemple des propriétés remarquables de la région (telles que la présence de bosses, de zones isolantes, de zones résistantes, de zones flexibles, etc.). Ces graphes, qui sont beaucoup plus simples (de l'ordre d'un facteur 10), permettent d'effectuer des comparaisons plus efficaces.

Toutefois, si la région comporte un ensemble de sous-régions générées sur la base de propriétés remarquables, il est possible de générer un graphe dans lequel chaque sous-région correspond à un nœud.

Un exemple de réalisation de graphe simplifié de région est obtenu en supprimant l'ensemble des arêtes du graphe de la région dont le poids local est supérieur à un poids seuil déterminé, et en recherchant les composantes connexes de cette région. Les composantes connexes ayant un nombre de points minimal donné (de manière à garantir qu'elles aient une taille suffisante) forment alors des sous-régions de la région qui regroupent des propriétés remarquables distinctes.

Ce graphe très simplifié se prête très bien aux algorithmes de correspondance de graphes. Il est toutefois également possible de représenter cette région très simplifiée dans l'espace en moyennant les coordonnées de chaque nœud afin de comparer très rapidement les régions par une approche géométrique plutôt que par l'intermédiaire des algorithmes de la Théorie des Graphes (alignement de graphes ou Graph Matching).

Ces comparaisons de régions simplifiées sont moins précises que les comparaisons d'objets et de régions détaillés, mais suffisent pour éliminer les régions trop distantes ainsi que pour regrouper et/ou classifier les régions qui se ressemblent.

Simplification des comparaisons par classification des régions

Lors des comparaisons de régions, le calcul d'un score d'énergie permet par exemple de quantifier les différences et ressemblances entre deux régions comparées, et par conséquent de les classifier selon des méthodes conventionnelles (k-mean, itératif k-mean, neighbour joining, kohonen, etc).

Un troisième filtre est donc dans la création de classifications des régions afin de regrouper avant toute comparaison les régions qui se ressemblent suffisamment en fonction du score d'énergie, afin de limiter les comparaisons aux seules régions comprises dans l'un des groupes de la classification (par exemple, le groupe présentant les caractéristiques les plus proches de la région à cribler) en fonction du domaine et de l'application concernés. Pour ce faire, on compare la région à étudiée avec une région moyenne représentative de chacune des classes de régions formées lors de la classification. On réduit alors la comparaison à la classe de régions qui lui ressemblent le plus, et optionnellement à quelques classes supplémentaires dans l'ordre de leur ressemblance.

Elimination des régions trop différentes

De la même façon, en utilisant ces représentations simplifiées, il est possible d'éliminer préalablement à la comparaison proprement dite les régions qui ne peuvent se ressembler, ou plus précisément ne possédant pas un nombre minimum d'éléments spécifiques et importants de la région étudiée.

Typiquement, si certains points sont plus importants que d'autres dans une région, on cherchera alors à les faire correspondre en premier.

De tels points importants peuvent-être définis manuellement, préalablement au criblage de la région, ou en automatique en définissant des critères dépendant du domaine ou de l'application.

Ainsi, en biologie et lors de la comparaison de régions de molécules, il est possible d'accorder davantage d'importance au score local ( Scorelocal (S1 S2) ) dans l'équation du score global si l'on sait que le point Si fait partie d'une sous-région fonctionnelle importante de la région (notamment les points chauds d'interactions (« hot spots »), les résidus catalytiques, les sites de phosphorylations/glycosylations, etc).

En automatique, il est également possible de définir les points appartenant aux résidus les plus conservés de la molécule comme étant des points importants qui doivent nécessairement être alignés avec des points d'une autre région. Si aucune correspondance n'est trouvée sur ces points importants, on peut alors éviter de procéder aux autres comparaisons plus coûteuses en temps.

D'autres filtres basés sur une description simple des régions peuvent être utilisés afin d'écarter les régions qui diffèrent trop.

Par exemple, si la région étudiée est concave et que la région à tester est convexe, il pourra s'avérer inutile de continuer les comparaisons dans la mesure où il n'est pas possible d'aligner les deux régions sur la base de la courbure (propriété remarquable importante) étant donné qu'elles ont une forme structuralement opposée.

De façon plus générale, il s'agit de comparer tout ou partie des propriétés remarquables importantes des régions afin de limiter le nombre de régions à comparer de manière approfondie.

Un quatrième filtre réside donc dans l'élimination rapide des régions qui ne peuvent se ressembler en fonction de critères connus et de propriétés remarquable jouant un rôle important dans l'application et/ou le domaine étudié.

Utilisation de propriétés invariantes

Ainsi que présenté dans l'exemple de la comparaison de régions concaves et convexes, certaines propriétés, dites invariantes, caractérisent une région indépendamment de toute orientation et alignement. C'est le cas notamment de la taille (euclidienne ou géodésique) d'une région, de la composition des différents états d'une ou de plusieurs propriétés (par exemple la proportion de points isolants, de bosses, de types atomiques, etc.) ou encore la distribution de ces propriétés (comme le rassemblement ou éparpillement de tous les points isolants, de tous les points présentant une charge anionique, etc.).

II est également possible de déterminer la composition et la distribution des propriétés pour différentes zones de ces régions, notamment pour une région centrale ou des régions en anneaux plus ou moins distantes.

Par exemple, les points au centre de la région peuvent généralement être considérés comme invariants par des opérateurs de rotations. Il est donc possible de déterminer des propriétés qui ne changeront pas avec l'orientation de la région (telles que la courbure ou la charge centrale, ainsi que les coordonnées du centre par rapport à un des axes du graphe) et de les comparer rapidement aux autres régions

Bien que simples, ces propriétés rendent compte d'une réalité géométrique, physico-chimique et/ou évolutive qui peut permettre de distinguer une région d'un grand nombre d'autres régions.

Pour une région de surface, on peut par exemple utiliser le rapport entre son rayon euclidien EAB et son rayon géodésique GAB.

Le rayon euclidien EAB correspond à la distance minimale séparant le centre de la région d'un point du contour (ou d'un point moyenne du contour).

Le rayon géodésique GAB quant à lui renseigne sur la longueur du chemin qu'il faut parcourir « sur l'objet » ou « sur la région » afin de relier le centre à ce point du contour. Dans le cas des surfaces, il s'agira du chemin qui doit-être emprunté le long de la surface pour joindre les deux points (voir

Figure 3).

Le rayon géodésique GAB rend donc compte des plissements et formes accidentées le long de son parcours pour relier le centre à un point du contour (ou à un point moyenne du contour).

Par conséquent, le rapport RE/G ou RG/E entre le rayon euclidien EAB et le rayon GAB géodésique (tenant compte des plissements) renseigne sur la forme générale de la région, et la comparaison des rapports de deux régions renseigne dans une certaine mesure sur la possible ressemblance de ces régions. Deux rapports ayant des valeurs trop différentes (par exemple de 1 ou 2 Angstrom pour la comparaison de régions moléculaires) indique dans la plupart des cas, des formes différentes. La comparaison lourde de ces régions est donc inutile.

En variante, on utilise le rapport RE/G de la distance euclidienne EAB et de la distance géodésique GAB (voir Figure 3) reliant un couple de point (A, B) de la région ou de l'objet. On peut alors comparer les rapports de distance d'un couple de point de la région à comparer avec le couple de points correspondant de la région avec laquelle elle est alignée, plutôt que les rapports de rayons euclidien et géodésique.

L'utilisation de ces rapports est un filtre particulièrement puissant qui permet d'éliminer efficacement les régions trop différentes.

Par exemple, dans le criblage moléculaire d'une région sur une base de données contenant plus de trois millions de régions issues, l'utilisation de ce filtre (en admettant une variation de l'ordre de 10% du rapport) permet par exemple de ne sélectionner que 47 000 régions correspondant à ce critère. La comparaison des résultats du criblage lourd (sur les trois millions de régions) et du criblage filtré montre que la quasi-totalité des régions similaires retrouvées lors du criblage lourd est effectivement retrouvée par le criblage filtré.

De même, pour plus de trois millions de régions ayant une composition en groupements aromatiques variant de 0 à 58%, seules 10700 régions comprennent plus de 30% de ces groupements aromatiques. Or en pharmaceutique, cosmétique et agroalimentaire, ces aromatiques ont une grande importance dans la conception de composés actifs. Dans ces domaines, l'utilisation d'un filtre basé sur la présence de la propriété remarquable selon laquelle la région possède plus de 32% de groupements aromatique est donc particulièrement intéressante.

Cette constatation permet donc d'éliminer des régions supplémentaires ne pouvant ressembler à la région étudiée.

Lorsque l'on recherche une région de taille équivalente (et non une sous-région de la région étudiée), il est également possible de ne considérer que les régions ayant un nombre de points similaires minimum. Une variation acceptable est par exemple de l'ordre de 15 à 20%.

Le cinquième filtre est donc l'utilisation de propriétés qui ne dépendent pas de l'alignement des régions (invariantes par rotation, translation), afin de les comparer.

Projection dans un plan bidimensionnel

Par ailleurs, pour un certain nombre de régions qui ne présentent pas une forme trop accidentée, à une coordonnée (x, z) dans un plan correspond un point (x, y, z) de la région. Par conséquent, il est possible d'effectuer une projection de la région tridimensionnelle selon sa normale afin d'obtenir sa description dans un plan bidimensionnel.


Une telle description d'une région où chaque point est décrit dans un plan bidimensionnel avec une valeur représentant un ou plusieurs états de propriétés Pi permet de former une image. Dès lors, une telle image de la région peut-être transformée par les transformées de Fourier (ou transformées de Fourier rapide, en anglais FFT), technique très largement utilisée pour la comparaison d'images en raison de son invariance par rapport aux opérateurs de translation.

On peut comparer deux régions en comparant leurs images dans le plan, c'est-à-dire en comparant les transformées de Fourier de leurs images dans le plan.

Un sixième filtre est donc dans la transposition en deux dimensions d'une région tridimensionnelle selon un axe donné afin de permettre sa comparaison rapide avec d'autres régions par les transformées de Fourier.

Transposition dans un graphe

Deux régions R1 et R2 peuvent également être transposées dans des graphes G1 et G2 respectivement dont les propriétés des nœuds et des arêtes dépendent des régions que l'on souhaite retrouver (en utilisant uniquement la courbure locale de chaque région, ou la courbure et la charge, etc.). Au lieu de comparer géométriquement ces deux régions, il est donc possible de comparer leur graphes G1 et G2 respectifs par différentes approches de la théorie des graphes et des alignements de graphes (Graph Matching), telles que le concept de Clique.

A partir des graphes G1 et G2, il est en particulier possible de procéder à des contractions de nœuds qui se ressemblent afin de simplifier la représentation de ces régions, par exemple en supprimant toutes les arêtes dont le poids est supérieur à un poids seuil, de manière à réduire les différences entre les nœuds.

Dès lors, il suffit de fusionner tous les nœuds liés par une arête en un seul nœud pour lequel on effectue la moyenne des états des propriétés associés à chaque nœud qui lui sont liés, cette moyenne pouvant être éventuellement pondérée par la distance qui sépare un nœud central des autres nœuds qui lui sont directement ou indirectement liés.

En variante, la contraction de graphes est mise en œuvre en créant un graphe contracté dans lequel la région est divisée en un ensemble de sous-régions ayant une ou plusieurs propriétés remarquables qui sont assignées à chaque nœud du graphe contracté.

Ces graphes contractés sont alors plus simples à comparer que les graphes desquels ils sont issus.

Un septième filtre tient donc dans l'utilisation des graphes (contractés ou non) de deux régions pour comparer les grandes tendances de ces régions sans procéder à leur alignement géométrique.

Utilisation des harmoniques sphériques

Enfin, un dernier filtre met en œuvre les harmoniques sphériques ainsi que les descripteurs tridimensionnels de Zernike. Ces outils ont notamment la particularité d'être invariants par des opérations de translations et rotations, et sont particulièrement adaptés à la comparaison grossière des régions. Les principales limites de ces comparaisons tiennent en ce que les harmoniques sphériques ne sont principalement adaptées qu'à la description d'objets en forme d'étoiles (« star-like problem »). Ce problème se fait particulièrement ressentir dans le cas d'objets pleins possédant des cavités internes.

Un huitième filtre réside donc dans l'utilisation de modèles tels que les harmoniques sphériques et les descripteurs tridimensionnels de Zernike qui permettent donc une comparaison rapide des régions.

D'autres filtres sont bien entendu utilisables afin d'améliorer encore l'efficacité et la robustesse de la comparaison des régions.

Alignement des régions

Dans un troisième temps, on procède à l'alignement des régions à comparer, de manière à trouver la meilleure correspondance possible entre chacun de leurs points et/ou facettes (Figure 5a). Il est alors possible de comparer les régions ainsi alignées, et de déterminer les régions similaires ou complémentaires d'une région criblée.

Pour cela, l'invention propose notamment l'utilisation de cinq modèles : un modèle universel, une sectorisation des points et facettes des régions au moyen de disques de contrôle, une discrétisation des points et des facettes des régions au moyen de disques de contrôle, une sectorisation des points et facettes des régions au moyen d'une sphère de points de contrôle, et une discrétisation des points et des facettes dans une sphère de points de contrôle.

Ces modèles peuvent être mis en œuvre séparément ou en combinaison, selon la vitesse et l'efficacité des comparaisons recherchées.

Modèle universel

Dans le modèle universel, les régions R1 et R2 de barycentres respectifs Cg1 et Cg2 sont translatées à l'origine O d'un repère


en leur appliquant les vecteurs respectivement.



Au moins l'une des régions est ensuite tournée simultanément ou successivement autour des axes du repère selon des angles

ax , ay et az respectivement, de sorte que ax , ay et az prennent un ensemble de valeurs compris entre 0 et au plus maxx , maxy et maxz respectivement, où maxx , maxy et maxz sont des valeurs seuil prédéterminées.

Pour chaque alignement généré des deux régions R1 et R2 , c'est-à-dire à chaque rotation de l'une des régions d'un angle ax , ay et/ou az

autour des axes
respectivement, le score d'énergie correspondant à cet alignement est calculé.

L'alignement optimal des régions R1 et R2 correspond alors à l'alignement pour lequel le score d'énergie est le plus faible (en accord avec les conventions choisies dans cette description).

Afin de calculer le score d'énergie correspondant à un alignement de deux régions, on établit un schéma de correspondance entre les points et/ou facettes de chacune des deux régions (Figure 5a). C'est l'une des étapes limitantes pour lesquelles des modèles géométriques sont proposés ci-après.

Plusieurs méthodes existent pour faire correspondre des points de deux régions différentes.

Par exemple, pour un alignement donné de R1 et R2 on recherche à partir d'un point Si de R1 le point sj le plus proche dans R2 . Par «plus proche» on entend ici soit que les points sont proches en termes de distance spatiale (en tenant éventuellement compte de la probabilité de distribution de cette localisation, i.e. de l'erreur qui peut-être commise sur cette distance), la distance spatiale pouvant être une distance géodésique ou éventuellement euclidienne, soit en considération de tout ou partie des propriétés remarquables qui définissent l'objet et la région en ce point (la distance correspondant alors à la distance entre deux points pour les N propriétés définissant ces points). Typiquement, on cherche à déterminer le couple de points des régions R1 et R2 respectivement pour lesquels la distance est la plus faible.

Par exemple, la figure 1 d illustre en partie supérieure le calcul de la distance géodésique entre un point A et un point B, sur la base de leurs coordonnées spatiales (respectivement (1 ,1 ,1 ) et (3,1 ,1 )).

En partie inférieure de la figure 1 d, on peut voir le calcul de cette distance tenant en outre compte de la valeur de leur courbure respective (0.2 pour A et 0.4 pour B) et d'un facteur de pondération de ces deux propriétés (α et β).

La mise en œuvre de ce modèle universel peut être optimisée de manière à réduire encore le nombre d'opérations réalisées dans la recherche de l'alignement optimal des région R1 et R2

Par exemple, afin d'accélérer la recherche du point Sj le plus proche dans R2 , il est possible notamment de définir une distance seuil maximale, de sorte que pour certains points d'une région, il n'y ait pas de correspondants dans l'autre région. On assigne alors un score d'énergie fixe à ces points sans correspondance, ledit score pouvant éventuellement être pénalisant selon que l'on recherche des sous-régions ou des régions de même taille que la région recherchée.

II est également possible d'ajuster les paramètres ax , ay , az , maxx , maxy et maxz en fonction du type de régions comparées (région surfacique, intermédiaire, ou interne) et de la qualité de l'alignement souhaité.

En effet, les régions de surface et intermédiaires disposent de normales à la surface Ces normales à la surface sont utilisées

en tant que repère (en alignant les régions selon leurs normales aux surfaces avec l'un des axes du repère, par exemple afin

de préciser la face de la région qui est orientée vers le milieu extérieur. On réduit ainsi le nombre de degré de liberté nécessaire à la recherche de l'alignement optimale des deux régions.

Ainsi, on translate à l'origine les régions de surface ou intermédiaires R1 et R2 de barycentres respectifs Cg1 et Cg2 , et on les oriente de sorte que leurs normales respectives coïncident avec l'axe Il est

alors possible de procéder à une rotation complète autour de l'axe pour
rechercher le meilleur alignement des deux régions, puis de procéder à de petites rotations (ajustements) selon les axes
en assignant aux angles maximum maxx et maxz des valeur faibles, voire nulles. Ce type de comparaison est très rapide, sans toutefois diminuer de façon notable la qualité de la comparaison.

En variante, plutôt que d'aligner les régions R1 et R2 en fonction de leurs normales avec l'axe il est possible de procéder

directement à la rotation complète de l'une au moins des régions autour de l'axe
puis de procéder à de petites rotations selon les axes et
où correspond à un vecteur quelconque perpendiculaire à la

normale de R2, et où correspond au produit vectoriel




En outre, plutôt que de procéder à comparaisons,

il peut-être intéressant de rechercher en premier lieu le meilleur alignement selon l'axe puis selon l'axe (respectivement

puis enfin selon l'axe (respectivement


de manière à ne procéder qu'à comparaisons.


Optionnellement, on ajuste en outre l'alignement des régions en opérant, simultanément ou successivement, des translations tx , ty et

tz de petite amplitude selon les axes respectivement, de

sorte que tx , t y et t z prennent un ensemble de valeurs compris entre 0 et au plus dmaxx , dmaxy et dmaxz respectivement, ou dmaxx , dmaxy et dmaxz sont des valeurs seuil prédéterminées.

On détermine ainsi l'alignement optimal des régions, ledit alignement étant celui pour lequel le score d'énergie global est optimal, c'est-à-dire correspondant au meilleur alignement des deux régions.

Enfin, il est également possible de déterminer les composantes principales des deux régions R1 et R2 de manière à limiter l'espace de recherche autour de ces axes en accord avec l'Analyse en Composantes Principales (ACP).

Sectorisation des points

La méthode de sectorisation des points quant à elle permet de faciliter la recherche des correspondances des points et facettes d'une région intermédiaire ou de surface R1 avec ceux d'une région R2 , notamment lorsque ces régions sont définies par un grand nombre de points et facettes.

Par «sectorisation», on entend ici toute méthode permettant de définir des zones contigϋes qui divisent intégralement un objet ou une région.

Pour cela, on circonscrit chaque région dans un ensemble de cercles divisés en secteurs, de sorte qu'à chaque point et à chaque facette de la région corresponde au moins un secteur. On peut alors effectuer la comparaison des deux régions R1 et R2 (Figure 5b).

Pour cela dans un premier temps, on aligne les régions R1 et R2 , de barycentres Cg1 et Cg2 respectivement, avec l'origine O d'un repère



en appliquant aux points et/ou aux facettes de la régions les vecteurs respectivement. Si sont les normales aux

régions R1 et R2 respectivement, on effectue ensuite une rotation des régions d'un angle autour du vecteur résultant du produit vectoriel

de sorte que les axes des régions coïncident.

Autrement dit, on aligne les deux régions R1 et R2 de sorte que leurs les axes coïncident.


Dans un second temps, on crée une pluralité de cercles autour de chaque région R1 et R2 , centrés sur les barycentres alignés Cg1 et Cg2 de chaque région, et de rayon respectivement, où β est le pas

entre chaque cercle, k est un nombre multiplicatif non nul de β , T(R1 ) est le rayon de la région R1 et T(R2) est le rayon de la région R2 .

Typiquement, pour les molécules, β= 3 Å.

Puis, à partir d'un diamètre arbitraire de chaque cercle ainsi obtenu, on trace n diamètres à l'intérieur de chaque cercle de manière à former des secteurs principaux de ces cercles.

Pour un angle de recherche souhaité a , Le nombre n de secteurs principaux correspond à


Cet angle de recherche est fixé par les conditions de mise en œuvre du procédé selon l'invention. Typiquement a est compris entre un et dix degrés, de préférence environ cinq degrés. En effet, plus a est petit, plus la comparaison des régions est fine et lente, tandis que plus a est grand, plus la comparaison est grossière et rapide.

Ainsi, dans le cas du criblage d'objets tridimensionnels et de leurs régions, on pourra utiliser un angle de recherche de cinq à dix degrés si l'on souhaite avant tout privilégier la rapidité du procédé, tandis que dans le cas d'une comparaison plus poussée de deux régions d'objet, un angle d'un degré permet d'obtenir un résultat de meilleure qualité mais dans un temps plus grand.

Dans un troisième temps, les régions R1 et R2 sont alignées arbitrairement selon l'un de leurs diamètres principaux. Pour chaque point d'un secteur SEC1 de R1 , on recherche alors les points de R2 qui peuvent lui correspondre dans un secteur équivalent SEC2 , ledit secteur équivalent SEC2 étant le secteur de R2 qui est superposé au secteur SEC1 de R1 lorsque les régions R1 et R2 sont alignées selon l'un de leurs diamètres principaux (Figure 5b).

En variante, on étend la recherche du point équivalent aux voisins immédiats du secteur équivalent SEC2 de R2 .

Cette sectorisation des régions réduit considérablement la recherche des correspondances en réduisant le nombre de points à tester à chaque itération.

Discrétisation des régions dans un disque ou dans une sphère de contrôle

Dans cette méthode, on discrétise les points de la région au niveau de points de contrôle définissant un disque de contrôle (Figure 6a).

Pour cela, de manière similaire à la méthode de sectorisation, on définit un ensemble de cercles centrés en un point de la région, typiquement son barycentre. Puis, à partir d'un diamètre arbitraire de chaque cercle ainsi obtenu, on trace n diamètres à l'intérieur de chaque cercle.

Les points de contrôle d'une région sont définis par l'intersection des cercles générés autour de la région et des diamètres définissant les secteurs dudit cercle.

Le disque de contrôle d'une région donnée comporte alors l'ensemble des points de contrôle de cette région.

La structure géométrique du disque de contrôle peut alors être mise à profit afin de discrétiser une région et faciliter sa comparaison ultérieure avec d'autres régions.

Pour cela, on définit un seuil de distance Dmax , et, pour chaque point de contrôle PCi, on détermine l'ensemble des points de la région appartenant à une sphère ayant pour centre ce point de contrôle donné et pour rayon la distance seuil Dmax, i.e. l'ensemble des points de la région pour lesquels la distance à ce point de contrôle est inférieure ou égale à

Dmax.

Typiquement, sur la figure 6a, on a représenté un disque de contrôle de rayon 3β , et ayant pour centre le point de contrôle PC0.

Par exemple, on discrétise les points P1, P2, et P3 de la région de l'objet qui appartiennent à la sphère de rayon Dmax centrée sur le point de contrôle PC4 en moyennant les propriétés des points P1, P2, et P3 et en les assignant au point de contrôle PC4.

Plus le rayon Dmax est grand, plus il y a de points de la région sélectionnés et moyennes sur chaque point de contrôle, ce qui conduit à approximer davantage la forme de la région.

Lorsqu'une sphère de rayon Dmax ne comporte aucun point de la région, le point de contrôle associé n'a pas de correspondance dans la région et est éliminé de tout calcul au cours de l'étape subséquente de comparaison.

Avantageusement, le rayon Dmax est de l'ordre du pas β entre chaque cercle, assurant ainsi une certaine précision dans la discrétisation de la région.

Cette forme discrétisée de la région peut alors avantageusement être mise à profit dans le criblage des régions en comparant non plus les points de la région, mais les points de contrôle du disque de contrôle de la région (voir Figure 6b). Cette forme de réalisation permet de comparer deux régions R1 et R2 à partir de leurs disques de contrôles sans avoir à calculer à chaque alignement (rotation, translation), le schéma de correspondance des points de R1 avec les points de R2.

Selon une variante de l'invention, des points de contrôle supplémentaires sont rajoutés dans les parties les plus éloignés du centre des disques de contrôle. En effet, la densité des points de contrôle dans la périphérie du disque est plus faible.

Par exemple, on définit des secteurs périphériques des disques de contrôle comme étant l'espace séparant deux disques de contrôle et deux diamètres, successifs ou non : en d'autre terme, les secteurs formant le contour du disque de contrôle. Un point de contrôle supplémentaire peut alors être défini par l'intersection des diagonales d'un tel secteur périphérique.

Selon une forme de réalisation de l'invention, une région peut également être sectorisée et/ou discrétisée dans une sphère de points de contrôle selon des procédés proches de la sectorisation et/ou de la discrétisation d'une région dans un disque de contrôle. Une sphère de points de contrôle correspond à N disques de contrôles ayant subi des rotations successives d'un pas d'angle de 360/N selon un axe du repère. La sphère de points de contrôle est adaptée à la comparaison de tout type de région (surface, intermédiaire, interne).

La comparaison de deux régions R1 et R2 par la comparaison de leurs sphères de points de contrôle est similaire à la mise en œuvre des comparaisons de disques de contrôle. La comparaison par sphères de contrôle permet de comparer deux régions sans rechercher de correspondance à chaque alignement (rotation, translation) entre les points et/ou facettes de ces deux régions, accélérant ainsi considérablement la recherche de l'alignement optimal de ces deux régions.

Pour cela, on assigne à chaque point de contrôle PC d'une sphère de contrôle, la moyenne de l'ensemble des propriétés remarquables des points de la région qui appartiennent à une sphère centrée sur PC dont le rayon est égal à une distance maximale Dmax prédéfinie.

Pour obtenir l'alignement optimal de deux disques de contrôle (respectivement deux sphères de points de contrôle), on fait tourner l'un des disques de contrôle (respectivement l'une des sphères de points de contrôle) d'un pas égal à l'angle au centre des secteurs, ici a , et on compare à chaque rotation les points de contrôle respectifs de chacun des deux disques de contrôle à l'aide du score d'énergie (Figure 6b).

En effet, dès lors que les disques de contrôle (respectivement les sphères de points de contrôle) sont superposés et alignés en fonction de l'un de leurs diamètres quelconques, chacun des points de contrôle d'une première région se retrouve précisément aligné avec un point de contrôle de la seconde région. Il suffit alors de comparer deux à deux les points de contrôle appartenant respectivement aux régions R1 et R2 à l'aide du score d'énergie.

Avantageusement, la sectorisation et la discrétisation dans une sphère de contrôle permettent de comparer deux régions R1 et R2 en recherchant leur alignement optimal selon les trois axes

alors que la sectorisation et discrétisation dans un disque de contrôle n'autorise que la rotation autour d'un seul axe, ici l'axe
(qui correspond à l'axe aligné avec la normale des régions dans le cas des régions de surface et régions intermédiaires).

Par ailleurs, la mise en œuvre d'une sphère de contrôle permet de sectoriser et/ou de discrétiser l'ensemble des régions (de surface, intermédiaire et internes), tandis que l'utilisation des disques de contrôle est limitée à la comparaison aux régions de surface et régions intermédiaires.

Cette approche est particulièrement efficace pour la comparaison de régions internes où aucune information sur la zone exposée au milieu n'est disponible et où il est donc nécessaire de procéder aux rotations selon les trois axes du repère.


Il est important de noter que la correspondance entre les points de la région et les points de contrôle de cette région n'est calculée qu'une seule fois, lors de la discrétisation des points de la région dans les points de contrôles. Puis, lors des alignements, seuls les points de contrôle seront comparés deux à deux. La création des sphères de contrôle pour chacune des régions suivant les mêmes règles, la correspondance entre le point de contrôle d'une région R1 et celui de l'autre région R2 est connue ab initio pour chaque nouvel alignement.

Plus largement, le procédé de sectorisation et de discrétisation n'est cependant pas limité à la mise en œuvre de disques et de sphères, qui ne sont que des exemples illustratifs donnés à titre indicatif. Il est en effet possible de mettre en œuvre ces procédés dans n'importe quelle structure géométrique présentant un centre de symétrie, notamment des polygones (hexagones, octogones, etc.) ainsi que leurs structures tridimensionnelles équivalentes.

Criblage récursif

Optionnellement, il est possible de procéder au criblage itératif (ou récursif) d'une région afin d'augmenter la sensibilité de la recherche des régions similaires ou complémentaires. Ce procédé consiste à effectuer un premier criblage de la région étudiée (ou de son complémentaire), puis de sélectionner les meilleurs résultats en se limitant par exemple aux régions similaires ayant un score global normalisé supérieur à 0.8 ou 0.6. Dès lors, on crible de nouveau ces meilleurs résultats (régions similaires avec un score > 0.6 ou 0.8) afin de retrouver de nouvelles régions similaires. Bien que le procédé puisse être répété n fois, il suffit généralement de ne le répéter qu'une ou deux fois. Tous les résultats (régions similaires ou complémentaires) issus de ces criblages récursifs sont ensuite agglomérés et triés en fonction de leurs scores d'énergies globales normalisées.

Bases de données, criblage et cartoqraphies

Nous allons à présent décrire l'étape de criblage selon l'invention. La possibilité de comparer une région donnée à une deuxième région ouvre en effet la possibilité de comparer cette région à une pluralité d'autres régions, afin de déterminer un ensemble de régions similaires ou complémentaires selon l'application, à partir de critères prédéfinis, tels que les propriétés remarquables.

Par exemple, dans le cas du criblage des régions de surface moléculaire, il est possible notamment de créer une banque de régions comportant une pluralité de régions connues, typiquement plus de trois millions de régions pour les structures protéiques connues. Si l'on génère des régions de tailles et de formes variées, la base de données peut contenir plus de 90 millions de ces régions.

Aussi, bien que la reconstruction du maillage de l'objet, de sa surface ainsi que la génération des propriétés remarquables et des régions qui caractérisent l'objet soient réalisées par des approches rapides et performantes, ces étapes seront cependant parmi les étapes les plus limitantes lors d'un criblage d'objets tridimensionnel par leur régions.

L'invention propose donc de générer ces informations à l'avance et de les enregistrer, par exemple dans une ou plusieurs bases de données, de sorte que l'accès et la reconstruction d'une région donnée puissent être accomplis rapidement.

Par exemple, dans le domaine chirurgical, l'objet tridimensionnel étudié peut être un organe ou tissu d'un patient à opérer. On peut alors générer l'ensemble des régions du tissu ou organe d'un patient, de manière à (i) mieux visualiser et sectoriser les lésions et/ou régions à opérer

(notamment en passant par les empreintes structurales et en utilisant des propriétés telles que la courbure, ou bien la colorimétrie si les lésions/régions à opérer sont mises en évidence par un colorant/réactif) ; (ii) déterminer par exemple la puissance d'un laser opératoire à utiliser en fonction notamment des données de résistance et de malléabilité de la région (du tissu) ; (iii) localiser de façon plus générale la lésion ou région à opérer par rapport au restant du tissu ou organe, notamment afin d'évaluer les risques et/ou effets collatéraux d'une telle opération.

En robotique, dans le cas où l'objet tridimensionnel est un bras robotique, le procédé selon l'invention permet notamment de reconnaître l'objet dont il a besoin pour sa tâche au sein d'un atelier contenant une pluralité d'objets tridimensionnels, de déterminer l'endroit où l'objet doit être saisi ou au contraire les zones à éviter (risque électrique, zone trop fragile, etc.), ou encore de reconnaître les régions fonctionnelles de l'objet afin de pouvoir les utiliser sur d'autres objets.

Afin de réaliser ces différentes étapes, l'ensemble des objets tridimensionnels à proximité du robot peuvent-être modélisés, ainsi que leurs régions, en automatique. Dès lors, ces régions peuvent être enregistrées dans une base de données à la disposition du robot, comportant des informations sur les objets disponibles au sein de l'atelier, les moyens de les saisir adaptés aux propriétés du robot, de l'objet et/ou de ses régions

Chacune de ces opérations peut-être réalisée à partir du criblage de régions d'objets selon l'invention. En particulier, connaissant par exemple la forme de la pince robotique, et en déterminant son complémentaire, il est possible de déterminer directement l'ensemble des régions (et donc objets) qu'il peut saisir.

Enfin, dans le domaine de l'intelligence artificielle, le procédé selon l'invention peut être mis en œuvre afin de créer un environnement virtuel correspondant à tout ou partie du monde réel, ce qui permet à l'intelligence artificielle d'identifier de façon automatique les spécifités reconnaissables de chaque objet (leurs empreintes structurales) ainsi que les interactions possibles entre les objets de l'environnement.

En effet, afin qu'une intelligence artificielle devienne fonctionnelle, il lui est nécessaire 1 ) de modéliser son environnement (par exemple par l'intermédiaire de deux caméras permettant la reconstruction par stéréoscopie d'une vue tridimensionnelle de l'environnement et des objets de l'environnement); et 2) d'assigner en automatique des fonctions aux objets et à leurs régions (notamment par le biais des interactions entre objet, sur ceux qui peuvent, ceux qui ne peuvent pas et ceux qui ne doivent pas interagir). La segmentation d'objets tridimensionnels en régions permettant d'accroitre les connaissances sur l'objet lui même et sur ses interactions avec d'autres objets du monde physique, cette approche peut donc bénéficier à l'intelligence artificielle pour mieux modéliser son environnement et mieux le caractériser de façon automatique, en facilitant ses interactions avec le monde physique. La détection des objets et leur modélisation tridimensionnelle par intelligence artificielle peuvent notamment être réalisées grâce à des caméras stéréoscopiques permettant de détecter et détailler les volumes des objets. A partir de l'observation de l'objet, l'intelligence artificielle a donc accès à un maillage et peut lui-même générer les régions et empreintes structurales pour pouvoir analyser les interactions possibles de ce nouvel objet dans l'environnement qu'il connait déjà.

Dans une logique d'intelligence artificielle et d'apprentissage, lorsque l'intelligence artificielle utilise un objet par le biais d'une de ces régions, la réponse provoquée (électrocution, stimuli visuel ou sonore, etc.) peut en retour servir à alimenter et annoter de façon automatique la base de données des régions, de sorte que cette réponse provoquée sera assigné à la région comme une fonction/un comportement type de la région. Par homologie, toute région présentant des caractéristiques proches de celle testée devront pour l'intelligence artificielle, déclencher une même réponse.

Génération des bases de données

Un exemple de génération d'une base de données correspondant à un ensemble donné d'objets tridimensionnels est le suivant.

Dans un premier temps, on identifie chaque objet tridimensionnel par une étiquette unique. On intègre alors dans une base de données l'ensemble des informations pertinentes concernant cet objet de manière à pouvoir le caractériser. Typiquement, pour des objets tridimensionnels du type tissu ou organe d'un patient, ces informations peuvent être la taille, la courbure, la colorimétrie si les lésions/régions à opérer sont mises en évidence par un colorant/réactif, ou encore des données de résistance et de malléabilité.

On génère ensuite un maillage de chaque objet tridimensionnel selon l'invention, et on calcule un ensemble de propriétés remarquables des points du maillage ou du graphe de cet objet.

La localisation spatiale, la courbure, la résistance ou la malléabilité de l'objet tridimensionnel peuvent être calculées quelque soit type d'objet étudié.

D'autres propriétés comme la charge ou le potentiel électrostatique n'auront de sens en revanche que pour certains objets tridimensionnels (tels que les bornes électriques, les molécules, des circuits intégrés, etc.).

Dans le cas des objets industriels, on peut notamment calculer la résistance de l'objet en tout point. Pour un bras en robotique, il est également possible de calculer les états colorimétriques des différents objets, de définir les régions les plus grandes correspondant à un code couleur, ledit code ayant pu être annoté afin de préciser par exemple son fonctionnement ou afin d'attirer l'attention sur une de ses particularités.

A partir du maillage (ou du graphe), on génère alors un ensemble de régions en fonction de différents paramètres (notamment selon le critère de distance et/ou sur la base d'un ou de plusieurs ensembles de propriété

d'intérêt afin d'obtenir en outre les empreintes structurales de l'objet) de façon systématique.

Chaque région et/ou empreinte générée de chaque objet tridimensionnel est ensuite insérée dans la base de données en détaillant, pour chaque point et/ou pour chaque facette de la région, les propriétés qui viennent d'être calculées. En particulier, la base de données comporte des informations sur l'objet auquel appartiennent la région et les régions voisines de cette région.

Cette base de données fournit alors un catalogue de régions correspondant à un environnement virtuel relatif au domaine et à l'application considérés.

Par exemple, en robotique, ce catalogue correspond à l'ensemble des régions d'objets présents dans une pièce et accessible par un bras mécanique.

En biologie, la base de données correspond à l'ensemble des régions de molécules qui sont présentes dans une cellule donnée, un organe donné, un tissu donné ou un organisme donné.

En chirurgie, la base de données correspond à l'ensemble des régions d'un tissu ou organe à opérer, etc.

La spécificité de chaque région, définie par les propriétés remarquables des points qui la composent, de sa surface ou encore de ses éventuelles cavités internes, permet d'évaluer les risques potentiels d'interactions avec d'autres régions d'objets. Il est alors possible de déterminer les régions spécifiques d'un objet de manière à accroître les connaissances sur cet objet et en vue par exemple de le cibler plus spécifiquement dans un environnement complexe.

Selon une forme de réalisation, des indexes sur les régions sont créés en fonction de leur appartenance à un objet et/ou d'états de leurs propriétés respectives. Ces indexes permettront alors un accès rapide aux régions correspondant à des états de propriétés remarquables qui sont étudiées. En particulier, l'utilisation de filtres permet d'améliorer et d'accélérer cette recherche (notamment le filtre basé sur les propriétés invariantes, la comparaison des grandes tendances des régions, etc.).

Selon les besoins et le nombre de régions dont on souhaite disposer, il est en outre possible de créer plusieurs bases de données ayant des fonctions différentes.

Typiquement, il est possible de créer une base de données :

- par type de région générée. Par exemple, une base de données comportant les régions formées sans contraintes de forme, une base de données comportant les régions formées avec contraintes de formes, etc. ;

- par taille de région (rayon géodésique, rayon euclidien, etc.);

- par forme de région (vecteurs contraintes) ;

- en fonction de la charge globale des régions;

- par niveaux au centre et/ou dans des zones anneaux (périphériques) de la région : le niveau au centre correspondant pour les régions de surface et régions intermédiaires, aux coordonnées des points centraux (suffisamment proche du centre) selon l'axe défini par leur normale surfacique (toujours orienté vers le milieu extérieur pour ce type de régions).

- par fonctions (selon une ou plusieurs de propriétés remarquables données) ; etc.

Typiquement, cette base de données est créée après classification de l'ensemble des régions d'un environnement, et chaque sous-base de données (table) correspond à une classe de régions. Par ailleurs, il est en outre possible de définir une région moyenne représentative de l'ensemble des régions appartenant à une sous-base donnée.

Ce concept permet alors de décrire chaque objet tridimensionnel de l'objet en fonction des criblages réalisés.

Ainsi, dans le domaine du criblage moléculaire, il est possible de créer une base de données ne contenant que les régions qui correspondent aux sites d'interactions connus (comportant alors de l'ordre de 300 000 régions) plutôt que de créer une base de données de toutes les régions définissables (de 3 000 000 à 90 000 0000 régions en fonction de la variété des tailles et des formes souhaitée).

Cartographie de l'objet ou de la région

Par ailleurs, pour tout objet tridimensionnel, l'invention permet de créer une cartographie détaillée de l'objet sur la base des connaissances générées par le criblage de ses régions. En particulier, cette cartographie peut renseigner sur les régions spécifiques (déterminées comme étant le nombre de régions similaires de la région recherchée retrouvées lors du criblage de celle-ci) et non-spécifiques (lorsqu'un grand nombre de régions similaires à la région recherchée ont été retrouvées lors du criblage) de l'objet par rapport à un environnement donné ou bien par rapport à lui-même.

Notamment, les fréquences observées lors des criblages de chaque région de l'objet peuvent être représentées sur l'objet tridimensionnel à partir d'un code couleur simple et compréhensible. Les différents sites d'interactions avec d'autres objets, ainsi que des étiquettes faisant référence à ces autres objets sont également enregistrés et affichés par la cartographie.

Il est également possible de cartographier sur l'objet tridimensionnel toute propriété remarquable ayant été calculée pour cet objet, ou ses régions fonctionnelles, soit sur la base de données extérieures contenues par exemple dans des bases de données, soit sur la base des empreintes structurales qui caractérisent les régions spéciales de l'objet, soit sur la base des criblages.

Dans le cas du criblage, une région sera dite fonctionnelle s'il est possible de détecter des régions complémentaires de cette région, cette complémentarité de deux régions indiquant alors des interactions possibles entre l'objet cartographie et un autre objet segmenté et enregistré dans une base de données selon l'invention. La fonctionnalité d'une région peut également être inférée à partir de la ressemblance avec une autre région pour laquelle une fonction est connue.

En outre, dans le cas des molécules, il est possible de créer, pour chaque molécule étudiée selon le procédé de l'invention, une cartographie moléculaire qui détaille les différents sites de liaisons de la molécule et, le cas échéant, leurs recouvrements.

Selon une forme de réalisation, cette cartographie permet d'identifier les régions spécifiques à chaque type de site de liaison (homodimère, hétérodimère, protéine-peptide, protéine-ADN (pour Acide DésoxyriboNucléique), protéine-ARN (pour Acide RiboNucléique), protéine-ligand, protéine-lipide, protéine-eau, etc.), l'ensemble des informations permettant de déterminer les régions spécifiques et non-spécifiques d'une molécule (par rapport à un catalogue de régions correspondant par exemple aux régions moléculaires d'une cellule, d'un organe, d'un tissu, etc), les régions qui sont connues pour être des sites de liaisons dans des interfaces biologiques particulières, ou encore l'ensemble des propriétés de la molécule afin d'identifier notamment les changements de conformations, de solvatations ou de charge dans différents contextes d'interaction (par exemple lorsque la structure moléculaire est sous forme libre, i.e. sans partenaire, ou lorsque la structure moléculaire est sous forme liée, i.e. avec un partenaire).

Dans le domaine du criblage d'objets industriels, il est possible de créer une première base de données des outils accessibles par un bras robotique et une deuxième base de données des objets sur lesquels le bras robotique doit travailler, en tenant compte des capacités du robot à saisir et manipuler l'objet : les régions qui peuvent être saisies (et qui sont indiquées sur la cartographie) dépendent de la forme des pinces du robot.

Dans le domaine chirurgical, il est possible de réaliser la cartographie d'un organe à opérer : par le biais de la description des régions de l'organe, la région à opérer peut être ciblée et colorée de manière à la mettre en évidence.

En variante, la région est annotée de manière à fournir des informations sur sa résistance (et/ou sur la résistance de ses régions sous-jacentes), des détails sur les différentes régions sensibles de l'organe risquant de mettre en péril la survie du patient, etc.

Un autre exemple de cartographie est de considérer un outil (tournevis, clé à molette, etc.), et de définir les régions fonctionnelles de ces objets. Par exemple, dans le cas simple du tournevis, on définit notamment une région qui forme le manche et permet de tenir l'outil, et une région formant la branche et le croisillon, permettant de s'insérer dans la fente complémentaire d'une vis.

D'autres exemples sont encore possibles (le concept de cartographie correspondant très largement au concept de « plan » d'un objet) : l'objet voiture, ayant une région « porte » et une sous-région serrure, complémentaire d'une région clé.

Le choix des informations prises en compte dans la cartographie dépend notamment de l'objet pour lequel est effectuée cette cartographie, mas également du domaine étudié, de son application, du niveau de détail désiré, etc. ou encore des régions et empreintes structurales obtenues suite à la segmentation et aux différents filtres leur sont appliqués.

Pour un même objet tridimensionnel, on peut donc créer un ensemble de cartographies différentes de manière à les adapter au mieux à l'application souhaitée.

Utilisation des bases de données dans la comparaison des régions

La comparaison des régions d'objets tridimensionnels plutôt que la comparaison des objets dans leur globalité ouvre donc la porte à de nouvelles applications et de nouvelles classifications de ces objets. En

particulier, il devient possible de regrouper les objets en fonction de régions ayant des propriétés remarquables souhaitées.

Par exemple, cela permet de regrouper dans une base de données spécifique l'ensemble des molécules qui présentent une région ayant une forme déterminée, portant une charge déterminée et n'étant pas malléables ; ou encore tous les objets d'une usine ayant une région saisissable et une résistance supérieure à un seuil, une forme déterminée et étant isolants.

Une bonne division des bases de données fondée sur les problèmes à traiter peut accélérer d'un facteur 10 ou 100 le procédé de criblage.

Selon l'invention, il est en particulier possible de créer plusieurs bases de données (ou plusieurs tables dans une base de données) contenant chacune l'ensemble des régions qui ont pu être générées à partir d'une collection d'objets, mais selon des critères différents.

Par exemple, pour une collection d'objets tridimensionnels donnée du domaine industriel :

- une première base de données (ou table) contient l'ensemble des régions des objets tridimensionnels formées à partir d'un critère de distance géodésique sans contrainte de formes ;

- une deuxième base de données (ou table) contient l'ensemble des régions formées à partir d'un critère de distance géodésique avec des contraintes de formes définies par la direction de deux vecteurs V1 et V2 :

- une troisième base de données (ou table) contient l'ensemble des empreintes structurales formées à partir des propriétés remarquables courbure et charge ; et

- une quatrième base de données contient les empreintes structurales formées à partir des propriétés remarquables résistance et conductance.

Lorsque l'on cherche une région fonctionnelle similaire à une région fonctionnelle connue d'un objet tridimensionnel donné parmi une collection de régions, on génère par exemple l'ensemble des régions de cet objet selon toutes les méthodes décrites précédemment. Puis, à partir des régions obtenues, on sélectionne la région générée de façon automatique (et d'après un ou plusieurs critères donnés) qui recouvre le mieux la région fonctionnelle que l'on cherche à cribler, i.e. qui comporte le plus grand nombre de points communs avec la région fonctionnelle à cribler. Cette région sélectionnée permet alors de renseigner notamment sur la forme générale de la région fonctionnelle, et plus particulièrement sur les critères de génération qu'il faut privilégier afin d'accélérer la recherche des régions similaires.

Par exemple, si la région sélectionnée a été obtenue selon un critère de distance de dix centimètres, avec le vecteur contrainte (-2, 1 , 0), on crible de préférence la région fonctionnelle sur la (ou les) base(s) de données comportant l'ensemble des régions obtenues suivant tout ou partie de ces critères (taille de dix centimètres et vecteur contrainte (-2, 1 , 0)) plutôt que sur l'ensemble des régions possibles, ou l'ensemble des bases de données contenant toutes les régions de tous les objets générés selon tous les procédés décrits précédemment.

On remarquera par ailleurs que le criblage de régions ne requiert pas nécessairement d'être implémenté sur une unité de traitement numérique unique (CPU). En particulier, étant données n unités de traitement disponibles et reliées par des connecteurs réseaux sur une grille, et N régions à comparer, il suffit de construire une file de ces N régions, éventuellement avec un ordre de priorité. Dès lors, et jusqu'à ce que la file de régions soit vide, les régions à comparer sont réparties équitablement entre tous les n CPU de la grille.

Dans cette variante, on soumet avantageusement suffisamment de régions à comparer à chaque échange, de sorte que le temps de communication ne soit trop important devant le temps nécessaire à la comparaison des régions.

Par ailleurs, la reconstruction des régions à partir de chaque nœud de la grille se fait de préférence à partir d'une voire deux bases de données au minimum qui centralisent les données et les rend accessibles à chaque nœud.

Détermination de régions complémentaires

Le procédé de caractérisation selon l'invention permet, en plus du criblage, de comparer les objets tridimensionnels entre eux, et plus particulièrement de comparer des régions d'objets tridimensionnels entre elles de manière à déterminer des régions qui sont complémentaires.

Une région R1 est dite complémentaire d'une région R2 lorsque, dans le schéma de correspondance des points Si de R1 et Sj de R2 on observe que :


si P est une propriété normalisée sur [0, 1 ] avec comme valeur neutre 0.5, et


si P est une propriété normalisée sur [-1 , 1] avec comme valeur neutre 0.

Dans le cas simple d'une description de la région par la courbure normalisée sur [0,1 ], c'est-à-dire où P est la courbure locale, si un point Si de R1 a une courbure de valeur égale à 0.8 (bosse), le point correspondant S2 dans la région complémentaire R2 a une courbure dont la valeur est proche de 0.2 (creux).

Dans le cas où la propriété P est une charge, un point S 1 de la région R1 ayant une charge cationique aura pour point complémentaire S2 dans la région R2 un point ayant une charge anionique. De même, pour dans le cas où la propriété est la conduction, un point Si de la région R1 qui est isolant aura pour complémentaire dans la région R2 un point conducteur.

Cette définition est bien entendu généralisable à n propriétés Pi dès lors que celles-ci sont numérisables et que l'on connaît leur valeur neutre permettant d'inverser leur état.

Cela signifie qu'à partir de toute région R1 définie par un ensemble de points Si , il est possible de définir une région complémentaire R2 définie par un ensemble de points Sj qui sont très exactement complémentaires de Si vis-à-vis des propriétés Pi : il y a une bijection entre les Si et Sj et les équations permettent de passer de l'un à l'autre.

Il est également possible de générer plusieurs régions complémentaires à partir d'une région. Pour ce faire, on génère la région complémentaire en tout point (qui est par définition unique) de cette région, puis, à partir de cette région complémentaire, on introduit aléatoirement une certaine variabilité sur les propriétés de ses points de manière à générer une ou plusieurs régions similaires à cette région unique, qui selon la variabilité introduite, seront plus ou moins complémentaires de la région initiale.

II est possible notamment d'introduire une variabilité sur la propriété localisation des points. Par exemple, pour un point S ayant une localisation spatiale en (S.x, S. y, S.z), il est possible de redéfinir une nouvelle localisation spatiale S' ayant pour coordonnées :

S' = (S.x + random_position(); S. y + random_position(); S.z + random_position())

où random_position() renvoie une valeur aléatoire comprise par exemple entre -1 et 1.

De la sorte, on génère une pluralité de régions complémentaires en introduisant en chaque point de faibles variations de leurs propriétés (généralement inférieures à 10% de la valeur maximale de la propriété).

En variante, on génère plusieurs conformations à partir du complémentaire unique, générées par modes normaux, dynamique ou mécanique moléculaire, ou encore on génère plusieurs conformations de la région initiale puis l'ensemble de leurs complémentaires strictes.

L'ensemble des procédés de comparaison que nous avons présentés en relation avec le criblage des objets tridimensionnels s'applique donc également pour la comparaison et la génération des régions complémentaires.

En effet, partant d'une région R1 , plutôt que de rechercher l'ensemble des régions qui lui sont similaires, il est possible de déterminer une région R2 , complémentaire de R1 , et rechercher l'ensemble des régions qui sont similaires à la région R2 , qui seront alors de facto complémentaires de la région R1 .

S'il est possible de créer des régions qui sont les complémentaires exactes d'autres régions, il est également possible de créer une région

R2 qui enveloppe complètement une région R1 . Ce type de région complémentaire correspond en fait à la surface que l'on obtiendrait si la région R1 était un objet isolé et peut être calculée en tant que la surface de

R 1 . Les propriétés de cette surface enveloppant R1 sont alors inversées comme indiqué précédemment.

La figure 8 est un exemple illustrant les objets que l'on peut obtenir selon le procédé de l'invention.

Sur cette figure sont représentés un objet 10 ainsi qu'un objet 20 qui interagit avec l'objet 10.

Si l'objet 10 est une molécule, il peut par exemple être une cible thérapeutique ayant une région fonctionnelle R1, tandis que le composé 20, qui a été identifié selon le procédé de l'invention ou par les connaissances existantes, comporte une région R2, complémentaire de la région R1.

On peut alors rechercher dans des bases de données d'une part

(flèche 1 ) des régions similaires de la région R1, afin de déterminer l'ensemble des objets 1 1 , 12, comportant des régions similaires R1', R1''

(notamment afin de déterminer de nouvelles cibles thérapeutiques si R1 est un site de liaison de composé) et d'autre part (flèche 2 sur la figure) des objets 21 , 22 comportant des régions similaires R2', R2'' à la région R2, et donc complémentaires de la région R1. Les objets 21 et 22 peuvent donc interagir avec l'objet 10 au niveau de la région R1.

Nous allons à présent présenter une application particulière du procédé de caractérisation selon l'invention.

Dans ce qui suit, nous décrivons plus spécifiquement le criblage de molécules et de macromolécules.

Nous proposons également un procédé permettant de déterminer les sites de liaisons et partenaires moléculaires d'une cible, ainsi que de déterminer les régions spécifiques de molécules cibles, d'évaluer et de moduler un potentiel de toxicité ou l'efficacité d'un composé et de générer une cartographie moléculaire.

La comparaison in silico de molécules et de macromolécules revêt un intérêt particulièrement important dans différents domaines de la recherche fondamentale (par exemple en biologie, chimie, etc.) et de la recherche industrielle (dans les domaines pharmaceutiques, cosmétiques, agroalimentaires, de la toxicologie, etc.). Elle permet entre autres d'établir des classifications de ces molécules, ce qui, couplé à des raisonnements d'homologies et d'analogies permet de prédire et de décrire partiellement le rôle et le comportement de ces molécules. Notamment, il est essentiel d'identifier les sites de liaisons d'une molécule cible, et de préciser les différents partenaires qui s'y associent.

La fonction et la réactivité d'une molécule dans un contexte environnemental (que ce soit une cellule, un tissu, un organisme ou dans une solution, à l'air libre) dépend à la fois de la structure tridimensionnelle globale de la molécule, mais également d'une ou plusieurs régions locales tridimensionnelles et actives de ladite molécule. Ces régions locales servent notamment de points d'ancrage fonctionnels pour d'autres molécules. La structure globale est cependant également importante du fait des contraintes stériques qu'elle engendre, pouvant limiter ainsi le jeu des interactions entre régions locales.

A ce jour, la comparaison (in silico) géométrique, physico-chimique et évolutive des molécules et des macromolécules biologiques (protéine, ADN - pour Acide DésoxyriboNucléique, ARN - pour Acide RiboNucléique), lipides, etc.) passe majoritairement par la comparaison des séquences, structures et propriétés globales des molécules. Certaines approches récemment décrites tentent toutefois de tenir compte de la présence de certains motifs clés (tels que des triades catalytiques), mais elles ne préservent pas la notion de contigϋité (importante pour comparer des blocs indivisibles et fonctionnels, et générer des complémentaires des régions), et ne permettent pas non plus de comparer des régions de tailles et de formes variées.

La présente invention a donc également pour objet le développement de procédés techniques qui découlent de la description détaillée des molécules et macromolécules en régions et empreintes structurales, et de leurs criblages. Les connaissances supplémentaires acquises par la description systématique des molécules et macromolécules en régions et empreintes structurales permettent en particulier de répondre aux applications suivantes non limitatives pour tout contexte environnemental donné : 1 ) la recherche de molécules portant une région fonctionnelle précise ou proche (tolérant des variations des propriétés remarquables de la région) ; 2) la recherche de partenaires moléculaires (quelque soit le type de molécule, le seul pré-requis étant de disposer d'une structure); 3) la recherche de cibles moléculaires de composés endogènes ou exogènes ; 4) la recherche de macromolécules et régions moléculaires pouvant-être ciblées par des composés exogènes (concept de « druggabilité ») ; 5) la recherche des architectures de composés pouvant lier une région moléculaire donnée ; 6) la recherche de composés pouvant lier une région moléculaire donnée ; 7) la recherche de la spécificité de régions moléculaire (fréquence de ces régions dans un contexte/environnement donné) et des points d'ancrage spécifiques d'une molécule ou d'une cible moléculaire ; 8) la création de profils d'interactions pour une région moléculaire donnée ou pour un ensemble de régions moléculaires données (puce d'interaction) ; 9) la génération de graphes d'interactions moléculaires à partir d'un criblage moléculaire et de profils d'interactions ; 10) l'évaluation, la classification et la modulation d'un potentiel de toxicité d'une molécule par l'analyse des perturbations d'interfaces biologiques induites par la molécule ; 1 1 ) l'évaluation et la classification d'un potentiel de toxicité d'une molécule en utilisant le profil d'interactions de la molécule (puce de toxicité) ; 12) l'évaluation et la modulation des effets secondaires d'un composé à partir de l'analyse comparative de cibles du composé et d'interfaces biologiques connues ; 13) l'évaluation et la modulation de l'efficacité d'un composé à partir du nombre de ses cibles, éventuellement pondéré par des données d'expression de gènes (permettant de pondérer la fréquence d'une région par la fréquence de la cible portant la région) ; 14) la création d'une cartographie moléculaire permettant de rassembler et résumer les différentes connaissances produites par le procédé de caractérisation sur une seule et même structure moléculaire ; 15) le sauvetage dirigé de composés toxiques ou peu efficaces en fonction des profils d'interactions et de spécificités du composé et de ses cibles.

Types moléculaires

Une première étape selon le procédé de l'invention consiste à distinguer de façon systématique à partir de fichiers de données moléculaires, les différents types moléculaires en présence.

On distingue notamment les macromolécules (protéine, ADN, ARN, lipides) des molécules (sucres, nucléotides, eau, ions, et autres ligands).

Chaque type moléculaire a en effet des rôles et réactivités qui lui sont propres. Par exemple, les connaissances actuelles permettent de déterminer que l'ADN sert entre autres à la conservation et à la réplication de l'information génétique alors que l'ARN, moins stable mais plus réactif, joue un rôle plus transitoire qui lui permet soit d'agir directement dans l'organisme, soit de servir de copie d'une portion d'ADN en vue de traduction(s) en protéines.

Les protéines quant à elles sont versatiles et mêlent souvent des rôles d'architecture (la nécessité d'avoir des molécules d'une certaine taille et forme afin de constituer des macrostructures telles que le supercomplexe TFIIH, mais aussi afin d'accroître la spécificité des interactions moléculaires par le biais de gènes stériques), à des rôles catalytiques (catalyse enzymatique) et de régulations et/ou de signalisations (interaction avec d'autres partenaires).

II est alors d'usage de parler de macromolécules lorsqu'il est question de protéines, d'ADN et d'ARN, en raison de leur taille souvent importante. Par opposition, les molécules, généralement plus petites, jouent davantage un rôle de solvant (pour la fluidité moléculaire) et de régulation des macromolécules, susceptible d'entrainer la régulation de systèmes plus complexes tels que des voies métaboliques et voies de signalisations.

Une base de données PDB (Protein Data Bank) stocke de nombreuses structures moléculaires sous la forme de fichiers plats (i.e. de fichiers textes). Il est possible de récupérer ces fichiers et de les analyser afin de déterminer l'ensemble des molécules présentes ainsi que leurs types moléculaires. Cette détermination du type moléculaire se fait sur la base de conventions d'écritures récapitulées notamment par la

nomenclature IUPAC (pour International Union of Pure and Applied Chemistry, i.e. l'Union Internationale de Chimie Pure et Appliquée) et décrites dans la PDB.

Les protéines ou polypeptides peuvent notamment être séparées en fonction de leur taille ; on parle par exemple de protéine lorsque le polypeptide est constitué d'au moins soixante à quatre-vingt acides aminés, de peptides lorsqu'il est constitué de vingt à soixante acides aminés, et de petits peptides sinon. Cette distinction permet de tenir compte d'une réalité structurale et physico-chimique : les protéines d'une certaine taille sont généralement plus stables et les changements de conformations importants sont généralement plus rares que pour des peptides et petits peptides.

Par convention, toute molécule n'ayant pas été identifiée comme étant une protéine (respectivement peptide ou petit peptide), un ADN, un ARN, un lipide, un ion ou une molécule d'eau d'après ces conventions, est communément appelée « ligand » ou « composé ». On peut différencier les composés/ligands endogènes (provenant de l'expression de l'organisme) des composés/ligands exogènes (provenant d'un milieu extérieur à l'organisme).

D'autres classifications moléculaires plus détaillées sont possibles, notamment afin de préciser la présence de cycle aromatique et d'autres groupements fonctionnels répertoriés par la chimie organique et inorganique.

Chaque fichier de structure obtenu à l'étape précédente du procédé est donc converti dans une structure de données hiérarchique (selon un concept de programmation orientée objets), de sorte que l'on puisse avoir accès séparément à chacun des types moléculaires présents, puis, pour chaque type moléculaire, à chacune des chaînes de ce type moléculaire, et pour chaque chaîne d'un type moléculaire, à chaque résidus et atomes la composant.

Par la suite, le terme « résidu » fait indifféremment référence aux résidus d'acides aminés des protéines (respectivement peptide, petit peptide) ou aux résidus d'acides nucléiques des ADN, ARN.

De même, du fait de la généricité de la méthode vis-à-vis du type moléculaire, le terme « molécule » fait indifféremment référence aux molécules et macromolécules. Le terme macromolécule quant à lui restera spécifique et ne concernera que les protéines, ADN, ARN, lipides et autres macromolécules.

Identification et caractérisation systématique des interactions moléculaires structuralement connues

Une fois les différentes molécules en présence identifiées et stockées dans des structures de données hiérarchiques, il est nécessaire d'établir de façon systématique et à partir des structures moléculaires, les interactions mises en évidence lors d'expérimentations biologiques. En effet, il est fréquent qu'un fichier de structure, par exemple extrait de la PDB, contienne plusieurs molécules et macromolécules interagissantes.

Pour ce faire, on analyse les distances interatomiques intermoléculaires, c'est-à-dire les distances entre des atomes appartenant à une molécule et ceux appartenant à une autre molécule. On peut alors vérifier si deux atomes sont en contact en comparant la distance les séparant à la somme de leurs rayons de Van der Waals ou de Coulomb. Il est possible d'ajouter ou de multiplier par une constante K la somme de ces rayons, afin de tenir compte à la fois des imprécisions sur la localisation des atomes, mais également des faibles vibrations atomiques en ces points (corrélés entre autre aux b-facteurs des atomes).

En particulier, lorsque l'on évalue si deux atomes A et B appartenant à deux molécules différentes sont en contact, on peut distinguer deux cas: soit au moins l'un des deux atomes est apolaire, auquel cas on utilisera systématiquement les rayons de Van der Waals pour modéliser le volume

physique de ces atomes; soit les deux atomes sont polaires, auquel cas on considère de préférence les rayons de Coulomb pour modéliser leurs volumes physiques et évaluer leur interaction.

Selon une autre forme de réalisation afin de déterminer si deux résidus (ou groupements d'atomes) interagissent, il est possible de déterminer les atomes de surface de chacun de ces deux résidus et d'identifier leurs barycentres respectifs. On peut alors mesurer si les atomes de surface des résidus, éventuellement discrétisés au niveau de leurs barycentre respectif, sont effectivement en contact en utilisant un seuil empirique (généralement proche de 4.5Å).

Il est également possible de déterminer les atomes et résidus interagissants en calculant séparément l'accessibilité au milieu de deux groupes d'atomes A et B (forme libre), et de comparer ces accessibilités à l'accessibilité calculée sur la fusion de ces deux groupes d'atomes (forme liée). Si l'accessibilité d'un atome du groupe A ou du groupe B change entre son calcul sous forme libre et sous forme liée, c'est qu'il se trouve à l'interface des groupes A et B, c'est-à-dire que cet atome est un atome interagissant.

En variante, une méthode basée sur la tesselation de Voronoï permet de définir les atomes et résidus interagissants sans définir préalablement la surface ni imposer des critères arbitraires de distance et d'accessibilité. Cette méthode permet également de limiter et filtrer le schéma d'interactions des deux molécules (schéma qui récapitule qu'un atome Ai d'une première des molécules interagit avec un atome Bj de la deuxième molécule, et ainsi de suite).

Les interactions intermoléculaires ainsi détectées sont ensuite classées dans différentes catégories en fonction des molécules impliquées. On différenciera en particulier les homodimères (l'assemblage de deux molécules identiques) des hétérodimères (l'assemblage de deux molécules différentes) qui ont certaines propriétés d'interactions distinctes.

Pour une meilleure caractérisation systématique des interactions, on différencie avantageusement les assemblages X-protéine, X -peptide, X -ADN, X -ARN, X -lipide, X -ion, X -solvant, X -ligand (où X correspond à l'un des types moléculaires énumérés ci-dessus), les propriétés de certains types d'assemblages différant significativement d'autres types d'assemblages.

Les données structurales provenant de données cristallographiques présentent toutefois des artefacts d'interaction connus sous le nom d'« empilement cristallin » (ou « crystal packing » en anglais).

Ces interactions dues à l'empilement cristallin ne reflétant pas de véritables interactions biologiques, il est nécessaire de pouvoir les identifier de façon systématique. De nombreuses méthodes parviennent à ce résultat en utilisant principalement des critères sur la taille, la composition et la complémentarité (géométrique et physico-chimique) de l'interface.

Par exemple, il existe peu d'interfaces dues à des empilements cristallins dont l'aire enfouie soit supérieure à 1000Å2, ou ayant une forte composition hydrophobe et aromatique, ou étant fortement complémentaires : les régions interagissantes formant des interfaces cristallines sont moins complémentaires que les régions interagissantes formant des interfaces biologiques.

Par la suite, nous différencierons les termes « sites de liaison » du terme « interface » (ou « interface biologique »). Le site de liaison correspond à l'ensemble des atomes et résidus d'une molécule participant à une interaction, alors que l'interface correspond à l'ensemble des sites de liaisons interagissant entre eux.

Représentation des molécules

La représentation moléculaire habituellement mise en œuvre est la représentation de Connolly, qui dérive du calcul de la surface d'un objet

tridimensionnel par les méthodes conventionnelles de « marching cube » et « marching tetraedra ». Cette représentation fournit une enveloppe de la molécule, en évaluant la surface que pourrait parcourir une sonde (ou « probe » en anglais) ayant la forme d'une molécule d'eau à la façon d'une bille se déplaçant sur l'objet. Les surfaces dérivées de la représentation de Connolly permettent de rendre compte notamment de la complémentarité des sites de liaisons de l'interface biologique.

Il est toutefois possible de modéliser différents types de surface en faisant varier non seulement la taille de cette sonde, mais également en faisant varier ses propriétés physico-chimiques, notamment sa charge.

En effet, plus la taille de la sonde est faible, plus le niveau de précision de la représentation de surface est important.

Lorsque la modélisation de la surface d'une molécule cible (i.e. d'une molécule d'intérêt) dépend également de la polarité de la sonde, on tient alors compte des rayons de Coulomb si la sonde est polaire et en contact avec un atome de la molécule également polaire, ou des rayons de Van der Waals si la sonde ou l'atome de la molécule est apolaire.

Il est également possible de faire varier la résolution (aussi appelée taille) de la grille qui permet de calculer la représentation de la molécule (c'est-à-dire par exemple de modéliser les facettes de surface), ainsi que d'utiliser ou non des interpolations pour définir les points de cette surface.

L'obtention de différentes représentations d'une même molécule à des résolutions variées permet alors de simplifier sa modélisation, et par conséquent, d'accélérer les comparaisons ultérieures.

Ces représentations sont cependant complexes et d'autres représentations telles que la tesselation de Voronoï, le complexe de Delaunay, la forme dual et la forme alpha permettent de simplifier considérablement la modélisation des structures moléculaires et les analyses qui en découlent. Comme observé précédemment, la tesselation de Voronoï et le complexe de Delaunay permettent notamment de disposer d'une description interne de l'objet, et non seulement de sa surface comme dans le cas par exemple de la forme alpha et de la surface de Connolly. Cette représentation structurée des parties internes de l'objet a son importance à la fois pour la définition et description de régions, mais aussi pour la comparaison des régions internes et intermédiaires (comprenant à la fois des points internes, mais aussi des points de surfaces). Pour chaque point de la représentation de la structure moléculaire, il est possible d'attribuer un ou plusieurs atomes de la molécule, et un ou plusieurs résidus de la molécule.

Toute représentation moléculaire fournit un maillage, c'est-à-dire une structure qui localise des points et qui fournit des arêtes reliant ces points. Ces arêtes peuvent rendre compte de possibles interactions interatomiques de la molécule, comme c'est par exemple le cas avec le complexe alpha et les formes alpha. Ce maillage peut également être transposé dans des graphes variés tenant compte de différentes propriétés remarquables de la molécule, telles que sa courbure, ses charges, ses zones rigides et malléables, etc. En retour, et comme observé précédemment, ces graphes permettent de simplifier la représentation de la molécule, et de générer des régions et empreintes structurales. Ces régions et empreintes structurales permettent à la fois d'approfondir de façon systématique les connaissances sur la molécule, mais permettent également le criblage de molécules sur la base de leurs régions. Ces comparaisons sur la base de régions plutôt que sur l'objet globale sont plus fines et permettent la réalisation des différentes applications présentées précédemment. En particulier, la comparaison des régions moléculaires permet de décrire fonctionnellement une macromolécule en précisant ses sites de liaisons et partenaires associés (détectés soit par une similarité de régions fonctionnelles, soit par le criblage de régions complémentaires). Elle permet aussi d'évaluer la fréquence d'une région dans un environnement/contexte donné et d'identifier les cibles biologiques de composés. L'analyse de la fréquence d'une région et des cibles biologiques de composés permet en retour de renseigner sur de possibles effets toxiques (si le composé perturbe des

interfaces biologiques), de possibles manques d'efficacité (si le composé se lie à un nombre trop important de cibles), d'effets secondaires (si le composé perturbe un trop grand nombre de cibles ou interfaces biologiques) et d'en expliquer certaines causes moléculaires. La connaissance de ces causes moléculaires, responsables d'effets secondaires ou toxiques, et/ou du manque d'efficacité d'un composé permet en retour de proposer des modifications légères du composé pour moduler ses effets secondaires ou toxiques, ainsi que moduler son efficacité d'un dans un environnement donné.

Segmentation de molécules en régions et empreintes structurales

Les points fournis par la représentation moléculaire peuvent être répartis en deux catégories : les points de surface (faisant par exemple partie de l'enveloppe moléculaire, c'est-à-dire les points directement en contact avec le milieu extérieur et/ou suffisamment proche pour interagir avec le milieu extérieur), et les points internes (ne faisant pas partis de l'enveloppe moléculaire et/ou étant trop éloigné du milieu extérieur).

A partir de cette classification des points, il est également possible de différencier trois types de régions : les régions de surface, ne comprenant que des points de surface ; les régions internes, ne comprenant que des points internes ; et les régions intermédiaires, comprenant à la fois des points de surface et des points internes.

La génération et le stockage des régions et empreintes structurales peut notamment être mise en œuvre selon le procédé de caractérisation précédemment décrit.

En particulier, on détermine quatre bases de données (ou tables) correspondant à des générations de régions de tailles respectives 4Å, 8Å, 12Å et 16Å.

Les bases de données correspondant à des régions de faibles tailles

(4Å, 8Å) sont plutôt utilisées afin de caractériser des phénomènes locaux des surfaces, telles que la liaison de ligands ou de petits peptides, ou encore les sites de phosphorylations et de glycosylations.

Les bases de données correspondant aux régions de taille supérieure (12Å, 16Å) permettent plus généralement de mettre en évidence les interactions macromoléculaires (telles que protéine-protéine, protéine-ADN, protéine-ARN, etc.).

En variante, une base de données est formée en regroupant tous les sites de liaisons détectés de façon systématique à partir des analyses structurales. Pour ce faire, les sites de liaisons sont identifiés et différenciés d'après les descriptions détaillées précédemment. Les sites de liaisons peuvent être intégrés directement dans la base de données en précisant les coordonnées atomiques et les propriétés remarquables de ces atomes. Selon une autre forme de réalisation, ce ne sont pas les atomes et leurs propriétés qui sont intégrés, mais les points et propriétés de ces points issus de la représentation moléculaire (i.e. du maillage) et correspondant à ces atomes. En variante, il est également envisageable d'intégrer les facettes (à savoir trois points reliés directement entre eux par des arêtes) plutôt que les atomes ou les points. Cette base de données est appropriée pour l'annotation d'une structure moléculaire à partir de régions fonctionnelles déjà identifiées.

Selon une autre variante encore, on génère l'ensemble des régions de la molécule et on recherche celles qui recouvrent le plus un site de liaison étudié de la molécule. Par recouvrement, on entend ici le pourcentage de points (ou atomes) présents dans le site de liaison étudié qui font également partie d'une région générée. Dès lors, plutôt que de stocker le site de liaison, on stockera la (ou les) région Rmax recouvrant le plus le site de liaison.

Cette région est « étiquetée » de sorte que l'on puisse retrouver les critères qui ont permis sa génération (taille de la région, contraintes de formes, etc.).

Dans cette forme de réalisation, ce ne sont donc pas les sites de liaisons qui sont directement intégrés dans la base de données, mais plutôt les régions Rmax qui recouvrent le plus les sites de liaisons connus. L'intérêt d'une telle approche tient en deux points: 1 ) on s'assure ainsi que l'on recherche des régions qu'il est possible de retrouver (puisqu'elles ont pu être générées de façon systématique); 2) l'étiquetage des régions Rmax permet de renseigner sur la forme globale de la région (i.e. du site de liaison: par exemple, si la région est étirée dans une direction). Il sera alors possible d'en tenir compte lors du criblage d'une molécule, afin de comparer en premier (ou uniquement) les régions moléculaires stockées qui répondent à ces critères de forme.

Il est également possible de générer non pas une seule région par site de liaison, mais un ensemble de régions, qui correspondent aux N régions recouvrant le plus le site de liaison, ou aux N régions correspondant aux conformations stables d'un site de liaisons. En particulier, dans le cas des cavités liant des ligands, il est possible de définir un site de liaison qui ressemble généralement à une poche (fermée ou ouverte) et recouvre une grande partie de la cavité, mais il est également possible de définir N régions plus petites qui correspondent aux différentes faces de cette poche.

En variante, on crée une base de données à partir d'empreintes structurales détectées sur les molécules et macromolécules. En particulier, on peut considérer les empreintes structurales basées sur la courbure seule, sur la courbure et l'hydrophobicité, ou encore sur la courbure et la polarité, notamment: des empreintes structurales correspondant aux régions creuses et hydrophobes; des empreintes structurales correspondant aux régions bosses et cationiques; des empreintes structurales correspondant aux régions bosses et anioniques, etc. La combinaison d'empreintes structurale sur une même structure moléculaire représente souvent un code unique propre à une famille moléculaire ou à une sous-famille moléculaire. D'autres empreintes structurales peuvent cependant être uniques et spécifiques de la molécule qui la porte.

Selon une autre variante, on génère des bases de données ne contenant que des molécules présentes dans un type cellulaire/tissulaire, dans un organisme ou même, dans un compartiment cellulaire (organite telle que la mitochondrie). Un criblage sur une telle base de données spécifique permet alors de répondre de façon plus précise aux besoins de la recherche et du monde industriel, et permet également d'effectuer des comparaisons des capacités d'interactions d'une molécule dans différents contextes/environnements. En particulier, cela peut aider à identifier de nouvelles fonctions thérapeutiques de composés connus : un composé ne provoque en effet pas des réponses cellulaires identiques dans deux types de tissus différents. L'actualité de ces dernières années et les recherches entreprises par des laboratoires pharmaceutiques montrent également que de nombreux médicaments connus pour avoir un effet thérapeutique dans un tissu présentent d'autres effets dans d'autres tissus.

Criblage de régions et d'empreintes structurales

Une fois les bases de données de régions moléculaires générées, il est possible de cribler une région ou empreinte structurale donnée sur ces bases de données. Comme le criblage correspond en fait à la comparaison par paires de régions (ou d'empreintes structurales), il est possible d'effectuer ce calcul sur un réseau comportant une pluralité de processeurs (CPU). Chaque CPU correspond alors à un nœud du réseau.

Selon une forme de réalisation, un ou plusieurs nœuds centraux servent de bases de données (permettant la reconstruction des régions moléculaires), et N nœuds esclaves servent de nœuds de calculs. Les N nœuds esclaves interrogent individuellement l'une au moins des bases de données afin de reconstruire les régions stockées et afin de les comparer avec une région requête. Les N nœuds esclaves renvoient alors (lorsque la comparaison fournit un résultat intéressant selon le score d'énergie) les résultats de cette comparaison à un nœud base de données prévu pour stocker les résultats.

A chaque criblage est attribué un identifiant unique qui est partagé entre tous les nœuds esclaves, de sorte que tous les résultats envoyés par ces nœuds soient étiquetés par cet identifiant unique. A partir d'une requête unique, cette requête est alors répartie de façon équitable entre tous les nœuds de calculs, mais il est possible de récupérer l'intégralité des résultats sur la base de données prévue à cet effet et en utilisant l'identifiant unique.

Les approches de comparaison de régions et d'empreintes structurales ainsi que les filtres permettant d'accélérer ces comparaisons peuvent être mis en œuvre.

En particulier, l'utilisation des sphères de contrôle est particulièrement adaptée pour une comparaison rapide de tout type de régions (de surface, interne, ou intermédiaire). L'utilisation des disques de contrôle est particulièrement adaptée pour une comparaison rapide des régions de surface et régions intermédiaires.

Le filtre correspondant au rapport des rayons géodésique et euclidien permet quant à lui de sélectionner un sous-ensemble de régions de même taille et présentant des « plissements » proches de la région requête.

La simplification des régions à partir du rassemblement des états de propriétés qui se ressemblent, et l'utilisation d'algorithmes de correspondance de graphes (« graph matching ») sont également des filtres particulièrement efficaces.

Avant de comparer chaque couple de régions, il est également possible de comparer les compositions des états de propriétés de ces régions, ainsi que la distribution de ces compositions. Des compositions trop différentes indiquant alors que les régions ne peuvent se ressembler et qu'il est inutile de procéder à des comparaisons plus lourdes (ex: 25% de résidus hydrophobes pour une région et 60% pour une autre région).

Score d'énergie normalisé et catégorie de confiance

Comme nous l'avons vu pour les objets tridimensionnels en général, la comparaison de deux régions passe par la comparaison par paires des points de ces deux régions. Les ressemblances et différences entre les états de propriétés en ces points permettent alors de renseigner sur la ressemblance/différence globale des deux régions. Le score global provenant de la comparaison des deux régions dépend toutefois du nombre de points constituant ces régions: plus il y a de points et plus les valeurs maximales (respectivement minimales) du score global seront grandes; inversement, moins il y a de points et plus les valeurs maximales (respectivement minimales) du score global seront petites.

On normalise de préférence ce score global de comparaison afin de pouvoir différencier rapidement les alignements pertinents de ceux qui le sont moins. Pour ce faire, comme tout criblage de région nécessite de définir la région à cribler, il est alors notamment possible de comparer cette région avec elle même (respectivement, avec son complémentaire si l'on fait un criblage du complémentaire de cette région). Cette comparaison de la région avec elle même fournit alors le score global d'énergie maximale qui peut être obtenu: en effet, par définition du score d'énergie, aucune autre région ne pourrait lui ressembler davantage et donc avoir un meilleur score.

Dès lors, le score global issu de chaque comparaison de régions est normalisé par cette valeur maximale, de sorte que le score d'énergie normalisé soit compris entre 0 et 1 (ou 0 à 100 pour en faciliter sa lecture). Plus ce score d'énergie normalisé sera proche de 0, et plus les régions seront différentes; plus le score d'énergie normalisée sera proche de 1 (respectivement 100), plus les deux régions comparées seront proches.

A partir de ce score d'énergie normalisé, il devient également possible de former des catégories de confiance qui renseignent sur la quantité d'erreurs attendues dans chaque catégorie. Il sera par exemple possible de définir 4 catégories A, B, C et D; la catégorie A correspondant aux régions ayant un score normalisé compris entre 0.75 et 1 (respectivement 75 et 100), B aux régions ayant un score normalisé compris entre 0.5 et 0.75 (respectivement 50 et 75), C de 0.25 à 0.5 et D de 0 à 0.25. Le plus souvent, la catégorie A ne comportera que des régions fonctionnellement identiques à la région criblée. La catégorie B comportera des régions aux fonctions identiques à la région A mais possédera également des régions fonctionnellement proches mais pas forcément identiques. La catégorie C pourra contiendra davantage de régions fonctionnellement proches mais pas identiques, alors que la catégorie D contiendra des régions plus distantes de la région criblée.

Exemple:

La comparaison d'une région R avec elle même donne un score d'énergie global de -500 selon le calcul du score que nous avons détaillé plus haut.

La comparaison de la région R avec des régions L1 et L2 donnent respectivement un score d'énergie global de -230 et -390. Les scores d'énergies normalisés de (R, L1 ) et de (R, L2) sont alors respectivement 0.46 (ou 46) et 0.78 (ou 78).

Les régions L1 et L2 sont donc classées dans les catégories C et A respectivement.

Recherche de molécules portant une région fonctionnelle précise ou proche

Lorsqu'une région d'intérêt A est identifiée par le biais d'expériences biologiques/biochimiques ou par le biais d'annotations existantes, il est possible de cribler cette région A afin de rechercher l'ensemble des molécules portant des régions similaires Bi, et ce sans aucun à priori de ressemblance sur les formes globales (structures secondaires et tertiaires) de ces molécules.

Par un raisonnement d'homologie et en se basant sur le score d'énergie (normalisé ou non) fourni par l'alignement des deux régions A et B, il est possible par exemple d'inférer l'aspect fonctionnel de la région A sur la région B alignée. Inversement, partant d'une région A à la fonction inconnue, si l'on retrouve parmi les régions similaires Bi, une région ayant une fonction déjà caractérisée (ex : lier un partenaire moléculaire), il sera possible d'inférer par homologie cette fonction à A.

Il devient alors possible de découvrir un ensemble de molécules capables d'exécuter une fonction moléculaire commune (telle que lier un partenaire moléculaire donné, catalyser une réaction chimique donnée, être phosphorysable, etc.).

Il est également possible d'identifier les régions fonctionnellement proches, c'est-à-dire les régions susceptibles de partager une fonctionnalité commune à condition de muter quelques résidus précis.

Alors, étant rappelé que le score d'énergie local correspond à l'alignement de chaque couple de points formé d'un point d'une région avec un point d'une autre région et recense la similarité/différence entre ces deux points alignés, on peut déterminer en automatique les points (c'est-à-dire les atomes et résidus) et ensemble de points des deux régions qui se ressemblent le plus et ceux qui diffèrent le plus, c'est-à-dire respectivement les sous-régions communes (identiques) des deux régions et les sous-régions spécifiques (i.e. qui diffèrent l'une ou de l'autre).

Exemple 1 :

On cherche à différencier des sous-familles moléculaires et construire des arbres phylogénétiques sur la base de sites fonctionnels.

La famille des récepteurs nucléaires est une vaste famille de facteurs de transcriptions protéiques qui permettent de réguler l'expression des gènes. Ces protéines sont notamment impliquées dans la régulation du cycle cellulaire ainsi que dans certains cancers et leucémies. Cette famille peut être divisée notamment en deux sous-familles, l'une permettant de

former des hétérodimères (assemblage de deux récepteurs nucléaires distincts), l'autre permettant de former des homodimères (assemblage de deux récepteurs nucléaires identiques). Pour chacune de ces deux sous-familles, il est possible de déterminer à partir des structures, les sites de dimérisation, et de les cribler sur une base de données des régions moléculaires.

Ce criblage permet par exemple de distinguer parmi toutes les structures de récepteurs nucléaires celles qui sont capables de former des homodimères, de celles qui forment préférentiellement des hétérodimères. Plus encore, les différences géométriques et physico-chimiques entre les sites de liaisons de chaque récepteur nucléaire peuvent être quantifiées, de sorte que l'on puisse construire un arbre évolutif des sites de liaisons, regroupant les sites de liaison les plus proches fonctionnellement.

Un exemple de réalisation pour former un tel arbre consiste à comparer l'ensemble des alignements de couples de sites de dimérisations, ce qui fournit pour chaque couple un score d'énergie qui symbolise une distance (géométrique et physico-chimique) entre ces sites. A l'aide de méthodes telles que UPGMA (pour Unweighted Pair Group Method with Arithmetic mean) ou Neighbour Joining, qui permettent de reconstruire des arbres phylogénétiques, il est possible de reconstruire l'arbre évolutif de ces sites de dimérisation à partir de l'ensemble des distances intercouples décrites par ces scores d'énergies.

Exemple 2:

On cherche à retrouver un ensemble de structures ayant un site fonctionnel sous une conformation donnée.

Certains sites fonctionnels sont connus pour changer de conformations sous différents facteurs environnementaux (que ce soit des changements de concentrations ioniques ou à la suite d'une interaction avec un partenaire biologique). C'est le cas notamment de la calmoduline, protéine impliquée dans la régulation du signal calcique qui est connue pour ses changements de conformation en fonction du nombre d'atomes de calcium qu'elle lie et en fonction de ses partenaires. Il est par conséquent possible de cribler les sites fonctionnels de la calmoduline dans l'un de ces contextes environnementaux, recherchant alors une conformation précise du site fonctionnel. Nous verrons par la suite qu'il est également possible de rechercher des partenaires moléculaires spécifiques de l'une de ces conformations.

Un exemple plus général est celui des protéines kinases dont l'homme possède plus de 500 gènes (soit près de 2% des gènes humains recensés) et dont le site fonctionnel existe sous une conformation active et une conformation inactive. Il est possible de rechercher parmi toutes les structures de protéines kinases (déterminées expérimentalement ou modélisées par exemple par des approches de modélisation par homologie), celles qui sont sous l'une ou l'autre des conformations.

Exemple 3 :

On cherche à déterminer un nouveau partenaire moléculaire en inférant cette interaction par l'intermédiaire d'une région déjà connue pour lier un partenaire.

S'il est possible de cribler une région R et de retrouver N régions lui ressemblant, il est fréquent que l'une au moins de ces N régions ait au moins une fonction moléculaire et/ou cellulaire connue. Dès lors, cette fonction pourra être inférée sur la région R. En particulier, si une région Ni de l'ensemble N des régions ressemblant à R est connue pour lier une région Y, alors il est possible d'inférer que la région R peut elle aussi lier la région Y, c'est-à-dire qu'une molécule portant la région R est capable de lier une molécule donnée portant la région Y.

Exemple 4 :

On cherche à retrouver des molécules capables de lier des ligands.

L'ATP (pour Adénosine TriPhosphate) est un ligand naturel utilisé par l'organisme comme source d'énergie. On retrouve notamment l'ATP au cours de nombreuses catalyses enzymatiques. Des structures moléculaires contenant une molécule liant l'ATP nous renseignent par conséquent sur les différents sites de liaisons de l'ATP.

Il est par conséquent possible de cribler l'un au moins de ces sites de liaisons afin de déterminer les molécules qui sont capables de lier l'ATP, et indiquant ainsi un possible rôle enzymatique pour ladite molécule.

Exemple 5 :

On cherche à déterminer le comportement et la précision du criblage de régions pour des composés de petite et grande taille.

Par exemple, deux criblages indépendants ont été réalisés respectivement sur le FAD et sur le mannose (voir Figures 9 et 10 respectivement), le mannose sensiblement plus petit que le FAD indiquant alors la précision du criblage pour de petits composés ; le FAD plus grand, indiquant alors la précision du criblage pour des composés plus importants. Dans les deux cas, les sites de liaison criblés sont toujours retrouvés parmi les tout premiers résultats. Dans le cas de la PDB qui est une base de données très redondante (c'est-à-dire regroupant parfois plusieurs fois une même structure moléculaire avec peu de variations), l'intégralité des structures proches liant ces ligands est correctement retrouvée. On retrouve également dans la majorité des cas, les structures différentes qui étaient également connues pour lier ces ligands (si l'on crible tous les sites de liaisons connues pour un ligand, on augmente alors la sensibilité du criblage et on assure nécessairement de retrouver entre autres toutes les structures connus pour lier ces ligands).

Afin d'évaluer la précision du criblage, une borne inférieure de la spécificité est déterminée en comptant le nombre de structures parmi les premiers résultats qui sont effectivement connues pour lier respectivement le mannose ou le FAD. En effet, il s'agit de la borne inférieure de la

spécificité car le fait que la structure ne met pas en évidence une liaison à FAD (respectivement au mannose) n'indique pas nécessairement que la molécule ne puisse lier le FAD (respectivement le mannose). Afin de ne pas biaiser favorablement les résultats de ces criblages en raison de la présence de structures redondantes, seules les chaines structurales non redondantes (ainsi que définies dans la PDB) sont retenues.

Sur les figures 9 et 10, la spécificité 1 représente le nombre de région liant FAD (respectivement le mannose) par rapport au nombre de structures, tandis que la spécificité 2 représente le nombre de régions liant FAD (respectivement le mannose) par rapport au nombre de structures avec un ligand.

Les résultats indiquent que les deux composés (représentatifs du criblage respectivement de petits et de grands ligands) ont une spécificité minimale de l'ordre de 80% pour les dix premiers résultats, et de l'ordre de 60% pour les vingt premiers résultats.

Selon une autre forme de réalisation, il est également possible d'annoter la structure d'une molécule nouvellement déterminée en la segmentant en régions puis en recherchant si ces régions se retrouvent sur d'autres structures et si les régions qui lui sont similaires ont une fonction ou un comportement moléculaire connu (il est en particulier possible ici d'utiliser la base de données des régions fonctionnelles décrite précédemment pour accélérer la recherche). Les fonctions et comportements de ces régions similaires sont alors reportés sur les régions de ladite molécule nouvellement déterminée.

Dès lors, cette analyse automatique de la nouvelle structure moléculaire génère de nouvelles connaissances permettant de mieux comprendre la ou les fonctions de ladite molécule en criblant l'ensemble des régions la constituant. Ce procédé d'annotation, aussi appelé cartographie moléculaire est davantage détaillé dans la description qui va suivre.

Des exemples non limitatifs de régions fonctionnelles qui peuvent être criblées ou retrouvées par criblage sont: les sites de liaisons (quels que soient leur types : protéine-protéine, protéine-peptide, protéine-ADN, protéine-ARN, protéine-ligands, etc.) ainsi que les sites de phosphorylations, les sites de glycosylations, les sites allostériques, etc.

Recherche de partenaires moléculaires

Nous avons vu précédemment que le criblage d'une région peut nous permettre (par inférence sur la fonction des régions similaires) de détecter de nouveaux partenaires, et qu'il est également possible de déterminer le ou les complémentaires de cette région.

Dès lors, si l'on souhaite déterminer les partenaires moléculaires d'une cible, il est possible de cribler non pas les régions de cette cible, mais de cribler les régions complémentaires des régions de cette cible. En effet, ces régions complémentaires sont géométriquement et physico-chimiquement déterminées afin d'optimiser l'interaction avec la région initiale. Par conséquent, toutes les molécules retrouvées qui portent ces régions complémentaires, sont susceptibles de pouvoir lier la cible à la région initiale.

Les méthodes de criblage de régions décrites dans ces procédés sont suffisamment rapides afin de permettre le criblage systématique d'une macromolécule quel que soit son type sur l'ensemble des structures moléculaires connues.

On peut par exemple cribler une macromolécule en moins d'une journée avec un haut degré de précision. En appliquant un certain nombre de filtres, notamment l'utilisation de représentations simplifiées (ex: forme dual), et/ou l'utilisation du rapport des rayons euclidiens et géodésiques, ainsi que l'utilisation des sphères de points de contrôle, il est possible de réduire ce temps de criblage pour l'intégralité des régions d'une macromolécule à moins d'une heure (en fonction de la taille de ladite

macro molécule et du nombre de CPU sur la grille de calcul). L'ensemble du processus de criblage est retraçable et reproductible et est directement confronté aux données expérimentales fournies par les disciplines de la biologie structurale, telle que la cristallographie, la RMN, la cryomicrosopie, etc.

Un autre avantage de ce criblage in silico tient en ce que les sites de liaisons des assemblages moléculaires prédits sont directement identifiés (donnée qu'il n'est pas possible d'obtenir par des méthodes in vivo/in vitro haut débit telles que le double hybride ou le TAP TAG). Outre la connaissance gagnée sur l'identification systématique de ces sites de liaisons, cette donnée permet également de procéder à des expériences simples de mutagénèse afin de vérifier si la mutation d'un résidu à un site de liaison prédit, entraine bien une déstabilisation de l'assemblage moléculaire (lui aussi prédit et préalablement vérifié par exemple par microcalorimétrie, co-immunoprécipitation, anisotropie, etc).

Exemple 1 :

On recherche un partenaire moléculaire d'une molécule donnée par le biais des régions complémentaires.

Soit une protéine A, et R une région quelconque de cette protéine. Il est possible de déterminer une région unique CR, strictement complémentaire de la région R. Cette région complémentaire correspond à la région R sur laquelle les propriétés ont été inversées par rapport à un état neutre (une zone creuse est transformée en bosse alors qu'une zone plate (neutre) reste plate; une zone cationique est transformée en zone anionique alors qu'une zone hydrophobe (neutre) reste hydrophobe, etc).

Le criblage de la région CR permet de retrouver un ensemble E de molécules portant cette région CR. Rappelons que la région CR est définie en la rendant le plus complémentaire (géométriquement et physico-chimiquement) de la région R. Par conséquent, les molécules de l'ensemble E portant la région CR sont susceptibles d'interagir avec la région R de la protéine A.

En variante de cette réalisation et à partir d'une même région R d'une protéine A, il est également possible de générer plusieurs régions complémentaires CR, toutes proches de la région complémentaire unique CR. Ces régions CR correspondent alors à une pluralité de régions CR sur lesquelles ont été appliquées séparément et aléatoirement des variations légères des états de propriétés en chacun de leurs points les constituant. Ces régions CR peuvent bien entendu correspondre également à l'ensemble des conformations stables générées à partir de la région CR, ou bien à l'ensemble des complémentaires uniques générées à partir des conformations stables de R. La logique derrière cette forme de réalisation tient en ce que si les sites de liaisons d'une interface biologique sont effectivement complémentaires dans leur ensemble, cette règle de complémentarité n'est cependant pas stricte et peut même dans des sous-zones de l'interface, être inexacte. Par conséquent, en générant une pluralité de régions complémentaires en introduisant localement des variations légères sur les états de propriétés (ex: une charge électrostatique de 0.7 normalisée sur l'intervalle [-1 , 1 ] pourra par exemple varier de plus ou moins 0.3), il est possible de tenir compte avant toute comparaison, de ces variations.

Le score d'énergie utilisé lors de la comparaison de deux régions comporte également des composantes de tolérance sur les écarts d'états de propriétés acceptés. En jouant soit sur la pluralité de régions CR, soit sur les tolérances du score d'énergie, il est donc possible de tenir compte de la variabilité intrinsèque observée dans la complémentarité des interfaces biologiques.

Afin de déterminer les états de propriétés inverses (complémentaires) d'une propriété donnée, il est également possible d'utiliser des matrices (symétriques) de contact intermoléculaires qui renseignent sur la fréquence et la vraisemblance (statistique) des contacts entre chaque état. Ces matrices de contact sont généralement calculées à partir de la détermination des contacts inter-résidus intermoléculaires observés dans les interfaces biologiques. Il est toutefois possible de calculer des matrices de contact entre tout état de la propriété donnée (ex: une matrice 3x3 ayant 3 états: creux, plat, bosse, indiquant la vraisemblance des contacts (creux, creux), (creux, plat), (creux, bosse), etc.).

Ces matrices de contact entre états de propriétés peuvent alors permettre de générer une pluralité de régions complémentaires en se servant en chaque point, de la vraisemblance observée des contacts possibles. Si les contacts (creux, bosse et creux, plat) sont tout deux vraisemblables, il pourra alors être possible de générer deux complémentaires à partir de ce point: l'un étant une bosse, l'autre un plat. Afin de limiter le nombre de complémentaires générés à partir d'une région, on utilisera alors un seuil de vraisemblance afin de ne sélectionner que quelques états inverses pour un état donné.

Exemple 2:

On recherche un partenaire moléculaire spécifique d'une conformation précise d'une cible.

Nous avons vu précédemment que les protéines kinases existaient sous deux conformations (actives et inactives). Comme des structures de ces deux conformations existent, il est possible de cribler les complémentaires de leurs régions, et par conséquent de rechercher des partenaires moléculaires spécifiques de l'une ou de l'autre conformation. Plus généralement, quelle que soit la molécule (ou macromolécule) considérée, dès lors que les structures de ses différentes conformations ont été déterminées expérimentalement ou modélisées par des approches de bioinformatiques, il est possible de déterminer des partenaires spécifiques à chacune des conformations de la molécule, soit en criblant le complémentaire de la région spécifique de cette conformation, soit en

inférant un partenaire à partir de la comparaison de régions identiques. Le criblage in silico de régions est donc une approche particulièrement puissante pour mieux comprendre la régulation dynamique des réseaux d'interactions suite à l'activation ou à la désactivation d'une ou plusieurs molécules. Elle nécessite toutefois qu'une structure soit déterminée expérimentalement et/ou modélisée. Elle peut également se révéler un atout d'excellence dans l'étude des effets de mutations observées dans certaines maladies génétiques et des dérégulations subséquentes dans les réseaux d'interactions cellulaires.

Exemple 3 :

Recherche de l'impact d'une mutation sur les réseaux d'interactions moléculaires.

Plus de deux mille mutations conduisant à des maladies génétiques ont été détaillées et répertoriées. C'est notamment le cas pour les dystrophies moléculaires (maladie de dégénérescence des muscles).

Alors que certaines mutations sont enfouies dans la structure moléculaire et altèrent la stabilité de la molécule, d'autres mutations de surface sont susceptibles de changer localement les propriétés d'un site de liaison.

Le criblage du site de liaison (et de son ou ses complémentaires) sous sa forme « normale » et sous sa forme mutée/pathogène nous permet de détecter l'ensemble (par rapport à la base de données de régions moléculaires) des partenaires moléculaires spécifiques de la forme « normale » et spécifiques de la forme mutée/pathogène. Par comparaison de ces deux profils d'interactions, on obtient alors de nouvelles connaissances sur les perturbations possibles des réseaux d'interactions moléculaires induites par cette mutation génétique. L'identification des interactions qui ne peuvent plus se faire suite à la mutation, ainsi que l'identification des interactions supplémentaires qui sont induites par la mutation, est une étape clé pour la compréhension du fonctionnement et du développement de toute maladie génétique. En particulier, si on observe la suppression d'une interaction, il est alors envisageable de concevoir des composés pouvant rétablir cette interaction (et par la même, la voie de signalisation ou de régulation correspondante). Des méthodes permettant d'aider à la conception de tels composés seront présentées plus loin.

Obtention de la structure de l'assemblage à partir du criblage de régions complémentaires et tests de collisions

Après avoir déterminé l'ensemble des molécules portant une région complémentaire CR de la région R d'une cible, c'est-à-dire l'ensemble des molécules susceptibles de pouvoir interagir avec la région R de la cible, il est possible d'ajouter des tests additionnels pour vérifier que l'interaction des formes globales des structures portant ces régions n'entraînent pas de collisions distantes.

Par collision distante on entend ici des collisions ayant lieu à distance des régions étudiées, et qui peuvent empêcher leur interaction.

En particulier, il est possible de déterminer la structure de l'assemblage d'une molécule A avec une molécule B à partir de l'alignement d'une région CR complémentaire de la région R de la molécule A avec une région similaire CR' de la molécule B.

En effet, le procédé qui génère le complémentaire CR de la région R ne change ni l'alignement ni les coordonnées spatiales de la région R; seuls les états des propriétés des points de la région CR sont changés (y compris la normale à la surface
de la région CR', qui devient l'inverse de la normale
de la région CR).

Il s'en suit que R et CR sont structuralement alignées (mais orientées en sens inverse), et comme CR' est alignée avec CR au cours du criblage, alors CR' est aussi aligné avec R. Il faut donc dans un premier temps appliquer à la molécule B, les mêmes opérateurs (rotation, translation) qui ont été appliqués à sa région CR' pour être alignée avec la région CR de la molécule A.

Dans un second temps, pour obtenir la structure de l'assemblage moléculaire des molécules A et B, et tenir compte de l'espace existant (dû notamment au rayon des atomes) entre les deux molécules A et B qui interagissent, il suffit de translater la région CR' (et la molécule B portant cette région) d'une distance donnée selon l'inverse de sa normale à la surface
(ou de translater la région R de l'inverse de sa normale à la

surface


Cette distance peut être fixe (de l'ordre de 6-8 Å) pour les assemblages moléculaires.

Afin d'obtenir une structure plus fine de l'assemblage, il est toutefois possible de procéder à une étape d'optimisation en faisant varier itérativement cette distance et en calculant plusieurs scores d'énergies (dépendant par exemple du nombre de contacts intermoléculaires, et de la distance entre ces contacts intermoléculaires). Il est également possible de procéder à une optimisation de cette distance, de sorte que les rayons de Van der Waals et/ou de Coulomb des atomes des régions R et CR' soient les plus proches possibles sans toutefois qu'ils s'intersectent.

Jusqu'à cette étape, la structure de l'assemblage des régions R et

CR' et des deux molécules A et B est donc déterminée uniquement à partir de l'alignement de ces régions. Il est toutefois biologiquement possible que deux régions soient parfaitement complémentaires (et donc capables d'interagir), mais qu'il y ait une gêne stérique entre les deux molécules sur des régions distantes de R et CR' (les régions interagissantes), ce qui en fonction de cette gêne pourra déstabiliser ou empêcher la formation de cet assemblage.

A partir de la structure globale de cet assemblage déterminée à partir de l'assemblage des régions, il peut donc s'avérer utile de vérifier les collisions distantes entre les deux molécules, procédé très utilisé en infographie et dans les réalités virtuelles.

Selon cette forme de réalisation, il est possible de valider, pénaliser ou d'invalider une interaction détectée par le biais du criblage des régions et de leurs complémentaires, en vérifiant si les structures de ces assemblages présentent ou non des collisions distantes importantes.

Il est également possible de tenir compte de la malléabilité des régions provoquant ces collisions.

En effet, si les régions provoquant la collision intermoléculaire sont des boucles (zones connues pour être très flexible, qui ne s'auto-stabilisent pas dans l'espace), il est possible de considérer que cette collision

(distante) ne pénalise que peu la formation de l'assemblage. A l'inverse, la collision de zones stables (telles que des hélices) implique souvent quant à elle que les deux molécules ne peuvent interagir.

Afin que ce procédé soit efficace dans une logique de criblage, et étant donné que les algorithmes de détection de collisions prennent un certain temps, on applique de préférence ce filtre uniquement sur les résultats pertinents retenus du criblage (ex: catégories A et B), et non directement lors de chaque comparaison de régions.

Recherche de cibles moléculaires de composés endogènes ou exogènes

Pour tout composé, comme pour toute molécule ou macromolécule, il est possible de définir une ou plusieurs régions, et de définir pour chacune d'entre elles un ou plusieurs complémentaires.

Un composé est toutefois une molécule de taille relativement faible, ce qui lui confère deux principaux modes d'interactions: soit celui-ci interagit avec la surface d'une molécule, soit il interagit avec une cavité de la molécule (c'est-à-dire une surface interne et protégée de la molécule) ce qui est le cas notamment de FAD (Flavine Adénine Dinucléotide) et de nombreuses vitamines.

Bien souvent, dans le premier cas d'interaction, seule une partie de la surface du composé interagit avec la cible: il faudra donc générer des régions distinctes du composé, correspondant par exemple à chacune de ses faces (selon des plans/orientations arbitraires) et les cribler.

Dans le second cas d'interaction, c'est souvent l'intégralité de la surface du composé qui interagit avec la cavité de la cible: il faut donc considérer toute l'enveloppe du composé (ce qui est par ailleurs obtenu en générant une région suffisamment grande du composé).

Lors de la recherche de cibles moléculaires de composés, il est donc nécessaire de procéder à deux criblages distincts, correspondant dans un premier cas au criblage de toutes les régions complémentaires des régions distinctes du composé, et dans un deuxième cas, au criblage de l'enveloppe complémentaire du composé. L'enveloppe, tout comme une région, est définie par un ensemble de points caractérisant chacun un ensemble de propriétés remarquables. L'enveloppe est en fait un cas particulier de région, où tous les points de l'enveloppe font partie de la région. Par conséquent, il est possible de déterminer le complémentaire de cette enveloppe par un procédé similaire utilisé pour déterminer le complémentaire des régions.

Le criblage des régions complémentaires du composé ainsi que le criblage de son enveloppe complémentaire permettent alors de retrouver un ensemble E de molécules portant des régions similaires à ces régions complémentaires et/ou à cette enveloppe complémentaire. Par conséquent, les molécules de l'ensemble E sont susceptibles de pouvoir lier le composé, c'est-à-dire que l'ensemble E représente l'ensemble des cibles moléculaires du composé.

Rappelons que le criblage s'effectue sur une base de données et que cette base peut refléter un contexte décrit par l'utilisateur: la base peut par exemple ne contenir que les protéines d'un tissu particulier, ou même d'un organite. Il est donc notamment possible de déterminer les cibles moléculaires d'un composé pour différents tissus.

Typiquement, il existe des bases de données biologiques telles que GenAtlas qui décrivent l'expression tissulaire de gènes, c'est-à-dire la localisation tissulaire de protéines ou d'ARN.

Ainsi bien que pour quelques médicaments et produits cosmétiques commercialisés, quelques cibles moléculaires ont pu être identifiées, il existe de très nombreux exemples où les cibles ne sont pas connues, tandis que pour d'autres encore, on pense que les cibles identifiées ne sont en fait pas responsables de l'action décrite et souhaitée du composé, ou bien encore que c'est la synergie d'action de plusieurs cibles qui produit l'effet souhaité. Le criblage in silico proposé par l'invention permet de détecter de nouvelles cibles moléculaires pour des composés et donc de répondre à deux problématiques essentielles:

1 ) quel est le véritable mode d'action du composé ;

2) à partir de cette connaissance, comment le rendre plus efficace, plus affin et moins toxique ; plus généralement, comment moduler l'efficacité, les effets secondaires et la toxicité dudit composé ;

Rappelons également qu'il est possible de détecter des cibles moléculaires de composés en retrouvant les régions similaires à des sites de liaisons déjà connus pour ce composé.

Par ailleurs, les cibles moléculaires des pro-drugs (et par conséquent leurs modes d'actions) ne peuvent être détectées, à moins que l'on ne connaisse à l'avance les différentes transformations que peut subir le composé au cours de son absorption par l'organisme. Si les différentes étapes de transformation du composé sont connues, il est alors possible de procéder à la détection des cibles moléculaires pour chacune des formes transformées du composé.

De plus, si des structures cible-composé sont disponibles, il est également possible d'identifier d'autres cibles du composé à partir du criblage de son (ou de ses) sites de liaisons identifiés sur ces structures. Ce criblage retourne en effet la liste des molécules portant ce (ou ces) sites de liaisons capables de lier le composé.

Recherche des macromolécules et régions pouvant être ciblées par des composés exogènes (concept de « druggabilité »)

Dans la description précédente a été abordée la possibilité de détecter les cibles moléculaires de composés. Cette forme de réalisation quant à elle consiste à déterminer de façon systématique quelles sont les macromolécules qui peuvent être ciblées par des composés exogènes, répondant ainsi au concept de druggabilité. En effet, si in vitro, l'industrie chimique est souvent capable de déterminer un ligand très spécifique d'une molécule, in vivo le composé doit toutefois répondre à un certain nombre de critères lui permettant de passer les différentes barrières d'absorption dans l'organisme, tout en ne modifiant pas son principe actif (ou tout en permettant la modification de son principe pro-actif dans le cas des pro-drugs métabolisées).

La comparaison des différents composés commercialisés a permis d'établir un certain nombre de règles telles que celles de Lipinski (1997) sur la taille et la nature des composés pouvant avoir une action biologique.

La présence de ces règles sur la taille et la nature du composé se reflète nécessairement (comme lors de l'usage de négatif) sur les sites de liaison des cibles moléculaires.

Il est donc envisageable qu'un certain nombre de molécules ne dispose pas de ces sites de liaisons capables de se lier à des composés dont la taille et la nature évoluent dans des intervalles relativement confinés. De telles molécules ne disposant pas de ces sites de liaisons pour des composés exogènes sont alors dites « non druggable »; celles possédant ces sites de liaisons particuliers et adaptés aux natures et tailles limitées des composés administrables sont quant-à elles dites « druggable ».

La détermination de ces macromolécules druggables et non-druggables est donc particulièrement importantes pour l'industrie pharmaceutique et cosmétique, afin de limiter ses efforts aux cibles qui ont le plus de chance d'être touchées in vivo par des composés exogènes.

Selon une forme de réalisation, une liste des macromolécules druggables est obtenue au cours d'un procédé en trois étapes:

• dans un premier temps, un ensemble D de macromolécules connues pour lier des composés exogènes est constitué. Un tel ensemble peut être obtenu facilement en confrontant les données structurales de la PDB (où l'on peut trouver des structures d'assemblages d'une macromolécule avec un ligand), avec les données de la littérature précisant la nature dudit ligand.

Il est également possible d'utiliser de tels ensembles macromolécule-ligand provenant de sources publiques ou privées. Dans de nombreux cas, les ligands naturels des macromolécules peuvent être remplacés par des ligands artificiels, ce qui indique que ces macromolécules ainsi que leurs sites de liaisons aux ligands naturels peuvent généralement être considérées comme étant druggables.

• Dans un second temps, ledit ensemble D d'assemblages macromolécule-ligands est analysé de façon systématique: chaque type de molécule est identifié ainsi que chaque type d'interaction selon le procédé de l'invention.

Pour chaque assemblage macromolécule-ligand, il est alors possible d'identifier le site de liaison de la cible macromoléculaire. Ce site de liaison (qui est une région) est alors dit lui aussi « druggable », en ce sens qu'il est le site de la macromolécule druggable capable de lier un composé administrable. A la fin de cette étude, on obtient un ensemble Sd de sites druggables.

• En criblant chacun des sites druggables ainsi obtenus, on retrouve alors l'ensemble des molécules portant ces sites fonctionnels. En augmentant les paramètres de tolérances du score d'énergie utilisés lors de la comparaison des régions, il est aussi possible de récupérer l'ensemble des molécules portant des sites suffisamment proches des sites de liaison (en ce sens que les sites continuent de respecter dans l'ensemble les règles décrites sur les composés administrables). Ces molécules portant des sites identiques ou similaires aux sites de Sd sont alors considérées comme des molécules druggables. Pour chacune de ces molécules druggables, on identifie le site druggable et on vérifie par des expériences de mutagénèse conventionnelles la liaison/non-liaison du composé à ce site.

Exemple:

Le criblage des sites de liaisons de composés (ou des régions complémentaires de ces composés) tels que le mannose, le FAD, le NAD (pour Nicotinamide Adénine Dinucléotide), le NAG (pour N-AcetylGIucosamine), l'ATP, l'eugénol, le menthol, le dithranol, etc. permet de déterminer des régions d'autres molécules également capables de lier soit le même composé criblé, soit des composés proches du composé criblé (données observées dès lors que les paramètres de tolérance du score d'énergie utilisés pour la comparaison des régions sont augmentés).

Recherche de composés pouvant lier une région moléculaire

Nous avons vu précédemment qu'il était possible de cribler une région R afin de déterminer l'ensemble S des régions similaires présentes sur d'autres structures moléculaires. Nous avons également vu qu'il arrive que l'une des régions de cet ensemble S soit connue pour interagir avec un partenaire macromoléculaire, ce qui nous permet d'inférer que la région R interagit avec ce même partenaire macromoléculaire.

Selon une forme de réalisation similaire, il est également possible de chercher parmi l'ensemble S des régions similaires à la région R d'une molécule A, si l'une des régions de S est connue pour interagir avec un composé. Si les paramètres de tolérance pour la comparaison des régions sont faibles, ledit composé liant une région de S sera également capable de lier la région R de la molécule A. Selon cette forme de réalisation, on récupère donc un ensemble de composés capables de lier une région donnée d'une molécule.

Recherche des architectures de composés pouvant lier une région moléculaire donnée

Selon une variante du procédé précédent, si les paramètres de tolérance pour la comparaison des régions sont plus élevés, le criblage renseignera également sur un ensemble S de régions proches de R, mais pas nécessairement identiques. Par conséquent, les composés capables de lier les régions de S ne seront pas nécessairement capables de lier la région R de la molécule A. En revanche, ces composés sont capables de lier des régions proches de la région R, par conséquent ils fournissent une base de travail pour la recherche de composés pouvant lier R. En particulier, on dira qu'un tel procédé permet de déterminer des architectures de composés capables de lier R. Ces architectures doivent cependant être remaniées afin de correspondre davantage aux propriétés de R, par exemple en retirant, ajoutant ou modifiant un groupement fonctionnel.

Recherche de la spécificité (fréquence) des régions et des points d'ancrage d'une molécule ou d'une cible moléculaire

Le développement d'un composé industriel passe traditionnellement par la détermination d'au moins une cible moléculaire puis par la détermination de composés actifs et « spécifiques » de la cible souhaitée. Toutefois, cette « spécificité » du composé n'est évaluée au mieux que sur une famille de macromolécules (ex : la famille des kinases, la famille des récepteurs nucléaires), mais pas sur l'ensemble des molécules constituant un environnement cellulaire.

L'efficacité d'un composé dépend pourtant à la fois de l'affinité qu'il a avec sa cible d'intérêt, mais aussi de ses affinités pour d'autres cibles (créant ainsi un équilibre thermodynamique entre les différentes formes libres et liées du composé avec ces cibles). Jusqu'à présent, seule l'affinité du composé pour sa cible d'intérêt pouvait être modulée en raison de l'incapacité d'évaluer ses autres cibles cellulaires. Dans le procédé qui va suivre, nous présentons une approche permettant de tenir compte de la spécificité d'action du composé avec ses autres cibles, de sorte que l'on puisse augmenter son affinité avec sa cible d'intérêt, en diminuant son affinité pour ses autres cibles moléculaires afin de pouvoir à la fois augmenter son efficacité et diminuer les effets secondaires et toxiques. Plus généralement, rendre un composé plus spécifique de sa cible souhaitée dans un environnement donné, c'est diminuer ses interférences avec d'autres systèmes biologiques.

Au cours des procédés précédents, nous avons montré comment il était possible de cribler une région afin de retrouver les régions similaires, ainsi que comment cribler un composé pour déterminer ses cibles moléculaires. Aussi, lorsque l'on raisonne à partir de la structure du composé, une première approximation de la spécificité d'action de ce composé (et/ou de son site de liaison) est donnée par conséquent par le nombre de ses cibles détectées. Plus précisément, il est possible d'évaluer la spécificité d'action d'un composé en criblant les complémentaires des régions et/ou de l'enveloppe dudit composé (ou bien en criblant directement un ou plusieurs de ses sites de liaisons connues) sur une base de données des régions moléculaires propres à un tissu ou à un groupe de tissus. Une telle base de données regroupe alors l'ensemble des régions de structures moléculaires connues ou prédites, qui sont exprimées dans un ou plusieurs tissus. Le criblage sur une telle base de données permet alors d'évaluer la spécificité d'action du composé pour ce ou ces tissus, en évaluant quelles sont ses cibles dans l'environnement, et quelle est la fréquence de son (ou de ses) sites de liaisons dans l'environnement.

Après l'identification d'une cible moléculaire d'intérêt (première étape du cycle de développement de médicaments), il est également possible de déterminer les régions les plus spécifiques de cette cible (respectivement les moins spécifiques) en criblant chacune d'entre elles et en déterminant à chaque fois, le nombre de régions similaires détectées sur d'autres molécules et pour un tissu (ou plusieurs tissus) donné. Le fait de cibler préférentiellement les régions spécifiques de cette cible par un composé, permet très en amont du cycle de développement de médicaments, de limiter les risques d'interférences du futur composé avec d'autres systèmes biologiques.

Un exemple de réalisation consiste donc, pour toute région R d'une molécule A, à déterminer son indice de spécificité, c'est-à-dire de compter le nombre N de régions qui lui sont similaires, et d'assigner ce nombre N à chacun de ses points. Le procédé est répété de façon itérative pour chacune des régions de A et pour chacun des points de ces régions, si bien que comme un point peut être partagé par plusieurs régions, l'indice de spécificité d'un point est alors égal à la somme des indices de spécificité des régions qui le contiennent.

On obtient alors bien à la fois un indice de spécificité pour chacune des régions de la structure moléculaire, mais aussi un indice de spécificité en chaque point de la structure moléculaire. Comme on le verra plus loin, cette cartographie de la spécificité permet par conséquent d'indiquer quelles sont les régions et points d'ancrage les plus (respectivement les moins) spécifiques de la molécule. Cette information revêt donc une importance particulière pour la sélection d'une région à cibler par un composé. En effet, très en amont dans le développement de médicaments candidats, après la sélection d'une cible biologique, on choisit de préférence des régions très spécifiques de cette cible afin de s'assurer que l'on développe un composé capable de lier une région spécifique de la cible. En effet, si la région choisie est trop fréquente (pas spécifique) dans un environnement donné, le composé pourra se lier à plusieurs cibles cellulaires et ces interférences non seulement diminueront la spécificité d'action du composé (et donc son efficacité), mais risqueront également de provoquer des effets secondaires et/ou toxique.

Selon une variante de cette forme de réalisation, l'indice de spécificité d'une région peut également être normalisé par les niveaux d'expressions des gènes (en utilisant par exemple des données d'ADN microarray, ou de SAGE (Sérial Analysis of Gène Expression)) codant les ARN et protéines portant ces régions. Ces niveaux d'expressions des gènes qui correspondent à la quantité de protéines et d'ARN produites dans un organisme et dans un tissu donné (c'est-à-dire leur fréquence dans un environnement cellulaire) sont également renseignées dans différentes bases de données, notamment la base de données GenAtlas. Celle-ci précise si le niveau d'expression des gènes pour différents tissus d'un organisme.

En effet, le fait qu'une région soit présente (en un ou plusieurs exemplaires) sur une molécule est une première donnée pour évaluer la spécificité de cette région, mais le nombre de copies de cette molécule (évalué par l'expression du ou des gènes codant cette molécule) dans l'organisme et/ou dans un tissu est une seconde donnée pour normaliser cette spécificité.

Exemple :

La protéine A porte une région R qui a été retrouvée sur M régions distribuées sur N molécules Bi. Notons Rl une région similaire à R et portée par l'une de ces molécules Bi. Le premier indice de spécificité va donc correspondre simplement à M, le nombre de régions similaires retrouvées dans une base de données. Le second indice de spécificité (normalisé par rapport au nombre de structures connues par molécule) va correspondre à N (le nombre de molécules portant cette région). Si pour chaque Bi, nous disposons d'un indice d'expression du (ou des) gène(s) indiquant la

fréquence de chaque molécule Bi dans l'environnement, alors il est possible de réévaluer l'indice de spécificité de R en pondérant la représentativité d'une (ou des) région portée(s) par les molécules Bi par cet indice d'expression du ou des gènes qui le ou les produit.

En effet, si les molécules Bi comprennent { B1 , B2, B3 } et que les niveaux d'expressions de ces molécules Bi sont respectivement 1 , 5, 3, et que B2 porte deux régions similaires à R : Le premier indice de spécificité décrit ci-dessus sera M, soit ici 4 puisque B2 porte deux régions similaires à R, et B1 , B3, respectivement une seule région similaire à R. Le second indice de spécificité décrit ci-dessus sera N, soit ici 3. Enfin, le troisième indice de spécificité, normalisé par le degré d'expression du ou des gènes codant chacune de ces molécules sera 1 x 1 + 5 x 2 + 3 x 1 = 14. Notons que le nombre « 2 » de l'équation précédente correspond au fait que sur B2, deux régions similaires sont présentes, alors que les nombres « 1 » correspondent au fait que sur B1 et B3, seule une région similaire est présente.

Selon une autre forme de réalisation, lorsque l'on s'intéresse à une région précise d'une molécule, il est possible de cribler cette région afin de récupérer un ensemble S de régions similaires ou proches. A partir de cet ensemble S de régions alignées, il est notamment possible de calculer l'écart-type des propriétés remarquables en chaque point de ces régions. En effet, toutes les régions de S étant alignées, à un point Pi d'une région S1 correspond N points alignés Pj sur toutes les autres régions S1 de l'ensemble S. Dès lors, il est possible de définir une liste L pour chaque propriété remarquable, comportant des états de chacun des points Pj alignés avec le point P1.

Exemple:

Soient P1, P2 et P3 trois points alignés de trois régions distinctes R3, Rb et Rc. Soient C1, C2 et C3 les courbures locales respectives des points

P1, P2 et P3. Il est donc possible de calculer la moyenne de ces courbures, ainsi que l'écart type sur ces valeurs, par les méthodes usuelles (Cf cartographie moléculaire et comportement moyen/variation des propriétés).

Ainsi, pour chacun des points d'une région donnée R, il est possible de définir l'écart type sur les propriétés remarquables observé avec chacun des points des régions alignées avec la région R, et d'assigner la valeur de cet écart-type au point correspondant.

Cette seconde forme de cartographie permet alors de définir une spécificité fine en chacun des points de la région donnée. Elle peut notamment être utilisée afin de déterminer les points d'ancrage les plus spécifiques de la région donnée R, lesdits points d'ancrage étant définis comme étant les points de R pour lesquels la valeur de l'écart-type est supérieure à un écart-type seuil prédéfini et dont leur état de propriété n'est pas compris dans l'intervalle [moyenne - écart type, moyenne + écart type] défini par l'analyse des états des points alignés.

Par ailleurs, la connaissance des points d'ancrage permet de renseigner sur la forme et la composition que devrait avoir un composé afin d'être spécifique de la molécule cible donnée.

Création de profils d'interactions pour une région donnée ou pour un ensemble de régions données

Afin de faciliter la visualisation et l'interprétation des données de criblage, il est possible de déterminer des profils d'interactions pour chaque région (ou pour tout ou partie des régions d'une molécule). Afin que ce profil d'interaction soit informatif, celui-ci est défini dans une matrice en deux dimensions, de sorte qu'il soit possible de le représenter par une image colorée.

Ainsi, plutôt que de déterminer uniquement les partenaires d'une molécule, on classe ces partenaires en fonction de leur appartenance à un tissu et/ou à une voie métabolique.

Une forme de réalisation de ce profil d'interaction consiste à classer en horizontal les différents tissus, et en vertical, de classer les voies métaboliques ou de régulation ou de signalisation pour chacun des tissus ou inversement. Si bien que pour tout point (x, y) d'un tel profil, il est possible de préciser dans quel tissu se fait l'interaction, et quelle voie métabolique/voie de régulation/voie de signalisation est affectée. Ce profil d'interaction peut notamment être utilisé afin de comparer le spectre d'action de composés dans différents tissus. Il peut également être utilisée afin de déterminer les partenaires spécifiques et non-spécifiques d'une cible, par rapport à un tissu donné (exemple: les molécules A et B interagissent dans le tissu musculaire, mais n'interagissent pas dans le tissu neuronal).

Par exemple, on obtient une matrice bidimensionnelle, dont chaque point identifie une molécule propre à un tissu et à une voie métabolique, et dont chaque zone rectangulaire précise à la fois un tissu et une voie métabolique.

Selon une autre forme de réalisation des profils d'interactions, les voies métaboliques/de régulation/de signalisation sont classées en horizontal, et les familles moléculaires sont classées en vertical. Si bien que pour tout point (x, y) d'un tel profil, il est possible de préciser quelle est la voie métabolique/de régulation/de signalisation touchée, ainsi que la famille de molécules touchée.

Remarque: de nombreuses bases de données telles que Uniprot, KEGG, GO renseignent sur les différentes voies métaboliques/de régulation/de signalisation, ainsi que sur l'appartenance à une famille moléculaire.

L'utilisation de ces profils d'interaction facilite la comparaison des tissus touchés et des modes d'actions enclenchés par tout composé moléculaire ou par toute macromolécule. En particulier, nous avons vu précédemment qu'il était possible de cribler une même région fonctionnelle sous sa forme active et sa forme inactive (par exemple dû à la liaison d'un tierce partenaire, ou dû à une maladie génétique). La comparaison des profils d'interaction issus de la forme active et de la forme inactive permet alors de renseigner rapidement sur les voies dont l'activation est modifiée, fournissant ainsi une meilleure compréhension des conséquences cellulaires de ces interactions moléculaires.

Graphes des interactions moléculaires à partir du criblage et des profils d'interactions

Essentiellement, la méthode de criblage permet de mettre en évidence et de détailler les régions responsables de fonctions moléculaires, en particulier d'interactions moléculaires.

Il est donc possible de créer une représentation sous forme de graphe de ces interactions. En particulier, une forme de réalisation consiste en ce que chaque nœud du graphe représente une molécule, et chaque arête du graphe représente une interaction entre ces molécules. L'arête peut alors être étiquetée afin de décrire l'interaction en précisant pour chacun des deux nœuds reliés (chacune des molécules reliées), les régions interagissantes de leur interface.

En variante, une molécule peut être décrite par un ensemble de nœuds interconnectés et rassemblés, de sorte que la molécule est représentée par un amas de nœuds (correspondant à ses régions) localisés dans l'espace. Des algorithmes performants de représentations de graphes existent pour parvenir à cette réalisation, notamment par des logiciels tels que GraphViz. Il est alors possible de préciser les interactions entre molécules en reliant directement les nœuds représentatifs à la fois d'une molécule et d'une région moléculaire.

Selon une autre variante, il est également possible de créer des calques d'images représentatifs d'un type d'interaction moléculaire (ainsi que détaillé précédemment: protéine-protéine, protéine-ADN, protéine-ARN, protéine-ligand, etc). Ainsi, il est possible de ne s'intéresser qu'à un seul type d'interaction moléculaire, simplifiant ainsi la visualisation de ces données.

De tels calques peuvent également représenter la localisation cellulaire/tissulaire des molécules. Il est alors possible de simplifier la visualisation des interactions en ne s'intéressant qu'à celles qui ont lieu dans un type cellulaire et/ou tissulaire. En particulier, il est possible de ne considérer que les interactions pour lesquelles au moins une (ou les deux) molécule est connue pour être présent dans ce type cellulaire et/ou tissulaire.

II est également possible de créer des calques d'images, représentatifs d'une ou plusieurs voie métabolique/de signalisation/de régulation. Il est alors possible de simplifier la visualisation des interactions en ne s'intéressant qu'à celles dont l'une au moins des molécules interagissantes agit dans la voie métabolique/de signalisation/de régulation.

Les arêtes représentant les interactions peuvent également être colorées afin de correspondre aux catégories du score de confiance (décrites à partir du découpage en intervalle du score d'énergie normalisée) afin de préciser visuellement quelles sont les interactions prédites avec le plus de certitude (respectivement avec le moins).

Selon une variante de ces réalisations, il est également possible de créer des calques d'images, représentatifs des catégories de confiance, déterminées à partir des scores d'énergie découlant de la comparaison des régions. Il est ainsi possible de ne représenter que les interactions moléculaires de catégories A, les plus sûrs, et ainsi de suite jusqu'à la dernière catégorie, ayant un taux de confiance relativement faible.

Evaluation et classification d'un effet secondaire ou potentiel de toxicité d'une molécule par l'analyse des perturbations d'interfaces biologiques induites par ladite molécule

II est ici possible d'évaluer un potentiel d'un effet secondaire ou de toxicité d'une molécule et d'en expliquer des causes moléculaires.

Un effet secondaire ou un potentiel de toxicité d'une molécule A est ici considéré comme étant la perturbation d'une ou de plusieurs interfaces biologiques.

On notera tout d'abord que la toxicité est un cas particulier des effets secondaires. Par conséquent, dans la présente description et dans les revendications y annexées, l'ensemble des enseignements relatifs à l'évaluation d'un potentiel d'effet secondaire sont applicables à l'évaluation d'un potentiel de toxicité, et vice-versa. En particulier, toute référence à un effet secondaire doit s'entendre comme couvrant également la toxicité.

Selon une première forme de réalisation, on détermine les régions complémentaires des régions moléculaires de la molécule A.

Ces régions complémentaires reflètent la forme ainsi que les propriétés physico-chimiques que devrait avoir une région moléculaire afin de lier ladite molécule. En d'autres termes, en recherchant parmi un ensemble de régions les régions complémentaires de A, nous recherchons les sites de liaisons potentielles (et molécules associées) de la molécule A.

Ce procédé est similaire à celui présenté pour la recherche de partenaires moléculaires et de cibles moléculaires. Selon cette forme de réalisation, on obtient donc un ensemble S de régions susceptibles de pouvoir lier la molécule A.

On recherche alors si l'une des régions de S est connue pour lier un partenaire moléculaire M, et si oui, on en précise son type moléculaire. Si une telle région R est capable de lier à la fois la molécule A et de lier une autre molécule M, il y a donc un équilibre thermodynamique de réactions qui va se former. Cet équilibre précise qu'au niveau de cette région R, il y aura une compétitivité pour lier soit A, soit M. Par conséquent, l'affinité (la constance d'association) de l'assemblage biologique région R-M est diminuée, ce qui peut induire un risque de toxicité ou un effet secondaire.

II est en particulier possible de classifier les différentes interfaces biologiques, notamment afin de différencier les interfaces de type macromolécule - molécule (ex: protéine-ligand, ADN-ligand), des interfaces de type macromolécule - macromolécule (ex: protéine-protéine, protéine-ADN, etc). La perturbation de ces deux grands types d'interfaces biologiques n'induisant à priori pas un même risque.

Selon une deuxième forme de réalisation, proche de la première, on utilise des sites de liaisons déjà identifiés pour la molécule A. De la sorte, on s'affranchit de l'étape qui consiste à générer les complémentaires des régions, réduisant ainsi le risque d'erreurs. Tout comme dans la première forme de réalisation, nous recherchons alors si le site de liaison de la molécule A est similaire à un ou plusieurs sites de liaisons d'interfaces biologiques. Si oui, cela signifie que la molécule A peut interagir au niveau de ces autres interfaces biologiques, provoquant ainsi une perturbation de ces assemblages biologiques, et induisant alors de possibles effets secondaires et toxiques.

En variante de ces formes de réalisation, on réalise un criblage de la région complémentaire (ou du site de liaison) d'une molécule A, sur une base de données ne contenant que les régions moléculaires identifiées pour être des sites de liaisons d'interfaces biologiques. On réduit alors considérablement le nombre de régions à comparer.

De façon générale, le potentiel de toxicité ou d'un effet secondaire d'une molécule A est important si A perturbe une interface biologique de macromolécule (ex: protéine-protéine, protéine-ADN). Si A perturbe une interface biologique contenant au plus une macromolécule (c'est-à-dire macromolécule-molécule ou molécule-molécule), le potentiel de toxicité ou l'effet secondaire est plus difficile à déterminer (de tels exemples, de composés rentrant en compétition avec l'ATP sans toutefois provoquer de toxicité sont connus). Il est notamment possible de tenter de faire correspondre le potentiel de toxicité et de l'effet secondaire avec l'aire (ou les aires) de chaque interface biologique perturbée.

Ce procédé permet uniquement de prédire un « risque » de toxicité ou d'effet secondaire induit par une molécule et en préciser les causes moléculaires, ce qui n'était pas possible auparavant. En effet, en raison du nombre limité de structures moléculaires, il n'est pour le moment pas possible d'utiliser ce procéder pour affirmer que la molécule ne produit pas de réponse toxique ou d'effet secondaire. Néanmoins, ce procédé permet d'identifier les interfaces biologiques qui pourraient être perturbées par une molécule. On peut alors mieux comprendre les causes moléculaires de cette toxicité, et donc proposer des solutions pour diminuer cette toxicité ou effet secondaire (voir le procédé sur le sauvetage dirigé de composés toxiques que nous détaillerons par la suite).

Par ailleurs, seul un nombre limité d'interfaces biologiques ont été décrits dans la littérature scientifique. Il est donc possible d'inclure des interfaces biologiques prédites par exemple par le procédé de criblage selon le procédé de l'invention, ou par des expériences d'amarrage moléculaire (« Docking »).

Evaluation et classification d'un potentiel de toxicité ou effet secondaire d'une molécule en utilisant le profil d'interactions de ladite molécule: les puces de toxicité et d'effets secondaires.

Nous avons vu que l'on peut évaluer un potentiel de toxicité ou d'un effet secondaire d'une molécule d'après les risques de perturbation d'interfaces biologiques. C'est-à-dire qu'il devient possible de préciser les causes moléculaires d'un effet secondaire ou d'une réponse toxique.

On peut cependant évaluer ces potentiels à partir du profil d'interaction du composé, notamment en raison des connaissances limitées sur les interfaces biologiques.

Pour ce faire, plusieurs ensembles de composés connus pour induire des toxicités ou des effets secondaires différents (appartenant à des classes de toxicité telles que l'allergénicité, la sensibilité, la neurotoxicité), ou des classes d'effets secondaires, telles que celles décrites dans l'article de référence « Drug Target Identification Using Side-Effect Similarity », Monica Campillos, Michael Kuhn, Anne-Claude Gavin, Lars Juhl Jensen, Peer Bork, publié dans la revue Science du 1 1 Juillet 2008, Vol. 321. no. 5886, pp. 263 - 266, DOI: 10.1 126/science.1 158140) sont criblés, de sorte que l'on obtienne pour chacun de ces composés, les profils d'interactions correspondants. En parallèle, plusieurs ensembles de composés ayant des propriétés et tailles variées, mais connus pour n'induire aucune réponse toxique ou d'effets secondaires sont criblés. On obtient alors un second jeu de profils d'interactions correspondant aux composés non toxiques ou n'induisant pas d'effets secondaires.

Selon une première forme de réalisation, la toxicité d'un composé est évaluée à partir de sa ressemblance à l'un au moins des profils d'interactions N de composés toxiques et de profils d'interactions T de composés non toxiques. L'effet secondaire d'un composé est aussi évaluée à partir de sa ressemblance à l'un au moins des profils d'interactions E de composés induisant des effets secondaires et des profils d'interaction NE de composés n'induisant que peu d'effets secondaires.

Une distance euclidienne est alors calculée à partir de la somme des interactions communes au composé et à l'ensemble N (extraites des profils d'interactions), ainsi qu'à partir de la somme des interactions communes au composé et à l'ensemble T. Le composé est alors décrit comme présentant un risque de toxicité si la distance qui le sépare à l'ensemble N est inférieure à un certain pourcentage de la distance à l'ensemble T (i.e. Si le composé a donc un profil d'interaction plus proche de celui des composés toxiques, que des composés non toxiques). De la même façon, le composé est décrit comme présentant des effets secondaires si la distance qui le sépare de l'ensemble E est inférieure à un certain pourcentage de la distance à l'ensemble NE.

Selon une seconde forme de réalisation, pour chaque classe de toxicité étudiée à partir de N profils d'interactions, on recherche les

interactions communes à tout ou partie de l'ensemble N (i.e. les interactions toujours/fréquemment induites par un composé de cette classe de toxicité). On recherche également les interactions communes à tout ou partie de l'ensemble T des profils d'interactions issus du criblage des composés non toxiques (i.e les interactions toujours/fréquemment induites par des composés non toxiques). Par différence, on observe alors les interactions qui ne sont induites que par les composés toxiques. Ces interactions et donc ces sites de liaisons sont alors des biomarqueurs d'une ou plusieurs classes de toxicité.

De manière équivalente, il est possible d'identifier des biomarqueurs de classes de toxicité (puisque, comme nous l'avons vu plus haut, un composé toxique présente par définition des effets secondaires). Dans la suite, nous ne décrirons les étapes qu'en relation avec les composés induisant des effets secondaires : elles sont néanmoins transposables au cas des composés toxiques.

En variante, on identifie les biomarqueurs de chaque classe d'effet secondaire, en identifiant les sites de liaisons liant toujours/fréquemment les composés induisant au moins un effet secondaire de cette classe (et ne liant pas les composés n'induisant pas d'effets secondaires ni les composés induisant des effets secondaires d'autres classes). Cette variante vaut également pour les biomarqueurs des classes de toxicité.

Selon ces formes de réalisations, les effets secondaires (respectivement la toxicité) est donc évaluée à partir des profils d'interaction d'une molécule, c'est-à-dire des interactions que peut faire la molécule dans un contexte cellulaire/tissulaire. L'avantage de ce procédé par rapport au précédent procédé d'évaluation des effets secondaires (et donc de la toxicité), tient en ce qu'il ne repose sur aucun a priori sur les régions pouvant être perturbées: ici, on ne considère pas uniquement les sites de liaisons connus, mais véritablement toutes les régions moléculaires connues. La sensibilité de la méthode est donc accrue: 1 ) parce que tous les sites de liaisons d'interfaces biologiques ne sont pas connus et 2) parce que les effets secondaires peuvent également être la conséquence de phénomènes plus complexes (telle que la synergie de plusieurs interactions, ou telle que la perturbation de la stabilité d'une molécule).

Par ailleurs, la nouvelle réglementation européenne REACH encourage vivement le développement et l'utilisation de nouvelles méthodes alternatives (notamment in silico) d'évaluation des effets secondaires et en particulier de la toxicité telles que ces deux procédés (évaluation de la toxicité par l'analyse des interfaces biologiques perturbées, et évaluation de la toxicité par l'analyse des profils d'interactions).

Cartographie moléculaire permettant de rassembler et résumer les différentes connaissances produites par les applications précédentes sur une seule et même structure moléculaire

Au cours des différents procédés qui ont été décrits ci-dessus, de nombreuses données biologiques sont générées, notamment sur les sites de liaisons, partenaires moléculaires, régions druggables, régions spécifiques et risques de toxicité.

De telles approches de criblage (qu'elles soient in vivo, in vitro ou in silico) génèrent toutefois une grande quantité de données qu'il est souvent difficile de traiter et pour lesquelles il est difficile d'avoir une vue d'ensemble. Nous avons vu précédemment qu'il était possible de générer des visualisations sous forme de graphes avec calques, et nous avons également vu qu'il était aussi possible de générer des profils d'interactions afin de faciliter l'accès à ces données.

Une troisième forme de réalisation pour faciliter l'accès et la visualisation de ces données biologiques produites par des méthodes de criblage est de construire une cartographie moléculaire. Une telle cartographie consiste à assigner à chaque point et/ou à chaque région d'une structure moléculaire, une valeur représentative d'un état donné. Pour une structure moléculaire, les méthodes de criblage de régions présentées

permettent par exemple de détecter des sites de liaisons Li de cette molécule, ainsi que les partenaires moléculaires Mi correspondant. Pour chaque site de liaisons L, il est donc possible d'assigner une valeur caractérisant le type du site de liaison. En particulier, il est possible de préciser que les points constituant ce site de liaison (et donc, les atomes et/ou résidus relatifs à ces points) servent à former des assemblages avec un partenaire de type protéique, peptidique, acide nucléique, etc. Selon cette forme de réalisation, on cartographie alors sur la surface moléculaire, la capacité de chaque point et de chaque région de la molécule à participer à un ou plusieurs type d'interaction précis.

Exemple:

Si deux sites de liaisons L1 et L2 sont retrouvés à partir du criblage d'une région R d'une molécule A, alors la capacité d'interagir de la région R est définie par la réunion des deux états de L1 et L2. Par exemple, si L1 est connu pour former un assemblage avec des protéines et que L2 est connu pour former un assemblage avec des ligands, alors la région R sera définie comme ayant la capacité de lier et une protéine, et un ligand.

Selon une variante de cette forme de réalisation, on étiquette également les régions L1 et L2, de sorte que l'on conserve l'identité des partenaires P1 de la région L1, et les partenaires P2 de la région L2. En plus de la capacité des régions L1 et L2 à lier un (ou plusieurs) type moléculaire, reportée sur la région R, l'identité des partenaires P1 et P2 est également reportée sur la région R. Dès lors, la cartographie moléculaire ne renseigne non plus seulement sur la localisation de sites de liaisons sur la structure moléculaire (et leurs capacités à lier des types moléculaires particuliers), mais également sur les partenaires connus (ici P1 et P2) de ces sites de liaisons moléculaires. Cette forme de réalisation vaut également lors des procédés de recherche de partenaires moléculaires en passant par les complémentaires des régions.

Selon une variante de ces formes de réalisation, il est possible de cartographier la spécificité des régions et la spécificité des points d'ancrage des sites de liaisons. Rappelons que le calcul de la spécificité des régions a été décrit dans l'un des procédés précédents comme étant le nombre de régions similaires retrouvées lors d'un criblage sur une base de données précise (représentant un contexte cellulaire / tissulaire / environnemental). Il est donc possible de cartographier la spécificité des régions et/ou des points de la structure moléculaire à partir des valeurs de spécificité calculées. Les points de la structure moléculaire les plus spécifiques corrélant alors avec la notion de point chaud (« hot spot ») décrit en biologie structurale et en biochimie.

Plus encore, la cartographie moléculaire peut être utilisée afin de résumer les variations observées sur toute propriété calculée lors d'un criblage (ex: courbure, charge, densité, malléabilité, conservation des résidus, orientation des normales, forme locale, etc.). Elle n'a donc pas seulement un rôle de visualisation mais permet également de calculer et d'analyser ces variations. En effet, étant donnée une liste L, de régions similaires à une région R donnée, pour chaque couple (R, L1), il existe un schéma de correspondance entre les points de R et les points de L1. Il est donc possible d'analyser le comportement et les déviations d'une ou de plusieurs propriétés entre tout couple (R, L1). En particulier, il est possible de calculer la tendance moyenne des points de tous les couples (R, L1) afin de rendre compte de la tendance globale d'une (ou plusieurs) propriété en ces points. Il est également possible de calculer l'écart type sur les variations de propriétés observées pour tous les couples (R, Li).

Exemple:

On cherche à déterminer le comportement moyen d'une propriété donnée en un point P d'une région R

Soient L1, L2 et L3 trois régions similaires à la région R et P1, P2, P3, des points de L1, L2 et L3 respectivement, alignés avec le point P. Le point P (tout comme les points P1, P2 et P3) est caractérisé par un ensemble d'états de propriétés (décrits par une liste de valeurs réelles) caractérisant par exemple la courbure, la charge, la densité locale etc.

Considérons la propriété « courbure », normalisée sur l'intervalle [-1 , 1 ] suivant les conventions selon lesquelles la courbure tend vers -1 pour les zones creuses, est proche de 0 dans les zones plates et tend vers 1 pour les zones bosses. Si les états respectifs de cette propriété pour les points P1, P2 et P3 sont 0.7, 0.9 et 0.6 respectivement, le comportement moyen au point P de la région R étant donné par la moyenne des états des points alignés P1, P2 et P3, on obtient ici une moyenne de 0,73. Une équation type pour calculer cette moyenne est:


où moyenne E est la moyenne des valeurs des états de propriétés

définis dans la liste Ep , et

N est le nombre d'éléments de la liste Ep .

On peut alors assigner au point P de la cartographie moléculaire la valeur de la moyenne des états de la courbure, i.e. 0,73.

On cherche à présent à déterminer les variations d'une propriété donnée en un point P d'une région R :

En reprenant le même exemple que précédemment avec trois états de propriétés E p de 0.7, 0.9 et 0.6 pour trois points P1, P2 et P3 alignés au point R, il est possible de calculer l'écart type en appliquant la formule commune:


où std(Ep ) renvoie l'écart-type de la liste des états de propriétés EP , N est le nombre d'états définis dans Ep , et

moyenne E est la valeur moyenne des éléments de Ep .

Selon cette forme de réalisation, la cartographie moléculaire permet donc de renseigner non seulement sur le comportement moyen d'une ou de plusieurs propriétés pour tout point (respectivement toute région) d'une structure moléculaire, mais également de renseigner sur ses variations.

En particulier, un tel procédé a des applications importantes afin de déterminer de façon systématique et d'observer les changements de propriétés d'une structure moléculaire sous différents contextes (lorsque la région est sous forme libre, c'est-à-dire ne liant aucun partenaire, ou bien lorsque la région est sous forme liée, c'est-à-dire liant au moins un partenaire d'un type moléculaire donné). Notamment, il est possible alors d'observer les changements de conformations (de formes) de la structure moléculaire en ces points (respectivement régions) lors de la formation d'un assemblage moléculaire. De la même façon, il est possible d'observer des changements dans la répartition des charges, ou bien dans les densités locales, ou même la solvatation des atomes et résidus de surface (identifiés par les points 3D de la représentation de la structure moléculaire).

En particulier, la solvatation peut être calculée comme étant l'interaction d'un point d'une structure moléculaire (relatif à un atome/résidu de ladite molécule) avec au moins une molécule d'eau. En raison du manque de données sur la localisation de ces molécules d'eau dans les structures moléculaires (à la fois dû à des résolutions parfois trop basses, mais aussi par un manque de conventions sur la nécessité de résoudre la localisation de ces molécules d'eau autour des macromolécules), il est particulièrement important de cartographier l'état de solvatation d'un point P (respectivement d'une région) à partir de la moyenne des états solvatés ou non solvatés sur les points alignés Pi. En effet, cette moyenne, plus robuste, permet alors de diminuer les sources d'erreurs énoncées et de repérer les points qui sont généralement en contact avec l'eau dans un contexte donné.

Le fait de classer les régions similaires obtenues à partir d'un criblage en fonction du contexte dans lequel est trouvée la région est donc particulièrement important (description de la forme libre ou liée de la région; et si sous forme liée, considéré le type d'interaction moléculaire). En effet, le fait de considérer un ensemble de régions dans un contexte environnemental donné nous permet alors d'étudier cette région avec une vue dynamique, c'est-à-dire d'observer les changements de comportement (de propriétés) dans différents contextes moléculaires et cellulaires.

Remarque: s'il est possible de classer les régions criblées en fonction du contexte dans lequel sont les régions similaires, il est également possible de considérer le contexte des structures moléculaires portant ces régions similaires. On regardera alors par exemple si la structure moléculaire est seule ou en interaction avec d'autres partenaires, ainsi que les conditions physico-chimiques qui ont permis d'obtenir ladite structure, notamment la présence de ligands.

Plus généralement, le concept de cartographie moléculaire appliqué au criblage permet de rassembler, d'analyser et de résumer simplement sur une seule structure moléculaire, l'ensemble des données biologiques produites: que ce soit des états de propriétés physico-chimiques, géométriques ou évolutifs, ou que ce soit la capacité d'une région à interagir avec un ou plusieurs types moléculaires, ou bien encore la spécificité de points ou de régions de la structure moléculaire. Il est également possible d'ajouter une cartographie pour la mise en garde des régions trop peu spécifiques et dont la création de ligands pourrait induire des toxicités.

Méthode de sauvetage dirigée des composés toxiques ou peu efficaces en fonction des profils d'interactions et des spécificités du composé et de ses cibles

Au cours des procédés précédents, nous avons décrit comment il était possible d'attribuer des fonctions et comportements biologiques à des régions d'une structure moléculaire. Nous avons également décrit qu'il était possible de procéder à une cartographie moléculaire afin de préciser les différents sites de liaisons connus de ladite molécule, ainsi que les partenaires correspondants.

Ces méthodes de criblage décrivent avec un haut degré de précision une structure moléculaire, jusqu'à indiquer les régions spécifiques de celle-ci, et les régions qui, lorsqu'elles sont ciblées par un composé, peuvent présenter un risque (ou des risques) d'interférence avec d'autres molécules. Ces régions présentant des risques d'interférences sont notamment les biomarqueurs d'effets secondaires et de toxicités décrits précédemment.

Deux procédés d'évaluations de la toxicité et des effets secondaires ont été proposés, un premier visant à vérifier que la molécule étudiée ne perturbe pas les interfaces biologiques connues ; le second visant à déterminer le profil d'interactions de ladite molécule et de les comparer aux profils d'interactions de molécules toxiques ou induisant des effets secondaires (en différenciant les types de toxicités et effets secondaires) et de molécules non toxiques ou présentant peu d'effets secondaires (molécules naturelles ou commercialisées et dont la toxicité n'est pas connue).

Les deux procédés renseignent sur les interférences possibles avec d'autres régions moléculaires, proposant ainsi une ou plusieurs causes moléculaires à cette toxicité et/ou à ces effets secondaires.

Etant donnée une molécule M ayant pour cible un site de liaison L, on suppose que le procédé de criblage selon l'invention indique qu'elle pourrait interférer avec d'autres régions Ri. A partir de l'alignement de L avec toutes les régions Ri, il est possible d'observer des différences géométriques et physico-chimiques entre les points de L et les points alignés de toutes les autres régions Ri.

Ces différences localisées (qui peuvent être calculées de façon automatique en déterminant par exemple la moyenne et l'écart type d'une

ou plusieurs propriétés pour tous les points alignés des Ri avec un point de L) informent sur les points d'ancrages spécifiques et non-spécifiques de L.

La figure 7 représente par exemple des différences localisées entre la région L et les régions R1 et R2. Les points entourés sur la région L n'ont en effet pas de contrepartie dans les régions R1 et R2 (car ils ne sont pas présents dans ces régions ou ont des propriétés différentes), et sont donc spécifiques de L. La ligne en pointillée décrit un cas de variabilité où le point de L est présent dans R1 mais pas dans R2 ; ce point n'est donc pas spécifique de L. Il est important de noter que la présence ou l'absence d'un point sur la figure 7 peut indiquer : soit la présence ou absence d'un atome ou résidu sur la molécule ; soit un changement drastique d'un état de propriété en ce point (par exemple sur L, l'atome est cationique, mais sur R1 et R2, les atomes correspondant sont anioniques).

Par complémentarité avec ces points d'ancrages spécifiques de la région L, il est alors possible de déterminer les points de contacts « idéaux » pour former un composé spécifique. En particulier, partant du composé provoquant ces risques de toxicité ou effets secondaires, il est possible de modifier légèrement sa structure afin de cibler plus particulièrement les points d'ancrage spécifiques de L, et de se rendre moins spécifiques des autres points communs à toutes les régions Ri. Ces modifications légères du composé peuvent notamment être effectuées en rajoutant ou supprimant des groupes méthyles ou d'autres groupements fonctionnels connus de la chimie organique et/ou inorganique.

Cette méthode de sauvetage dirigée de molécule toxique (ou présentant des effets secondaires) consiste donc à déterminer l'ensemble des cibles moléculaires de la molécule toxique (ou présentant des effets secondaires), puis de comparer ces régions cibles avec la région L que l'on veut cibler spécifiquement. A partir des cartographies moléculaires et de l'observation des comportements et variations des états de propriétés pour ces régions alignées, il est alors possible de déterminer les sous-régions qui sont spécifique de L, et celles qui ne le sont pas. En changeant légèrement la structure de la molécule, soit afin de la rendre plus spécifique de ces sous-régions spécifiques de L, soit afin de la rendre moins spécifique des autres sous-régions communes à toutes les cibles, il est possible de diminuer voir d'annuler un potentiel de toxicité.

En variante de cette forme de réalisation, le composé n'est pas toxique mais a une activité démontrée notamment in vitro qui ne se reflète pas in vivo : le composé n'est pas efficace car il est bloqué par un trop grand nombre de cibles biologiques. Par un procédé similaire, il est possible de proposer des changements légers de la structure du composé, de sorte qu'il soit plus spécifique des points d'ancrage de sa cible L, et moins affin de ses autres cibles Ri (Figure 7). En diminuant l'affinité du composé pour ses autres cibles, on augmente alors son efficacité in vivo en favorisant nettement l'interaction avec sa cible L.

Exemple 1 :

Une molécule M portant un site d'intérêt L est ciblée par un composé A par l'intermédiaire de la région Lcomposé Le criblage de la région L et/ou du complémentaire de la région Lcomposé permet de détecter une molécule B portant un site de liaison R et provenant d'une interface biologique de type macromolécule-macromolécule. Il est notamment possible de visualiser l'alignement géométrique et physico-chimique de la région L avec la région R, de sorte que l'on puisse identifier facilement les points de ces régions qui se ressemblent le plus, et ceux qui diffèrent le plus (rappelons qu'un point d'une région fait référence à un ou plusieurs atomes et/ou résidus de la molécule), comme l'illustre la Figure 7. On peut imaginer que la région R possède une sous-région localisée par exemple plus creuse ou plus chargée que la sous-région équivalente sur L. Dès lors, pour rendre le composé plus spécifique de la molécule M et moins spécifique de la molécule B, il est possible de changer légèrement la structure du composé, de sorte que la sous-région du composé qui lie L soit respectivement moins bosseuse ou moins chargée. Ces changements de la structure du composé

tendent à le rendre plus complémentaire de L, et moins complémentaire de R (vis-à-vis des propriétés géométriques, physico-chimiques).

On peut également imaginer que la région L possède une sous-région creuse que ne possède pas la région R. Par conséquent, il sera possible de rajouter au composé un groupement d'atomes adéquats (chargés ou non en fonction de la sous-région creuse associée) qui puisse venir se loger dans cette sous-région creuse. Cette modification qui joue sur la différence d'une sous-région de L et de R, permet d'empêcher la liaison du composé sur B par gêne stérique, tout en ne déstabilisant pas sa liaison sur A.

Exemple 2 :

Une molécule M portant un site d'intérêt L est ciblé par un composé A par l'intermédiaire de la région Lcomposé Le criblage de la région L et/ou du complémentaire de la région Lcomposé permet de détecter plusieurs molécules B, portant un site de liaison Ri proche de L. S'il est possible tout comme dans l'exemple précédent de visualiser chaque alignement de L avec un B1, il sera ici plus avantageux de cartographier le comportement moyen des propriétés pour les régions B1, et de comparer ce comportement moyen à celui de L. Essentiellement, le fait d'observer les comportements moyens des B1, permet de simplifier la visualisation des différences géométriques et physico-chimiques entre tous les B1 et L. Dès lors, pour chaque sous-région présentant des différences, il est possible de traiter la structure du composé par des exemples similaires énoncés dans l'exemple 1. En particulier, on pourra s'intéresser aux sous-régions présentant des différences entre tous les Bi (discrétisé par une région construite à partir des comportements moyens des propriétés) et L, et ne s'intéresser qu'aux sous-régions présentant de faibles écarts types. En effet, de faibles écarts types préciseront que pour tous les Bi, le comportement moyen observé varie peu. Aussi, lorsque l'on modifie la structure du composé pour moins correspondre à ce comportement moyen des Bi, tout en améliorant la

complémentarité avec L, on s'assure de diminuer la spécificité du composé pour tous les Bi, ou tout du moins, pour un grand nombre d'entre eux.

Exemple 3 :

Les deux exemples précédents peuvent nécessiter la présence d'un utilisateur vérifiant visuellement les alignements du site de liaison d'intérêt L avec le (ou les sites) site de liaison R d'une interface biologique perturbée. Rappelons cependant que le score d'énergie globale est calculé à partir de la somme de scores d'énergies locaux, eux-mêmes calculés par la comparaison des états de propriétés entre deux points alignés. Ces scores d'énergies locaux renseignent aussi bien sur la similarité que sur la différence des deux régions en ces points. Par conséquent, le score d'énergie local permet de détecter en automatique les points des deux régions qui diffèrent le plus. Selon le procédé permettant de détecter les régions erreurs d'un alignement de deux régions, il est donc également possible de détecter en automatique les sous-régions de ces deux régions alignées, qui diffèrent le plus. Dès lors, il est également possible de proposer en automatique des modifications du composé afin de jouer par exemple sur ces sous-régions qui diffèrent entre les régions R et L. Par exemple, si l'on modifie en automatique le composé de sorte qu'il puisse lier une sous-région spécifique de L et qui n'existe pas sur R, alors le composé deviendra plus spécifique de la cible d'intérêt et moins spécifique de la cible (ou des cibles) non souhaitée.

Exemple 4 :

Un composé C cible une région L d'une macromolécule biologique MB. Le criblage de la région L permet de récupérer une collection de régions similaires Ri, et comme l'illustre la figure 7, il est possible de superposer ces alignements par paires afin de visualiser les correspondances entre points des différentes régions similaires. Pour chaque point de L, il est donc en particulier possible (1 ) de visualiser s'il n'existe que sur L, et (2) de déterminer s'il a un état de propriétés (ou plusieurs états de plusieurs propriétés) qui sont uniques à L. Par exemple, sur la figure 7, on peut voir que quatre points appartiennent exclusivement à la région L. Il est donc possible de proposer des modifications du composé C, de sorte qu'il cible préférentiellement ces quatre points, ce qui le rendra plus spécifique de sa liaison à L et moins spécifique des régions R1 et R2. Un autre exemple serait de dire que ces quatre points ont des charges qui diffèrent entre L et les Ri : dans L, ces points représentent des charges par exemple anioniques, alors que les points alignés dans les Ri sont par exemple hydrophobe ou cationique. On augmente ainsi la spécificité du composé C pour L non pas en rajoutant (ou supprimant) des atomes, mais en changeant les charges en ces points de sorte qu'ils soient davantage complémentaires de L (ici, il faudra donc mettre des charges cationiques).