Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2001072822 - GENES IMPLIQUES DANS LES MALADIES INFLAMMATOIRES DE L"INTESTIN ET LEUR UTILISATION

Note: Texte fondé sur des processus automatiques de reconnaissance optique de caractères. Seule la version PDF a une valeur juridique

[ FR ]

GENES IMPLIQUES DANS LES MALADIES INFLAMMATOIRES
DE L'INTESTIN ET LEUR UTILISATION

La présente invention concerne des gènes impliqués dans les maladies inflammatoires et/ou immunes et certains cancers, en particulier les maladies inflammatoires cryptogénétiques de l'intestin, ainsi que les protéines codées par ces gènes. Des méthodes de diagnostics de maladies inflammatoires sont également des objets de la présente invention.
Les maladies inflammatoires cryptogénétiques de l'intestin (MICI) sont des maladies caractérisées par une inflammation du tube digestif dont la cause est inconnue. Selon la localisation et les caractéristiques de l'inflammation on distingue deux entités nosologiques différentes: la rectocolite hémorragique ( CH) et la maladie de Crohn (MC). La RCH a été décrite par S Wilkes en 1865 tandis que le premier cas d'iléite régionale a été rapportée par Crohn en 1932. En réalité, il est possible que ces deux maladies soient beaucoup plus anciennes.
Les MICI sont des maladies chroniques qui évoluent tout au long de la vie et qui touchent environ 1 à 2 personnes sur 1000 habitants dans les pays occidentaux, ce qui représente entre 60.000 et 100.000 malades en France. Il s'agit de maladies apparaissant chez le sujet jeune (le pic d'incidence est dans la troisième décennie), évoluant par poussées entrecoupées de rémissions, avec des complications fréquentes telles que la dénutrition, le retard de croissance chez l'enfant, la déminéralisation osseuse et à terme la dégénérescence maligne vers le cancer du colon. Il n'existe pas de traitement spécifique. Les thérapeutiques habituelles font appel aux anti-inflammatoires, aux immunosuppresseurs et à la chirurgie. Tous ces moyens thérapeutiques sont eux-mêmes source d'une morbidité iatrogène importante. Pour toutes ces raisons les MICI apparaissent comme un important problème de santé publique.
L'étiologie des MICI est actuellement inconnue. Des facteurs d'environnement sont impliqués dans la survenue de la maladie comme en témoignent l'augmentation séculaire d'incidence de la maladie et la concordance incomplète chez les jumeaux monozygotes. Les seuls facteurs de risque environnementaux actuellement reconnus sont 1) le tabac dont le rôle est néfaste dans la MC et bénéfique dans la RCH et 2) l'appendicectomie qui a un rôle protecteur pour la RCH.
Une prédisposition génétique est depuis longtemps suspectée devant l'existence d'agrégations ethniques et familiales de ces maladies. En effet, les MICI sont plus fréquentes dans la population caucasienne et en particulier la population juive d'Europe centrale. Les formes familiales représentent de 6 à 20% des cas de MICI. Elles sont particulièrement fréquentes lorsque le début de la maladie est précoce. Cependant, ce sont les études chez les jumeaux qui ont permis de confirmer le caractère génétique de ces maladies. En effet, le taux de concordance entre jumeaux pour ces maladies est plus important chez les jumeaux monozygotes que chez les jumeaux dizygotes plaidant fortement pour une composante héréditaire aux MICI, en particulier à la MC. Selon toute vraisemblance, les MICI sont des maladies génétiques complexes faisant intervenir plusieurs gènes différents, en interaction entre eux et avec des facteurs d'environnement. Les MICI peuvent donc être classées dans le cadre des maladies multifactorielles.
Deux grandes stratégies ont été développées afin de mettre en évidence les gènes de susceptibilité aux MICI. La première repose sur l'analyse de gènes candidats pour des raisons physiopathologiques. Ainsi de nombreux gènes ont été proposés comme potentiellement importants pour les MICI. Il s'agit souvent de gènes ayant un rôle dans l'inflammation et la réponse immune. On peut citer les gènes HLA, TAP, TNF, MICA, le récepteur T du lymphocyte, ICAM1, l'interleukine 1, CCR5, etc. D'autres gènes participent à des fonctions diverses tels que GAI2, la motiline, MRAMP, HMLH1, etc. En réalité, aucun des différents gènes candidats étudiés n'a actuellement fait la preuve définitive de son rôle dans la survenue des MICI.
Le récent développement de cartes du génome humain utilisant des marqueurs génétiques hautement polymorphes a permis aux généticiens de développer une approche non ciblée sur l'ensemble du génome. Cette démarche, appelée aussi génétique inverse ou clonage positionnel, ne fait aucune hypothèse sur les gènes impliqués dans la maladie et tente de découvrir ceux-ci à travers un criblage systématique du génome. La méthode la plus utilisée pour les maladies génétiques complexes repose sur l'étude de l'identité par la descendance des malades d'une même famille. Cette valeur est calculée pour un grand nombre (300- 400) de marqueurs de polymorphisme répartis régulièrement (tous les lOcM) sur le génome. En cas d'excès d'identité entre malades, le(s) marqueur(s) testé(s) indique(nt) une région supposée contenir un gène de susceptibilité à la maladie. Dans le cas des maladies génétiques complexes, le modèle sous-jacent à la prédisposition génétique (nombre de gènes et importance respective de chacun d'entre eux) étant inconnu, les méthodes statistiques à utiliser devront être adaptées. La présente invention concerne la mise en évidence de la séquence nucléique de gènes impliqués dans les MICI, et d'autres maladies inflammatoires, ainsi que l'utilisation de ces séquences nucléiques.
Dans le cadre de la présente invention, des travaux préliminaires des inventeurs ont déjà permis de localiser un gène de susceptibilité à la MC. En effet, les inventeurs (Hugot et al., 1996) ont montré qu'un gène de susceptibilité à la MC était localisé dans la région péricentromérique du chromosome 16 (figure 1). Il s'agissait du premier gène de susceptibilité à une maladie génétique complexe localisé par clonage positionnel et satisfaisant aux critères stricts proposés dans la littérature (Lander et Kruglyak, 1995). Ce gène a été nommé IBD1 (pour Inflammatory Bowel Disease 1). Depuis, d'autres localisations ont été proposées par d'autres auteurs en particulier sur les chromosomes 12, 1, 3, 6 et 7 (Satsangi et al., 1996 ; Cho et al., 1998). Bien que localisés, aucun de ces gènes de susceptibilité aux MICI n'a actuellement pu être identifié.
Certains auteurs n'ont pu répliquer cette localisation (Rioux et al., 1998). Ceci n'est cependant pas surprenant dans le cas de maladies génétiques complexes où une hétérogénéité génétique est probable.
Il est intéressant de noter que selon la même approche de clonage positionnel, des localisations ont aussi été proposées sur le chromosome 16 pour plusieurs maladies immunes et inflammatoires telles que la spondylarthrite ankylosante, le syndrome de Blau, le psoriasis, etc. (Becker et al., 1998 ; Tro p et al., 1996). Toutes ces maladies pourraient alors partager un même gène (ou un même groupe de gènes) localisé sur le chromosome 16.
Le maximum des tests de liaison génétique est situé pratiquement toujours à la même position, au niveau de D16S409 ou D16S411 séparés seulement de 2cM. Ce résultat est en opposition avec la taille importante (habituellement supérieure à 20cM) de l'intervalle de confiance attribuable à la localisation génétique selon une démarche utilisant des analyses de liaison non paramétriques.
La comparaison des tests statistiques utilisés dans les travaux des inventeurs montre que les tests basés sur l'identité par descendance complète (Tz2) sont meilleurs que les tests basé sur la moyenne de l'identité par descendance (Tz) (fig. 1). Une telle différence peut être expliquée par un effet récessif de IBD1.
Plusieurs gènes connus dans la région péricentromérique du chromosome 16, tels que le récepteur à l'interleukine 4, CD19, CD43, CDU, apparaissent comme de bons candidats potentiels pour la MC. Des résultats préliminaires ne plaident cependant pas en faveur de l'implication de ces gènes dans la MC.
En particulier, la présente invention fournit la séquence non seulement du gène IBD1, mais également la séquence partielle d'un autre gène, appelé IBDlprox en raison de sa localisation à proximité d'IBD, et mis en évidence comme rapporté dans les exemples ci-après. Ces gènes dont la séquence d'ADNc correspond respectivement à SEQ ID N° 1 et SEQ ID N° 4 sont donc potentiellement impliqués dans de nombreuses maladies inflammatoires et/ou immunes ainsi que dans des cancers.
La séquence peptidique exprimée par les gènes IBD1 et IBDlprox est représentée par SEQ ID N° 2 et SEQ ID N° 5 respectivement; la séquence génomique de ces gènes est représentée par SEQ ID N° 3 et SEQ ID N° 6 respectivement.
Ainsi, la présente invention a pour objet un acide nucléique purifié ou isolé, caractérisé en ce qu'il comprend une séquence nucléique choisie dans le groupe de séquences suivantes :
a) SEQ ID N° 1, SEQ ID N° 3, SEQ ID N° 4 et SEQ ID N° 6 ;
b) la séquence d'un fragment d'au moins 15 nucléotides consécutifs d'une séquence choisie parmi SEQ ID N° 1, SEQ ID N° 3, SEQ
ID N° 4 ou SEQ ID N° 6 ;
c) une séquence nucléique présentant un pourcentage d'identité d'au moins 80 %, après alignement optimal avec une séquence définie en a) ou b) ;
d) une séquence nucléique s'hybridant dans des conditions de forte stringence avec une séquence nucléique définie en a) ou b) ;

e) la séquence complémentaire ou la séquence de l'ARN correspondant à une séquence telle que définie en a), b), c) ou d).

La séquence d'acides nucléiques selon l'invention définie en c) présente un pourcentage d'identité d'au moins 80 % après alignement optimal avec une séquence telle que définie en a) ou b) ci-dessus, de préférence 90 %, de façon la plus préférée 98 %.
Par acide nucléique, séquence nucléique ou d'acide nucléique, polynucléotide, oligonucléotide, séquence de polynucléotide, séquence nucléotidique, termes qui seront employés indifféremment dans la présente description, on entend désigner un enchaînement précis de nucléotides, modifiés ou non, permettant de définir un fragment ou une région d'un acide nucléique, comportant ou non des nucléotides non naturels, et pouvant correspondre aussi bien à un ADN double brin, un ADN simple brin que des produits de transcription desdits ADNs. Ainsi, les séquences nucléiques selon l'invention englobent également les PNA (Peptid Nucleic Acid), ou analogues.
Il doit être compris que la présente invention ne concerne pas les séquences nucléotidiques dans leur environnement chromosomique naturel, c'est-à-dire à l'état naturel. Il s'agit de séquences qui ont été isolées et/ou purifiées, c'est-à-dire qu'elles ont été prélevées directement ou indirectement, par exemple par copie, leur environnement ayant été au moins partiellement modifié. On entend ainsi également désigner les acides nucléiques obtenus par synthèse chimique.
Par « pourcentage d'identité » entre deux séquences d'acides nucléiques ou d'acides aminés au sens de la présente invention, on entend désigner un pourcentage de nucléotides ou de résidus d'acides aminés identiques entre les deux séquences à comparer, obtenu après le meilleur alignement, ce pourcentage étant purement statistique et les différences entre les deux séquences étant réparties au hasard et sur toute leur longueur. On entend désigner par "meilleur alignement" ou "alignement optimal", l'alignement pour lequel le pourcentage d'identité déterminé comme ci-après est le plus élevé. Les comparaisons de séquences entre deux séquences d'acides nucléiques ou d'acides aminés sont traditionnellement réalisées en comparant ces séquences après les avoir alignées de manière optimale, ladite comparaison étant réalisée par segment ou par « fenêtre de comparaison » pour identifier et comparer les régions locales de similarité de séquence. L'alignement optimal des séquences pour la comparaison peut être réalisé, outre manuellement, au moyen de l'algorithme d'homologie locale de Smith et Waterman (1981), au moyen de l'algorithme d'homologie locale de Neddle an et Wunsch (1970), au moyen de la méthode de recherche de similarité de Pearson et Lipman (1988), au moyen de logiciels informatiques utilisant ces algorithmes (GAP, BESTFIT, BLAST P, BLAST N, FASTA et TFASTA dans le Wisconsin Genetics Software Package, Genetics Computer Group, 575 Science Dr., Madison, WI). Afin d'obtenir l'alignement optimal, on utilise de préférence le programme BLAST, avec la matrice BLOSUM 62. On peut également utiliser les matrices PAM ou PAM250.
Le pourcentage d'identité entre deux séquences d'acides nucléiques ou d'acides aminés est déterminé en comparant ces deux séquences alignées de manière optimale, la séquence d'acides nucléiques ou d'acides aminés à comparer pouvant comprendre des additions ou des délétions par rapport à la séquence de référence pour un alignement optimal entre ces deux séquences. Le pourcentage d'identité est calculé en déterminant le nombre de positions identiques pour lesquelles le nucléotide ou le résidu d'acide aminé est identique entre les deux séquences, en divisant ce nombre de positions identiques par le nombre total de positions comparées et en multipliant le résultat obtenu par 100 pour obtenir le pourcentage d'identité entre ces deux séquences.
Par séquences nucléiques présentant un pourcentage d'identité d'au moins 80 %, de préférence 90 %, de façon plus préférée 98 %, après alignement optimal avec une séquence de référence, on entend désigner les séquences nucléiques présentant, par rapport à la séquence nucléique de référence, certaines modifications comme en particulier une délétion, une troncation, un allongement, une fusion chimérique, et/ou une substitution, notamment ponctuelle, et dont la séquence nucléique présente au moins 80 %, de préférence 90 %, de façon plus préférée 98 %, d'identité après alignement optimal avec la séquence nucléique de référence. Il s'agit de préférence de séquences dont les séquences complémentaires sont susceptibles de s'hybrider spécifiquement avec les séquences SEQ ID N° 1 ou SEQ ID N° 4 de l'invention. De préférence, les conditions d'hybridation spécifiques ou de forte stringence seront telles qu'elles assurent au moins 80 %, de préférence 90 %, de façon plus préférée 98 % d'identité après alignement optimal entre l'une des deux séquences et la séquence complémentaire de l'autre.

Une hybridation dans des conditions de forte stringence signifie que les conditions de température et de force ionique sont choisies de telle manière qu'elles permettent le maintien de l'hybridation entre deux fragments d'ADN complémentaires. A titre illustratif, des conditions de forte stringence de l'étape d'hybridation aux fins de définir les fragments polynucléotidiques décrits ci-dessus, sont avantageusement les suivantes.
L'hybridation ADN- ADN ou ADN-ARN est réalisée en deux étapes : (1) préhybridation à 42°C pendant 3 heures en tampon phosphate (20 mM, pH 7,5) contenant 5 x SSC (1 x SSC correspond à une solution 0,15 M NaCl + 0,015 M citrate de sodium), 50 % de formamide, 7 % de sodium dodécyl sulfate (SDS), 10 x Denhardt's, 5 % de dextran sulfate et 1 % d'ADN de sperme de saumon ; (2) hybridation proprement dite pendant 20 heures à une température dépendant de la taille de la sonde (i.e. : 42°C, pour une sonde de taille > 100 nucléotides) suivie de 2 lavages de 20 minutes à 20°C en 2 x SSC + 2 % SDS, 1 lavage de 20 minutes à 20°C en 0,1 x SSC + 0,1 % SDS. Le dernier lavage est pratiqué en 0,1 x SSC + 0,1 % SDS pendant 30 minutes à 60°C pour une sonde de taille > 100 nucléotides. Les conditions d'hybridation de forte stringence décrites ci-dessus pour un polynucléotide de taille définie, peuvent être adaptées par l'homme du métier pour des oligonucléotides de taille plus grande ou plus petite, selon l'enseignement de Sambrook et al, 1989.
Parmi les séquences nucléiques présentant un pourcentage d'identité d'au moins 80 %, de préférence 90 %, de façon plus préférée 98 %, après alignement optimal avec la séquence selon l'invention, on préfère également les séquences nucléiques variantes de SEQ ID N° 1, ou de SEQ ID N° 4, ou de leurs fragments, c'est-à-dire l'ensemble des séquences nucléiques correspondant à des variants alléliques, c'est-à-dire des variations individuelles des séquences SEQ ID N° 1 ou SEQ ID N° 4. Ces séquences mutées naturelles correspondent à des polymorphismes présents chez les mammifères, en particulier chez l'être humain et, notamment, à des polymorphismes pouvant conduire à la survenue d'une pathologie. De préférence, la présente invention concerne les séquences nucléiques variantes dans lesquelles les mutations conduisent à une modification de la séquence d'acides aminés du polypeptide, ou de ses fragments, codés par la séquence normale de SEQ ID N° 1 ou SEQ ID N° 4.

On entend également désigner par séquence nucléique variante tout ARN ou ADNc résultant d'une mutation et/ou variation d'un site d'épissage de la séquence nucléique génomique dont l' ADNc a pour séquence SEQ ID N° 1 ou SEQ ID N° 4.

L'invention concerne de préférence un acide nucléique purifié ou isolé selon la présente invention, caractérisé en ce qu'il comprend ou est constitué de l'une des séquences SEQ ID N° 1 ou SEQ ID N° 4, de leurs séquences complémentaires ou des séquences de l' ARN correspondant à SEQ ID N° 1 ou SEQ ID N° 4.
Les amorces ou sondes, caractérisées en ce qu'elles comprennent une séquence d'un acide nucléique selon l'invention, font également partie de l'invention.
Ainsi, la présente invention concerne également les amorces ou les sondes selon l'invention qui peuvent permettre en particulier de mettre en évidence ou de discriminer les séquences nucléiques variantes, ou d'identifier la séquence génomique des gènes dont l'ADNc est représenté par SEQ ID N° 1 ou SEQ ID N° 4, en utilisant notamment une méthode d'amplification telle que la méthode PCR, ou une méthode apparentée.
L'invention concerne également l'utilisation d'une séquence d'acide nucléique selon l'invention comme sonde ou amorce, pour la détection, l'identification, le dosage ou l'amplification de séquence d'acide nucléique.
Selon l'invention, les polynucléotides pouvant être utilisés comme sonde ou comme amorce dans des procédés de détection, d'identification, de dosage ou d'amplification de séquence nucléique, présentent une taille minimale de 15 bases, de préférence de 20 bases, ou mieux de 25 à 30 bases.
Les sondes et amorces selon l'invention peuvent être marquées directement ou indirectement par un composé radioactif ou non radioactif par des méthodes bien connues de l'homme du métier, afin d'obtenir un signal détectable et/ou quantifiable.
Les séquences de polynucléotides selon l'invention non marquées peuvent être utilisées directement comme sonde ou amorce.
Les séquences sont généralement marquées pour obtenir des séquences utilisables pour de nombreuses applications. Le marquage des amorces ou des sondes selon l'invention est réalisé par des éléments radioactifs ou par des molécules non radioactives.

Parmi les isotopes radioactifs utilisés, on peut citer le P, le P, le S, le H ou le 125I. Les entités non radioactives sont sélectionnées parmi les ligands tels la biotine, l'avidine, la streptavidine, la dioxygénine, les haptènes, les colorants, les agents luminescents tels que les agents radioluminescents, chémoluminescents, bioluminescents, fluorescents, phosphorescents.
Les polynucléotides selon l'invention peuvent ainsi être utilisés comme amorce et/ou sonde dans des procédés mettant en oeuvre notamment la technique de PCR (amplification en chaîne par polymérase) (Rolfs et al., 1991). Cette technique nécessite le choix de paires d'amorces oligonucléotidiques encadrant le fragment qui doit être amplifié. On peut, par exemple, se référer à la technique décrite dans le brevet américain U.S. N° 4,683,202. Les fragments amplifiés peuvent être identifiés, par exemple après une électrophorèse en gel d'agarose ou de polyacrylamide, ou après une technique chromatographique comme la filtration sur gel ou la chromatographie échangeuse d'ions, puis séquences. La spécificité de l'amplification peut être contrôlée en utilisant comme amorces les séquences nucléotidiques de polynucléotides de l'invention et comme matrices, des plasmides contenant ces séquences ou encore les produits d'amplification dérivés. Les fragments nucléotidiques amplifiés peuvent être utilisés comme réactifs dans des réactions d'hybridation afin de mettre en évidence îa présence, dans un échantillon biologique, d'un acide nucléique cible de séquence complémentaire à celle desdits fragments nucléotidiques amplifiés.
L'invention vise également les acides nucléiques susceptibles d'être obtenus par amplification à l'aide d'amorces selon l'invention.
D'autres techniques d'amplification de l'acide nucléique cible peuvent être avantageusement employées comme alternative à la PCR (PCR-like) à l'aide de couple d'amorces de séquences nucléotidiques selon l'invention. Par PCR-like on entend désigner toutes les méthodes mettant en œuvre des reproductions directes ou indirectes des séquences d'acides nucléiques, ou bien dans lesquelles les systèmes de marquage ont été amplifiés, ces techniques sont bien entendu connues. En général il s'agit de l'amplification de l'ADN par une polymérase ; lorsque l'échantillon d'origine est un ARN il convient préalablement d'effectuer une transcription reverse. Il existe actuellement de très nombreux procédés permettant cette amplification, comme par exemple la technique SDA (Strand Displacement Amplification) ou technique d'amplification à déplacement de brin (Walker et al., 1992), la technique TAS (Transcription-based Amplification System) décrite par Kwoh et al. (1989), la technique 3SR (Self-Sustained Séquence Replication) décrite par Guatelli et al. (1990), la technique NASBA (Nucleic Acid Séquence Based Amplification) décrite par Kievitis et al. (1991), la technique TMA (Transcription Mediated Amplification), la technique LCR (Ligase Chain Reaction) décrite par Landegren et al. (1988), la technique de RCR (Repair Chain Reaction) décrite par Segev (1992), la technique CPR (Cycling Probe Reaction) décrite par Duck et al. (1990), la technique d'amplification à la Q-béta-réplicase décrite par Miele et al. (1983). Certaines de ces techniques ont depuis été perfectionnées.
Dans le cas où le polynucléotide cible à détecter est un ARNm, on utilise avantageusement, préalablement à la mise en oeuvre d'une réaction d'amplification à l'aide des amorces selon l'invention ou à la mise en œuvre d'un procédé de détection à l'aide des sondes de l'invention, une enzyme de type transcriptase inverse afin d'obtenir un ADNc à partir de l'ARNm contenu dans l'échantillon biologique. L'ADNc obtenu servira alors de cible pour les amorces ou les sondes mises en oeuvre dans le procédé d'amplification ou de détection selon l'invention.

La technique d'hybridation de sondes peut être réalisée de manières diverses (Matthews et al., 1988). La méthode la plus générale consiste à immobiliser l'acide nucléique extrait des cellules de différents tissus ou de cellules en culture sur un support (tels que la nitrocellulose, le nylon, le polystyrène) et à incuber, dans des conditions bien définies, l'acide nucléique cible immobilisé avec la sonde. Après l'hybridation, l'excès de sonde est éliminé et les molécules hybrides formées sont détectées par la méthode appropriée (mesure de la radioactivité, de la fluorescence ou de l'activité enzymatique liée à la sonde).
Selon un autre mode de mise en œuvre des sondes nucléiques selon l'invention, ces dernières peuvent être utilisées comme sondes de capture. Dans ce cas, une sonde, dite « sonde de capture », est immobilisée sur un support et sert à capturer par hybridation spécifique l'acide nucléique cible obtenu à partir de l'échantillon biologique à tester et l'acide nucléique cible est ensuite détecté grâce à une seconde sonde, dite « sonde de détection », marquée par un élément facilement détectable.

Parmi les fragments d'acides nucléiques intéressants, il faut ainsi citer en particulier les oligonucléotides anti-sens, c'est-à-dire dont la structure assure, par hybridation avec la séquence cible, une inhibition de l'expression du produit correspondant. Il faut également citer les oligonucléotides sens qui, par interaction avec des protéines impliquées dans la régulation de l'expression du produit correspondant, induiront soit une inhibition, soit une activation de cette expression.

Dans les deux cas (sens et anti-sens), les oligonucléotides de l'invention peuvent être utilisés in vitro et in vivo.
La présente invention concerne également un polypeptide isolé caractérisé en ce qu'il comprend un polypeptide choisi parmi :
a) un polypeptide de séquence SEQ ID N° 2 ou SEQ ID N° 5 ;
b) un polypeptide variant d'un polypeptide de séquence définie en a) ;
c) un polypeptide homologue à un polypeptide défini en a) ou b), comportant au moins 80 % d'identité avec ledit polypeptide de a) ;
d) un fragment d'au moins 15 acides aminés consécutifs d'un polypeptide défini en a) , b) ou c) ;
e) un fragment biologiquement actif d'un polypeptide défini en a), b) ou c).
Par « polypeptide », on entend, au sens de la présente invention, désigner des protéines ou des peptides.
Par « fragment biologiquement actif», on entend un fragment possédant la même activité biologique que le fragment peptidique dont il est déduit, de préférence dans le même ordre de grandeur (à un facteur 10 près). Ainsi, les exemples montrent que la protéine IBDl (SEQ ID N° 2) a un rôle potentiel dans les phénomènes d'apoptose. Un fragment biologiquement actif de la protéine IBDl consiste donc en un polypeptide issu de SEQ ID N° 2 possédant également un rôle dans l'apoptose. Les exemples ci-après proposent des fonctions biologiques pour les protéines IBDl et IBDlprox, en fonction des domaines peptidiques de ces protéines et permettent ainsi à l'homme du métier d'identifier les fragments biologiquement actifs.

De préférence un polypeptide selon l'invention est un polypeptide constitué de la séquence SEQ ID N° 2 (correspondant à la protéine codée par le gène IBDl) ou de la séquence SEQ ID N° 5 (correspondant à la protéine codée par IBDlprox) ou d'une séquence possédant au moins 80 % d'identité avec SEQ ID N° 2 ou SEQ LD N° 5 après alignement optimal.
La séquence du polypeptide présente un pourcentage d'identité d'au moins 80 % après alignement optimal avec les séquences SEQ ID N° 2 ou SEQ ID N° 5, de préférence 90 %, de façon plus préférée 98 %.
Par polypeptide dont la séquence d'acides aminés présentant un pourcentage d'identité d'au moins 80 %, de préférence 90 %, de façon plus préférée 98 %, après alignement optimal avec une séquence de référence, on entend désigner les polypeptides présentant certaines modifications par rapport au polypeptide de référence, comme en particulier une ou plusieurs délétions, troncations, un allongement, une fusion chimérique, et/ou une ou plusieurs substitutions.
Parmi les polypeptides dont la séquence d'acides aminés présentant un pourcentage d'identité d'au moins 80 %, de préférence 90 %, de façon plus préférée 98 %, après alignement optimal avec les séquences SEQ ID N° 2, SEQ ID N° 5 ou avec l'un de leurs fragments selon l'invention, on préfère les polypeptides variants codés par les séquences nucléiques variantes telles que précédemment définies, en particulier les polypeptides dont la séquence d'acides aminés présente au moins une mutation correspondant notamment à une troncation, délétion, substitution et/ou addition d'au moins un résidu d'acide aminé par rapport aux séquences SEQ ID N° 2, SEQ ID N° 5 ou avec l'un de leurs fragments, de manière plus préférée les polypeptides variants présentant une mutation liée à une pathologie.
La présente invention concerne également les vecteurs de clonage et/ou d'expression comprenant un acide nucléique ou codant pour un polypeptide selon l'invention. Un tel vecteur peut également contenir les éléments nécessaires à l'expression et éventuellement à la sécrétion du polypeptide dans une cellule hôte. Une telle cellule hôte est également un objet de l'invention.
Les vecteurs caractérisés en ce qu'ils comportent une séquence de promoteur et/ou de régulateur selon l'invention, font également partie de l'invention.

Lesdits vecteurs comportent de préférence un promoteur, des signaux d'initiation et de terminaison de la traduction, ainsi que des régions appropriées de régulation de la transcription. Us doivent pouvoir être maintenus de façon stable dans la cellule et peuvent éventuellement posséder des signaux particuliers spécifiant la sécrétion de la protéine traduite.
Ces différents signaux de contrôle sont choisis en fonction de l'hôte cellulaire utilisé. A cet effet, les séquences d'acide nucléique selon l'invention peuvent être insérées dans des vecteurs à réplication autonome au sein de l'hôte choisi, ou des vecteurs intégratifs de l'hôte choisi.
Parmi les systèmes à réplication autonome, on utilise de préférence en fonction de la cellule hôte, des systèmes de type plasmidique ou viral, les vecteurs viraux pouvant notamment être des adénovirus (Perricaudet et al., 1992), des rétrovirus, des lentivirus, des poxvirus ou des virus herpétiques (Epstein et al., 1992). L'homme du métier connaît les technologies utilisables pour chacun de ces systèmes.
Lorsque l'on souhaite l'intégration de la séquence dans les chromosomes de la cellule hôte, on peut utiliser par exemple des systèmes de type plasmidique ou viral ; de tels virus sont, par exemple, les rétrovirus (Temin, 1986), ou les AAN (Carter, 1993).
Parmi les vecteurs non viraux, on préfère les polynucléotides nus tels que

TAON nu ou l'ARΝ nu selon la technique développée par la société VICAL, les chromosomes artificiels de bactérie (BAC, bacterial artificial chromosome), les chromosomes artificiels de levure (YAC, yeast artificial chromosome) pour l'expression dans la levure, les chromosomes artificiels de souris (MAC, mouse artificial chromosome) pour l'expression dans les cellules murines et de manière préférée les chromosomes artificiels d'homme (HAC, human artificial chromosome) pour l'expression dans les cellules humaines.
De tels vecteurs sont préparés selon les méthodes couramment utilisées par l'homme du métier, et les clones en résultant peuvent être introduits dans un hôte approprié par des méthodes standard, telles que par exemple la lipofection, l'électroporation, le choc thermique, la transformation après perméabilisation chimique de la membrane, la fusion cellulaire.

L'invention comprend en outre les cellules hôtes, notamment les cellules eucaryotes et procaryotes, transformées par les vecteurs selon l'invention ainsi que les animaux transgéniques, de préférence les mammifères, excepté l'Homme, comprenant une desdites cellules transformées selon l'invention. Ces animaux peuvent être utilisés en temps que modèles, pour l'étude de l'étiologie de maladies inflammatoires et/ou immunes, et en particulier des maladies inflammatoires du tube digestif, ou pour l'étude de cancers.
Parmi les cellules utilisables aux sens de la présente invention, on peut citer les cellules bactériennes (Olins et Lee, 1993), mais aussi les cellules de levure (Buckholz, 1993), de même que les cellules animales, en particulier les cultures de cellules de mammifères (Edwards et Aruffo, 1993), et notamment les cellules d'ovaire de hamster chinois (CHO). On peut citer également les cellules d'insectes dans lesquelles on peut utiliser des procédés mettant par exemple en œuvre des baculovirus (Luckow, 1993). Un hôte cellulaire préféré pour l'expression des protéines de l'invention est constitué par les cellules COS.
Parmi les mammifères selon l'invention, on préfère des animaux tels que les rongeurs, en particulier les souris, les rats ou les lapins, exprimant un polypeptide selon l'invention.
Parmi les mammifères selon l'invention, on préfère également des animaux tels que les souris, les rats ou les lapins, caractérisés en ce que le gène codant pour la protéine de séquence SEQ ID N° 2 ou SEQ ID Nσ 5, ou dont la séquence est codée par le gène homologue chez ces animaux, n'est pas fonctionnel, est invalidé ou présente au moins une mutation.
Ces animaux transgéniques sont obtenus par exemple par recombinaison homologue sur cellules souches embryonnaires, transfert de ces cellules souches à des embryons, sélection des chimères affectées au niveau des lignées reproductrices, et croissance desdites chimères.
Les animaux transgéniques selon l'invention peuvent ainsi surexprimer le gène codant pour la protéine selon l'invention, ou leur gène homologue, ou exprimer ledit gène dans lequel est introduite une mutation. Ces animaux transgéniques, en particulier des souris, sont obtenus par exemple par transfection de copie de ce gène sous contrôle d'un promoteur fort de nature ubiquitaire, ou sélectif d'un type de tissu, ou après transcription virale.

Alternativement, les animaux transgéniques selon l'invention peuvent être rendus déficients pour le gène codant pour l'un des polypeptides de séquences SEQ

ID N° 2 ou SEQ ID N° 5, ou leurs gènes homologues, par inactivation à l'aide du système LOXP/CRE recombinase (Rohlmann et al., 1996) ou de tout autre système d' inactivation de l'expression de ce gène.
Les cellules et mammifères selon l'invention sont utilisables dans une méthode de production d'un polypeptide selon l'invention, comme décrit ci-dessous, et peuvent également servir à titre de modèle d'analyse.
Les cellules ou mammifères transformés tels que décrits précédemment peuvent aussi être utilisés à titre de modèles afin d'étudier les interactions entre les polypeptides selon l'invention, et les composés chimiques ou protéiques, impliqués directement ou indirectement dans les activités des polypeptides selon l'invention, ceci afin d'étudier les différents mécanismes et interactions mis en jeu.
Ils peuvent en particulier être utilisés pour la sélection de produits interagissant avec les polypeptides selon l'invention, notamment la protéine de séquence SEQ ID N° 2 ou SEQ ID N° 5 ou leurs variants selon l'invention, à titre de cofacteur, ou d'inhibiteur, notamment compétitif, ou encore ayant une activité agoniste ou antagoniste de l'activité des polypeptides selon l'invention. De préférence, on utilise lesdites cellules transformées ou animaux transgéniques à titre de modèle notamment pour la sélection de produits permettant de lutter contre les pathologies liées à une expression anormale de ce gène.
L'invention concerne également l'utilisation d'une cellule, d'un mammifère ou d'un polypeptide selon l'invention pour le criblage de composés chimiques ou biochimiques pouvant interagir directement ou indirectement avec les polypeptides selon l'invention, et/ou capable de moduler l'expression ou l'activité de ces polypeptides.
De la même façon, l'invention concerne aussi un procédé de criblage de composés capables d'interagir in vitro ou in vivo avec un acide nucléique selon l'invention, en utilisant un acide nucléique une cellule ou un mammifère selon l'invention, et en détectant la formation d'un complexe entre les composés candidats et l'acide nucléique selon l'invention.
Les composés ainsi sélectionnés sont également objets de l'invention.

L'invention concerne aussi l'utilisation d'une séquence d'acide nucléique selon l'invention pour la synthèse de polypeptides recombinants.
La méthode de production d'un polypeptide de l'invention sous forme recombinante, elle-même comprise dans la présente invention, se caractérise en ce que l'on cultive les cellules transformées, notamment les cellules ou mammifères de la présente invention, dans des conditions permettant l'expression d'un polypeptide recombinant codé par une séquence d'acide nucléique selon l'invention, et que l'on récupère ledit polypeptide recombinant.
Les polypeptides recombinants, caractérisés en ce qu'ils sont susceptibles d'être obtenus par ladite méthode de production, font également partie de l'invention.
Les polypeptides recombinants obtenus comme indiqué ci-dessus, peuvent aussi bien se présenter sous forme glycosylée que non glycosylée et peuvent présenter ou non la structure tertiaire naturelle.
Les séquences des polypeptides recombinants peuvent être également modifiées afin d'améliorer leur solubilité, en particulier dans les solvants aqueux.
De telles modifications sont connues de l'homme du métier comme par exemple la délétion de domaines hydrophobes ou la substitution d'acides aminés hydrophobes par des acides aminés hydrophiles.
Ces polypeptides peuvent être produits à partir des séquences d'acide nucléique définies ci-dessus, selon les techniques de production de polypeptides recombinants connues de l'homme du métier. Dans ce cas, la séquence d'acide nucléique utilisée est placée sous le contrôle de signaux permettant son expression dans un hôte cellulaire.
Un système efficace de production d'un polypeptide recombinant nécessite de disposer d'un vecteur et d'une cellule hôte selon l'invention.
Ces cellules peuvent être obtenues par l'introduction dans des cellules hôtes d'une séquence nucléotidique insérée dans un vecteur tel que défini ci-dessus, puis la mise en culture desdites cellules dans des conditions permettant la réplication et/ou l'expression de la séquence nucléotidique transfectée.
Les procédés utilisés pour la purification d'un polypeptide recombinant sont connus de l'homme du métier. Le polypeptide recombinant peut être purifié à partir de lysats et extraits cellulaires, du surnageant du milieu de culture, par des méthodes utilisées individuellement ou en combinaison, telles que le fractionnement, les méthodes de chromatographie, les techniques d'immunoaffinité à l'aide d'anticorps monoclonaux ou polyclonaux spécifiques, etc...
Les polypeptides selon la présente invention peuvent aussi être obtenus par synthèse chimique en utilisant l'une des nombreuses synthèses peptidiques connues, par exemple les techniques mettant en œuvre des phases solides (voir notamment

Stewart et al, 1984) ou des techniques utilisant des phases solides partielles, par condensation de fragments ou par une synthèse en solution classique.
Les polypeptides obtenus par synthèse chimique et pouvant comporter des acides aminés non naturels correspondants sont également compris dans l'invention.

Les anticorps mono- ou polyclonaux ou leurs fragments, anticorps chimériques ou immunoconjugués, caractérisés en ce qu'ils sont capables de reconnaître spécifiquement un polypeptide selon l'invention, font partie de l'invention.
Des anticorps polyclonaux spécifiques peuvent être obtenus à partir d'un sérum d'un animal immunisé contre les polypeptides selon l'invention, notamment produit par recombinaison génétique ou par synthèse peptidique, selon les modes opératoires usuels.
On note notamment l'intérêt d'anticorps reconnaissant de façon spécifique certains polypeptides, variants, ou leurs fragments immunogènes, selon l'invention.

Les anticorps mono- ou polyclonaux ou leurs fragments, anticorps chimériques ou immunoconjugués, caractérisés en ce qu'ils sont capables de reconnaître spécifiquement les polypeptides de séquence SEQ ID N° 2 ou SEQ ID N° 5 sont particulièrement préférés.
Les anticorps monoclonaux spécifiques peuvent être obtenus selon la méthode classique de culture d'hybridomes décrite par Kôhler et Milstein (1975).
Les anticorps selon l'invention sont, par exemple, des anticorps chimériques, des anticorps humanisés, des fragments Fab ou F(ab')2. Ils peuvent également se présenter sous forme d' immunoconjugués ou d'anticorps marqués afin d'obtenir un signal détectable et/ou quantifiable.
L'invention concerne également des méthodes pour la détection et/ou la purification d'un polypeptide selon l'invention, caractérisées en ce qu'elles mettent en œuvre un anticorps selon l'invention.

L'invention comprend en outre des polypeptides purifiés, caractérisés en ce qu'ils sont obtenus par une méthode selon l'invention.
Par ailleurs, outre leur utilisation pour la purification des polypeptides, les anticorps de l'invention, en particulier les anticorps monoclonaux, peuvent également être utilisés pour la détection de ces polypeptides dans un échantillon biologique.
Ils constituent ainsi un moyen d'analyse immunocytochimique ou immuno-histochimique de l'expression des polypeptides selon l'invention, notamment les polypeptides de séquence SEQ ID N° 2, SEQ ID N° 5 ou l'un de leurs variants, sur des coupes de tissus spécifiques, par exemple par immunofluorescence, marquage à l'or, immuno-conjugués enzymatiques.
Ils peuvent permettre notamment de mettre en évidence une expression anormale de ces polypeptides dans les tissus ou prélèvements biologiques.
Plus généralement, les anticorps de l'invention peuvent être avantageusement mis en œuvre dans toute situation où l'expression d'un polypeptide selon l'invention, normal ou muté, doit être observée.
Ainsi, un procédé de détection d'un polypeptide selon l'invention dans un échantillon biologique, comprenant les étapes de mise en contact de l'échantillon biologique avec un anticorps selon l'invention et de mise en évidence du complexe antigène-anticorps formé est également un objet de l'invention, ainsi qu'une trousse permettant de mettre en œuvre un tel procédé. Une telle trousse contient en particulier :
a) un anticorps monoclonal ou polyclonal selon l'invention ;
b) éventuellement des réactifs pour la constitution d'un milieu propice à la réaction immunologique ;
c) les réactifs permettant la détection du complexe antigène- anticorps produit lors de la réaction immunologique.
Les anticorps selon l'invention peuvent également être utilisés dans le traitement d'une maladie inflammatoire et/ou immune, ou d'un cancer, chez l'homme, lorsque l'on observe une expression anormale du gène IBDl ou du gène

IBDlprox. Une expression anormale signifie une surexpression ou l'expression d'une protéine mutée.

Ces anticorps peuvent être obtenus directement à partir de sérum humain, ou à partir d'animaux immunisés avec des polypeptides selon l'invention, puis « humanisés », et peuvent être utilisés tels quels ou dans la préparation d'un médicament destiné au traitement des maladies précitées.
Font également partie de l'invention, les méthodes de détermination d'une variabilité allélique, d'une mutation, d'une délétion, d'une perte d'hétérozygotie ou de toute anomalie génétique du gène selon l'invention, caractérisées en ce qu'elles mettent en oeuvre une séquence d'acide nucléique, un polypeptide ou un anticorps selon l'invention.
L'invention fournit en effet la séquence des gènes IBDl et IBDlprox impliqués dans des maladies inflammatoires et/ou immunes, et en particulier les MICI. Un des enseignements de l'invention est de préciser les mutations dans ces séquences nucléiques ou polypeptidiques, qui sont liées à un phénotype correspondant à une des ces maladies inflammatoires et/ou immunes.
On peut détecter ces mutations directement par analyse de l'acide nucléique et des séquences selon l'invention (ADN génomique, ARN, ou ADNc), mais également par l'intermédiaire des polypeptides selon l'invention. En particulier, l'utilisation d'un anticorps selon l'invention qui reconnaît un épitope portant une mutation permet de discriminer entre une protéine « saine » et une protéine « associée à une pathologie ».
Ainsi, l'étude du gène IBDl dans diverses maladies inflammatoires et/ou immunes humaines montre ainsi qu'il existe des variants de séquence de ce gène dans la maladie de Crohn, la rectocolite hémorragique et le syndrome de Blau, comme démontré par les exemples. Ces variations de séquence aboutissent à des variations importantes de la séquence protéique déduite. En effet, elles sont soit localisées sur des sites très conservés de la protéine dans des domaines fonctionnels importants, soit elles aboutissent à la synthèse d'une protéine tronquée. Il est donc extrêmement probable que ces altérations entraînent une modification de la fonction de la protéine et aient donc un effet causal dans la survenue de ces maladies.
La variété des maladies où sont observées ces mutations suggère que le gène

IBDl est potentiellement important dans de nombreuses maladies inflammatoires et/ou immunes. Ce résultat est à rapprocher du fait que la région péricentromérique du chromosome 16 a été décrite comme contenant des gènes de susceptibilité à diverses maladies humaines telles que la spondylarthrite ankylosante ou le rhumatisme psoriasique. On peut donc considérer quTBDl a un rôle important dans un grand nombre de maladies inflammatoires et/ou immunes.
En particulier, on peut associer IBDl aux maladies inflammatoires granulomateuses. En effet, le Syndrome de Blau et la MC sont des maladies faisant partie de cette famille. On espère donc trouver des variations dans le gène IBDl pour les autres maladies de la même famille (sarcoïdose, maladie de Behçet...).
De plus, l'implication de IBDl dans les voies cellulaires aboutissant à l'apoptose soulève la question de son éventuel rôle carcinogène. En effet, il est attendu qu'une dysrégulation de IBDl puisse aboutir à une prédisposition cancéreuse. Cette hypothèse est renforcée par le fait qu'il existe une prédisposition au cancer du colon dans les maladies inflammatoires de l'intestin. IBDl pourrait en partie expliquer cette susceptibilité au cancer et définir de nouvelles voies de carcinogenèse.
La description précise des mutations observables dans le gène IBDl permet ainsi de poser les bases d'un diagnostic moléculaire des maladies inflammatoires et immunes où son rôle est démontré. Une telle démarche, basée sur la recherche de mutations dans le gène, permettra de contribuer au diagnostic de ces maladies et éventuellement de réduire l'importance de certains examens complémentaires invasifs ou coûteux. L'invention pose les bases d'un tel diagnostic moléculaire basé sur la recherche de mutations dans IBDl .
Le diagnostic moléculaire des maladies inflammatoires devrait aussi permettre d'améliorer la classification nosologique de ces maladies et de mieux définir des sous-groupes de malades particuliers par leur caractéristiques cliniques, l'évolutivité de la maladie ou la réponse à certains traitements. A titre d'exemple, le démembrement des mutations existantes pourrait ainsi permettre de classer les colites actuellement indéterminées qui représentent plus de 10% des maladies inflammatoires de l'intestin. Une telle démarche permettra de proposer une prise en charge précoce adaptée à chaque patient. D'une manière générale, une telle démarche permet d'espérer pouvoir définir à terme une prise en charge individualisée de la maladie, en fonction du terrain génétique de chaque malade, incluant des mesures curatives et préventives.

En particulier, on préfère une méthode de diagnostic et/ou d'évaluation pronostique d'une maladie inflammatoire ou d'un cancer caractérisée en ce qu'on détermine à partir d'un prélèvement biologique d'un patient la présence d'au moins une mutation et/ou une altération d'expression du gène correspondant à SEQ ID N° 1 ou SEQ ID N° 4 par l'analyse de tout ou partie d'une séquence nucléique correspondant audit gène. On peut aussi étudier les gènes SEQ ID N° 3 ou SEQ ID N° 6.
Cette méthode de diagnostic et/ou d'évaluation pronostique peut être utilisée de façon préventive (étude d'une prédisposition à ces maladies inflammatoires ou au cancer), ou afin de servir à l'établissement et/ou la confirmation d'un état clinique chez un patient.
De préférence, la maladie inflammatoire est une maladie inflammatoire du tube digestif, et le cancer est un cancer du tube digestif (intestin grêle ou colon).
L'enseignement de l'invention permet en effet de connaître les mutations présentant un déséquilibre de liaison avec les maladies inflammatoires du tube digestif, et qui sont donc associées à de telles maladies.
L'analyse peut être effectuée par séquence de tout ou partie du gène, ou par d'autres méthodes connues de l'homme du métier. On peut en particulier utiliser des méthodes basées sur la PCR, par exemple la PCR-SSCP qui permet de détecter des mutations ponctuelles.
On peut également effectuer l'analyse par fixation d'une sonde selon l'invention correspondant à l'une des séquences SEQ ID N° 1, 3, 4 ou 6 sur une puce à ADN et l'hybridation sur ces microplaques. Une puce à ADN contenant une séquence selon l'invention est également un des objets de l'invention.
De même, une puce à protéines contenant une séquence d'acides aminés selon l'invention est aussi un objet de l'invention. Une telle puce à protéines permet l'étude des interactions entre les polypeptides selon l'invention et d'autres protéines ou des composés chimiques, et peut ainsi être utile pour le criblage de composés interagissant avec les polypeptides selon l'invention. On peut également utiliser les puces à protéines selon l'invention pour détecter la présence d'anticorps dirigés contre les polypetides selon l'invention dans le sérum de patients. On peut aussi mettre en œuvre une puce à protéines contenant un anticorps selon l'invention.

L'homme du métier sait également mettre en œuvre des techniques permettant l'étude de l'altération de l'expression d'un gène, par exemple par l'étude de l'ARNm (en particulier par Northern Blot ou par des expériences de RT-PCR, avec des sondes ou des amorces selon l'invention), ou de la protéine exprimée, en particulier par Western Blot, en utilisant des anticorps selon l'invention.
Le gène testé est de préférence le gène de séquence SEQ ID N° 1, la maladie inflammatoire pour laquelle on cherche à prédire la susceptibilité étant une maladie du tube digestif, en particulier la maladie de Crohn, ou la rectocolite hémorragique. Si l'on cherche à détecter un cancer, il s'agit de préférence du cancer du colon.
L'invention se rapporte également à des procédés d'obtention d'un allèle du gène IBDl, associé à un phénotype détectable, comprenant les étapes suivantes :
a) obtenir un échantillon d'acide nucléique d'un individu exprimant ledit phénotype détectable ;
b) mettre en contact ledit échantillon d'acide nucléique avec un agent capable de détecter spécifiquement un acide nucléique codant pour la protéine IBDl ;
c) isoler ledit acide nucléique codant pour la protéine IBDl .
Un tel procédé peut être suivi d'une étape de séquence de tout ou partie de l'acide nucléique codant pour la protéine IBDl, ce qui permet de prédire la susceptibilité à une maladie inflammatoire ou d'un cancer.
L'agent capable de détecter spécifiquement un acide nucléique codant pour la protéine IBDl est avantageusement une sonde d' oligonucléotides selon l'invention, qui peut être formée d'ADN, d'ARN, de PNA, modifiés ou non. Les modifications peuvent inclure un marquage radioactif ou fluorescent, ou être dues à des modifications dans les liaisons entre les bases (phosphorothioates, ou méthylphosphonates par exemple). L'homme du métier connaît les protocoles permettant d'isoler une séquence spécifique d'ADN. L'étape b) du procédé ci-dessus décrit peut également être une étape d'amplification telle que décrite précédemment.
L'invention se rapporte également à un procédé de détection et/ou de dosage d'un acide nucléique selon l'invention dans un échantillon biologique, comprenant les étapes suivantes de mise en contact d'une sonde selon l'invention avec un échantillon biologique et de détection et/ou dosage de l'hybride formé entre ledit polynucléotide et l'acide nucléique de l'échantillon biologique.
L'homme du métier sait mettre en œuvre un tel procédé, et peut en particulier utiliser une trousse de réactifs comprenant :
a) un polynucléotide selon l'invention, utilisé en tant que sonde ;
b) les réactifs nécessaires à la mise en œuvre d'une réaction d'hybridation entre ladite sonde et l'acide nucléique de l'échantillon biologique ;
c) les réactifs nécessaires à la détection et/ou le dosage de l'hybride formé entre ladite sonde et l'acide nucléique de l'échantillon biologique ;
qui est également un objet de l'invention.
Une telle trousse peut également contenir des contrôles positifs ou négatifs afin d'assurer la qualité des résultats obtenus.
Toutefois, afin de détecter et/ou doser un acide nucléique selon l'invention, l'homme du métier peut également effectuer une étape d'amplification à l'aide d'amorces choisies parmi les séquences selon l'invention.
Enfin, l'invention concerne également les composés choisis parmi un acide nucléique, un polypeptide, un vecteur, une cellule, ou un anticorps selon l'invention, ou les composés obtenus par les procédés de criblage selon l'invention, à titre de médicament, en particulier pour la prévention et/ou le traitement d'une maladie inflammatoire et/ou immune ou d'un cancer, associé à la présence d'au moins une mutation du gène correspondant à SEQ ID N° 1 ou SEQ ID N° 4, de préférence une maladie inflammatoire du tube digestif, en particulier la maladie de Crohn ou la rectocolite hémorragique.
Les exemples qui suivent permettent de mieux comprendre les avantages de l'invention et ne doivent pas être considérés comme limitant la portée de l'invention.
DESCRIPTION DES FIGURES
Figure 1 : tests de liaison génétique non paramétrique pour la maladie de Crohn dans la région péricentromérique du chromosome 16 (d'après Hugot et al., 1996). Analyse de liaison multipoint basé sur l'identité par descendance pour les marqueurs de la région péricentromérique du chromosome 16. Les distances génétiques entre marqueurs ont été estimées grâce au programme CRJMAP. Le lod score (MAPMAKER SIBS) est indiqué sur la figure de gauche. Deux tests de pseudo vraisemblance ont été développés et rapportés sur la figure de droite. Le premier (Tz) est analogue au test des moyennes. Le deuxième (Tz2) est analogue au test de la proportion des paires d'affectés partageant deux allèles.
Figure 2 : analyse de liaison génétique multipoint non paramétrique. 78 familles avec plusieurs apparentés atteints de Maladie de Crohn ont été génotypées pour 26 marqueurs de polymorphisme dans la région péricentromérique du chromosome 16. La localisation de chaque marqueur est symbolisée par une flèche. L'ordre des marqueurs et la distance les séparant dérive de l'analyse des données expérimentales avec le logiciel Crimap. Les flèches sous la courbe indiquent les marqueurs SPN, D16S409 et D16S411 utilisés dans la première étude publiée (Hugot et al., 1996).Les flèches situées en haut de la figure correspondent aux marqueurs D16S3136, D16S541, D16S3117, D16S416 et D16S770 localisés au maximum du test de liaison génétique. Les données de typage ont été analysées à l'aide du programme d'analyse multipoint non paramétrique du logiciel Genehunter version 1.3. Le maximum du NPL Score est de 3,33 (p=0,0004).
Figure 3 : représentation schématique de la protéine codée par IBDl. La protéine codée par IBDl est représentée horizontalement. Les différents domaines qui la composent sont indiqués sur la figure avec le numéro de référence des acides aminés correspondant au début et à la fin de chaque domaine. La protéine est constituée d'un domaine CARD, d'un domaine liant les nucléotides (NBD) et de motifs riches en leucines (LRR).
Figure 4 : représentation schématique de la protéine IBD1/NOD2 dans trois variants associés à MC.
A : Le produit de traduction déduit de la séquence d'ADNc du gène candidat IBDl est identique à celui de NOD2 (Ogura et al., 2000). Le polypeptide contient 2 domaines CARD (CAspase Recruitment Domains), un domaine de liaison aux nucléotides (NBD) et 10 répétitions de 27 acides aminés, des motifs riches en leucine (LRR). La séquence consensus du site du motif A (boucle P) liant l'ATP/GTP du NBD est indiquée par un cercle noir. Les changements de séquences codés par les trois principaux variants associés à MC sont SNP 8 (R675W), SNP 12 (G881R) et SNP 13 (déplacement de cadre 980). Le déplacement de cadre change un codon leucine en un codon praline à la position 980 qui est immédiatement suivi par un codon stop.
B : Variants faux sens rares de NOD2 chez 457 patients MC, 159 patients RCH et 103 individus non apparentés, non atteints. Les positions des variants faux sens rares sont indiquées pour les trois groupes. L'échelle à gauche indique le nombre de chaque variant identifié dans les groupes faisant l'objet de recherche et celle à droite mesure la fréquence de la mutation. Les fréquences allèliques du polymorphisme V928I n'étaient pas signifïcativement différentes( 0,92 : 0,08) dans les trois groupes et les génotypes correspondants étaient en équilibre Hardy-Weinberg.

EXEMPLES
Exemple 1 : localisation fine de IBDl
La première étape vers l'identification du gène IBDl a été de réduire la taille de la région génétique d'intérêt, initialement centrée sur le marqueur D16S411 situé entre D16S409 et D16S419 (Hugot et al., 1996 et fig. 1). Un groupe de marqueurs proches (carte génétique à haute résolution) a été utilisé pour mieux préciser la région génétique et a permis de compléter les analyses de liaison génétique et de rechercher un déséquilibre de liaison génétique avec la maladie.
L'étude a porté sur 78 familles comportant au moins 2 apparentés atteints de

MC, qui correspondaient à 119 paires d'affectés. Les familles comportant des malades atteints de RCH ont été exclues de l'étude.
Vingt-six marqueurs génétiques de polymorphisme de type microsatellites ont été étudiés. Ces marqueurs formaient ensemble une carte à haute résolution avec une distance moyenne entre marqueurs de l'ordre de IcM dans la région génétique d'intérêt. Les caractéristiques des marqueurs étudiés sont rapportés sur le tableau 1.

Tableau 1. Marqueurs polymorphes de type microsatellite utilisés pour la localisation fine de IBDl


Chaque marqueur est répertorié selon la nomenclature internationale et le plus souvent par le nom proposé par le laboratoire d'origine. Les marqueurs apparaissent selon leur ordre sur le chromosome (de 16p vers 16q). La distance génétique entre les marqueurs (en centiMorgan Kosambi, calculée par le programme Crimap à partir des données expérimentales) est indiquée dans la deuxième colonne. Le premier marqueur polymorphe est pris arbitrairement comme point de référence. Les oligonucléotides ayant servi à la réaction de polymérisation en chaîne (PCR) sont indiqués dans la troisième colonne.
Le génotypage de ces marqueurs microsatellites a reposé sur la technologie des séquenceurs automatiques utilisant des amorces fluorescentes. Brièvement, après amplification, les produits de réaction de polymérisation en chaîne (PCR) fluorescents ont été déposés sur un gel de polyacrylamide sur séquenceur automatique selon les recommandations du constructeur (Perkin Elmer). La taille des allèles pour chaque sujet a été déduite grâce au logiciels GenescanR et GenotyperR. Les données ont ensuite été conservées sur une base informatique intégrée contenant les données généalogiques, phénotypiques et génétiques. Elles ont alors été utilisées pour les analyses de liaison génétique.
Plusieurs contrôles qualité ont été réalisés tout au long de la procédure de génotypage:
- double lecture indépendante des données de génotypage,
- utilisation d'un ADN standard servant de contrôle interne pour chaque migration électrophorétique,
contrôle de la gamme de taille de chaque aîlèle observé,
recherche d'erreurs de transmission mendélienne ,
- calcul de la distance génétique entre marqueurs (programme CRIMAP) et comparaison de celle-ci avec les données de la littérature,
- nouveau typage des marqueurs pour lesquels il était observé une recombinaison entre marqueurs proches.
Les données de génotypage ont été analysées par des méthodes de liaison génétique multipoint non paramétrique (Programme GENEHUNTER version 1.3).

L'informativité du système de marqueurs était supérieure à 80% pour la région étudiée. Le maximum du test (NPL= 3,33; P = 0,0004) a été obtenu pour les marqueurs D16S541, D16S3117, D16S770 et D16S416 (figure 2).

Les données de typage pour ces 26 marqueurs de polymorphisme ont aussi été analysées à la recherche d'un déséquilibre de transmission. Deux groupes de 108 et 76 familles avec un ou plusieurs malades atteints de MC ont été étudiés. Le test statistique de déséquilibre de transmission a été décrit par Spielman et al. (1993). Il n'a été pris en compte dans ce travail qu'un seul malade par famille et la valeur de p a été corrigée par le nombre d'allèles testés pour chaque marqueur étudié.
Un déséquilibre de transmission a été observé pour les allèles 4 et 5 (taille 205, resp. 207 paires de bases) du marqueur D16S3136 (p=0,05, resp. p=0,01).
Ces résultats suggestifs d'une association entre le marqueur D16S3136 et la MC ont conduit à construire une cartographie physique de la région génétique centrée sur D16S3136 et à établir la séquence d'un segment d'ADN génomique de grande taille (BAC) contenant ce site polymorphe. Il a alors été possible d'identifier et d'analyser un plus grand nombre de marqueurs de polymorphisme dans le voisinage de D16S3136 ainsi que de définir et d'étudier les séquences transcrites présentes dans la région.

Exemple 2 : cartographie physique de la région IBDl
Un contig de fragments d'ADN génomique, centré sur les marqueurs D16S3136, D16S3117, D16S770 et D16S416, a été généré à partir des banques d'ADN génomique humain de la fondation Jean Dausset/CEPH. Les segments d'ADN chromosomique ont été identifiés à partir de certains marqueurs de polymorphisme utilisés dans la cartographie génétique fine (D16S411, D16S416, D16S541, D16S770, D16S2623, D16S3035, D16S3117 et D16S3136). Pour chaque marqueur, une banque de chromosomes artificiels de bactéries (BAC) a été criblée par PCR à la recherche de clones contenant la séquence du marqueur. Selon que les séquences testées étaient ou non présentes sur les clones de BAC il a été alors possible d'organiser les clones entre eux à. l'aide du logiciel Segmap version 3.35.
On a pu établir, pour les BACs, une organisation continue (contig) couvrant la région génétique d'intérêt, selon une méthode connue de l'homme du métier (Rouquier et al, 1994 ; Kim et al, 1996 ; Asakawa et al, 1997). Pour ce faire, les extrémités des BACs identifiés ont été séquencées et ces nouvelles données de séquence ont alors servi à cribler itérativement les banques de BACs. A chaque criblage, le contig de BAC a alors progressé d'un pas jusqu'à l'obtention d'un continuum de clones chevauchants. La taille de chaque BAC participant au contig a été déduite de son profil de migration sur gel d'agarose en champ puisé.
On a ainsi construit un contig de BAC contenant 101 BACs et s' étendant sur une distance globale de plus de 2,5 Mb avec une redondance moyenne de 5,5 BAC à chaque point du contig. La taille moyenne des BAC est de 136kb.

Exemple 3 : sequençage du BAC hb87b!0
Le BAC de ce contig contenant le marqueur de polymorphisme D16S3136 (appelé hb87bl0), dont la taille était de 163761 bp a été séquence selon la méthode dite du "coup de fusil". En bref, l'ADN du BAC a été fragmenté par sonication. Les fragments d'ADN ainsi générés ont été soumis à une électrophorèse en gel d'agarose et ceux dont la taille était supérieure à 1,5 kb ont été élus pour être analysés. Ces fragments ont ensuite été clones dans le phage ml3 lui même introduit dans des bactéries rendues compétentes par électroporation. Après culture, l'ADN des clones a été récupéré et séquence par des méthodes de sequençage automatique à l'aide d'amorces fluorescentes du vecteur ml 3 sur séquenceur automatique.
1526 séquences différentes d'une taille moyenne de 600 bp ont été générées, qui ont été organisées entre elles grâce au logiciel PolyphredphrapR aboutissant à un contig de séquence couvrant l'ensemble du BAC. La séquence ainsi générée avait une redondance moyenne de 5,5 équivalents génomiques. Les rares (n=5) intervalles de séquence non représentés dans la banque de clones ml 3 ont été comblés en générant des amorces de PCR spécifiques, de part et d'autre de ces intervalles, et en analysant le produit de PCR dérivé de l'ADN génomique d'un sujet sain.
Des homologies de séquence avec des séquences disponibles dans les bases de données génétiques publiques (Genbank) ont été recherchées. Aucun gène connu n'a pu être identifié dans cet intervalle de 163 kb. Plusieurs EST ont été positionnés suggérant que des gènes inconnus étaient contenus dans cette séquence. Ces EST issus des bases de données génétiques publiques (Genbank, GDB, Unigene, dbEST) portaient les références suivantes : Ail 67910, AI011720, Rn24957, Mm30219, hsl32289, AA236306, hs87296, AA055131, hsl51708, AA417809, AA417810, hs61309, hsl 16424, HUMGS01037, AA835524, hsl05242, SHGC17274, hsl46128, hsl22983, hs87280 et hsl35201. La recherche d'exons putatifs à l'aide du programme informatique GRAIL a permis d'identifier plusieurs exons potentiels, sites de polyadénylation et séquences promotrices.

Exemple 4 : études de déséquilibre de transmission
12 marqueurs de polymorphisme bialléliques (SNP) ont été identifiés dans une région s'étendant sur environ 250 kb et centrée sur le BAC hb87bl0. Ces polymorphismes ont été générés par analyse de la séquence d'une dizaine de malades indépendants atteints de MC. Le sequençage a été le plus souvent réalisé au niveau d'EST connus et positionnés sur le BAC ou à son voisinage. Des exons putatifs, prédits par le programme informatique GRAIL ont aussi été analysés. Les caractéristiques des marqueurs polymorphes ainsi identifiés sont rapportées sur le tableau 2.

Tableau 2. Caractéristiques de marqueurs de polymorphisme bialléliques étudiés dans la région de IBDl



PCR-AS : PCR-allèle spécifique ; LO : Ligature d' oligonucléotides
Les 12 marqueurs de polymorphisme bialléliques nouvellement décrits dans ce travail sont répertoriés dans ce tableau. Pour chacun d'eux sont indiqués :
- le locus (colonne I)
le nom (colonne II)
la technique de génotypage utilisée (colonne III)
- l'enzyme de restriction éventuellement utilisée (colonne IV)
- les amorces oligonucléotidiques utilisées pour la réaction de polymérisation en chaîne ou pour la ligature (colonne V)
- la taille des produits attendus lors du typage (colonne VI)
199 familles comportant 1 ou plusieurs malades atteints de MC ont été typées pour ces 12 marqueurs de polymorphisme ainsi que pour les marqueurs D16S3035 et D16S3136 localisés sur le BAC hb87bl0. Les familles comportant des malades atteints de RCH n'ont pas été prises en compte. Les méthodes de typage des polymorphismes étudiés ont été variables en fonction du type de polymorphisme faisant appel à :
- la technique de PCR-RFLP (amplification suivie de digestion enzymatique du produit de PCR) quand le polymorphisme était situé sur un site de restriction enzymatique.
- PCR avec amorces spécifiques du site polymorphe : amplification différentielle des deux allèles en utilisant des amorces spécifiques de chaque allèle.

Test de ligation d'oligonucléotides : ligation différentielle utilisant des oligonucléotides spécifiques de chaque allèle, suivie d'électrophorèse en gel de polyacrylamide.
Les données de typage ont ensuite été analysées selon un test de déséquilibre de transmission (programme informatique TDT du logiciel GENEHUNTER version

2). Pour les familles comportant plusieurs apparentés atteints, un seul malade a été pris en compte pour l'analyse. En effet, la prise en compte de plusieurs malades apparentés pose le problème de non indépendance des données dans les calculs statistiques et peut induire une inflation de la valeur du test. Le malade servant à l'analyse a été tiré au sort au sein de chaque famille par une procédure automatique de randomisation. Compte tenu de cette randomisation, la valeur du test statistique obtenu ne représentait qu'un seul échantillon possible issu du groupe de familles étudiées. Afin de ne pas limiter l'analyse à ce seul échantillon possible et pour mieux appréhender la robustesse des résultats obtenus, pour chaque test, une centaine d'échantillons aléatoires ont ainsi été générés et analysés.
Les marqueurs ont été étudiés séparément puis groupés selon leur ordre sur le segment chromosomique (KIAÀ0849ex9 (locus 1), hb27GHF (locus 2),

Ctg22Exl (locus 3), SNP1 (locus 4), ctg2931-3ac/ola (locus 5), ctg2931-5ag/oia

(locus 6), SNP3-2931 (locus 7), Ctg25Exl (locus 8), CTG35ExA (locus 9), ctg35ExC (locus 10), dl6s3136 (locus 11), hbl33Dlf (locus 12), D16S3035 (locus

13), ADCY7int7 (locus 14)) (tableau 2). Les haplotypes comportant 2, 3 et 4 marqueurs consécutifs ont ainsi été analysés en utilisant toujours la même stratégie

(100 échantillons aléatoires en prenant pour chaque famille un seul individu atteint).

Pour chaque échantillon testé, il n'a été pris en compte que les génotypes (ou haplotypes) portés par au moins 10 chromosomes parentaux. En moyenne 250 tests différents ont ainsi été réalisés pour chaque échantillon. Il a alors été possible de déduire le nombre de tests attendus positifs pour chaque seuil de signification et de comparer cette distribution à la distribution observée. Pour les sujets sains, la distribution des tests n'est pas différente de celle attendue selon le hasard (χ2 = 2,85, ddl=4, p=0,58). Pour les sujets malades, au contraire, il existe un excès de tests positifs témoignant de l'existence d'un déséquilibre de transmission dans la région étudiée.

Les résultats des tests de déséquilibre de transmission pour chaque marqueur de polymorphisme pris isolément et pour les haplotypes montrant les plus forts déséquilibres de transmission ont montré que les marqueurs suivants sont en déséquilibre de liaison avec la maladie: Ctg22Exl (locus 3), SNP1 (locus 4), ctg2931-5ag/ola (locus 6), SNP3-2931 (locus 7), Ctg25Exl (locus 8) et ctg35ExC (locus 10). Ces marqueurs s'étendent sur une région d'environ 50kb (positions 74736 à 124285 sur la séquence de hb87bl0).
Les haplotypes les plus fortement associés avec la maladie de Crohn s'étendent eux aussi sur cette région. Ainsi, pour la majorité des échantillons aléatoires, le test de transmission était positif (p < 0,01) pour des haplotypes combinant les marqueurs suivants :
- locus 5-6, locus 6-7, locus 7-8, locus 8-9, locus 9-10, Iocusl0-11
- locus 5-6-7, locus 6-7-8, locus 7-8-9, locus 8-9-10, locus 9-10-11
- locus 5-6-7-8; locus 6-7-8-9, locus 7-8-9-10,
L'haplotype de susceptibilité le plus à risque est défini par les locus 7 à 10. Il s'agit de l'haplotype 1-2-1-2 (tableau 2).
Les marqueurs testés sont, comme attendu, le plus souvent en déséquilibre de liaison entre eux.
Plus récemment, un nouveau test, le Pedigree Disequilibrium Test (PDT), publié en juillet 2000 (Martin et al, 2000) a été utilisé pour mieux appréhender la signification des résultats obtenus avec le programme informatique TDT. Cette nouvelle statistique permet en effet d'utiliser l'ensemble de l'information disponible dans une famille, tant à partir des sujets malades qu'à partir des sujets sains et de pondérer l'importance de chaque apparenté en une statistique globale pour chaque famille. Les valeurs de p correspondant aux tests PDT et obtenues pour un groupe élargi de 235 familles avec un ou plusieurs apparentés atteints de la maladie de Crohn sont rapportées dans le Tableau 3. Cette nouvelle analyse confirme que la région du BAC hb87bl0 est bien associée avec la maladie de Crohn.

Tableau 3. Résultat des tests PDT réalisés sur 235 familles atteintes de la maladie de Crohn (NS : non significatif)


Exemple 5 : Identification du gène IBDl
Les groupements d'EST (références Unigene : Hs 135201, Hs87280,

Hsl22983, Hsl46128, Hsl05242, Hsl 16424, Hs61309, Hsl51708, Hs 87296 et Hsl32289) publiés et présents sur le BAC hb87bl0 ont été étudiés à la recherche d'une séquence d'ADN complémentaire (ADNc) plus complète. Pour IBDlprox, les clones disponibles dans les banques publiques ont été séquences et les séquences organisées entre elles. Pour IBDl, une banque d'ADN complémentaire de sang périphérique (Stratagene human blood cDNA lambda zapexpress ref 938202) a été criblée par les produits de PCR générés à partir des EST connus selon les modalités proposées par le fabriquant. La séquence des ADNc ainsi identifiés a ensuite servi à un nouveau criblage de la banque d'ADNc et ainsi de suite jusqu'à l'obtention de l 'ADNc présenté.
L'EST hsl 35201 (UniGene) a permis d'identifier un ADNc ne figurant pas sur les bases de données génétiques disponibles (Genbank) Il correspond donc à un nouveau gène humain. La comparaison de la séquence du cDNA et de l'ADN génomique a montré que ce gène est constitué de 11 exons et 10 introns. Un exon supplémentaire, en position 5' par rapport au cDNA identifié est prédit par l'analyse de la séquence avec le logiciel Grail. Ces exons sont très homologues avec les premiers exons du gène CARD4/NOD1. Considérant l'ensemble des exons identifiées et l'exon putatif supplémentaire, ce nouveau gène apparaît avoir une structure génomique très proche de celle de CARD4/NOD1. Par ailleurs, en amont du premier exon putatif figure un site d'initiation de la transcription. Pour l'ensemble de ces raisons, l'exon putatif a été considéré comme participant à ce nouveau gène. L'ADNc reporté en annexe (SEQ ID N° 1) comporte donc l'ensemble de la séquence identifiée plus la séquence prédite par la modélisation informatique, TAON complémentaire débutant arbitrairement au premier codon ATG de la séquence codante prédite. Sur cette base, le gène comporterait donc 12 exons et 11 introns. La structure intron-exon du gène est rapportée sur la SEQ ID N° 3.
La séquence protéique déduite de la séquence nucléotidique, comporte 1041 acides aminés (SEQ ID N° 2). Cette séquence n'a pas non plus été retrouvée sur les bases de données biologiques (Genpept, pir, swissprot).
Or, plus récemment, l'exon putatif ci-dessus décrit n'a pas pu être confirmé. Le gène IBDl ne comporte donc effectivement que 11 exons et 10 introns et code pour une protéine de 1013 acides aminés (c'est-à-dire 28 acides aminés de moins que déterminé initialement).
L'étude de la séquence protéique déduite montre que ce gène contient trois domaines fonctionnels différents (figure 3) :
- Un domaine CARD (Caspase Recruitment Domain) connu pour être impliqué dans l'interaction entre protéines régulatrices de l'apoptose et de l'activation de la voie NFkappa B. Le domaine CARD permet de classer cette nouvelle protéine dans la famille des protéines CARD dont les membres les plus anciens sont CED 4, APAFl et RICK.
- Un domaine NBD (Nucléotide Binding Domaine) comportant un site de reconnaissance de l'ATP et un site de liaison du Magnésium. La protéine doit donc avoir une activité kinase très probable.
- Un domaine LRR (Leucine Rich Domain) supposé participer à l'interaction entre protéines par analogie avec d'autres domaines protéiques décrits .

Par ailleurs, le domaine LRR de la protéine permet d'affilier la protéine à une famille de protéines impliquées dans la signalisation intracellulaire et présentes tant chez les plantes que chez les animaux.
La comparaison de ce nouveau gène avec les gènes précédemment identifiés et disponibles dans les bases de données publiques montre que celui-ci est très homologue avec CARD4/NOD1 (Bertin et al, 1999 ; Inohara et al, 1999). Cette homologie porte sur la séquence de l'ADN complémentaire, la structure intron-exon du gène et la séquence protéique. L'identité de séquence des 2 ADN complémentaires est de 58%. Une similitude est également observée au niveau de la structure introns-exons. L'homologie de séquence au niveau protéique est de l'ordre de 40%.
La similitude entre ce nouveau gène et CARD4/NOD1 suggère que, comme CARD4/NOD1, la protéine IBDl est impliquée dans la régulation de l'apoptose et de l'activation de NF-kappa B (Bertin et al, 1999 ; Inohara et al, 1999). La régulation de l'apoptose cellulaire et l'activation de NF-kappa B sont des voies de signalisation intracellulaire essentielles dans les réactions immunitaires. En effet, ces voies de transduction du signal sont les voies effectrices des protéines de la famille du récepteur du TNF (Tumor Necrosis Factor) impliquées dans les interactions cellule-cellule et la réponse cellulaire aux différents médiateurs de l'inflammation (cytokines). Le nouveau gène apparaît donc comme potentiellement important à la réaction inflammatoire, de façon générale.
Plusieurs faisceaux de preuves viennent à l'appui de la dérégulation de NF-kB induit par des bactéries dans la maladie de Crohn. Tout d'abord, la susceptibilité à IBD spontanée chez les souris a été associée à des mutations dans Tlr4, une molécule connue pour se lier aux LPS par l'intermédiaire de son domaine LRR (Poltorak et al, 1998 et Sundberg et al, 1994) et pour être un membre des activateurs de la famille de NF-kB. Deuxièmement, la thérapie antibiotique cause une amélioration provisoire chez les patients atteints de MC accréditant l'hypothèse que les bactéries entériques peuvent jouer un rôle étiologique dans la maladie de Crohn (McKay, 1999). Troisièmement, NF-kB joue un rôle pivot dans les maladies inflammatoires de l'intestin et est activé dans les cellules mononucléées de la lamina propria dans la maladie de Crohn (Schreiber et al, 1998). Quatrièmement, le traitement de la maladie de Crohn est basée sur l'utilisation de la sulfasalazine et des glucocorticoïdes, tous deux connus comme étant des inhibiteurs de NF-kB (Auphan et al, 1995 et Wahl et al, 1998)
Encore plus récemment, il a été montré que le gène candidat IBDl code pour une protéine très similaire à NOD2, un membre de la superfamille CED4/APAF1 (Ogura et al, 2000). Les séquences nucléotidiques et protéiques de IBDl et NOD2 ne divergent en réalité que pour une petite portion toute initiale des 2 séquences rapportées. Les expressions tissulaires de Nod2 et IBDl sont de plus superposables. Ces deux gènes (protéines) peuvent donc être considéré(e)s comme identiques. Il a été démontré que le domaine LRR de Nod2 a une activité de liaison pour les lipopolysaccharides bactériens (LPS) (Inohara et al, 2000) et que sa délétion stimule la voie de NFkB. Ce résultat confirme les données de l'invention.

L'expression tissulaire de IBDl a été ensuite étudiée par la technique du Northern Blot. Un transcrit de 4.5 kb est visible dans la plupart des tissus humains. La taille du transcrit est conforme avec la taille prédite par l'ADNc. Le transcrit de 4.5 kb semble en très faible abondance dans l'intestin grêle et le colon. Il est par contre très fortement exprimé dans les globules blancs. Ceci est en accord avec des données cliniques sur les transplantations qui suggèrent que la maladie de Crohn est potentiellement une maladie liée aux cellules immunitaires circulantes. En effet, la transplantation intestinale n'empêche pas la récidive sur le greffon dans la maladie de Crohn tandis que la transplantation de moelle osseuse semble avoir un effet bénéfique sur l'évolution de la maladie.
Certaines données font également penser à un épissage alternatif, qui pourrait s'avérer un élément important dans la possibilité de générer des mutants qui pourraient jouer un rôle dans le développement de maladies inflammatoires.
Le promoteur du gène IBDl n'est actuellement pas identifié avec précision.

Il est cependant raisonnable de penser, par analogie avec un très grand nombre de gènes que celui-ci réside, au moins pour partie, immédiatement en amont du gène, dans la portion 5' de celui-ci. Cette région génétique contient des séquences transcrites comme en témoigne la présence d'EST (HUMGS01037, AA835524, hs.105242, SHGC17274, hs.146128, hs.122983, hs.87280). Les clones ATCC contenant ces séquences ont été séquences et analysés dans le laboratoire, permettant de mettre en évidence une organisation en exons et en introns avec d'éventuels épissages alternatifs. Ces données suggèrent l'existence d'un autre gène (nommé IBDlprox en raison de sa proximité d'IBDl). La séquence partielle de l'ADN complémentaire de IBDlprox est rapportée (SEQ ID N° 4) de même que sa structure intron-exon sur la SEQ ID N° 6.
La traduction des ADNc correspondant à IBDlprox aboutit à une protéine contenant une homéobox. L'analyse de plusieurs ADNc du gène suggère cependant l'existence d' épissages alternatifs. IBDlprox, selon un des épissages alternatifs possibles correspond à l'EST anonyme HUMGS0Î037 dont l'ARN est exprimé de manière plus importante dans les lignées leucocytaires différenciées que dans les lignées non différenciées.
Ainsi, il est possible que ce gène puisse avoir un rôle dans l'inflammation et la différentiation cellulaire. Il peut donc lui aussi être considéré comme un bon candidat pour la susceptibilité aux MICI. L'association entre MC et le polymorphisme ctg35 ExC localisé sur la séquence codante de IBDlprox renforce cette hypothèse même si ce polymorphisme n'entraîne pas de variation de séquence au niveau protéique.
Enfin, plus récemment, l'existence d'une liaison génétique dans les familles atteintes de la maladie de Crohn et ne comportant pas de mutation du gène IBDl suggère elle aussi que IBDl prox a un rôle additionnel à IBDl dans la prédisposition génétique à la maladie.
La relation fonctionnelle entre IBDl et IBDlprox n'est actuellement pas établie. Toutefois, la forte proximité entre les deux gènes pourrait refléter une interaction entre ceux-ci. Dans ce cas, la localisation « tête -bêche » de ces gènes suggère qu'ils puissent avoir des modes de régulation communs ou interdépendants.

Exemple 6 : identifications de mutations du gène IBDl dans les maladies inflammatoires
Afin de confirmer le rôle de IBDl dans les maladies inflammatoires, la séquence codante et les jonctions intron-exon du gène ont été séquencées de l'exon 2 à l'exon 12 inclus chez 70 sujets indépendants, à savoir : 50 malades atteints de MC, 10 malades atteints de RCH, 1 malade atteint de syndrome de Blau et 9 témoins sains. Les malades étudiés étaient pour la plupart des formes familiales de la maladie et étaient souvent porteurs de l'haplotype de susceptibilité défini par les études de déséquilibre de transmission. Les témoins sains étaient d'origine caucasienne.
24 variants de séquence ont ainsi pu être identifiés sur ce groupe de 70 personnes non apparentées(tableau 3).
La nomenclature des mutations rapportées fait référence à la séquence initiale de la protéine comportant 1041 acides aminés. La nomenclature plus récemment proposée est aisément déduite en retirant 28 acides aminés à la séquence initiale, et correspond donc à une protéine comprenant 1013 acides aminés (cf exemple 5).

Tableau 4. Mutations observées dans le gène IBDl



Les mutations autres que silencieuses observées dans chaque exon sont rapportées. Elles sont indiquées par la variation de la chaîne peptidique. Pour chaque mutation et pour chaque phénotype étudié, il est indiqué le nombre de fois où la mutation est observé, rapporté au nombre de chromosomes testés.
Aucun variant de séquence fonctionnel n'a été identifié dans les exons 1 à 3

(correspondants au domaine CARD de la protéine). Les exons 7 et 12 n'ont pas non plus montré de variation de séquence. Certains variants correspondaient à des polymorphismes déjà identifiés et typés pour les études de déséquilibre de transmission, à savoir :
-Snp3-2931 : variant nucléotidique T805C, variant protéique S269P
-ctg2931-5ag/ola : variant nucléotidique T1380C (silencieux)
-ctg2931-3ac/ola : variant nucléotidique T1764G (silencieux)
-SNP1 : variant nucléotidique C2107T, variant protéique R703W
Plusieurs variations de séquence étaient silencieuses (G417A, C537G, C1284A, C1287T, T1380C, T1764G, C2928T) et n'entraînaient pas de modification de la séquence protéique. Elles n'ont pas été étudiées davantage ici.
Pour les 16 variations de séquence non silencieuses, il a été observé des variants de séquence protéique chez 43/50 MC contre 5/9 témoins sains et 6/10 RCH. L'existence d'une ou plusieurs variation(s) de séquence apparaissait associée au phénotype MC. Il existait souvent plusieurs variations de séquence chez un même individu atteint de MC suggérant un effet parfois récessif du gène pour la MC. A l'inverse, aucun homozygote ou hétérozygote composite n'était observé parmi les patients atteints de RCH ou parmi les témoins sains.
Certains variants non silencieux étaient présents à la fois chez les malades atteints de RCH ou de MC et chez les sujets sains. Il s'agissait des variants S269P,

N290S, R703W et V956I situés dans les exons 2, 4 et 9. Un complément d'information semble donc nécessaire avant de retenir un éventuel rôle fonctionnel à ces variants de séquence.
V956I est une variation de séquence conservative (acides aminés aliphatiques).
Le variant de séquence S269P correspond à une variation de classe d'acide aminé (hydroxylé en immunoacide) au début du domaine liant les nucléotides. Il en déséquilibre de transmission avec la MC. Il s'agit en effet du polymorphisme Snp3 (Cf. supra).
R703W aboutit à une modification de la classe de l'acide aminé (aromatique au lieu de basique). Cette modification survient dans la région intermédiaire entre les domaines NBD et LRR, région conservée entre IBDl et CARD4/NOD1. Un rôle fonctionnel peut donc être suspecté pour ce polymorphisme. Cette variation de séquence (correspondant au site polymorphe Snpl) est plus souvent transmise au malades atteints de MC que ne le veut le hasard (Cf. supra) confirmant que ce polymorphisme est associé à la MC. Il est possible que la présence de ce mutant chez les sujets sains témoigne d'une pénétrance incomplète de la mutation comme cela est attendu pour les maladies génétiques complexes telles que les maladies inflammatoires chroniques de l'intestin.
Le variant R704C, situé immédiatement à coté de R703W a pu être identifié à la fois dans la MC et dans la RCH. Il correspond lui aussi à une variation non conservative de la protéine (acide aminé soufré au lieu de basique) sur la même région protéique, suggérant un effet fonctionnel aussi important pour R704C que pour R703W.
D'autres variations de séquence sont spécifiques de la MC de la RCH ou du syndrome de Blau.
Certaines variations de séquence sont au contraire rares, présentes chez un ou quelques malades (A613T, R704C, E844K, N853S, M864V, A919D). Il s'agit toujours de variations entraînant des modifications non conservatives de la protéine dans des domaines leucine riches, à des positions importantes au sein de ces domaines. Ces différents éléments suggèrent que ces variations ont un rôle fonctionnel
Deux variations de séquence (G909R, L1008P*) sont retrouvées chez un assez grand nombre de maladies de Crohn (respectivement 7/50 et 16/50) alors qu'elles ne sont pas détectées chez les témoins ou chez les malades atteints de RCH. La délétion/insertion d'une guanosine au niveau du codon 1008 aboutit à une transformation de la troisième leucine de l'hélice alpha du dernier LRR en proline suivie d'un codon STOP (L1008P*). Cette variation de séquence entraîne donc une modification importante de la protéine : réduction de taille de la protéine (protéine possédant un domaine LRR tronqué) et altération d'un acide aminé très conservé (Leucine). Cette modification de séquence est associée à la MC comme en témoigne une étude de déséquilibre de transmission dans 16 familles porteuses de la mutation (P=0,008).
La mutation G909R survient sur le dernier acide aminé du sixième motif LRR. Il remplace un acide aminé aliphatique en acide aminé basique. Cette variation est potentiellement importante compte tenu du caractère habituellement neutre ou polaire des acides aminés en position terminale des motifs leucine riche (tant pour IBDl que pour NOD1/CARD4) et du caractère conservé de cet acide aminé sur les protéines IBDl et NODl/CARD4.
Dans le syndrome de Blau, les malades (n=2) de la famille étudiée étaient porteurs d'une variation de séquence spécifique (L470F), localisée dans l'exon 4 et correspondant au domaine NBD de la protéine. Dans cette série, ce variant de séquence était spécifique du syndrome de Blau.
Dans la RCH, plusieurs variants de séquence non retrouvés chez les sujets sains ont aussi été identifiés. La proportion de malades porteurs d'une mutation était plus modeste que pour la MC, comme attendu compte tenu de la liaison moins fortement établie entre IBDl et RCH et du caractère supposé moins génétique de cette dernière maladie. Des variations de séquence étaient communes à la MC et à la RCH (R703W, R704C). D'autres au contraires apparaissaient spécifiques de la RCH (V794M). Cette observation permet de confirmer que MC et RCH sont des maladies partageant au moins en partie la même prédisposition génétique. Elle pose les bases d'une classification nosologique des MICI.
L'étude des variants de séquence du gène IBDl a donc permis d'identifier plusieurs variants ayant un effet fonctionnel très probable (ex : protéine tronquée) et associés à la maladie de Crohn, à la RCH et au syndrome de Blau.
Le promoteur du gène n'est actuellement pas déterminé. Selon toute vraisemblance cependant, celui-ci est probablement situé dans la région 5' en amont du gène. Selon cette hypothèse, les variants de séquence observés dans cette région peuvent avoir un effet fonctionnel. Ceci pourrait expliquer la très forte association entre MC et certains locus polymorphes tels que ctg35 ExC ou Ctg25Exl .
L'invention fournit ainsi la première description de mutations dans la famille des gènes contenant un domaine CARD chez l'homme. La fréquence de ces mutations dans des maladies inflammatoires variées montre que le gène IBDl a un rôle essentiel dans le processus inflammatoire normal et pathologique. Cette invention fournit de nouvelles voies de compréhension et de recherche dans le domaine de la physiopathologie des processus inflammatoires normaux et pathologiques. Elle permet de ce fait d'envisager le développement de nouvelles molécules pharmaceutiques régulant les voies effectrices contrôlées par IBDl et utiles dans le traitement des maladies inflammatoires et la régulation du processus inflammatoire en général.

Exemple 7 : bases d'un diagnostic biologique de susceptibilité à la maladie de Crohn
Plus récemment, 457 patients indépendants atteints de la maladie de Crohn, 159 patients indépendants atteints de rectocolite hémorragique et 103 témoins sains ont été étudiés à la recherche de mutations. Ce travail a permis de confirmer les mutations précédemment rapportées et d'identifier des mutations supplémentaires rapportées sur la figure 4. Les mutations principales ont ensuite été génotypées dans 235 familles atteintes de la maladie de Crohn. Ce travail plus récent est exposé en utilisant comme référence la séquence protéique plus courte (1013 acides aminés, voir exemple 5) mais la nomenclature antérieure des mutations est aisément déduite à partir de cette dernière en ajoutant 28 au chiffre indiquant la position des acides aminés.
Parmi les 5 mutations les plus fréquences, la mutation conservative V928I (anciennement V956I) n'est pas significativement associée à l'une ou l'autre des maladies inflammatoires de l'intestin et ne semble donc pas avoir de rôle important dans la maladie.
La mutation S241P (anciennement S269P) est en déséquilibre de liaison avec les autres mutations principales et ne semble pas jouer par elle-même un rôle important dans la susceptibilité aux maladies inflammatoires de l'intestin (données non montrées).
A l'inverse, les 3 autres mutations R675W (anciennement R703W), G881R (anciennement G909R) et 980fs (anciennement L1008P*) sont significativement associées à la maladie de Crohn mais pas à la rectocolite hémorragique (cf infra). La localisation dans le LRR ou à sa proximité immédiate des 3 mutations fréquentes plaide très fortement pour un mécanisme fonctionnel impliquant ce domaine protéique, probablement par un défaut de régulation négative de NFkB par la protéine mutée. Les autres mutations sont plus rares (figure 4). Ces mutations cumulées sont présentes chez 17% des sujets atteints de la maladie de Crohn contre respectivement 4 % et 5 % les sujets sains ou atteints de rectocolite hémorragique. Un grand nombre des mutations rares sont aussi localisées dans le LRR.
Les études intrafa iliales des trois polymorphismes les plus fréquents dans la maladie de Crohn montrent qu'ils sont tous trois associés à la maladie (tableau 5). Comme attendu, pour une mutation supposée très délétère, le polymorphisme le plus fortement associé est la mutation tronquante. Ces trois polymorphismes sont associés de manière indépendante à la maladie de Crohn puisqu'il n'a pas été possible d'identifier sur 235 familles des chromosomes porteurs de plus d'une de ces trois mutations. Le caractère indépendant de ces associations renforce considérablement l'hypothèse que le gène IBDl est bien impliqué dans la prédisposition génétique à la maladie de Crohn.

Tableau 5 : étude des 3 polymorphismes fréquents de IBDl dans 235 familles atteintes de la maladie de Crohn


Les études de cas-témoin confiment cette association (tableau 6). Ils montrent que les mutations les plus fréquentes dans la maladie de Crohn ne sont pas fréquentes dans la rectocolite hémorragique.

Tableau 6 : étude de cas-témoin des 3 polymorphismes fréquents de IBDl dans les maladies inflammatoires de l'intestin


L'étude de l'effet dose de ces mutations montre que les sujets porteurs d'une mutation à l'état homozygote ou hétérozygote composite présentent un bien plu grand risque de développer la maladie que les sujets non porteurs ou hétérozygotes pour ces mutations (tableau 7).

Tableau 7 : risque relatif et absolu de la maladie de Crohn attribuable en fonction du génotype de IBDl
Dans la population générale, un risque de la maladie de Crohn de 0,001 a été pris comme référence et les mutations ont été supposées en équilibre de Hardy- Weinberg.


Les travaux cités ci-dessus confirment les données préliminaires antérieures et apportent les bases détaillées d'un diagnostic biologique de la maladie de Crohn par l'étude des variants de IBDl . En effet, ce travail :
1) définit les mutations dont la fréquence est supérieure à 0,001 dans une population caucasienne mélangée,
2) définit la fréquence des mutations observées et permet de définir 3 mutations principales associées à la maladie de Crohn. Ainsi, il est possible, grâce à ce travail, de définir une stratégie d'étude du gène pour la recherche de variants morbides à savoir : premièrement typage des 3 mutations principales, deuxièmement recherche de mutations dans les 7 derniers exons, troisièmement recherche d'autres variants de séquence.

3) définit les modalités pratiques de recherche de ces mutations en signalant leur position et leur nature. En effet, il est ensuite aisé à l'homme du métier de mettre au point des méthodes de typage et de sequençage selon son expertise personnelle. On peut citer en particulier la possibilité de faire les génotypages des 3 mutations principales par

PCR suivie de digestion enzymatique et électrophorèse, étude des profils de migration par dHPLC, DGGE ou SSCP, oligoligation, microséquençage, etc.
4) démontre l'indépendance des mutations les plus fréquentes qui ne sont pas observées sur le même chromosome dans cette population étendue et variée. Cette information permet de classer de façon fiable les sujets en hétérozygotes composites (ayant deux mutations) comme porteur à une double dose de variations intragéniques.
5) démontre que la plus grande proportion des mutations n'entraîne qu'un effet nul ou minime sur le risque de rectocolite hémorragique. Ce résultat permet d'envisager d'aider le clinicien dans le diagnostic différentiel entre ces deux maladies. En effet, dans environ 10 % des cas, les maladies inflammatoires de l'intestin restent inclassées malgré les examens biologiques, radiologiques et endoscopiques.
6) définit un risque relatif et absolu de la maladie pour les génotypes les plus fréquents. Ce résultat pose les bases d'un diagnostic prédictif potentiellement utile dans une démarche de suivi ou d'intervention préventive dans les populations à risque, en particulier, les apparentés de malades.
7) démontre l'existence d'un effet dose pour le gène IBDl et confirme le caractère en partie récessif de la prédisposition génétique à la maladie de

Crohn. Il permet donc de poser les bases d'un conseil génétique et d'un diagnostic préclinique intrafamilial
Notons enfin qu'une mutation supplémentaire du domaine NBD a été isolée dans une deuxième famille porteuse d'un syndrome de Blau. La rareté des deux événements dans 2 familles différentes suffît à confirmer l'implication de ce gène dans le syndrome de Blau et dans les maladies granulomateuses en générale.

L'ensemble de ces données apporte un outil diagnostique directement applicable et utile au praticien dans sa pratique quotidienne.

Le gène IBDlprox, situé dans la région promotrice de IBDl, et dont la séquence partielle est dévoilée dans la présente invention, peut lui aussi avoir un rôle important dans la régulation de l'apoptose cellulaire et du processus inflammatoire, comme suggéré par son expression différentielle dans les cellules matures du système immunitaire. La forte association rapportée dans ce travail entre le marqueur de polymorphisme ctg35ExC (situé dans la région transcrite du gène) et la maladie de Crohn, plaide aussi très fortement en faveur de cette hypothèse.
Les maladies inflammatoires de l'intestin sont des maladies génétiques complexes pour lesquelles, à ce jour, aucun gène de susceptibilité n'avait été identifié avec certitude. L'invention a permis de l'identification du premier gène de susceptibilité à la maladie de Crohn, par une démarche de clonage positionnel (ou génétique reverse). Il s'agit là de la première localisation génétique obtenue par une telle approche pour une maladie génétique complexe, ce qui démontre son utilité et sa faisabilité, au moins dans certains cas dans les maladies génétiques complexes.
La présente invention concerne aussi un acide nucléique purifié ou isolé caractérisé en ce qu'il code pour un polypeptide possédant un fragment continu d'au moins 200 acides aminés d'une protéine choisie parmi SEQ ID N° 2 et SEQ ID N° 5.

Références

Auphan et al (1995) Science 270, 286-90.
Asakawa et al. (1997), Gène, 191, 69
Becker et al. (1998), Proc Nati Acad Sci USA, 95, 9979

Bertin et al (1999), J Biol Chem, 274, 12955
Buckholz, (1993), Curr. Op. Biotechnology 4, 538.
Carter, (1993) Curr. Op. Biotechnology 3, 533.
Cho et al. (1998), Proc Nati Acad Sci USA, 95, 7502.
Duck et al (1990), Biotechniques, 9, 142.
Edwards et Aruffo (1993), Curr. Op. Biotechnology, 4, 558.

Epstein (1992) Médecine/Sciences, 8, 902.
Guatelli et al. (1990), Proc. Nati. Acad. Sci. USA 87: 1874.

Hugot et al. (1996), Nature, 379, 821.
Inohara et al. (1999) J Biol Chem, 274, 14560.
Inohara et al. (2000) J. Biol. Chem.
Kievitis et al (1991), J. Viral. Methods, 35, 273.
Kim et al, (1996) Genomics, 34, 213.
Kôhler et Milstein. (1975) Nature 256, 495.
Kwoh, et al. (1989), Proc. Nati. Acad. Sci. USA, 86, 1173.

Landegren et al. (1988) Science 241, 1077.
Lander et Kruglyak (1995) Nat Genêt, 11, 241.
Luckow (1993), Curr. Op. Biotechnology 4, 564.
Martin et al (2000), Am. J. Hum. Genêt. 67 : 146-54.
Matthews et al (1988), Anal Biochem., 169, 1-25.
McKay (1999) Gastroenterol 13, 509-516.
Miele et al. (1983), J. Mol. Biol, 171, 281.
Neddleman et Wunsch (1970) J. Mol. Biol. 48 : 443
Ogura et al. (2000), J. Biol. Chem.
Olins et Lee (1993), Curr. Op. Biotechnology 4 : 520.
Perricaudet et al. (1992). La Recherche 23 : 471.
Pearson et Lipman (1988) Proc. Nati. Acad. Sci. USA 85 : 2444

Poltorak et al. (1998) Sciences 282, 2085-8.

Rioux et al. (1998) Gastroenterology, 115: 1062.
Rohlmann et al. (1996) Nature Biotech. 14 : 1562.
Rolfs, A. et al. (1991), Berlin : Springer-Verlag.
Rouquier et al (1994), Anal Biochem 217, 205.
Sambrook et al. (1989) Molecular cloning : a laboratory manual. 2nd Ed. Cold

Spring Harbor Lab., Cold Spring Harbor, New York.
Satsangi et al (1996), Nat Genêt, 14 : 199.
Schreiber et al (1998) Gut 42, 477-84.
Segev, (1992), Kessler C. Springer Verlag, Berlin, New- York, 197-205.
Smith et Waterman (1981) Ad. App. Math. 2 : 482
Stewart et Yound (1984), Solid phase peptides synthesis, Pierce Chem. Company,

Rockford, 111, 2ème éd., (1984).
Spielman et al (1993) Am J Hum Genêt, 52, 506.
Sundberg et al (-1994) Gastroenterology 107, 1726-35.
Temin, (1986) Rétrovirus vectors for gène transfer. In Kucherlapati R., éd. Gène

Transfer, New York, Plénum Press, 149-187.
Tromp et al (1996) Am JHum Genêt, 59 : 1097.
Wahl et al. (1998) B. J. Clin. Invest > 101, 1163-74.
Walker (1992), Nucleic Acids Res. 20 : 1691.