La dérive génétique

5 juil. 2001 ... 2 Des chercheurs de Rockefeller University décrivent dans B ..... Ces mixtures peuvent être soumises à n'importe quel essai biochimique. ...... pour reconnaître les gènes B-G (voir le n°62 des "Colloques de l'INRA"). ..... pour des chercheurs de Roche Vitamins d'un exercice de construction de chimères.


un extrait du document



e choses? C'est grâce à leurs structures particulières. Bien que leurs fonctions et leurs structures tridimensionnelles varient énormément, les protéines sont constituées à partir d'une même unité primaire : les acides aminés.
Les acides aminés sont des molécules portant un groupement carboxyle (COOH) un groupement amine (NH2) ainsi qu'un groupement latéral qui varie selon chaque acide aminé. En tout, le corps humain utilise vingt acides aminés pour construire les protéines dont il a besoin. Les acides aminés s'unissent entre eux selon un ordre précis pour former la structure primaire de la protéine. Pour ce faire, deux acides aminés forment une liaison peptidique par condensation en reliant le groupement carboxyle de l'un avec le groupement amine de l'autre. L'ordre d'enchaînement des acides nucléiques détermine la structure primaire des polypeptides. De plus, certains segments de cette structure primaire se replient sur eux-mêmes de manière répétitive en formant des motifs. Cette conformation que l'on appelle la structure secondaire est due à des liaisons hydrogènes situé à intervalles réguliers le long de la protéine. On retrouve deux principaux motifs : les hélices alpha (að) et les feuillets bêta (bð). Les protéines possèdent également une structure tertiaire, due aux interactions entre deux acides aminés distants, et une structure quaternaire, formée par la combinaison de plusieurs unités protéiques semblables.  HYPERLINK "http://www3.sympatico.ca/diane.demers/methadn/helice.htm"  INCLUDEPICTURE "http://www3.sympatico.ca/diane.demers/methadn/helice.jpg" \* MERGEFORMATINET  Hélice alpha  HYPERLINK "http://www3.sympatico.ca/diane.demers/methadn/feuillet.htm"  INCLUDEPICTURE "http://www3.sympatico.ca/diane.demers/methadn/feuillet.jpg" \* MERGEFORMATINET  Feuillet bêtaCe sont donc les différentes structures des protéines qui déterminent sa fonction et par conséquent son implication dans la cellule. Puisque ces structures découlent de la structure primaire, on peut se demander ce qui la détermine. Introduction aux acides nucléiques
 INCLUDEPICTURE "http://www3.sympatico.ca/diane.demers/methadn/hr.gif" \* MERGEFORMATINET 
En fait, c'est l'ADN, ou acide désoxyribonucléique, qui est responsable de la structure des protéines. Il fait partie, avec l'ARN, de la famille des acides nucléiques. L'ADN doit également transmettre le message génétique à la progéniture de l'organisme et aux générations successives de cellules qui proviennent de cette cellule souche. L'ADN est donc le support de l'hérédité et il possède toutes les informations nécessaires pour que la cellule accomplisse ses fonctions. L'ARN, quant à lui, sert d'intermédiaire entre l'ADN et la protéine. Alors que l'on retrouve l'ADN principalement sous forme bicaténaire (double brin), on observe l'ARN seulement sous forme monocaténaire (simple brin).
 HYPERLINK "http://www3.sympatico.ca/diane.demers/methadn/aformdna.htm"  INCLUDEPICTURE "http://www3.sympatico.ca/diane.demers/methadn/aformdna.jpg" \* MERGEFORMATINET  ADN forme A HYPERLINK "http://www3.sympatico.ca/diane.demers/methadn/bformdna.htm"  INCLUDEPICTURE "http://www3.sympatico.ca/diane.demers/methadn/bformdna.jpg" \* MERGEFORMATINET  ADN forme B HYPERLINK "http://www3.sympatico.ca/diane.demers/methadn/zformdna.htm"  INCLUDEPICTURE "http://www3.sympatico.ca/diane.demers/methadn/zformdna.jpg" \* MERGEFORMATINET  ADN forme ZLa structure des acides nucléiques est également constituée d'une unité principale nommée le nucléotide. Le nucléotide est lui-même constitué de trois parties: une base azotée liée à un pentose qui est lui-même lié à un groupement phosphate. On retrouve cinq bases azotées : la cytosine (C) et la guanine (G) sont reliées entre elles grâce à trois liaisons hydrogène; la thymine (T) et l'adénine (A) le sont par deux liaisons hydrogène. L'uracile (U) remplace la thymine dans l'ARN. Grâce à ce système de liaisons hydrogène, il n'y a aucun mélange et les couples A-T et G-C restent toujours complémentaires. De plus, on retrouve deux sortes de pentoses utilisées pour former les acides nucléiques: la ribose, dans l'ARN, et la désoxyribose, qui possède un oxygène en moins, dans l'ADN. L'ADN adopte la structure d'une double hélice. Cette double hélice apparaît sous trois formes. Lorsque l'humidité est faible et que la salinité est forte, l'ADN se présente sous la forme A. À l'autre extrême, lorsque l'humidité est forte et que la salinité est faible,, l'ADN adopte la forme B, qui est la plus commune. On a également trouvé une troisième forme, la forme Z, dont les hélices tournent vers la gauche, que l'on retrouve en présence de la séquence CGCGCG. Cependant, comment ce long filament de bases azotées, de pentoses et de groupement phosphate détermine-t-il la structure primaire d'une protéine? C'est en fait l'ordre d'enchaînement des bases azotées qui dictent l'ordre d'enchaînement des acides aminés. Pour ce faire, trois bases azotées sont traduites en un acide aminé selon un code précis: le code génétique. Puisque que le nombre de combinaisons possibles de bases azotées est de soixante et que le nombre d'acides aminés est de vingt, le code génétique est redondant, ce qui lui assure une plus grande stabilité face aux mutations.
NOTION DE GENE ET TRANSMISSION DE L'INFORMATION
Le premier chercheur ayant utilisé de véritables techniques génétiques fut Gregor Mendel vers1856 et le résultat est remarquable (sinon remarqué àl'époque) puisqu'il proposa une "théorie particulaire del'hérédité" pleinement confirmée par ladémonstration récente selon laquelle l'informationgénétique est codée d'une façon discontinue,en gènes, dans la molécule d'ADN. Il n'est pas question ici de retracer toute l'oeuvre de Mendel ni de consacrer une part importante de ce cours à la génétique formellemais la méthode d'analyse mendélienne est d'autant plusd'actualité que l'étude du polymorphisme de l'ADN telle qu'onla pratique maintenant fait appel aux mêmes principes. De très nombreux biologistes avant Mendel avaient observé lerésultat de croisements de plantes ou d'animaux sans en tirer le moindreenseignement. Pourquoi Mendel a-t-il compris l'essentiel du mécanismede l'hérédité en réalisant simplement des croisementsde pois et en n'observant que quelques caractères phénotypiques ?
La démarche sert de modèle de nos jours.
il a choisi, comme matériel d'étude, une espèce à cycles relativement courts, autogame (dont les fleurs s'autofécondent) mais malgré tout à fleur accessible et pollinisable manuellement.
il existait de nombreuses variétés de pois aisément discernables les unes des autres.
il s'est intéressé à des caractères qualitatifs bien tranchés : aspect lisse ou ridé du grain, couleur de la fleur, des cotylédons ... dont l'expression n'est pas soumise à l'environnement. Les caractères quantitatifs, qui peuvent varier d'une façon continue (taille de la plante, poids des grains ...) sont beaucoup plus difficiles à appréhender bien que se transmettant selon les mêmes règles que les autres.
il n'a étudié que peu de caractères à la fois (un seul au début).
il a été le premier à utiliser l'outil mathématique en biologie.
il avait un grand sens de l'analyse et de la synthèse et ne s'enlisait pas dans les détails.
1 ANALYSE MENDELIENNE DE LA TRANSMISSION D'UN CARACTERE
(MONOHYBRIDISME)
Elle va se faire par croisement de variétés ne différant que par un caractère d'où le terme de monohybridisme souvent utilisé. L'exemple le plus célèbre est celui du caractère deforme de la graine de pois, ronde chez la plupart des pois mais ridéepour plusieurs variétés établies à l'époquede Mendel. "Variété établie" veut dire ici (et ce futl'une des expériences de Mendel) que les graines produites par desplantes issues de graines rondes, par autofécondation, présentent la même caractéristique de productionde graines rondes. Il en est exactement de même pour des "lignées"à grains ridés.
C'est cette notion de continuité génétique qui permet l'obtention de ce que nous allons appeler des lignées pures.
Ayant observé et sélectionné ce caractère nettementdiscriminant, il va croiser des plantes de ces deux lignées, plantesdéfinies comme parents (P). Le résultat est l'obtention deplantes (de première génération, appelée F1)qui toutes produisent des grains ronds. L'homogénéitédes produits de première génération est remarquableet va constituer un élément important de l'analyse. Unegénération F2 obtenue par autofécondation d'individusF1 présente à nouveau les deux phénotypes : grains rondset ridés, le dénombrement fait ressortir dans cette populationde seconde génération trois quarts de grains ronds pour unquart de grains ridés : les deux caractères parentaux serépartissent (ségrégent)dans des proportions 3/4, 1/4. Mendel a pu généraliser cette observation en croisant d'autreslignées ne différant que par un caractère, 7 "traits"qualitatifs ont été suivis avec les résultats suivants:
 Lignées parentalesPhénotype
      F1Rapport phénotypique
    des plantes F2grains ronds x ridés
grains jaunes x verts
pétales pourpres x blancs
gousses pleines x plissées
fleurs axiales x terminales
tiges longues x nainesronds
jaunes
pourpres
pleines
axiales
longues2,96 ronds pour 1 ridé
3,01 jaunes/1 vert
3,15 pourpres/1 blanc
2,95 pleines/1 plissée
3,14 axiales/1 terminale
2,84 longues/1naineL'exemple de la couleur de la fleur a étéchoisi dans le cours illustré.
L'observation des produits de l'autofécondation de lagénération F2 était la suite logique du travail. Lerésultat pour le caractère "aspect du grain", a étéle suivant : les plantes issues des pois à phénotype grainridé reproduisent invariablement le même phénotype. Ilen va autrement des pois de phénotype grain rond, bien que certainsreproduisent invariablement le caractère grain rond, d'autres produisentun mélange des deux phénotypes dans des proportions de 3/4de ronds pour 1/4 de ridés. Le côté pratique des expériences, regroupées dansla figure 1.1 sont à la portée de tout le monde, encore fallait-illes interpréter.
Il faut procéder méthodiquement en tirant parti de l'aspect qualitatif puis quantitatif des résultats.
Sur le plan qualitatif, il est clair qu'uneinformation est transmise et non un caractère: aucune plante ne présente le caractère ridé en F1cependant il réapparait en F2. Il faut bien admettre que ces informationssont conservées intactes (pures) à travers lesgénérations. Toute plante possède en fait deux informationspour un même caractère (deux formes alléliques), l'uned'entre elles (ridé pour la forme du grain ou blanc pour la couleurde la fleur...) n'étant pas exprimée en F1, on dira quel'allèle (rond ou pourpre) est dominantsur l'autre. L'allèle masqué en F1 est appelérécessif. Mendel a perçu ladiploïdie de la cellule somatique et l'asymbolisé par des lettres :
R (majuscule) va représenter l'allèle rond dominant, r (minuscule),l'allèle ridé, récessif.
L'information (double) pour une plante de lignée pure de phénotypegrain rond sera écrite R/R c'est ce qui représente le"génotype" de la plante pour lecaractère forme du grain. De la même façon, le génotypede la lignée récessive pour ce même caractèresera écrit r/r . Mendel a également compris qu'au cours de la formation des gamètesil y a disjonction de ces deux informations,ce que l'on connaît actuellement de la méiose et de laséparation des chromosomes homologues (porteurs d'élémentsd'information homologues), apporte un support à l'hypothèsede Mendel. Il est clair qu'une recombinaison va avoir lieu au moment de lafécondation, les combinaisons parentales d'information sont : R avec R pour l'un avec production de gamètes R et r avec r pour l'autreet production de gamètes r, l'information d'un individu issu de cecroisement regroupera R et r et le génotype s'écrira R/r. Cecireprésente une combinaison nouvelle par rapport à R/R ou r/ret constitue une première prise de contact avec la notion fondamentaleen génétique de recombinaison("Re - combinaison").
Un pas considérable sera franchi (bien après Mendel) lorsquel'on découvrira que derrière ces majuscules et minuscules (Ret r par exemple), qui symbolisent des formes alléliques d'un mêmegène, se cachent des séquences d'ADN, presque semblables, mais pas tout à fait, situées au même endroit (au même locus), dans deux chromosomeshomologuesDe la même façon, les réponses à la question de l'expression du matériel génétique vont éclairer des notions restées longtemps abstraites telle que la dominance parexemple. Sans attendre le détail des chapitres relatifs à l'expression des gènes, il est bon d'avoir présent à l'esprit, d'une façon réflexe, quel'expression d'un gène passe par la réalisation d'une protéine spécifique, le gène,en tant qu'unité d'information "code" une protéine.On peut en rester là : un caractère phénotypique peuttrès bien être une protéine de structure. Il peutégalement s'agir d'une protéine enzymatique et un exemple très simple de la réalisation du caractèrephénotypique "fleur pourpre" étudié par Mendel, pourraitêtre le suivant :
              INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap1/mendel2.gif" \* MERGEFORMATINET 
L'enzyme Enz représente le produit direct d'un gène.
En reprenant la symbolique déjà utilisée, si E représente l'information pour Enz :
E/E représente un génotype homozygote avec, sur chaque chromosome homologue une information permettant la synthèse de l'enzyme fonctionnelle et donc la possibilité de transformer le substrat incolore en pigment.e/e représente un génotype, homozygote également mais,pour chaque chromosome homologue, le locus est occupé par une information erronée ne permettant pas la synthèse d'une enzyme fonctionnelle, en conséquence, le substrat ne sera pas métabolisé et la fleur apparaître blanche (absence de pigment).L'hétérozygote E/e possèdeà la fois une information normale et une information erronée,l'information correcte permet la réalisation d'une enzyme fonctionnelleet la synthèse du pigment car elle"complémente" l'information incorrectece qui se traduit par : l'allèle E est dominant sur l'allèlee (récessif) car chez un hétérozygote E/e c'est lephénotype pigmenté qui se manifeste.
Cette incursion dans le domaine de l'expression de l'informationgénétique va nous permettre d'aborder, à l'aide d'unseul exemple, deux notions importantes (par leurs conséquences), lacodominance et le pluriallélisme.
2 CODOMINANCE ET PLURIALLELISME
Prenons un exemple en génétique humaine. Les groupes sanguins sont définis par la présence d'antigènes spécifiques à la surface des hématies. Dans le système ABO, nous allons nous intéresser aux antigènes "A" et "B". La production de ces molécules dépend d'informations génétiques situées à un locus précis d'un chromosome (I). Ce locus peut porter le code de l'enzyme responsable de la synthèse de l'antigène A et serasymbolisé par IA, l'individu de génotype IA/IA (homozygote) va donc synthétiser des antigènes de type A, l'individu IB/IB portel'information pour des antigènes de type B et va les produire. Unhétérozygote IA /IB possède deux informations différentes correspondant à deux allèles différents pour un même locus, le phénotype de cet individu est AB, les deux informations sont exprimées (les deux antigènesA et B sont présents), on dit qu'il y a codominance. Dans une cellule diploïde, il est évident que deux allèles seulement peuvent coexister car il n'existe que deux chromosomes homologues,ceci ne veut pas dire qu'il n'existe que deux allèles possibles capablesd'occuper ce locus, on verra que théoriquement il peut en apparaître une infinité. Dans le cas des groupes sanguins, il existe un allèle qui ne spécifie aucune enzyme capable de produire un antigène (la fonction est perdue, allèle nul), on symbolise cet allèle par i . En conséquence, un individu IA /i portera une information "antigène A" sur un chromosome et une information "aucun antigène" sur le chromosomehomologue (le fait qu'une mutation conduise à un allèle "nul"sera expliqué au chapitre V) , pour l'instant, ceci nous permet decomprendre que l'individu sera du groupe A (on dira que IA est dominant) de la même façon que l'individu de génotype IB/i serade groupe B, seul un homozygote récessif i/i sera de groupe 0 (avant l'informatique on ne distinguait pas la lettre O du zéro).
La suite du travail de Mendel, l'analyse d'autres variants, a permis d'aboutirà une notion de gènes en tant qu'unités d'informationsdiscontinues et indépendantes. Il s'agit essentiellement de l'étude de variants se distinguant par deux, trois ou plusieurs caractère(cas de di, tri, et polyhybridisme).
3 DIHIBRYDISME
Comme on l'a vu, Mendel a montré expérimentalement que lesmêmes règles régissent la transmission de 7 caractères phénotypiques chez le pois. Or, s'il envisage des variétés différant par deux de ces caractères, par exemple une àgrains ronds de couleur jaune et l'autre avec des grains ridés etverts, le croisement de ces lignées parentales donne une F1 homogèneavec des grains ronds et jaunes (ceci confirme la dominance de ces caractères), et une F2 dont les phénotypes sont les suivants:
rond - jaune : 9/16ème de la population
ridé - vert : 1/16ème
rond - vert : 3/16ème
ridé - jaune : 3/16ème
Pour les deux caractères pris séparément, les proportionsde phénotypes sont 12/16ème et 4/16ème soit les classiques3/4 et 1/4, les gènes se comportent donc d'une façonindépendante, les unités d'information pour différentscaractères sont séparées les unes des autres : on diraqu'il y a ségrégation indépendante de ces unités à la méioseet recombinaison à la fécondation comme le fait apparaîtrel'analyse des génotypes :
rond      jaune                                             ridé      verttypes parentaux :
F1 :
autofécondation
ségrégation indépendante avec production de gamètes R/R        J/J                    x                            r/r        j/j
R/r , J/j (rond, jaune)
R/r         J/j                     x                          R/r        J/j
R,J et r,j de types parentaux R,j et r,J types recombinés         Figure 1.2
La rencontre au hasard de ces gamètes et le phénomènede dominance produira une population F2 telle que l'a observée Mendel.
4 GENES ET CHROMOSOMES
Il faudra attendre la reprise des travaux de Mendel par le groupe de Morgan, au début du siècle, travaillant sur un autre modèle,la drosophile, pour :
confirmer les déductions de Mendel quant à la notion de gène et au mode général de transmission de ces éléments d'information
interpréter (sinon découvrir) une exception de taille : les gènes ne se transmettent pas toujours indépendamment les uns des autres.
La prédiction des génotypes dansla figure 1.2 est de 50% de types parentaux et 50% de types recombinés,en étudiant le di ou trihybridisme chez la drosophile (il existe un nombre impressionnant de variants) on peut se rendre compte que certainsde ces caractères ne répondent pas à cette prédictionet semblent se transmettre "en bloc", c'est à dire que la F2 fera apparaître beaucoup plus d'associations parentales que recombinées.
La "théorie chromosomique de l'hérédité" a pris jour en remarquant l'analogie entre le comportement des facteurs mendéliens et celui des chromosomes au moment de la méiose puis en constatant une liaison entre certains gènes et des chromosomes spécifiques, les chromosomes sexuels.
Sans le savoir, Mendel avait étudié, chez le pois, 7 caractères portés par 7 chromosomes différents !
En même temps que l'on découvrait la liaison de sériesde gènes sur les chromosomes, on constatait que cette liaison n'était pas absolue et qu'il existait une possibilité de recombinaison entre des gènes situés dans les deux chromosomes homologues (d'une même paire).
Malgré le parallèle cytologique avec les chiasmas, il faudra attendre de connaître la composition chimique des chromosomes et lastructure de l'ADN pour bien comprendre les mécanismes du "crossingover" soit de la recombinaison à l'échelon moléculaire.Quoi qu'il en soit, dès Morgan, l'analyse des recombinants chez drosophile a permis l'apparition des premières bases de la cartographie génétique.
                    INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap1/mendel4.gif" \* MERGEFORMATINET 
Figure 1.3 : Interprétation chromosomique de la figure 1.2
Le génotype est un ensemble d'informations discontinues : les gènes. Ceux-ci sont organisés de façon linéaire en groupes de liaisons supportés physiquement par le chromosome. Le degré variable de liaison entre deux gènes détecté par la fréquence de recombinaison reflète la distance qui les sépare et permet de construire des cartes génétiques.
Les gènes ne sont détectables que parce qu'ils peuvent varier et exister sous plusieurs formes alléliques.Dans ce premier chapitre, le gène représente non seulementune unité de fonction mais également une unité derecombinaison et une unité de mutation, ceci ne va pas s'avérerexact.
     INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap1/mendel5.gif" \* MERGEFORMATINET  
Représentation "en collier de perles" d'un génome diploide.
Les loci 5, 8 et 12 sont héterozygotes, les autres sont homozygotes.
LE SUPPORT DE L'INFORMATION
1  NATURE DU MATERIEL GENETIQUE
L'analyse génétique évoquée dans le chapitre précédent a permis d'aller très loin dans l'étude du mode de transmission des caractères, dans certains cas d'interactions entre les gènes, leur mode d'expression peuvent parfois être appréhendé grâce au raisonnement mendélien.
Malgré cela, l'analyse, pourtant relativement simple, du dihybridisme (avec dominance) qui se traduit, en F2, par quatre phénotypes dans des proportions 9-1-3-3 alors qu'il existe neuf génotypes possibles, laisse présager que le petit pois et la drosophile sont des organismes (diploïdes) bien trop compliqués pour saisir les mécanismes fondamentaux de la recombinaison et de l'expression des gènes.
Les génomes haploïdes tels que ceux des bactéries et
des virus vont révolutionner la notion de gène.Des séries de travaux s'étalant de 1928 à 1952 vont permettre d'associer définitivement l'ADN à la notion d'information génétique. Ces travaux sont exposés ci dessous car ils présentent, comme ceux de Mendel, beaucoup plus qu'un intérêt historique : ils sont des modèles d'analyse faisant appel, pour la première fois, à des méthodes de la biologie moléculaire.
1.1 TRAVAUX DE GRIFFITH :
Le point de départ est une bactérie pathogène, un pneumocoque, agent de la pneumonie chez l'homme (et, au laboratoire, létal pour la souris). Cet exemple rappelle que ce sont les pathologistes qui ont amené les généticiens à étudier les procaryotes et les virus.
La virulence de bactéries représente déjà un caractère phénotypique, un autre est apporté par l'aspect des colonies qui se développent à la surface d'un milieu nutritif gélosé lorsque l'on a ensemencé une boite de Pétri : un mucopolysaccharide secrété par les bactéries donne un aspect huileux aux colonies, ce phénotype est baptisé "S" (comme smouth = lisse).
Lors de repiquages et d'étalement successifs, on voit parfois apparaître des colonies présentant un phénotype différent : "rugeux" par opposition à lisse désigné par "R" (comme rough).
Inoculées à une souris, les bactéries de type R s'avèrent non virulentes. Les deux phénotypes sont liés.
* Remarque : L'apparition, rare et spontanée, de variants dans une population bactérienne est le résultat d'une mutation. A l'origine, une seule bactérie est modifiée mais cette modification étant héréditaire, la colonie que l'on observe représente en fait la descendance de la bactérie mutée.
* Remarque : Selon des mécanismes qui seront détaillés plus tard, l'accident mutationnel peut, dans certains cas, se produire "dans l'autre sens" : dans une population R peut spontanément réapparaître un individu S, cette modification est, elle aussi héréditaire puisque ce que l'on observe c'est une colonie S c'est à dire une descendance.
. Une des caractéristiques de ce phénomène de réversion est qu'il se produit avec la même fréquence que la mutation : c'est un événement très rare. Cette notion de réversion, simplement effleurée ici, s'avérera très importante.Vers 1928, Griffith réalise une expérience fondamentale :
première étape : il inocule à une souris, des bactéries S (de phénotype virulent) tuées par la chaleur, les souris ne présentent aucun trouble.
deuxième étape : il inocule des bactéries S tuées par la chaleur après les avoir mélangées à des bactéries R (phénotype non virulent), des souris meurent de pneumonie. Le prélèvement de bactéries à partir de souris mortes et leur mise en culture révèle un phénotype S (et virulent) pour toute la descendance.
Interprétation : les bactéries vivantes au départ sont de type R, non virulent. Griffith, suppose qu'elles ont été "transformées" par un élément provenant des bactéries tuées par la chaleur. La fréquence de la transformation et des arguments d'ordre immunologique excluent un phénomène de réversion.
A l'époque, Griffith ne peut que conclure à l'existence d'un facteur transformant or il s'agit bien d'une transformation génétique au sens actuel du terme.
En 1944, Avery, Mc Leod, Mc Carthy reprennent ces travaux avec des tests un peu plus sophistiqués qui préfigurent la génétique microbienne moderne : ils mélangent, dans un tube, des bactéries S tuées par la chaleur et des bactéries R. Après un temps de culture suffisamment long, un anticorps anti R est ajouté, (plusieurs souches de ces bactéries ont été répertoriées ,qui diffèrent par leurs propriétés antigéniques), les bactéries R sont agglutinées et sédimentent au fond du tube, le surnageant est ensuite étalé sur un milieu nutritif et l'on s'aperçoit que des colonies de phénotype S se développent. Cette manipulation in vitro va servir à l'identification du principe transformant en ajoutant à des bactéries R, non plus des S tuées par la chaleur mais des extraits relativement purifiés de celles-ci. Les auteurs de ce travail se tournent d'abord vers les polysaccharides de la paroi, sans aucun résultat puis vers les protéines sans plus de succès, ils n'obtiennent quelques cas de transformation qu'avec des préparations d'acides nucléiques et particulièrement d'ADN.
Autrement dit, une bactérie peut acquérir de nouveaux caractères phénotypiques, de nouvelles fonctions métaboliques (sécrétion de polysaccharides, virulence) par l'intermédiaire d'ADN provenant d'une autre. L'importance extraordinaire de ces travaux n'a pas été reconnue pendant longtemps pour plusieurs raisons :
- la structure chimique de l'ADN bien que déterminée d'une façon très incomplète, semblait trop simple pour pouvoir contenir une information aussi complexe que l'information génétique. Les des protéines en faisait de bien meilleures candidates comme support de cette information.
- la génétique microbienne était à ses début et l'on n'était pas certain que le passage d'un type S à un type R soit le fait de mutations, ni que l'hérédité des organismes supérieurs soit comparable à celle des bactéries.
1.2 TRAVAUX DE HERSHEY ET CHASE :
En 1952, Hershey et Chase étudient la reproduction du bactériophage T2 dans la bactérie Escherichia coli (qui deviendra le monstre sacré de la génétique moderne) et emploient une technique qui va se développer rapidement : l'utilisation d'isotopes radioactifs comme traceurs, comme marqueurs permettant de suivre la destinée de macromolécules. Dans un premier temps, ils cultivent les bactéries (E. coli) sur un milieu contenant du phosphore 32 (32P) et du soufre 35 (35S), après un certain temps de culture, les éléments constitutifs des bactéries contiennent ces marqueurs. On infecte alors la culture avec une suspension de phages T2, ceux ci vont réaliser un cycle lytique en utilisant les molécules radioactives de leurs cellules hôtes. La descendance phagique est recueillie et sert à infecter des bactéries normales. On sait que, dans la première étape de l'infection, les phages s'adsorbent sur la bactérie et injectent à l'intérieur une molécule informative. Après cette étape d'adsorption, les auteurs agitent violemment la suspension pour décrocher ce qui reste à l'extérieur des bactéries, après centrifugation, on obtient un culot bactérien contenant l'information phagique et un surnageant contenant la capside (Figure). Or, le culot contient le 32P et le surnageant le 35S, c'est la démonstration éclatante que l'information génétique du bactériophage, qui pénètre à l'intérieur de la bactérie est de l'ADN et que la capside protéique ne sert que d'emballage.
* Remarque : si cette démonstration ne vous parait pas lumineuse, reportez vous à l'exercice (...et éventuellement à sa solution).
2 STRUCTURE ET PROPRIETES DES MOLECULES D'ADN
Watson et Crick quant à eux ont immédiatement compris la portée de cette conclusion et leur proposition, en 1953, d'un modèle moléculaire en double hélice maintenue par des liaisons hydrogène entre des bases précises a marqué une autre étape sensationnelle et décisive de la génétique moderne. Les éléments de cette découverte sont intéressants à rappeler car ils fournissent un bel exemple de ce que permet l'intégration d'observations résultant de disciplines différentes. Watson et Crick ont progressivement élaboré leur modèle moléculaire à partir d'images, souvent difficiles à interpréter, de diffraction des rayons X par la molécule d'ADN laissant supposer une certaine régularité et une certaine répétition dans cette molécule très longue. Ils ont également tenu compte des observations d'Erwin Chargaff portant sur la composition en bases d'ADN provenant de différentes sources. A l'époque, il n'était pas question d'obtenir la séquence de ce polymère, mais il était possible, après hydrolyse complète (c'est à dire rupture de toutes les liaisons covalentes unissant les monomères entre eux), de séparer ceux-ci par chromatographie sur papier. On sépare ainsi quatre constituants  : "A","T","G" et "C" (voir ci dessous la nature de ces constituants), que l'on peut doser afin d'évaluer leurs proportions respectives. Le tableau II 1, présente des caractéristiques que Chargaff a su interpréter : les purines (A et G) et les pyrimidines (C et T) sont également représentées (50% de chaque), quelque soit la source de l'ADN, la proportion d'adénine est la même que celle de thymine et la proportion de guanine est la même que celle de cytosine, par contre, le rapport A + T / G + C semble caractéristique de la source d'ADN.
OrganismeATGCrapport
A+T/G+CE. coli D.pneumoniae Levure Rat Homme26,0 29,8 31,3 28,6 30,323,9 31,6 32,9 28,4 30,324,9 20,5 18,7 21,4 19,925,2 18,0 17,1 21,5 19,81,00 1,59 1,79 1,33 1,52                          Tableau II.1
2.1 STRUCTURE DES ACIDES NUCLEIQUES
Les acides nucléiques sont des polymères de nucléotides de très grande taille (macromolécules).
Dans ce rappel très rapide on ne fera que souligner ce que les particularités structurales entraînent comme conséquences pratiques. Ainsi la composition détaillée des différents nucléotides est supposée connue mais il est bon de garder à l'esprit que leur enchaînement conduit effectivement à des molécules de très grandes tailles. Celles d'ADN se mesurent en centimètres pour la longueur avec un diamètre pour la double hélice de 20 Angstroem. Conséquence pratique : étant donné les moyens mécaniques mis en jeu dans les différentes étapes de purification de l'ADN, il est impossible d'obtenir des molécules intactes, on ne travaille qu'avec des morceaux. De plus, les cassures étant aléatoires, on travaille avec un mélange hétérogène de morceaux, c'est ce qui, pendant longtemps, à bloqué la progression de l'analyse fine du gène.
2.1.1 LES MONOMERES ET LEUR ENCHAINEMENT :
Le nucléotide est lui même composé de trois molécules :
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap2/ribose.gif" \* MERGEFORMATINET       INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap2/desoxyribose.gif" \* MERGEFORMATINET 
- un pentose sous forme cyclique (furane): le ribose en ce qui concerne l'acide ribonucléique (ARN) et le 2'désoxyribose pour l'acide désoxyribonucléique (ADN)
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap2/bases.gif" \* MERGEFORMATINET 
- une base organique est reliée au sucre en 1' : soit une base purique adénine (A) ou guanine (G) soit une base pyrimidique : cytosine (C), thymine (T) ou uracile (U), l'ensemble constitue un nucléoside
                                     INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap2/nucleos.gif" \* MERGEFORMATINET 
- un acide phosphorique vient estérifier une fonction alcool du sucre en 3' pour constituer un nucléotide.
Les nucléotides précurseurs de la synthèse d'acides nucléiques sont sous forme triphosphate, deux phosphoryls (ß et ) seront éliminés au cours de la polymérisation.
La polymérisation s'effectue par l'estérification d'un alcool situé en 3' d'un nucléotide par le phosphate d'un autre nucléotide (la liaison covalente ainsi établie est dite liaison 3'-5' phosphodiester).
* Remarques pratiques :
1) En raison de leurs doubles liaisons conjuguées, les bases absorbent fortement la lumière ultraviolette. Il est donc très facile de doser les acides nucléiques en solution en mesurant la densité optique à 260 nm (maximum d'absorption).
2) En raison des groupes phosphoryls, les acides nucléiques sont chargés négativement, ils se comportent comme des polyanions et migrent vers l'anode lors d'une électrophorèse.
L'électrophorèse est actuellement l'outil de base de la génétique moléculaire car elle permet de séparer des fragments d'acides nucléiques en fonction de leur taille.
* remarque importante :
Les molécules se déplacent dans un champ électrique uniquement parce qu'elles sont chargées mais la migration nécessite un support . Sur le plan électrique, ce support (un gel poreux) n'intervient pas, par contre, sa porosité va déterminer, à charges égales, la vitesse de migration : des grosses molécules seront beaucoup plus freinées par le support que des petites. Cette propriété, même si l'explication reste intuitive, a un champ d'application considérable : la distance de migration est inversement proportionnelle au logarithme de la masse, ainsi, on va pouvoir, à l'aide de fragments de taille connue (échelle), "calibrer" les supports d'électrophorèse et déterminer, avec une précision qui dépend de la nature du gel utilisé, la taille des fragments d'ADN contenus dans un mélange..
Pour un acide nucléique donné, seules les bases distinguent les différents nucléotides. Les deux acides nucléiques sont des polymères à quatre monomères possibles symbolisés par A T G C pour l'ADN et A U G et C pour l'ARN.
                                                INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap2/ribo-deoxy.gif" \* MERGEFORMATINET 
Ces polymères ne sont pas ordonnés (de type ABCD ABCD ABCD ABCD...) mais séquencés ceci se traduit par une succession de nucléotides qui nous semble aléatoire. Cependant la séquence des monomères de tout acide nucléique est capitale pour la transmission et l'expression du matériel génétique. La séquence des nucléotides dans le polymère impose ce que l'on appelle la structure primaire des polynucléotides.
Le plus souvent, les molécules sont linéaires et possèdent donc une extrémité 5'phosphorylée et une extrémité 3'hydroxylée d'où la représentation simplifiée suivante :
                                5'P ......................................................................... 3'OH
2.1.2 STRUCTURES SECONDAIRES
La structure secondaire des acides nucléiques est imposée par l'appariement des bases c'est à dire la formation de liaisons hydrogène entre deux bases organiques.
L'ADN est constitué de deux chaînes polynucléotidiques ainsi appariées. Etant donné que, pour des raisons d'encombrement stérique, deux paires de bases seulement sont stables A..T et G..C , la séquence d'un brin de cette molécule bicaténaire implique celle de l'autre.
Cette notion de complémentarité est fondamentale pour tout ce qui concerne le métabolisme de l'ADN in vivo et in vitro.
 De plus, les deux bases d'une paire ne sont suffisamment proches l'une de l'autre et ne sont capables d'établir des ponts hydrogène que si les deux chaînes nucléotidiques sont antiparallèles soit :
        5'P                                                               3'OH
          A C G T A T G C C C A T A C G C G C G C G           T G C A T A C G G G T A T G C G C G C G C
          3'OH                                                               5'P
Il en résulte, dans l'espace, une double hélice dont le pas de 34 A correspond à l'empilement de 10 paires de bases.
*Remarque : la figure précédente montre qu'il existe 3 liaisons hydrogène entre G et C et deux seulement entre A et T, ceci implique qu'un ADN riche en G-C sera plus stable qu'un ADN comportant plus de couples A-T.
Des molécules simple brin adoptent souvent, localement, des structures secondaires, selon le même principe d'appariement des bases.
C'est le cas de l'ARN : en raison des séquences soulignées dans la molécule ci-dessous:
          5'P     A U C G G C U U A G A C G A U G A A G C C G U C C C G G A A A      3'OH
elle peut prendre la structure secondaire
                                                                              A                                                                                                     G      A                                                                                                  U            G                                                                                                     A       C                                                                                                        G C                                                                                                        C G                                                                                                         A U                                                                                                         G C                                              5'P     A U C G G C U U A     C C G G A A A    3'OH
Enfin, parmi les structures particulières, il faut signaler celle des molécules circulaires : il n'y a pas d'extrémité 5' ni 3' (une liaison phosphodiester les relie). De telles structures (double ou simple brin), sont fréquentes chez les virus et des éléments génétiques particuliers tels que les plasmides, le "chromosome" bactérien est également une molécule circulaire
2.2 PROPRIETES TOPOLOGIQUES FONDAMENTALES DE L'ADN
Les liaisons hydrogène, relativement fragiles, peuvent être détruites par chauffage ou par un pH élevé, dans ces conditions les structures secondaires disparaissent Pour l'ADN, le résultat est la séparation complète des deux brins qui le composent : il y a dénaturation de la molécule. En raison de la stricte complémentarité des bases, la dénaturation est réversible, les deux brins peuvent, dans des conditions appropriées de température et de force ionique, rétablir des liaisons hydrogènes entre leurs bases et reprendre la configuration en double hélice d'origine. Il faut bien comprendre que ce phénomène ne dépend que de le complémentarité de deux séquences nucléotidiques et non de l'origine de chaque brin. Dans le cas de renaturation, on a formation de molécules "homoduplex" c'est à dire de structures doubles, chaque partenaire ayant une même origine. On peut très bien mélanger des ADN dénaturés d'origines différentes s'il y a des complémentarités de séquences des "hétéroduplex" c'est à dire des molécules dont les deux brins sont d'origine différente pourront se former. Enfin, toujours par complémentarité de séquences, on peut apparier un ARN avec un brin d'ADN (il existe une possibilité de liaison A..U) on obtient alors une molécule "hybride". (voir ci-dessous)
Cette propriété (appariement de séquences complémentaires) représente un outil puissant dans la reconnaissance de séquences précises à l'aide de petits fragments polynucléotidiques appelés "sondes" car, dans un ensemble complexe de séquences différentes, elles sont capables de trouver celle qui leur correspond, de s'y hybrider La détection de ces hybrides sera facilitée par l'utilisation de sondes "marquées".
Exemples :
molécule native :
                                        A A T G C C G T C A C T T T A G C T A T A                                         T T A C G G C A G T G A A A T C G A T A T
molécule dénaturée :
         A A T G C C G T C A C T T T A G C T A T A
                                                                                     T T A C G G C A G T G A A A T C G A T A T
homoduplex (les deux brins renaturés sont de même origine :
                                                    A A T G C C G T C A C T T T A G C T A T A                                                     T T A C G G C A G T G A A A T C G A T A T
heteroduplex (les dux brins d'ADN renaturés sont d'origine différente) :
                                       A A T G C C G T C A C T T T A G C T A T A                                                                  T G A A A T C G A T A T G G G A C
hybride (appariement d'un brin d'ADN et d'un brin d'ADN) :
                                       A A T G C C G T C A C T T T A G C T A T A                                                    U U A C G G C A G U G A A A U C G A U A U
sondes :
                                                   A A T G C C G T C A C T T T A G C T A T A                                             A C G G C A
ou
                                                  A A T G C C G T C A C T T T A G C T A T A                                                                               T C G A T
3 MECANISME GENERAL DE LA BIOSYNTHESE DE L'ADN : LA REPLICATION
En même temps que leur modèle, Watson et Crick proposaient des implications fondamentales à la structure secondaire de l'ADN.
On verra plus tard par quel mécanisme l'ADN stocke toute l'information nécessaire au développement de l'organisme, mais la structure secondaire montre clairement qu'il existe deux "copies" de cette information codée : l'une en positif, l'autre en négatif découlant l'une de l'autre par complémentarité des bases.
Un modèle de synthèse "semi conservatif" de l'ADN reposant sur cette observation a été proposé et s'est avéré exact.
Lorsque l'information est transmise, d'une cellule à deux cellules filles, les copies (positif et négatif) doivent être représentées dans les deux cellules : le modèle propose que chaque copie conserve un des deux éléments du modèle (d'où l'expression semi conservative associée à cette duplication), le négatif ancien et un positif nouvellement synthétisé va être hérité par une cellule fille, le positif ancien et un négatif nouvellement synthétisé étant hérité par l'autre cellule fille.
En moins d'un an, Meselson et Stahl concevaient une expérience restée célèbre pour vérifier ces prédictions .
3.1 EXPERIENCE DE MESELSON ET STAHL:
Il s'agissait de "marquer" les éléments anciens (négatif et positif) et de les suivre lors de la transmission aux générations suivantes. Le marqueur choisi a été un isotope lourd de l'azote : l'azote 15 (15N), en raison de l'abondance des atomes d'azote dans les bases organiques de l'ADN, si tous sont constitués de l'isotope lourd, la molécule d'ADN résultante sera légèrement plus dense que celle d'ADN habituel (comportant de l'azote 14) et il va s'avérer possible de séparer ces deux types de molécules par une centrifugation à l'équilibre dans un gradient de densité de chlorure de césium (gradient qui "encadre" les densités des ADN à étudier). Le matériel expérimental est une cellule procaryotique : Escherichia coli. Les bactéries sont en effet les cellules présentant le plus haut rendement synthétique et dans des conditions standard se divisent environ toutes les trente minutes ce qui va permettre d'accéder à plusieurs générations et donc à plusieurs cycles de réplication de l'ADN en un temps raisonnable.
Le protocole expérimental reste un modèle du genre : dans un premier temps des bactéries sont cultivées sur un milieu contenant l'isotope lourd de l'azote, après un délai correspondant à plusieurs cycles cellulaires, la comparaison des ADN purifiés à partir de ces bactéries et d'ADN provenant de cellules normales "14N" montre qu'il est effectivement possible de les séparer . Les bactéries dont l'ADN est ainsi marqué sont ensuite cultivées sur un milieu normal de telle sorte qu'à partir de cet instant, toute synthèse se fera à partir d'azote 14, des prélèvement sont effectués de génération en génération et les ADN analysés. Les résultats présentés dans la figure, montrent qu'effectivement, en première génération, un ADN de densité hybride est caractérisé, la suite de l'expérience montre clairement que l'hypothèse de réplication semi conservative était juste !
Très rapidement, plusieurs travaux remarquables confirment le mode de réplication de l'ADN et laissent entrevoir la complexité du contrôle génétique de cette biosynthèse.
Dans les années 50 à 60, Kornberg réalise une première synthèse d'ADN in vitro et Cairns "visualise" la réplication en microscopie électronique.
3.2 SYNTHESE D'ADN IN VITRO : première manipulation génétique
Les séries d'expériences réalisées par Kornberg et son groupe préfigurent la génétique moléculaire moderne et méritent que l'on s'y arrête.
Le mode semi-conservatif de la synthèse de l'ADN implique les éléments suivants :
- une molécule d'ADN double brin capable de servir de modèle,
- des désoxyribonucléotides précurseurs de la chaîne nouvelle,
- une enzyme : ADN-polymérase, capable de les relier, cette enzyme (hypothétique pour l'instant) est fondamentale car non seulement elle devra assurer la liaison covalente (3'-5' phosphodiester) entre les nucléotides mais elle devra aussi être capable de "choisir" ceux-ci en fonction du modèle présent selon la régle d'appariement des bases.
3.2.1 POLYMERISATION DE DESOXYRIBONUCLEOTIDES IN VITRO
Pour purifier et étudier cette enzyme, Kornberg a mis au point un système de synthèse in vitro à partir d'extraits d'abord assez grossiers d'E. coli. Comment évaluer de tels systèmes ? Comment prouver qu'une synthèse a bien lieu in vitro ? Comment distinguer l'ADN néosynthétisé de celui qui est obligatoirement présent dans l'extrait comme modèle ? Kornberg va lui aussi faire appel à des marqueurs isotopiques : des nucléotides comportant des phosphores 32 radioactifs (32P), si une synthèse a lieu, elle fera appel à ces précurseurs radioactifs et le polymère résultant sera "marqué", sera radioactif et facilement repérable. D'après l'analyse des nucléotides libres présents dans le cytoplasme, Kornberg décide de choisir des nucléotides triphosphorylés en 5' alors que les constituants de l'ADN sont monophosphorylés et que bien souvent, l'hydrolyse de polynucléotides produit des mononucléotides phosphorylés en 3' ! On verra que sans cette décision, l'expérience était vouée à l'échec : la cellule utilise effectivement des nucléotides 5' triphosphorylés et l'énergie fournie par la libération du pyrophosphate.
*Remarque concernant l'utilisation de précurseurs radioactifs
Dans son mélange réactionnel, Kornberg dispose d'ADN modèle, de précurseurs naturels, de l'ADN polymérase active (il l'espère), auquel il ajoute des précurseurs radioactifs. Après la réaction, la radioactivité se trouvera partagée entre l'ADN éventuellement synthétisé in vitro (en incorporant des monomères marqués) et l'excédent de précurseurs qui n'ont pas été incorporés. Il est donc essentiel d'éliminer tous ces précurseurs libres pour attribuer de la radioactivité à une macromolécule. En pratique, les macromolécules sont précipitées par adjonction d'un acide organique et les petites molécules "acido-solubles" (y compris les précurseurs radioactifs) sont éliminées par centrifugation. Le culot, après plusieurs lavages, contient les macromolécules (y compris l'ADN) débarrassées de tout précurseur non incorporé dans la chaîne.
En suivant la stratégie exposée et ses contraintes, Kornberg fut capable de trouver quelque radioactivité dans des fractions acido-précipitables. Radioactivité qui, à l'époque ne dépassait guère le seuil de confiance des compteurs, mais Kornberg y croyait ! Plusieurs équipes, partant de kilogrammes de pâte d'E.coli, à l'aide de méthodes d'analyse biochimique classiques de nos jours mais que l'on découvrait à l'époque, ont peu à peu concentré l'activité de l'ADN polymérase jusqu'à purifier cette enzyme qui fut nommée "polymérase de Kornberg".
Le bilan (provisoire) de ces expériences est le suivant :
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap2/kornb1.gif" \* MERGEFORMATINET 
3.2.2 REPLICATION IN VITRO
L'expérience décrite ci dessus prouve qu'une synthèse de polydésoxyribonucléotide est réalisable in vitro mais ne prouve pas que l'ADN synthétisé est conforme au modèle ni que la synthèse soit une réplication semi-conservative. La suite du travail va consister à tenter la synthèse in vitro d'un ADN "biologiquement actif", l'activité biologique la plus facile à détecter étant, à l'époque, la capacité d'infection d'un ADN de bactériophage.
Le modèle choisi est le phage ÞX 174 soit une molécule circulaire d'environ 5000 nucléotides seulement. Nucléotides et non pas paires de nucléotides car il s'agit, pour la particule phagique d'un ADN simple brin que nous appellerons le brin +. Le changement d'un seul de ces nucléotides rend la molécule inactive (non infectieuse). La réalisation d'une copie infectieuse in vitro va préfigurer la technologie de l'ADN recombinant.
- In vivo, la première étape de l'infection par ce bactériophage simple brin est la synthèse d'un brin complémentaire pour réaliser une forme circulaire double brin à partir de laquelle seront reproduits des brins + qui assureront la descendance phagique.
- Un premier problème se posa pour la synthèse in vitro d'un brin - : l'ADN polymérase purifiée ne peut qu'attacher l'extrémité 5' d'un nucléotide à l'extrémité 3' d'une chaîne en cours de synthèse, elle ne peut relier des polynucléotides et donc ne peut pas réaliser la liaison phosphodiester qui permet de circulariser un brin d'ADN. Le problème a été résolu par la purification d'une enzyme qui, in vivo, remplit cette fonction : l'ADN ligase dont nous aurons souvent l'occasion de parler.
Le système va donc comprendre :
des molécules d'ADN purifiées de ÞX 174 (brin +)
les 4 désoxyribonucléotides
l'ADN polymérase
la ligase
en principe, il doit assurer la synthèse de brins - complémentaires du brin plus et circulaires (Figure II.6 1 - 3).
- Deuxième problème : comment séparer les brins - des brins + ?
Ce deuxième problème a été surmonté par l'utilisation d'un précurseur particulier à la synthèse d'ADN : la 5-bromodésoxy uridine, cet analogue de nucléotide est utilisé par la cellule comme de la thymidine (sera apparié à l'adénine) mais le brome va "alourdir" la molécule d'ADN qui utilise ce précurseur. La différence de densitéest suffisante pour permettre la séparation de brins + (comportant de la thymidine) de brins - (comportant de la bromodésoxyuridine) par ultracentrifugation sur un gradient de densité de CsCl (Figure II.6 4 et 5).
- Troisième problème : le brin - synthétisé in vitro n'est pas infectieux, seul un brin + peut l'être. Il va donc falloir recommencer une synthèse in vitro en utilisant les brins - comme modèles.
Cette stratégie a permis de synthétiser des molécules qui vont s'avérer infectieuses : aucune erreur sur 5000 nucléotides assemblés in vitro !
3 .3 OBSERVATIONS DE CAIRNS
Cairns a été le premier à observer un chromosome entier d'E. coli en cours de réplication.
Il a associé des techniques de marquages isotopiques et d'autoradiographie suivie d'observation en microscopie électronique. Après avoir cultivé des bactéries dans un milieu contenant de la thymidine tritiée à faible activité spécifique, pendant un temps dépassant la durée du cycle, il met au point une méthode de lyse de la cellule permettant de libérer l'ADN directement sur une grille de microscopie électronique, en minimisant les risques de cassures mécaniques de la molécule.
La préparation est recouverte d'une émulsion photographique et après exposition et développement, l'examen révèle des grains d'argent le long de la molécule d'ADN . Ces premières observations ont montré la circularité du chromosome d'E.coli, forme qui s'avérera très répandue chez les procaryotes, les virus et l'ADN des organites (mitochondries et chloroplastes) des cellules eucaryotiques. Dans un second temps, Cairns a effectué des marquages plus courts et déduit des images présentée que la réplication commence en un point du chromosome bactérien et fait le tour de celui-ci. Un peu plus tard, d'autres chercheurs ont ajouté à un marquage long par la thymidine tritiée à faible activité spécifique un marquage très bref par de la thymidine tritiée à forte activité spécifique. Après autoradiographie, l'intensité des grains permet de distinguer les deux marquages. On observe alors, des sortes de "bulles".
L'interprétation de ces figures va avoir un impact considérable.
- d'après l'observation de ces "fourches" , il est clair que la réplication se fait à partir des deux brins anciens simultanément (les figures matérialisées par les grains d'argent seront appelées fourches de réplication).
- puisque l'on observe deux de ces fourches, c'est que la réplication est bidirectionnelle.
- si la réplication est bidirectionnelle c'est qu'il existe une "origine de réplication". Cette notion n'est pas que topographique, on verra qu'effectivement, seule une séquence précise de ces molécules circulaires permet le démarrage de la réplication. Dans la cellule Eucaryote, les chromosomes comportent des molécules linéaires d'ADN très longues et il existe plusieurs origines de réplication par chromosome, également caractérisées par des séquences précises.
Un élément quelconque d'un génome, naturel ou obtenu par génie génétique, ne pourra être répliqué (et donc transmis à une descendance) que s'il possède une origine de réplication, il sera alors considéré comme un "réplicon".
3.4 MECANISMES GENERAUX DE LA REPLICATION
Très rapidement, les études génétiques et biochimiques de la réplication ont montré que le mécanisme est beaucoup plus complexe que ne l'évoque la prédiction de Watson et Crick et que ne le laissent supposer les expériences de Meselson et Stahl (qui ne rendent compte de l'ADN qu'avant et après la réplication), de Kornberg (qui isole la réplication de son contexte cellulaire) ou de Cairns (qui fixe une image instantanée)
Tous les transferts d'information que nous allons étudier comportent trois étapes dans la synthèse de molécules informatives : le début, la suite et la fin que l'on préfère appeler les étapes d'initiation, d'élongation (de la macromolécule en cours de synthèse) et de terminaison. Des mutants pour chacune de ces étapes ont permis de les étudier en détail, c'est l'initiation qui représente certainement l'étape clé de la réplication.
                                             INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap2/figII7b.gif" \* MERGEFORMATINET 
- Une première difficulté d'interprétation est venue de l'étude du fonctionnement de l'ADN polymérase : elle permet la liaison de nucléotides à l'extrémité 3' d'une chaîne polynucléotidique. Les deux brins anciens, servant de modèles, étant antiparallèles, comment expliquer l'observation d'une synthèse bidirectionnelle, simultanée pour les deux brins avec fourche de réplication ?
Une hypothèse de synthèse continue sur l'un des brins et discontinue sur l'autre a été confirmée par Okasaki qui, par centrifugation sur gradient de densité a pu isoler des intermédiaires de synthèse de l'ADN d'environ 150 paires de bases. Ce modèle de "un pas en avant, deux pas en arrière, un pas en avant etc..." effectués par l'ADN polymérase sur l'un des deux brins, explique l'observation globale de la fourche de réplication. La figure ci-contre résume la synthèse continue sur l'un des brins dit parfois "brin avancé" et discontinue sur l'autre dit "brin retardé".
la figure ci-dessous met en place quelques protéines également essentielles de la réplication.
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap2/figII8b.gif" \* MERGEFORMATINET 
- L'étude biochimique des ADN polymérases (car il en existe plusieurs avec chacune un rôle précis dans la cellule), a également montré qu'aucune n'était capable de relier deux mononucléotides entre eux comme peut le faire l'ARN polymérase que nous verrons au chapitre mais, comme il a été dit, elle crée une liaison phosphodiester entre le 5' d'un mononucléotide et l'extrémité 3'OH d'une chaîne déjà commencée. Ces chaînes préexistantes constituent des "amorces" pour les ADN- polymérases et vont être fabriquées, aux origines de réplications par des "primases" qui sont elles mêmes des polymérases utilisant des ribonucléotides.
Ceci implique que chaque "fragment d'Okasaki" (du nom de l'auteur des travaux ayant prouvé que le mode de synthèse est bel et bien discontinu pour l'un des brins) est précédé d'une amorce d'ARN, qui devra être éliminée, remplacée par une séquence d'ADN et qu'une ligase devra intervenir pour relier les morceaux au cours de l'élongation.
Cette analyse, liée en grande partie à l'étude de mutants, a également permis de découvrir que l'enzyme de Kornberg n'était pas la seule ADN polymérase présente dans la cellule bactérienne (par contre elle est la plus abondante). A coté de cette enzyme, rebaptisée ADN polymérase I, il existe des ADN polymérases II et III. Ces trois enzymes ont des propriétés communes mais n'assurent pas exactement les mêmes fonctions in vivo. On sait maintenant que la polymérase purifiée par Kornberg n'est pas celle qui assure l'élongation c'est à dire l'essentiel de la réplication in vivo mais l'ADN polymérase III. Toutes catalysent l'adjonction d'un nucléoside 5' triphosphate à l'extrémité 3' d'un polynucléotide en créant une liaison covalente 3' 5' phosphodiester. Toutes possèdent également des activités exonucléasiques, c'est à dire qu'elles sont capable d'exercer une fonction inverse d'hydrolyse de liaison phosphodiester, soit dans le sens 3'-5' soit 5'-3' soit dans les deux, cette activité joue un grand rôle dans le contrôle de la fidélité de la réplication en permettant à l'enzyme elle-même de corriger des erreurs d'appariement qu'elle aurait pu commettre (elle joue également un rôle dans la réparation de molécules d'ADN endommagées par divers agents). Grâce à cette "double compétence", la polymérase I est capable de dégrader les amorces d'ARN tout en "bouchant les trous", la ligase intervenant en dernier.
C'est probablement au prix de la complication des mécanismes enzymatiques évoqués que la fidélité de la réplication est assurée et que l'information génétique se transmet intacte de générations en générations.
                     
Les acides nucléiques sont les macromolécules de stockage de l'information. La structure double de l'ADN et son mode de synthèse par réplication semi-conservative rendent compte de la façon dont cette information est transmise. 
STRUCTURE ET FONCTION DU GENE
Il s'agit d'élaborer une notion de gène capable de concilier les deux chapitres précédents.
En effet, dans le premier chapitre, le gène apparait comme une unité, indivisible à plusieurs niveaux. Le gène est une unité de fonction (informative) : toutes les observations mendéliennes portent sur des variants pour un caractère phénotypique. L'existence de ces variants fait du gène une unité de mutation : différents allèles sont possibles pour un locus. Enfin, la répartition des caractères en F2, renforcée par la découverte de la liaison génétique en fait une unité de recombinaison. L'image résultante est celle d'un collier de perles différentes les unes des autres (figure I.3).
Dans le chapitre suivant, on voit que l'unité de base de la molécule informative (l'ADN) est le nucléotide et cette unité ne saurait correspondre à une unité de fonction. Malgré cela, on pressent que la description ultime de l'organisation des "gènes" d'un organisme passerait par la séquence des nucléotides dans l'ensemble des molécules d'ADN de cet organisme. C'est un travail actuellement impossible à réaliser si l'on considère que le génome d'une bactérie telle que E. coli comporte 3,9 106 paires de nucléotides et celui du maïs ou de l'homme environ 1000 fois plus. C'est pourquoi, la majeure partie de notre connaissance du génome ne vient pas de l'analyse biochimique de la séquence de l'ADN mais de l'analyse génétique. Deux démarches différentes vont nous permettre d'avoir une vision un peu plus précise du gène :  
la première utilise l'analyse mendélienne classique de la recombinaison mais transposée à un modèle particulièrement adapté, le bactériophage. Remarque : les bactériophages présentent deux avantages énormes : la fréquence de recombinaison est élevée, la descendance est quasi illimitée ce qui permettra d'avoir accès à des événements très rares.
la seconde approche va faire appel aux techniques extrêmement puissantes de la recombinaison de l'ADN in vitro et à tout l'arsenal de la génétique moléculaire moderne qui va permettre d'aller jusqu'au séquençage de fragments du génome (Chapitre IV). 1 GENETIQUE DES BACTERIOPHAGES
Les bactériophages (ou phages) sont des virus ayant la cellule bactérienne comme hôte. Au laboratoire, on les étudie en étalant une suspension très diluée de ces phages à la surface d'un "tapis" bactérien dans une boite de Pétri contenant un support nutritif (pour les bactéries). L'infection d'une cellule par un seul phage provoque, au bout d'une vingtaine de minutes l'éclatement (lyse) de la cellule bactérienne avec libération de quelques centaines de particules phagiques. Chaque particule de la descendance va aller infecter une bactérie voisine et recommencer le cycle. Assez vite, le résultat de ces destructions en cascade devient visible à l'oeil nu sous forme de trous dans le tapis bactérien appelés des plages de lyse. Ces plages de lyse constituent déjà un caractère phénotypique permettant une certaine caractérisation des phages : un phage à cycle plus court qu'un autre, en un temps donné provoquera des plages plus grande (on parle de lyse "rapide"), une souche dont toute la descendance n'est pas infectieuse produit des plages turbides etc... Par ailleurs, certaines souches de phages ne peuvent infecter que des souches bactériennes précises, cette spécificité d'hôte constitue également un caractère phénotypique perceptible. Ces caractères sont génétiquement déterminés, se transmettent à la descendance et sont sujets à variation par mutation.
Une analyse génétique classique semble donc possible si l'on peut résoudre le problème du "croisement" de ces génome haploïdes ne se reproduisant évidemment pas par voie sexuée.
Remarque : rappelons que c'est l'appariement des chromosomes homologues au moment de la méiose qui permet la recombinaison chez les eucaryotes.
1.1 LA RECOMBINAISON DES BACTERIOPHAGES
Les travaux effectués par S. Benzer, à l'aide de ces bactériophages, dans les années 50 , en même temps que l'on découvre l'importance de la structure de l'ADN, vont révolutionner la notion de gène.
Benzer utilise le phage T4 capable d'infecter plusieurs souches d'Escherichia coli, en particulier les souches B et K. Les bactériophages proviennent de souches mutées baptisées rII car toutes conduisent à un phénotype de lyse rapide (r) qui se manifeste par des plages de lyse plus grandes que celles provoquées par la souche sauvage, une plage "rII" peut facilement être détectée parmi des milliers de plages normales sur une même boite de Pétri. Les mutations rII sont pléïotropes : outre la lyse rapide des cellules d'E. coli souche B les mutants rII sont également incapables de se développer dans la souche K d'E coli. Il s'agit donc d'une mutation létale conditionnelle : dans certaine condition dite restrictive (mise en présence de la souche K) la mutation est létale : le phage ne peut se reproduire, dans une autre condition dite permissive (infection de la souche B), la reproduction des phages est normale. Ce genre de mutation offre un outil de sélection très puissant car seuls les phages sauvages seront capables de se développer (et provoquer des plages de lyse) indifféremment sur la souche B et sur la souche K d'E. coli.
Remarque : en génétique des procaryotes, des virus, et de beaucoup d'autres modèles expérimentaux, le génotype sauvage est symbolisé par le signe + , c'est ce qui sera adopté par la suite : rII+ (ou seulement +) signifie allèle normal au locus rII.

Benzer a collectionné des souches mutantes rII récoltées indépendamment les unes des autres, numérotées de 1 à plus de 1000, présentant toutes le même phénotype.
Son expérience fondamentale repose sur une infection mixte (ou coinfection) : il infecte une suspension d'E. coli souche B avec des phages rII de deux origines différentes (disons rIIn et rIIm) à raison d'environ un phage de chaque type (soit un total de deux phages) par bactérie. Il récolte la descendance (l'expérience est réalisée en condition permissive) et s'aperçoit, en infectant des souches K avec cette récolte que quelques phénotypes sauvages sont réapparus.  
 
La fréquence de réapparition étant supérieure à celle d'une réversion de mutation, la seule explication possible est celle d'une recombinaison entre les génomes des deux mutants.Le phénomène est de même nature que le crossing-over entre deux chromatides de chromosomes homologues mais à une autre échelle : on atteint la molécule d'ADN. Benzer a catalogué des centaines de mutants rII capables de recombiner deux à deux, or le phage T4 ne dispose pas de centaines de gènes, il faut donc admettre que la recombinaison est  intragénique : à partir de Benzer, le gène n'est plus une unité de recombinaison ni une unité de mutation. Les différentes souches rII isolées portent sur différentes mutations à l'intérieur d'une même unité de fonction puisque toutes entraînent le même phénotype.
La fréquence de recombinaison varie selon les numéros des partenaires et une étude systématique de toute la collection de mutants pris deux à deux a permis à Benzer d'établir une véritable cartographie de mutations à l'intérieur du gène comme on pourrait le faire en étudiant une F2 issue d'hybrides F1 chez un Eucaryote supérieur. Après une infection mixte en condition permissive, la croissance sur souche B permet de dénombrer la descendance totale, la croissance sur souche K rend compte du pourcentage de recombinaison. Ce pourcentage est une indication de la distance qui sépare, non plus les "gènes", mais les points de mutation. La figure ci-dessous montre bien que la recombinaison chez les bactériophages représente un véritable microscope électronique de l'analyse mendélienne.
                                INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap3/figIII3.GIF" \* MERGEFORMATINET 
Carte d'une partie de la région rII : en haut, la carte porte sur une dizaine d'unités génétiques (calculées d'après le pourcentage de recombinaison entre deux mutants).  En bas, un "détail" de 0,3 unité est représenté.
Remarque : la carte présente certaines particulatités
- les distances ne sont pas toujours additives.
- certaines mutations proches l'une de l'autre ne recombinent jamais (r47 avec r312 ou r169), alors que d'autres, pourtant aussi proches, le peuvent (r312 et r169 par exemple).
Ces observations sont fondamentales car elles permettent de distinguer deux catégories : les mutations qui correspondent à une seule unité de mutation et qui pourront recombiner avec n'importe quelle autre appartenant à la même catégorie, on les appellera des mutations ponctuelles et des mutations correspondant à plusieurs unités consécutives qui représentent des délétions c'est à dire la perte de tout un segment de génome. Il est clair que, si une mutation ponctuelle d'un génome se situe à l'intérieur d'une délétion d'un autre génome, aucun phénomène de recombinaison ne pourra restituer un type sauvage.
Autre remarque : dès Benzer, on a constaté que seules les mutations ponctuelles pouvaient conduire à des révertants.
1.2 LE CISTRON, NOUVELLE APPROCHE DU GENE
A ce stade, on peut se demander comment définir l'unité d'information et ses limites dans les cartes génétiques.
Une expérience voisine mais de principe fondamentalement différent va permettre de maintenir le concept d'unité de fonction pour le gène et de le délimiter.
        
Benzer réalise des infections par deux mutants rII différents mais cette fois d'une souche K d'E. coli, c'est à dire en condition restrictive, conditions dans lesquelles, séparément, les deux mutants sont incapables de se reproduire. Les résultats sont du tout ou rien : certaines combinaisons (de mutants rII pris deux a deux) ne donnent aucun résultat, d'autres infections mixtes provoquent des plages de lyse dans la souche K. L'étude de la descendance montre qu'il s'agit de phages rII c'est à dire mutés, le génotype correspond à ceux des "parents". Il n'y a donc pas eu de recombinaison.          
C'est parce que les deux génomes se sont trouvés dans un même cytoplasme bactérien qu'ils ont pu assurer leur descendance.Cette observation nous rappelle le premier chapitre et la génétique mendélienne, on a ici à faire à un phénomène de complémentation. Le fait que deux mutants puissent se complémenter laisse supposer que la région rII comporte deux unités de fonction, toutes deux nécessaires à l'élaboration du phénotype sauvage, la carte génétique renforce cette hypothèse : deux mutants pris à gauche de la carte ne se complémentent pas, deux mutants pris à droite ne se complémentent pas non plus, il est possible , grâce au test de complémentation,de déterminer une frontière séparant deux unités fonctionnelles dans la région rII.
                                                                       INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap3/figIII5a.GIF" \* MERGEFORMATINET  Un phage muté dans une unité de fonction 'A' est incapable d'assurer la production d'une protéine A essentielle à sa reproduction, la mutation est létale, il en est de même pour une mutation affectant la production d'une protéine B mais si les informations correctes pour A et B sont dans un même cytoplasme, le système est complet, il y a complémentation et la descendance phagique est assurée sans que les génomes mutés soient changés.
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap3/figIII5b.GIF" \* MERGEFORMATINET 
On comprend aisément que si deux mutations différentes (n et p) affectent la même unité d'information, la protéine A fonctionnelle ne sera pas synthétisée, on dira que les deux mutations font partie du même groupe de complémentation. Remarque : Benzer a montré que des phages portant deux mutations (n et m) étaient toujours complémentés par un génome sauvage, il s'agit d'une cis-complémentation, par contre, le résultat est imprévisible lorsque les 2 mutations sont apportées par deux phages différents : situation trans, ces observations sont à l'origine du terme de cistron qui va peu à peu redéfinir l'unité de fonction.  
A la lumière des travaux de Benzer, les outils fondamentaux de la génétique : recombinaison et complémentation ont été appliqués aux Eucaryotes dans une optique tout à fait nouvelle dans l'analyse des mutants.
Il est maintenant possible de concilier l'analyse mendélienne et la molécule d'ADN : le cistron, unité de fonction, est une portion de génome comportant de nombreuses unités de mutation et de recombinaison, ces unités, que l'on a tenté de baptiser muton et recon à une certaine époque, représentent en fait le nucléotide et la liaison phosphodiester. L'altération d'un seul nucléotide conduit à une mutation ponctuelle, la rupture d'une liaison 5' 3' phosphodiester entre n'importe laquelle de ces unités peut être le départ d'un événement de recombinaison.
Pour aller plus loin dans cette dissection, pourtant très poussée du matériel génétique, il va falloir attendre la levée d'un verrou considérable : la préparation de molécules d'ADN homogènes qui sera vue au chapitre suivant.
2 DECOUVERTE DE LA FONCTION DU GENE
Une relation assez précise entre les unités d'information et la fonction enzymatique a été établie par Beadle et Tatum vers 1941 à l'aide d'un champignon ascomycète : Neurospora crassa dont le cycle biologique est représenté ci-dessous.  
Cet organisme, bien que méiotique, est supposé plus simple que le pois et la drosophile : la phase de croissance est haploïde ce qui évite les complications liées aux rapports allèliques, une phase de reproduction asexuée, par conidies (bourgeonnements cellulaires uni ou oligo-nucléés) permet une mutagénèse en masse (par irradiation par exemple) et l'obtention rapide de nombreux variants                    Ces champignons se cultivent aisément sur un milieu défini très simple composé de sucre, de quelques sels et acides inorganiques, d'un composé ammoniacal source d'azote et d'une vitamine : la biotine. Les souches sauvages capables de croître sur ce milieu minimal sont dites prototrophes, elles sont capables de réaliser la synthèse de toutes les autres molécules nécessaires à leur métabolisme (précurseurs des glucides, lipides, protéines, acides nucléiques et macromolécules elles mêmes) à partir du milieu évoqué ci-dessus appelé milieu minimal. Une mutation peut très bien affecter une des multiples fonctions du métabolisme de telle sorte que la souche devient incapable de synthétiser un composé essentiel et donc de croître sur le milieu minimal : la mutation est létale car, la cellule étant haploïde, un locus homologue ne peut compenser ce défaut.
Nous allons définir un outil de travail indispensable : la mutation létale conditionnelle, en effet, la mutation n'est létale que par rapport au milieu minimal utilisé, si l'on ajoute à ce milieu le composé organique que la souche ne sait plus réaliser (on parle de supplémenter le milieu), elle se développera comme une souche sauvage. Une souche auxotrophe est une souche ayant subi une telle mutation nutritionnelle. Bien que de génotype muté, elle pourra, malgré tout, se développer dans un milieu capable de complémenter l'effet de la mutation et présentera alors un phénotype sauvage. Le protocole expérimental qui permet d'obtenir rapidement de grandes collections de mutants d'auxotrophie est résumé ci-contre.
Remarque : au cours de la mutagénèse par irradiation, celle-ci n'induit pas de mutations précises, elle augmente considérablement la fréquence des mutations mais d'une façon aléatoire et de très nombreuses mutations létales passent inaperçues. C'est l'expérimentateur qui, par le jeu des milieux, choisit la nature de l'auxotrophie et sélectionne les mutants correspondants.     La réalité de la mutation, c'est à dire la preuve d'une altération héréditaire du matériel génétique est obtenue par croisement d'une souche auxotrophe avec une souche sauvage de signe compatible. Chez Neurospora, les ascospores restent ordonnées, dans l'asque, selon l'orientation des fuseaux des deux divisions méiotiques et de la mitose surnuméraire. Il est facile de déterminer individuellement les génotypes et de montrer une répartition mendélienne de l'auxotrophie dans la descendance.
De très nombreux mutants auxotrophes, différents dans leurs exigences ont été sélectionnés et le croisement entre ces mutants indique clairement que les mutations portent sur des loci différents.  
On a donc une correspondance entre une mutation et la disparition d'une fonction enzymatique nécessaire à l'accomplissement d'une voie métabolique.Ces observations ont conduit à l'hypothèse célèbre dite "un gène, une enzyme" qui, sous la forme "un gène une protéine" sera pleinement confirmée par l'analyse ultérieure et indique la relation entre le génotype et le phénotype : une protéine est un caractère phénotypique.
La richesse des collections de mutants d'auxotrophie devint rapidement telle que l'on s'aperçut que des mutations entraînant le même phénotype (la même auxotrophie), pouvaient se produire dans des gènes différents et il fallut classer ces mutations. Par exemple, Beadle et Tatum ont analysé une collection de mutants exigents en arginine (mutants arg-) et montré, par des tests de complémentation adaptés à ce matériel que les différentes mutations conduisant à ce même phénotype ne se situent pas dans le même cistron. Test de complémentation : la rencontre de deux thalles filamenteux différents peut entraîner une fusion membranaire et l'apparition de cellules binuclées ou dicaryons. Dans de telles cellules, la présence de deux noyaux  de génotype différent dans un même cytoplasme peut permettre une complémentation (la recombinaison est évidemment impossible). Grâce à ce test, il a été possible de réunir les différents mutants arg- en groupes de complémentation ( argA, argB, argC etc...) qui correspondent à des gènes différents. Puisque la perte de fonction de l'un quelconque de ces gènes entraîne le même phénotype : auxotrophie arginine, il est clair que la synthèse de l'arginine nécessite plusieurs unités d'information. Beadle et Tatum ont précisé les exigences de chacun de ces groupes en ajoutant au milieu des composés proches de l'arginine et montré que ces exigences sont différentes pour chaque groupe de complémentation.. Par exemple, les souches argH ne peuvent croître que sur un milieu contenant de l'arginine (ce qui est normal puisqu'elle a été sélectionnée en raison de cette déficience), par contre, la souche argG peut croître en présence d'arginine mais pousse tout aussi bien si le milieu contient de l'arginosuccinate. La souche argF peut être complémentée par de l'arginine, de l'arginosuccinate mais aussi de la citrulline et la souche argE par l'un des trois composés précédents ou de l'ornithine.
Ceci cadre parfaitement avec l'hypothèse "un gène, une enzyme" la synthèse des molécules biologiques se fait par une cascade d'actions enzymatiques (voie métabolique) chaque étape est sous la dépendance d'un gène. Chaque gène est susceptible d'être modifié par une mutation conduisant à un allèle nul, ce qui entraîne la perte d'une fonction enzymatique.  INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap3/fig3%2C7.GIF" \* MERGEFORMATINET   
La première expression phénotypique de chaque gène est une protéine. C'est parce qu'ils gouvernent la production d'enzymes spécifiques de façon régulée que les gènes sont responsables de l'élaboration de l'ensemble du phénotype. 
FLUX D'INFORMATION GENETIQUE
1 - NOTION DE CODE GENETIQUE
L'hypothèse "un gène une protéine" évoquée au chapitre III a été confortée bien avant le développement des technologies de l'ADN recombinant. Ingram, vers 1957 a été l'un des premiers à établir la relation précise entre une mutation bien caractérisée ayant comme manifestation phénotypique une maladie héréditaire grave : l'anémie falciforme (ainsi nommée en raison de la forme des hématies des sujets homozygotes pour la tare) et une protéine spécifique : l'hémoglobine. L'hémoglobine normale est de type A et composée de quatre motifs polypeptidiques : deux chaines alpha et deux chaines beta, l'hémoglobine S, des sujets atteints est également composée des quatre sous unités mais elle se distingue de la A par sa mobilité électrophorétique. Par des méthodes d'analyse d'oligopeptides et de séquençage protéique que nous ne détaillerons pas, il fut montré que l'hémoglobine S diffère de la normale (A) par un seul acide aminé dans les chaines ß :
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap5/fig5-0.GIF" \* MERGEFORMATINET 
Le remplacement d'un acide aminé diacide (acide glutamique) par un neutre explique la différence de mobilité à l'éléctrophorèse. Par ailleurs, tous les autres acides aminés sont identiques, autrement dit, l'unité d'effet d'une mutation peut être le changement d'un seul acide aminé dans une protéine.
* Remarque : La biologie moléculaire des protéines a permis de comprendre qu'une très légère altération de la structure primaire pouvait bouleverser les structures secondaires et tertiaires avec des conséquences physiologiques considérables. Ce n'est pas toujours le cas, tout dépend de la position de la modification dans la protéine, certaines substitutions d'acides aminés ne peuvent avoir que peu ou pas d'effet.
Quelques années plus tard, Yanofsky établit une relation entre la structure du gène et la structure primaire de la protéine. Par les techniques de cartographie à haute résolution adaptées aux bactéries, il positionne plusieurs mutations supposées ponctuelles dans un cistron codant pour une sous unité A de la tryptophane synthétase d'E. coli. Il parvient également à séquencer le produit de ce cistron (la protéine) pour le gène sauvage et les variants. L'étude de la séquence en acides aminés de la tryptophane synthétase A des mutants confirme les conclusions précédentes : le plus souvent, un seul acide aminé est modifié, cependant, dans certains cas, les protéines sont tronquées, l'extrémité COOH est prématurée.Yanofsky peut donc construire une carte des effets des mutations dans la séquence protéique et la confronter à la carte génétique des mutations.
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap5/fig5-1.GIF" \* MERGEFORMATINET 
La figure ci-dessus montre une extraordinaire colinéarité entre les deux. Ceci suppose que la structure primaire de toute protéine soit spécifiée par un "gène", soit une séquence d'ADN.
* Remarque : extraordinaire ne veut pas dire parfaite quant aux distances, il faut bien comprendre la différence technique de réalisation des deux cartes : pour les protéines, il s'agit de cartes physiques, positionnant les acides aminés les uns après les autres, pour le cistron, il s'agit de carte génétique reposant sur des phénomènes de recombinaison in vivo .
Ces découvertes montrent clairement que l'information est codée. Chaque "gène" code une protéine particulière.
La découverte de l'ADN en tant que support de l'information laisse supposer que la séquence des nucléotides n'a pas de rôle dans la structure de la molécule mais constitue le code de la séquence des acides aminés dans les protéines.
Il existe donc un transfert d'information. Le code génétique représente le système de correspondance entre la séquence des nucléotides dans les acides nucléiques et celle des acides aminés dans les protéines. La correspondance n'est pas un nucléotide pour un acide aminé puisqu'il n'existe que 4 nucleotides différents pour 20 acides aminés différents. Le code génétique repose sur une combinaison de nucléotides. Une combinaison de 2 parmi 4 possibles ne peut suffire, une combinaison de 3 (64 possibilités) est vraisemblable et le système de triplets (3 nucléotides pour spécifier un acide aminé) est effectivement celui qui est universellement utilisé.
Bien avant que l'on ait réussi à déchiffrer l'intégralité du code, l'étude de certaines mutations a apporté des preuves génétiques à la colinéarité entre la séquence des triplets dans un cistron et celle des acides aminés dans la protéine qu'il spécifie. Le mécanisme de traduction implique la lecture des triplets les uns après les autres si l'on suppose le code non chevauchant (le fait que des mutations n'entrainent la modification que d'un seul acide aminé dans une protéine le laisse supposer). Cette traduction implique une notion très importante, celle de cadre de lecture : dans toute séquence d'ADN, si l'on admet le système de triplets, il existe 3 cadres de lecture potentiels.
Par exemple, la séquence :
                          ... A C G A C G A C G A C G A C G A C G A C G A C G A C G A ...
peut etre décomposée en
                              ACG  ACG  ACG  ACG  ACG  etc
soit, comme on le verra plus tard, une série de mots de code pour l'acide aminé thréonine.
*Remarque : jamais on ne trouve de telles séquences monotones dans l'ADN, il s'agit d'aider à la compréhension.
ou en                  CGA  CGA  CGA  CGA  CGA etc  soit arginine
ou en                  GAC  GAC  GAC  GAC  GAC etc  soit acide aspartique
Bien entendu, pour un cistron donné,une seule possibilité peut conduire à une protéine normale, la traduction assurera une lecture correcte. Des mutations par insertion ou délétion d'un seul nucléotide dans une séquence sauvage (correspondant à l'allèle habituel) ont permis de montrer l'importance du cadre de lecture.
Soit une séquence sauvage hypothétique (et peu vraisemblable) :
                     1 2 3  4 5 6 etc
               5'  GCT GCT GCT GCT GCT GCT GCT GCT GCT 3'
pour le brin codant, selon les conventions, le produit de transcription du brin complémentaire de celui-ci est
              5' GCU GCU GCU GCU GCU GCU GCU GCU GCU 3'
et la protéine :
                 NH2 Ala  Ala  Ala  Ala  Ala  Ala  Ala  Ala  Ala COOH
Supposons une mutation par insertion d'une adénosine en position 7 , les répercussions sont les suivantes:
                                    * ADN :        GCT GCT AGC TGC TGC TGC TGC TGC TGC
ARN :        GCU GCU AGC UGC UGC UGC UGC UGC UGC
Protéine :     Ala  Ala  Ser  Cys  Cys  Cys  Cys  Cys  Cys
à partir de l'insertion, toute la protéine est fausse, et certainement non fonctionelle
De même, une mutation par déletion d'une Guanine en 16 a également un effet de décalage du cadre de lecture :
                                                            * ADN :        GCT GCT GCT GCT GCT CTG CTG CTG CTG
ARN :       GCU GCU GCU GCU GCU CUG CUG CUG CUG
Protéine :      Ala  Ala  Ala  Ala  Ala  Leu  Leu  Leu  Leu
Par contre, si l'on examine un double mutant, on s'aperçoit que la 2ème mutation rétablit le cadre de lecture, elle supprime l'effet de la première.
                                                              * ADN :        GCT GCT AGC TGC TGC  TCT GCT GCT GCT
ARN :       GCU GCU AGC UGC UGC U CU GCU GCU GCU
Protèine :           Ala Ala Ser Cys Cys Ser Ala Ala Ala
* Remarque : Cette suppression de l'effet d'une mutation par une autre est une notion importante. Elle est est, ici, intra génique la deuxième mutation a lieu dans le même cistron que la première. Ce n'est pas toujours le cas, le phénomène de suppression peut être inter génique, physiologique ...
Trois mutations successives auraient des effets différents selon leur signe (par convention : + = insertion, - = délétion) Trois mutations de même signe rétablissent le cadre de lecture et le résultat est l'insertion ou la délétion d'un seul acide aminé dans la protéine.
Un acide aminé est donc bien spécifié par un système à trois nucléotides.
Par la suite, grâce à des expériences reposant sur des systèmes de synthèse protéique in vitro, la signification des 64 combinaisons possibles de trois nucléotides (parmi un choix de quatre) a pu être élucidée. Les résultats sont compilés dans le tableau ci-contre. Trois seulement n'ont pas de sens en termes d'acides aminés et des arguments génétiques montreront qu'il s'agit de signaux d'arrèt de la traduction. 61 triplets ont une signification pour l'un des 2O acides aminés et seront appelés des codons. Le tableau met en évidence de nombreux synonymes (on dit que le code est "dégénéré"). Seuls la méthionine et le tryptophane ne sont codés que par un seul triplet, les autres le sont par des familles de 2, 3, 4 et même 6 (arginine). A part cette exception (l'arginine), il est important de remarquer que les deux premiers nucléotides de triplets codant pour un acide aminé donné sont les mêmes, seul le troisième est variable.
Etant donné que l'ADN ne sert pas physiquement de support à la synthèse des protéines, il existe un flux d'information génétique dans la cellule.
*Remarque : Un premier flux d'information a déjà été étudié" avec la réplication de l'ADN, il représente l'état "reproduction" de la cellule, celui qui va être abordé représente l'aspect "métabolisme".
Ce flux d'information se fait en réalité en deux étapes : il existe un intermédiaire entre la séquence d'ADN - unité d'information et la protéine spécifiée : l'ARN messager. Par transcription, la séquence d'ADN est reproduite dans une séquence d'ARN qui repose, elle aussi sur un système à 4 nucléotides. La seconde étape est la traduction c'est à dire la réalisation d'une protéine spécifiée par l'ARN messager avec passage d'un alphabet à 4 lettres à un alphabet à 20 lettres.
FLUX D'INFORMATION GENETIQUE 2 MECANISME GENERAL DE LA TRANSCRIPTION
La transcription est une biosynthèse d'ARN qui repose, comme celle de l'ADN sur la complémentarité des bases.
Ce processus présente des analogies avec celui de la réplication (chapitre III) mais également des différences fondamentales:  
Contrairement à la réplication qui intéresse la totalité du génome à chaque cycle, le programme de transcription n'est pas fixe : seules, de petites portions du génome sont transcrites à une époque donnée de la vie de la cellule et ces portions varient en fonction du développement, de l'environnement etc... La transcription commence donc en un point précis de l'ADN pour se terminer en un point également précis, l'espace entre les deux constitue une unité de transcription, notion proche du cistron mais pas tout à fait identique.  INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap5/fig5-3.GIF" \* MERGEFORMATINET 
Un seul brin d'ADN est transcrit, c'est à dire sert de modèle à la polymérisation des ribonucléotides. En effet, un seul brin de l'ADN en un endroit donné a un sens en termes de protéine c'est pourquoi l'on écrit géneralement une séquence d'ADN sous forme d'une succession de bases de 5' à 3'. Dans cette convention on représente effectivement le brin qui possède le code (brin codant) mais, c'est l'autre brin (3' - 5' dans notre convention) qui est transcrit. Le résultat est une molécule d'ARN dont l'orientation 5' 3' correspond à l'orientation NH2 - COOH de la protéine. La lecture du code (la traduction) se fait dans le même sens que la transcription. * Remarque : Tout le produit de transcription ne correspond pas au code de la protéine, côté 5' (amont) une séquence guide ou "leader" permet la fixation de l'ARN messager au ribosome.
La transcription est assurée par une ARN polymérase qui utilise l'ADN simple brin (comme pour la réplication, une dénaturation locale de la molécule d'ADN est nécessaire) mais elle polymérise des ribonucléotides en regard des désoxyribonucléotides. * Remarque : Contrairement à l'ADN polymérase qui ne fait qu'allonger des chaines prééxistantes, l'ARN polymérase peut réaliser un dinucléotide au point d'initiation de la transcription .
De nombreux facteurs protéiques interviennent également pour assurer l'initiation, l'élongation et la terminaison mais ce ne sont pas les mêmes que ceux intervenant dans la réplication.
Il existe des différences sensibles entre la transcription chez les procaryotes et celle des eucaryotes et des différences encore plus importantes dans son contrôle, c'est pourquoi leur étude sera séparée.
2.1 TRANSCRIPTION CHEZ LES PROCARYOTES
L'ARN polymérase d'E. coli est une enzyme assez complexe composée de quatre sous unités : deux að, une ß, une ß ' et d'autres éléments protéiques établissent des liaisons temporaires avec ce complexe. Cette enzyme réalise la polymérisation de ribonucléotides face à un brin d'ADN mais, in vitro, commence n'importe où et s'arrète n'importe où. Une protéine pariculière, le facteur sigma, est capable, in vivo d'assurer la reconnaissance de séquences spécifiques situées légèrement en amont du point d'initiation de la transcription : les promoteurs. L'installation de l'ARN polymérase au niveau précis de ces promoteurs (grâce au facteur sð) va permettre la transcription du bon brin en commençant par le bon nucléotide. C'est le point crucial de l'initiation.
Au démarrage de l'élongation, le facteur sð quitte le complexe.
Cette étape marque le passage à l'allongement  de la chaîne d'ARN de 5' vers 3' jusqu'au site de terminaison.
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap5/fig5-4.GIF" \* MERGEFORMATINET 
On voit que la transcription correcte, dans l'espace, d'une molécule d'ARN, représentative d'une unité d'information, repose sur le point de départ et sur le point de terminaison.
Comment ces nucléotides précis sont ils déterminés ?
Ce sont les séquences promotrices et les sites de terminaison qui contiennent les informations nécessaires.
Plus d'une centaine de promoteurs d'E.coli ont été séquençés et l'alignement des séquences par rapport au point de départ de la transcription fait ressortir ce que l'on appelle des séquences consensus c'est à dire qui se retrouvent très fréquemment, au même endroit dans les différents promoteurs.
Une première , en position -10 est appelée "cassette" -10 ou cassette TATA en raison de sa composition ; une autre est une cassette -35 dont le consensus est TTGACA. Toute mutation dans ces régions affecte l'initiation de la transcription, soit dans le choix du brin à transcrire soit dans la position du point de départ. Des délétions qui modifient les distances de ces séquences, entre elles ou par rapport au point de départ affectent également la transcription.
Le promoteur est donc défini par des séquences consensus en positions précises.
La terminaison semble pouvoir se faire selon au moins deux mécanismes selon les renseignements apportés par des expériences de transcription in vitro. Pour certains cistrons, elle dépend de la structure secondaire prise par l'ARN lui-même, la séquence de l'extrémité 3' de nombreux messagers bactériens se rapproche de celle présentée ci contre, le signal de terminaison est ici reconnu après avoir été transcrit, la séquence polyuridilique en 3' implique une série de paires A-U (à deux liaisons hydrogène seulement) qui facilite la libération de la molécule d'ARN. Dans d'autres cas, un facteur protéique spécifique, le facteur rho, est nécessaire pour la terminaison et la libération de la molécule d'ARN.
*Remarque : Les trois classes d'ARN : ARN ribosomiques, ARN de transfert et ARN messagers sont synthétisés selon ce mécanisme de transcription. Il faut noter que, sur le plan qualitatif, les cistrons ribosomiques et de transfert sont peu diversifiés et occupent une petite partie du génome bien que sur le plan quantitatif, leurs produits puissent représenter plus de 90% de l'ARN cellulaire alors que l'ARN messager, peu représenté dans le cytoplasme peut l'être à partir de cistrons très variés qui se répartissent sur une grande partie du génome. Ce paradoxe est accentué dans la cellule eucaryotique.
2.2 LA TRANSCRIPTION CHEZ LES EUCARYOTES
Le principe est bien entendu le même : il s'agit de transcrire un code d'un système à quatre bases à un autre mais les modalités diffèrent.
2.2.1 LES ARN POLYMERASES
Alors qu'une seule enzyme synthétise toutes les catégories d'ARN des procaryotes, dans la cellule eucaryotique, trois ARN polymérases sont mises en jeu dans la transcription d'ensembles de cistrons différents.
L'ARN polymérase A transcrit les cistrons ribosomiques, elle assure la synthèse des ARN des ribosomes. Son lieu d'action est le nucléole, en effet, les très nombreux cistrons ribosomiques répétés (c'est une de leur caractéristique), sont groupés au niveau de loci précis : les organisateurs nucléolaires. A l'interphase, la transcription active de ces cistrons se manifeste sous forme de structures cytologiques : les nucléoles.
L'ARN polymérase B réalise la synthèse de tous les ARN messagers nucléaires, qui seront traduits en protéines.
L'ARN polymérase C assure la synthèse des petits ARN nucléaires (ARN de transfert et ARN ribosomique 5S) et la transcription de gènes cytoplasmiques (contenus dans les mitochondries et les plastes des végétaux).
Toutes ces polymérases sont des édifices protéiques complexes composés de quatre sous unités, rappelant celles des procaryotes, auxquelles s'ajoutent jusqu'à une douzaine de protomères. De plus, ces complexes ne fonctionnent, in vivo que gràce à l'interaction de nombreux autres facteurs protéiques étabissant des relations temporaires avec le noyau enzymatique.
Ce que l'on connait de la transcription des cistrons ribosomiques rappelle la transcription de l'ADN procaryotique et nous ne nous y attarderons pas. *Remarque : Le mécanisme de transcription "ressemble" ne veut pas dire que les systèmes de régulation soient identiques.
2.2.3 TRANSCRIPTION DES CISTRONS EXPRIMES EN PROTEINES
La transcription de ces cistrons est assurée par la polymérase B mais, parmi eux, il faut distinguer plusieurs types d'organisation.
Quelques rares gènes présentent des unités de transcription semblables à celles des procaryotes, le plus souvent, les gènes sont structurés en mosaique de portion codantes (les exons) et de portions n'ayant pas de signification protéique (les introns). L'organisation générale d'un messager eucaryotique est présentée ci-dessous.
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap5/fig5-14.GIF" \* MERGEFORMATINET  La synthèse d'ARN chez les eucarotes donne généralement naissance à un produit de transcription "primaire" (ou prémessager) qui devra subir une maturation pour fournir le messager cytoplasmique fonctionnel. Nous allons donc distinguer les deux étapes dans la réalisation d'un ARN messager fonctionnel : transcription et maturation.
2.2.3.1 TRANSCRIPTION.
Elle est assurée par la polymérase B mais l'initiation (en particulier) fait intervenir d'autres facteurs protéiques du groupe des TF II.
* Remarque : Les ARN polymérases A, B et C avaient été initialement baptisées I, II et III en raison de leur ordre d'élution de certains supports chromatographiques, TF II signifie "Transcription Factor" nécessaire au fonctionnement de la polymérase II (ou B).
La formation du complexe d'initiation nécessaire à la fixation précise de l'ARN polymérase B est résumée dans la figure ci-dessous.  Un premier complexe, TFII-D reconnait le promoteur et permet la fixation de TFII-A puis des interactions protéiques entre cet assemblage, TFII-B et la polymérase B permettent la fixation de celle-ci, son maintien est assuré par TFI-EI . D'autres facteurs (TFII-H et J) participent à la modification de la topologie de l'ADN . C'est au prix de cette complexité que la transcription est correctement initiée ! Ici encore, tout repose sur l'interaction de protéines spécifiques avec des séquences déterminées. Les promoteurs des eucaryotes, reconnus par l'ARN polymérase B (ou II), ont été étudiés à l'aide des outils les plus performants de la génétique moléculaire.
On note l'effet de mutations introduites à presque chaque position sur les 100 paires de bases en amont du point de début de transcription sur l'efficacité de l'initiation in vitro. La figure suivante montre que la plupart des modifications introduites artificiellement n'affectent pas la reconnaissance du promoteur, seuls, dans l'exemple choisi (promoteur du gène de la globine), trois modules très restreints aux environs de -30, -75 et -90 sont indispensables. Des expériences du même genre mais en introduisant des délétions entre ces modules ont montré que, pour un gène donné, leur position joue également un rôle. Le terme de modules prend toute sa signification quant on sait que les différents promoteurs en contiennent des assortiments variés (certains en plusieurs exemplaires et certains en orientation inverse).
- La cassette TATA vers -30 est probablement la seule séquence consensus située à une position fixe présente dans la quasi totalité des gènes de la classe II, elle semble jouer un rôle dans la précision du premier nucléotide transcrit.
- La cassette CAAT est située à -80 dans l'exemple donné du gène de la globine mais sa position peut varier selon les gènes. - La cassette GC (en raison de sa composition en bases) est souvent en plusieurs copies et dans les deux orientations.
Ces modules de base représentent donc un signal pour le complexe d'initiation de la polymérase B mais leur assemblage en différentes combinaisons possibles permet déjà une diversification qui va intervenir dans la régulation de la transcription. Dans un chapitre suivant, on verra que d'autres modules, parfois très éloignés du promoteur "de base", jouent également un rôle dans la régulation.
Bien entendu, l'étape d'initiation de la transcription est cruciale, mais il existe également des éléments nécessaires à l'élongation et à la terminaison qui peuvent jouer un rôle dans le contrôle de la synthèse d'ARN mesagers.
*Remarque : Les signaux de terminaison sont moins bien connus que chez les procaryotes, par contre on connait des signaux de polyadénylation (l'ajout d'une séquence polyadénylée en 3' OH des messagers eucaryotiques fait partie de la maturation).
2.2.3.2 MATURATION
La maturation de la plupart des transcrits primaires porte sur 3 points :
la formation d'une structure particulière (coiffe) en 5'.
l'adjonction d'une séquence polyadénylée en 3'
l'épissage : excision des introns et jonction des exons.
La coiffe est formée par addition d'une guanosine triphosphate : le premier nucléotide du messager est généralement une purine, A ou G et représente théoriquement l'extrémité 5' triphosphorylée de la molécule :                                                                  5'pppA-pN-pN-pN-pN-pN ... , en fait, une guanine est ajoutée par une liaison inhabituelle 5'-5' :
                            Gppp + pppA-pN-pN-pN-pN-pN           >>           Gp-ppA-pN-pN-pN-pN-pN...
diverses methylations peuvent se produire ensuite notamment une en position 7 de la guanine et sur le ribose pour compléter cette structure que l'on retrouve dans tous les messagers eucaryotiques.
La polyadénylation est un ajout post-transcriptionnel de nucléotides adényliques au niveau d'un site de polyadénylation du transcrit primaire. Le site est reconnu par un complexe protéique comportant une poly-A polymérase. Cette structure va former l'extrémité 3' du messager, elle peut aller jusqu'à 2OO nucléotides .
                                                   5' 5'                                                                                      3'
                                                Gp-pA-pN...................pNpA-pA-pA-pA-pA-pA-pA-pA-pA
Les gènes mosaïques sont transcrits depuis le point d'initiation jusqu'au signal de terminaison, les introns de ce prémessager ou transcrit primaire doivent donc être éliminés et la jonction des exons se faire avec précision. L'ensemble se fait simultanément par un mécanisme d'"épissage". *Remarque : ce que nous savons du code génétique et du cadre de lecture permet de comprendre à quel point l'épissage doit être précis, la jonction exon - intron ne coincidant d'ailleurs pas forcément à une limite entre deux triplets.
Selon les unités de transcription envisagées, il existe plusieurs mécanismes d'épissage, tous font intervenir d'autres molécules d'ARN que le transcrit primaire, dans certains cas, l'ARN lui-même suffit à catalyser la réaction . * Remarque : La découverte d'une activité catalytique liée à un acide nucléique (les ribozymes) a un impact considérable en génétique évolutive.
Le mécanisme décrit ici est celui utilisé pour la plupart des messagers nucléaires, il fait appel à des ribonucléoprotéines dont les deux composantes ont certainement leur importance, mais c'est la molécule d'ARN qui joue un rôle certainement prépondérant. L'analyse de nombreux introns de levure a fait apparaitre trois séquences consensus que l'on a pu généraliser : la première, GU est appelée consensus gauche car elle représente l'extrémité 5' de l'intron, de même que la droite (AG) représente la jonction 3' intron - 5' exon suivant, une autre, UACUAAC chez les messagers de levure (plus généralement Py N Py Py Pu A Py chez les eucaryotes supérieurs, Py représente une pyrimidine, N un nucléotide quelconque, Pu une purine, l'adénine étant remarquablement constante) est située peu avant l'extrémité 3' de l'intron et appelée séquence de branchement pour les raisons évoquées ci-dessous.
Des mutations dans les nucléotides codant pour ces trois séquences d'un intron empèchent l'épissage correct des exons qui l'encadrent.Ces séquences sont reconnues par des ribonucléoprotéines (en jaune sur le schéma) qui vont former un complexe nécessaire à l'épissage, appelé splicéosome (de splicing = épissage), visible en microscopie électronique. Les molécules d'ARN de ces complexes, connues depuis longtemps sans qu'on ait pu, au départ, leur attribuer une fonction, appartiennent au groupe des "petits ARN nucléaires" : classes discrètes de 100 à 1000 nucléotides, qui ne sortent pas du noyau, ont un turn-over très lent, sont riches en uridines, et dont chaque molécule est associée à une dizaine de protéines pour former un complexe parfois appelé un Snurp (Small Nuclear Uridine-rich RibonucleoProtein ).
L'édifice représenté sur la figure, imposé par la liaison des différents Snurps, va replier l'intron et permettre une liaison curieuse de l'extrémité 5' de l'intron à l'hydroxyle 2' de l'adénine de la séquence consensus dite "de branchement". L'extrémité 3' va être détachée de la 5' de l'exon suivant et une liaison phosphodiester peut se créer entre les exons. *Remarque : Le branchement en 2' de l'adénosine fait prendre une structure dite en "lasso" à l'intron, in vivo, ce lasso est immédiatement dégradé mais dans des expériences in vitro, on peut l'observer en microscopie electronique. Ce mécanisme complexe est génétiquement controlé et joue un rôle important dans la régulation de l'expression des gènes chez les eucaryotes.
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap5/fig5-15.GIF" \* MERGEFORMATINET 
FLUX D'INFORMATION GENETIQUE
3 TRADUCTION
C'est le mécanisme par lequel le flux d'information va passer de la forme acide nucléique (alphabet à 4 lettres) à la forme protéine (alphabet à 20 lettres) selon un code universel.
*Remarque : peu de temps après avoir réussi à déchiffrer le code génétique (c'est à dire après avoir attribué une signification à chaque triplet de bases) et montré que le même code est utilisé par les virus, les procaryotes et les eucaryotes, il devint clair que certains organites des cellules eucaryotiques (mitochondries et chloroplastes) possèdent leur propre information génétique. Le flux d'information dans ces organites reste tout à fait classique mais le transfert mitochondrial d'acide nucléique à protéines utilise un code différent du code universel. La façon dont ont évolué les codes génétiques mitochondriaux (ils diffèrent en effet selon les éspèces) reste une énigme.
Sur le plan génétique, les éléments essentiels de la traduction sont :  
l'ARN messager (ARNm) il apporte la succession des codons spécifiant chaque acide aminé de la protéine
les ribosomes ils servent de support pour assurer la liaison successive des acides aminés
les ARN de transfert (ARNt) capables d'assurer la reconnaissance et la liaison entre un codon et un acide aminé précis
les aminoacyl-ARNt synthétases enzymes qui assurent la spécificité de la liaison entre un ARN de transfert précis et l'acide aminé correspondant.
* Remarque : Sur le plan biochimique, d'autres enzymes et cofacteurs interviennent pour assurer la formation des liaisons covalentes (liaison peptidique en particulier) et toute la cinétique de la traduction, ils ne seront pas évoqués ici.
3.1 LES ARN DE TRANSFERT ET LA LIAISON DES ACIDES AMINES
Il n'existe aucune affinité entre les ARN messagers et les acides aminés, ni in vivo ni in vitro, la jonction entre le code et ce qu'il spécifie se fait par l'intermédiaire de molécules adaptatrices : les ARN de transfert. Ces petites molécules (environ 70 nucléotides) possèdent deux fonctions essentielles : la possibilité, pour chacune d'entre elles de se lier à un acide aminé spécifique et d'autre part de reconnaitre un codon précis grâce à un anticodon c'est à dire un triplet complémentaire du codon. La reconnaissance anticodon - codon repose sur la complémentarité des bases et met en jeu la structure primaire des ARN de transfert, la reconnaissance spécifique d'un acide aminé est beaucoup plus complexe et implique l'architecture, en trois dimensions, de ces molécules particulières.
Les ARN de transfert
L'image d'une structure secondaire en "feuille de trèfle" représentée dans la figure ci-dessous est familière et fait ressortir la présence de palindromes et la structure secondaire qui en découle.
Classiquement on va distinguer plusieurs régions caractéristiques:  
le bras accepteur comprend les deux extrémités, c'est l'extrémité 3' qui va fixer l'acide aminé, elle est invariable pour tous les ARN de transfert (C C A), et ne confère donc aucune spécificité.
une succession de structures en double hélice interompues par des boucles dont  la boucle anticodon qui contient le triplet spécifique
Cette représentation plane ne donne pas une idée précise de la structure tertiaire, grossièrement en forme de "L", maintenue par des liaisons hydrogène. Or, c'est certainement cette structure qui conditionne la fonction de ces molécules adaptatrices. *Remarque : les ARN de transfert contiennent des bases dites "rares" telles que pseudouridine, dihydrouridine, inosine ... qui sont en fait des bases modifiées après la transcription. Ces bases contribuent largement à l'établissement de la structure tridimensionnelle par des liaisons hydrogène inhabituelles.
Les aminoacyl-ARNt synthétases
Les enzymes capables de catalyser la "charge" des ARN de transfert, c'est à dire de relier le bon acide aminé à l'ARNt porteur du bon anticodon sont appelées aminoacyl-ARNt synthétases, il en existe autant que d'acides aminés et chacune est capable de reconnaitre les différents ARNt synonymes.
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap5/fig5-12.GIF" \* MERGEFORMATINET 
La figure ci-dessus souligne l'importance des structures tertiaires (malheureusement représentées en plan) dans la spécificité de la charge des ARNt.
* Remarque : Les aspects énergétiques ne sont pas abordés ici.
3.2 LES RIBOSOMES ET L'ENCHAINEMENT DES ACIDES AMINES
Les ribosomes sont des "organites" de composition complexe souvent comparés à des "têtes de lecture" se déplaçant sur l'ARN messager. Chacun est constitué de deux sous unités ribonucléoprotéiques géneralement désignées par leur coefficient de sédimentation en Svedbergs (S), de même que les molécules d'ARN qui entrent dans leur composition, celle-ci est résumée dans le tableau suivant pour un ribosome procaryotique de 70 S    
 "Taille" ARN Protéines (nb de molécules) petite sous unité
grande sous unité 30S
50S 16S
23S 21
34   
* Remarque : Les ribosomes eucaryotiques (cytoplasmiques) sédimentent vers 80 S avec des sous unités 40 S et 60 S, leur composition détaillée varie légèrement selon le règne (animal, végétal, champignons)
Les deux éléments du ribosome sont indispensables à la traduction et vont se mettre en place au moment de la phase d'initiation de ce processus. Dans le cytoplasme, leur association spontanée, en absence de traduction, est empêchée par l'association d'une protéine supplémentaire avec la petite sous unité : le "facteur" d'initiation IF3.
La petite sous unité reconnait l'ARN messager et s'y fixe, la grosse sous unité vient compléter le ribosome et présente des sites  de reconnaissance et de traitement de chaque ARN de transfert chargé en acide aminé.
Les schémas présentés dans les figures ci-dessous sont loin de la réalité car encore une fois ils représentent les événements en deux dimensions alors que tout repose sur la structure tridimensionnelle des différents acteurs, tout est une question de "creux et de bosses" disposés à bon escient !
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap5/fig5-131.GIF" \* MERGEFORMATINET 
Ainsi, deux sites essentiels de la grosse sous unité (A et P) permettent de recevoir des ARN de transfert avec un espacement correspondant exactement à deux triplets successifs. Le site P (par lequel la Protéine naissante sort du complexe de traduction) ne peut être reconnu que par un ARN de transfert caractéristique de l'initiation (ARNti) systématiquement chargé en méthionine (chez les eucaryotes) ou en formyl-méthionine (chez les procaryotes). Cet ARN chargé est différent de celui qui sera utilisé en cours de synthèse pour apporter une méthionine là où le code le demande bien que le codon spécifiant la méthionine (A U G) soit unique, tout repose sur les structures tertiaires de l'ARNt d'initiation (ARNtimet) et des autres. Des facteurs protéiques d'initiation (IF), formant un complexe avec l'ARNti chargé (en méthionine ou en formyl methionine) jouent un rôle essentiel dans la reconnaissance du site P.
Lorsque cet assemblage est effectué, un second ARNt chargé vient occuper le site A (sur lequel arrivent les Acides Aminés). Le choix repose sur l'appariement codon-anticodon de telle sorte que l'acide aminé spécifié par le deuxième codon est en contact avec la méthionine d'initiation, une liaison peptidique peut s'établir entre les deux acides aminés.
* Remarque : Dès maintenant, il est clair que la fidélité du transfert de l'information fait intervenir l'appariement codon-anticodon, on sait que les deux premiers nucléotides du codon sont reconnus d'une façon très stricte, les règles d'appariement du troisième sont différentes.
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap5/fig5-132.GIF" \* MERGEFORMATINET 
L'élongation va faire intervenir une translocation du ribosome c'est à dire un décalage correspondant exactement à un triplet de nucléotides. Le résultat est que le site A se trouve libre pour recevoir un troisième ARNt chargé d'un troisième acide aminé (spécifié par le codon "en cours" face au site A) ce qui entraîne une deuxième liaison peptidique, les ARNt amont (côté site P) sont libérés. Ici encore, des facteurs protéiques, spécifiques de l'élongation (EF) forment des complexes avec les ARNt chargés pour assurer l'installation dans le site A.Les translocations se poursuivent avec adjonction séquentielle d'acides aminés à la chaine en cours jusqu'à la terminaison.
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap5/fig5-133.GIF" \* MERGEFORMATINET  Celle ci est programmée, dans l'ARN messager par un triplet signifiant l'arrêt (codons stop : U A G appelé amber, U A A ochre et U G A opal, terminologie liée à l'historique de la découverte de ces signaux d'arrêt. Aucun ARN de transfert ne possède d'anticodon correspondant, le site A reste inoccupé, la translocation s'arrête et la protéine est relachée. * Remarque : Toute mutation, dans un cadre de lecture, conduisant à l'apparition d'un de ces triplets est une mutation "non sens" et conduit à une fin prématurée de la protéine.
   
Les cistrons sont transcrits en ARN messagers eux mêmes traduits, au niveau des ribosomes lors de la synthése de protéines dont la séquence est spécifiée par la séquence de l'ADN. Ces mécanismes complexes permettent la réalisation d'un phénotype protéique parfaitement conforme à l'information codée.
Le code génétique est le système de correspondance entre les acides nucléiques et les protéines, il utilise des triplets de nucléotides non chevauchants.  
REGULATION DE L'EXPRESSION DES GENES
Comme nous l'avons vu, le programme de transcription n'est pas fixe. La cellule sait adapter ce programme aux conditions extérieures, au mieux de son économie ; chez les Eucaryotes, l'environnement peut être représenté par les cellules voisines, le développement, la différenciation supposent l'expression régulée de gènes différents dans les diverses cellules. La question qui se pose maintenant est celle du choix des portions du génome qui doivent être exprimées à un moment donné dans un environnement donné. Dans une première partie, nous allons utiliser l'étude de la cellule procaryotique pour donner quelques exemples de contrôle de l'expression de gènes et dégager des notions fondamentales de régulation. 1 - LES PROCARYOTES La cellule bactérienne est capable d'adapter très rapidement son métabolisme aux modifications de l'environnement. Prenons une suspension de cellules d'Escherichia coli . Une partie de la suspension est cultivée dans un milieu minimal contenant du lactose (disaccharide composé de deux molécules de glucose) comme seule source de carbone (milieu A). Une autre partie est cultivée dans le même milieu minimal mais contenant du glucose comme source de carbone et auquel on a ajouté les 20 acides aminés (milieu B). On constate que les cellules du milieu A croissent (prolifèrent), mais moins vite que celles du milieu B. Elles doivent en effet assurer le clivage du lactose en deux monosaccharides (glucose et galactose) assimilables et toute la biosynthèse des acides aminés. L'étude biochimique et génétique de l'utilisation du lactose par E. coli va nous montrer comment l'économie réalisée par les cellules cultivées dans le milieu B (de génotype identique à celcelles cultivées sur le milieu A) se fait, par adaptation du programme d'expression des gènes, dès le niveau transcriptionnel. Ces résultats sont le fruit des travaux de Jacob, Monod et leurs collaborateurs dans les années 60. Par des méthodes biochimiques appropriées, il est possible de doser l'activité de la béta-galactosidase (b-galactosidase), enzyme catalysant la dégradation du lactose. Cette activité est présente dans les cellules du milieu A mais absente (à la limite de la détection) dans les cellules du milieu B. Si des cellules "B", sont transférées dans le milieu A (ne contenant plus de glucose mais du lactose, une activité b-galactosidase apparaît très rapidement et s'amplifie d'un facteur 1000 en quelques 20 minutes. L'activité enzymatique est donc induite par la présence de lactose dans le milieu. Inversement, chez ces mêmes cellules transférées dans un milieu contenant à nouveau du glucose, l'activité enzymatique semble réprimée et disparaît. Ainsi, la présence de lactose semble déclencher la synthèse d'enzymes spécifiques : la b-galactosidase, codée par le gène Lac Z, mais également une perméase (codée par le gène Lac Y), capable d'accélerer la pénétration du lactose dans la cellule et une transacétylase codée par le gène A), qui joue un rôle dans le métabolisme d'autres galactosides. Ces trois activités enzymatiques sont co-régulées (elles apparaissent en réponse à une même induction. Des méthodes très fines de cartographie montrent que ces gènes sont adjacents dans une région "Lac" du chromosome bactérien. * Remarque : L'apparition brutale d'une activité enzymatique ne suffit pas à prouver une régulation au niveau de la transcription des gènes. En effet, une enzyme peut être présente sous une forme inactive et l'induction représenter en fait l'activation de protéines préexistantes dans le cytoplasme. la preuve directe d'un contrôle au niveau transcriptionnel a été apportée plus tard grâce aux techniques permettant de doser des ARN messagers spécifiques. Un ADN complémentaire de l'ARN messager de la b-galactosidase a été inséré dans un vecteur de clonage. Après amplification, cette séquence a servi de sonde pour détecter, dans des préparations brutes d'ARN (extraits avant et après le passage au lactose), l'ARN messager de la b-galactosidase (seul capable de s'hybrider avec la sonde) et le quantifier. Les résultats indiquent que l'accumulation de ce messager débute dès l'induction, elle précède celle de l'enzyme. L'induction porte donc bien sur la transcription du gène lui-même. *Remarque : Le lactose fait partie de ce que l'on appelle des molécules effectrices, c'est à dire des molécules capables de refléter l'environnement cellulaire et de transmettre un signal permettant un choix transcriptionnel. Il faut noter que, dans cet exemple particulier, le lactose est loin d'être le meilleur inducteur de la transcription des gènes impliqués, d'autres petites molécules glycosidiques, naturelles ou artificielles (telles que l'isopropyl-thiogalactoside ou IPTG) sont beaucoup plus efficaces et utilisées au laboratoire. 1.1. ANALYSE GENETIQUE DE LA REGULATION L'analyse génétique des procaryotes, qui a permis d'élucider les mécanismes fondamentaux de la régulation, relève d'une gageure : il s'agit de cellules haploïdes tout au long de leur cycle, sans reproduction sexuée, nous privant, apparemment des deux outils de base que sont la recombinaison et la complémentation. En fait, dès 1946, Lederberg et Tatum utilisaient d'une façon très élégante les possibilités de mélange de matériel génétique chez les bactéries, liées au phénomène de conjugaison. 1.1.1. LA CONJUGAISON BACTERIENNE Pour des souches possédant un certain génotype, les cellules sont capables d'émettre des prolongements cytoplasmiques jusqu'à des cellules d'un génotype différent et de faire circuler des éléments génétiques par ce pont. Les éléments génétiques ainsi transférés d'une cellule "donneuse" à une cellule receveuse (l'échange n'est pas réciproque) sont de nature variée. Le premier élément identifié a été baptisé facteur F (comme fertilité). Il s'agit de l'une des "pièces détachées" du génome bactérien que sont les petites molécules d'ADN circulaire, extrachromosomiques, appelées plasmides. Dans le cas du facteur F, il s'agit en fait d'un épisome qui peut se comporter soit comme un plasmide soit, par un mécanisme de recombinaison, s'intégrer au chromosome bactérien. Dans ce dernier cas, son transfert, par conjugaison, peut entraîner un morceau du chromosome. Ce phénomène (rare) permet la formation de diploïdes partiels, c'est à dire que la bactérie receveuse possède des informations génétiques provenant d'une autre cellule. Le petit fragment de génome ainsi ajouté à l'ensemble résident est appelé exogénote. Sauf s'il possède une origine de réplication et se transmet de façon autonome, cet élément génétique n'est pas stable et se perd en quelques heures, dans certains cas, il peut cependant s'intégrer au chromosome de la bactérie receveuse par recombinaison homologue.
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap6/fig6-1.gif" \* MERGEFORMATINET  * Remarque : Pour des raisons mécaniques, le pont cytoplasmique de conjugaison est rapidement rompu, en aucun cas le transfert d'une copie complète du chromosome de la cellule donneuse ne peut avoir lieu. D'où le terme de mérozygote parfois utilisé pour désigner le diploïde partiel. Le mot zygote rappelle qu'il s'agit de sexualité, c'est à dire de mise en commun d'informations génétiques d'origines différentes mais, chez les procaryotes, la sexualité n'est pas associée à la reproduction. Lederberg et Tatum ont apporté la preuve de ce transfert de gènes entre bactéries en réalisant l'expérience suivante. Elle consiste à mélanger deux souches porteuses de mutations différentes. Par exemple une souche A n'est capable de se développer dans un milieu minimal non supplémenté en méthionine et en biotine. Elles sont devenues auxotrophes pour ces composés par perte de fonction de gènes impliqués, l'un dans la biosynthèse de méthionine, l'autre dans la biosynthèse de la biotine. Ces mutations sont symbolisées par un génotype met- bio- . Une autre souche, la souche B, est de génotype thr- leu- et thi- , ici, trois gènes sont mutés et les cellules ont besoin de l'adjonction de thréonine, de leucine et de thiamine au milieu minimal pour se développer. Des bactéries des souches A et B sont mélangées et laissées environ 1 heure dans un milieu contenant tous les éléments nécessaires à la survie des deux ( méthionine, biotine, thréonine, leucine et thiamine). La suspension est étalée sur un milieu minimal (non supplémenté) et, après environ 12h, on voit se développer quelques rares colonies. Rare excluant malgré tout une possibilité de réversion de mutation (voir le chapitre concernant la nature du matériel génétique), il faut conclure qu'un transfert d'allèles sauvages a été possible d'une cellule à une autre. (exercice) Deux explications, non exclusives, permettent de rendre compte du phénotype sauvage : soit l'exogénote, qui présente une grande homologie avec une région précise du chromosome de la cellule receveuse, va s'échanger avec cette région par recombinaison, soit il est transmis à la descendance (parce qu'il possède une origine de réplication par exemple) et il est capable de complémenter les allèles défectueux des clones issus de la cellule receveuse. C'est ce dernier cas qui va être utilisé dans l'étude de la régulation. * Remarque : La conjugaison représente un moyen naturel de transfert de matériel génétique. Par la suite, des souches dites Hfr (comme haute fréquence de recombinaison), dont le facteur F est toujours intégré dans le chromosome, ont été sélectionnées . Actuellement, la transformation, par des plasmides recombinés in vitro, apporte une grande souplesse et une grande efficacité dans la création de diploïdes partiels. De plus, des souches mutées, incapables de recombinaison (in vivo) permettent d'étudier, sans ambiguïté, les effets de complémentation. 1.1.2 EXEMPLE DE L'ADAPTATION A L'UTILISATION DU LACTOSE Plusieurs types de mutation peuvent interférer avec l'utilisation du lactose.
Des mutations dans le gène Z empêchent le catabolisme du lactose par absence de b-galactosidase, des mutations dans le gène Y empêchent la pénétration active du lactose à l'intérieur de la cellule. Dans ces deux cas le phénotype, symbolisé par lac-, c'est à dire impossibilité d'utiliser le lactose, résulte d'un défaut enzymatique.
D'autres mutations perturbent d'une façon tout à fait différente l'utilisation du lactose : elles affectent la production de trois enzymes en même temps (b-galactosidase, perméase et transacétylase). Plusieurs de ces mutations entraînent un phénotype constitutif c'est à dire production d'enzymes en absence d'inducteur.
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap6/fig6-21.gif" \* MERGEFORMATINET 
Etant donné que les trois gènes cartographient côte à côte sur le chromosome, on peut supposer que leur expression est régulée par un même système et que les mutations constitutives affectent non pas une production d'enzyme mais un élément de contrôle. Cet ensemble forme ce que l'on appelle un opéron bactérien. Les premières mutations constitutives étudiées ont été appelées I-et sont localisées près du gène Z, par la suite on a caractérisé des mutants constitutifs Oc, ces mutations sont situées encore plus près de Z. L'analyse de ces mutants par des expériences très élégantes faisant appel à des diploïdes partiels a permis au groupe de Monod et Jacob d'élaborer le célèbre modèle de régulation de l'opéron lactose par répression de la transcription. Le tableau ci-dessous rappelle les caractéristiques phénotypiques des mutants utilisés.
                                     
GENOTYPEPHENOTYPEI+ O+ Z+ Y+sauvage (inductible)I+ O+ Z- Y+
I+ O+ Z+ Y-Lac- (non inductible)I- O+ Z+ Y+
I+ Oc Z+ Y+     constitutif Pour la conjugaison, des souches Hfr (F+), sensibles à la streptomycine (Sms) sont utilisées comme cellules donneuses, les souches receveuses sont résistantes à la streptomycine (Smr). Après contact, les cellules sont étalées sur un milieu contenant de la streptomycine et contenant ou non un inducteur (ici de l'IPTG). Le tableau suivant résume les principaux "croisements" réalisés et indique la production de b-galactosidase en présence ou en absence d'inducteur (+ indique une production, - son absence).
   sans inducteurIPTGF+SmsI+O+Z+ / SmrI+O+Z-     -  +F+SmsI+O+Z+ / SmrI-O+Z+     -  +F+SmsI+O+Z+ / SmrI+OcZ+    +  + *Remarque : Ce tableau est à analyser avec beaucoup d'attention, l'interprétation de tels résultats a valu le prix Nobel à F. Jacob, J. Monod et A. Lwoff.
1.1.3. MODELE DE REGULATION PAR REPRESSION DE LA TRANSCRIPTION La présence de b-galactosidase chez un diploïde partiel Z-/Z+ indique qu'une complémentation est possible, l'allèle Z+ de la cellule donneuse est exprimé dans le cytoplasme de la cellule receveuse (on peut dire que l'allèle Z+, sauvage, est dominant par rapport à Z-, muté). De même, la présence de l'allèle I+ rétablit le contrôle normal (inductible) de l'expression du gène Z. On peut en conclure que ce gène est exprimé en une protéine capable d'agir sur la transcription de l'opéron. Monod et Jacob proposent que cette protéine (produit du gène I) soit un répresseur de la transcription lorsque l'inducteur est absent (l'induction serait en fait une levée de la répression). Les résultats obtenus avec les diploïdes partiels O+/Oc sont très différents, il n'y a pas complémentation, l'allèle muté semble dominant par rapport au sauvage. Ceci ne peut s'expliquer que si le locus O n'est pas un gène exprimé mais une séquence particulière d'ADN que l'on appellera le site opérateur. Le schéma de fonctionnement de l'opéron serait alors le suivant : en absence d'inducteur, le répresseur produit par le gène reconnaît spécifiquement le site O et s'y fixe. L'encombrement de ce complexe (on découvrira plus tard que c'est en fait un tétramère qui se fixe) est tel que l'ARN polymérase est incapable de se fixer au site promoteur. Le promoteur étant unique pour les trois unités de fonction Z, Y et A, on comprend que la répression bloque la transcription de l'ensemble.
Comment se fait l'induction ? Une propriété très intéressante de certaines protéines est celle d'allostérie : la fixation d'une molécule particulière (ligand) peut provoquer une modification globale de la structure tridimensionnelle d'une protéine réceptrice. C'est ce qui ce produit ici, le lactose a une affinité pour la protéine répresseur et sa liaison provoque une transition allostérique de celui-ci. Si l'on tient compte du fait que l'interaction d'une protéine avec une séquence d'ADN nécessite l'établissement de liaisons hydrogène entre des atomes précis d'acides aminés précis et des atomes précis de bases, la déformation de la protéine ne permettra plus cette interaction et le complexe répresseur-inducteur sera incapable de se fixer à l'opérateur.
Le principe d'interaction protéine (en tant que séquence spécifique d'acides aminés conditionnant sa structure tridimensionnelle) et séquence d'ADN permet de comprendre l'effet des mutations I- et Oc. Une mutation dans le locus I conduit à une altération de la structure du répresseur voire à une absence de la protéine (allèle nul). Dans tous les cas, une liaison répresseur - opérateur ne peut s'établir et l'ARN polymérase peut s'installer à l'opérateur. Si le répresseur possède une structure correcte mais que la séquence opératrice est altérée par une mutation (Oc par exemple), le résultat est le même : aucune possibilité de former un complexe répresseur - opérateur ; la transcription de l'opéron est possible en permanence.
1.1.4 LE REPRESSEUR Une confirmation d'un mode de régulation par répression a été apportée par des mutations Is, s signifiant "super-réprimé". Ces mutants sont incapables d'utiliser le lactose car l'opéron est réprimé en permanence, le lactose ne peut induire la transcription. Les mutations affectent bien le gène I, mais dans une région importante pour la formation du complexe répresseur - inducteur. La région essentielle pour la liaison du répresseur à la séquence opératrice étant intacte, l'état réprimé est stable. Ces observations permettent d'aborder un aspect plus général des protéines de régulation, celui de domaines fonctionnels spécialisés. L'analyse détaillée de la protéine après clonage du gène I dans un vecteur d'expression et surproduction par des clones bactériens transformés (voir le chapitre correspondant) confirmera ce concept. Les mutations I-, Is et d'autres ne sont pas disposées de façon aléatoire dans le gène mais leur cartographie reflète le fait qu'une partie de la protéine codée est essentielle dans la reconnaissance du site opérateur, une autre région est nécessaire pour la fixation de l'inducteur et la transition allostérique, une autre permet la formation d'un tétramère. Cette notion de protéines de régulation modulaires, séparables en domaines fonctionnels, se retrouvera chez les Eucaryotes. 1.1.5. OPERON INDUCTIBLE ET OPERON "REPRESSIBLE" L'opéron lactose ne fonctionne que s'il est induit par une molécule effectrice capable de lever l'effet du répresseur, il est dit inductible. Dans d'autres cas c'est l'inverse, la molécule effectrice provoque la répression de la transcription, l'opéron est dit répressible. Un exemple typique nous est fourni par un opéron intervenant dans la biosynthèse du tryptophane. *Remarque : l'opéron lactose intervient dans le catabolisme, l'opéron tryptophane intervient dans l'anabolisme.
Cet opéron comporte cinq gènes codant pour des enzymes impliquées dans la synthèse du tryptophane (les cistrons trpE, D, C, Bet A) groupés, sous la dépendance d'un seul système promoteur - opérateur. Un gène, trp R, qui ne fait pas partie de l'opéron, code pour un répresseur spécifique de l'opéron tryptophane. Cette protéine est incapable de se lier au site opérateur, et par conséquent inactive, tant qu'elle n'est pas complexée avec une molécule effectrice : le tryptophane lui-même. Il agit donc comme un corépresseur dans ce mécanisme de régulation en retour par le produit final de la chaine métabolique de l'opéron.
1.1.6 CONTROLE NEGATIF ET CONTROLE POSITIF Les gènes soumis à un contrôle négatif ne sont pas transcrits si un répresseur est lié à l'opérateur. C'est le cas des opérons lactose ou tryptophane. Les gènes soumis à un contrôle positif ne sont transcrits efficacement que si une protéine régulatrice favorise l'initiation. L'opéron lactose est également soumis à un contrôle positif. Il a été précisé au début de ce chapitre que la transcription est induite si l'on remplace le glucose par du lactose comme seule source de carbone dans le milieu minimal. En effet, si l'on ajoute du lactose, l'opéron n'est pas transcrit tant que le glucose n'est pas épuisé. Ce phénomène, qui concerne de nombreux opérons du catabolisme est appelé "effet glucose" ou encore "répression catabolique". Il repose, comme les autres modes de régulation sur une protéine à régulation allostérique et une molécule effectrice. Deux types de mutations abolissent l'effet glucose : le premier concerne les gènes impliqués dans la formation de l'adénosine monophosphate cyclique (AMPc,) notamment celui de l'adénylate cyclase, le second dans un gène codant pour une protéine appelée "CAP" comme protéine activatrice du catabolisme. On a pu montrer que le glucose freine la production d'AMP cyclique à partir de l'ATP et maintient un très faible niveau d'AMPc. Lorsque le glucose diminue, la concentration en AMPc augmente, or cette molécule peut former un complexe spécifique avec la protéine CAP. Il en résulte une modification de la structure tridimensionnelle et le complexe est capable de se fixer sur l'ADN, au niveau d'une séquence particulière appelée site CAP, située un peu en amont du promoteur. La liaison entraîne une contrainte topologique de la double hélice d'ADN qui favorise l'initiation de la transcription.
1.2 CONCLUSION Les quelques exemples qui ont été choisis (il existe d'autres mécanismes qui n'ont pas été décrits ici) montrent que quel que soit le mode de contrôle, positif ou négatif, quelles qu'en soient les modalités dans le détail, le schéma de base est le même. Les gènes codant pour des enzymes (tels que LacZ, Y, TrpA ...) sont appelés des gènes de structure : leur produit participe directement à la structure de la cellule ou à son métabolisme (les enzymes, les protéines membranaires, les protéines des ribosomes etc sont codées par de tels gènes. A côté de celà, d'autres éléments informatifs interviennent dans le contrôle de l'expression des gènes de structure.
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap6/fig6-61.gif" \* MERGEFORMATINET  Au niveau transcriptionnel, on envisage des gènes de régulation codant pour des protéines sans fonction enzymatique, des protéines de régulation (le répresseur, la protéine CAP en sont des exemples) qui agissent en trans (sur un site pouvant être éloigné) en se fixant spécifiquement à une séquence précise d'ADN que l'on appellera site de régulation, ces sites assurent une cis-régulation sur l'efficacité du promoteur situé sur la molécule d'ADN. La relation avec l'environnement intra ou extra cellulaire est assurée par des molécules effectrices (le lactose, l'AMPc en sont des exemples). La souplesse de la régulation est liée aux propriétés de modifications allostériques des protéines de régulation, qui, selon leur conformation assurent ou n'assurent pas leur fonction.
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap6/fig6-62.gif" \* MERGEFORMATINET 
Si la notion d'opéron est restreinte aux cellules Procaryotes (chaque cistron eucaryotique possède son propre promoteur), on verra que ce schéma de base est applicable au contrôle de l'expression des gènes des Eucaryotes.
LA DISSECTION ULTIME DES GENES ET LEUR RECOMBINAISON IN VITRO.
1 CARTOGRAPHIE A HAUTE RESOLUTION
1.1 OBTENTION DE MOLECULES D'ADN HOMOGENES
Comme on l'a vu au chapitre "Structure et propriétés des molécules d'ADN", ces polymères représentent des fils extrèmement long pour un diamètre très faible. Une conséquence est qu'au cours de la purification de l'ADN, ces fils subissent des cassures aléatoires de sorte, qu'en termes de séquences, on obtient un mélange héterogène.
Ce sont des nucléases, c'est à dire les enzymes spécialisées dans la dégradation des acides nucléiques qui ont permis de régler le problème du découpage non aléatoire d'un génome in vitro.
Il existe deux catégories de nucléases selon leur mode d'action : les exonucléases qui dégradent par excision du nucléotide situé en extrémité de chaîne (souvent en 3') et les endonucléases qui coupent des liaisons phosphodiester dans la chaîne. Parmi les endonucléases, certaines sont non spécifiques et hydrolysent des liaisons phosphodiester au hasard, d'autres présentent une remarquable spécificité de site. Un ensemble est constitué d'enzymes spécifiques d'ADN bicaténaire, capables de reconnaître une séquence précise (de 4 à 8 nucléotides) et de couper la molécule avec une précision qui atteint le nucléotide.
Exemple de sites de reconnaissance et de coupure pour deux endonucléases de restriction dans une même molécule d'ADN.
Remarque : Ces enzymes sont appelées des endonucléases de restriction car, in vivo, elles permettent aux bactéries de reconnaître certains ADN de bactériophages et de les dégrader, restreignant ainsi leur capacité de croissance, toutes les espèces bactériennes disposent ainsi d'une ou plusieurs de ces armes. Elles se protègent elles mêmes de l'action de ces enzymes en modifiant leur propre ADN aux sites de reconnaissance (également appelés sites de restriction). La modification consiste souvent en une méthylation de certaines bases contenues dans le site de restriction, un ADN exogène, non méthylé, sera reconnu et dégradé.

Quelques nucléases de restriction couramment utilisées sont présentées dans le tableau suivant :
Nucléase Source (rappelée dans le nom de l'enzyme) Site reconnuNucléase Source (rappelée dans le nom de l'enzyme) Site reconnuHæ IIIHæmophilus ægyptus     Im G G C C C C G G     mI      Hpa IIHæmophilus parainfleuenzæ     Im          C C G G G G C C        mIMbo IMoraxella bovis I                   G A T C C T A G                    ITaq IThermus aquaticus      I     m       T C G A A G C T    m     IBam HIBacillus amyloliquefaciens     I              m      G G A T C C C C T A G G    m               IBgl IIBacillus globiggiI                   A G A T C T T C T A G A                    IEco RIEscherichia coli     I    m            G A A T T C C T T A A G            m     IHin dIIIHæmophilus influenzæmI                  A A G C T T T T C G A A                  Im Eco RIII     m             G C C T G G C C G G A C C G              m     I Pst IProvidentia stuartii              I C T G C A G G A C G T C I              (I représente le site de coupure pour chaque brin, m un site de méthylation lorsqu'il est connu).

La découverte de ces enzymes a eu un impact considérable, en effet, leur mode d'action particulier permet de préparer des molécules d'ADN parfaitement pures (homogènes) non pas en terme de contamination par d'autres biomolécules mais en terme de séquence. Prenons une préparation de plasmides (molécules d'ADN bactérien circulaires) mesurant 4000 paires de bases, la cassure mécanique aléatoire d'une seule liaison phosphodiester par molécule peut générer 4000 fragments différents, par contre, s'il existe un seul site reconnu par une enzyme de restriction donnée, sous l'action de cette enzyme, le plasmide va être linéarisé en produisant des molécules identiques au nucléotide près, s'il existe deux sites, on obtiendra deux fragments de tailles parfaitement définies.
résultat de 4 coupures aléatoires dans une molécule d'ADN circulaire
résultat d'une coupure ciblée dans une même molécule                                                                                                                                                                      
L'examen du tableau précédent montre que tous les sites sont des palindromes (présentent un centre de symétrie), certaines de ces nucléases coupent les deux brins au même niveau (selon l'axe de symétrie) et génèrent des extrémités franches, d'autres d'une façon décalée et génèrent des extrémités débordantes soit en 5' soit (plus rarement) en 3'.
Les extrémités  débordantes sont également appelées extrémités cohésives car, en raison de la structure palindromique des séquences de reconnaissance, elles ont tendance à s'hybrider en solution. Cette situation favorise l'action d'une ligase (une ligase est une enzyme capable de créer une liaison phosphodiester entre deux chaînes polynucléotidiques), elle sera souvent mise à profit dans les recombinaisons in vitro et la construction de molécules chimères.
*Remarque : Dans la plupart des cas, les fragments produits sont phosphorylés en 5' ce qui n'est pas toujours la règle lorsque l'on hydrolyse des polynucléotides.
1.2 CARTOGRAPHIE DES GENES A HAUTE RESOLUTION
Comme on l'a vu dans le premier chapitre, la position de certains gènes sur le chromosome peut être déterminée en mesurant la fréquence de recombinaison entre le gène étudié et un marqueur déjà repéré (autre locus). Cette cartographie est dépendante d'une densité suffisante de marqueurs. De plus elle ne nous apprend rien sur l'organisation "interne" du cistron : chez un eucaryote supérieur, un gène "moyen" (1000 à 5000 pb) représente 0,01 à 0,001 cM, pour détecter un seul événement de recombinaison à l'intérieur d'un gène, il faudrait pouvoir observer 10 000 à 100 000 individus issus d'un même croisement.
Relier un gène à d'autres, en groupes de liaisons n'est donc que le début de la carte génétique. La cartographie ultime consistera à obtenir la séquence complète des nucléotides du gène et de son voisinage ce qui peut représenter un travail considérable. Entre les deux (position du gène sur le chromosome et séquence) il existe des intermédiaires qui font appel à d'autres techniques que l'évaluation de la recombinaison.
1.2.1 CARTES DE RESTRICTION
Pour disséquer le gène on va utiliser les propriétés des nucléases de restriction qui reconnaissent des points précis du génome au nucléotide près. Chaque enzyme de restriction ayant une cible particulière (voir la première figure), l'identification des sites de coupure permet d'établir une carte extrêmement détaillée appelée carte de restriction.
Les points de coupure sont établis d'après la longueur des fragments obtenus après digestion d'un segment d'ADN par une enzyme de restriction donnée. La taille des fragments est elle même déterminée par électrophorèse. Un jeu de fragments de taille connue sert à calibrer le gel et l'on peut estimer d'une façon relativement précise celle des segments générés par une digestion enzymatique.
La figure ci-contre résume une expérience de cartographie. Dans cet exemple on étudie l'ADN préparé à partir d'un bactériophage fictif dont le génome serait une molécule linéaire de 5000 paires de bases.Une digestion avec l'enzyme Eco R1 permet d'obtenir 4 fragments : 2100, 1400, 1000 et 500 pb , il existe donc 3 sites de coupure (sites de restriction) pour cette enzyme. Une expérience menée en parallèle montre que la molécule de départ (5000 pb) possède deux sites de restriction pour Bam H1 (B) le coupant en 3 morceaux : 2500, 1300 et 1200 pb. Il existe plusieurs moyens de construire une carte à partir de ces données. Le premier résulte d'une double digestion : on va regarder où sont localisés les sites d'une enzyme dans les fragments obtenus par l'autre. Il serait possible d'extraire chaque bande du gel d'électrophorèse et de soumettre l'ADN à une seconde digestion, pratiquement ce serait très long et fastidieux. Il est plus simple d'ajouter les deux enzymes en même temps dans le milieu d'incubation. Après digestion complète (tous les sites reconnus par l'une ou l'autre enzyme sont coupés), l'électrophorèse permet de séparer des fragments de 1900, 1000, 800, 600, 500 et 200 pb. Le raisonnement repose sur l'additivité parfaite des tailles : si le fragment E 2100 possède un site B à 200 pb de l'extrémité, les fragments générés par la double digestion seront de 200 et 1900 pb. On remarque que les fragments 1000 et 500 se trouvent à la fois dans la digestion E et dans la double digestion il s'agit donc des extrémités. La suite repose sur le chevauchement des fragments produits par l'une ou l'autre enzyme, si l'on choisit 1000 pb comme premier site de coupure pour E, on doit trouver dans la double digestion un fragment n tel que 1000 + n = taille d'un fragment B qui correspond au 1er site reconnu par B 200 est candidat et l'on place un site B à 1200 pb de l'extrémité ... et ainsi de suite.
Lorsque l'on étudie des régions d'ADN de plus grande taille, les profils d'électrophorèse deviennent plus complexes, des fragments de même taille se rencontrent (on ne pourra pas les distinguer car ils migrent au même endroit) on doit donc adopter d'autres stratégies.
Une approche possible consiste à réaliser des digestions partielles : on régle les conditions de concentration d'enzyme, de température, de temps d'incubation... de telle sorte que statistiquement un site sur deux ou trois soit coupé (au hasard) On obtiendra par exemple, pour une digestion partielle E, des fragments de 3500, 3100 et 1400 pb, en comparant avec les résultats de la digestion complète, on peut conclure que les fragments 1000 et 2100 sont contigus, de même, 2100 et 1400 sont deux fragments adjacents du 3500 etc...
Le marquage en 5' par du phosphore 32 grâce à la polynucléotide kinase (enzyme capable de phosphoryle des extrémités 5' préalablement déphosphorylées) peut également rendre des services en permettant d'identifier d'emblée le segment terminal. Ici encore on utilise deux enzymes, mais successivement, pour obtenir des fragments dont une seule extrémité est marquée (après électrophorèse, une autoradiographie est nécessaire pour identifier le fragment d'extrémité). En combinant le marquage 5' et les digestions partielles, on peut lire directement la carte sur l'autoradiogramme puisque tous les segments internes n'apparaissent pas.
1.2.2 UTILISATION DES SITES DE RESTRICTION COMME MARQUEURS
L'analyse mendélienne repose sur l'existence de différentes formes alléliques d'un même "gène" et passe par l'expression de ceux-ci : il s'agit aussi bien de couleurs de fleurs que de la présence d'alloenzymes. La biologie moléculaire a permis de montrer que, quel que soit le niveau de l'observation phénotypique, ce repérage allélique est bien en dessous du polymorphisme réel de l'ADN. On comprend aisément que les mutations faisant apparaître des formes alléliques nouvelles peuvent modifier la carte de restriction : une insertion ou une délétion affectant la fonction d'un gène vont provoquer une modification de la taille de certains fragments de restriction. Mais la technique va beaucoup plus loin : elle permet de discerner un polymorphisme dans les molécules d'ADN même s'il n'a aucune incidence phénotypique : dans des codons synonymes, dans des introns, dans des séquences répétées, dans des séquences non exprimées ...
Bien que sur le plan évolutif ces variations n'aient probablement pas de grandes significations, elles peuvent être exploitées à plusieurs fins :
l'identification génétique d'individus et de variétés
l'établissement de cartes factorielles extrêmement fines en reliant ces marqueurs à des marqueurs phénotypiques et à une cartographie classique.
Le sigle RFLP (restriction fragment length polymorphism) évoque la méthode qui va permettre une analyse allélique directe, au niveau de l'ADN.
Entre deux génomes, des différences de tailles de fragments d'ADN homologues obtenus par digestion à l'aide d'enzymes de restriction seront observées si des substitutions, des insertions ou délétions ont eu lieu au niveau des sites de reconnaissance de l'enzyme ou si des réarrangements de quelque importance se sont produits entre deux de ces sites de restriction. Dans l'exemple ci-contre, on met en évidence une délétion qui racourcit un fragment (B) et une substitution qui supprime un site (C).
Etant donné que l'organisation en fragments caractéristiques se transmet de façon mendélienne, on peut les utiliser pour repérer des loci de la même façon qu'un caractère morphologique avec un certain nombre d'avantages.
Le nombre d'enzymes de restriction disponibles et la taille d'un génome eucaryote font que le nombre de marqueurs possibles est pratiquement illimité.
On a accès au génotype sans avoir à passer par son expression : toutes interactions alléliques, épistatiques ou de l'environnement n'interviendront pas.
Exemple de transmission mendélienne des marqueurs "RFLP". De l'ADN de chaque individu figurant dans l'arbre généalogique a été digéré par une nucléase de restriction. Les fragments séparés par elecrophorèse sont hybridés avec une sonde. Quatre allèles (A, B, C, E) sont révélés au locus repéré par la sonde.
Pratiquement : On prépare l'ADN total de différentes espèces, de variétés voire même d'individus. Cet ADN est ensuite incubé en présence de nucléases de restriction et les produits de digestion séparés par électrophorèse. La visualisation de bandes distinctes après électrophorèse ne peut se faire qu'après transfert et hybridation avec une sonde, l'obtention des sondes sera vue au chapitre suivant. En effet, la taille d'un génome eucaryotique est telle que le nombre de fragments générés et leur taille donnent une répartition pseudoaléatoire tout le long du gel. La figure ci-dessous est un autre exemple d'application à la cartographie : une sonde donnée a été hybridée aux fragments de restriction d'ADN extrait de deux lignées pures de maïs : P1 et P2, d'un individu F1 et de 13 individus de la F2.
On constate :
qu'une même sonde permet d'étudier plusieurs loci (on observe 3 bandes pour chacun des parents), ce phénomène est assez général en raison de séquences répétées fréquentes chez les eucaryotes.
que cette analyse permet de détecter directement deux allèles différents à un même locus : A1 et A2 ou B1 et B2 (voir la F1).
La distinction des allèles et des loci se fait en examinant un certain nombre d'individus F2. On voit par exemple que chez le 3, les bandes a1 et b1 sont absentes, elles ne peuvent donc pas représenter les deux formes allèliques d'un même locus (confirmé par a2 et b2 absents en 7). Donc a1 et a2 sont bien deux allèles d'un locus et b1 et b2 sont ceux d'un autre locus.
La technique mendélienne rappelée au premier chapitre permet d'associer ces marqueurs à des éléments cartographiques connus (caractère qualitatif, isoenzyme...) ce qui permet d'établir des cartes précises de plus en plus denses. Ceci est précieux dans un programme de sélection : si un caractère important (appelé Q dans la figure) est associé au marqueur A1 par exemple, on repère très facilement en F2 les allèles A1 et de prédire que le caractère Q sera présent.
         
Conclusion : L'analyse directe du polymorphisme de l'ADN se répand très rapidement pour des raisons évidentes :
il est possible d'étudier des variations et de les corréler à de futurs phénotypes de façon très précoce (et non destructive). Ces applications vont aller des programmes de sélection variétale jusqu'aux diagnostics anténataux.
il est possible d'aborder les caractères quantitatifs par l'analyse mendélienne classique. * Remarque : repérage des caractères quantitatifs Les cartes génétiques classiques ne recensent que des caractères qualitatifs c'est à dire des allèles dont la forme mutée se distingue clairement sur le plan phénotypique. Des caractères tels que la taille, le poids, la résistance à des agents pathogènes... sont gouvernés par un nombre important de gènes, chacun d'eux participe d'une façon minime à l'élaboration du phénotype. La mutation de l'un d'entre eux a le plus souvent un effet imperceptible qui exclut les observations classiques de recombinaison. De plus, leur expression est particulièrement sensible aux fluctuations de l'environnement. L'association étroite de marqueurs "RFLP" à des loci gouvernant de tels caractères permet de les traiter par l'analyse mendélienne.
1.2.3 SEQUENCAGE DES GENES
L'étape ultime de la cartographie est la séquence, non pas du génome mais modestement de petits morceaux intéressants délimités par la cartographie de restriction.
Le principe du séquençage est simple, la réalisation plus ou moins délicate selon les méthodes utilisées.
Il s'agit, en partant du segment à étudier, de générer des fragments qui tous ont la même origine et qui tous se terminent par un nucléotide de même nature : il faut construire 4 séries de fragments : tous commencent au même point, une série se termine par A, une autre par T, une autre par G et une dernière par C.  Exemple pratique: On suppose le segment à étudier cloné dans un vecteur simple brin (bactériophage M13, cf plus loin). Connaissant bien le vecteur, on dispose de petites séquences complémentaires de régions proches de l'insertion. Après hybridation, ces séquences peuvent servir d'amorce à une ADN polymérase. L'astuce consiste à réaliser une synthèse in vitro en ajoutant aux nucléotides (dNTP) nécessaires à la réaction une petite quantité de didéoxynucléotides. Si l'un d'entre eux est incorporé, la chaîne ne présente plus d'extrémité 3' OH et la polymérase s'arrête. On prépare 4 réactions avec respectivement une petite quantité de ddATP, ddTTP, ddGTP et ddCTP. Statistiquement, la réaction s'arrêtera respectivement en face de n'importe quel T, A, C et G selon le tube. Les produits de la réaction, dans chaque tube, seront des fragments qui tous commencent à l'extrémité 3' de l'amorce et qui tous se terminent à chaque A possible, T, G ou C. Après séparation de ces fragments par électrophorèse en gel de polyacrylamide dénaturant, les quatre pistes révèlent directement la séquence.
D'autres méthodes, utilisant des réactions chimiques spécifiques de bases pour obtenir les familles de fragments sont également utilisées.
1.2.4 PCR : REACTION DE POLYMERISATION EN CHAINE Lorsque l'on possède des informations (même partielles) sur la séquence d'un fragment d'ADN, on peut utiliser les propriétés de l'ADN polymérase, in vitro, pour amplifier à l'infini ce fragment, sans faire appel à un clonage in vivo. Ces dernières années, l'utilisation de la réaction de polymérisation en chaîne ou PCR (polymerase chain reaction) a révolutionné les stratégies de la génétique moléculaire et trouvé de très nombreuses applications. Le principe est illustré dans la figure suivante. A partir de la séquence de fragments d'ADN, on va construire deux amorces capables de s'hybrider dans la région 3' de chaque brin de l'ADN à amplifier. Chaque amorce sera ensuite allongée par une ADN polymérase. Cette étape conduit à deux copies de la séquence initiale. Ces deux copies sont ensuite dénaturées et les mêmes amorces sont utilisées pour initier un nouveau cycle d'élongation conduisant à quatre copies, la répétition des cycles "dénaturation, hybridation des amorces, élongation" permet une amplification exponentielle de la séquence d'ADN située entre les deux amorces.
                                                      PREMIER CYCLE                                                      molécule native, double brin
                                                    dénaturation et hybridation des amorces
 
                                                    élongation des amorces par l'ADN                                                                                           polymérase
                                                    DEUXIEME CYCLE
                                                    dénaturation, hybridations des amorces                                                                            
                                                                            etc...
Pratiquement, un thermocycleur permet de réaliser cette amplification sans intervention, pour cela, on ajoute un excès d'amorces au milieu réactionnel contenant l'ADN à amplifier et l'on utilise une ADN polymérase thermostable (extraite d'une bactérie se développant dans des sources chaudes : Thermus aquaticus) résistante aux températures de dénaturation. En fin d'expérience, la quantité d'ADN est telle qu'après électrophorèse une simple coloration permet de visualiser la bande correspondant au produit d'amplification. A partir d'une très faible quantité d'ADN génomique au départ (5 nanogrammes par exemple) il est possible d'obtenir un milliard de copies d'un exemplaire unique de séquence, aucune digestion enzymatique préalable n'est nécessaire. On comprend que la PCR soit rapidement devenue la méthode de base pour tout problème de détection de séquence (empreintes génétiques, repérage d'OGM ...). Ce ne sont pas les seuls avantages de cette technique, les mêmes amorces peuvent, par exemple, être utilisées pour de l'ADN de différents individus, de différentes variétés ou races et révéler des variations alléliques sans clonage biologique; elle rend de précieux services dans le domaine du typage génétique de la phylogénie ...).
DISSECTION ULTIME DES GENES ET RECOMBINAISON IN VITRO
2 TECHNOLOGIES DE L'ADN RECOMBINANT
Les techniques d'étude de l'ADN sont devenues si performantes qu'il est actuellement courant d'isoler le segment d'ADN correspondant à n'importe quel gène spécifique. La clé de voûte de ces technologies réside dans la possibilité d'amplification de toute séquence définie. Cette amplification, le plus souvent par clonage du fragment d'ADN (un clone étant défini comme une population de cellules ou de molécules identiques à l'originale), permet d'obtenir des quantités illimitées de molécules d'ADN de séquence homogène.
2.1 CLONAGE DES GENES
Un schéma ultra simplifié d'une expérience typique de clonage nécessite les éléments suivants :
l'ADN intéressant (à étudier ou pour ce qu'il apporte) appelé également ADN passager, ADN étranger ou ADN cible)
un vecteur de clonage (ou véhicule), dans l'exemple il s'agit d'un plasmide c'est à dire un élément génétique bactérien, extrachromosomique, capable de réplication autonome.
une nucléase de restriction
une ligase
une cellule (procaryote ou eucaryote) pouvant servir d'hôte biologique.
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap4/chap4f10.gif" \* MERGEFORMATINET  De nombreuses enzymes de restrictions génèrent des extrémités cohésives et l'on peut insérer des fragments d'ADN digérés dans un vecteur présentant les mêmes extrémités c'est à dire traité par la même enzyme. Les nouvelles molécules sont ensuite refermées par une ligase. Cette recombinaison in vitro conduit à une molécule "chimère" qui sera transférée dans un hôte approprié par des moyens qui dépendent du choix de la cellule hôte. Après un temps de culture convenable on pourra obtenir des clones contenant chacun un vecteur recombiné, les clones différent entre eux par la nature de la séquence insérée dans le vecteur.  Comme le montre la figure ci-contre, après l'étape de transformation génétique de l'hote, la population se compose en fait d'une grande quantité de cellules non transformées et parmi les bactéries transformées, beaucoup le sont par un vecteur recircularisé. Il faut donc pouvoir isoler rapidemant les clones recombinés et caractériser les molécules recombinées, c'est cette partie du travail, la plus délicate, qui a apporté énormément de renseignements sur la structure des gènes. Le procédé de clonage lui même n'est qu'un moyen pour identifier et isoler des gènes rapidement.
2.2 LES VECTEURS DE CLONAGE
Comme on le voit, le vecteur joue un rôle essentiel dans toute expérience de clonage. On va donc étudier les véhicules avant de parler des passagers. La plupart des fragments d'ADN étant incapable de réplication autonome, les vecteurs sont dérivés de réplicons naturels tels que les phages et les plasmides. Les plasmides sont des petites molécules circulaires d'ADN double brin, ils portent certains gènes fonctionnels (tels que des gènes de résistance à certains antibiotiques) et on les appelle parfois "les pièces de rechange génétiques" des bactéries. Les plasmides naturels ne sont pas utilisés tels quels car un vecteur doit répondre à un certain cahier des charges :
être aussi petit que possible car, dès que l'on dépasse 15kb, l'efficacité de transformation de la cellule hôte diminue rapidement.
être bien cartographié (gènes et sites de restriction) l'idéal étant de connaître la séquence complète.
il doit se répliquer facilement dans la cellule hôte afin que de grandes quantités de molécules recombinées puissent être préparées.
il doit posséder un marqueur de sélection qui permette de distinguer les cellules transformées par le vecteur des cellules non transformées
un vecteur idéal devrait de plus posséder un marqueur qui permette de distinguer les clones transformés par un vecteur recombiné de ceux transformés par ce vecteur non recombiné.
il doit posséder le plus possible de sites de restriction différents (mais chacun en un seul exemplaire) pour permettre une grande souplesse dans le clonage de différents produits de restriction.
L'une des plus célèbres constructions est celle du plasmide pBR 322 (Bolivar et Rodriguez), de très nombreux vecteurs utilisés actuellement en sont dérivés.
Le succès de ce vecteur tient à deux points :
il s'agit d'un plasmide dont la réplication est sous contrôle "relâché" contrairement à beaucoup d'autres qui sont sous contrôle "stringent" c'est à dire que leur réplication est dépendante de la synthèse protéique et de l'ADN polymérase III, on en trouve généralement de 1 à 5 par cellule, les plasmides sous contrçole "relaché" utilisent la polymérase I et peuvent se répliquer en absence de synthèse protéique, on en trouve de 30 à 50 copies par cellule ce qui augmente l'amplification.
deux gènes de résistance, l'un à l'ampicilline, l'autre à la tétracycline peuvent servir de marqueurs pour sélectionner aisément les clones transformés par des plasmides recombinés.
La figure ci-contre schématise ce vecteur de 4363 paires de bases qui contient des sites de restriction en un seul exemplaire (sites de restriction uniques pour plusieurs nucléases) dont certains sont situés dans les gènes de résistance.
L'insertion de la séquence à cloner dans l'un ou l'autre de ces gènes de résistance (au site BamHI dans le gène de résistance à la tetracycline, dans l'exemple ci dessous) l'inactive, ce qui offre un moyen très pratique d'identification des clones transformés par des vecteurs recombinés selon le génotype :
clonegénotypenon transforméampS,tetStransformé par un vecteur recirculariséampR,tetRtransformé par un vecteur recombinéampR,tetS      (*)                                     (*) dans l'exemple ci-dessus
D'autres vecteurs dérivés de celui-ci présentent des améliorations portant essentiellement sur la facilité de criblage des clones recombinés, sur la facilité d'insertion de l'ADN étranger, sur l'adaptation à l'utilisation ultérieure de l'ADN cloné (cartographie, séquençage, expression, étude de la régulation de l'expression...) et sur la taille des segments insérés.
Le bactériophage M13 par exemple a été modifié pour en faire un vecteur, il présente la particularité de posséder un génome à ADN simple brin ce qui sera intéressant pour le séquençage par exemple, après infection, un brin complémentaire est synthétisé, il se comporte donc comme un plasmide à l'intérieur de la bactérie et pourra être manipulé comme tel. * Remarque : N'oublions pas que les recombinaisons in vitro utilisent les propriétés des nucléases de restriction, le substrat est donc de l'ADN bicaténaire.
Le bactériophage lambda possède une grande région de son génome non essentielle à sa reproduction, elle pourra être éliminée et remplacée par un ADN passager de l'ordre de kilopaires de bases alors qu'un plasmide n'en tolère qu'une quinzaine.
Les cosmides combinent les avantages de clonage des plasmides et augmentent la taille d'insertion possible dans les phages lambda jusqu'à, une quarantaine de kilo paires de bases.
Les BAC ou chromosomes bactériens artificiels (Bacterial Artificial Chromosomes) sont dérivés du facteur F de conjugaison (voir le chapitre "Régulation de l'expression des gènes"). Ils possèdent donc une origine de réplication et peuvent, naturellement, intégrer des fragments d'ADN bactérien allant jusqu'à 300kpb. Utilisés comme vecteurs, ils permettent de cloner des fragments de 100-150 kpb et présentent tous les avantages des vecteurs plasmidiques.
Les YAC ou chromosomes de levure artificiels (Yeast Artificial Chromosomes) sont complétement differents des prézcédents car dérivés d'éléments eucaryotiques et seront hébergés et reproduits par des cellules de levure. La construction repose sur des séquences centromériques et télomériques et une origine de réplication de levure. Un site de clonage permet d'inserer des fragments d'ADN étranger allant jusqu'à 2Mpb. Ces éléments sont dupliqués et ségrègent à la mitose comme des chromosomes. Ils représentent les seuls vecteurs capables de réaliser des ensembles de clones chevauchant pouvant couvrir l'ensemble d'un génome Eucaryote complexe.
Il faut donc choisir le vecteur en fonction des cribles dont on disposera pour repérer le clone intéressant et en fonction de la nature de l'ADN cloné c'est à dire du "passager".
2.3 CONSTRUCTION DE "BANQUES DE GENES"
Le vecteur étant choisi, la première étape est celle de la préparation de l'ADN à insérer. On va distinguer deux procédures, l'une conduisant à la réalisation de banques génomiques l'autre à des banques d'ADN complémentaire.
2.3.1 CAS DE LA CONSTRUCTION D'UNE BANQUE GENOMIQUE
L'ADN est préparé à partir du tissu le mieux adapté, puis découpé d'une façon la plus aléatoire possible (par cassures mécaniques ou par digestion incomplète par une nucléase de restriction). La construction d'une banque génomique implique le clonage de la totalité du génome, le seul moyen d'y parvenir est de partir de fragments chevauchants. Tous les fragments de taille admissible par le vecteur choisi auront la possibilité d'être clonés, tout le génome pourra être représenté. Le nombre minimum de clones nécessaires pour qu'une séquence quelconque, appartenant à un génome de taille donnée soit présent dans la banque (qui, théoriquement, contient l'ensemble des séquences d'ADN de l'espèce considérée) peut se calculer par :
             ln(1-P) N = ---------------                  L-X          ln 1- ------                   MN : nombre de clones constituant la banque (ou bibliothèque) P : probabilité pour qu'une séquence donnée soit présente dans la banque (une valeur de 0,99 est acceptable) L : taille moyenne des fragments insérés X : taille de la séquence souhaitée M : taille du génome
   Quelle que soit la prétention de cette formule, ceci veut dire qu'une banque génomique réalisée dans un vecteur dérivé du phage lambda devra comprendre environ  40 000 clones différents pour un génome de drosophile et 800 000 pour celui du maïs ou de l'homme. Ces banques sont donc très lourdes et dans bien des cas on constitue un autre type de banque.
2.3.2 CAS DE LA CONSTRUCTION D'UNE BANQUE D'ADN COMPLEMENTAIRES
Elles reposent sur une découverte qui a bouleversé le dogme central de la biologie moléculaire : pour certains virus dont le matériel génétique est de l'ARN, il existe un flux d'information de l'ARN vers l'ADN. Cette étape obligatoire pour leur reproduction est assurée par une enzyme particulière : la transcriptase réverse. Elle permet une synthèse d'ADN double brin (c'est donc une ADN polymérase) à partir d'une molécule d'ARN. Elle représente également un outil très utilisé en génétique moléculaire. On peut en effet synthétiser in vitro des molécules d'ADN dont l'un des brins a une séquence parfaitement complémentaire de celle d'un ARN donné, appelé ADNc .
NB: in vitro, l'activité ribonucléasique de la transcriptase réverse est difficile à maîtriser et l'on utilise souvent d'autres stratégies enzymatiques pour synthétiser le deuxième brin d'ADN.
Les banques dites d'ADN complémentaire présentent les avantages suivants :
sachant que dans toute cellule, une très faible partie du génome est transcrit en ARN, quel que soit la catégorie cellulaire qui va servir de point de départ, la banque nécessitera beaucoup moins de clones et l'enrichissement en clones recherchés pourra être considérable si l'on choisitbien un organe, son stade de développement...
on ne collectionne que des séquences codantes (sans introns) qui pourront s'exprimer dans un hôte procaryote même si elles sont d'origine eucaryote.
elles sont obligatoires pour cloner les gènes des virus à ARN (la majorité des virus des végétaux).
2.4 PREPARATION DES VECTEURS RECOMBINES
Dans les deux cas : découpage mécanique d'ADN génomique ou synthèse d'ADN complémentaire, l'étape suivante est l'insertion dans un vecteur.
L'utilisation de nucléases de restriction produisant des extrémités cohésives simplifie cette étape mais le découpage mécanique et la synthèse d'ADNc ne procurent pas de molécules à extrémités cohésives.
Pour palier cet inconvénient, une technique encore largement utilisée consiste à greffer des "queues" homopolymériques sur le vecteur et leurs complémentaires sur les fragments d'ADN. On utilise un site Pst I du vecteur car elle laisse des extrémités 3' débordantes, ces extrémités vont être allongées par un oligo dG grâce à la transférase terminale (enzyme qui polymérise, de façon non spécifique, des nucléotides à une extrémité 3' libre, elle n'utilise pas de modèle comme l'ADN polymérase). De la même manière, on greffe une queue oligo dC aux extrémités 3' de l'ADN à insérer. Après hybridation et ligation partielle, les cellules hôtes sont transformées, elles opèrent elles-mêmes une réparation et la ligation recréant du même coup deux sites Pst I qui pourront être utilisés, après amplification, pour récupérer l'ADN cible à partir des clones transformés.
Une autre méthode consiste à greffer, à l'aide d'une ligase, des oligonucléotides (4 ou 6 paires de nucléotides) représentant des sites de reconnaissance pour une nucléase de restriction aux extrémités franches des fragments d'ADN à cloner. Après ligation de ces petites molécules adaptatrices, la digestion par l'enzyme appropriée va créer des extrémités cohésives. On aura la précaution d'avoir protégé au préalable d'éventuels sites internes de reconnaissance (par méthylation par exemple).
2.5 EXPLOITATION DES BANQUES
Plusieurs techniques éprouvées permettent de construire des banques. Il reste à les exploiter, même avec une banque d'ADNc, le nombre de clones est important et le tri représente la partie la plus délicate des expériences de clonage, il existe de nombreuses stratégies mais aucune n'est universelle.
* Remarque : les termes de cribler et de sélectionner n'ont pas la même signification: lors de la sélection, on élimine tous les clones non intéressants, le criblage permet de repérer le clone intéressant.
Le tri peut se faire par sélection lorsque le gène intéressant confère un phénotype particulier à l'hôte tel qu'une résistance à un antibiotique particulier auxquel les cellules sauvages sont sensibles : la culture sur un milieu contenant cet antibiotique ne fera apparaître que les clones transformés contenant ce gène précis.
Le tri par criblage reste le plus courant.
La détection immunologique du produit du gène représente un crible intéressant si le gène recherché est exprimé dans la cellule transgénique ce qui n'est pas toujours le cas.
Le criblage par hybridation de l'ADN des clones transformés avec une sonde spécifique constitue une méthode de choix. L'hybridation peut se faire in situ : on effectue des répliques de clones bactériens cultivés en boîte de Pétri sur des disques de nitrocellulose, après un temps de culture suffisant, les bactéries de ces répliques sont ensuite lysées par la soude qui, en même temps, dénature l'ADN, les molécules simple brin correspondantes se trouvent immobilisées à l'emplacement de chaque clone. Après hybridation, avec la sonde radioactive, l'autoradiographie révélera les clones positifs.
Le problème est déplacé vers celui de l'obtention de la sonde spécifique, correspondant au gène recherché.
s'il s'agit d'un gène peu évolué, on peut utiliser une sonde "hétérologue" (en fait une séquence homologue mais provenant d'un autre organisme) en comptant sur une homologie de séquence suffisante pour s'hybrider dans des conditions qui ne donnent pas de faux positifs.
lorsqu'une lignée cellulaire synthétise, à un moment donné du développement, un messager majoritaire, on peut tenter sa purification et réaliser un ADN complémentaire qui, une fois cloné servira de sonde pour une banque génomique.
si l'on connaît très bien le produit du gène, c'est à dire la séquence, même partielle, en acides aminés, on pourra construire des oligonucléotides selon les codes possibles et "partir à la pèche" avec ces sondes artificielles.
Dans les cas désespérés, c'est à dire lorce que l'on ne possède pas de sonde et que l'on n'a aucune idée du produit du gène, connu uniquement par la manifestation phénotypique d'un allèle muté, il reste d'autres solutions, par exemple, la "marche sur chromosome" (chromosome walking) : Par des méthodes faisant appel à des croisement traditionnels et à l'analyse mendélienne, on va essayer d'associer des marqueurs RFLP au locus considéré. L'idèal étant d'encadrer le locus par des marqueurs distants de moins d'un centiMorgan. Le premier marqueur constitue une sonde pour identifier un clone (parmi une banque génomique) qui servira de départ. La cartographie de restriction nous permettra d'identifier un segment situé à une extrémité qui sera, à son tour utilisé comme sonde pour cribler un clone chevauchant et ainsi de suite jusqu'à un second marqueur connu. La séquence recherchée se trouve obligatoirement parmi les clones identifiés. Si l'un d'entre eux peut complémenter un mutant (par transgénie restituant le phénotype sauvage par exemple), c'est qu'il s'agit de la séquence recherchée.
                                                                                       
Le clonage biologique à l'aide d'un vecteur approprié est applicable à n'importe quelle séquence d'ADN (naturelle ou synthétique) et représente un outil d'amplification de molécules homogènes très puissant mais il ne s'agit que d'un outil. Les technologies de l'ADN recombiné in vitro sont à la base de la génétique moderne.
DISSECTION ULTIME DES GENES ET RECOMBINAISON IN VITRO
2 TECHNOLOGIES DE L'ADN RECOMBINANT
Les techniques d'étude de l'ADN sont devenues si performantes qu'il est actuellement courant d'isoler le segment d'ADN correspondant à n'importe quel gène spécifique. La clé de voûte de ces technologies réside dans la possibilité d'amplification de toute séquence définie. Cette amplification, le plus souvent par clonage du fragment d'ADN (un clone étant défini comme une population de cellules ou de molécules identiques à l'originale), permet d'obtenir des quantités illimitées de molécules d'ADN de séquence homogène.
2.1 CLONAGE DES GENES
Un schéma ultra simplifié d'une expérience typique de clonage nécessite les éléments suivants :
l'ADN intéressant (à étudier ou pour ce qu'il apporte) appelé également ADN passager, ADN étranger ou ADN cible)
un vecteur de clonage (ou véhicule), dans l'exemple il s'agit d'un plasmide c'est à dire un élément génétique bactérien, extrachromosomique, capable de réplication autonome.
une nucléase de restriction
une ligase
une cellule (procaryote ou eucaryote) pouvant servir d'hôte biologique.
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap4/chap4f10.gif" \* MERGEFORMATINET  De nombreuses enzymes de restrictions génèrent des extrémités cohésives et l'on peut insérer des fragments d'ADN digérés dans un vecteur présentant les mêmes extrémités c'est à dire traité par la même enzyme. Les nouvelles molécules sont ensuite refermées par une ligase. Cette recombinaison in vitro conduit à une molécule "chimère" qui sera transférée dans un hôte approprié par des moyens qui dépendent du choix de la cellule hôte. Après un temps de culture convenable on pourra obtenir des clones contenant chacun un vecteur recombiné, les clones différent entre eux par la nature de la séquence insérée dans le vecteur.  Comme le montre la figure ci-contre, après l'étape de transformation génétique de l'hote, la population se compose en fait d'une grande quantité de cellules non transformées et parmi les bactéries transformées, beaucoup le sont par un vecteur recircularisé. Il faut donc pouvoir isoler rapidemant les clones recombinés et caractériser les molécules recombinées, c'est cette partie du travail, la plus délicate, qui a apporté énormément de renseignements sur la structure des gènes. Le procédé de clonage lui même n'est qu'un moyen pour identifier et isoler des gènes rapidement.
2.2 LES VECTEURS DE CLONAGE
Comme on le voit, le vecteur joue un rôle essentiel dans toute expérience de clonage. On va donc étudier les véhicules avant de parler des passagers. La plupart des fragments d'ADN étant incapable de réplication autonome, les vecteurs sont dérivés de réplicons naturels tels que les phages et les plasmides. Les plasmides sont des petites molécules circulaires d'ADN double brin, ils portent certains gènes fonctionnels (tels que des gènes de résistance à certains antibiotiques) et on les appelle parfois "les pièces de rechange génétiques" des bactéries. Les plasmides naturels ne sont pas utilisés tels quels car un vecteur doit répondre à un certain cahier des charges :
être aussi petit que possible car, dès que l'on dépasse 15kb, l'efficacité de transformation de la cellule hôte diminue rapidement.
être bien cartographié (gènes et sites de restriction) l'idéal étant de connaître la séquence complète.
il doit se répliquer facilement dans la cellule hôte afin que de grandes quantités de molécules recombinées puissent être préparées.
il doit posséder un marqueur de sélection qui permette de distinguer les cellules transformées par le vecteur des cellules non transformées
un vecteur idéal devrait de plus posséder un marqueur qui permette de distinguer les clones transformés par un vecteur recombiné de ceux transformés par ce vecteur non recombiné.
il doit posséder le plus possible de sites de restriction différents (mais chacun en un seul exemplaire) pour permettre une grande souplesse dans le clonage de différents produits de restriction.
L'une des plus célèbres constructions est celle du plasmide pBR 322 (Bolivar et Rodriguez), de très nombreux vecteurs utilisés actuellement en sont dérivés.
Le succès de ce vecteur tient à deux points :
il s'agit d'un plasmide dont la réplication est sous contrôle "relâché" contrairement à beaucoup d'autres qui sont sous contrôle "stringent" c'est à dire que leur réplication est dépendante de la synthèse protéique et de l'ADN polymérase III, on en trouve généralement de 1 à 5 par cellule, les plasmides sous contrçole "relaché" utilisent la polymérase I et peuvent se répliquer en absence de synthèse protéique, on en trouve de 30 à 50 copies par cellule ce qui augmente l'amplification.
deux gènes de résistance, l'un à l'ampicilline, l'autre à la tétracycline peuvent servir de marqueurs pour sélectionner aisément les clones transformés par des plasmides recombinés.
La figure ci-contre schématise ce vecteur de 4363 paires de bases qui contient des sites de restriction en un seul exemplaire (sites de restriction uniques pour plusieurs nucléases) dont certains sont situés dans les gènes de résistance.
L'insertion de la séquence à cloner dans l'un ou l'autre de ces gènes de résistance (au site BamHI dans le gène de résistance à la tetracycline, dans l'exemple ci dessous) l'inactive, ce qui offre un moyen très pratique d'identification des clones transformés par des vecteurs recombinés selon le génotype :
clonegénotypenon transforméampS,tetStransformé par un vecteur recirculariséampR,tetRtransformé par un vecteur recombinéampR,tetS      (*)                                     (*) dans l'exemple ci-dessus
D'autres vecteurs dérivés de celui-ci présentent des améliorations portant essentiellement sur la facilité de criblage des clones recombinés, sur la facilité d'insertion de l'ADN étranger, sur l'adaptation à l'utilisation ultérieure de l'ADN cloné (cartographie, séquençage, expression, étude de la régulation de l'expression...) et sur la taille des segments insérés.
Le bactériophage M13 par exemple a été modifié pour en faire un vecteur, il présente la particularité de posséder un génome à ADN simple brin ce qui sera intéressant pour le séquençage par exemple, après infection, un brin complémentaire est synthétisé, il se comporte donc comme un plasmide à l'intérieur de la bactérie et pourra être manipulé comme tel. * Remarque : N'oublions pas que les recombinaisons in vitro utilisent les propriétés des nucléases de restriction, le substrat est donc de l'ADN bicaténaire.
Le bactériophage lambda possède une grande région de son génome non essentielle à sa reproduction, elle pourra être éliminée et remplacée par un ADN passager de l'ordre de kilopaires de bases alors qu'un plasmide n'en tolère qu'une quinzaine.
Les cosmides combinent les avantages de clonage des plasmides et augmentent la taille d'insertion possible dans les phages lambda jusqu'à, une quarantaine de kilo paires de bases.
Les BAC ou chromosomes bactériens artificiels (Bacterial Artificial Chromosomes) sont dérivés du facteur F de conjugaison (voir le chapitre "Régulation de l'expression des gènes"). Ils possèdent donc une origine de réplication et peuvent, naturellement, intégrer des fragments d'ADN bactérien allant jusqu'à 300kpb. Utilisés comme vecteurs, ils permettent de cloner des fragments de 100-150 kpb et présentent tous les avantages des vecteurs plasmidiques.
Les YAC ou chromosomes de levure artificiels (Yeast Artificial Chromosomes) sont complétement differents des prézcédents car dérivés d'éléments eucaryotiques et seront hébergés et reproduits par des cellules de levure. La construction repose sur des séquences centromériques et télomériques et une origine de réplication de levure. Un site de clonage permet d'inserer des fragments d'ADN étranger allant jusqu'à 2Mpb. Ces éléments sont dupliqués et ségrègent à la mitose comme des chromosomes. Ils représentent les seuls vecteurs capables de réaliser des ensembles de clones chevauchant pouvant couvrir l'ensemble d'un génome Eucaryote complexe.
Il faut donc choisir le vecteur en fonction des cribles dont on disposera pour repérer le clone intéressant et en fonction de la nature de l'ADN cloné c'est à dire du "passager".
2.3 CONSTRUCTION DE "BANQUES DE GENES"
Le vecteur étant choisi, la première étape est celle de la préparation de l'ADN à insérer. On va distinguer deux procédures, l'une conduisant à la réalisation de banques génomiques l'autre à des banques d'ADN complémentaire.
2.3.1 CAS DE LA CONSTRUCTION D'UNE BANQUE GENOMIQUE
L'ADN est préparé à partir du tissu le mieux adapté, puis découpé d'une façon la plus aléatoire possible (par cassures mécaniques ou par digestion incomplète par une nucléase de restriction). La construction d'une banque génomique implique le clonage de la totalité du génome, le seul moyen d'y parvenir est de partir de fragments chevauchants. Tous les fragments de taille admissible par le vecteur choisi auront la possibilité d'être clonés, tout le génome pourra être représenté. Le nombre minimum de clones nécessaires pour qu'une séquence quelconque, appartenant à un génome de taille donnée soit présent dans la banque (qui, théoriquement, contient l'ensemble des séquences d'ADN de l'espèce considérée) peut se calculer par :
             ln(1-P) N = ---------------                  L-X          ln 1- ------                   MN : nombre de clones constituant la banque (ou bibliothèque) P : probabilité pour qu'une séquence donnée soit présente dans la banque (une valeur de 0,99 est acceptable) L : taille moyenne des fragments insérés X : taille de la séquence souhaitée M : taille du génome
   Quelle que soit la prétention de cette formule, ceci veut dire qu'une banque génomique réalisée dans un vecteur dérivé du phage lambda devra comprendre environ  40 000 clones différents pour un génome de drosophile et 800 000 pour celui du maïs ou de l'homme. Ces banques sont donc très lourdes et dans bien des cas on constitue un autre type de banque.
2.3.2 CAS DE LA CONSTRUCTION D'UNE BANQUE D'ADN COMPLEMENTAIRES
Elles reposent sur une découverte qui a bouleversé le dogme central de la biologie moléculaire : pour certains virus dont le matériel génétique est de l'ARN, il existe un flux d'information de l'ARN vers l'ADN. Cette étape obligatoire pour leur reproduction est assurée par une enzyme particulière : la transcriptase réverse. Elle permet une synthèse d'ADN double brin (c'est donc une ADN polymérase) à partir d'une molécule d'ARN. Elle représente également un outil très utilisé en génétique moléculaire. On peut en effet synthétiser in vitro des molécules d'ADN dont l'un des brins a une séquence parfaitement complémentaire de celle d'un ARN donné, appelé ADNc .
NB: in vitro, l'activité ribonucléasique de la transcriptase réverse est difficile à maîtriser et l'on utilise souvent d'autres stratégies enzymatiques pour synthétiser le deuxième brin d'ADN.
Les banques dites d'ADN complémentaire présentent les avantages suivants :
sachant que dans toute cellule, une très faible partie du génome est transcrit en ARN, quel que soit la catégorie cellulaire qui va servir de point de départ, la banque nécessitera beaucoup moins de clones et l'enrichissement en clones recherchés pourra être considérable si l'on choisitbien un organe, son stade de développement...
on ne collectionne que des séquences codantes (sans introns) qui pourront s'exprimer dans un hôte procaryote même si elles sont d'origine eucaryote.
elles sont obligatoires pour cloner les gènes des virus à ARN (la majorité des virus des végétaux).
2.4 PREPARATION DES VECTEURS RECOMBINES
Dans les deux cas : découpage mécanique d'ADN génomique ou synthèse d'ADN complémentaire, l'étape suivante est l'insertion dans un vecteur.
L'utilisation de nucléases de restriction produisant des extrémités cohésives simplifie cette étape mais le découpage mécanique et la synthèse d'ADNc ne procurent pas de molécules à extrémités cohésives.
Pour palier cet inconvénient, une technique encore largement utilisée consiste à greffer des "queues" homopolymériques sur le vecteur et leurs complémentaires sur les fragments d'ADN. On utilise un site Pst I du vecteur car elle laisse des extrémités 3' débordantes, ces extrémités vont être allongées par un oligo dG grâce à la transférase terminale (enzyme qui polymérise, de façon non spécifique, des nucléotides à une extrémité 3' libre, elle n'utilise pas de modèle comme l'ADN polymérase). De la même manière, on greffe une queue oligo dC aux extrémités 3' de l'ADN à insérer. Après hybridation et ligation partielle, les cellules hôtes sont transformées, elles opèrent elles-mêmes une réparation et la ligation recréant du même coup deux sites Pst I qui pourront être utilisés, après amplification, pour récupérer l'ADN cible à partir des clones transformés.
Une autre méthode consiste à greffer, à l'aide d'une ligase, des oligonucléotides (4 ou 6 paires de nucléotides) représentant des sites de reconnaissance pour une nucléase de restriction aux extrémités franches des fragments d'ADN à cloner. Après ligation de ces petites molécules adaptatrices, la digestion par l'enzyme appropriée va créer des extrémités cohésives. On aura la précaution d'avoir protégé au préalable d'éventuels sites internes de reconnaissance (par méthylation par exemple).
2.5 EXPLOITATION DES BANQUES
Plusieurs techniques éprouvées permettent de construire des banques. Il reste à les exploiter, même avec une banque d'ADNc, le nombre de clones est important et le tri représente la partie la plus délicate des expériences de clonage, il existe de nombreuses stratégies mais aucune n'est universelle.
* Remarque : les termes de cribler et de sélectionner n'ont pas la même signification: lors de la sélection, on élimine tous les clones non intéressants, le criblage permet de repérer le clone intéressant.
Le tri peut se faire par sélection lorsque le gène intéressant confère un phénotype particulier à l'hôte tel qu'une résistance à un antibiotique particulier auxquel les cellules sauvages sont sensibles : la culture sur un milieu contenant cet antibiotique ne fera apparaître que les clones transformés contenant ce gène précis.
Le tri par criblage reste le plus courant.
La détection immunologique du produit du gène représente un crible intéressant si le gène recherché est exprimé dans la cellule transgénique ce qui n'est pas toujours le cas.
Le criblage par hybridation de l'ADN des clones transformés avec une sonde spécifique constitue une méthode de choix. L'hybridation peut se faire in situ : on effectue des répliques de clones bactériens cultivés en boîte de Pétri sur des disques de nitrocellulose, après un temps de culture suffisant, les bactéries de ces répliques sont ensuite lysées par la soude qui, en même temps, dénature l'ADN, les molécules simple brin correspondantes se trouvent immobilisées à l'emplacement de chaque clone. Après hybridation, avec la sonde radioactive, l'autoradiographie révélera les clones positifs.
Le problème est déplacé vers celui de l'obtention de la sonde spécifique, correspondant au gène recherché.
s'il s'agit d'un gène peu évolué, on peut utiliser une sonde "hétérologue" (en fait une séquence homologue mais provenant d'un autre organisme) en comptant sur une homologie de séquence suffisante pour s'hybrider dans des conditions qui ne donnent pas de faux positifs.
lorsqu'une lignée cellulaire synthétise, à un moment donné du développement, un messager majoritaire, on peut tenter sa purification et réaliser un ADN complémentaire qui, une fois cloné servira de sonde pour une banque génomique.
si l'on connaît très bien le produit du gène, c'est à dire la séquence, même partielle, en acides aminés, on pourra construire des oligonucléotides selon les codes possibles et "partir à la pèche" avec ces sondes artificielles.
Dans les cas désespérés, c'est à dire lorce que l'on ne possède pas de sonde et que l'on n'a aucune idée du produit du gène, connu uniquement par la manifestation phénotypique d'un allèle muté, il reste d'autres solutions, par exemple, la "marche sur chromosome" (chromosome walking) : Par des méthodes faisant appel à des croisement traditionnels et à l'analyse mendélienne, on va essayer d'associer des marqueurs RFLP au locus considéré. L'idèal étant d'encadrer le locus par des marqueurs distants de moins d'un centiMorgan. Le premier marqueur constitue une sonde pour identifier un clone (parmi une banque génomique) qui servira de départ. La cartographie de restriction nous permettra d'identifier un segment situé à une extrémité qui sera, à son tour utilisé comme sonde pour cribler un clone chevauchant et ainsi de suite jusqu'à un second marqueur connu. La séquence recherchée se trouve obligatoirement parmi les clones identifiés. Si l'un d'entre eux peut complémenter un mutant (par transgénie restituant le phénotype sauvage par exemple), c'est qu'il s'agit de la séquence recherchée.
                                                                                       
Le clonage biologique à l'aide d'un vecteur approprié est applicable à n'importe quelle séquence d'ADN (naturelle ou synthétique) et représente un outil d'amplification de molécules homogènes très puissant mais il ne s'agit que d'un outil. Les technologies de l'ADN recombiné in vitro sont à la base de la génétique moderne.
Analyse bioinformatique des séquences 1. - Introduction   La bioinformatique est la discipline de l'analyse de l'information biologique, en majorité sous la forme de séquences génétiques et de structures de protéines. C'est une branche théorique de la Biologie, largement antérieure à la récente "révolution génomique". Malgré son nom, la "bioinformatique" ne doit pas être confondue avec une simple application aux données biologiques des concepts et des outils de l'informatique traditionnelle. 1. -  HYPERLINK "http://www.univ-tours.fr/genet/genach1ec1.htm" Historique et situation française 2. -  HYPERLINK "http://www.univ-tours.fr/genet/genach1ec3.htm" Qu'est-ce que la bioinformatique ? 3. -  HYPERLINK "http://www.univ-tours.fr/genet/genach1ec5.htm" Les différentes facettes de la bioinformatique  
 INCLUDEPICTURE "http://www.univ-tours.fr/genet/genach1fig0.jpg" \* MERGEFORMATINET 
Analyse bioinformatique des séquences 1. - Introduction 1.1 - Historique et situation française  
   Le terme de 'Bioinformatics' n'est apparu dans la littérature scientifique qu'au tout début des années 90. Cependant, ce domaine de recherche ne vient pas d'émerger. Bien avant que cette discipline ne soit mise sous les feux de la rampe par l'essor de la génomique, quelques dizaines de laboratoires dans le monde travaillaient depuis longtemps en 'biomathématique', une discipline constituée pour répondre aux besoins précoces (dès 1965 !) de la phylogénie moléculaire.    Le  HYPERLINK "http://www.univ-tours.fr/genet/genach1ann0.htm" tableau I retrace les grandes étapes de la bioinformatique, et montre à quel point cette discipline a accompagné et souvent précédé le développement des concepts biologiques et des outils informatiques sur laquelle elle est fondée.    Une partie du retard pris en Europe continentale (et en France) dans ce domaine (la bioinformatique, publique ou privée, est à 90% anglo-saxonne) peut être attribué à une méconnaissance de l'origine et de l'histoire déjà longue des biomathématiques, et à la confusion associée au nouveau terme de 'Bioinformatique'. Les quelques actions en faveur de cette discipline ont été exercées dans un contexte multidisciplinaire Informatique/Biologie, qui n'a jamais collé à la réalité d'un domaine de recherche déjà bien structuré autour de concepts et techniques spécifiques.
Analyse bioinformatique des séquences 1. - Introduction 1.2 - Qu'est-ce que la Bioinformatique ?  
   La bioinformatique est constituée par l'ensemble des concepts et des techniques nécessaires à l'interprétation de l'information génétique (séquences) et structurale (repliement 3-D). C'est le décryptage de la 'bio-information' ('Computational Biology' en anglais). La bioinformatique est donc une branche théorique de la Biologie. Son but, comme tout volet théorique d'une discipline, est d'effectuer la synthèse des données disponibles (à l'aide de modèles et de théories), d'énoncer des hypothèses généralisatrices (ex. : comment les protéines se replient ou comment les espèces évoluent), et de formuler des prédictions (ex. : localiser ou prédire la fonction d'un gène).    Depuis son origine, la Bioinformatique a accompagné et/ou précédé l'acquisition de l'information génétique. Elle n'est donc pas un 'produit' de la génomique mais, comme la biologie moléculaire, elle en est un domaine fondateur. La bioinformatique a aussi accompagné et encouragé l'utilisation des ordinateurs en biologie depuis leur origine. La bioinformatique n'est pas pour autant dérivée de la 'science' informatique ; elle n'est (comme l'aéronautique, la banque ou la physique) qu'utilisatrice des ordinateurs et de leurs langages.    Un véritable 'bioinformaticien' n'est donc pas le simple croisement d'un biologiste et d'un informaticien (pas plus qu'un neurochirurgien n'est celui d'un psychiatre et d'un anatomiste). Il manipule et conçoit des notions originales et doit être familier avec certains domaines mathématiques liés à l'origine de l'informatique (théorie de l'information, théorie des graphes, probabilités et processus stochastiques). En statistiques, par exemple, la bioinformatique a contribué à l'essor de l'approche bayésienne et à celle de l'analyse des valeurs extrêmes.    Le suffixe 'Informatique' doit donc être compris comme renvoyant à l'interprétation de 'l'information' biologique, et non pas à l'utilisation de l'ordinateur. Le bioinformaticien qui formule des prédictions fonctionnelles ou structurales, joue ainsi un rôle croissant dans l'argumentaire des demandes de brevets (ex : 'ce gène partage tel motif avec tel autre, a donc telle fonction probable, et peut donc être à la base de telle application pharmacologique').
1. - Introduction 1.3 - Les différentes facettes de la bioinformatique  
   Pour l'analyse des données expérimentales que représentent les séquences biologiques, l'apport informatique concerne principalement quatre aspects :    Compilation et organisation des données    Cet aspect concerne essentiellement la création de bases de données. Certaines ont pour vocation de réunir le plus d'informations possible sans expertise particulière de l'information déposée alors que d'autres sont spécialisées dans un domaine considéré avec l'intervention d'experts. Ces dernières bases sont généralement construites autour de thèmes précis comme l'ensemble des séquences d'une même espèce ou les facteurs de transcription. Incontestablement, toutes ces banques de données constituent une source de connaissance d'une grande richesse que l'on peut exploiter dans le développement de méthodes d'analyse ou de prédiction.    Traitements systématiques des séquences    L'objectif principal est de repérer ou de caractériser une fonctionnalité ou un élément biologique intéressant. Ces programmes représentent les traitements couramment utilisés dans l'analyse des séquences comme l'identification de phases codantes sur une molécule d'ADN ou la recherche de similitudes d'une séquence avec l'ensemble des séquences d'une base de données.    Elaboration de stratégies    Le but est d'apporter des connaissances biologiques supplémentaires que l'on pourra ensuite intégrer dans des traitements standard. On peut donner comme exemples la mise au point de nouvelles matrices de substitution des acides aminés, la détermination de l'angle de courbure d'un segment d'ADN en fonction de sa séquence primaire, ou encore la détermination de critères spécifiques dans la définition de séquences régulatrices.    Evaluation des différentes approches dans le but de les valider    Très souvent, tous ces aspects se confondent ou sont étroitement imbriqués pour donner naissance à un ensemble d'outils, d'études ou de méthodes qui convergent vers un but commun que l'on appelle l'analyse informatique des séquences.    Il est maintenant facile et courant d'effectuer certaines opérations plus ou moins complexes à l'aide de logiciels plutôt que manuellement. Pourtant, ces pratiques ne sont pas toujours systématiques car il est souvent difficile pour certains utilisateurs de savoir quel programme utiliser en fonction d'une situation biologique déterminée ou d'exploiter les résultats fournis par une méthode. C'est pourquoi ce cours contient la présentation d'un certain nombre d'outils ou de méthodes couramment utilisés et reconnus dans l'analyse informatique des séquences. Cependant, cette présentation ne constitue en aucun cas un exposé exhaustif de tout ce qui existe.
2. - L'information contenue dans les séquences biologiques 2.1 - Nature des données biologiques à traiter et de l'information contenue à l'intérieur  
Les avancées en biologie moléculaire et en informatique appliquée à la comparaison des séquences, associées à une puissance de calcul accrue ont révolutionné l'importance des séquences (primaires) de biomolécules en biologie. Elles sont devenues des dénominateurs communs à l'interprétation de phénomènes biologiques complexes. La plupart des programmes utilisés en biologie manipulent ces séquences biologiques et en extraient des informations interprétables en termes biologiques. La séquence en nucléotides de l'ADN correspond de manière universelle au niveau le plus fin de l'information génétique et sa connaissance conduit en particulier à la localisation des gènes, à la déduction de séquences en acides aminés des protéines codées par ces gènes, à la contribution à l'analyse moléculaire de leurs expressions et régulations, ainsi qu'à la mise en évidence de mutations ou modifications à l'origine des maladies. Les informations à traiter sont donc de nature variée (régions similaires entre plusieurs séquences, prédictions concernant les propriétés structurales des molécules, inférences phylogénétiques, etc.).
Analyse bioinformatique des séquences
L'approche par modélisation Depuis des années, les bioinformaticiens se sont familiarisés progressivement avec des concepts aussi divers que le recuit simulé, les chaînes de Markov, et les statistiques bayésiennes, en l'absence d'un concept unificateur. Ce n'est que récemment qu'un cadre théorique général, plus clair et plus rigoureux, l'approche " par modélisation" ("model-driven approach" a commencé d'apparaître. Cette nouvelle reformulation est progressivement appliquée à la solutions des problèmes fondamentaux de la bioinformatique (alignement des séquences, prédiction de structure, phylogénie moléculaire, détection de gènes, etc.). Selon cette approche par modélisation, les objets (ex. : séquences, structures, motifs, etc., ...) ne sont plus étudiés (alignés, classés, etc.) par comparaison directe (deux à deux ou multiple), mais à travers la construction d'un modèle qui tente, dans une première étape, d'en capturer les propriétés communes. La relation entre les objets d'étude (et/ou leur reconnaissance) est alors exprimée en référence à ce modèle optimal commun. Cette approche est résumée par le schéma suivant :
 INCLUDEPICTURE "http://www.univ-tours.fr/genet/genach2fig0.jpg" \* MERGEFORMATINET 
Ce schéma est naturellement lié au contexte bayésien. En effet, le modèle optimal est le plus souvent choisi comme le plus vraisemblable (le plus probable) face à l'ensemble des données disponibles (D) , c'est-à-dire comme le modèle M maximisant la probabilité conditionnelle : P(M|D). En général, cette probabilité ne peut être estimée qu'à travers l'utilisation du théorème de Bayes, c'est-à-dire en utilisant la relation de proportionnalité  :
 INCLUDEPICTURE "http://www.univ-tours.fr/genet/genach2fig2.gif" \* MERGEFORMATINET 
La forme (mathématique ou informatique) du modèle M est alors choisie de façon à permettre un calcul commode de la probabilité P(D|M) (la probabilité que les données observées aient été engendrées par le modèle M). De son côté, la probabilité a priori du modèle M est soit remplacée par une constante, soit estimée à partir d'hypothèses réalistes préalables. Pour l'analyse de données essentiellement linéaires (comme les séquences), les modèles probabilistes fondés sur les chaînes de Markov (simples ou cachées) se sont révélés particulièrement fructueux. Mais d'autres catégories de modèles (hypothèses évolutives, structures 3-D, etc.) sont possibles, et seront explorés dans les années à venir. On comprend aussi que les méthodes itératives et perturbatives jouent un rôle important dans ce type d'approche. En effet, le modèle optimal sera souvent choisi au terme de la convergence d'un cycle impliquant la mise en relation des objets entre eux (étape finale) dans l'estimation de la qualité des modèles intermédiaires. Les algorithmes impliqués à ce niveau sont du type " Expectation-Maximization ". Des techniques avancées de recherche de minimum dans des espaces de grande dimensionnalité, empruntées à des domaines scientifiques variés (par exemple : " recuit simulé ", Monte-Carlo/Metropolis, etc.) sont également nécessaires à l'étape de convergence vers les paramètres du modèle optimal. De leur côté, des algorithmes traditionnels " d'alignement " de la bioinformatique (Needleman & Wunsch, Viterbi) continuent de jouer leur rôle dans l'étape de mise en relation (alignement) de chaque objet avec le modèle intermédiaire ou optimal. L'analyse des séquences basée sur la génération de modèles, intègre donc l'usage de concepts traditionnels de la bioinformatique, tout en les généralisant, et en leur assurant une base théorique plus rigoureuse. Le contexte probabiliste de cette nouvelle approche permet aussi d'associer les solutions proposées à une estimation de leur signification statistique. L'approche " par modélisation " , plus élégante, plus générale et plus rigoureuse, permet également d'espérer des progrès spectaculaires, comme l'illustre le schéma suivant:
 INCLUDEPICTURE "http://www.univ-tours.fr/genet/genach2fig3.jpg" \* MERGEFORMATINET 
Dans ce cas d'école, deux séquences S1 et S2 (sans la moindre position identique) sont mises en relation l'une avec l'autre par l'intermédiaire d'un " modèle " M commun (par exemple une séquence ancestrale) avec lequel elles ont séparément conservé 50% d'identité. Des relations extrêmement ténues entre des séquences (des structures, ou d'autres objets d'étude) peuvent donc être mises en évidence d'une manière fiable, pour autant qu'un modèle commun puisse leur être associé. De telles idées commencent à être mises en pratique dans le contexte des méthodes d'alignement multiple, de découverte de motifs [28-31], et de classification (par exemple à l'aide de modèles structuraux sous-jacents) pour les protéines comme pour les ARNs Les mêmes principes sont aussi mis en œuvre dans le domaine de l'identification des gènes, du " threading " (mise en correspondance d'une séquence et d'un repliement), et de la phylogénie moléculaire. Résultats obtenus récemment dans les deux domaines suivants : la localisation des gènes, et la mise en évidence de motifs fonctionnels et/ou structuraux. - Exemple 1 : Interprétation des génomes bactériens L'identification des régions codantes d'un génome est traditionnellement vue comme un problème de recherche de " signaux " de séquences, tel que la présence d'un codon initiateur, suivie d'une phase de lecture suffisamment longue (et donc de l'absence de codons STOP). Ces signaux peuvent être d'une nature plus complexe, comme certaines périodicités dans la séquence ou un biais dans l'usage des codons. La mise en évidence de ces signaux est à la base des méthodes traditionnelles [3] d'analyse des génomes. - Exemple 2 : l'analyse des motifs à travers leur variabilité L'arsenal expérimental de la " génomique fonctionnelle " est encore limité et coûteux (knock-out, transgénèse) et les méthodes d'analyse de séquences occupent une place centrale pour l'identification de la fonction des gènes, aussi bien en recherche fondamentale que pour trouver les gènes " candidats " à une application industrielle. La " prédiction " (en fait une classification) fonctionnelle s'effectue essentiellement par la détection d'une similarité entre une séquence nouvellement déterminée et celle d'un gène (ou de son produit) dont la fonction est connue. A un niveau plus avancé, l'alignement multiple de plusieurs séquences dotées de la même fonction est utilisé pour définir un motif consensus (ensemble de positions conservées) qui peut alors servir de " signature " fonctionnelle : toute nouvelle séquence dans laquelle ce motif est détecté est alors réputée correspondre à une fonction similaire. D'une façon analogue, il est possible de définir des motifs " structuraux ", caractéristiques d'un certain type de repliement tridimensionnel. La définition de " signatures " permet d'étendre la classification des séquences en familles ou super-familles de fonctions identiques ou similaires, jusqu'à des cas où les similarités directes entre certaines séquences ne sont plus détectables. De nombreuses formes mathématiques différentes (matrices de position-score, profils, séquences consensus, expressions régulières, chaînes de Markov) ont été proposées pour ces signatures qui sont en fait des descripteurs (modèles) optimaux de différentes familles de séquences. Selon les méthodes courantes, un descripteur optimal d'une famille de séquence est élaboré à partir des positions les plus conservées d'un multi-alignement. Lorsque les séquences dont on dispose (ou dont on connaît la fonction) appartiennent à des organismes proches (par exemple des vertébrés), une description construite autour des positions conservées n'a qu'une faible valeur heuristique, car ces acides aminés n'ont qu'une très faible probabilité de se retrouver inchangés dans les gènes homologues d'invertébrés, de plantes, ou de micro-organismes. Or, l'application la plus importante de l'étude de ces " signatures " est la mise en évidence d'homologues distants, soit dans des systèmes-modèles pratiques (ex. : la levure), soit dans des organismes pathogènes (ex. : bactéries, virus). Cette nouvelle approche des signatures de séquences permet l'exploration d'une zone de faible similarité (" twilight zone ") auparavant inaccessible, mais néanmoins réelle. La puissance prédictive de ce type d'analyse est très fortement augmenté s'il peut être combiné à la connaissance de la structure 3-D d'une protéine, jusqu'à conduire à une prédiction fonctionnelle précise. Une fraction importante des gènes, pour l'instant classés comme " orphelins " ou " inconnus ", pourraient donc à terme rejoindre le giron d'une famille de protéines déjà décrites
. - Les banques et bases de séquences biologiques 3.1 - Introduction  
Il existe un grand nombre de bases de données d'intérêt biologique. Nous nous limiterons ici à une présentation des principales banques de données publiques, basées sur la structure primaire des séquences, qui sont largement utilisées dans l'analyse informatique des séquences. Nous distinguerons deux types de banques, celles qui correspondent à une collecte des données la plus exhaustive possible et qui offrent finalement un ensemble plutôt hétérogène d'informations et celles qui correspondent à des données plus homogènes établies autour d'une thématique et qui offrent une valeur ajoutée à partir d'une technique particulière ou d'un intérêt suscité par un groupe d'individus. En biologie, il est fréquent d'appeler les premières "banques de données" et les secondes "bases de données", mais cette distinction n'est pas universelle en dehors du domaine biologique. Aussi, pour éviter toute confusion sémantique nous parlerons ici de banques de données ou bases de données généralistes (pour les premières) et spécialisées (pour les secondes).
3. - Les banques et bases de séquences biologiques 3.2 - Historique  
C'est au début des années 80 que les premières banques de séquences sont apparues sous l'initiative de quelques équipes comme celle du Professeur Grantham à Lyon (Gautier et al., 1981). Très rapidement avec les évolutions techniques du séquençage, la collecte et la gestion des données ont nécessité une organisation plus conséquente. Ainsi, plusieurs organismes ont pris en charge la production de telles bases de données. En Europe, financée par l'EMBO (European Moleculary Biology Organisation), une équipe s'est constituée pour développer une banque de séquences nucléiques ( HYPERLINK "http://www.ebi.ac.uk/embl/" \t "_blank" EMBL data library) et en assurer la diffusion (Hamm et Cameron, 1986). Cette équipe travaille au sein du Laboratoire Européen de Biologie Moléculaire qui est longtemps resté à Heidelberg et qui se trouve actuellement près de Cambridge au sein de l' HYPERLINK "http://www.ebi.ac.uk/" \t "_blank" EBI (European Bioinformatics Institute). Du coté américain, soutenue par le NIH (National Institute of Health) une banque nucléique nommée  HYPERLINK "http://www.ncbi.nlm.nih.gov/Genbank/GenbankOverview.html" \t "_blank" GenBank a été créée à Los Alamos (Bilofsky et al., 1986). Cette base de données était distribuée par la société IntelliGenetics et est difusée maintenant par le  HYPERLINK "http://www.ncbi.nlm.nih.gov/" \t "_blank" NCBI (National Center for Biotechnology Information). La collaboration entre ces deux banques a commencé relativement tôt. Elle s'est étendue en 1987 avec la participation de la DDBJ (Dna Data Bank) du Japon pour donner naissance finalement en 1990 à un format unique dans la description des caractéristiques biologiques qui accompagnent les séquences dans les banques de données nucléiques ( HYPERLINK "http://www.ebi.ac.uk/embl/Documentation/FT_definitions/feature_table.html" \t "_blank" The DDBJ/EMBL/GenBank feature table : Definitions, 1999).
. - Les banques et bases de séquences biologiques 3.3 - Les banques généralistes - Généralités  
Les grandes banques de séquences généralistes telles que Genbank ou l'EMBL sont des projets internationaux et constituent des leaders dans le domaine. Elles sont maintenant devenues indispensables à la communauté scientifique car elles regroupent des données et des résultats essentiels dont certains ne sont plus reproduits dans la littérature scientifique. Leur principale mission est de rendre publiques les séquences qui ont été déterminées, ainsi un des premiers intérêts de ces banques est la masse de séquences qu'elles contiennent. On y trouve également une bibliographie et une expertise biologique directement liées aux séquences traitées. Pour que l'utilisateur puisse s'y repérer, toutes ces informations sont mises à la disposition de la collectivité scientifique selon une organisation en rubriques.

3. - Les banques et bases de séquences biologiques 3.4 - Les banques spécialisées - Généralités  
Pour des besoins spécifiques liés à l'activité d'un groupe de personnes, ou encore par compilations bibliographiques, de nombreuses bases de données spécifiques ont été créées au sein des laboratoires. Certaines ont continué d'être développées, d'autres n'ont pas été mises à jour et ont disparu car elles correspondaient à un besoin ponctuel. D'autres enfin sont inconnues ou mal connues et attendent qu'on les exploite davantage. Toutes ces bases de données spécialisées sont d'intérêt très divers et la masse des données qu'elles représentent peut varier considérablement d'une base à une autre. Elles ont pour but de recenser des familles de séquences autour de caractéristiques biologiques précises comme les signaux de régulation, les promoteurs de gènes, les signatures peptidiques ou les gènes identiques issus d'espèces différentes. Elle peuvent aussi regrouper des classes spécifiques de séquences comme les vecteurs de clonage, les enzymes de restriction, ou toutes les séquences d'un même génome. En fait très souvent ces bases correspondent à des améliorations ou à des regroupements par rapport aux données issues des bases généralistes. Pour illustrer ce type de banque, nous parlerons ici de bases spécialisées liées aux motifs qui sont particulièrement utilisées dans l'analyse des séquences.
3. - Les banques et bases de séquences biologiques 3.5 - La diffusion et l'utilisation des banques de données - La diffusion  
La plupart des bases de données sont mises à jour par la production de versions actualisées. Le rythme est de trois à six versions par an pour les bases de données les plus couramment utilisées (actuellement, quatre versions par an pour L'EMBL et six pour GenBank) et de seulement une version par an ou tous les deux ans pour la plupart des autres. Pendant longtemps, la principale distribution fut l'envoi postal de bandes magnétiques aux personnes ayant souscrit un abonnement. Progressivement le CD-ROM a remplacé ce support de stockage et a permis une plus grande diffusion des données. Depuis le début des années 90, avec l'installation massive des réseaux informatiques à hauts débits qui permettent d'atteindre une machine située à plusieurs milliers de kilomètres de son terminal, beaucoup de laboratoires rapatrient les bases de données via ces réseaux à partir de serveurs publics. Ces réseaux informatiques rapides et les services qui en découlent permettent une large diffusion des bases. Ainsi beaucoup de serveurs mettent gratuitement à disposition de nombreuses bases, dont les grandes banques de séquences généralistes comme l'EMBL avec une mise à jour quotidienne des données, mais également un grand nombre d'autres bases dont la diffusion était auparavant plus restreinte. De ce fait, il résulte une banalisation de l'accès à l'information. Il n'est même plus nécessaire d'avoir localement les bases de données ou de se connecter par des procédures complexes à un centre serveur privilégié pour pouvoir exploiter aisément le contenu de ces bases. C'est ainsi que l'on estime maintenant le nombre total d'utilisateurs de la banque EMBL à plus de 50 000.

3. - Les banques et bases de séquences biologiques 3.6 - Conclusion  
Le nombre de données dans le domaine de la biologie ne cesse d'augmenter en particulier avec le séquençage des génomes de différents organismes mais l'on assiste également à une grande diversification des informations produites (séquences primaires, structures moléculaires, cartographie, collection de souches ou de clones...). Toutes ces données sont regroupées dans des banques de données très variées dans leur volume et leur nature. On ne peut maintenant imaginer leur consultation sans l'apport de l'informatique. Cet apport est devenu considérable durant les dernières années, en particulier avec l'extension des réseaux à haut débits. Il permet aux scientifiques d'utiliser de nouveaux outils allant de la simple interrogation textuelle à la présentation graphique des données en passant par l'utilisation du multifenêtrage ou de documents sonores ou vidéo. Il est donc évident que l'organisation et l'interrogation des données vont en être profondément changées. Cette transformation est déjà apparente dans le développement de certains logiciels qui proposent de plus en plus d'interactions entre les bases de données, ceci en exploitant davantage les liens qui existent entre elles. Le logiciel SRS, qui est installé sur de nombreux serveurs WWW, est un exemple de cette évolution en proposant une consultation multibase avec la même interface graphique.

4. - La manipulation des données 4.1 - Fonctions générales d'édition et de transfert  
Edition de séquences Les séquences peuvent se manipuler sur micro avec un éditeur spécialisé ou éventuellement avec un traitement de texte. > Quelques exemples d'éditeurs spécialisés : Editeur Macintosh DNA Aid+ ou DNA Strider. > Exportation depuis Word : Mettre en police non proportionnelle (Courier 10 par exemple) (sur une largeur de 15 à 17 cm) ce qui permet d'avoir le même nombre de caractères par ligne. Sauvegarder avec le format d'enregistrement : Texte avec sauts de ligne Transfert entre un micro et un serveur > Utilisation de FTP : Avec un programme tel que Fetch 2.1 (sur un Mac connecté à Internet), il est très aisé de faire des transferts de fichiers, non seulement textes, mais aussi binaires (images, exécutables...). Pour les PC, vous trouverez l'équivalent avec par exemple le programme WS_FTP. > Utilisation du couper/coller entre une fenêtre locale d'un traitement de texte (ou une fenêtre WWW) et une fenêtre Telnet (session interactive avec un serveur UNIX). Cette situation se présente si vous utilisez par exemple le serveur UNIX lovelace proposé par Infobiogen (http://www.infobiogen.fr).
. - La manipulation des données 4.2 Les formats
 
  Les séquences sont stockées en général sous forme de fichiers texte qui peuvent être soit des fichiers personnels (présents dans un espace personnel), soit des fichiers publics (séquences des banques) accessibles par des programmes interfaces (tels que SRS, GCG, Acnuc). Le format correspond à l'ensemble des règles (contraintes) de présentation auxquelles sont soumises la ou les séquences dans un fichier donné. Ainsi, le format permet donc : > une mise en forme automatisée, > le stockage homogène de l'information, > le traitement informatique ultérieur de l'information. Pour lire et traiter les séquences, les logiciels d'analyse autorisent un ou plusieurs formats des données.   
 1. HYPERLINK "http://www.univ-tours.fr/genet/genach4ec3.htm" Les formats liés aux logiciels
4.2.1 - Les formats liés aux données  
> Format Staden Le plus ancien et le plus simple : suite des lettres de la séquence par lignes terminées par un retour-à-la-ligne (80 caractères max/ligne). Ce format n'autorise qu'une séquence par fichier. Exemple : SESLRIIFAGTPDFAARHLDALLSSGHNVVGVFTQPDRPAGRGKKLMPSPVKVLAEEKGLPVFQ PVSLRPQENQQLVAELQADVMVVVAYGLILPKAVLEMPRLGCINVHGSLLPRWRGAAPIQRSL WAGDAETGVTIMQMDVGLDTGDMLYKLSCPITAEDTSGTLYDKLAELGPQGLITTLKQLADG TAKPEVQDETLVTYAEKLSKEEARIDWSLSAAQLERCIRAFNPWPMSWLEIEGQPVKVWKASV IDTATNAAPGTILEANKQGIQVATGDGILNLLSLQPAGKKAMSAQDLLNSRREWFVPGNRLV > Format Stanford / IG La 1ère ligne est une ligne de commentaires précédée par le caractère ";". La 2e contient l'identificateur (nom de la séquence) dans les 10 ères colonnes Les lignes suivantes contiennent la séquence (80 caractères max/ligne) terminée par le caractère "1" (pour une séquence linéaire) et "2" (si la séquence est circulaire). LINE 1 :; Describe the sequence any way you want LINE 2 :ECTRNAGLY2 LINE 3 :ACGCACGTAC ACGTACGTAC A C G T C C G T ACG TAC GTA CGT LINE 4 :GCTTA GG G C T A1 Exemple : ; Dro5s-T.Seq Length: 120 April 6, 1989 21:22 Check: 9487 .. dro5stseq GCCAACGACCAUACCACGCUGAAUACAUCGGUUCUCGUCCGAUCACCGAAAUUAAGCAG CGUCGCGGGCGGUUAGUACUUAGAUGGGGGACCGCUUGGGAACACCGCGUGUUGUUGG CCU1 > Format Fasta Dans ce cas, la séquence (donnée sous forme de lignes de 80 caractères maximum) est précédée d'une ligne de titre (nom, définition ...) qui doit commencée par le caractère ">". Cela permet de mettre plusieurs séquences dans un même fichier. Exemple : >em|U03177|FL03177 Feline leukemia virus clone FeLV-69TTU3-16. AGATACAAGGAAGTTAGAGGCTAAAACAGGATATCTGTGGTTAAGCACCTGTGAGGCCAA GAACAGTTAAACCCCGGATATAGCTGAACAGCAGAAGTTTCGCCAGCAGTCTCCAGGCTCCCCA >entête de la séquence 2 séquence 2 ...... > Format GCG Le format adopté par le package GCG permet à la fois de commenter les données et de vérifier l'intégrité de la séquence par une valeur (=Ckecksum) calculée sur celle-ci. Le format GCG n'autorise qu'une seule séquence par fichier. Le fichier est constitué de deux parties :  - avant les ".." : commentaires  - ligne signal avec identificateur et "Check #### .."  - après les ".." : séquence Exemple : pir:ccho (1-104) pir:ccho Length: 104 (today) Check: 8847 .. 1 GDVEKGKKIF VQKCAQCHTV EKGGKHKTGP NLHGLFGRKT GQAPGFTYTD 51 ANKNKGITWK EETLMEYLEN PKKYIPGTKM IFAGIKKKTE REDLIAYLKK 101 ATNE > Format Fitch La 1ère ligne contient le nom de la séquence. Les lignes suivantes contiennent la séquence, découpée en 20 blocs (par ligne) de 3 caractères, séparés par un espace. Exemple : pir:ccho (1-104) , 104 bases, 7DA79498 checksum. GDV EKG KKI FVQ KCA QCH TVE KGG KHK TGP NLH GLF GRK TGQ APG FTY TDA NKN KGI TWK EET LME YLE NPK KYI PGT KMI FAG IKK KTE RED LIA YLK KAT NE > Format DNAStrider Trois lignes de commentaires précédées du caractère ";". Les lignes suivantes contiennent la séquence. La dernière ligne doit contenir les caractères "//". Exemple : ; ### from DNA Strider ;-) ; DNA sequence pir:ccho (1-104) , 104 bases, 7DA79498 checksum. ; GDVEKGKKIFVQKCAQCHTVEKGGKHKTGPNLHGLFGRKTGQAPGFTYTDANKNKGITWKE ETLMEYLENPKKYIPGTKMIFAGIKKKTEREDLIAYLKKATNE //
 2. HYPERLINK "http://www.univ-tours.fr/genet/genach4ec4.htm" Les formats liés aux banques
.2 - Les formats liés aux banques  
> Format EMBL Chaque entrée de la base EMBL est composée de lignes qui commencent par un code à deux caractères (champ) suivi de 3 blancs eux même suivis d'informations. Pour plus de détails : ID Identificateur ou mnémonique (nom de l'entrée) XX Ligne vide séparatrice. AC Numéro d'accession DT Dates d'incorporation dans la base et de la dernière mise à jour. DE Description de la séquence KW Mot(s)-clé(s) (par ordre alphabétique). OS Organisme d'où provient la séquence. OC Classification taxonomique de l'organisme OG Localisation sub-cellulaire des séquences non nucléaires (chloroplaste, cinétoplaste, mitochondrie, plasmide...) RN Références bibliographiques de l'entrée. RC Commentaires sur la référence RX Région pour laquelle la référence bibliographique est associée. RP Références associées aux différentes régions de la séquence. RA Auteurs des articles RT Titre de l'article RL Références du journal DR liaisons avec d'autres bases de données FH En-tête du champ FT FT Caractéristiques de la séquence (features). SQ Séquence (60 nucléotides par ligne dans le sens 5'--->3'). CC Commentaires // Fin de l'entrée . Format de base : La 1ère ligne contient ID, 3 espaces puis l'identificateur (9 caractères-chiffres max). La 2e ligne contient AC, 3 espaces puis le numéro d'accession (6 caractères-chiffres max). La 3e ligne contient DE, 3 espaces puis le descriptif (6 caractères-chiffres max). La 4e ligne contient SQ, 3 espaces suivis de la taille de la séquence. Les ligne suivantes contiennent la séquence, découpée en 6 blocs (par ligne) de 10 caractères, séparés par un espace. Chaque entrée se termine par "//". LINE 1 :ID ID_name LINE 2 :AC Accession number LINE 3 :DE Describe the sequence any way you want LINE 4 :SQ Length BP LINE 5 : ACGTACGTAC GTACGTACGT ACGTACGTAC GTACGTA... LINE 6 : ACGT... LINE 7 :// EX : EMBL:HSU94344 [par SRS]

 3. HYPERLINK "http://www.univ-tours.fr/genet/genach4ec8.htm" Les formats spécifiques de séquences multiples .2.3 - Les formats spécifiques de séquences multiples  
> Fichier FOSN (Files Of Sequence Names) de GCG Le fichier FOSN est un fichier catalogue qui ne contient que des noms de séquences (un nom par ligne), c'est à dire des noms de fichiers personnels (contenant une ou plusieurs séquences) et/ou des noms de séquences de banque (nom_banque:mnémonique). Des commentaires peuvent être ajoutés : ils seront dans ce cas précédés du caractère ! !Nom du fichier : catalogue.list .. ! Le fichier doit commencer par .. em:*rna* ! Séquences de l'EMBL contenant rna dans leur nom gamma.seq ! Fichier personnel au format GCG gb:D01457 ! Séquence D01457 de Genbank aligned.msf{*} ! Fichier de séquences alignées au format MSF @em.strings ! Liste de noms de séquences gb:Hum* ! Séquences humaines de Genbank miu.seq begin:1 end:95 ! Séquence personnelle des positions 1 à 95 Pour traiter l'ensemble de ces séquences dans un programme de GCG, il suffit de désigner le nom de ce fichier précédé du caractère @ en paramètre d'entrée (EX: @catalogue.list). Le programme ira lui-même chercher les séquences correspondantes aux endroits adéquats (répertoire personnel ou banque). Le fichier FOSN peut être généré par les commandes Names, StringSearch, Lookup de GCG ou (indirectement) par SRS (il faudra ajouter ..). Il est possible d'indiquer pour chaque séquence des attributs :    Début/fin : begin:m end:n (m etn : positions dans la séquence    Topologie : Circ:T (séquence circulaire) Circ:F (linéaire)    Brin : Strand:+ (sens directe) Strand:- (sens inverse)    Poids de la séquence : Wgt:1    Jointure : Join:nom_seq    (concaténation de plusieurs fragments ayant la même étiquette)
4. - La manipulation des données 4.3 - Les outils de conversion de formats  
> ReadSeq READSEQ est un programme de reformatage général des séquences (conversion) avec reconnaissance automatique du format du fichier d'entrée. De nombreux formats de sortie sont autorisés par Readseq : 1. IG/Stanford used by Intelligenetics and others 2. GenBank/GB genbank flatfile format 3. NBRF format 4. EMB EMBL flatfile format 5. GCG single sequence format of GCG software 6. DNAStrider for common Mac program 7. Fitch format limited use 8. Pearson/Fasta a common format used by Fasta programs and others 9. Zuker format limited use. Input only. 10. Olsen format printed by Olsen VMS sequence editor.Input only. 11. Phylip3.2 sequential format for Phylip programs 12. Phylip interleaved format for Phylip programs (v3.3, v3.4, v3.5) 13. Plain/Raw sequence data only (no name, document, numbering) 14. PIR/CODATA format used by PIR 15. MSF multi sequence format used by GCG software 16. ASN.1 format used by NCBI 17. PAUP PAUP's multiple sequence (NEXUS) format 18. Pretty print with various options for nice looking output. Readseq peut être utilisé de deux façons différentes : Mode interactif : READSEQ peut être lancé en interactif (au prompt de la machine) : Selon un dialogue interactif en saisissant : readseq fichier de sortie (en premier), choix du format de sortie (18 choix) et fichier d'entrée (plusieurs fois éventuellemnt) terminez par un vide (validation de la liste) Mode en ligne : Selon une commande en ligne : readseq [-options] in.seq > out.seq ex : readseq fichier_entree - All -f8 >fichier_sortie readseq files* -All -f5 -outfile=fichier_sortie

5. - La comparaison de séquences 5.1 - Introduction  
La recherche de similitude entre séquences est un élément fondamental qui constitue souvent la première étape des analyses de séquences. Elémentaire, la question de la comparaison et de l'obtention d'un alignement optimal de 2 séquences biologiques, nécessite néanmoins la mise en œuvre de procédures de calcul et de modèles biologiques permettant de quantifier la notion de ressemblance entre ces séquences. L'objectif est de révéler des régions proches dans leur séquence primaire en se basant sur le principe de parcimonie, c'est-à-dire en considérant le minimum de changements en insertion, suppression, ou substitution qui séparent deux séquences. On peut apprendre ainsi, par association, des informations importantes sur la structure, la fonction ou l'évolution des biomolécules. Cette méthode est largement utilisée dans les recherches de motifs à travers une séquence, dans la caractérisation de régions communes ou similaires entre deux ou plusieurs séquences, dans la comparaison d'une séquence avec l'ensemble ou sous-ensemble des séquences d'une base de données, ou bien encore dans l'établissement d'un alignement multiple sur lequel sont basées les analyses d'évolution moléculaire. Nous décrirons dans ce chapitre les principes fondamentaux qui sont indispensables à la compréhension de ces outils en illustrant nos propos par un certain nombre de programmes couramment utilisés dans le domaine.
5. - La comparaison de séquences 5.2 - La notion de similarité, d'identité et d'homologie  
Il existe plusieurs termes permettant de nommer la ressemblance entre deux séquences biologiques. La similarité est une quantité qui se mesure en % d'identité, identité elle même définie comme une ressemblance parfaite entre deux séquences. L'homologie quand à elle est une propriété de séquences qui a une connotation évolutive. Deux séquences sont dites homologues si elles possèdent un ancêtre commun. L'homologie présente la particularité d'être transitive. Si A est homologue à B et B homologue à C, alors A est homologue à C même si A et C se ressemblent très peu. L'homologie se mesure par la similarité. On considère qu'une similarité significative est signe d'homologie sauf si les séquences présentent une faible complexité. L'inverse n'est par contre pas vrai. Une absence totale de similarité ne veut pas dire non-homologie.

5. - La comparaison de séquences 5.3 - Le choix du matériel à comparer : ADN ou protéine ?  
Une des questions qui se posent au biologiste lorsqu'il compare des séquences est de savoir sur quel matériel il doit travailler : ADN ou protéine ? Concernant les acides nucléiques, pour les parties non codantes, on peut identifier des séquences homologues jusqu'à 200 millions d'années, 600 millions pour les régions codantes. Pour les protéines, on trouve des séquences homologues après 1 milliard d'années d'évolution et des similarités significatives au delà de 2,5 millions d'années. En conclusion, dès que c'est possible, il est préférable de comparer les séquences au niveau protéique.

.4 - Les principes de base pour identifier la ressemblance entre deux séquences 5.4.1 - La détermination d'un score  
Pour qualifier et quantifier la similitude entre séquences, un score est calculé. Celui-ci peut mesurer soit le rapprochement, soit l'éloignement des séquences pour refléter ce qui les sépare. Ce score repose sur un système qui permet d'attribuer un score élémentaire pour chaque position lorsque les séquences sont éditées l'une sous l'autre.
 INCLUDEPICTURE "http://www.univ-tours.fr/genet/genach5fig1.gif" \* MERGEFORMATINET 
Le score élémentaire est un élément d'une matrice de scores qui rend compte de tous les états possibles en fonction de l'alphabet utilisé dans la description des séquences. Ainsi, pour les acides nucléiques, la matrice d'identité ou unitaire est principalement employée.
 INCLUDEPICTURE "http://www.univ-tours.fr/genet/genach5fig2.gif" \* MERGEFORMATINET 
Elle rend compte de l'identité des résidus pour chacune des positions de la comparaison, on parle ainsi de bon ou de mauvais appariement ou bien de bonne ou mauvaise association. Ce critère qui permet déjà d'établir des ressemblances ne suffit pas toujours pour révéler au mieux les similitudes entre séquences. Très rapidement, on s'est aperçu qu'une insertion ou une délétion (on admettra ici le franglais) d'une ou plusieurs bases pouvait améliorer le score d'une comparaison et ainsi faire davantage ressortir les zones identiques ou très proches. Ces brèches (en anglais gap) que l'on impose aux séquences sont évidemment pénalisantes dans le calcul du score. Si l'on considère que le score donne le rapprochement entre deux séquences, on peut résumer celui-ci par l'équation suivante :
Score = Sð se - Sð sp
où se est un score élémentaire et sp une pénalité d'insertion ou de délétion. Deux remarques s'imposent. La première est que le score est fonction de la longueur de la zone de similitude que l'on considère, c'est à dire que plus la longueur est grande, plus le score est élevé. La deuxième est que l'on peut nuancer le calcul en donnant plus ou moins d'importance aux pénalités et aux associations possibles entre résidus. Ainsi, le poids d'une insertion peut être plus ou moins fort par rapport à une mauvaise association. On voit déjà très bien ici que par le biais de ces deux éléments fondamentaux, on pourra privilégier une situation plutôt qu'une autre, c'est-à-dire avoir des comparaisons de séquences avec peu ou beaucoup d'insertions-délétions. On retrouvera bien sûr ce type d'éléments sous forme de paramètre dans les programmes de comparaison.

5.4 - Les principes de base pour identifier la ressemblance entre deux séquences 5.4.2 - La recherche de segments et l'alignement  
Les programmes de comparaison de séquences ont pour but de repérer les endroits où se trouvent des régions identiques ou très proches entre deux séquences et d'en déduire celles qui sont significatives et qui correspondent à un sens biologique de celles qui sont observées par hasard. En général, les algorithmes fonctionnent sur des segments de séquences (on parle de fenêtres, de motifs ou de mots) sur lesquels on regarde s'il existe ou pas une similitude significative. Si on ne prend en compte que des analogies entre sous-séquences sans traiter la possibilité d'insertion ou de délétion, on parlera alors de segments similaires. Ainsi l'équation [ Score = Sð se - Sð sp ] se résume uniquement à l'expression de la somme des scores élémentaires. On distingue pour cette catégorie deux classes précises de similitude : la ressemblance parfaite ou identité
 INCLUDEPICTURE "http://www.univ-tours.fr/genet/genach5fig3.gif" \* MERGEFORMATINET 
et la ressemblance non parfaite que l'on qualifie de similitude.
 INCLUDEPICTURE "http://www.univ-tours.fr/genet/genach5fig4.jpg" \* MERGEFORMATINET 
Il existe bien évidemment plusieurs niveaux de similitude et les programmes s'attachent à repérer les régions où l'on trouve généralement des éléments identiques ou très similaires suffisamment nombreux pour que la ressemblance soit intéressante. En fait on considérera que la ressemblance est significative lorsque son score est supérieur ou égal à un score seuil que l'on s'est fixé (cf. l'évaluation des résultats). Bien entendu, pour l'identité, seules les matrices unitaires sont autorisées comme matrices de scores élémentaires alors que pour les autres ressemblances, toutes les matrices peuvent être employées. La notion d'alignement, elle, suppose la recherche des positions auxquelles il est possible de faire des insertions ou des délétions afin d'optimiser le score d'une comparaison.
 INCLUDEPICTURE "http://www.univ-tours.fr/genet/genach5fig5.gif" \* MERGEFORMATINET 
On considère qu'un programme est un programme d'alignement s'il possède au moins cette étape. La plupart des programmes de comparaisons de séquences s'appuient sur une de ces trois notions (la recherche de segments identiques, de segments similaires ou d'alignements) pour faire ressortir des ressemblances entre séquences. Nous verrons que certains programmes, essentiellement pour les comparaisons avec les bases de données, peuvent utiliser une combinaison de ces principes fondamentaux. Il existe évidemment plusieurs méthodes pour mettre en œuvre ces principes, nous décrirons ici celles qui les illustrent le mieux et qui sont souvent les plus utilisées.

5.4 - Les principes de base pour identifier la ressemblance entre deux séquences 5.4.3 - Les différents types d'alignements  
Global/Local Un alignement global considère l'ensemble des éléments de chacune des séquences. Si les longueurs des séquences sont différentes, alors des insertions devront être faites dans la séquence la plus petite pour arriver à aligner les deux séquences d'une extrémité à l'autre. Dans le cas où les longueurs sont très différentes, il est possible d'appliquer ce principe d'alignement global seulement en considérant chaque position d'une séquence longue comme étant un point de départ d'alignement avec une séquence courte. C'est l'algorithme de type II au sens Collins et Coulson (1987) que l'on appelle aussi couramment l'algorithme de meilleure localisation. Cependant dans un alignement global, si uniquement de courts segments sont très similaires entre deux séquences, les autres parties des séquences risquent de diminuer le poids de ces régions. C'est pourquoi d'autres algorithmes d'alignements, dits locaux, basés sur la localisation des similarités sont nés. Le but de ces alignements locaux est de trouver sans prédétermination de longueur les zones les plus similaires entre deux séquences. L'alignement local comporte donc une partie de chacune des séquences et non la totalité des séquences comme dans la plupart des alignement globaux.
 INCLUDEPICTURE "http://www.univ-tours.fr/genet/genach5fig6.gif" \* MERGEFORMATINET 
Avec/sans gap On a vu qu'il pouvait être nécessaire, pour optimiser la comparaison de deux séquences, d'introduire des insertions ou des deletions de longueur variable à certaines positions des séquences. En fait, pour conserver l'intégralité de l'information biologique, le traitement d'une deletion à l'intérieur d'une séquence est considéré comme une insertion dans la séquence lui faisant face. Dans certaines publications, on trouvera le terme d'indel (INsertion-DELetion) pour nommer ces événements. On a vu également que les indels sont considérées comme des pénalités dans le calcul du score. Il existe néanmoins plusieurs manières d'exprimer cette pénalité.

5.4 - Les principes de base pour identifier la ressemblance entre deux séquences 5.4.4 - La recherche de segments similaires  
L'algorithme élémentaire de ce type de recherche est basé sur la comparaison de fenêtres de longueur fixe que l'on déplace le long des séquences. Soit deux séquences A et B à comparer et l la longueur de la fenêtre. On détermine sur la séquence A une première fenêtre de longueur l que l'on va comparer avec toutes les fenêtres possibles de même longueur, obtenues à partir de la séquence B. Un incrément est alors appliqué pour déterminer une deuxième fenêtre sur la séquence A, puis l'on recommence le balayage des comparaisons sur la séquence B. Si l'on choisit un incrément de 1 et que les séquences ont respectivement une longueur de m et n éléments, on effectuera de l'ordre de n x m comparaisons de fenêtres différentes. Pour chaque comparaison entre deux fenêtres, un score est obtenu et l'on mémorisera uniquement les comparaisons dont les scores sont jugés significatifs, c'est-à-dire supérieurs ou égaux à un seuil que l'on s'est fixé. Par exemple lorsque le score correspond au minimum à 80% d'identité avec l'utilisation d'une matrice unitaire nucléique comme matrice de scores élémentaires. Les comparaisons sauvegardées qui correspondent à des positions chevauchantes des fenêtres peuvent éventuellement être concaténées pour faire ressortir, à l'édition des résultats, les meilleures zones de similitudes entre les deux séquences. Application : le programme Diagon de Staden Ce programme (Staden, 1982) utilise directement l'algorithme décrit ci-dessus en faisant une édition graphique des résultats. Sur le graphe, chacun des deux axes correspond à une séquence. On placera un point aux coordonnées i et j du graphe, i et j étant les positions centrées de chacune des fenêtres considérées, quand le score obtenu en comparant les deux fenêtres est supérieur au seuil fixé. On appelle un tel point, un point de similitude et un tel graphe, une matrice de points. Le tracé du graphe donne alors tous les points de similitude, c'est-à-dire la représentation de tous les segments similaires considérés comme significatifs. Quand deux séquences se ressemblent, une ligne diagonale se dessine sur le graphe par juxtaposition des points de similitude.
 INCLUDEPICTURE "http://www.univ-tours.fr/genet/genach5fig7.gif" \* MERGEFORMATINET 
Le programme peut également être utilisé pour rechercher sur une séquence des répétitions directes
 INCLUDEPICTURE "http://www.univ-tours.fr/genet/genach5fig8.gif" \* MERGEFORMATINET 
ou des palindromes en comparant la séquence sur elle-même. Cette représentation graphique permet aussi de visualiser les zones d'insertion-deletion présentes entre les deux séquences. Elles sont représentées par des déplacements verticaux ou horizontaux des régions diagonales similaires.

5.4 - Les principes de base pour identifier la ressemblance entre deux séquences 5.4.5 - La recherche d'alignements optimaux  
La méthode de programmation dynamique Le temps de comparaison de deux séquences de longueur équivalente N est proportionnel à N². L'exploration de chaque position de chaque séquence pour la détermination éventuelle d'une insertion augmente d'un facteur 2N le temps de calcul. La programmation dynamique est un moyen qui permet de limiter cette augmentation pour conserver un temps de calcul de l'ordre de N². Elle est basée sur le fait que tous les événements sont possibles et calculables mais que la plupart sont rejetés en considérant certains critères. Needleman et Wunsch (1970) ont introduit les premiers ce type d'approche pour un problème biologique et leur algorithme reste une référence dans le domaine. L'algorithme de Needleman et Wunsch Cet algorithme a été développé initialement pour aligner deux séquences protéiques. Soit A et B deux séquences de longueur m et n. L'algorithme construit un tableau à deux dimensions (m,n) que l'on appelle matrice de comparaison. L'équation suivante résume le principe de calcul d'une case de cette matrice : S (i, j) = se (i, j) + MAX ((S (i+1,j+1)),(S (x, j+1) - P) ;(S (i+1, y) - P)) où S(i,j) est le score somme de la case d'indice i et j, se le score élémentaire de la case d'indice i et j de la matrice initiale et P la pénalité donnée pour une insertion De nombreux programmes sont déduits de ce genre d'alignement, le programme ALIGN (Dayhoff et al., 1979) en est une application directe avec l'utilisation de pénalités à deux paramètres (dépendant et indépendant de la longueur). Cependant, surtout pour les séquences nucléiques, il peut exister plusieurs chemins possibles donnant un alignement optimal. On doit alors faire un choix arbitraire car l'algorithme ne conserve qu'un pointeur de chemin pour chaque position de la matrice de comparaison. Ceci est fait généralement en privilégiant les insertions les plus courtes. Le programme GAP du logiciel GCG (Devereux et al., 1984) permet de sauvegarder des pointeurs équivalents et ainsi peut palier à ce genre de problème. L'algorithme de Smith et Waterman Une des méthodes d'alignement local les plus utilisées fut introduite par Smith et Waterman (1981). La différence essentielle avec l'algorithme de Needleman et Wunsch que nous venons de décrire est que n'importe quelle case de la matrice de comparaison peut être considérée comme point de départ pour le calcul des scores sommes et que tout score somme qui devient inférieur à zéro stoppe la progression du calcul des scores sommes. La case pointée est alors réinitialisée à zéro et peut être considérée comme nouveau point de départ. Cela implique que le système de scores choisi possède des scores négatifs pour les mauvaises associations qui peuvent exister entre les éléments des séquences. Ce genre de méthode est souvent considéré comme plus sensible que celles directement inspirées de Needelman et Wunsch surtout lorsque les séquences à comparer sont inconnues ou de longueurs différentes. De plus, si les régions trouvées entre les deux séquences recouvrent la totalité de celles-ci, alors on peut considérer l'alignement local comme étant un alignement global.

. - La comparaison de séquences 5.5 - Les principaux logiciels et programmes de comparaison avec les bandes de séquences 5.5.1 - Introduction   La taille sans cesse croissante des banques de séquences a nécessité l'élaboration d'algorithmes spécifiques pour effectuer la comparaison d'une séquence avec une banque de données car les algorithmes standards de comparaison entre deux séquences sont généralement trop longs sur des machines classiques. La plupart de ces programmes constituent des méthodes heuristiques. Leur but est de filtrer les données de la banque en étapes successives car peu de séquences vont avoir des similitudes avec la séquence comparée. Ces méthodes heuristiques utilisent donc certaines approximations pour éliminer rapidement les situations sans intérêt et ainsi repérer les séquences de la banque susceptibles d'avoir une relation avec la séquence recherchée. Ces programmes permettent ensuite de calculer un score pour mettre en évidence les meilleures similitudes qu'ils ont observées. Il existe de nombreux programmes qui répondent à cette fonction avec des approches qui peuvent être très différentes. Nous nous limiterons ici à la description détaillée des deux types de programme les plus utilisés par les biologistes qui sont les logiciels FASTA (Pearson et Lipman, 1988) et BLAST (Altschul et al., 1990). Ces programmes ont une approche différente mais complémentaire pour effectuer des recherches à travers une base de données, mais sont basés tous les deux sur des méthodes très heuristiques. C'est pourquoi ils doivent être utilisés essentiellement comme logiciels permettant de repérer les séquences de la banque susceptibles d'avoir des ressemblances biologiques avec la séquence recherchée. Ils ne constituent pas des programmes optimisés pour comparer deux séquences entre elles. Très souvent, les résultats qu'ils procurent devront être confirmés ou renforcés par d'autres programmes plus spécialisés en particulier dans la recherche de caractéristiques biologiques. Actuellement, seule, l'utilisation de machines parallèles ou massivement parallèles et de machines dites câblées donnent la possibilité d'utiliser des algorithmes plus rigoureux comme celui de Smith et Waterman (1981) pour la comparaison avec une banque de données.

.5 - Les principaux logiciels et programmes de comparaison avec les bandes de séquences 5.5.2 - Généralités sur la qualité des logiciels   La notion de sensibilité/sélectivité Sélectivité Capacité à ne détecter que la réalité biologique et rien de plus --> problème des faux-positifs   Sensibilité Capacité à détecter tout ce qui est intéressant sur le plan biologique --> problème des faux-négatifs Les heuristiques ou le codage numérique Une des méthodes les plus répandues est celle initialement proposée par Dumas et Ninio (1982). Elle permet la transformation d'une séquence en suite d'entiers à partir de la description classique faite en chaîne de caractères. Pour cela, on décompose une séquence en autant de segments de longueur fixe se chevauchant et l'on attribue un code à chacun de ces segments. Le code est un entier déterminé en fonction de l'alphabet utilisé dans la description des séquences et de la longueur du segment codé. On appelle cette méthode, la codification numérique des séquences et l'on parle de "mot" ou de "motif" pour les segments codés, la longueur des mots codés étant référencée comme uplet (triplet, quadruplet..) ou "k-tuple" en anglais. La comparaison matricielle des deux séquences sous forme de chaîne d'entiers permet de localiser ensuite sur les séquences tous les endroits possédant des segments communs de longueur prédéfinie par le codage. Pour cela il suffit de repérer les positions des séquences où les codes sont identiques. Cette approche diminue considérablement les temps de recherche de similitude et localise rapidement les zones identiques entre deux séquences. La rapidité de la méthode est proportionnelle à la longueur du mot codé, mais bien évidemment, plus cette longueur est grande, plus le résultat est grossier. Par exemple, une codification numérique des séquences nucléiques avec des segments de longueur 5 peut ignorer des segments identiques de longueur 4. La principale utilité de ce principe est donc d'effectuer rapidement une comparaison, au détriment possible d'une certaine sensibilité.

5.5 - Les principaux logiciels et programmes de comparaison avec les bandes de séquences 5.5.3 - L'estimation statistique des résultats   Introduction En bioinformatique, lorsque l'on effectue des comparaisons entre séquences biologiques, cela revient essentiellement à des comparaisons de chaînes de caractères. Bien sûr, on peut donner aux caractères une composante biologique réelle à travers les matrices de scores élémentaires mais il est souvent utile d'essayer de déterminer si ce que l'on observe a une signification biologique ou est simplement du au hasard. Pour cela, on peut effectuer des statistiques simples qui permettent d'estimer la signification des résultats. Les méthodes pratiques ou empiriques Pour certaines comparaisons, la ressemblance est tellement forte, que la relation biologique entre les séquences est évidente. Néanmoins, très souvent, pour d'autres situations moins faciles, des méthodes empiriques peuvent être utilisées. Une des premières qui a été considérée est le pourcentage d'identité. Il faut cependant être méfiant avec ce critère car il doit obligatoirement être relié à la longueur de la similitude considérée et sa signification est différente selon que l'on étudie des séquences nucléiques ou protéiques. En effet des séquences protéiques de 100 résidus ou plus, possédant au moins 25% d'identité entre elles ont certainement un ancêtre commun (Doolittle, 1990) alors que deux séquences nucléiques d'au moins 100 bases et identiques à 50% n'ont pas forcément de relation biologique. Ceci est du essentiellement au fait que la fréquence génomique d'une base est relativement élevée (environ 25%). On peut également douter d'un alignement s'il nécessite plus d'une insertion en moyenne pour 20 acides aminés, ou si de faibles changements (environ 10%) dans l'établissement des pénalités d'insertion-deletion modifient sensiblement cet alignement (Sates et Boguski, 1991). Souvent les programmes n'incluent pas de tests statistiques et il appartient alors à l'utilisateur d'en établir un lui-même s'il désire estimer mathématiquement la signification de ses résultats.

.5 - Les principaux logiciels et programmes de comparaison avec les bandes de séquences 5.5.4 - Généralités sur les paramètres des logiciels de comparaison de séquences
 
La pondération des substitutions > Séquences d'ADN On considère 2 coûts : coût d'un "match" valeur positive coût d'un "mismatch" valeur négative > Séquences protéiques : les matrices Si un système basé uniquement sur l'identité donne une sensibilité satisfaisante pour les acides nucléiques, celui-ci devient moins approprié pour les séquences protéiques. Si l'on considère qu'un acide aminé peut être substitué à un autre en fonction de certaines propriétés sans que la structure ou la fonctionnalité d'une protéine soit grandement altérée, on peut classer les acides aminés en familles et obtenir ainsi un système de scores qui rende compte de l'affinité des résidus protéiques entre eux. Les matrices de scores qui en découlent permettront d'augmenter la fiabilité des recherches de similitudes protéiques. Une des premières matrices à utiliser ce principe a été celle déduite de la dégénérescence du code génétique (Fitch, 1966). Les scores élémentaires ont été alors déterminés en fonction du nombre commun de nucléotides présents dans les codons des acides aminés, ce qui revient à considérer le minimum de changements nécessaires en bases pour convertir un acide aminé en un autre. Depuis de nombreuses matrices ont été créées et l'on peut classer celles-ci en deux catégories. La première est celle qui regroupe plutôt les matrices issues d'études montrant le caractère de substitution des acides aminées au cours de l'évolution et la deuxième est basée plus particulièrement sur les caractéristiques physico-chimiques des acides aminés. Nous présenterons ici les matrices les plus couramment utilisées sans donner de liste exhaustive de toutes celles qui ont été déterminées.

5.5 - Les principaux logiciels et programmes de comparaison avec les bandes de séquences 5.5.4 - Généralités sur les paramètres des logiciels de comparaison de séquences
 
La pondération des substitutions > Séquences d'ADN On considère 2 coûts : coût d'un "match" valeur positive coût d'un "mismatch" valeur négative > Séquences protéiques : les matrices Si un système basé uniquement sur l'identité donne une sensibilité satisfaisante pour les acides nucléiques, celui-ci devient moins approprié pour les séquences protéiques. Si l'on considère qu'un acide aminé peut être substitué à un autre en fonction de certaines propriétés sans que la structure ou la fonctionnalité d'une protéine soit grandement altérée, on peut classer les acides aminés en familles et obtenir ainsi un système de scores qui rende compte de l'affinité des résidus protéiques entre eux. Les matrices de scores qui en découlent permettront d'augmenter la fiabilité des recherches de similitudes protéiques. Une des premières matrices à utiliser ce principe a été celle déduite de la dégénérescence du code génétique (Fitch, 1966). Les scores élémentaires ont été alors déterminés en fonction du nombre commun de nucléotides présents dans les codons des acides aminés, ce qui revient à considérer le minimum de changements nécessaires en bases pour convertir un acide aminé en un autre. Depuis de nombreuses matrices ont été créées et l'on peut classer celles-ci en deux catégories. La première est celle qui regroupe plutôt les matrices issues d'études montrant le caractère de substitution des acides aminées au cours de l'évolution et la deuxième est basée plus particulièrement sur les caractéristiques physico-chimiques des acides aminés. Nous présenterons ici les matrices les plus couramment utilisées sans donner de liste exhaustive de toutes celles qui ont été déterminées.

5.5 - Les principaux logiciels et programmes de comparaison avec les bandes de séquences 5.5.4 - Généralités sur les paramètres des logiciels de comparaison de séquences
 
Les matrices protéiques liées à l'évolution Les matrices de type PAM, la matrice de mutation de Dayhoff Elles sont sans aucun doute celles qui ont été les plus utilisées dans les programmes de comparaison de séquences protéiques. Elles représentent les échanges possibles ou acceptables d'un acide aminé par un autre lors de l'évolution des protéines (Dayhoff et al., 1978). Elles ont été déduites de l'étude de 71 familles de protéines (de l'ordre de 1300 séquences) très semblables (moins de 15% de différence) que l'on pouvait facilement aligner. De ces alignements, une matrice de probabilité a été calculée où chaque élément de la matrice donne la probabilité qu'un acide aminé A soit remplacé par un acide aminé B durant une étape d'évolution. Cette matrice de probabilité de mutation correspond en fait à une substitution acceptée pour 100 sites durant un temps d'évolution particulier, c'est à dire une substitution qui ne détruise pas l'activité de la protéine. On parle ainsi d'une 1PAM (Percent Accepted Mutations) matrice. Si l'on multiplie la matrice par elle-même un certain nombre de fois, on obtient une matrice XPAM qui donne des probabilités de substitution pour des distances d'évolution plus grande. Pour être plus facilement utilisable dans les programmes de comparaison de séquences, chaque matrice XPAM est transformée en une matrice de similitudes PAM-X que l'on appelle matrice de mutation de Dayhoff. Cette transformation est effectuée en considérant les fréquences relatives de mutation des acides aminés et en prenant le logarithme de chaque élément de la matrice. Des études de simulation ont montré que la PAM-250 semble optimale pour distinguer des protéines apparentées de celles possèdant des similarités dues au hasard (Schwartz et Dayhoff, 1979). C'est pourquoi, la matrice PAM-250 est devenue la matrice de mutation standard de Dayhoff. Cette matrice est basée sur un échantillon assez large et représente assez bien les probabilités de substitution d'un acide aminé en un autre suivant que cette mutation engendre ou pas des changements dans la structure ou la fonctionnalité des protéines. Néanmoins, elle présente un certain nombre d'inconvénients. Principalement, elle considère que les points de mutation, c'est-à-dire les positions d'échange des acides aminés sont équiprobables au sein d'une même protéine (George et al., 1990). Or, on sait que ceci n'est pas vrai et qu'une protéine peut présenter plusieurs niveaux de variabilité. De plus, l'ensemble des protéines utilisé en 1978 n'est pas entièrement représentatif des différentes classes de protéines connues. Ainsi l'échantillon de 1978 était composé essentiellement de petites molécules solubles très différentes des protéines membranaires ou virales que l'on peut étudier aujourd'hui. Ce constat a conduit à une réactualisation de la matrice (Jones et al., 1992) en considérant 16130 séquences issues de la version 15 de Swissprot, ce qui correspond à 2621 familles de protéines. Cette étude a permis de prendre davantage en compte les substitutions qui étaient mal représentées en 1978.
5.5 - Les principaux logiciels et programmes de comparaison avec les bandes de séquences 5.5.4 - Généralités sur les paramètres des logiciels de comparaison de séquences
 
Les matrices protéiques liées à l'évolution Les matrices de type PAM, la matrice de mutation de Dayhoff Elles sont sans aucun doute celles qui ont été les plus utilisées dans les programmes de comparaison de séquences protéiques. Elles représentent les échanges possibles ou acceptables d'un acide aminé par un autre lors de l'évolution des protéines (Dayhoff et al., 1978). Elles ont été déduites de l'étude de 71 familles de protéines (de l'ordre de 1300 séquences) très semblables (moins de 15% de différence) que l'on pouvait facilement aligner. De ces alignements, une matrice de probabilité a été calculée où chaque élément de la matrice donne la probabilité qu'un acide aminé A soit remplacé par un acide aminé B durant une étape d'évolution. Cette matrice de probabilité de mutation correspond en fait à une substitution acceptée pour 100 sites durant un temps d'évolution particulier, c'est à dire une substitution qui ne détruise pas l'activité de la protéine. On parle ainsi d'une 1PAM (Percent Accepted Mutations) matrice. Si l'on multiplie la matrice par elle-même un certain nombre de fois, on obtient une matrice XPAM qui donne des probabilités de substitution pour des distances d'évolution plus grande. Pour être plus facilement utilisable dans les programmes de comparaison de séquences, chaque matrice XPAM est transformée en une matrice de similitudes PAM-X que l'on appelle matrice de mutation de Dayhoff. Cette transformation est effectuée en considérant les fréquences relatives de mutation des acides aminés et en prenant le logarithme de chaque élément de la matrice. Des études de simulation ont montré que la PAM-250 semble optimale pour distinguer des protéines apparentées de celles possèdant des similarités dues au hasard (Schwartz et Dayhoff, 1979). C'est pourquoi, la matrice PAM-250 est devenue la matrice de mutation standard de Dayhoff. Cette matrice est basée sur un échantillon assez large et représente assez bien les probabilités de substitution d'un acide aminé en un autre suivant que cette mutation engendre ou pas des changements dans la structure ou la fonctionnalité des protéines. Néanmoins, elle présente un certain nombre d'inconvénients. Principalement, elle considère que les points de mutation, c'est-à-dire les positions d'échange des acides aminés sont équiprobables au sein d'une même protéine (George et al., 1990). Or, on sait que ceci n'est pas vrai et qu'une protéine peut présenter plusieurs niveaux de variabilité. De plus, l'ensemble des protéines utilisé en 1978 n'est pas entièrement représentatif des différentes classes de protéines connues. Ainsi l'échantillon de 1978 était composé essentiellement de petites molécules solubles très différentes des protéines membranaires ou virales que l'on peut étudier aujourd'hui. Ce constat a conduit à une réactualisation de la matrice (Jones et al., 1992) en considérant 16130 séquences issues de la version 15 de Swissprot, ce qui correspond à 2621 familles de protéines. Cette étude a permis de prendre davantage en compte les substitutions qui étaient mal représentées en 1978.
.5 - Les principaux logiciels et programmes de comparaison avec les bandes de séquences 5.5.4 - Généralités sur les paramètres des logiciels de comparaison de séquences
 
Le choix d'une matrice protéique Il existe maintenant de nombreuses matrices et il est souvent difficile de savoir laquelle doit être utilisée dans les différents programmes de comparaison de séquences protéiques, car de toute évidence, la sensibilité des méthodes dépend aussi de la qualité des matrices. Les premières études comparatives sur l'utilisation de différentes matrices (pour exemple, Feng et al., 1985 ; Taylor, 1986 ; Argos, 1987 ; Risler et al., 1988) montraient déjà qu'il n'existe pas de matrice idéale. Ces études mettaient en évidence, par exemple, que la matrice PAM250 de Dayhoff donne un poids trop important à l'identité et n'est pas bien adaptée à la comparaison de protéines très distantes car elle ne renferme pas suffisamment d'informations structurales. C'est pourquoi, l'utilisation de matrices différentes selon le type de similarité recherché a commencé à être suggérée (Collins et al., 1988). Ainsi, dans une étude sur les matrices de type PAM, Altschul (1991) conseille pour les méthodes d'alignements locaux (cf. la recherche d'alignements optimaux, les alignements globaux et locaux), la matrice PAM40 pour retrouver des alignements courts avec des protéines très semblables et les matrices PAM120 et PAM250 pour des alignements plus longs et de plus faible ressemblance. Il préconise également l'utilisation de la PAM120 lorsque l'on ne connaît pas a priori le degré de ressemblance de deux séquences comme c'est le cas par exemple dans les programmes de recherche de similitudes avec les banques de données. Des études plus récentes indiquent que les matrices mises au point ces dernières années sont généralement plus performantes que celle établies par Dayhoff en 1978, en particulier parce qu'elles sont construites à partir d'un nombre beaucoup plus important de données. Ainsi Henikoff et Henikoff (1993) ont évalué plusieurs matrices en utilisant le programme BLAST de recherche de similitude sans insertion-deletion. Leur étude a établit que les matrices dérivées directement des comparaisons de séquences ou des comparaisons de structure sont supérieures à celles qui sont extrapolées du modèle d'évolution de Dayhoff. En particulier ils concluent que la matrice BLOSUM 62 permet d'obtenir les meilleurs résultats. Néanmoins, Pearson (1995), dans une étude comparative de différentes méthodes de recherche avec les bases de données a pu montrer l'importance de l'algorithme et de son paramètrage dans l'utilisation des matrices de substitution. Ainsi, les matrices de type PAM déterminées à partir de données récentes comme celles de Jones et al. (1992) peuvent donner des résultats comparables à ceux obtenus avec les meilleures matrices de type BLOSUM (62 ou 50 par exemple). Récemment, Vogt et al, (1995) ont testé également un grand nombre de matrices de substitution d'acides aminés pour tenter de les évaluer en fonction des méthodes de comparaison de séquences protéiques et des systèmes de pénalité d'insertion-deletion utilisés. S'il apparaît une relative similarité dans les résultats pour les fortes ressemblances entre séquences, les conclusions de cette étude montrent que l'ensemble des matrices donne de meilleurs résultats avec les alignements globaux et que leurs performances peuvent varier très significativement selon le système de pénalité d'insertion-deletion que l'on choisit (cf. la recherche d'alignements optimaux, le traitement des insertions et des deletions). Cette étude révèle également, à l'issue de différentes combinaisons de matrices, d'algorithmes et de pénalité, que la matrice établie par Gonnet et al. (1992) est celle qui donne les meilleurs résultats. Cette dernière a été construite à partir d'une base de données protéique de 8344353 acides aminés ou chaque séquence a été comparée à l'ensemble des séquences de la banque. Tous les alignements significatifs recensés servent ensuite à générer une matrice avec une distance PAM de 250. Dans cette étude, Vogt et ses collaborateurs retrouvent également dans les cinq matrices les plus performantes, les BLOSUM 50 et 62 ainsi que la matrice de structure tertiaire de Johnson et Overington (1993) et une matrice de Benner et al. (1994) qui en fait est de nature très similaire à celle de Gonnet. La synthèse de toutes ses études montre que l'évaluation des matrices est très liée aux méthodes d'expertise utilisées et que leur usage est fortement corrélé aux types d'algorithme et de paramètrage utilisés. En conclusion, il apparaît tout de même que les matrices plutôt basées sur les comparaisons de séquences (comme celle de Gonnet et al., 1992 ; ou les BLOSUM, Henikoff et Henikoff, 1992) ou sur des structures tridimensionnelles (Johnson et Overington, 1993) semblent donner plus souvent de meilleurs résultats que celles basées principalement sur le modèle de Dayhoff, même réactualisé (Jones et al.,1992).

5.5 - Les principaux logiciels et programmes de comparaison avec les bandes de séquences 5.5.4 - Généralités sur les paramètres des logiciels de comparaison de séquences
Pondération des gaps
L'opération d'insertion/deletion présente un coût qu'il faut pouvoir pondérer au plus proche de la réalité biologique. Différents systèmes de pondération ont été proposés : Pénalité fixe par gap : P=k Pénalité variable en fonction de la longueur du gap : P= x+yL P : le coût global du gap de longueur L x : la pénalité fixe d'insertion indépendante de la longueur y : la pénalité d'extension pour un élément (souvent x=10y). Avec ce système, une longue insertion est légèrement plus pénalisante qu'une courte, ce qui revient en fait à minimiser l'introduction même d'une insertion. Autrement dit, on facilitera souvent dans un alignement le fait d'avoir peu d'insertions, éventuellement longues, plutôt que d'avoir beaucoup d'insertions d'un seul élément. Ceci est tout à fait en concordance avec les événements biologiques observés car il peut se produire par exemple une seule deletion de plusieurs bases plutôt que plusieurs pertes indépendantes d'une seule base. Il existe d'autres systèmes de pondération plus complexes en cours de recherche. Dans certains cas, le poids des pénalités peut être établi en fonction des endroits où elles se trouvent pour améliorer la sensibilité de la recherche. Par exemple, on peut définir des choix de pénalités à l'intérieur de régions protéiques ayant potentiellement une qualité physique ou chimique particulière. Argos et Vingron (1990) ont développé de telles méthodes pour des structures comme les feuillets béta ou l'hydrophobicité. Enfin, dans tous les cas, la recherche d'alignements optimaux est basée sur le fait que les séquences doivent contenir un grand nombre d'éléments identiques ou équivalents. Mais, dans les principaux logiciels disponibles actuellement, vous trouverez ce système de pondération longueur dépendant.
5. - La comparaison de séquences 5.6 - Le logiciel FASTA
 
L'algorithme est basé sur l'identification rapide des zones d'identité entre la séquence recherchée et les séquences de la banque. Cette reconnaissance est primordiale car elle permet de considérer uniquement les séquences présentant une région de forte similitude avec la séquence recherchée. On peut ensuite, à partir de la meilleure zone de ressemblance, appliquer localement à ces séquences un algorithme d'alignement optimal. Le logiciel regroupe en fait deux programmes de recherche avec les banques de données. Le premier est le programme FASTA qui possède une version nucléique et protéique et le deuxième est le programme TFASTA qui recherche une séquence protéique avec les séquences d'une base nucléique traduite dans les 6 phases.
 
 1.
 HYPERLINK "http://www.univ-tours.fr/genet/genach5ec24.htm" Les différentes étapes de l'algorithme
Les différentes étapes de l'algorithme Pour chaque séquence de la banque, l'algorithme se déroule en quatre étapes sélectives distinctes qui permettent de cibler rapidement et précisément les régions intéressantes pour l'alignement optimal.
La première étape consiste à repérer les régions les plus denses en identités partagées par les deux séquences. La codification numérique des séquences est ici utilisée avec une longueur des segments codés noté ktup. Cette étape confère à l'algorithme l'essentiel de sa rapidité.
Dans une deuxième étape, on recalcule à l'aide d'une matrice de scores élémentaires un score pour les dix meilleurs régions d'identité trouvées dans l'étape précédente en considérant éventuellement des associations non exactes entre certains éléments des séquences. Pour les protéines, on utilisera ici une matrice de substitution. Cette deuxième étape correspond donc à une recherche de similitudes sans insertion-deletion uniquement sur les régions de haute identité. Les scores obtenus correspondent à des régions initiales de premier ordre et l'on qualifie de score init1 celui qui représente la région de plus fort score parmi les dix analysées.
La troisième étape essaie de joindre les régions définies à l'étape précédente, bien entendu s'il en existe au moins deux et si chacune de celles-ci possède un score supérieur à un score seuil prédéfini. Ce seuil correspond en fait à un score moyen attendu pour des séquences non apparentées. On réunira ces régions initiales à chaque fois que la somme de leur scores diminuée d'une pénalité de jonction est supérieure ou égale au score init1. Ce score s'il existe est appelé initn et correspond à une région initiale de deuxième ordre.
La quatrième étape consiste à effectuer l'alignement optimal de la séquence recherchée avec la séquence de la banque en considérant uniquement les parties des séquences délimitées par la meilleure région initiale de score initn (qui est égale à init1 s'il n'y a pas eu de jonction à l'étape 3). On obtient alors un score optimal dénommé opt. Cet alignement est effectué uniquement pour un nombre limité de séquences fixé par l'utilisateur. Ce sont les séquences qui correspondent aux plus hauts scores initiaux initn.


 
Les principaux parameters
Les principaux paramètres Tous les programmes sont paramétrables. Ces paramètres sont d'autant plus importants qu'ils permettent d'agir sur la vitesse de calcul, la qualité et la présentation des résultats. Ils sont le reflet d'une certaine modélisation du vivant et leur connaissance est indispensable pour l'interprétation des résultats. Les valeurs par défaut

Ce sont les valeurs utilisées dans le logiciel où aucune modification explicite n'est demandée. Taille des mots     ADN : ktup = 6     Protéine : ktup = 2 Coûts de substitution     ADN : +5 / -4     Protéine : matrice Blosum50 Coûts des gaps     ADN : -16 / -4     Protéine : -12 / -2 Influence de la modification des paramètres sur les résultats     ktup faible ==> bonne sensibilité et temps de calcul long     ktup élevé ==> rapide mais peu sensible



 3.
 HYPERLINK "http://www.univ-tours.fr/genet/genach5ec26.htm" Les qualités de l'algorithme

 5.6 - Le logiciel FASTA Les qualités de l'algorithme L'algorithme possède une bonne sensibilité du fait qu'il prend en compte les insertions-délétions. Ceci est fait en minimisant les explorations entre les deux séquences puisqu'on ne considère que les séquences potentiellement intéressantes pour effectuer l'étape de programmation dynamique, en ciblant de plus, les régions où l'on doit effectuer la recherche d'alignement. L'étape ultime d'alignement optimal est réalisée uniquement sur la meilleure région de haute similitude même si d'autres régions possèdent un score suffisant pour l'effectuer. Cela permet d'éviter en partie le bruit de fond dû à des motifs non significatifs et intrinsèques à la séquence recherchée mais a l'inconvénient de ne pas pouvoir considérer de grandes insertions durant l'alignement des séquences. Cette lacune est maintenant évitée dans la dernière version du logiciel (Octobre 1995) pour l'alignement des séquences protéiques. En effet celle-ci considère la totalité des séquences pour effectuer l'algorithme d'alignement local de Smith et Waterman (1981) plutôt que d'effectuer l'alignement global de Needleman et Wunsch (1970) uniquement sur des portions de séquences protéiques. L'édition des résultats est maintenant triée en fonction des scores opt contrairement aux premières versions qui considéraient les scores initiaux (initn), ce qui rendait parfois difficile la détection d'un alignement dont le score optimal est bon mais dont le score initial initn est médiocre. Enfin Pearson (1990) explique que lorsque le score opt est plus faible que le score initn, alors la similitude est souvent inintéressante. L'estimation statistique est faite à partir des scores obtenus avec l'ensemble des séquences de la banque. Une estimation statistique est donnée en traçant l'histogramme des meilleures scores obtenus pour chaque séquence de la banque avec le calcul de la moyenne et de l'écart type liés à cette distribution. Cette estimation utilise la théorie selon laquelle les similarités locales d'une séquence comparée avec une banque de données suit une distribution de valeurs extrêmes (voir par exemple Altschul et al.,1994). Cependant, le logiciel fournit également des programmes d'estimation statistique basés sur une méthode de Monte Carlo (cf. l'évaluation des résultats) pour estimer la validité d'un score opt particulier entre une séquence de la banque et la séquence recherchée. Il s'agit des programmes PRDF et PRSS qui considèrent une distribution de valeurs extrêmes pour les scores aléatoires et qui sont directement inspirés du programme PRDF2 (Pearson, 1990) qui regroupe les séquences en courts segments pour effectuer les simulations. Le programme PRDF produit des simulations selon l'algorithme de Needleman et Wunsch appliqué localement pour l'étape d'alignement optimal alors que le programme PRSS utilise l'algorithme complet de Smith et Waterman entre deux séquences protéiques. FASTA Fichier résultat (1) seq, 97 aa vs smallswissprot.fasta library one = represents 1 library sequences z-opt E() 20 0 0: 22 0 0: 24 0 0: 26 0 0: 28 0 0: 30 0 0: 32 0 1:* 34 0 2: * 36 0 4: * 38 0 6: * 40 0 8: * 42 0 9: * 44 3 10:=== * 46 19 10:=========*========= 48 13 9:========*==== 50 12 8:=======*==== 52 9 7:======*== 54 7 6:=====*= 56 7 5:====*== 58 1 4:= * 60 1 3:= * 62 2 3:==* 64 6 2:=*==== 66 4 2:=*== 68 0 1:* 70 2 1:*= 72 2 1:*= 74 0 1:* 76 10 0:========== 78 2 0:== 80 1 0:= 82 1 0:= 84 0 0: FASTA Fichier résultat (2) 35111 residues in 105 sequences statistics extrapolated from 105 to 104 sequences results sorted and z-values calculated from opt score 104 scores better than 1 saved, ktup: 2, variable pamfact BLOSUM50 matrix, gap penalties: -12,-2 joining threshold: 36, optimization threshold: 24, width: 16 scan time: 0:00:00 The best scores are: initn init1 opt z-sc E(104) sp|P32234|128U_DROME GTP-BINDING PROTEIN 128UP. 72 72 85 123.8 0.0045 sp|P16210|1A02_PANTR CHLA CLASS I HISTOCOMPATIBIL 42 42 62 92.6 0.25 sp|P15921|190K_RICRI 190 KD ANTIGEN PRECURSOR (CE 50 50 65 83.4 0.81 sp|P05534|1A24_HUMAN HLA CLASS I HISTOCOMPATIBILI 35 35 51 79.9 1.2 sp|P46733|19KD_MYCAV 19 KD LIPOPROTEIN ANTIGEN PR 44 44 77 79.4 1.3 sp|P13749|1A04_PANTR CHLA CLASS I HISTOCOMPATIBIL 34 34 50 78.7 1.5 sp|P30377|1A03_GORGO CLASS I HISTOCOMPATIBILITY A 34 34 49 77.5 1.7 sp|P30375|1A01_GORGO CLASS I HISTOCOMPATIBILITY A 34 34 49 77.5 1.7 sp|P30376|1A02_GORGO CLASS I HISTOCOMPATIBILITY A 34 34 49 77.5 1.7 sp|P01892|1A02_HUMAN HLA CLASS I HISTOCOMPATIBILI 34 34 49 77.5 1.7 sp|P30378|1A04_GORGO CLASS I HISTOCOMPATIBILITY A 34 34 49 77.5 1.7 sp|P13744|11SB_CUCMA 11S GLOBULIN BETA SUBUNIT PR 45 45 46 76.4 2 sp|P18462|1A25_HUMAN HLA CLASS I HISTOCOMPATIBILI 34 34 48 76.2 2 sp|P30450|1A26_HUMAN HLA CLASS I HISTOCOMPATIBILI 34 34 48 76.2 2 sp|P16209|1A01_PANTR CHLA CLASS I HISTOCOMPATIBIL 34 34 48 76.2 2 sp|P13748|1A03_PANTR CHLA CLASS I HISTOCOMPATIBIL 34 34 48 76.2 2 sp|Q00740|1A1D_PSESP 1-AMINOCYCLOPROPANE-1-CARBOX 33 33 49 73.4 2.9 sp|Q07262|1A1C_TOBAC 1-AMINOCYCLOPROPANE-1-CARBOX 33 33 44 72.8 3.1 sp|P15711|104K_THEPA 104 KD MICRONEME-RHOPTRY ANT 42 42 48 69.7 4.6 sp|P23599|1A11_CUCMA 1-AMINOCYCLOPROPANE-1-CARBOX 31 31 42 69.6 4.6 FASTA Fichier résultat (3) sp|P15921|190K_RICRI 190 KD ANTIGEN PRECURSOR (CELL SU (2249 aa) initn: 50 init1: 50 opt: 65 z-score: 83.4 E(): 0.81 Smith-Waterman score: 70; 28.0% identity in 93 aa overlap 10 20 sp|P15 MTILASICKLGNT--KSTSSSIGSSYSSAV ... :. ::.. :.:...: .. ::: sp|P305 TGGDNVGVLNLNGALSQVTGDIGNTNSLATISVGAGTATLGGAVIKATTTKI-TNAVSAV 640 650 660 670 680 690 30 40 50 60 70 80 sp|P15 SFGSNSVSCGECGGDGPSFPNASPRTGVKAGVNVDGLLGAIGKTVNGMLISPNGGGGGMG .: . : : . : ::. .:. . ^. . . : ::.: . :^. : :.: sp|P30 KFTNPVVVTGAIDSTG----NAN--NGIVTFTGNSTVTGDIGNT--NALATVNVGAGTAT 700 710 720 730 740

S'exercer avec FASTA > Connectez vous à  HYPERLINK "http://www2.ebi.ac.uk/fasta3/" \t "_blank" http://www2.ebi.ac.uk/fasta3/ . > Copiez/collez la séquence suivante dans le cadre sans les lignes de commentaires : >sp P40460 YIO4_YEAST HYPOTHETICAL 80.5 KDA PROTEIN IN SLN1-RAD25 INTERGENIC REGION - Saccharomyces cerevisiae (Baker's yeast). MQSSTSTDQHVLHHMDPHRFTSQIPTATSSQLRRRNSTNQGLTDMINKSI ARNTISGTGIPTGGINKNKRTRSTVAGGTNGTALALNDKSNSRNSVSRLS INQLGSLQQHLSNRDPRPLRDKNFQSAIQEEIYDYLKKNKFDIETNHPIS IKFLKQPTQKGFIIIFKWLYLRLDPGYGFTKSIENEIYQILKNLRYPFLE SINKSQISAVGGSNWHKFLGMLHWMVRTNIKLDMCLNKVDRSLINQNTQE ITILSQPLKTLDEQDQRQERYELMVEKLLIDYFTESYKSFLKLEDNYEPS MQELKLGFEKFVHIINTDIANLQTQNDNLYEKYQEVMKISQKIKTTREKW KALKSDSNKYENYVNAMKQKSQEWPGKLEKMKSECELKEEEIKALQSNIS ELHKILRKKGISTEQFELQNQEREKLTRELDKINIQSDKLTSSIKSRKLE AEGIFKSLLDTLRQYDSSIQNLTRSRSQLGHNVNDSSLKINISENLLDRD FHEGISYEQLFPKGSGINESIKKSILKLNDEIQERIKTIEKDNITLEKDI KNLKHDINEKTQINEKLELELSEANSKFELSKQENERLLVAQRIEIEKME KKINDSNLLMKTKISDAEELVTSTELKLEELKVDLNRKRYKLHQQVIHVI DITSKFKINIQSSLENSENELGNVIEELRNLEFETEHNVTN > Sauvegardez les résultats dans p40460.fasta > Modification du ktup (rapidité/sensibilité) Comparer la même séquence et la même banque en utilisant ktup=1. Sauvegardez les résultats dans p40460.fasta1. Comparez les résultats entre ktup =2 (valeur par défaut : fichier p40460.fasta) et ktup=1(fichier p40460.fasta1).

S'exercer avec PRDF > Connectez vous à  HYPERLINK "http://www.infobiogen.fr/services/analyseq/cgi-bin/prdf_in.pl" \t "_blank" http://www.infobiogen.fr/services/analyseq/cgi-bin/prdf_in.pl . > Copiez/collez la séquence suivante dans le 1er cadre sans les lignes de commentaires : >sp P21170 SPEA_ECOLI BIOSYNTHETIC ARGININE DECARBOXYLASE (EC 4.1.1.19) (ADC) - Escherichia coli. MSDDMSMGLPSSAGEHGVLRSMQEVAMSSQEASKMLRTYNIAWWGNNYYD VNELGHISVCPDPDVPEARVDLAQLVKTREAQGQRLPALFCFPQILQHRL RSINAAFKRARESYGYNGDYFLVYPIKVNQHRRVIESLIHSGEPLGLEAG SKAELMAVLAHAGMTRSVIVCNGYKDREYIRLALIGEKMGHKVYLVIEKM SEIAIVLDEAERLNVVPRLGVRARLRSQGSGKWQSSGGEKSKFGLAATQV LQLVETLREAGRLDSLQLLHFHLGSQMANIRDIATGVRESARFYVELHKL GVNIQCFDVGGGLGVDYEGTRSQSDCSVNYGLNEYANNIIWAIGDACEEN GLPHPTVITESGRAVTAHHTVLVSNIIGVERNEYTVPTAPAEDAPRALQS MWETWQEMHEPGTRRSLREWLHDSQMDLHDIHIGYSSGIFSLQERAWAEQ LYLSMCHEVQKQLDPQNRAHRPIIDELQERMADKMYVNFSLFQSMPDAWG IDQLFPVLPLEGLDQVPERRAVLLDITCDSDGAIDHYIDGDGIATTMPMP EYDPENPPMLGFFMVGAYQEILGNMHNLFGDTEAVDVFVFPDGSVEVELS DEGDTVADMLQYVQLDPKTLLTQFRDQVKKTDLDAELQQQFLEEFEAGLY GYTYLEDE > Copiez/collez la séquence suivante dans le 2ème cadre sans les lignes de commentaires : sp P49726 SPE1_LYCES ARGININE DECARBOXYLASE (EC 4.1.1.19) (ARGDC) (ADC) - Lycopersicon esculentum (Tomato). MPLVVRFPDVLKNRLETLQSAFDMAINSQGYEAHYQGVYPVKCNQDRFVV EDIVKFGSPYRFGLEAGSKPELLLAMNCLSKGSADALLVCNGFKDTEYIS LALVARKLLLNSVIVLEQEEELDLVIDISRKMSVRPVIGLRAKLRTKHSG HFGSTSGEKGKFGLTTTQILRVVKKLDESGMLDCLQLLHFHIGSQIPTTE LLADGVGEATQIYSELVRLGAGMKFIDIGGGLGIDYDGSKSSNSDVSVCY SIEEYASAVVQAVLYVCDRKGGKHPVICSESGRAIVSHHSILIFEAVSAS TSHVSTQPSSGGLQSLVETLNEDARADYRNLSAAAVRGEYDTCLIYSDQL KQRCVEQFKDGSLDIEQLAAVDSICDWVSKAIGVADPVRTYHVNLSVFTS IPDFWGFSQLFPIVPIHRLDEKPTMRGILSDLTCDSDGKVDKFIGGESSL PLHEIGSGDGGRYYLGMFLGGAYEEALGGLHNLFGGPSVVRVMQSDSPHS FA > Un bon alignement est proposé par Fasta entre la séquence P21170 et la séquence P49726. Utilisez prdf pour vérifier avec 300 permutations aléatoires que cette ressemblance est largement significative. > Copiez/collez la séquence suivante dans le 2ème cadre sans les lignes de commentaires : sp P55709 Y4YA_RHISN HYPOTHETICAL 49.9 KDA PROTEIN Y4YA - Rhizobium sp. (strain NGR234). MTLHCQKIGHGLPPILRSATADLLTKYGPLLFDWAARHGSPLNLVWPDAL RENLAALKGVLTERRLEHAIYYGAKANKSPGLMQAALSAGAGLDVSSLYE LRDARRLGADGARLVATGPAKTSAFHQELINCNALISVDSPEELEDLIHG LPADAGQQSILLRLRPRDQSKSRFGMPPDAVVHCLARLAGEGRVRFDGLH FHLSGYRRETRVAALREAADLIAEARRMGFFPGMIDIGGGLPIQYVDRAR YKAHLAAQAPEDYRTGKIPDSFYPYGSTLSAADWLHRLLEAEMNQGRSVA GYLAREGLTLAMEPGRALADQAAITVFRISRVKALGPDSHVIFVEGSSFS ACETWFASEFLIDPILVPATKATVQLPPVRAYLAGHSCLDEDVISNRWLT FPTAPRAGDLLVYANTGGYQMDLLENEFHRHPMPARFCVIEDAEGRPNLV PDTIGEV > Refaites de même pour l'alignement entre P21170 et P55709. Concluez sur la significativité de ce second alignement.


5.7 - Le logiciel BLAST
 
L'intérêt de l'algorithme est que sa conception est basée sur un modèle statistique. Celui-ci a été établi d'après les méthodes statistiques de Karlin et Altschul (1990 ; 1993) qui s'appliquent aux comparaisons de séquences sans insertion-délétion. L'unité fondamentale de BLAST est le HSP (High-scoring Segment Pair). C'est un couple de fragments identifiés sur chacune des séquences comparées, de longueur égale mais non prédéfinie, et qui possède un score significatif. En d'autres termes, un HSP correspond à un segment commun, le plus long possible, entre deux séquences qui correspond à une similitude sans insertion-délétion ayant au moins un score supérieur ou égal à un score seuil. Un deuxième score MSP (Maximal-scoring Segment Pair) a été défini comme étant le meilleur score obtenu parmi tous les couples de fragments possibles que peuvent produire deux séquences. Les méthodes statistiques de Karlin et Altschul sont appliquées pour déterminer la signification biologique des MSPs et par extrapolation la signification des scores HSPs obtenus lors de la comparaison. Ce logiciel possède en fait quatre programmes distincts de comparaison avec les bases de données. BLASTN (séquence nucléique contre base nucléique), BLASTP (séquence protéique contre base protéique), BLASTX (séquence nucléique traduite en 6 phases contre base protéique), et TBLASTN (séquence protéique contre base nucléique traduite en 6 phases).
 
 1.
 HYPERLINK "http://www.univ-tours.fr/genet/genach5ec27.htm" Les différentes étapes de l'algorithme
Les différentes étapes de l'algorithme La stratégie de la recherche consiste à repérer tous les HSPs (fragments similaires) entre la séquence recherchée et les séquences de la base. Pour déterminer un HSP, des mots de longueur fixe sont identifiés dans un premier temps entre la séquence recherchée et la séquence de la banque. Dans le cas des acides nucléiques, cela revient à des recherches d'identité entre les deux séquences sur des segments de longueur fixe (généralement 11). Par contre dans le cas des protéines, on effectue d'abord une liste de mots similaires pour chaque mot de longueur fixe (généralement 3) de la séquence recherchée et l'on repère ensuite dans la banque les séquences qui possèdent au moins un de ces mots. Un mot similaire est un mot qui, comparé avec un mot de la séquence recherchée, obtient un score supérieur à un score seuil lorsque l'on considère une matrice de substitution. Dans un deuxième temps, on cherche à étendre la similitude dans les deux directions le long de chaque séquence, à partir du mot commun, de manière à ce que le score cumulé puisse être amélioré. L'extension s'arrêtera dans les trois cas suivants:
Si le score cumulé descend d'une quantité x donné par rapport à la valeur maximale qu'il avait atteint.
Si le score cumulé devient inférieur ou égal à zéro.
Si la fin d'une des deux séquences est atteinte. La signification des segments similaires obtenus est ensuite évaluée statistiquement et seuls seront conservés les HSP significatifs.



 2.
 HYPERLINK "http://www.univ-tours.fr/genet/genach5ec28.htm" Les principaux paramètres
Les principaux paramètres Les valeurs par défaut Taille des mots     ADN : W = 12     Protéine : W = 3 Coût de substitution     ADN : Match/Mismatch M=+5/N=-4     Protéine : matrice Blosum 62 Coût des gaps (à partir de la version 2.0) :     E =10 et S calculé L'influence de la modification des paramètres sur les résultats Exemple de la modification de W     W faible ==> bonne sensibilité et temps de calcul long     W élevé ==> rapide mais peu sensible



 3.
 HYPERLINK "http://www.univ-tours.fr/genet/genach5ec29.htm" Les qualités de l'algorithme
Les qualités de l'algorithme Le principal avantage est que le fondement de l'algorithme s'appuie avant tout sur des critères statistiques. Celle-ci est faite en fonction de la longueur et de la composition de la séquence, de la taille de la banque et de la matrice de scores utilisée. Cette estimation donne en fait la probabilité que l'on a d'observer au hasard une similitude de ce score à travers la banque de séquences considérée. Lorsque plusieurs HSPs sont trouvées sur la même séquence, le programme utilise alors une méthode de "somme statistique" (Karlin et Altschul, 1993) qui considère que la signification statistique d'un ensemble de HSPs doit être plus élevée que n'importe quel HSP appartenant à cet ensemble. Les HSPs, dont la signification statistique satisfait une valeur seuil désignée par l'utilisateur sont ensuite édités. Un autre point intéressant de la méthode (essentiellement pour les protéines) est que la première étape de reconnaissance des similarités ne recherche pas uniquement des zones d'identité mais accepte la présence de similitudes en considérant une matrice de scores. Ceci permet d'intégrer dès le début de la recherche les critères biologiques compris dans la matrice. De plus, les résultats peuvent être édités selon plusieurs tris possibles et en particulier selon leur signification statistique et non suivant la valeur de leur score. On retrouvera donc les segments les plus probables en début de liste. Ce logiciel a été très optimisé dans son écriture, notamment par une précodification de la banque, ce qui lui vaut d'être un des plus rapides tout en conservant une sensibilité satisfaisante. De plus, il possède des versions qui s'exécutent sur machines parallèles. Comme la recherche dans la banque de données est basée sur l'identification de segments, le bruit de fond est plus présent dans ce type d'approche. Il est généralement du à des qualités intrinsèques de la séquence recherchée comme la présence de régions répétées internes, ou la présence de segments de basse complexité non spécifiques d'une caractéristique biologique mais communs à plusieurs familles de protéines, par exemple les segments basiques ou acides. Des logiciels complémentaires qui opèrent comme filtres peuvent être utilisés comme paramètres dans les programmes BLAST pour remédier à ces problèmes. Ainsi, le programme SEG (Wootton et Federhen, 1993) masque des régions de faible complexité et le programme XNU (Claverie et States, 1993) cache des régions répétées de courte périodicité


BLAST Fichier résultat (1) BLASTN 1.4.7 [16-Oct-94] [Build 17:42:06 Mar 10 1995] Reference: Altschul, Stephen F., Warren Gish, Webb Miller, Eugene W. Myers, and David J. Lipman (1990). Basic local alignment search tool. J. Mol. Biol. 215:403-10. Notice: this program and its default parameter settings are optimized to find nearly identical sequences rapidly. To identify weak similarities encoded in nucleic acid, use BLASTX, TBLASTN or TBLASTX. Query= gb|X17217|ADAAVAR Avian adenovirus (CELO) DNA encoding VA (virus-associated) RNA and six open reading frames. (4898 letters) Database: smallgenbank.fasta 100 sequences; 205,192 total letters. Searching.................................................done Smallest Sum High Probability Sequences producing High-scoring Segment Pairs: Score P(N) N gb AAUNKDNA 3576 Z17216 Avian adenovirus DNA (CEL06). ... 302 6.4e-17 1 gb AAVSPHERE 8457 M77182 Amsacta entomopoxvirus sphero... 112 0.0052 4 gb AAVSPHER 4657 M75889 Amsacta moorei entomopoxvirus ... 94 0.34 3 gb AAFVMAF 3171 M26769 Avian musculoaponeurotic fibros... 92 0.96 2 gb ACU10885 2773 U10885 AcMNPV HR3 p6.9 gene, partial ... 101 0.97 1 gb ACSJUN 1074 M16266 Avian sarcoma virus 17 proviral ... 98 0.998 1 gb AAVTHYKIN 1511 M80924 Amsacta entomopoxvirus thymid... 98 0.998 1 gb AAPARV 4176 X74945 Aedes albopictus Parvovirus DNA.... 92 0.998 2 gb AD12PROT 809 X07655 Human adenovirus type 12 endopr... 97 0.9992 1 gb ACU04879 3320 U04879 Autographa californica nuclear... 91 0.9994 2 gb ACU09501 1572 U09501 Autographa californica nuclear... 96 0.9999 1 gb A15H9HEX 1528 X76707 Adenovirus type 15H9 (Morrison... 88 0.99992 2 BLAST Fichier résultat (2) >gb AAUNKDNA 3576 Z17216 Avian adenovirus DNA (CEL06). Length = 3576 Minus Strand HSPs: Score = 302 (83.4 bits), Expect = 6.4e-17, P = 6.4e-17 Identities = 62/64 (96%), Positives = 62/64 (96%), Strand = Minus / Plus Query: 64 AGCGACACGCTGCGGTTATGGCCGGTTATGACTGCGTTAGTTTTTGAGGTTATTATACAT 5 |||||||| |||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 3513 AGCGACACCGTGCGGTTATGGCCGGTTATGACTGCGTTAGTTTTTGAGGTTATTATACAT 3572 Query: 4 CATC 1 |||| Sbjct: 3573 CATC 3576 BLAST Fichier résultat (3) >gb AAVSPHERE 8457 M77182 Amsacta entomopoxvirus spheroidin gene, co Length = 8457 Minus Strand HSPs: Score = 112 (30.9 bits), Expect = 0.0052, Sum P(4) = 0.0052 Identities = 48/80 (60%), Positives = 48/80 (60%), Strand = Minus / Plus Query: 1507 TCAAAGTGATTGTTCAAGGTATGTCATTATATACATATTTACAATATGCATTAATATCAC 1448 | ||| | || | || || | ||| || || ||||| | | | || | || | Sbjct: 307 TAAAACTCATAGAATAATATAATTTTTTAAATTCAAATTTAGATTTTATGTTGAAATAAA 366 Query: 1447 CTATCTAATAGAGCATTAAT 1428 |||| ||||| | | || | Sbjct: 367 CTATATAATATAAAAATATT 386 Score = 98 (27.1 bits), Expect = 0.0052, Sum P(4) = 0.0052 Identities = 58/106 (54%), Positives = 58/106 (54%), Strand = Minus / Plus Query: 175 AGATTCGTATTCGTATTGGTTAGAAAACAAATAAATCAATAAACTAATTTATGATATCAT 116 | ||| | ||| || | || ||| || ||| ||| | |||| | || Sbjct: 7317 ATATTAATCTTCTCATAGTTTTTAAACCACCTAATTCAGTTTTATAATCATATTTTTCTG 7376 Query: 115 TCATATTTATGGGTGTGGTTTTATTATGCGTCATAAAACTATTTTG 70 |||||| | | | || | || | ||||| |||| || Sbjct: 7377 CCATATTATATAATTTAGATTGCTCATCTGACATAATTATATTATG 7422 Score = 94 (26.0 bits), Expect = 0.46, Sum P(3) = 0.37 Identities = 26/35 (74%), Positives = 26/35 (74%), Strand = Minus / Plus Query: 4082 AAAAAAATAGAAAAATGAACTAACCGACAATAAGA 4048 |||| |||| ||||| | | || ||| |||| || Sbjct: 3104 AAAACAATAAGAAAATTATCAAATCGAAAATATGA 3138 Score = 93 (25.7 bits), Expect = 0.011, Sum P(4) = 0.011 Identities = 37/60 (61%), Positives = 37/60 (61%), Strand = Minus / Plus Query: 156 TTAGAAAACAAATAAATCAATAAACTAATTTATGATATCATTCATATTTATGGGTGTGGT 97 ||| || | | |||||| |||| | |||| | | | | ||| || | |||| | Sbjct: 6120 TTACAAGTTATAAAAATCATTAAAATGATTTTTTAAAATGATATTATCGATAGTTGTGAT 6179 BLAST Fichier résultat (4) Parameters: W=4 V=500 B=250 -ctxfactor=2.00 E=10 Query ----- As Used ----- ----- Computed ---- Strand MatID Matrix name Lambda K H Lambda K H +1 0 +5,-4 0.192 0.226 0.357 same same same -1 0 +5,-4 0.192 0.226 0.357 same same same Query Strand MatID Length Eff.Length E S W T X E2 S2 +1 0 4898 4898 10. 92 4 21 73 0.021 84 -1 0 4898 4898 10. 92 4 21 73 0.021 84 Statistics: Query Expected Observed HSPs HSPs Strand MatID High Score High Score Reportable Reported +1 0 100 (27.6 bits) 98 (27.1 bits) 6 6 -1 0 100 (27.6 bits) 302 (83.4 bits) 23 23 Query Neighborhd Word Excluded Failed Successful Overlaps Strand MatID Words Hits Hits Extensions Extensions Excluded +1 0 4895 3999877 1124998 2874845 34 0 -1 0 4895 4163077 1183486 2979551 40 0 Database: smallgenbank.fasta Release date: unknown Posted date: 2:36 PM MET DST Oct 08, 1996 # of letters in database: 205,192 # of sequences in database: 100 # of database sequences satisfying E: 12 No. of states in DFA: 85 (6 KB) Total size of DFA: 84 KB (128 KB) Time to generate neighborhood: 0.06u 0.00s 0.06t Real: 00:00:00 Time to search database: 57.02u 0.05s 57.07t Real: 00:00:58 Total cpu time: 57.19u 0.39s 57.58t Real: 00:00:58




 5.8 - L'alignement multiple Introduction La mise en évidence de similitude entre séquences sera renforcée si plusieurs séquences voisines issues de plusieurs espèces partagent des éléments en commun. Ceci peut aussi arriver pour une famille de gènes. La méthode permettant d'aligner globalement ces séquences conduit à la mise en évidence des résidus identiques ou similaires conservés pouvant être, pour des protéines par exemple, des éléments clés dans la fonction catalytique ou indispensable à la stabilité d'une structure 3D de la protéine. De même, l'étude de la diversité autour de ces séquences communes, permet par de nombreuses méthodes d'approcher la filiation évolutive de ces gènes [Nei87] et par là même conduire à des études phylogénétiques de plus en plus précises. Les différents objectifs Alignement de protéines homologues Identification de résidus importants (conservés) Logiciels : ClustalW et MultiAlin Extraction de motifs communs Génération de séquences consensus Création de signatures fonctionnelles : constitution d'un dictionnaire de signatures Logiciels : Méthodes " purement algorithmique " basée sur une définition formelle précise des motifs (PRATT) Méthodes " d'optimisation stochastique " basée sur une modélisation statistique des motifs. (MEME) Les différentes étapes de l'alignement multiple > Alignement 2 à 2 des séquences en utilisant une première série de paramètres et une méthode classique d'alignement de deux séquences. > Elimination des séquences trop éloignées > Construction de groupes de séquences > Alignement multiple en utilisant une seconde série de paramètres et les groupes préalablement définis. S'exercer avec ClustalW > Etape 1 : Construction du fichier multiple de séquences : multi.tfa > En utilisant  HYPERLINK "http://www.infobiogen.fr/services/analyseq/cgi-bin/convseq_in.pl" \t "_blank" CONVSEQ, créez un fichier multiple de séquences contenant au format fasta les séquences Swiss-Prot suivantes : sw:P17946 sw:P55325 sw:Q12567 sw:Q06902 sw:P41748 sw:P24665. > Sauvegardez ce fichier nommé multi.tfa au format texte avec saut de ligne en faisant attention à n'avoir dans ce fichier que les séquences format fasta et pas de lignes de commentaires superflues. > Etape 2 : Utilisation de ClustalW > Connectez vous à  HYPERLINK "http://www.infobiogen.fr/services/analyseq/cgi-bin/clustalw_in.pl" \t "_blank" http://www.infobiogen.fr/services/analyseq/cgi-bin/clustalw_in.pl . > Copiez-collez vos séquences dans le cadre premier jeu de données ou utilisez la commande parcourir et donnez le nom du fichier multi.fasta. > Demandez alors un alignement multiple de ces séquences.

6. - L'analyse de séquences nucléiques
 INCLUDEPICTURE "http://www.univ-tours.fr/genet/genach6fig1.gif" \* MERGEFORMATINET 
 1.
 HYPERLINK "http://www.univ-tours.fr/genet/genach6ec1.htm" Définition de "motif" et "pattern"
6. - L'analyse de séquences nucléiques
 INCLUDEPICTURE "http://www.univ-tours.fr/genet/genach6fig1.gif" \* MERGEFORMATINET 














6.1 - Définition de "motif" et "pattern"
Dans la littérature, les motifs sont qualifiés en termes anglo-saxons de "pattern" ou de "motif". Un "motif" est généralement un segment court, continu et non ambigu d'une séquence alors qu'un "pattern" a une structure plus complexe. Il est souvent composé de différents "motifs" qui peuvent être plus ou moins éloignés les uns des autres et sa définition peut comporter des exclusions ou des associations de "motifs". C'est pourquoi, il est parfois nécessaire d'utiliser implicitement ou explicitement des opérateurs logiques tels que le OU, le ET ou le NON dans sa définition. On peut considérer très souvent qu'un "motif" est une séquence exacte ou peu dégénérée et qu'un "pattern" est une séquence dégénérée et/ou composée. Dans ce cours nous emploierons le terme générique français motif pour désigner l'ensemble de ces définitions.

.2 - Les différents types de motifs
Il existe plusieurs raisons de rechercher des motifs à travers les séquences car ils sont généralement impliqués dans des systèmes de régulation ou définissent des fonctions biologiques. Parmi ces raisons, on peut citer la détermination de la fonction d'une nouvelle séquence (par exemple en localisant un ou plusieurs motifs répertoriés dans des bases de motifs), l'identification dans une séquence nucléique de régions codantes (par exemple en repérant les codons d'initiation et de terminaison, les sites d'épissages et les zones de fixation des ribosomes), la recherche d'un motif particulier dans une séquence (par exemple en identifiant sur une séquence les sites de coupures d'enzymes de restriction ou des promoteurs spécifiques, etc...), ou bien l'extraction à partir des banques de données (par exemple extraire des séquences possédant le même signal de régulation ou la même signature protéique pour effectuer des études comparatives ultérieures). Il est donc évident qu'il existe des niveaux de complexité très différents dans la définition des motifs. Certains sont précis et non ambigus comme les sites de reconnaissance des enzymes de restrictions ou comme certains motifs de protéases. D'autres peuvent être beaucoup plus flous et complexes comme les motifs consensus liés à des familles de protéines ou les facteurs de transcription. Dans ce cas, la difficulté est souvent de savoir quel motif utiliser et quelle est la pertinence de la définition.
.3 - Les différents types de motifs La séquence génomique, une fois déterminée, ne représente que la donnée brute (on parle de "séquence anonyme") qu'il faut déchiffrer en utilisant une "grammaire" dans laquelle enhancers, promoteurs, exons, introns, 3'UTR, etc., se combinent selon des règles élucidées (d'une manière non définitive) par la biologie moléculaire (et la bioinformatique) pour constituer l'unité fonctionnelle qu'est le gène.   Selon l'origine de la séquence, procaryote ou génomique eucaryote, la méthodologie employée sera différente. Les problèmes posés par l'identification des gènes sont différents pour les génomes très peu denses des mammifères (5-10% de séquence "utile") ou pour les génomes microbiens ( >90% de séquence utile). Ces différences entraînent l'utilisation d'algorithmes distincts, dont la conception évolue à la lumière des progrès de la biologie moléculaire (comme la découverte d'un couplage fort entre la transcription, l'épissage, et la polyadénylation des ARNm).

6.4 - Les différents types de motifs Pour les autres motifs nucléiques, la définition commence en général par l'analyse d'un alignement multiple de toutes les séquences connues comme étant actives pour la fonction étudiée. Cela permet de connaître pour chaque position la variabilité en bases. L'alignement de ces séquences peut servir à produire une séquence consensus, une table de fréquences ou une matrice de pondération des éléments qui composent le motif. La séquence consensus rend compte de la ou des bases les plus fréquemment rencontrées pour chaque position. Dans le cas de séquences très spécifiques, cette simple séquence suffit pour décrire de manière satisfaisante une région active. Malheureusement, dans la plupart des cas comme pour les facteurs de transcription, elle ne suffit pas pour identifier les sites biologiquement actifs car elle n'est pas forcément celle qui est le plus souvent rencontrée comme signal. Au pire elle peut elle-même ne pas exister en tant que signal ! Ceci est du essentiellement au fait que l'on considère l'indépendance entre les positions durant l'établissement du consensus et que ce dernier ne représente qu'un résumé de toutes les séquences effectivement actives. Pour éviter en partie ce problème, un nombre maximum de positions pour lesquelles on tolère la non identité par rapport à la séquence consensus peut être incorporé dans la définition du motif. On parle alors d'éloignement ou de distance à la séquence consensus (Mengeritsky et Smith, 1987). Pour exprimer l'ambiguïté et la complexité d'un motif, on peut également déduire de l'alignement des séquences une table de fréquences en comptabilisant les occurrences de chaque base à chaque position du motif. En d'autres termes, on définit à partir d'un échantillon donné, la probabilité d'apparition des bases pour chaque position du motif. Il est possible ensuite, pour augmenter la fiabilité des probabilités, de considérer des critères supplémentaires, intrinsèques aux séquences, comme la thermodynamique liée au motif étudié ou la fréquence attendue des bases selon la région où se trouve le motif. On peut ainsi, considérer que l'apparition d'une cytosine est plus significative que l'apparition d'une guanine dans une zone riche en guanine. La transformation de la table des fréquences en tenant compte éventuellement de critères supplémentaires donne naissance à une matrice de pondération (weight matrix). Celle-ci est généralement construite en prenant le logarithme de la fréquence de chaque base à chaque position pour optimiser les différences contenues dans la table des fréquences. Pour prendre en compte des critères supplémentaires comme le pourcentage des bases de la région étudiée, chacune des valeurs logarithmiques pourra être divisée par la fréquence génomique de la base observée. On trouvera dans la littérature plusieurs exemples et méthodes de génération de matrices de fréquence ou de pondération (Bucher, 1990 ; Stormo, 1990).

6.5 - La recherche de motifs contenus dans les bases de données
Comme cela a été décrit dans le chapitre banques de données, il existe un certain nombre de bases qui répertorient des motifs nucléiques biologiquement intéressants. Il existe donc un certain nombre de logiciels permettant de rechercher si une séquence contient ou non un ou plusieurs de ces motifs. Les banques principalement interrogées concernent les sites de fixation des facteurs de transcription : TFD et TRANSFAC.  INCLUDEPICTURE "http://www.univ-tours.fr/genet/exo.gif" \* MERGEFORMATINET   HYPERLINK "http://www.univ-tours.fr/genet/genach6exo3.htm" S'exercer avec TFSearch  INCLUDEPICTURE "http://www.univ-tours.fr/genet/inform.gif" \* MERGEFORMATINET  Vers un formalisme plus complet de la caractérisation des motifs nucléiques La complexité des structures primaires est très inégale entre les acides nucléiques composés d'un alphabet de quatre lettres et les protéines composées d'un alphabet de vingt lettres. Cette situation engendre forcément des disparités que l'on retrouve au niveau des éléments et des méthodes de description des motifs. Par exemple, la structure primaire d'un motif protéique est souvent suffisante pour caractériser un site biologiquement actif, même si celui-ci est ambigu à certaines positions. C'est d'ailleurs pour cette raison que l'utilisation à grande échelle, de méthodes de recherche de similarité à travers les banques, donne des résultats intéressants dans l'identification de motifs protéiques conservés. Par contre, la faible complexité des motifs nucléiques conduit à une définition, en terme de structure primaire, souvent insuffisante. De ce fait, pour les séquences nucléiques, les définitions et les méthodes de repérage de motifs que nous venons de décrire constituent un formalisme de base qu'il est souvent nécessaire d'étoffer. Ceci est d'autant plus vrai pour les sites impliqués dans des systèmes de régulation complexes comme notamment les sites nucléiques de fixation protéique. D'autres critères ont donc une importance et doivent être pris en compte pour affiner la définition du motif. On peut, par exemple, considérer la localisation du site ou le degré d'affinité de la protéine régulatrice pour le site de fixation. On peut également rechercher des structures particulières qui peuvent s'associer au site comme des zones symétriques ou palindromiques. Ces éléments supplémentaires doivent non seulement être intégrés systématiquement dans les définitions et les recherches mais également dans le formalisme de base des motifs. Or ces formalismes de base ne permettent pas toujours d'intégrer tous les critères nécessaires à une bonne description. Par exemple, les tables de fréquences considèrent que les positions du motif sont indépendantes les une par rapport aux autres, empêchant ainsi des considérations de symétrie ou prenant difficilement en compte l'exclusion d'une base à une position précise. L'ensemble de ces réflexions montre qu'il est souvent nécessaire de développer des outils adaptés aux particularités des signaux étudiés, en mettant au point des protocoles qui intègrent le maximum d'informations décrites dans les définitions et qui utilisent si possible plusieurs méthodes d'analyse de séquences.

7. - L'analyse de protéines 7.1 - L'analyse physico-chimique
pHi Définition Le pHi est le pH isoélectrique d'une protéine, c'est à dire le pH auquel cette protéine a une charge nette nulle. Quand on se trouve au dessus de ce PH (à pH plus basique), la protéine est chargée négativement. Au dessous de ce pH (à pH plus acide), la protéine est chargée positivement. Objectif de la détermination On peut ce servir de cette propriété des protéines pour séparer un mélange de protéines, en les faisant migrer dans un gel contenant des ampholines, molécules qui créent un gradient de pH dans le gel. Lorsque la protéine arrive au pH correspondant à son pHi, sa charge nette est nulle, elle ne migre donc plus.  INCLUDEPICTURE "http://www.univ-tours.fr/genet/exo.gif" \* MERGEFORMATINET   HYPERLINK "http://www.univ-tours.fr/genet/genach7exo1.htm" S'exercer avec Compute PI/MW
Exercice avec Compute PI/MW : détermination du PI > Connectez vous à  HYPERLINK "http://expasy.proteome.org.au/tools/pi_tool.html" \t "_blank" http://expasy.proteome.org.au/tools/pi_tool.html. > Copiez/collez la séquence suivante dans le cadre sans la ligne de commentaires : >gi 92 alpha-S1-casein MKLLILTCLVAVALARPKHPIKHQGLPQEVLNENLLRFFVAPFPEVFGKEKVNELSKDIGSESTEDQAME DIKQMEAESISSSEEIVPNSVEQKHIQKEDVPSERYLGYLEQLLRLKKYKVPQLEIVPNSAEERLHSMKE GIHAQQKEPMIGVNQELAYFYPELFRQFYQLDAYPSGAWYYVPLGTQYTDAPSFSDIPNPIGSENSEKTT MPLW > Lancez le calcul

> Vous devez trouver un PI de 4.98 pour une masse de 24KD.

Profil d'hydrophobicité Définition L'hydrophobicité se définit comme un enchaînement dans une protéine d'acides aminés dont les résidus sont hydrophobes. Objectifs de la détermination La succession de zones d'hydrophobicité dans une protéine définit le profil d'hydrophobicité de la molécule. Ce profil permet de repérer par exemple des régions potentiellement transmembranaires de la protéine étudiée. En effet, les régions transmembranaires, compte tenu de la nature des membranes biologiques, sont nécessairement hydrophobes.  INCLUDEPICTURE "http://www.univ-tours.fr/genet/exo.gif" \* MERGEFORMATINET   HYPERLINK "http://www.univ-tours.fr/genet/genach7exo2.htm" S'exercer avec PBIL
Exercice avec PBIL : profils d'hydrophobicité > Connectez vous à  HYPERLINK "http://pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_pcprof.html" \t "_blank" http://pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_pcprof.html. > Copiez/collez la séquence suivante sans la ligne de commentaires >gi 92 alpha-S1-casein MKLLILTCLVAVALARPKHPIKHQGLPQEVLNENLLRFFVAPFPEVFGKEKVNELSKDIGSESTEDQAME DIKQMEAESISSSEEIVPNSVEQKHIQKEDVPSERYLGYLEQLLRLKKYKVPQLEIVPNSAEERLHSMKE GIHAQQKEPMIGVNQELAYFYPELFRQFYQLDAYPSGAWYYVPLGTQYTDAPSFSDIPNPIGSENSEKTT MPLW > Soumettez la requête > Vous obtenez plusieurs profils d'hydrophobicité (H&W, K&D, K&S), ainsi qu'un profil d'antigénicité et enfin les régions transmembranaires (TM) potentielles

.2 - La recherche d'éléments fonctionnels et/ou structuraux : motifs et domaines
Les motifs protéiques La définition des motifs protéiques se représente généralement de deux manières, soit par la détermination d'une séquence consensus qui est généralement complexe (avec des ambiguïtés à certaines positions et des sous-séquences séparées par des régions variables), soit en fournissant directement sous forme d'alignement multiple, toutes les portions de séquences qui ont servi à l'élaboration du consensus. Description des motifs par une séquence consensus Pour établir une séquence consensus, on peut réunir toutes les séquences appartenant à une même famille (par exemple, les cytochromes ou les kinases). On recherche ensuite les zones spécifiques qui peuvent être considérées comme caractéristiques de ces séquences, ceci en s'aidant des données disponibles dans la littérature et si possible d'experts de la famille considérée. Les motifs ainsi obtenus sont alors systématiquement recherchés dans une banque de séquences protéiques pour estimer leur fiabilité qui repose sur le nombre de faux positifs et de faux négatifs identifiés. Une bonne définition doit minimiser ces deux nombres. C'est une des méthodes qu'utilise Amos Bairoch pour constituer la banque de motifs protéiques PROSITE (Bairoch, 1993). On peut également utiliser pour définir un motif protéique une méthode globale qui, à partir d'un grand ensemble hétérogène de séquences, permet de regrouper des séquences possédant le même motif. Cette démarche est appliquée pour établir la base PRODOM (Sonnhammer et Kahn, 1994). Les séquences de la base Swissprot sont comparées deux à deux avec le programme BLAST pour permettre de regrouper tous les segments protéiques similaires. On parle ici de domaine protéique qui caractérise statistiquement une famille de protéines. Ces domaines peuvent être employés comme motifs spécifiques pour savoir si une nouvelle séquence s'apparente ou pas à l'un de ces domaines. Enfin, comme pour les séquences nucléiques, on peut aussi effectuer un alignement multiple des régions qui caractérisent une fonction et en déduire un motif consensus protéique. Les logiciels de recherche des motifs consensus Si le motif est défini par une séquence consensus, il existe des méthodes et logiciels pour rechercher dans une séquence personnelle la présence de tel ou tel motif. C'est le cas du logiciel  HYPERLINK "http://www.expasy.ch/tools/scnpsite.html" ScanProsite qui permet de rechercher la présence dans une séquence d'un motif défini dans la banque PROSITE. Pour les domaines protéiques définis dans PRODOM, le logiciel de recherche proposé est Blast.  INCLUDEPICTURE "http://www.univ-tours.fr/genet/exo.gif" \* MERGEFORMATINET   HYPERLINK "http://www.univ-tours.fr/genet/genach7exo3.htm" S'exercer avec ScanProsite
Exercice avec ScanProsite > Connectez vous à  HYPERLINK "http://www.expasy.ch/tools/scnpsite.html" \t "_blank" http://www.expasy.ch/tools/scnpsite.html. > Choisissez Scan a sequence for the occurence of Prosite Patterns > Copiez/collez la séquence suivante sans la ligne de commentaires : >gi 92 alpha-S1-casein MKLLILTCLVAVALARPKHPIKHQGLPQEVLNENLLRFFVAPFPEVFGKEKVNELSKDIGSESTEDQAME DIKQMEAESISSSEEIVPNSVEQKHIQKEDVPSERYLGYLEQLLRLKKYKVPQLEIVPNSAEERLHSMKE GIHAQQKEPMIGVNQELAYFYPELFRQFYQLDAYPSGAWYYVPLGTQYTDAPSFSDIPNPIGSENSEKTT MPLW > Cliquez sur le motif de signature des caséines (PDOC00277) > Notez lz motif c'est-à-dire CLVAVALA > Revenez en arrière et choisissez Scan Swiss-Prot and Trembl with a pattern > Entrez le motif précédemment trouvé (CLVAVALA) > Choisissez la banque Swiss-Prot > Lancez la requête. Vous retrouvez toutes les caséines.  HYPERLINK "http://www.univ-tours.fr/genet/genach7exo4.htm" S'exercer avec ProdomBlast

Exercice avec ProdomBlast > Connectez vous à  HYPERLINK "http://protein.toulouse.inra.fr/prodom/blast_form.html" \t "_blank" http://protein.toulouse.inra.fr/prodom/blast_form.html. > Copiez/collez la séquence suivante sans la ligne de commentaires : >gi 92 alpha-S1-casein MKLLILTCLVAVALARPKHPIKHQGLPQEVLNENLLRFFVAPFPEVFGKEKVNELSKDIGSESTEDQAME DIKQMEAESISSSEEIVPNSVEQKHIQKEDVPSERYLGYLEQLLRLKKYKVPQLEIVPNSAEERLHSMKE GIHAQQKEPMIGVNQELAYFYPELFRQFYQLDAYPSGAWYYVPLGTQYTDAPSFSDIPNPIGSENSEKTT MPLW > Soumettez la requête > Cliquez sur le carré permettant d'obtenir les résultats graphiques > Cliquez par exemple sur le domaine vert pour obtenir la liste de toutes les protéines possédant aussi ce domaine. On retrouve évidemment les caséines S1 de divers organismes.
8. - La phylogénie  
   L'évolution de la structure générale du génome conduit à des contraintes évolutives (composition en bases, vitesse d'évolution, par exemple) qui s'exercent simultanément sur tous ou un grand nombre de gènes indépendamment de la fonction particulière de chaque gène. La phylogénie tente de reconstituer les filiations évolutives (arbres) aboutissant aux séquences étudiées. Elle permet, à partir de séquences alignées, la suggestion d'un arbre phylogénétique qui tente de reconstruire l'histoire des divergences successives durant l'évolution, entre les différentes séquences et leur ancêtre.   Quelques définitions : Horloge moléculaire Hypothèse selon laquelle une certaine molécule évoluerait de façon constante au cours du temps. Selon cette théorie, des vitesses évolutives différentes sont possibles pour différentes molécules. Si l'on admet cette théorie et que l'on connaît le taux d'accumulation des mutations, il est possible d'estimer le temps de divergences d'espèces en comparant leur diversité moléculaire. Distance évolutive Nombre de substitutions au cours de l'évolution entre séquences. Il en existe plusieurs types. Exemples : distance de Jukes et Cantor, distance de Kimura, distance de Poisson entre séquences protéiques... Transversion Substitution d'une purine en une pyrimidine ou d'une pyrimidine en une purine au niveau d'une séquence d'ADN.    1.           HYPERLINK "http://www.univ-tours.fr/genet/genach8ec1.htm" Méthodes de reconstruction à partir de séquences
8.1 - Méthodes de reconstruction à partir de séquences
    Ces méthodes, comme cela vient d'être dit, tentent de suggérer un arbre phylogénétique. Chaque nœud d'un arbre est une estimation de l'ancêtre des éléments inclus. Il faut toujours garder à l'esprit que l'on obtient toujours seulement une estimation de l'arbre. Cela revient à dire qu'en pratique les arbres sont imparfaits et que leur précision doit toujours être statistiquement établie. Principe de base de toutes les méthodes On dispose d'un ensemble de séquences. Les différentes étapes sont : 1) Aligner proprement les séquences 2) Appliquer des méthodes de génération d'arbres 3) Evaluer statistiquement la robustesse des arbres.

 2.           HYPERLINK "http://www.univ-tours.fr/genet/genach8ec3.htm" Les outils et programmes
.2 - Les outils et programmes
Choix du programme Il dépend : 1) de la nature des données 2) des suppositions biologiques et choix de l'algorithme 3) du type de résultats attendus Les logiciels Alignement multiple des séquences  ClustalW, MultiAlin,… Méthodes de génération d'arbres  INCLUDEPICTURE "http://www.univ-tours.fr/genet/billette2.gif" \* MERGEFORMATINET  méthode de parcimonie      > protpars pour les protéines      > dnapars pour ADN/ARN  INCLUDEPICTURE "http://www.univ-tours.fr/genet/billette2.gif" \* MERGEFORMATINET  méthode de vraisemblance      > Dnaml pour ARN/ADN      > fastDnaml plus rapide (et intégré dans le package Phylo_win)  INCLUDEPICTURE "http://www.univ-tours.fr/genet/billette2.gif" \* MERGEFORMATINET  méthode des distances      > fitch Matrice de distances        (dans Fitch les segments ne sont pas proportionnels au temps écoulé)      > kitsch Matrice de distances      > neighbor Neighbor-joining (NJ) et UPGMA        NJ est probablement la meilleure méthode et la plus simple à utiliser.      > prodist (ou nucdist), puis neighbor Représentation graphique de l'arbre      Les programmes drawgram, drawplot (PHYLIP) , njplot (Mac, PC ou Unix)      treetool (Xwindow) ou growtree (GCG) permettent des représentations graphiques. Evaluation de l'arbre      Seqboot
9. - Une courte sélection de serveurs utiles  

  Avant la fin de ce cours, il est important de vous donner quelques liens vers des serveurs vous permettant de devenir encore plus autonome pour analyser vos séquences. Ces serveurs vous permettent de retrouver la plupart des outils décrits dans ce cours, vous proposeront des moteurs de recherche si vous souhaitez des compléments d'informations, ainsi que des liens vers d'autres serveurs proposant des services utiles en analyses de séquences. Serveur proposé par Infobiogen :  HYPERLINK "http://www.infobiogen.fr" \t "_blank" http://www.infobiogen.fr et en particulier le déambulum Serveur de l'Institut Pasteur :  HYPERLINK "http://www.pasteur.fr" \t "_blank" http://www.pasteur.fr
REGULATION DE L'EXPRESSION DES GENES
Comme nous l'avons vu, le programme de transcription n'est pas fixe. La cellule sait adapter ce programme aux conditions extérieures, au mieux de son économie ; chez les Eucaryotes, l'environnement peut être représenté par les cellules voisines, le développement, la différenciation supposent l'expression régulée de gènes différents dans les diverses cellules. La question qui se pose maintenant est celle du choix des portions du génome qui doivent être exprimées à un moment donné dans un environnement donné. Dans une première partie, nous allons utiliser l'étude de la cellule procaryotique pour donner quelques exemples de contrôle de l'expression de gènes et dégager des notions fondamentales de régulation. 1 - LES PROCARYOTES La cellule bactérienne est capable d'adapter très rapidement son métabolisme aux modifications de l'environnement. Prenons une suspension de cellules d'Escherichia coli . Une partie de la suspension est cultivée dans un milieu minimal contenant du lactose (disaccharide composé de deux molécules de glucose) comme seule source de carbone (milieu A). Une autre partie est cultivée dans le même milieu minimal mais contenant du glucose comme source de carbone et auquel on a ajouté les 20 acides aminés (milieu B). On constate que les cellules du milieu A croissent (prolifèrent), mais moins vite que celles du milieu B. Elles doivent en effet assurer le clivage du lactose en deux monosaccharides (glucose et galactose) assimilables et toute la biosynthèse des acides aminés. L'étude biochimique et génétique de l'utilisation du lactose par E. coli va nous montrer comment l'économie réalisée par les cellules cultivées dans le milieu B (de génotype identique à celcelles cultivées sur le milieu A) se fait, par adaptation du programme d'expression des gènes, dès le niveau transcriptionnel. Ces résultats sont le fruit des travaux de Jacob, Monod et leurs collaborateurs dans les années 60. Par des méthodes biochimiques appropriées, il est possible de doser l'activité de la béta-galactosidase (b-galactosidase), enzyme catalysant la dégradation du lactose. Cette activité est présente dans les cellules du milieu A mais absente (à la limite de la détection) dans les cellules du milieu B. Si des cellules "B", sont transférées dans le milieu A (ne contenant plus de glucose mais du lactose, une activité b-galactosidase apparaît très rapidement et s'amplifie d'un facteur 1000 en quelques 20 minutes. L'activité enzymatique est donc induite par la présence de lactose dans le milieu. Inversement, chez ces mêmes cellules transférées dans un milieu contenant à nouveau du glucose, l'activité enzymatique semble réprimée et disparaît. Ainsi, la présence de lactose semble déclencher la synthèse d'enzymes spécifiques : la b-galactosidase, codée par le gène Lac Z, mais également une perméase (codée par le gène Lac Y), capable d'accélerer la pénétration du lactose dans la cellule et une transacétylase codée par le gène A), qui joue un rôle dans le métabolisme d'autres galactosides. Ces trois activités enzymatiques sont co-régulées (elles apparaissent en réponse à une même induction. Des méthodes très fines de cartographie montrent que ces gènes sont adjacents dans une région "Lac" du chromosome bactérien. * Remarque : L'apparition brutale d'une activité enzymatique ne suffit pas à prouver une régulation au niveau de la transcription des gènes. En effet, une enzyme peut être présente sous une forme inactive et l'induction représenter en fait l'activation de protéines préexistantes dans le cytoplasme. la preuve directe d'un contrôle au niveau transcriptionnel a été apportée plus tard grâce aux techniques permettant de doser des ARN messagers spécifiques. Un ADN complémentaire de l'ARN messager de la b-galactosidase a été inséré dans un vecteur de clonage. Après amplification, cette séquence a servi de sonde pour détecter, dans des préparations brutes d'ARN (extraits avant et après le passage au lactose), l'ARN messager de la b-galactosidase (seul capable de s'hybrider avec la sonde) et le quantifier. Les résultats indiquent que l'accumulation de ce messager débute dès l'induction, elle précède celle de l'enzyme. L'induction porte donc bien sur la transcription du gène lui-même. *Remarque : Le lactose fait partie de ce que l'on appelle des molécules effectrices, c'est à dire des molécules capables de refléter l'environnement cellulaire et de transmettre un signal permettant un choix transcriptionnel. Il faut noter que, dans cet exemple particulier, le lactose est loin d'être le meilleur inducteur de la transcription des gènes impliqués, d'autres petites molécules glycosidiques, naturelles ou artificielles (telles que l'isopropyl-thiogalactoside ou IPTG) sont beaucoup plus efficaces et utilisées au laboratoire. 1.1. ANALYSE GENETIQUE DE LA REGULATION L'analyse génétique des procaryotes, qui a permis d'élucider les mécanismes fondamentaux de la régulation, relève d'une gageure : il s'agit de cellules haploïdes tout au long de leur cycle, sans reproduction sexuée, nous privant, apparemment des deux outils de base que sont la recombinaison et la complémentation. En fait, dès 1946, Lederberg et Tatum utilisaient d'une façon très élégante les possibilités de mélange de matériel génétique chez les bactéries, liées au phénomène de conjugaison. 1.1.1. LA CONJUGAISON BACTERIENNE Pour des souches possédant un certain génotype, les cellules sont capables d'émettre des prolongements cytoplasmiques jusqu'à des cellules d'un génotype différent et de faire circuler des éléments génétiques par ce pont. Les éléments génétiques ainsi transférés d'une cellule "donneuse" à une cellule receveuse (l'échange n'est pas réciproque) sont de nature variée. Le premier élément identifié a été baptisé facteur F (comme fertilité). Il s'agit de l'une des "pièces détachées" du génome bactérien que sont les petites molécules d'ADN circulaire, extrachromosomiques, appelées plasmides. Dans le cas du facteur F, il s'agit en fait d'un épisome qui peut se comporter soit comme un plasmide soit, par un mécanisme de recombinaison, s'intégrer au chromosome bactérien. Dans ce dernier cas, son transfert, par conjugaison, peut entraîner un morceau du chromosome. Ce phénomène (rare) permet la formation de diploïdes partiels, c'est à dire que la bactérie receveuse possède des informations génétiques provenant d'une autre cellule. Le petit fragment de génome ainsi ajouté à l'ensemble résident est appelé exogénote. Sauf s'il possède une origine de réplication et se transmet de façon autonome, cet élément génétique n'est pas stable et se perd en quelques heures, dans certains cas, il peut cependant s'intégrer au chromosome de la bactérie receveuse par recombinaison homologue.
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap6/fig6-1.gif" \* MERGEFORMATINET  * Remarque : Pour des raisons mécaniques, le pont cytoplasmique de conjugaison est rapidement rompu, en aucun cas le transfert d'une copie complète du chromosome de la cellule donneuse ne peut avoir lieu. D'où le terme de mérozygote parfois utilisé pour désigner le diploïde partiel. Le mot zygote rappelle qu'il s'agit de sexualité, c'est à dire de mise en commun d'informations génétiques d'origines différentes mais, chez les procaryotes, la sexualité n'est pas associée à la reproduction. Lederberg et Tatum ont apporté la preuve de ce transfert de gènes entre bactéries en réalisant l'expérience suivante. Elle consiste à mélanger deux souches porteuses de mutations différentes. Par exemple une souche A n'est capable de se développer dans un milieu minimal non supplémenté en méthionine et en biotine. Elles sont devenues auxotrophes pour ces composés par perte de fonction de gènes impliqués, l'un dans la biosynthèse de méthionine, l'autre dans la biosynthèse de la biotine. Ces mutations sont symbolisées par un génotype met- bio- . Une autre souche, la souche B, est de génotype thr- leu- et thi- , ici, trois gènes sont mutés et les cellules ont besoin de l'adjonction de thréonine, de leucine et de thiamine au milieu minimal pour se développer. Des bactéries des souches A et B sont mélangées et laissées environ 1 heure dans un milieu contenant tous les éléments nécessaires à la survie des deux ( méthionine, biotine, thréonine, leucine et thiamine). La suspension est étalée sur un milieu minimal (non supplémenté) et, après environ 12h, on voit se développer quelques rares colonies. Rare excluant malgré tout une possibilité de réversion de mutation (voir le chapitre concernant la nature du matériel génétique), il faut conclure qu'un transfert d'allèles sauvages a été possible d'une cellule à une autre. (exercice) Deux explications, non exclusives, permettent de rendre compte du phénotype sauvage : soit l'exogénote, qui présente une grande homologie avec une région précise du chromosome de la cellule receveuse, va s'échanger avec cette région par recombinaison, soit il est transmis à la descendance (parce qu'il possède une origine de réplication par exemple) et il est capable de complémenter les allèles défectueux des clones issus de la cellule receveuse. C'est ce dernier cas qui va être utilisé dans l'étude de la régulation. * Remarque : La conjugaison représente un moyen naturel de transfert de matériel génétique. Par la suite, des souches dites Hfr (comme haute fréquence de recombinaison), dont le facteur F est toujours intégré dans le chromosome, ont été sélectionnées . Actuellement, la transformation, par des plasmides recombinés in vitro, apporte une grande souplesse et une grande efficacité dans la création de diploïdes partiels. De plus, des souches mutées, incapables de recombinaison (in vivo) permettent d'étudier, sans ambiguïté, les effets de complémentation. 1.1.2 EXEMPLE DE L'ADAPTATION A L'UTILISATION DU LACTOSE Plusieurs types de mutation peuvent interférer avec l'utilisation du lactose.
Des mutations dans le gène Z empêchent le catabolisme du lactose par absence de b-galactosidase, des mutations dans le gène Y empêchent la pénétration active du lactose à l'intérieur de la cellule. Dans ces deux cas le phénotype, symbolisé par lac-, c'est à dire impossibilité d'utiliser le lactose, résulte d'un défaut enzymatique.
D'autres mutations perturbent d'une façon tout à fait différente l'utilisation du lactose : elles affectent la production de trois enzymes en même temps (b-galactosidase, perméase et transacétylase). Plusieurs de ces mutations entraînent un phénotype constitutif c'est à dire production d'enzymes en absence d'inducteur.
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap6/fig6-21.gif" \* MERGEFORMATINET 
Etant donné que les trois gènes cartographient côte à côte sur le chromosome, on peut supposer que leur expression est régulée par un même système et que les mutations constitutives affectent non pas une production d'enzyme mais un élément de contrôle. Cet ensemble forme ce que l'on appelle un opéron bactérien. Les premières mutations constitutives étudiées ont été appelées I-et sont localisées près du gène Z, par la suite on a caractérisé des mutants constitutifs Oc, ces mutations sont situées encore plus près de Z. L'analyse de ces mutants par des expériences très élégantes faisant appel à des diploïdes partiels a permis au groupe de Monod et Jacob d'élaborer le célèbre modèle de régulation de l'opéron lactose par répression de la transcription. Le tableau ci-dessous rappelle les caractéristiques phénotypiques des mutants utilisés.
                                     
GENOTYPE
PHENOTYPE

I+ O+ Z+ Y+
sauvage (inductible)

I+ O+ Z- Y+
I+ O+ Z+ Y-
Lac- (non inductible)

I- O+ Z+ Y+
I+ Oc Z+ Y+
     constitutif

Pour la conjugaison, des souches Hfr (F+), sensibles à la streptomycine (Sms) sont utilisées comme cellules donneuses, les souches receveuses sont résistantes à la streptomycine (Smr). Après contact, les cellules sont étalées sur un milieu contenant de la streptomycine et contenant ou non un inducteur (ici de l'IPTG). Le tableau suivant résume les principaux "croisements" réalisés et indique la production de b-galactosidase en présence ou en absence d'inducteur (+ indique une production, - son absence).

   sans inducteur
IPTG

F+SmsI+O+Z+ / SmrI+O+Z-
     -
  +

F+SmsI+O+Z+ / SmrI-O+Z+
     -
  +

F+SmsI+O+Z+ / SmrI+OcZ+
    +
  +

*Remarque : Ce tableau est à analyser avec beaucoup d'attention, l'interprétation de tels résultats a valu le prix Nobel à F. Jacob, J. Monod et A. Lwoff.
1.1.3. MODELE DE REGULATION PAR REPRESSION DE LA TRANSCRIPTION La présence de b-galactosidase chez un diploïde partiel Z-/Z+ indique qu'une complémentation est possible, l'allèle Z+ de la cellule donneuse est exprimé dans le cytoplasme de la cellule receveuse (on peut dire que l'allèle Z+, sauvage, est dominant par rapport à Z-, muté). De même, la présence de l'allèle I+ rétablit le contrôle normal (inductible) de l'expression du gène Z. On peut en conclure que ce gène est exprimé en une protéine capable d'agir sur la transcription de l'opéron. Monod et Jacob proposent que cette protéine (produit du gène I) soit un répresseur de la transcription lorsque l'inducteur est absent (l'induction serait en fait une levée de la répression). Les résultats obtenus avec les diploïdes partiels O+/Oc sont très différents, il n'y a pas complémentation, l'allèle muté semble dominant par rapport au sauvage. Ceci ne peut s'expliquer que si le locus O n'est pas un gène exprimé mais une séquence particulière d'ADN que l'on appellera le site opérateur. Le schéma de fonctionnement de l'opéron serait alors le suivant : en absence d'inducteur, le répresseur produit par le gène reconnaît spécifiquement le site O et s'y fixe. L'encombrement de ce complexe (on découvrira plus tard que c'est en fait un tétramère qui se fixe) est tel que l'ARN polymérase est incapable de se fixer au site promoteur. Le promoteur étant unique pour les trois unités de fonction Z, Y et A, on comprend que la répression bloque la transcription de l'ensemble.
Comment se fait l'induction ? Une propriété très intéressante de certaines protéines est celle d'allostérie : la fixation d'une molécule particulière (ligand) peut provoquer une modification globale de la structure tridimensionnelle d'une protéine réceptrice. C'est ce qui ce produit ici, le lactose a une affinité pour la protéine répresseur et sa liaison provoque une transition allostérique de celui-ci. Si l'on tient compte du fait que l'interaction d'une protéine avec une séquence d'ADN nécessite l'établissement de liaisons hydrogène entre des atomes précis d'acides aminés précis et des atomes précis de bases, la déformation de la protéine ne permettra plus cette interaction et le complexe répresseur-inducteur sera incapable de se fixer à l'opérateur.
Le principe d'interaction protéine (en tant que séquence spécifique d'acides aminés conditionnant sa structure tridimensionnelle) et séquence d'ADN permet de comprendre l'effet des mutations I- et Oc. Une mutation dans le locus I conduit à une altération de la structure du répresseur voire à une absence de la protéine (allèle nul). Dans tous les cas, une liaison répresseur - opérateur ne peut s'établir et l'ARN polymérase peut s'installer à l'opérateur. Si le répresseur possède une structure correcte mais que la séquence opératrice est altérée par une mutation (Oc par exemple), le résultat est le même : aucune possibilité de former un complexe répresseur - opérateur ; la transcription de l'opéron est possible en permanence.
1.1.4 LE REPRESSEUR Une confirmation d'un mode de régulation par répression a été apportée par des mutations Is, s signifiant "super-réprimé". Ces mutants sont incapables d'utiliser le lactose car l'opéron est réprimé en permanence, le lactose ne peut induire la transcription. Les mutations affectent bien le gène I, mais dans une région importante pour la formation du complexe répresseur - inducteur. La région essentielle pour la liaison du répresseur à la séquence opératrice étant intacte, l'état réprimé est stable. Ces observations permettent d'aborder un aspect plus général des protéines de régulation, celui de domaines fonctionnels spécialisés. L'analyse détaillée de la protéine après clonage du gène I dans un vecteur d'expression et surproduction par des clones bactériens transformés (voir le chapitre correspondant) confirmera ce concept. Les mutations I-, Is et d'autres ne sont pas disposées de façon aléatoire dans le gène mais leur cartographie reflète le fait qu'une partie de la protéine codée est essentielle dans la reconnaissance du site opérateur, une autre région est nécessaire pour la fixation de l'inducteur et la transition allostérique, une autre permet la formation d'un tétramère. Cette notion de protéines de régulation modulaires, séparables en domaines fonctionnels, se retrouvera chez les Eucaryotes. 1.1.5. OPERON INDUCTIBLE ET OPERON "REPRESSIBLE" L'opéron lactose ne fonctionne que s'il est induit par une molécule effectrice capable de lever l'effet du répresseur, il est dit inductible. Dans d'autres cas c'est l'inverse, la molécule effectrice provoque la répression de la transcription, l'opéron est dit répressible. Un exemple typique nous est fourni par un opéron intervenant dans la biosynthèse du tryptophane. *Remarque : l'opéron lactose intervient dans le catabolisme, l'opéron tryptophane intervient dans l'anabolisme.
Cet opéron comporte cinq gènes codant pour des enzymes impliquées dans la synthèse du tryptophane (les cistrons trpE, D, C, Bet A) groupés, sous la dépendance d'un seul système promoteur - opérateur. Un gène, trp R, qui ne fait pas partie de l'opéron, code pour un répresseur spécifique de l'opéron tryptophane. Cette protéine est incapable de se lier au site opérateur, et par conséquent inactive, tant qu'elle n'est pas complexée avec une molécule effectrice : le tryptophane lui-même. Il agit donc comme un corépresseur dans ce mécanisme de régulation en retour par le produit final de la chaine métabolique de l'opéron.
1.1.6 CONTROLE NEGATIF ET CONTROLE POSITIF Les gènes soumis à un contrôle négatif ne sont pas transcrits si un répresseur est lié à l'opérateur. C'est le cas des opérons lactose ou tryptophane. Les gènes soumis à un contrôle positif ne sont transcrits efficacement que si une protéine régulatrice favorise l'initiation. L'opéron lactose est également soumis à un contrôle positif. Il a été précisé au début de ce chapitre que la transcription est induite si l'on remplace le glucose par du lactose comme seule source de carbone dans le milieu minimal. En effet, si l'on ajoute du lactose, l'opéron n'est pas transcrit tant que le glucose n'est pas épuisé. Ce phénomène, qui concerne de nombreux opérons du catabolisme est appelé "effet glucose" ou encore "répression catabolique". Il repose, comme les autres modes de régulation sur une protéine à régulation allostérique et une molécule effectrice. Deux types de mutations abolissent l'effet glucose : le premier concerne les gènes impliqués dans la formation de l'adénosine monophosphate cyclique (AMPc,) notamment celui de l'adénylate cyclase, le second dans un gène codant pour une protéine appelée "CAP" comme protéine activatrice du catabolisme. On a pu montrer que le glucose freine la production d'AMP cyclique à partir de l'ATP et maintient un très faible niveau d'AMPc. Lorsque le glucose diminue, la concentration en AMPc augmente, or cette molécule peut former un complexe spécifique avec la protéine CAP. Il en résulte une modification de la structure tridimensionnelle et le complexe est capable de se fixer sur l'ADN, au niveau d'une séquence particulière appelée site CAP, située un peu en amont du promoteur. La liaison entraîne une contrainte topologique de la double hélice d'ADN qui favorise l'initiation de la transcription.
1.2 CONCLUSION Les quelques exemples qui ont été choisis (il existe d'autres mécanismes qui n'ont pas été décrits ici) montrent que quel que soit le mode de contrôle, positif ou négatif, quelles qu'en soient les modalités dans le détail, le schéma de base est le même. Les gènes codant pour des enzymes (tels que LacZ, Y, TrpA ...) sont appelés des gènes de structure : leur produit participe directement à la structure de la cellule ou à son métabolisme (les enzymes, les protéines membranaires, les protéines des ribosomes etc sont codées par de tels gènes. A côté de celà, d'autres éléments informatifs interviennent dans le contrôle de l'expression des gènes de structure.
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap6/fig6-61.gif" \* MERGEFORMATINET  Au niveau transcriptionnel, on envisage des gènes de régulation codant pour des protéines sans fonction enzymatique, des protéines de régulation (le répresseur, la protéine CAP en sont des exemples) qui agissent en trans (sur un site pouvant être éloigné) en se fixant spécifiquement à une séquence précise d'ADN que l'on appellera site de régulation, ces sites assurent une cis-régulation sur l'efficacité du promoteur situé sur la molécule d'ADN. La relation avec l'environnement intra ou extra cellulaire est assurée par des molécules effectrices (le lactose, l'AMPc en sont des exemples). La souplesse de la régulation est liée aux propriétés de modifications allostériques des protéines de régulation, qui, selon leur conformation assurent ou n'assurent pas leur fonction.
 INCLUDEPICTURE "http://sciences.univ-angers.fr/~jalouzot/courshtm/chap6/fig6-62.gif" \* MERGEFORMATINET 
Si la notion d'opéron est restreinte aux cellules Procaryotes (chaque cistron eucaryotique possède son propre promoteur), on verra que ce schéma de base est applicable

La loi de Hardy-Weinberg
En 1908, un mathématicien anglais, G.H. Hardy, et un médecin allemand W. Weinberg ont formulé une loi connue sous le nom de loi de Hardy-Weinberg. Selon cette loi, les fréquences alléliques restent stables de génération en génération dans une population diploïde idéale et ne dépendent que des fréquences de la génération initiale. De plus, les fréquences génotypiques ne dépendent que des fréquences alléliques.
Propriétés d'une "population idéale"
C'est une population fictive qui possède les propriétés suivantes:
Population de grande taille, idéalement de taille infinie.
Les individus s'y unissent aléatoirement, impliquant l'union aléatoire des gamètes. Il n'y a donc pas de choix du conjoint en fonction de son génotype. On dit alors que la population est  HYPERLINK "http://anthropologie.unige.ch/evolution/Glossaire.htm" \l "Panmictique" panmictique.
Pas de  HYPERLINK "http://anthropologie.unige.ch/evolution/Glossaire.htm" \l "Migration" migration. Aucune copie allélique n'est apportée de l'extérieur.
Pas de  HYPERLINK "http://anthropologie.unige.ch/evolution/Glossaire.htm" \l "Mutations" mutation.
Pas de  HYPERLINK "http://anthropologie.unige.ch/evolution/Glossaire.htm" \l "Sélection" sélection.
Les  HYPERLINK "http://anthropologie.unige.ch/evolution/Glossaire.htm" \l "Génération" générations sont séparées.
Cette population n'est définie ainsi que pour assurer la rigueur mathématique de la démonstration suivante.
Démonstration de la loi de Hardy-Weiberg
Supposons que la taille de la population est égale à N et considérons 1 locus à 2 allèles A et a possédant respectivement des fréquences p et q = 1-p à la génération t.
Quelles vont être les fréquences des différents génotypes AA, Aa et aa à la génération t + 1 ?
Pour qu'un individu soit AA, il faut qu'il ait reçu 1 allèle a de ses 2 parents. Si les gamètes s'unissent au hasard, cet événement se réalise avec la probabilité
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/Image235.gif" \* MERGEFORMATINET .
Le raisonnement est identique pour le génotype aa et
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/Image236.gif" \* MERGEFORMATINET .
Enfin, pour le génotype Aa, 2 cas sont possibles : L'individu a reçu A de son père et a de sa mère ou l'inverse.
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/Image237.gif" \* MERGEFORMATINET 
Ainsi, dans une  HYPERLINK "http://anthropologie.unige.ch/evolution/" \l "Propriétés d'une "population idéale"" population idéale, les  HYPERLINK "http://anthropologie.unige.ch/evolution/Glossaire.htm" \l "Équilibre de Hardy-Weinberg" proportions de Hardy-Weinberg sont données par
AA
Aa
aa

 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/Image238.gif" \* MERGEFORMATINET 
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/Image239.gif" \* MERGEFORMATINET 
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/Image240.gif" \* MERGEFORMATINET 

Pour la cas d'un locus à 2 allèles, on peut avoir une représentation graphique des fréquences génotypiques attendues en fonction des fréquences alélique. Il s'agit du carré de Punnet (1910).
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/Punnet.gif" \* MERGEFORMATINET 

Carré de Punnet: Les différentes aires des rectangles sont proportionnelles aux fréquences génotypiques.

On peut aussi représenter les fréquences génotypiques en fonction des fréquences alléliques:
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/GenotFreq.GIF" \* MERGEFORMATINET 
Si les fréquences alléliques sont comprises entre 1/3 et 2/3, les hétérozygotes seront le génotype le plus fréquent dans la population

Fréquence génotypiques attendues sous l'hypothèse d'équilibre d'Hardy-Weinberg , en fonction des fréquences alléliques
 

Notez que cette situation est généralisable à un locus avec plusieurs allèles A1, A2, ... , Ak. Les fréquences des homozygotes AiAi sont égales à
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/Image241.gif" \* MERGEFORMATINET 
et celles des hétérozygotes AiAj sont égales à
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/Image242.gif" \* MERGEFORMATINET .
Quelle est la fréquence p' de l'allèle A à la génération t + 1 ?
Par simple comptage, on a
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/Image243.gif" \* MERGEFORMATINET ,
soit respectivement la proportion des allèles A portés par les homozygotes et les hétérozygotes, et donc
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/Image244.gif" \* MERGEFORMATINET (C.Q.F.D.).
La fréquence de l'allèle A à la génération t + 1 est donc identique à celle de la génération précédente, et donc aussi à celle de la génération initiale.
 
Conséquences de la loi de Hardy-Weinberg
Les relations de dominance entre allèles n'ont aucun effet sur l'évolution des fréquences alléliques.
Dans une population en équilibre de H.-W., il est  HYPERLINK "http://anthropologie.unige.ch/evolution/Glossaire.htm" \l "Équilibre de Hardy-Weinberg" possible de prédire les fréquences des différents génotypes à partir des seules fréquences alléliques.
Les fréquences alléliques restent stables au cours du temps.
La  HYPERLINK "http://anthropologie.unige.ch/evolution/Glossaire.htm" \l "Ségrégation" ségrégation mendélienne aléatoire des chromosomes préserve la variabilité génétique des populations.
L'évolution étant définie par un changement des fréquences alléliques, une population HYPERLINK "http://anthropologie.unige.ch/evolution/Glossaire.htm" \l "Population idéale"  diploïde idéale n'évolue pas.
Seules les violations des propriétés de la  HYPERLINK "http://anthropologie.unige.ch/evolution/" \l "Propriétés d'une "population idéale"" population idéale permettent le processus évolutif.
Applicabilité de la loi de Hardy-Weinberg
Bien que les propriétés d'une  HYPERLINK "http://anthropologie.unige.ch/evolution/" \l "Propriétés d'une "population idéale"" population idéale apparaissent un peu surréalistes, la plupart des populations présentent des fréquences génotypiques en équilibre de H.-W. pour une grande majorité des locus. Ceci est dû au fait que cet équilibre est avant tout dû à la ségrégation aléatoire des chromosomes qui a lieu à chaque génération.
Par contre, dans les populations naturelles, les fréquences alléliques varient constamment d'une génération à l'autre sous l'influence de divers facteurs ( HYPERLINK "http://anthropologie.unige.ch/evolution/Glossaire.htm" \l "Sélection" sélection,  HYPERLINK "http://anthropologie.unige.ch/evolution/Glossaire.htm" \l "Dérive génétique" dérive génétique, etc...). Mais l'équilibre de H.-W. est rétabli au début de chaque génération par l'union aléatoire des gamètes..
L'équilibre est avant tout perturbé si les gamètes ne sont pas produit aléatoirement ( HYPERLINK "http://anthropologie.unige.ch/evolution/Glossaire.htm" \l "Meiotic drive" meiotic drive), ou si il y a choix du conjoint ( HYPERLINK "http://anthropologie.unige.ch/evolution/Glossaire.htm" \l "Consanguinité" consanguinité). Notez que la  HYPERLINK "http://anthropologie.unige.ch/evolution/Glossaire.htm" \l "Sélection naturelle" sélection naturelle n'affecte pas l'équilibre de Hardy-Weinberg parmi les nouveaux-nés. Son effet ne devient perceptible que par la suite, au cours du développement.
Nous allons donc examiner quelques mécanismes autorisant le processus évolutif et provoquant des modifications des fréquences alléliques. Ces mécanismes sont précisément rencontrés dans des populations naturelles et correspondent à des situations bien plus réalistes que celles énoncées pour une  HYPERLINK "http://anthropologie.unige.ch/evolution/" \l "Propriétés d'une "population idéale"" population idéale.

La consanguinité
La plupart des populations naturelles ne sont pas  HYPERLINK "http://anthropologie.unige.ch/evolution/Glossaire.htm" \l "Panmictique" panmictiques. Les gamètes ne s'unissent pas au hasard du fait de la taille limitée des populations (voir dérive génétique et effet fondateur) et de ses structures internes qui empêchent la libre rencontre des individus. Souvent les limites de la dispersion des gamètes fait que les organimes vont se reproduire avec des individus qui sont nés à proximité d'eux, avec qui ils sont apparentés.
Prenons le cas extrême de la reproduction par autofécondation chez des diploïdes. Dans ce cas, la probabilité qu'un zygote reçoive 2 copies identiques du même allèle est de 0.5. La moitié des descendants auront donc leur 2 allèles identiques par ascendance. Ils seront donc forcément homorozygotes ainsi que tous leurs descendants. L'autre moitié étant hétérozygote aura elle-même la moitié de sa propre descendance composée d'homozygotes.
Conséquences
La proportion d'homozygotes va augmenter dans la population jusqu'à la fixation de lignées homozygotes pures.
Les fréquences alléliques ne seront pas modifiées si la population est de grande taille.
Les conséquences seront identiques pour d'autres systèmes de reproduction consanguins, mais avec une dynamique plus lente.
Exemples de fréquences génotypiques attendues dans des populations avec différents taux de consanguinité définis tel que défini par le  HYPERLINK "http://anthropologie.unige.ch/evolution/Glossaire.htm" \l "Coefficient de consanguinité" coefficient de consanguinité f.
 
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/Geneti1.jpg" \* MERGEFORMATINET 
Absence de consanguinité, les fréquences génotypiques sont celles attendues sous l'équilibre de Hardy Weinberg

 
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/Geneti2.jpg" \* MERGEFORMATINET 
Avec un coefficient de consanguinité de f égal à 0.5, les fréquences génotypiques différent des fréquences de H.-W. Il y a une forte réduction du nombre d'hétérozygotes

 
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/Geneti3.jpg" \* MERGEFORMATINET 
Dans une population pratiquant l'autofécondation (f=1), on n'observe que des génotypes homozygotes de fréquences égales aux allèles qui les constituent.


Taille finie des populations: La dérive génétique
Les populations naturelles ont un nombre fini d'individus, contrairement aux propriétés de la  HYPERLINK "http://anthropologie.unige.ch/evolution/" \l "Propriétés d'une "population idéale"" population idéale. La dérive génétique est due avant tout à la taille finie des populations et au fait qu'un nombre limité de ses membres participe au processus reproductif.
Principe de la dérive génétique
Prenons une population diploïde composée de N individus. Il y a donc 2N copies d'un même gène dans la population. On admetttra que les gamètes s'unissent complétement au hasard et que l'autofécondation est possible.
On suppose que les 2N gènes des individus d'une génération donnée sont obtenus par tirage aléatoire de 2N gènes de la génération précédente. Sous ce modèle, la constitution d'une nouvelle génération revient à répéter 2N épreuves élémentaires identiques et indépendentes, où chacune d'entre elle consiste à tirer un gène de la génération précédente et de vérifier s'il s'agit de l'allèle A. Le nombre de succès, X, qui est le nombre de copies alléliques du type A, est une variable aléatoire qui suit une  HYPERLINK "http://anthropologie.unige.ch/evolution/Glossaire.htm" \l "Loi binomiale" loi binomiale de paramètre b(2N, pi), qui a pour espérance E(X)=2Npi et variance Var(X)=2Npi(1-pi). La fréquence de l'allèle A à la génération i+1 est simplement pi+1=X/(2N). C'est aussi une variable aléatoire qui a pour espérance E(pi+1)=E[X/(2N)]=pi=p0 et variance Var(pi+1)=Var[X/(2N)]=pi(1-pi)/(2N).
Pour tout gène possédant une fréquence pi, il existe donc une probabilité non nulle (calculable à l'aide de la loi binomiale) que sa fréquence absolue à la génération suivante soit de 0, 1, 2, ..., ou 2N. Un gène donné pourra donc totalement disparaître, voir sa fréquence augmenter ou diminuer, ou encore se fixer par le simple fait du hasard.
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/GeneticDrift.jpg" \* MERGEFORMATINET 
Ce modèle se justifie intuitivement : il est clair que tous les individus d'une certaine génération ne vont pas produire le même nombre de descendants; certains n'auront pas d'enfants (ils ne transmettront aucun gène à la génération suivante), d'autres vont avoir une famille nombreuse et transmettre plusieurs copies de leurs gènes à la génération suivante.
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/GeneticDrift2.jpg" \* MERGEFORMATINET 
Si la population est grande, la perte d'une copie d'un certain allèle présent chez un individu sans descendance sera compensée par le fait qu'un autre individu possédant le même allèle aura plusieurs descendants. De cette manière, les fréquences alléliques fluctuent peu dans les grandes populations. Par contre, elles varient fortement dans les petites populations, où cet effet de moyenne n'agit pas. Plus rigoureusement, on a vu plus haut que la variance de la fréquence allélique Var(pi+1) est inversément proportionnelle à la taille de la population. Donc, dans une grande population, la variance de pi+1 sera plus petite que dans une petite population et pi+1 sera proche de son espérance, et il y aura donc moins de fluctuations de fréquences d'une génération à l'autre.
Il faut enfin faire attention au fait que la dynamique de la dérive génétique dépend de la  HYPERLINK "http://anthropologie.unige.ch/evolution/" \l "Taille efficace de la population" taille efficace de la population et non de sa taille de recensement.
Conséquences de la dérive génétique
La  HYPERLINK "http://anthropologie.unige.ch/evolution/Glossaire.htm" \l "Consanguinité" consanguinité de la population va augmenter Le nombre d'individus homozygotes va lui aussi augmenter.
Les fréquences alléliques vont fluctuer de génération en génération L'amplitude de ces fluctuations sera d'autant plus grande que la population sera petite.
Des populations issues d'une même population mère vont progressivement se différencier génétiquement Considérons que 2 populations se séparent à un moment donné. Elles auront initialement les mêmes fréquences alléliques, mais elles vont connaître des processus de dérive génétique indépendants. Chacune des populations va avoir des fréquences alléliques se modifiant aléatoirement au cours du temps. Elles vont donc diverger génétiquement. La variabilité génétique de l'espèce va augmenter, ceci d'autant plus qu'elle sera composée de petites populations isolées les unes des autres.
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/GeneticDrift3.jpg" \* MERGEFORMATINET 
La dérive est de forte amplitude dans ces très petites populations. Elles divergent rapidement les unes des autres. Des allèles sont perdus et d'autres restent polymorphes ou se fixent.

Dérive génétique dans 10 populations de 10 individus diploides
 

 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/GeneticDrift4.jpg" \* MERGEFORMATINET 
La dérive est de plus faible amplitude dans cette population. Les fréquences alléliques des populations restent relativement semblables entre elles et proches de la fréquence initiale de 0.5.

Dérive génétique dans 10 populations de 100 individus diploides
 

Consanguinité due à la taille finie des populations
Dans une population diploïde de N individus pouvant s'autoféconder, à chaque génération on tire 2 gamètes au hasard pour faire un individu de la génération suivante. Il y a une probabilité 1/2N pour que les 2 gamètes soient issus de la copie d'un même gène présent chez le même individu (qu'ils soient identiques par ascendance). Ainsi, on aura fabriqué un  HYPERLINK "http://anthropologie.unige.ch/evolution/Glossaire.htm" \l "Homozygote" homozygote. Donc à chaque génération, la proportion  HYPERLINK "http://anthropologie.unige.ch/evolution/Glossaire.htm" \l "Hétérozygote" d'hétérozygotes (H) va diminuer d'un facteur 1/2N à chaque génération.
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/Image245.gif" \* MERGEFORMATINET 
et donc
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/Image246.gif" \* MERGEFORMATINET 
La proportion d'hétérozygote va progressivement diminuer dans une population de taille finie, même si le choix du conjoint se fait totalement au hasard. La consanguinité de la population va augmenter. Ce phénomène sera d'autant plus rapide que la taille efficace de la population sera faible. Si l'autofécondation n'est pas possible, le même phénomène s'applique, mais avec une génération de retard. Les conséquences ultimes sont donc identiques.
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/ReducHeterozFiniteSize.JPG" \* MERGEFORMATINET 

Réduction d'hétérozygotie due à la taille finie des populations

Dérive génétique et effet fondateur
L'effet fondateur est un autre aspect du tirage aléatoire des gènes pour former une nouvelle population. Dans ce cas, le tirage aléatoire sera celui des migrants allant fonder une nouvelle colonie pendant la même génération, au lieu d'être un tirage de gène d'une génération à l'autre. L'effet fondateur a pour conséquence un profond bouleversement des fréquences alléliques, d'autant plus important que le nombre de migrants est petit. Lors de la colonisation d'îles ou d'archipels, de nombreux effets fondateurs successifs peuvent se produire, amplifiant le phénomène.
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/FounderEffect.jpg" \* MERGEFORMATINET 
Un effet fondateur est souvent suivi de  HYPERLINK "http://anthropologie.unige.ch/evolution/" \l "La dérive génétique" dérive génétique importante dans la nouvelle colonie, du fait de sa très petite taille. Ainsi, après quelques générations, la population fille pourra être génétiquement complétement différente de la population mère. Certains allèles auront pu se fixer, même si ils étaient rares au départ.

Taille efficace d'une population
Il existe plusieurs concepts de taille efficace (Ne) d'une population. Grossièrement, c'est le nombre d'individus participant au processus reproductif à un moment donné dans une population. Ce nombre est toujours inférieur au nombre total d'individus (la taille de recensement d'une population).
C'est un concept important, car la dynamique des changements des fréquences alléliques (et donc la dérive génétique) est affectée par le nombre des reproducteurs, et non par la taille totale (de recensement) de la population.
Dans les populations humaines, la taille efficace est grossièrement obtenue en divisant la taille totale par trois.
D'autres facteurs interviennent cependant pour perturber la taille efficace d'une population. Par exemple :
Sexes séparés Lorsque le sexe ratio n'est pas équilibré les individus des 2 sexes ne contribuent pas équitablement à la génération suivante. La taille efficace est alors donnée par
 
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/Image253.gif" \* MERGEFORMATINET 

Exemple: On étudie une population de 100 tribus de souris toutes composées 1 mâle et 4 femelles. La taille efficace de cette population sera de 320 au lieu de 500 si l'on ne tenait pas compte de la répartition inégale des sexes.
Fluctuation de la taille au cours du temps Si la population passe par des réductions d'effectif au cours des générations, la taille efficace se rapprochera de la taille passée la plus réduite. On calcule ainsi la moyenne harmonique des tailles de la population au cours des t dernières générations.
 
 INCLUDEPICTURE "http://anthropologie.unige.ch/evolution/images/Image254.gif" \* MERGEFORMATINET 

Exemple: Une population connait les fluctuations de taille suivante.
g1
g2
g3
g4
g5

100
150
25
150
125

La taille efficace est de 70 individus au lieu de 110 si on la calculait comme la simple moyene arithmétique.

©  HYPERLINK "mailto:Laurent.Excoffier@anthro.unige.ch" Laurent Excoffier (1998), Laboratoire de Génétique et Biométrie,  HYPERLINK "http://anthropologie.unige.ch" Département d'Anthropologie, Université de Genève
Parenté et consanguinité
 
Les notions de parenté et de consanguinité sont anciennes dans le langage courant. En génétique des populations et en génétique quantitative, ces notions sont centrales. D'une part, elles permettent de décrire la constitution génétique d'une population et sont essentielles pour quantifier l'impact de la dérive génétique dans les petites populations. D'autre part, elles permettent de décrire avec précision les liaisons entre deux individus donnés et de quantifier la ressemblance qui peut exister pour leurs valeurs phénotypiques respectives pour un caractère quantitatif : à ce titre, ces notions sont au coeur du principe des méthodes d'évaluation génétique des reproducteurs ainsi que de celles visant à estimer la part de variation des caractères complexes qui est d'origine héréditaire.
Le concept de consanguinité a été introduit et sa mesure a été établie par Wright (1921, 1922) au moyen de la méthode des coefficients de piste. En 1948, Malécot a introduit la notion d'identité des gènes et développé l'approche probabiliste qui est aujourd'hui retenue pour définir et calculer les coefficients de parenté et de consanguinité. L'essentiel des pages qui suivent est consacré au calcul des coefficients de parenté et de consanguinité, avec des exemples de complexité variable. Il est recommandé avant de se pencher sur ces aspects calculatoires de bien avoir assimilé les définitions correspondantes. Au sein des pages "signification ...", on revient sur les différentes causes d'apparition de la consanguinité au sein d'une population et sur les conséquences pratiques qui en découlent.    
 HYPERLINK "http://www.inapg.inra.fr/dsa/uvf/GP/Phi/definir1.htm" Définitions
 HYPERLINK "http://www.inapg.inra.fr/dsa/uvf/GP/Phi/coeff1.htm" Coefficients de parenté
 HYPERLINK "http://www.inapg.inra.fr/dsa/uvf/GP/Phi/coeff1.htm" et de consanguinité
 HYPERLINK "http://www.inapg.inra.fr/dsa/uvf/GP/Phi/genet.htm" Signification génétique
 HYPERLINK "http://www.inapg.inra.fr/dsa/uvf/GP/Phi/genet.htm" de la consanguinité

   

Cette liste sera éventuellement complétée ultérieurement. Merci d'avoir suivi ce cours.









 INCLUDEPICTURE "http://www.univ-tours.fr/genet/regle3.gif" \* MERGEFORMATINET