2.2 Phylogénie - Free
La construction n'est pas obligatoirement la MRP comme l'exemple de la figure
.... Arbre des ?-protéobactéries obtenu à partir des signatures corrigées par un ...
Part of the document
Université Paris VII - Denis Diderot
U.F.R. de Biologie
THÈSE
Pour l'obtention du diplôme de
DOCTEUR de l'UNIVERSITÉ PARIS VII
Analyse de Génomes et Modélisation Moléculaire
par
Charles CHAPUS
[pic]
Analyse de données phylogénétiques à l'aide de la signature génomique.
Aspects méthodologiques et application aux procaryotes
[pic]
Soutenue publiquement le
Devant la commission d'examen :
|Patrick DESCHAVANNE |(Directeur de thèse)|Chargé de recherche INSERM, |
| | |Paris |
|Alain ZIDER |(Président) |Professeurs, Université Paris |
| | |VII |
|Alain GUÉNOCHE |(Rapporteur) |Chargé de recherche CNRS, |
| | |Marseille |
|Manolo GOUY |(Rapporteur) |Directeur de recherche CNRS, |
| | |Lyon |
|Philippe DESSEN |(Examinateur) |Directeur de recherche CNRS, |
| | |Villejuif |
Remerciements
Table des Matières
1 Introduction 1
2 État de l'art 3
2.1 L'ADN 3
2.1.1 La molécule 3
2.1.2 Eubactéries 5
2.1.3 Archaebactéries 8
2.1.4 Eucaryotes 9
2.1.5 DACU 11
2.2 Phylogénie 11
2.2.1 Historique 11
2.2.2 Phylogénie et taxonomie 13
2.2.3 La phylogénie moléculaire 15
2.2.3.1 Historique 15
2.2.3.2 Définition 18
2.2.3.3 Les données prises en compte 20
2.2.3.4 L'alignement 20
2.2.3.5 Les méthodes de reconstruction d'arbres 24
2.2.3.5.1 Maximum de parcimonie 24
2.2.3.5.2 Phénétique 26
2.2.3.5.3 Maximum de vraisemblance 36
2.2.3.5.4 Méthodes bayésiennes 38
2.2.3.6 Comparaison de méthodes 40
2.2.3.7 Validité 41
2.2.4 Problèmes rencontrés dans la réalisation d'une phylogénie
moléculaire 43
2.2.4.1 Alignement 43
2.2.4.2 Séquences homologues 43
2.2.4.3 Transfert Horizontaux 45
2.2.4.4 Bootstrap 46
2.2.4.5 Différentes méthodes - différents résultats 46
2.2.5 Nouvelles méthodes 47
2.2.5.1 Grand nombre de séquences 47
2.2.5.2 Superarbre 48
2.2.5.3 Emploi de caractéristiques structurales 51
2.2.5.4 Présence des gènes 53
2.2.5.5 Ordre des Gènes 55
2.2.5.6 Phylogénie basée sur le score BLAST 57
2.2.5.7 Utilisation d'événements rares, de petites séquences
caractéristiques : la signature de séquence 59
2.2.5.8 MUMer 60
2.3 Signature Génomique 62
2.3.1 Définition 62
2.3.2 L'état des connaissances 62
2.3.3 Construction des signatures 64
2.3.4 Principaux résultats 69
2.3.4.1 Diversité 69
2.3.4.2 Spécificité 71
2.3.4.3 Stabilité 76
2.3.4.4 Transfert horizontaux 78
2.3.5 Pourquoi utiliser la signature pour déterminer les relations
entre espèces. 80
3 Utilisation de la signature pour étudier les relations taxonomiques
82
3.1 Classification et taxonomie 82
3.1.1 Analyse discrimante 82
3.1.2 Analyse discriminante « top-down » 84
3.1.3 Cartes de Kohonen 87
3.2 Distance et corrélation 90
3.3 Méthode utilisant la signature 92
3.3.1 Gestion des séquences et moyens informatiques employées 92
3.3.2 Méthodologie développée 93
3.4 Étude statistique de la méthode de la signature 97
3.4.1 Est-ce que la distance entre signatures est une distance
d'arbre ? 97
3.4.2 Convergence de la topologie avec l'augmentation de la longueur
des mots 101
3.4.3 Conclusion 103
3.5 Simulation 104
3.6 Effet du bruit sur les résultats 107
3.7 Applications aux séquences homologues 111
3.7.1 RAG1 111
3.7.2 Utilisation de l'ARN 18S 120
3.7.2.1 La phylogénie des cirripèdes 121
3.7.2.2 La phylogénie des plantes 124
3.7.3 La signature de l'ARN 133
3.8 Arbre multi-gène 135
4 Application de la signature aux séquences non-homologues 153
4.1 Phylogénie des ?-protéobactéries 153
4.2 Augmentation du nombre d'espèces prises en compte et technique de
superarbre 162
5 Conclusion et perspectives 201
6 Références 204
Table des Figures
Figure 1 - Molécule d'ADN constituée de deux brins complémentaires. 4
Figure 2 - Diversité des formes de Bactéries. (a) les Cocci, (b) les
Bacilles et (c) Les Spirilles. 5
Figure 3 - Coupe d'une cellule bactérienne. (a) coupe schématique (b)
Micrographie électronique de Bacillus coagulans. 6
Figure 4 - Coloration de Gram. Deux types de parois bactériennes existent.
La technique de la coloration de Gram permet de les distinguer. Pour
chaque type de paroi, un schéma est indiqué. 6
Figure 5 - Coupe d'une cellule eucaryote. Ici est représentée une cellule
animale, où les principales structures les plus répandues sont
schématisées. 10
Figure 6 - Exemple d'une matrice PAM. La matrice au-dessus correspond à
PAM2. Pour chaque acide aminé initial, les probabilités de mutation sont
indiquées. Tableau tiré de Dayhoff et al (Dayhoff, 1978). 17
Figure 7 - Enracinement d'un arbre à 4 taxons. Deux types d'enracinement
sont possibles. Sur une branche externe (1) ou sur la branche interne
(2). 19
Figure 8 - Monophylie et Paraphylie. Le groupe (B, C, D) est
monophylétique : tous les descendants de leur ancêtre commun sont
compris dans ce groupe. Le groupe (F, G, H) est paraphylétique : Leur
ancêtre commun n'a pas tous ses descendants dans le groupe, il manque E.
19
Figure 9 - Exemple d'une matrice de score permettant d'aligner deux
séquences suivant l'alogrithme de Needleman-Wunsch. La matrice de
substitution utilisée est BLOSUM 62. Les paramètres d'ouverture de gap
sont d=-12 et e=-2. Le chemin jaune correspond à l'alignement optimal.
22
Figure 10 - Alignement de 4 séquences nucléiques 25
Figure 11 - Nombre de changements évolutifs en fonction de la topologie.
Une étoile correspond à un changement évolutif qui se déroule dans la
branche. 25
Figure 12 - Différents types de mutation. Deux séquences homologues
descendent d'une séquence ancestrale. Les mutations sont représentées
par une flèche. 27
Figure 13 - Distribution de la loi gamma pour différentes valeurs de ?. Les
distributions de trois valeurs de ? sont représentées. ?=0.5 (courbe
verte), ?=1 (courbe bleue) et ?=2 (courbe rouge). 31
Figure 14 - Différentes étapes de l'algorithme Neighbor-Joining. Gauche :
arbre étoilé initial. Droite : arbre après le regroupement des taxons 1
et 2. 33
Figure 15 - Arbre après acceptation du regroupement entre les taxons 1 et
2. 34
Figure 16 - Méthode du maximum de vraisemblance : arbre à 4 taxons. Les
n?uds internes ainsi que les différentes longueurs de branches sont
indiqués. Figure adaptée de Li et Gouy 1991 37
Figure 17 - Phénomène d'attraction des longues branches. 45
Figure 18 - Méthodes de superarbre : ancienne et nouvelles. (a) Dans le
passé, les différents arbres sources étaient assemblés ensemble de
manière indépendante. (b) Actuellement, les arbres sources sont choisis
de manière à posséder des chevauchements au niveau des espèces. La
construction n'est pas obligatoirement la MRP comme l'exemple de la
figure le montre. Les portions du superarbre qui proviennent d'un même
arbre source sont codés par le même code couleur. (Figure tirée de
(Bininda-Edmonds, 2004)) 49
Figure 19 - Méthode d'encodage des arbres en une matrice binaire dans la
méthode MRP. (a,b) arbres sources. Les n?uds internes sont numérotés.
(c) matrice binaire encodée. 51
Figure 20 - Méthode morphométrique moléculaire. Les différentes structures
sélectionnées sont encodées en une matrice de charactères qui produira
des arbres par maximum de parcimonie et méthode des distances. 52
Figure 21 - Phylogénie de 91 procaryotes basée sur l'utilisation de BLAST.
Distance utilisée : « matched distance » et BIONJ. Les différents
groupes taxonomiques sont indiqués. Tirée de Henz et al (Henz et al.,
2004). 58
Figure 22 - Placement des génomes complets basé sur la signature de
séquence de différentes protéines. La flèche au-dessus de la ligne
indique où sont supposés être placés des indels. Le modèle prédit que
les espèces à gauche de la flèche possède l'indes et qu'à droite l'indel
est manquant. 936 observations sur les génomes complets ont été
nécessaire pour obtenir ce diagramme. 60
Figure 23 - Images CGR correspondantes à la séquence de l'exemple pour des
mots de 1, 2 et 3 lettres. 68
Figure 24 - Signatures génomiques pour des mots de 8 lettres de quelques
espèces obtenues à partir de l'étude de leurs génomes complets. 70
Figure 25 - Analyse en composante principale des signatures de fragments de
génomes complets. Projection sur les deux premiers axes. Quatre tailles
de fragments ont été utilisées : 5kb, 10 kb, 25 kb et 100kb. 9 espèces
so