L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en...
Transcript of L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en...
••
L’inférence statistique enphylogénie moléculaire:
l’approche "maximum devraisemblance"
Julien Dutheil
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••◦
••
2/23
La phylogénie et ses applications.
Arbre phylogénétique Un graphe représentant les relations
ancêtres/descendants entre des organismes ou des
séquences. Les séquences correspondent aux feuilles de
l’arbre. Les branches de l’arbre relient les feuilles à leurs
séquences ancestrales (non observables) (Holder 2003).
Quelques applications:
Détecter l’orthologie et la paralogie.
Estimer des temps de divergence.
Reconstruire des protéines ancestrales.
Mettre en évidence les sites sous sélection.
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••◦
••
2/23
La phylogénie et ses applications.
Arbre phylogénétique Un graphe représentant les relations
ancêtres/descendants entre des organismes ou des
séquences. Les séquences correspondent aux feuilles de
l’arbre. Les branches de l’arbre relient les feuilles à leurs
séquences ancestrales (non observables) (Holder 2003).
Quelques applications:
Détecter l’orthologie et la paralogie.
Estimer des temps de divergence.
Reconstruire des protéines ancestrales.
Mettre en évidence les sites sous sélection.
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••••◦
••
3/23
Des séquences aux arbres
Taxon 1 AAGACATGTGGCA
Taxon 2 AGGAC-TGTGGCA
Taxon 3 AGTAC-TGTGA-A
Taxon 4 AGCAC-TGTG--T
Taxon 5 AGCACATGTGA-A
Site
z
Taxon 1Taxon 2
Taxon 3
Taxon 4Taxon 5
Positions homologues alignées: sites
Chaque site est une réalisation d’une variablealéatoire
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••••◦
••
3/23
Des séquences aux arbresTaxon 1 AAGACATGTGGCA
Taxon 2 AGGAC-TGTGGCA
Taxon 3 AGTAC-TGTGA-A
Taxon 4 AGCAC-TGTG--T
Taxon 5 AGCACATGTGA-A
Site
z
Taxon 1Taxon 2
Taxon 3
Taxon 4Taxon 5
Positions homologues alignées: sites
Chaque site est une réalisation d’une variablealéatoire
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••••◦
••
3/23
Des séquences aux arbresTaxon 1 AAGACATGTGGCA
Taxon 2 AGGAC-TGTGGCA
Taxon 3 AGTAC-TGTGA-A
Taxon 4 AGCAC-TGTG--T
Taxon 5 AGCACATGTGA-A
Site
z
Taxon 1Taxon 2
Taxon 3
Taxon 4Taxon 5
Positions homologues alignées: sites
Chaque site est une réalisation d’une variablealéatoire
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••••◦
••
3/23
Des séquences aux arbresTaxon 1 AAGACATGTGGCA
Taxon 2 AGGAC-TGTGGCA
Taxon 3 AGTAC-TGTGA-A
Taxon 4 AGCAC-TGTG--T
Taxon 5 AGCACATGTGA-A
Site
z
Taxon 1Taxon 2
Taxon 3
Taxon 4Taxon 5
Positions homologues alignées: sites
Chaque site est une réalisation d’une variablealéatoire
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••••◦
••
3/23
Des séquences aux arbresTaxon 1 AAGACATGTGGCA
Taxon 2 AGGAC-TGTGGCA
Taxon 3 AGTAC-TGTGA-A
Taxon 4 AGCAC-TGTG--T
Taxon 5 AGCACATGTGA-A
Site
z
Taxon 1Taxon 2
Taxon 3
Taxon 4Taxon 5
Positions homologues alignées: sites
Chaque site est une réalisation d’une variablealéatoire
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••••••••◦
••
4/23
Qu’est-ce qu’un arbre?Topologie
Non raciné
4 feuillesA
B
C
D
A
C
B
D
3 feuillesA
B
C
2 feuilles
A B
Raciné
-1
? 1
A
B
C
D
^
2�
2A
B
C
D
Avec horlogeSans horloge
A
B
C
D
Avec longueurs de branches
A
B
C
D
(2n − 5)!
2n−3(n − 2)!arbres non racinésdifférents
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••••••••◦
••
4/23
Qu’est-ce qu’un arbre?Topologie
Non raciné
4 feuillesA
B
C
D
A
C
B
D
3 feuillesA
B
C
2 feuilles
A B
Raciné
-1
? 1
A
B
C
D
^
2�
2A
B
C
D
Avec horlogeSans horloge
A
B
C
D
Avec longueurs de branches
A
B
C
D
(2n − 5)!
2n−3(n − 2)!arbres non racinésdifférents
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••••••••◦
••
4/23
Qu’est-ce qu’un arbre?Topologie
Non raciné
4 feuillesA
B
C
D
A
C
B
D
3 feuillesA
B
C
2 feuilles
A B
Raciné
-1
? 1
A
B
C
D
^
2�
2A
B
C
D
Avec horlogeSans horloge
A
B
C
D
Avec longueurs de branches
A
B
C
D
(2n − 5)!
2n−3(n − 2)!arbres non racinésdifférents
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••••••••◦
••
4/23
Qu’est-ce qu’un arbre?Topologie
Non raciné
4 feuillesA
B
C
D
A
C
B
D
3 feuillesA
B
C
2 feuilles
A B
Raciné
-1
? 1
A
B
C
D
^
2�
2A
B
C
D
Avec horlogeSans horloge
A
B
C
D
Avec longueurs de branches
A
B
C
D
(2n − 5)!
2n−3(n − 2)!arbres non racinésdifférents
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••••••••◦
••
4/23
Qu’est-ce qu’un arbre?Topologie
Non raciné
4 feuillesA
B
C
D
A
C
B
D
3 feuillesA
B
C
2 feuilles
A B
Raciné
-1
? 1
A
B
C
D
^
2�
2A
B
C
D
Avec horlogeSans horloge
A
B
C
D
Avec longueurs de branches
A
B
C
D
(2n − 5)!
2n−3(n − 2)!arbres non racinésdifférents
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••••••••◦
••
4/23
Qu’est-ce qu’un arbre?Topologie
Non raciné
4 feuillesA
B
C
D
A
C
B
D
3 feuillesA
B
C
2 feuilles
A B
Raciné
-1
? 1
A
B
C
D
^
2�
2A
B
C
D
Avec horlogeSans horloge
A
B
C
D
Avec longueurs de branches
A
B
C
D
(2n − 5)!
2n−3(n − 2)!arbres non racinésdifférents
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••••••••◦
••
4/23
Qu’est-ce qu’un arbre?Topologie
Non raciné
4 feuillesA
B
C
D
A
C
B
D
3 feuillesA
B
C
2 feuilles
A B
Raciné
-1
? 1
A
B
C
D
^
2�
2A
B
C
D
Avec horlogeSans horloge
A
B
C
D
Avec longueurs de branches
A
B
C
D
(2n − 5)!
2n−3(n − 2)!arbres non racinésdifférents
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••••••••◦
••
4/23
Qu’est-ce qu’un arbre?Topologie
Non raciné
4 feuillesA
B
C
D
A
C
B
D
3 feuillesA
B
C
2 feuilles
A B
Raciné
-1
? 1
A
B
C
D
^
2�
2A
B
C
D
Avec horlogeSans horloge
A
B
C
D
Avec longueurs de branches
A
B
C
D
(2n − 5)!
2n−3(n − 2)!arbres non racinésdifférents
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••◦
••
5/23
La reconstruction phylogénétique
Reconstruire l’histoireévolutive des données
Plusieurs scénariospossibles, plus ou moinsprobables
Evaluer la plausabilité d’unscénario
pour un site,pour un jeu de données.
1
2
3
4
5
G
G
G
A
A
G
G→A
"bon" site
1
2
3
4
5
C
T
C
C
T
C C→T
C→T
"mauvais" site
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••◦
••
5/23
La reconstruction phylogénétique
Reconstruire l’histoireévolutive des données
Plusieurs scénariospossibles, plus ou moinsprobables
Evaluer la plausabilité d’unscénario
pour un site,pour un jeu de données.
1
2
3
4
5
G
G
G
A
A
G
G→A
"bon" site
1
2
3
4
5
C
T
C
C
T
C C→T
C→T
"mauvais" site
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••◦
••
5/23
La reconstruction phylogénétique
Reconstruire l’histoireévolutive des données
Plusieurs scénariospossibles, plus ou moinsprobables
Evaluer la plausabilité d’unscénario
pour un site,pour un jeu de données.
1
2
3
4
5
G
G
G
A
A
G
G→A
"bon" site
1
2
3
4
5
C
T
C
C
T
C C→T
C→T
"mauvais" site
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••••◦
••
6/23
Hypothèses
Les sites évoluent majoritairement parsubstitutions (délétions, insertions, inversionsnon prises en compte)
Les sites évoluent indépendamment les unsdes autres
Tous les sites suivent un processus identique,et notamment:
Les sites évoluent à la même vitesse
La vitesse d’évolution est constante au coursdu temps (horloge moléculaire)
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••••◦
••
6/23
Hypothèses
Les sites évoluent majoritairement parsubstitutions (délétions, insertions, inversionsnon prises en compte)
Les sites évoluent indépendamment les unsdes autres
Tous les sites suivent un processus identique,et notamment:
Les sites évoluent à la même vitesse
La vitesse d’évolution est constante au coursdu temps (horloge moléculaire)
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••••◦
••
6/23
Hypothèses
Les sites évoluent majoritairement parsubstitutions (délétions, insertions, inversionsnon prises en compte)
Les sites évoluent indépendamment les unsdes autres
Tous les sites suivent un processus identique,et notamment:
Les sites évoluent à la même vitesse
La vitesse d’évolution est constante au coursdu temps (horloge moléculaire)
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••••◦
••
6/23
Hypothèses
Les sites évoluent majoritairement parsubstitutions (délétions, insertions, inversionsnon prises en compte)
Les sites évoluent indépendamment les unsdes autres
Tous les sites suivent un processus identique,et notamment:
Les sites évoluent à la même vitesse
La vitesse d’évolution est constante au coursdu temps (horloge moléculaire)
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••••◦
••
6/23
Hypothèses
Les sites évoluent majoritairement parsubstitutions (délétions, insertions, inversionsnon prises en compte)
Les sites évoluent indépendamment les unsdes autres
Tous les sites suivent un processus identique,et notamment:
Les sites évoluent à la même vitesse
La vitesse d’évolution est constante au coursdu temps (horloge moléculaire)
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••◦
••
7/23
Le maximum de parcimonie
a b c d e
1 X X X X X2 X Y Y X X3 Y X Y X Y4 Y Y X Y Z
A 1 2 2 1 2B 2 1 2 1 2C 2 2 1 1 2
3 topologies possibles
3 types de sites informatifs + sites non informatifsignorés
Pour un site on choisit le scénario le plusparcimonieux
La topologie en accord avec le maximum de sitesest retenue
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••◦
••
7/23
Le maximum de parcimonie
a b c d e
1 X X X X X2 X Y Y X X3 Y X Y X Y4 Y Y X Y Z
A 1 2 2 1 2B 2 1 2 1 2C 2 2 1 1 2
3 topologies possibles
3 types de sites informatifs + sites non informatifsignorés
Pour un site on choisit le scénario le plusparcimonieux
La topologie en accord avec le maximum de sitesest retenue
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••◦
••
7/23
Le maximum de parcimonie
a b c d e
1 X X X X X2 X Y Y X X3 Y X Y X Y4 Y Y X Y Z
A 1 2 2 1 2B 2 1 2 1 2C 2 2 1 1 2
3 topologies possibles
3 types de sites informatifs + sites non informatifsignorés
Pour un site on choisit le scénario le plusparcimonieux
La topologie en accord avec le maximum de sitesest retenue
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••◦
••
8/23
Les limites de la parcimonie
X
XX
??
21
3 4
a b c
1 X X X
2 X Y Y
3 Y X Y
4 Y Y X
Le ’bon’ site est leb : ((1, 3), (2, 4)), mais lessites de type a sont plusabondants
La parcimonie choisitl’arbre a
Utiliser l’information dessites non informatifs peutpermettre de résoudre leproblème
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••◦
••
8/23
Les limites de la parcimonie
X
XX
??
21
3 4
a b c d
1 X X X X
2 X Y Y X
3 Y X Y Y
4 Y Y X Z
Le ’bon’ site est leb : ((1, 3), (2, 4)), mais lessites de type a sont plusabondants
La parcimonie choisitl’arbre a
Utiliser l’information dessites non informatifs peutpermettre de résoudre leproblème
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••••◦
••
9/23
Maximum de vraisemblance
Méthode générale d’estimation de paramètres utilisée en
statistiques et qui possède de bonnes propriétés
On appelle vraisemblance (L, pour likelihood) des données
la probabilité d’obtenir ces données sous un modèle
sachant une combinaison de valeurs de paramètres
On choisit comme estimateurs des paramètres l’ensemble
des valeurs de paramètres qui maximise L
Suppose que l’on puisse définir un modèle et des
paramètres et que l’on puisse calculer la probabilité des
données sous le modèle. . .
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••••◦
••
9/23
Maximum de vraisemblance
Méthode générale d’estimation de paramètres utilisée en
statistiques et qui possède de bonnes propriétés
On appelle vraisemblance (L, pour likelihood) des données
la probabilité d’obtenir ces données sous un modèle
sachant une combinaison de valeurs de paramètres
On choisit comme estimateurs des paramètres l’ensemble
des valeurs de paramètres qui maximise L
Suppose que l’on puisse définir un modèle et des
paramètres et que l’on puisse calculer la probabilité des
données sous le modèle. . .
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••••◦
••
9/23
Maximum de vraisemblance
Méthode générale d’estimation de paramètres utilisée en
statistiques et qui possède de bonnes propriétés
On appelle vraisemblance (L, pour likelihood) des données
la probabilité d’obtenir ces données sous un modèle
sachant une combinaison de valeurs de paramètres
On choisit comme estimateurs des paramètres l’ensemble
des valeurs de paramètres qui maximise L
Suppose que l’on puisse définir un modèle et des
paramètres et que l’on puisse calculer la probabilité des
données sous le modèle. . .
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••••◦
••
9/23
Maximum de vraisemblance
Méthode générale d’estimation de paramètres utilisée en
statistiques et qui possède de bonnes propriétés
On appelle vraisemblance (L, pour likelihood) des données
la probabilité d’obtenir ces données sous un modèle
sachant une combinaison de valeurs de paramètres
On choisit comme estimateurs des paramètres l’ensemble
des valeurs de paramètres qui maximise L
Suppose que l’on puisse définir un modèle et des
paramètres et que l’on puisse calculer la probabilité des
données sous le modèle. . .
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••◦
••
10/23
Modèle Markovien d’évolution
L’état futur des séquences dépend exclusivement deleur état présent et non de leur histoire passée
Le processus est constant au cours du temps
On étudie les probabilités F (t) d’être dans chacun desétats à l’instant t:
F (t) =
a(t)
c(t)
g(t)
u(t)
= eM.t.F (0)
où M est une matrice con-tenant les différents tauxde substitutions.
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••◦
••
10/23
Modèle Markovien d’évolution
L’état futur des séquences dépend exclusivement deleur état présent et non de leur histoire passée
Le processus est constant au cours du temps
On étudie les probabilités F (t) d’être dans chacun desétats à l’instant t:
F (t) =
a(t)
c(t)
g(t)
u(t)
= eM.t.F (0)
où M est une matrice con-tenant les différents tauxde substitutions.
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••◦
••
11/23
Matrices de substitutions
A G
C U
rAG
rGA
rCU
rUC
rAC
rCA
rUG
rGUrAU
rUA rCG
rGC
A G
C U
s1
s2
v4
v1
v 3
v2
0
B
B
B
B
B
@
rAA rCA rGA rUA
rAC rCC rGC rUC
rAG rCG rGG rUG
rAU rCU rGU rUU
1
C
C
C
C
C
A
Reversibilite=⇒
0
B
B
B
B
B
@
rAA πAv1 πAs1 πAv2
πCv1 rCCπCv3 πCs2
πGs1 πGv3 rGG πGv4
πUv2 πUs2 πUv4 rUU
1
C
C
C
C
C
A
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••◦
••
11/23
Matrices de substitutions
A G
C U
rAG
rGA
rCU
rUC
rAC
rCA
rUG
rGUrAU
rUA rCG
rGC
A G
C U
s1
s2
v4
v1
v 3
v2
0
B
B
B
B
B
@
rAA rCA rGA rUA
rAC rCC rGC rUC
rAG rCG rGG rUG
rAU rCU rGU rUU
1
C
C
C
C
C
A
Reversibilite=⇒
0
B
B
B
B
B
@
rAA πAv1 πAs1 πAv2
πCv1 rCCπCv3 πCs2
πGs1 πGv3 rGG πGv4
πUv2 πUs2 πUv4 rUU
1
C
C
C
C
C
A
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••◦
••
12/23
Matrices de substitutions (2)
Modèle Auteurs Paramètres
JC69 Jukes Cantor 1 taux de substitution
K80 Kimura 1 taux pour les transitions, 1 pour lestransversions
K81 Kimura 1 taux pour les transitions, 2 pour lestransversions
F81=TN84 Felsenstein, Tajima et Nei 1 taux de substitution et 3 fréquences
HKY85 Hasegawa, Kishino et Yano 1 taux pour les transitions, 1 pour lestransversions et 3 fréquences
TN93 Tamura et Nei 1 taux pour les transitions, 2 pour lestransversions et 3 fréquences
Z94 Zharkikh 6 taux de substitutions
T92 Tamura 1 taux pour les transitions, 1 pour lestransversions et 1 taux de GC
GTR "General time reversible" 6 taux de substitution et 3 fréquencesLaboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••◦
••
13/23
Matrices de substitutions (3)
JC69 K80 K81 Z94 πA = πU = πG = πC
TN84 HKY85 TN93 GTR πA, πU, πG, πC
T92
πA = πU
πG = πC
1 paramètre 2 paramètres 3 paramètres 6 paramètres
3 paramètres
4 paramètres 5 paramètres 9 paramètres6 paramètres
v1 = v2 = v3 = v4
s1 = s2
v1 = v4
v2 = v3
s1 = s2
v1, v2, v3, v4
s1, s2
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••••◦
••
14/23
Le cas des protéines
Matrice 20 × 20 au lieu 4 × 4
On utilise des taux de substitutions observés sur des
alignements de familles de protéines (approche empirique):
Dayhoff 1978, 71 familles (> 85% d’identité), soit 1300
séquences
Jones et al (JTT) 1992 (mise à jour) 2600 familles soit
16130 séquences
Autres jeux de données plus restrictifs (protéines
membranaires, mitochondriales, etc)
Possibilité d’évaluer la matrice pour un jeu de données
particulier
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••••◦
••
14/23
Le cas des protéines
Matrice 20 × 20 au lieu 4 × 4
On utilise des taux de substitutions observés sur des
alignements de familles de protéines (approche empirique):
Dayhoff 1978, 71 familles (> 85% d’identité), soit 1300
séquences
Jones et al (JTT) 1992 (mise à jour) 2600 familles soit
16130 séquences
Autres jeux de données plus restrictifs (protéines
membranaires, mitochondriales, etc)
Possibilité d’évaluer la matrice pour un jeu de données
particulier
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••••◦
••
14/23
Le cas des protéines
Matrice 20 × 20 au lieu 4 × 4
On utilise des taux de substitutions observés sur des
alignements de familles de protéines (approche empirique):
Dayhoff 1978, 71 familles (> 85% d’identité), soit 1300
séquences
Jones et al (JTT) 1992 (mise à jour) 2600 familles soit
16130 séquences
Autres jeux de données plus restrictifs (protéines
membranaires, mitochondriales, etc)
Possibilité d’évaluer la matrice pour un jeu de données
particulier
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••••◦
••
14/23
Le cas des protéines
Matrice 20 × 20 au lieu 4 × 4
On utilise des taux de substitutions observés sur des
alignements de familles de protéines (approche empirique):
Dayhoff 1978, 71 familles (> 85% d’identité), soit 1300
séquences
Jones et al (JTT) 1992 (mise à jour) 2600 familles soit
16130 séquences
Autres jeux de données plus restrictifs (protéines
membranaires, mitochondriales, etc)
Possibilité d’évaluer la matrice pour un jeu de données
particulier
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••••◦
••
14/23
Le cas des protéines
Matrice 20 × 20 au lieu 4 × 4
On utilise des taux de substitutions observés sur des
alignements de familles de protéines (approche empirique):
Dayhoff 1978, 71 familles (> 85% d’identité), soit 1300
séquences
Jones et al (JTT) 1992 (mise à jour) 2600 familles soit
16130 séquences
Autres jeux de données plus restrictifs (protéines
membranaires, mitochondriales, etc)
Possibilité d’évaluer la matrice pour un jeu de données
particulier
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••◦
••
15/23
Evolution le long d’un arbre
Taxon 1
Taxon 2
Taxon 3
Taxon 4
Taxon 5
l1
l2
l3
l4
l5l6
l7l8
N1
N2
N3
N4
Homogénéité Le modèle est lemême dans chaquebranche
Stationnarité Les fréquencesde chaque état sont lesmêmes en tout point del’arbre et égales auxfréquences d’équilibre
Chaque longueur de branche est un paramètre
La topologie est un paramètre non numériqueLaboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••◦
••
15/23
Evolution le long d’un arbre
Taxon 1
Taxon 2
Taxon 3
Taxon 4
Taxon 5
l1
l2
l3
l4
l5l6
l7l8
N1
N2
N3
N4
Homogénéité Le modèle est lemême dans chaquebranche
Stationnarité Les fréquencesde chaque état sont lesmêmes en tout point del’arbre et égales auxfréquences d’équilibre
Chaque longueur de branche est un paramètre
La topologie est un paramètre non numériqueLaboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••◦
••
16/23
Calcul de vraisemblance
Introduit par Felsenstein en 1981
Défini de manière récursive, en racinant l’arbre
Les états ancestraux étant inconnus, on intègre surtous les états possibles
Pour chaque site i, on note xi,n l’état au noeud n, les étatsau niveau des feuilles correspondant à ceux desséquences.On note Tn le sous-arbre défini par le noeud Nn, etLi(Tn, xi,n) la vraisemblance de Tn sachant l’état xi,n.
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••◦
••
16/23
Calcul de vraisemblance
Introduit par Felsenstein en 1981
Défini de manière récursive, en racinant l’arbre
Les états ancestraux étant inconnus, on intègre surtous les états possibles
Pour chaque site i, on note xi,n l’état au noeud n, les étatsau niveau des feuilles correspondant à ceux desséquences.On note Tn le sous-arbre défini par le noeud Nn, etLi(Tn, xi,n) la vraisemblance de Tn sachant l’état xi,n.
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••◦
••
17/23
Calcul de vraisemblance (2)
On a:
Li(Tn, xn) =8
>
>
>
>
>
<
>
>
>
>
>
:
1 si Tn est une feuille portant l’état xn au site considéré
0 si Tn est une feuille portant un état 6= xn au site considéré0
@
X
xn1
pxn,xn1(tn1) × Li(Tn1, xn1)
1
A
0
@
X
xn2
pxn,xn2(tn2) × Li(Tn2, xn2)
1
A sinon.
n1 et n2 désignent les noeuds fils du noeud courant.Les pxn,xn1
et pxn,xn2sont donnés par l’exponentielle de la matrice de substitution.
La vraisemblance de l’arbre pour le site i s’écrit:
Li(T ) =∑
x
Li(T, x) × πx
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••◦
••
17/23
Calcul de vraisemblance (2)
On a:
Li(Tn, xn) =8
>
>
>
>
>
<
>
>
>
>
>
:
1 si Tn est une feuille portant l’état xn au site considéré
0 si Tn est une feuille portant un état 6= xn au site considéré0
@
X
xn1
pxn,xn1(tn1) × Li(Tn1, xn1)
1
A
0
@
X
xn2
pxn,xn2(tn2) × Li(Tn2, xn2)
1
A sinon.
n1 et n2 désignent les noeuds fils du noeud courant.Les pxn,xn1
et pxn,xn2sont donnés par l’exponentielle de la matrice de substitution.
La vraisemblance de l’arbre pour le site i s’écrit:
Li(T ) =∑
x
Li(T, x) × πx
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••◦
••
18/23
Calcul de vraisemblance (3)
Les sites étant supposés indépendants, on a
L(T ) =∏
i
Li(T )
Calcul long, qui croît:
linéairement avec le nombre de sites,
linéairement avec le nombre d’espèces.
Méthodes ’traditionnelles’ d’optimisation pour les
paramètres numériques.
Nécessité de méthodes particulières pour le paramètre
topologique, impossibilité de faire une recherche exhaustive.
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••◦
••
18/23
Calcul de vraisemblance (3)
Les sites étant supposés indépendants, on a
L(T ) =∏
i
Li(T )
Calcul long, qui croît:
linéairement avec le nombre de sites,
linéairement avec le nombre d’espèces.
Méthodes ’traditionnelles’ d’optimisation pour les
paramètres numériques.
Nécessité de méthodes particulières pour le paramètre
topologique, impossibilité de faire une recherche exhaustive.
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••◦
••
18/23
Calcul de vraisemblance (3)
Les sites étant supposés indépendants, on a
L(T ) =∏
i
Li(T )
Calcul long, qui croît:
linéairement avec le nombre de sites,
linéairement avec le nombre d’espèces.
Méthodes ’traditionnelles’ d’optimisation pour les
paramètres numériques.
Nécessité de méthodes particulières pour le paramètre
topologique, impossibilité de faire une recherche exhaustive.Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••◦
••
19/23
Variations de vitesses entre sites
Densité
f(x) =λr
Γ(r)x(r−1)e−λx
avec λ =forme et r =échelle.
Li(T ) =
∞∫
0
f(r).L(T |r)dr
Version discrétisée (plus rapide):
Li(T ) =∑
c=1..n
Pr(r = rc).L(T |r)dr
Distribution gamma des
vitesses pour différentes
valeurs de forme (r = 1):
x
y0.0
0.1
0.2
0.3
0.4
0.5
0 1 2 3 4 5 6
0.10.250.511.523
ooooooo
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••◦
••
20/23
Variations au cours du temps
Vitesse constante entre sites
Site 1 Site 2 Site 3
Vitesse variable entre sites
Site 1 Site 2 Site 3
Vitesse variable au sein des sites
Site 1 Site 2 Site 3
⇓
A C G U
ACGU
M
r1 r2 r3
A C G U A C G U A C G U
ACGUACGUACGU
M.r1
M.r2
M.r3
νν
νν
νν
νν
νν
νν
νν
νν
νν
νν
νν
νν
r1
r2
r3
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••◦
••
20/23
Variations au cours du temps
Vitesse constante entre sites
Site 1 Site 2 Site 3
Vitesse variable entre sites
Site 1 Site 2 Site 3
Vitesse variable au sein des sites
Site 1 Site 2 Site 3
⇓
A C G U
ACGU
M
r1 r2 r3
A C G U A C G U A C G U
ACGUACGUACGU
M.r1
M.r2
M.r3
νν
νν
νν
νν
νν
νν
νν
νν
νν
νν
νν
νν
r1
r2
r3
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••◦
••
21/23
Non-indépendance
Pas de modèle général, mais
Corrélations de vitesses
Cas des tiges d’ARNr et ARNt
Autre approche: utiliser l’hypothèse d’indépendancecomme hypothèse nulle pour détecter des sites quicoévoluent ⇒ prédiction de structure
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦••◦
••
21/23
Non-indépendance
Pas de modèle général, mais
Corrélations de vitesses
Cas des tiges d’ARNr et ARNt
Autre approche: utiliser l’hypothèse d’indépendancecomme hypothèse nulle pour détecter des sites quicoévoluent ⇒ prédiction de structure
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••◦
••
22/23
Le Likelihood Ratio Test (LRT)
Modèles emboîtés: le modèle 1 (p paramètres) est un cas
particulier du modèle 2 (p + n paramètres)
Compromis: plus on augmente le nombre de paramètres,
plus on "colle" aux données mais plus la variance des
estimateurs est grande.
On peut tester si le(s) paramètre(s) supplémentaire(s)
améliore(nt) significativement l’ajustement aux données:
L(M2)
L(M1)� χ2
n
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••◦
••
22/23
Le Likelihood Ratio Test (LRT)
Modèles emboîtés: le modèle 1 (p paramètres) est un cas
particulier du modèle 2 (p + n paramètres)
Compromis: plus on augmente le nombre de paramètres,
plus on "colle" aux données mais plus la variance des
estimateurs est grande.
On peut tester si le(s) paramètre(s) supplémentaire(s)
améliore(nt) significativement l’ajustement aux données:
L(M2)
L(M1)� χ2
n
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••◦
••
22/23
Le Likelihood Ratio Test (LRT)
Modèles emboîtés: le modèle 1 (p paramètres) est un cas
particulier du modèle 2 (p + n paramètres)
Compromis: plus on augmente le nombre de paramètres,
plus on "colle" aux données mais plus la variance des
estimateurs est grande.
On peut tester si le(s) paramètre(s) supplémentaire(s)
améliore(nt) significativement l’ajustement aux données:
L(M2)
L(M1)� χ2
n
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••••◦
••
23/23
L’inférence bayesienne
Bayesien Une branche des statistiques qui se focalise sur les
probabilités postérieures des hypothèses. La probabilité
postérieure est proportionnelle au produit de la probabilité a
priori et de la vraisemblance (Holder 2003).
Plus rapide que le maximum de vraisemblance.
Mesure de confiance intégrée: probabilitépostérieure de chaque valeur de paramètre.
Joint/Marginal: N’utilise pas une valeur pour unestimateur mais un ensemble de valeurs avec leursprobabilités respectives.
Problème de la définition des probabilités a priori (pri-ors).
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••••◦
••
23/23
L’inférence bayesienne
Bayesien Une branche des statistiques qui se focalise sur les
probabilités postérieures des hypothèses. La probabilité
postérieure est proportionnelle au produit de la probabilité a
priori et de la vraisemblance (Holder 2003).
Plus rapide que le maximum de vraisemblance.
Mesure de confiance intégrée: probabilitépostérieure de chaque valeur de paramètre.
Joint/Marginal: N’utilise pas une valeur pour unestimateur mais un ensemble de valeurs avec leursprobabilités respectives.
Problème de la définition des probabilités a priori (pri-ors).
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••••◦
••
23/23
L’inférence bayesienne
Bayesien Une branche des statistiques qui se focalise sur les
probabilités postérieures des hypothèses. La probabilité
postérieure est proportionnelle au produit de la probabilité a
priori et de la vraisemblance (Holder 2003).
Plus rapide que le maximum de vraisemblance.
Mesure de confiance intégrée: probabilitépostérieure de chaque valeur de paramètre.
Joint/Marginal: N’utilise pas une valeur pour unestimateur mais un ensemble de valeurs avec leursprobabilités respectives.
Problème de la définition des probabilités a priori (pri-ors).
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••••◦
••
23/23
L’inférence bayesienne
Bayesien Une branche des statistiques qui se focalise sur les
probabilités postérieures des hypothèses. La probabilité
postérieure est proportionnelle au produit de la probabilité a
priori et de la vraisemblance (Holder 2003).
Plus rapide que le maximum de vraisemblance.
Mesure de confiance intégrée: probabilitépostérieure de chaque valeur de paramètre.
Joint/Marginal: N’utilise pas une valeur pour unestimateur mais un ensemble de valeurs avec leursprobabilités respectives.
Problème de la définition des probabilités a priori (pri-ors).
Laboratoire Génome, populations, interactions, adaptation – UMR 5171
◦•••••◦
••
23/23
L’inférence bayesienne
Bayesien Une branche des statistiques qui se focalise sur les
probabilités postérieures des hypothèses. La probabilité
postérieure est proportionnelle au produit de la probabilité a
priori et de la vraisemblance (Holder 2003).
Plus rapide que le maximum de vraisemblance.
Mesure de confiance intégrée: probabilitépostérieure de chaque valeur de paramètre.
Joint/Marginal: N’utilise pas une valeur pour unestimateur mais un ensemble de valeurs avec leursprobabilités respectives.
Problème de la définition des probabilités a priori (pri-ors).
Laboratoire Génome, populations, interactions, adaptation – UMR 5171