L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en...

••

L’inférence statistique enphylogénie moléculaire:

l’approche "maximum devraisemblance"

Julien Dutheil

[email protected]

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

◦••◦

••

La phylogénie et ses applications.

Arbre phylogénétique Un graphe représentant les relations

ancêtres/descendants entre des organismes ou des

séquences. Les séquences correspondent aux feuilles de

l’arbre. Les branches de l’arbre relient les feuilles à leurs

séquences ancestrales (non observables) (Holder 2003).

Quelques applications:

Détecter l’orthologie et la paralogie.

Estimer des temps de divergence.

Reconstruire des protéines ancestrales.

Mettre en évidence les sites sous sélection.

◦••◦

••

La phylogénie et ses applications.

Arbre phylogénétique Un graphe représentant les relations

ancêtres/descendants entre des organismes ou des

séquences. Les séquences correspondent aux feuilles de

l’arbre. Les branches de l’arbre relient les feuilles à leurs

séquences ancestrales (non observables) (Holder 2003).

Quelques applications:

Détecter l’orthologie et la paralogie.

Estimer des temps de divergence.

Reconstruire des protéines ancestrales.

Mettre en évidence les sites sous sélection.

◦•••••◦

••

Des séquences aux arbres

Taxon 1 AAGACATGTGGCA

Taxon 2 AGGAC-TGTGGCA

Taxon 3 AGTAC-TGTGA-A

Taxon 4 AGCAC-TGTG--T

Taxon 5 AGCACATGTGA-A

Taxon 1Taxon 2

Taxon 3

Taxon 4Taxon 5

Positions homologues alignées: sites

Chaque site est une réalisation d’une variablealéatoire

◦•••••◦

••

Des séquences aux arbresTaxon 1 AAGACATGTGGCA

Taxon 1Taxon 2

Taxon 3

Taxon 4Taxon 5

◦•••••◦

••

Taxon 1Taxon 2

Taxon 3

Taxon 4Taxon 5

◦•••••◦

••

Taxon 1Taxon 2

Taxon 3

Taxon 4Taxon 5

◦•••••◦

••

Taxon 1Taxon 2

Taxon 3

Taxon 4Taxon 5

◦••••••••◦

••

Qu’est-ce qu’un arbre?Topologie

Non raciné

4 feuillesA

3 feuillesA

2 feuilles

Raciné

Avec horlogeSans horloge

Avec longueurs de branches

(2n − 5)!

2n−3(n − 2)!arbres non racinésdifférents

◦••••••••◦

••

Non raciné

4 feuillesA

3 feuillesA

2 feuilles

Raciné

(2n − 5)!

◦••••••••◦

••

Non raciné

4 feuillesA

3 feuillesA

2 feuilles

Raciné

(2n − 5)!

◦••••••••◦

••

Non raciné

4 feuillesA

3 feuillesA

2 feuilles

Raciné

(2n − 5)!

◦••••••••◦

••

Non raciné

4 feuillesA

3 feuillesA

2 feuilles

Raciné

(2n − 5)!

◦••••••••◦

••

Non raciné

4 feuillesA

3 feuillesA

2 feuilles

Raciné

(2n − 5)!

◦••••••••◦

••

Non raciné

4 feuillesA

3 feuillesA

2 feuilles

Raciné

(2n − 5)!

◦••••••••◦

••

Non raciné

4 feuillesA

3 feuillesA

2 feuilles

Raciné

(2n − 5)!

◦•••◦

••

La reconstruction phylogénétique

Reconstruire l’histoireévolutive des données

Plusieurs scénariospossibles, plus ou moinsprobables

Evaluer la plausabilité d’unscénario

pour un site,pour un jeu de données.

"bon" site

C C→T

"mauvais" site

◦•••◦

••

"bon" site

C C→T

"mauvais" site

◦•••◦

••

"bon" site

C C→T

"mauvais" site

◦•••••◦

••

Hypothèses

Les sites évoluent majoritairement parsubstitutions (délétions, insertions, inversionsnon prises en compte)

Les sites évoluent indépendamment les unsdes autres

Tous les sites suivent un processus identique,et notamment:

Les sites évoluent à la même vitesse

La vitesse d’évolution est constante au coursdu temps (horloge moléculaire)

◦•••••◦

••

Hypothèses

◦•••••◦

••

Hypothèses

◦•••••◦

••

Hypothèses

◦•••••◦

••

Hypothèses

◦•••◦

••

Le maximum de parcimonie

a b c d e

1 X X X X X2 X Y Y X X3 Y X Y X Y4 Y Y X Y Z

A 1 2 2 1 2B 2 1 2 1 2C 2 2 1 1 2

3 topologies possibles

3 types de sites informatifs + sites non informatifsignorés

Pour un site on choisit le scénario le plusparcimonieux

La topologie en accord avec le maximum de sitesest retenue

◦•••◦

••

a b c d e

A 1 2 2 1 2B 2 1 2 1 2C 2 2 1 1 2

◦•••◦

••

a b c d e

A 1 2 2 1 2B 2 1 2 1 2C 2 2 1 1 2

◦••◦

••

Les limites de la parcimonie

1 X X X

2 X Y Y

3 Y X Y

4 Y Y X

Le ’bon’ site est leb : ((1, 3), (2, 4)), mais lessites de type a sont plusabondants

La parcimonie choisitl’arbre a

Utiliser l’information dessites non informatifs peutpermettre de résoudre leproblème

◦••◦

••

Les limites de la parcimonie

a b c d

1 X X X X

2 X Y Y X

3 Y X Y Y

4 Y Y X Z

Le ’bon’ site est leb : ((1, 3), (2, 4)), mais lessites de type a sont plusabondants

La parcimonie choisitl’arbre a

Utiliser l’information dessites non informatifs peutpermettre de résoudre leproblème

◦••••◦

••

Maximum de vraisemblance

Méthode générale d’estimation de paramètres utilisée en

statistiques et qui possède de bonnes propriétés

On appelle vraisemblance (L, pour likelihood) des données

la probabilité d’obtenir ces données sous un modèle

sachant une combinaison de valeurs de paramètres

On choisit comme estimateurs des paramètres l’ensemble

des valeurs de paramètres qui maximise L

Suppose que l’on puisse définir un modèle et des

paramètres et que l’on puisse calculer la probabilité des

données sous le modèle. . .

◦••••◦

••

◦••••◦

••

◦••••◦

••

◦••◦

••

Modèle Markovien d’évolution

L’état futur des séquences dépend exclusivement deleur état présent et non de leur histoire passée

Le processus est constant au cours du temps

On étudie les probabilités F (t) d’être dans chacun desétats à l’instant t:

F (t) =

= eM.t.F (0)

où M est une matrice con-tenant les différents tauxde substitutions.

◦••◦

••

Modèle Markovien d’évolution

L’état futur des séquences dépend exclusivement deleur état présent et non de leur histoire passée

Le processus est constant au cours du temps

On étudie les probabilités F (t) d’être dans chacun desétats à l’instant t:

F (t) =

= eM.t.F (0)

où M est une matrice con-tenant les différents tauxde substitutions.

◦••◦

••

Matrices de substitutions

rGUrAU

rUA rCG

rAA rCA rGA rUA

rAC rCC rGC rUC

rAG rCG rGG rUG

rAU rCU rGU rUU

Reversibilite=⇒

rAA πAv1 πAs1 πAv2

πCv1 rCCπCv3 πCs2

πGs1 πGv3 rGG πGv4

πUv2 πUs2 πUv4 rUU

◦••◦

••

Matrices de substitutions

rGUrAU

rUA rCG

rAA rCA rGA rUA

rAC rCC rGC rUC

rAG rCG rGG rUG

rAU rCU rGU rUU

Reversibilite=⇒

rAA πAv1 πAs1 πAv2

πCv1 rCCπCv3 πCs2

πGs1 πGv3 rGG πGv4

πUv2 πUs2 πUv4 rUU

◦••◦

••

Matrices de substitutions (2)

Modèle Auteurs Paramètres

JC69 Jukes Cantor 1 taux de substitution

K80 Kimura 1 taux pour les transitions, 1 pour lestransversions

K81 Kimura 1 taux pour les transitions, 2 pour lestransversions

F81=TN84 Felsenstein, Tajima et Nei 1 taux de substitution et 3 fréquences

HKY85 Hasegawa, Kishino et Yano 1 taux pour les transitions, 1 pour lestransversions et 3 fréquences

TN93 Tamura et Nei 1 taux pour les transitions, 2 pour lestransversions et 3 fréquences

Z94 Zharkikh 6 taux de substitutions

T92 Tamura 1 taux pour les transitions, 1 pour lestransversions et 1 taux de GC

GTR "General time reversible" 6 taux de substitution et 3 fréquencesLaboratoire Génome, populations, interactions, adaptation – UMR 5171

◦••◦

••

Matrices de substitutions (3)

JC69 K80 K81 Z94 πA = πU = πG = πC

TN84 HKY85 TN93 GTR πA, πU, πG, πC

πA = πU

πG = πC

1 paramètre 2 paramètres 3 paramètres 6 paramètres

3 paramètres

4 paramètres 5 paramètres 9 paramètres6 paramètres

v1 = v2 = v3 = v4

s1 = s2

v1 = v4

v2 = v3

s1 = s2

v1, v2, v3, v4

s1, s2

◦•••••◦

••

Le cas des protéines

Matrice 20 × 20 au lieu 4 × 4

On utilise des taux de substitutions observés sur des

alignements de familles de protéines (approche empirique):

Dayhoff 1978, 71 familles (> 85% d’identité), soit 1300

séquences

Jones et al (JTT) 1992 (mise à jour) 2600 familles soit

16130 séquences

Autres jeux de données plus restrictifs (protéines

membranaires, mitochondriales, etc)

Possibilité d’évaluer la matrice pour un jeu de données

particulier

◦•••••◦

••

séquences

16130 séquences

particulier

◦•••••◦

••

séquences

16130 séquences

particulier

◦•••••◦

••

séquences

16130 séquences

particulier

◦•••••◦

••

séquences

16130 séquences

particulier

◦••◦

••

Evolution le long d’un arbre

Taxon 1

Taxon 2

Taxon 3

Taxon 4

Taxon 5

Homogénéité Le modèle est lemême dans chaquebranche

Stationnarité Les fréquencesde chaque état sont lesmêmes en tout point del’arbre et égales auxfréquences d’équilibre

Chaque longueur de branche est un paramètre

La topologie est un paramètre non numériqueLaboratoire Génome, populations, interactions, adaptation – UMR 5171

◦••◦

••

Evolution le long d’un arbre

Taxon 1

Taxon 2

Taxon 3

Taxon 4

Taxon 5

Homogénéité Le modèle est lemême dans chaquebranche

Stationnarité Les fréquencesde chaque état sont lesmêmes en tout point del’arbre et égales auxfréquences d’équilibre

Chaque longueur de branche est un paramètre

La topologie est un paramètre non numériqueLaboratoire Génome, populations, interactions, adaptation – UMR 5171

◦••◦

••

Calcul de vraisemblance

Introduit par Felsenstein en 1981

Défini de manière récursive, en racinant l’arbre

Les états ancestraux étant inconnus, on intègre surtous les états possibles

Pour chaque site i, on note xi,n l’état au noeud n, les étatsau niveau des feuilles correspondant à ceux desséquences.On note Tn le sous-arbre défini par le noeud Nn, etLi(Tn, xi,n) la vraisemblance de Tn sachant l’état xi,n.

◦••◦

••

Calcul de vraisemblance

Introduit par Felsenstein en 1981

Défini de manière récursive, en racinant l’arbre

Les états ancestraux étant inconnus, on intègre surtous les états possibles

Pour chaque site i, on note xi,n l’état au noeud n, les étatsau niveau des feuilles correspondant à ceux desséquences.On note Tn le sous-arbre défini par le noeud Nn, etLi(Tn, xi,n) la vraisemblance de Tn sachant l’état xi,n.

◦••◦

••

Calcul de vraisemblance (2)

Li(Tn, xn) =8

1 si Tn est une feuille portant l’état xn au site considéré

0 si Tn est une feuille portant un état 6= xn au site considéré0

pxn,xn1(tn1) × Li(Tn1, xn1)

A sinon.

n1 et n2 désignent les noeuds fils du noeud courant.Les pxn,xn1

et pxn,xn2sont donnés par l’exponentielle de la matrice de substitution.

La vraisemblance de l’arbre pour le site i s’écrit:

Li(T ) =∑

Li(T, x) × πx

◦••◦

••

Li(Tn, xn) =8

1 si Tn est une feuille portant l’état xn au site considéré

0 si Tn est une feuille portant un état 6= xn au site considéré0

A sinon.

n1 et n2 désignent les noeuds fils du noeud courant.Les pxn,xn1

et pxn,xn2sont donnés par l’exponentielle de la matrice de substitution.

La vraisemblance de l’arbre pour le site i s’écrit:

Li(T ) =∑

Li(T, x) × πx

◦•••◦

••

Les sites étant supposés indépendants, on a

L(T ) =∏

Li(T )

Calcul long, qui croît:

linéairement avec le nombre de sites,

linéairement avec le nombre d’espèces.

Méthodes ’traditionnelles’ d’optimisation pour les

paramètres numériques.

Nécessité de méthodes particulières pour le paramètre

topologique, impossibilité de faire une recherche exhaustive.

◦•••◦

••

L(T ) =∏

Li(T )

topologique, impossibilité de faire une recherche exhaustive.

◦•••◦

••

L(T ) =∏

Li(T )

topologique, impossibilité de faire une recherche exhaustive.Laboratoire Génome, populations, interactions, adaptation – UMR 5171

◦•••◦

••

Variations de vitesses entre sites

Densité

f(x) =λr

Γ(r)x(r−1)e−λx

avec λ =forme et r =échelle.

Li(T ) =

∞∫

f(r).L(T |r)dr

Version discrétisée (plus rapide):

Li(T ) =∑

c=1..n

Pr(r = rc).L(T |r)dr

Distribution gamma des

vitesses pour différentes

valeurs de forme (r = 1):

0 1 2 3 4 5 6

0.10.250.511.523

ooooooo

◦••◦

••

Variations au cours du temps

Vitesse constante entre sites

Site 1 Site 2 Site 3

Vitesse variable entre sites

Vitesse variable au sein des sites

A C G U

r1 r2 r3

A C G U A C G U A C G U

ACGUACGUACGU

◦••◦

••

Variations au cours du temps

Vitesse constante entre sites

Vitesse variable entre sites

Vitesse variable au sein des sites

A C G U

r1 r2 r3

A C G U A C G U A C G U

ACGUACGUACGU

◦••◦

••

Non-indépendance

Pas de modèle général, mais

Corrélations de vitesses

Cas des tiges d’ARNr et ARNt

Autre approche: utiliser l’hypothèse d’indépendancecomme hypothèse nulle pour détecter des sites quicoévoluent ⇒ prédiction de structure

◦••◦

••

Non-indépendance

Pas de modèle général, mais

Corrélations de vitesses

Cas des tiges d’ARNr et ARNt

Autre approche: utiliser l’hypothèse d’indépendancecomme hypothèse nulle pour détecter des sites quicoévoluent ⇒ prédiction de structure

◦•••◦

••

Le Likelihood Ratio Test (LRT)

Modèles emboîtés: le modèle 1 (p paramètres) est un cas

particulier du modèle 2 (p + n paramètres)

Compromis: plus on augmente le nombre de paramètres,

plus on "colle" aux données mais plus la variance des

estimateurs est grande.

On peut tester si le(s) paramètre(s) supplémentaire(s)

améliore(nt) significativement l’ajustement aux données:

L(M1)� χ2

◦•••◦

••

L(M1)� χ2

◦•••◦

••

L(M1)� χ2

◦•••••◦

••

L’inférence bayesienne

Bayesien Une branche des statistiques qui se focalise sur les

probabilités postérieures des hypothèses. La probabilité

postérieure est proportionnelle au produit de la probabilité a

priori et de la vraisemblance (Holder 2003).

Plus rapide que le maximum de vraisemblance.

Mesure de confiance intégrée: probabilitépostérieure de chaque valeur de paramètre.

Joint/Marginal: N’utilise pas une valeur pour unestimateur mais un ensemble de valeurs avec leursprobabilités respectives.

Problème de la définition des probabilités a priori (pri-ors).

◦•••••◦

••

◦•••••◦

••

◦•••••◦

••

◦•••••◦

••

L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en...

Documents

Transcript of L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en...