L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en...

66
•• L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil [email protected] Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Transcript of L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en...

Page 1: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

••

L’inférence statistique enphylogénie moléculaire:

l’approche "maximum devraisemblance"

Julien Dutheil

[email protected]

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 2: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••◦

••

2/23

La phylogénie et ses applications.

Arbre phylogénétique Un graphe représentant les relations

ancêtres/descendants entre des organismes ou des

séquences. Les séquences correspondent aux feuilles de

l’arbre. Les branches de l’arbre relient les feuilles à leurs

séquences ancestrales (non observables) (Holder 2003).

Quelques applications:

Détecter l’orthologie et la paralogie.

Estimer des temps de divergence.

Reconstruire des protéines ancestrales.

Mettre en évidence les sites sous sélection.

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 3: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••◦

••

2/23

La phylogénie et ses applications.

Arbre phylogénétique Un graphe représentant les relations

ancêtres/descendants entre des organismes ou des

séquences. Les séquences correspondent aux feuilles de

l’arbre. Les branches de l’arbre relient les feuilles à leurs

séquences ancestrales (non observables) (Holder 2003).

Quelques applications:

Détecter l’orthologie et la paralogie.

Estimer des temps de divergence.

Reconstruire des protéines ancestrales.

Mettre en évidence les sites sous sélection.

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 4: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••••◦

••

3/23

Des séquences aux arbres

Taxon 1 AAGACATGTGGCA

Taxon 2 AGGAC-TGTGGCA

Taxon 3 AGTAC-TGTGA-A

Taxon 4 AGCAC-TGTG--T

Taxon 5 AGCACATGTGA-A

Site

z

Taxon 1Taxon 2

Taxon 3

Taxon 4Taxon 5

Positions homologues alignées: sites

Chaque site est une réalisation d’une variablealéatoire

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 5: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••••◦

••

3/23

Des séquences aux arbresTaxon 1 AAGACATGTGGCA

Taxon 2 AGGAC-TGTGGCA

Taxon 3 AGTAC-TGTGA-A

Taxon 4 AGCAC-TGTG--T

Taxon 5 AGCACATGTGA-A

Site

z

Taxon 1Taxon 2

Taxon 3

Taxon 4Taxon 5

Positions homologues alignées: sites

Chaque site est une réalisation d’une variablealéatoire

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 6: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••••◦

••

3/23

Des séquences aux arbresTaxon 1 AAGACATGTGGCA

Taxon 2 AGGAC-TGTGGCA

Taxon 3 AGTAC-TGTGA-A

Taxon 4 AGCAC-TGTG--T

Taxon 5 AGCACATGTGA-A

Site

z

Taxon 1Taxon 2

Taxon 3

Taxon 4Taxon 5

Positions homologues alignées: sites

Chaque site est une réalisation d’une variablealéatoire

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 7: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••••◦

••

3/23

Des séquences aux arbresTaxon 1 AAGACATGTGGCA

Taxon 2 AGGAC-TGTGGCA

Taxon 3 AGTAC-TGTGA-A

Taxon 4 AGCAC-TGTG--T

Taxon 5 AGCACATGTGA-A

Site

z

Taxon 1Taxon 2

Taxon 3

Taxon 4Taxon 5

Positions homologues alignées: sites

Chaque site est une réalisation d’une variablealéatoire

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 8: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••••◦

••

3/23

Des séquences aux arbresTaxon 1 AAGACATGTGGCA

Taxon 2 AGGAC-TGTGGCA

Taxon 3 AGTAC-TGTGA-A

Taxon 4 AGCAC-TGTG--T

Taxon 5 AGCACATGTGA-A

Site

z

Taxon 1Taxon 2

Taxon 3

Taxon 4Taxon 5

Positions homologues alignées: sites

Chaque site est une réalisation d’une variablealéatoire

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 9: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••••••••◦

••

4/23

Qu’est-ce qu’un arbre?Topologie

Non raciné

4 feuillesA

B

C

D

A

C

B

D

3 feuillesA

B

C

2 feuilles

A B

Raciné

-1

? 1

A

B

C

D

^

2�

2A

B

C

D

Avec horlogeSans horloge

A

B

C

D

Avec longueurs de branches

A

B

C

D

(2n − 5)!

2n−3(n − 2)!arbres non racinésdifférents

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 10: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••••••••◦

••

4/23

Qu’est-ce qu’un arbre?Topologie

Non raciné

4 feuillesA

B

C

D

A

C

B

D

3 feuillesA

B

C

2 feuilles

A B

Raciné

-1

? 1

A

B

C

D

^

2�

2A

B

C

D

Avec horlogeSans horloge

A

B

C

D

Avec longueurs de branches

A

B

C

D

(2n − 5)!

2n−3(n − 2)!arbres non racinésdifférents

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 11: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••••••••◦

••

4/23

Qu’est-ce qu’un arbre?Topologie

Non raciné

4 feuillesA

B

C

D

A

C

B

D

3 feuillesA

B

C

2 feuilles

A B

Raciné

-1

? 1

A

B

C

D

^

2�

2A

B

C

D

Avec horlogeSans horloge

A

B

C

D

Avec longueurs de branches

A

B

C

D

(2n − 5)!

2n−3(n − 2)!arbres non racinésdifférents

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 12: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••••••••◦

••

4/23

Qu’est-ce qu’un arbre?Topologie

Non raciné

4 feuillesA

B

C

D

A

C

B

D

3 feuillesA

B

C

2 feuilles

A B

Raciné

-1

? 1

A

B

C

D

^

2�

2A

B

C

D

Avec horlogeSans horloge

A

B

C

D

Avec longueurs de branches

A

B

C

D

(2n − 5)!

2n−3(n − 2)!arbres non racinésdifférents

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 13: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••••••••◦

••

4/23

Qu’est-ce qu’un arbre?Topologie

Non raciné

4 feuillesA

B

C

D

A

C

B

D

3 feuillesA

B

C

2 feuilles

A B

Raciné

-1

? 1

A

B

C

D

^

2�

2A

B

C

D

Avec horlogeSans horloge

A

B

C

D

Avec longueurs de branches

A

B

C

D

(2n − 5)!

2n−3(n − 2)!arbres non racinésdifférents

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 14: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••••••••◦

••

4/23

Qu’est-ce qu’un arbre?Topologie

Non raciné

4 feuillesA

B

C

D

A

C

B

D

3 feuillesA

B

C

2 feuilles

A B

Raciné

-1

? 1

A

B

C

D

^

2�

2A

B

C

D

Avec horlogeSans horloge

A

B

C

D

Avec longueurs de branches

A

B

C

D

(2n − 5)!

2n−3(n − 2)!arbres non racinésdifférents

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 15: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••••••••◦

••

4/23

Qu’est-ce qu’un arbre?Topologie

Non raciné

4 feuillesA

B

C

D

A

C

B

D

3 feuillesA

B

C

2 feuilles

A B

Raciné

-1

? 1

A

B

C

D

^

2�

2A

B

C

D

Avec horlogeSans horloge

A

B

C

D

Avec longueurs de branches

A

B

C

D

(2n − 5)!

2n−3(n − 2)!arbres non racinésdifférents

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 16: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••••••••◦

••

4/23

Qu’est-ce qu’un arbre?Topologie

Non raciné

4 feuillesA

B

C

D

A

C

B

D

3 feuillesA

B

C

2 feuilles

A B

Raciné

-1

? 1

A

B

C

D

^

2�

2A

B

C

D

Avec horlogeSans horloge

A

B

C

D

Avec longueurs de branches

A

B

C

D

(2n − 5)!

2n−3(n − 2)!arbres non racinésdifférents

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 17: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••◦

••

5/23

La reconstruction phylogénétique

Reconstruire l’histoireévolutive des données

Plusieurs scénariospossibles, plus ou moinsprobables

Evaluer la plausabilité d’unscénario

pour un site,pour un jeu de données.

1

2

3

4

5

G

G

G

A

A

G

G→A

"bon" site

1

2

3

4

5

C

T

C

C

T

C C→T

C→T

"mauvais" site

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 18: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••◦

••

5/23

La reconstruction phylogénétique

Reconstruire l’histoireévolutive des données

Plusieurs scénariospossibles, plus ou moinsprobables

Evaluer la plausabilité d’unscénario

pour un site,pour un jeu de données.

1

2

3

4

5

G

G

G

A

A

G

G→A

"bon" site

1

2

3

4

5

C

T

C

C

T

C C→T

C→T

"mauvais" site

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 19: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••◦

••

5/23

La reconstruction phylogénétique

Reconstruire l’histoireévolutive des données

Plusieurs scénariospossibles, plus ou moinsprobables

Evaluer la plausabilité d’unscénario

pour un site,pour un jeu de données.

1

2

3

4

5

G

G

G

A

A

G

G→A

"bon" site

1

2

3

4

5

C

T

C

C

T

C C→T

C→T

"mauvais" site

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 20: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••••◦

••

6/23

Hypothèses

Les sites évoluent majoritairement parsubstitutions (délétions, insertions, inversionsnon prises en compte)

Les sites évoluent indépendamment les unsdes autres

Tous les sites suivent un processus identique,et notamment:

Les sites évoluent à la même vitesse

La vitesse d’évolution est constante au coursdu temps (horloge moléculaire)

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 21: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••••◦

••

6/23

Hypothèses

Les sites évoluent majoritairement parsubstitutions (délétions, insertions, inversionsnon prises en compte)

Les sites évoluent indépendamment les unsdes autres

Tous les sites suivent un processus identique,et notamment:

Les sites évoluent à la même vitesse

La vitesse d’évolution est constante au coursdu temps (horloge moléculaire)

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 22: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••••◦

••

6/23

Hypothèses

Les sites évoluent majoritairement parsubstitutions (délétions, insertions, inversionsnon prises en compte)

Les sites évoluent indépendamment les unsdes autres

Tous les sites suivent un processus identique,et notamment:

Les sites évoluent à la même vitesse

La vitesse d’évolution est constante au coursdu temps (horloge moléculaire)

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 23: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••••◦

••

6/23

Hypothèses

Les sites évoluent majoritairement parsubstitutions (délétions, insertions, inversionsnon prises en compte)

Les sites évoluent indépendamment les unsdes autres

Tous les sites suivent un processus identique,et notamment:

Les sites évoluent à la même vitesse

La vitesse d’évolution est constante au coursdu temps (horloge moléculaire)

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 24: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••••◦

••

6/23

Hypothèses

Les sites évoluent majoritairement parsubstitutions (délétions, insertions, inversionsnon prises en compte)

Les sites évoluent indépendamment les unsdes autres

Tous les sites suivent un processus identique,et notamment:

Les sites évoluent à la même vitesse

La vitesse d’évolution est constante au coursdu temps (horloge moléculaire)

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 25: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••◦

••

7/23

Le maximum de parcimonie

a b c d e

1 X X X X X2 X Y Y X X3 Y X Y X Y4 Y Y X Y Z

A 1 2 2 1 2B 2 1 2 1 2C 2 2 1 1 2

3 topologies possibles

3 types de sites informatifs + sites non informatifsignorés

Pour un site on choisit le scénario le plusparcimonieux

La topologie en accord avec le maximum de sitesest retenue

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 26: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••◦

••

7/23

Le maximum de parcimonie

a b c d e

1 X X X X X2 X Y Y X X3 Y X Y X Y4 Y Y X Y Z

A 1 2 2 1 2B 2 1 2 1 2C 2 2 1 1 2

3 topologies possibles

3 types de sites informatifs + sites non informatifsignorés

Pour un site on choisit le scénario le plusparcimonieux

La topologie en accord avec le maximum de sitesest retenue

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 27: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••◦

••

7/23

Le maximum de parcimonie

a b c d e

1 X X X X X2 X Y Y X X3 Y X Y X Y4 Y Y X Y Z

A 1 2 2 1 2B 2 1 2 1 2C 2 2 1 1 2

3 topologies possibles

3 types de sites informatifs + sites non informatifsignorés

Pour un site on choisit le scénario le plusparcimonieux

La topologie en accord avec le maximum de sitesest retenue

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 28: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••◦

••

8/23

Les limites de la parcimonie

X

XX

??

21

3 4

a b c

1 X X X

2 X Y Y

3 Y X Y

4 Y Y X

Le ’bon’ site est leb : ((1, 3), (2, 4)), mais lessites de type a sont plusabondants

La parcimonie choisitl’arbre a

Utiliser l’information dessites non informatifs peutpermettre de résoudre leproblème

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 29: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••◦

••

8/23

Les limites de la parcimonie

X

XX

??

21

3 4

a b c d

1 X X X X

2 X Y Y X

3 Y X Y Y

4 Y Y X Z

Le ’bon’ site est leb : ((1, 3), (2, 4)), mais lessites de type a sont plusabondants

La parcimonie choisitl’arbre a

Utiliser l’information dessites non informatifs peutpermettre de résoudre leproblème

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 30: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••••◦

••

9/23

Maximum de vraisemblance

Méthode générale d’estimation de paramètres utilisée en

statistiques et qui possède de bonnes propriétés

On appelle vraisemblance (L, pour likelihood) des données

la probabilité d’obtenir ces données sous un modèle

sachant une combinaison de valeurs de paramètres

On choisit comme estimateurs des paramètres l’ensemble

des valeurs de paramètres qui maximise L

Suppose que l’on puisse définir un modèle et des

paramètres et que l’on puisse calculer la probabilité des

données sous le modèle. . .

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 31: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••••◦

••

9/23

Maximum de vraisemblance

Méthode générale d’estimation de paramètres utilisée en

statistiques et qui possède de bonnes propriétés

On appelle vraisemblance (L, pour likelihood) des données

la probabilité d’obtenir ces données sous un modèle

sachant une combinaison de valeurs de paramètres

On choisit comme estimateurs des paramètres l’ensemble

des valeurs de paramètres qui maximise L

Suppose que l’on puisse définir un modèle et des

paramètres et que l’on puisse calculer la probabilité des

données sous le modèle. . .

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 32: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••••◦

••

9/23

Maximum de vraisemblance

Méthode générale d’estimation de paramètres utilisée en

statistiques et qui possède de bonnes propriétés

On appelle vraisemblance (L, pour likelihood) des données

la probabilité d’obtenir ces données sous un modèle

sachant une combinaison de valeurs de paramètres

On choisit comme estimateurs des paramètres l’ensemble

des valeurs de paramètres qui maximise L

Suppose que l’on puisse définir un modèle et des

paramètres et que l’on puisse calculer la probabilité des

données sous le modèle. . .

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 33: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••••◦

••

9/23

Maximum de vraisemblance

Méthode générale d’estimation de paramètres utilisée en

statistiques et qui possède de bonnes propriétés

On appelle vraisemblance (L, pour likelihood) des données

la probabilité d’obtenir ces données sous un modèle

sachant une combinaison de valeurs de paramètres

On choisit comme estimateurs des paramètres l’ensemble

des valeurs de paramètres qui maximise L

Suppose que l’on puisse définir un modèle et des

paramètres et que l’on puisse calculer la probabilité des

données sous le modèle. . .

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 34: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••◦

••

10/23

Modèle Markovien d’évolution

L’état futur des séquences dépend exclusivement deleur état présent et non de leur histoire passée

Le processus est constant au cours du temps

On étudie les probabilités F (t) d’être dans chacun desétats à l’instant t:

F (t) =

a(t)

c(t)

g(t)

u(t)

= eM.t.F (0)

où M est une matrice con-tenant les différents tauxde substitutions.

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 35: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••◦

••

10/23

Modèle Markovien d’évolution

L’état futur des séquences dépend exclusivement deleur état présent et non de leur histoire passée

Le processus est constant au cours du temps

On étudie les probabilités F (t) d’être dans chacun desétats à l’instant t:

F (t) =

a(t)

c(t)

g(t)

u(t)

= eM.t.F (0)

où M est une matrice con-tenant les différents tauxde substitutions.

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 36: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••◦

••

11/23

Matrices de substitutions

A G

C U

rAG

rGA

rCU

rUC

rAC

rCA

rUG

rGUrAU

rUA rCG

rGC

A G

C U

s1

s2

v4

v1

v 3

v2

0

B

B

B

B

B

@

rAA rCA rGA rUA

rAC rCC rGC rUC

rAG rCG rGG rUG

rAU rCU rGU rUU

1

C

C

C

C

C

A

Reversibilite=⇒

0

B

B

B

B

B

@

rAA πAv1 πAs1 πAv2

πCv1 rCCπCv3 πCs2

πGs1 πGv3 rGG πGv4

πUv2 πUs2 πUv4 rUU

1

C

C

C

C

C

A

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 37: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••◦

••

11/23

Matrices de substitutions

A G

C U

rAG

rGA

rCU

rUC

rAC

rCA

rUG

rGUrAU

rUA rCG

rGC

A G

C U

s1

s2

v4

v1

v 3

v2

0

B

B

B

B

B

@

rAA rCA rGA rUA

rAC rCC rGC rUC

rAG rCG rGG rUG

rAU rCU rGU rUU

1

C

C

C

C

C

A

Reversibilite=⇒

0

B

B

B

B

B

@

rAA πAv1 πAs1 πAv2

πCv1 rCCπCv3 πCs2

πGs1 πGv3 rGG πGv4

πUv2 πUs2 πUv4 rUU

1

C

C

C

C

C

A

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 38: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••◦

••

12/23

Matrices de substitutions (2)

Modèle Auteurs Paramètres

JC69 Jukes Cantor 1 taux de substitution

K80 Kimura 1 taux pour les transitions, 1 pour lestransversions

K81 Kimura 1 taux pour les transitions, 2 pour lestransversions

F81=TN84 Felsenstein, Tajima et Nei 1 taux de substitution et 3 fréquences

HKY85 Hasegawa, Kishino et Yano 1 taux pour les transitions, 1 pour lestransversions et 3 fréquences

TN93 Tamura et Nei 1 taux pour les transitions, 2 pour lestransversions et 3 fréquences

Z94 Zharkikh 6 taux de substitutions

T92 Tamura 1 taux pour les transitions, 1 pour lestransversions et 1 taux de GC

GTR "General time reversible" 6 taux de substitution et 3 fréquencesLaboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 39: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••◦

••

13/23

Matrices de substitutions (3)

JC69 K80 K81 Z94 πA = πU = πG = πC

TN84 HKY85 TN93 GTR πA, πU, πG, πC

T92

πA = πU

πG = πC

1 paramètre 2 paramètres 3 paramètres 6 paramètres

3 paramètres

4 paramètres 5 paramètres 9 paramètres6 paramètres

v1 = v2 = v3 = v4

s1 = s2

v1 = v4

v2 = v3

s1 = s2

v1, v2, v3, v4

s1, s2

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 40: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••••◦

••

14/23

Le cas des protéines

Matrice 20 × 20 au lieu 4 × 4

On utilise des taux de substitutions observés sur des

alignements de familles de protéines (approche empirique):

Dayhoff 1978, 71 familles (> 85% d’identité), soit 1300

séquences

Jones et al (JTT) 1992 (mise à jour) 2600 familles soit

16130 séquences

Autres jeux de données plus restrictifs (protéines

membranaires, mitochondriales, etc)

Possibilité d’évaluer la matrice pour un jeu de données

particulier

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 41: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••••◦

••

14/23

Le cas des protéines

Matrice 20 × 20 au lieu 4 × 4

On utilise des taux de substitutions observés sur des

alignements de familles de protéines (approche empirique):

Dayhoff 1978, 71 familles (> 85% d’identité), soit 1300

séquences

Jones et al (JTT) 1992 (mise à jour) 2600 familles soit

16130 séquences

Autres jeux de données plus restrictifs (protéines

membranaires, mitochondriales, etc)

Possibilité d’évaluer la matrice pour un jeu de données

particulier

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 42: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••••◦

••

14/23

Le cas des protéines

Matrice 20 × 20 au lieu 4 × 4

On utilise des taux de substitutions observés sur des

alignements de familles de protéines (approche empirique):

Dayhoff 1978, 71 familles (> 85% d’identité), soit 1300

séquences

Jones et al (JTT) 1992 (mise à jour) 2600 familles soit

16130 séquences

Autres jeux de données plus restrictifs (protéines

membranaires, mitochondriales, etc)

Possibilité d’évaluer la matrice pour un jeu de données

particulier

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 43: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••••◦

••

14/23

Le cas des protéines

Matrice 20 × 20 au lieu 4 × 4

On utilise des taux de substitutions observés sur des

alignements de familles de protéines (approche empirique):

Dayhoff 1978, 71 familles (> 85% d’identité), soit 1300

séquences

Jones et al (JTT) 1992 (mise à jour) 2600 familles soit

16130 séquences

Autres jeux de données plus restrictifs (protéines

membranaires, mitochondriales, etc)

Possibilité d’évaluer la matrice pour un jeu de données

particulier

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 44: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••••◦

••

14/23

Le cas des protéines

Matrice 20 × 20 au lieu 4 × 4

On utilise des taux de substitutions observés sur des

alignements de familles de protéines (approche empirique):

Dayhoff 1978, 71 familles (> 85% d’identité), soit 1300

séquences

Jones et al (JTT) 1992 (mise à jour) 2600 familles soit

16130 séquences

Autres jeux de données plus restrictifs (protéines

membranaires, mitochondriales, etc)

Possibilité d’évaluer la matrice pour un jeu de données

particulier

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 45: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••◦

••

15/23

Evolution le long d’un arbre

Taxon 1

Taxon 2

Taxon 3

Taxon 4

Taxon 5

l1

l2

l3

l4

l5l6

l7l8

N1

N2

N3

N4

Homogénéité Le modèle est lemême dans chaquebranche

Stationnarité Les fréquencesde chaque état sont lesmêmes en tout point del’arbre et égales auxfréquences d’équilibre

Chaque longueur de branche est un paramètre

La topologie est un paramètre non numériqueLaboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 46: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••◦

••

15/23

Evolution le long d’un arbre

Taxon 1

Taxon 2

Taxon 3

Taxon 4

Taxon 5

l1

l2

l3

l4

l5l6

l7l8

N1

N2

N3

N4

Homogénéité Le modèle est lemême dans chaquebranche

Stationnarité Les fréquencesde chaque état sont lesmêmes en tout point del’arbre et égales auxfréquences d’équilibre

Chaque longueur de branche est un paramètre

La topologie est un paramètre non numériqueLaboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 47: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••◦

••

16/23

Calcul de vraisemblance

Introduit par Felsenstein en 1981

Défini de manière récursive, en racinant l’arbre

Les états ancestraux étant inconnus, on intègre surtous les états possibles

Pour chaque site i, on note xi,n l’état au noeud n, les étatsau niveau des feuilles correspondant à ceux desséquences.On note Tn le sous-arbre défini par le noeud Nn, etLi(Tn, xi,n) la vraisemblance de Tn sachant l’état xi,n.

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 48: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••◦

••

16/23

Calcul de vraisemblance

Introduit par Felsenstein en 1981

Défini de manière récursive, en racinant l’arbre

Les états ancestraux étant inconnus, on intègre surtous les états possibles

Pour chaque site i, on note xi,n l’état au noeud n, les étatsau niveau des feuilles correspondant à ceux desséquences.On note Tn le sous-arbre défini par le noeud Nn, etLi(Tn, xi,n) la vraisemblance de Tn sachant l’état xi,n.

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 49: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••◦

••

17/23

Calcul de vraisemblance (2)

On a:

Li(Tn, xn) =8

>

>

>

>

>

<

>

>

>

>

>

:

1 si Tn est une feuille portant l’état xn au site considéré

0 si Tn est une feuille portant un état 6= xn au site considéré0

@

X

xn1

pxn,xn1(tn1) × Li(Tn1, xn1)

1

A

0

@

X

xn2

pxn,xn2(tn2) × Li(Tn2, xn2)

1

A sinon.

n1 et n2 désignent les noeuds fils du noeud courant.Les pxn,xn1

et pxn,xn2sont donnés par l’exponentielle de la matrice de substitution.

La vraisemblance de l’arbre pour le site i s’écrit:

Li(T ) =∑

x

Li(T, x) × πx

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 50: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••◦

••

17/23

Calcul de vraisemblance (2)

On a:

Li(Tn, xn) =8

>

>

>

>

>

<

>

>

>

>

>

:

1 si Tn est une feuille portant l’état xn au site considéré

0 si Tn est une feuille portant un état 6= xn au site considéré0

@

X

xn1

pxn,xn1(tn1) × Li(Tn1, xn1)

1

A

0

@

X

xn2

pxn,xn2(tn2) × Li(Tn2, xn2)

1

A sinon.

n1 et n2 désignent les noeuds fils du noeud courant.Les pxn,xn1

et pxn,xn2sont donnés par l’exponentielle de la matrice de substitution.

La vraisemblance de l’arbre pour le site i s’écrit:

Li(T ) =∑

x

Li(T, x) × πx

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 51: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••◦

••

18/23

Calcul de vraisemblance (3)

Les sites étant supposés indépendants, on a

L(T ) =∏

i

Li(T )

Calcul long, qui croît:

linéairement avec le nombre de sites,

linéairement avec le nombre d’espèces.

Méthodes ’traditionnelles’ d’optimisation pour les

paramètres numériques.

Nécessité de méthodes particulières pour le paramètre

topologique, impossibilité de faire une recherche exhaustive.

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 52: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••◦

••

18/23

Calcul de vraisemblance (3)

Les sites étant supposés indépendants, on a

L(T ) =∏

i

Li(T )

Calcul long, qui croît:

linéairement avec le nombre de sites,

linéairement avec le nombre d’espèces.

Méthodes ’traditionnelles’ d’optimisation pour les

paramètres numériques.

Nécessité de méthodes particulières pour le paramètre

topologique, impossibilité de faire une recherche exhaustive.

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 53: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••◦

••

18/23

Calcul de vraisemblance (3)

Les sites étant supposés indépendants, on a

L(T ) =∏

i

Li(T )

Calcul long, qui croît:

linéairement avec le nombre de sites,

linéairement avec le nombre d’espèces.

Méthodes ’traditionnelles’ d’optimisation pour les

paramètres numériques.

Nécessité de méthodes particulières pour le paramètre

topologique, impossibilité de faire une recherche exhaustive.Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 54: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••◦

••

19/23

Variations de vitesses entre sites

Densité

f(x) =λr

Γ(r)x(r−1)e−λx

avec λ =forme et r =échelle.

Li(T ) =

∞∫

0

f(r).L(T |r)dr

Version discrétisée (plus rapide):

Li(T ) =∑

c=1..n

Pr(r = rc).L(T |r)dr

Distribution gamma des

vitesses pour différentes

valeurs de forme (r = 1):

x

y0.0

0.1

0.2

0.3

0.4

0.5

0 1 2 3 4 5 6

0.10.250.511.523

ooooooo

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 55: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••◦

••

20/23

Variations au cours du temps

Vitesse constante entre sites

Site 1 Site 2 Site 3

Vitesse variable entre sites

Site 1 Site 2 Site 3

Vitesse variable au sein des sites

Site 1 Site 2 Site 3

A C G U

ACGU

M

r1 r2 r3

A C G U A C G U A C G U

ACGUACGUACGU

M.r1

M.r2

M.r3

νν

νν

νν

νν

νν

νν

νν

νν

νν

νν

νν

νν

r1

r2

r3

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 56: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••◦

••

20/23

Variations au cours du temps

Vitesse constante entre sites

Site 1 Site 2 Site 3

Vitesse variable entre sites

Site 1 Site 2 Site 3

Vitesse variable au sein des sites

Site 1 Site 2 Site 3

A C G U

ACGU

M

r1 r2 r3

A C G U A C G U A C G U

ACGUACGUACGU

M.r1

M.r2

M.r3

νν

νν

νν

νν

νν

νν

νν

νν

νν

νν

νν

νν

r1

r2

r3

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 57: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••◦

••

21/23

Non-indépendance

Pas de modèle général, mais

Corrélations de vitesses

Cas des tiges d’ARNr et ARNt

Autre approche: utiliser l’hypothèse d’indépendancecomme hypothèse nulle pour détecter des sites quicoévoluent ⇒ prédiction de structure

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 58: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦••◦

••

21/23

Non-indépendance

Pas de modèle général, mais

Corrélations de vitesses

Cas des tiges d’ARNr et ARNt

Autre approche: utiliser l’hypothèse d’indépendancecomme hypothèse nulle pour détecter des sites quicoévoluent ⇒ prédiction de structure

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 59: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••◦

••

22/23

Le Likelihood Ratio Test (LRT)

Modèles emboîtés: le modèle 1 (p paramètres) est un cas

particulier du modèle 2 (p + n paramètres)

Compromis: plus on augmente le nombre de paramètres,

plus on "colle" aux données mais plus la variance des

estimateurs est grande.

On peut tester si le(s) paramètre(s) supplémentaire(s)

améliore(nt) significativement l’ajustement aux données:

L(M2)

L(M1)� χ2

n

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 60: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••◦

••

22/23

Le Likelihood Ratio Test (LRT)

Modèles emboîtés: le modèle 1 (p paramètres) est un cas

particulier du modèle 2 (p + n paramètres)

Compromis: plus on augmente le nombre de paramètres,

plus on "colle" aux données mais plus la variance des

estimateurs est grande.

On peut tester si le(s) paramètre(s) supplémentaire(s)

améliore(nt) significativement l’ajustement aux données:

L(M2)

L(M1)� χ2

n

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 61: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••◦

••

22/23

Le Likelihood Ratio Test (LRT)

Modèles emboîtés: le modèle 1 (p paramètres) est un cas

particulier du modèle 2 (p + n paramètres)

Compromis: plus on augmente le nombre de paramètres,

plus on "colle" aux données mais plus la variance des

estimateurs est grande.

On peut tester si le(s) paramètre(s) supplémentaire(s)

améliore(nt) significativement l’ajustement aux données:

L(M2)

L(M1)� χ2

n

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 62: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••••◦

••

23/23

L’inférence bayesienne

Bayesien Une branche des statistiques qui se focalise sur les

probabilités postérieures des hypothèses. La probabilité

postérieure est proportionnelle au produit de la probabilité a

priori et de la vraisemblance (Holder 2003).

Plus rapide que le maximum de vraisemblance.

Mesure de confiance intégrée: probabilitépostérieure de chaque valeur de paramètre.

Joint/Marginal: N’utilise pas une valeur pour unestimateur mais un ensemble de valeurs avec leursprobabilités respectives.

Problème de la définition des probabilités a priori (pri-ors).

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 63: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••••◦

••

23/23

L’inférence bayesienne

Bayesien Une branche des statistiques qui se focalise sur les

probabilités postérieures des hypothèses. La probabilité

postérieure est proportionnelle au produit de la probabilité a

priori et de la vraisemblance (Holder 2003).

Plus rapide que le maximum de vraisemblance.

Mesure de confiance intégrée: probabilitépostérieure de chaque valeur de paramètre.

Joint/Marginal: N’utilise pas une valeur pour unestimateur mais un ensemble de valeurs avec leursprobabilités respectives.

Problème de la définition des probabilités a priori (pri-ors).

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 64: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••••◦

••

23/23

L’inférence bayesienne

Bayesien Une branche des statistiques qui se focalise sur les

probabilités postérieures des hypothèses. La probabilité

postérieure est proportionnelle au produit de la probabilité a

priori et de la vraisemblance (Holder 2003).

Plus rapide que le maximum de vraisemblance.

Mesure de confiance intégrée: probabilitépostérieure de chaque valeur de paramètre.

Joint/Marginal: N’utilise pas une valeur pour unestimateur mais un ensemble de valeurs avec leursprobabilités respectives.

Problème de la définition des probabilités a priori (pri-ors).

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 65: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••••◦

••

23/23

L’inférence bayesienne

Bayesien Une branche des statistiques qui se focalise sur les

probabilités postérieures des hypothèses. La probabilité

postérieure est proportionnelle au produit de la probabilité a

priori et de la vraisemblance (Holder 2003).

Plus rapide que le maximum de vraisemblance.

Mesure de confiance intégrée: probabilitépostérieure de chaque valeur de paramètre.

Joint/Marginal: N’utilise pas une valeur pour unestimateur mais un ensemble de valeurs avec leursprobabilités respectives.

Problème de la définition des probabilités a priori (pri-ors).

Laboratoire Génome, populations, interactions, adaptation – UMR 5171

Page 66: L’inférence statistique en phylogénie moléculaire: l ...L’inférence statistique en phylogénie moléculaire: l’approche "maximum de vraisemblance" Julien Dutheil Julien.Dutheil@univ-montp2.fr

◦•••••◦

••

23/23

L’inférence bayesienne

Bayesien Une branche des statistiques qui se focalise sur les

probabilités postérieures des hypothèses. La probabilité

postérieure est proportionnelle au produit de la probabilité a

priori et de la vraisemblance (Holder 2003).

Plus rapide que le maximum de vraisemblance.

Mesure de confiance intégrée: probabilitépostérieure de chaque valeur de paramètre.

Joint/Marginal: N’utilise pas une valeur pour unestimateur mais un ensemble de valeurs avec leursprobabilités respectives.

Problème de la définition des probabilités a priori (pri-ors).

Laboratoire Génome, populations, interactions, adaptation – UMR 5171