Introduction à la Phylogénie

Click here to load reader

download Introduction à la Phylogénie

of 71

description

Introduction à la Phylogénie. I. Introduction - Phylogénie. HYPOTHÈSE DE BASE: Tous les êtres vivants descendent d’un ancêtre commun. Sur une période d’au moins 3.8 milliards d’années le premier être vivant sur terre n’a cessé de se séparer en espèces différentes. - PowerPoint PPT Presentation

Transcript of Introduction à la Phylogénie

Introduction la Phylognie

Introduction la PhylognieI. Introduction - Phylognie HYPOTHSE DE BASE: Tous les tres vivants descendent dun anctre commun. Sur une priode dau moins 3.8 milliards dannes le premier tre vivant sur terre na cess de se sparer en espces diffrentes.

Les tres vivants voluent partir dun anctre commun par une suite de mutations suivies de spciations. Tout au long de lvolution, les gnes accumulent des mutations. Lorsquelle sont neutres ou bnfiques lorganisme elles sont transmises dune gnration lautre.PhylognieLisolement dune population et ladaptation son environnement peut entrainer la cration dune nouvelle espces

http://www.tutorvista.com/content/biology/biology-iv/biotic-community/speciation.phpPhylognietude des relations dvolution entre des groupes dorganismes (espces, populations). Base sur la notion dhritageTaxonomie: Science qui consiste classifier identifier et nommer les organismes. Base sur des caractristiques communes, diffrentes du reste de la diversit biologique. Domain, Kingdom, Phylum, Class, Order, Family, Genus, and Species

http://commons.wikimedia.org/wiki/File:Darwins_tree_of_life_1859.gifThe Tree of Life image that appeared in Darwin's On the Origin of Species by Natural Selection, 1859. It was the book's only illustrationArbre de PhylognieArbre de PhylogniePremier objectif des tudes phylogntiques: Reconstruire larbre de vie de toutes les espces vivantes partir des donnes gntiques observes.NASA:http://www.nasa.gov

Arbre de PhylognieLes arbres de phylognie sont galement utiliss pour reprsenter lvolution commune dune famille de gnes, ou de virus comme le HIV ou linfluenza.

http://bio.nyk.ch/MyosinObservation de corrlations entre les mutations du gne Myosin avec certains changements anatomiques dans la ligne humaine. MYH16 chez lhumain trs divergeant des autres copies du gne.

II. Dfinitions formellesArbre: Graphe connexe acyclique; Ensemble de nuds (ou sommets) connects par des artes (ou branches) de telle sorte que toute paire de nuds est relie par exactement un chemin. Arbre racin: Un nud est dsign comme tant la racine; permet dorienter la lecture de larbre; le temps scoule de la racine vers les feuilles.

HGOMCHGMCODfinitions formellesArbre racin binaire: Chaque nud interne a deux fils.

Dans le cas dun arbre despces :Les feuilles reprsentent les espces (ou squences) actuellesLa racine reprsente lanctre communLes nuds internes reprsentent les vnements de spciation.

HGOMCDfinitions formellesUn arbre phylogntique peut-tre binaire ou non-binaire.Un nud non-binaire reprsente gnralement un nud non-rsolu de larbre

NJ tree (with weighting) of 119 Bacteria. Asterisks denote anomalously positioned taxa.http://www.ncbi.nlm.nih.gov/pmc/articles/PMC540256/figure/fig3/Dfinition formelleLes nuds ou artes dun arbre de phylognie peuvent tre tiquets. Les tiquettes reprsentent gnralement le taux de mutations survenu, ou la date de spciation

R.V. Samonte & Evan E. EichlerNature Reviews Genetics 3, 65-72 (January 2002)Monophylie/Paraphylie/Polyphylie

Ttrapodes: animal du sous-embranchement des vertbrs dont le squelette comporte deux paires de membres et dont la respiration est normalement pulmonaire.http://du-cote-de-chez-elysia-chlorotica.blogspot.ca/2012_10_01_archive.htmlMammifresMonotrmesMarsupiauxEuthriensMonophylie/Paraphylie/PolyphylieT: arbre racin. Soit M un groupe despces (actuelles et ancestrales)M Groupe Monophyltique si le LCA e de M, ainsi que tous ses descendants sont dans M. Autrement dit, M dtermine un sous-arbre de T. Exemple dans larbre des ttrapodes: MammifresM Groupe Paraphyltique si le LCA e de M est dans M, mais que M nest pas complet, i.e. ninclue pas toutes les espces du sous-arbres de racine e. Les ReptilesM Groupe Polyphyltique si le LCA de M nest pas dans M.Les ttrapodes sans chaud ou hmothermes (Mammifres et oiseaux). Lanctre des amniotes ntait pas hmotherme.

III. Les caractres ou marqueurs utilissUne rgion spcifique de lADN,Une protineUn caractre morphologiqueLordre des gnes dans le gnome

Les caractres choisis doivent tre homologuesHypothse gnralement considre: Chaque caractre volue indpendamment des autres.Les caractres ou marqueurs utilissCaractres les plus utiliss pour les tudes dvolution: Squences de nuclotides ou dAA.Squences orthologues dans les espces tudiesEffectuer un alignement multiple des squencesLes caractres reprsents par les colonnes de lalignement et les tats du caractre sont les nuclotides (ou AA observs)dolphin ATGACCAACATCCGAAAAACACACCCTCTAATAAAAATCCTCgiant sperm whale ATGACCAACATCCGAAAATCACACCCATTAATAAAAATCATTbowhead whale ATGACCAACATCCGAAAAACACACCCACTAATAAAAATTATTright whale ATGACCAACATCCGAAAAACACACCCAGTAATAAAAATTATTminke whale ATGACCAACATCCGAAAAACACACCCACTAATAAAAATTATCfin whale ATGACCAACATCCGAAAAACACACCCACTAATAAAAATCGTCblue whale ATGACCAACATCCGAAAAACACACCCACTAATAAAAATCATChumpback whale ATGACCAACATCCGAAAAACACACCCACTAATAAAAATTATCChoix de marqueurs (sq. dADN) Comment choisir une rgion de lADN qui reflte lvolution de tout le gnome? Caractristiques gagnantes:Marqueur non-recombinant. Pour viter ce problme, choisir des marqueurs uni-parentaux, comme les seq. de mitochondries et de chloroplastes: transmission par la mre uniquement. Marqueur en copie unique, pour viter de choisir de mauvais paralogues ou:Marqueurs en copie multiples subissant une volution concerte permettant duniformiser toutes les copies. ARNr: Marqueurs trs utiliss pour les tudes phylogntiques:Rgions rptes de lADN subissant une volution concerteParmi les familles de gnes les plus conserves dans la celluleAlignements multiples faciles fairePermet la comparaison despces trs loignes.IV. Larbre cach dans la fortArbre non racin (binaire) de n feuilles: n-2 nuds internes, n-3 branches internes, et 2n-3 branches. Chaque branche dfinit une bipartition de lensemble des feuilles. Arbre dfinit par n-3 bipartitions non-triviales.n=2: 12Arbre non racin uniqueArbre racin unique12Larbre cach dans la fortn=3: 12Arbre non racin unique3 arbres racins3123123132Arbre non racin (binaire) de n feuilles: n-2 nuds internes, n-3 branches internes, et 2n-3 branches. Chaque branche dfinit une bipartition de lensemble des feuilles. Arbre dfinit par n-3 bipartitions non-triviales.

Larbre cach dans la fortn=4: 3 Arbre non racins15 arbres racinsArbre non racin (binaire) de n feuilles: n-2 nuds internes, n-3 branches internes, et 2n-3 branches. Chaque branche dfinit une bipartition de lensemble des feuilles. Arbre dfinit par n-3 bipartitions non-triviales.

12341324124312341243123421341234Larbre cach dans la fortDonc le problme dinfrence darbres se pose partir de 3 feuilles pour les arbres racins, et de 4 feuilles pour les arbres non-racins.Cavalli-Sforza et Edwars (1967) ont montr que le nombre Br darbres racins n feuille est:Br = (2n-3)!/ 2n-2 (n-2)!Le nombre Bu darbres non racins n feuilles est gal au nombre darbres racins n-1 feuilles, donc: Bu = (2n-5)!/ 2n-3 (n-3)!Le nombre darbres augmente trs rapidement avec le nbre de feuilles: Pour n=10, il existe plus de 34 millions darbres racins possibles. Un seul reprsente la ralit!! EnracinementLa plupart des mthodes de reconstruction phylogntiques produisent des arbres non racins.Pour un arbre non racin de n feuilles, 2n-3 enracinements possibles. Plusieurs mthodes existent:Enracinement au barycentre: positionner la racine au milieu du chemin sparant les deux feuilles les plus loignes. Hypothse de lhorloge molculaire.Applicable uniquement aux arbres valus.Enracinement en utilisant un outgroup. Mthode la plus utilise. Consiste rajouter lensemble des squences des espces tudies, une squence homologue appartenant une espce non-apparente.

http://cabbagesofdoom.blogspot.ca/2012/06/how-to-root-phylogenetic-tree.htmlLe kangourou est utilis comme outgroup: Marsupiaux versus mammifres placentaires. Distance topologiqueComment comparer deux arbres T1, T2 provenant de donnes diffrentes? Distance la plus utilise: Robinson-Foulds. Compte le nombre de bipartitions diffrentes entre T1 et T2 .Distance topologiqueDistance la plus utilise: Robinson-Foulds. Compte le nombre de bipartitions diffrentes entre T1 et T2 .CDEFABCDEBAFBipartitions non-trivialesCD|ABEFCD|ABEFEF|ABCD AB|CDEFEB|ACDFAF|BCDEDistance topologiqueDistance la plus utilise: Robinson-Foulds. Compte le nombre de bipartitions diffrentes entre T1 et T2 .CDEFABCEBAFBipartitions non-trivialesCD|ABEFCD|ABEFEF|ABCD AB|CDEFEB|ACDFAF|BCDEDDisance topologique dT (T1,T2)= 4 Distance topologiqueDistance la plus utilise: Robinson-Foulds. Compte le nombre de bipartitions diffrentes entre T1 et T2 .Un arbre non racin de n feuilles a n-3 branches internes (bi-partitions non-triviales). Donc distance topologique maximale entres deux arbres non racins est dM (T1,T2)=2(n-3)Gnralement, la distance tolologique est normalise:RF(T1,T2) = dT(T1,T2)/dM(T1,T2)

VI. Modles dvolution molculaireDistance volutive d entre deux squences: nombre moyen de substitutions/site stant produites depuis la divergence de ces deux squences partir dun anctre commun.Estimation des distances volutives la base de la plupart des mthodes de reconstructions phylogntiques.Construction dune matrice de distance contenant les distance volutives entre paire de squences: Premire tape des mthodes phylogntiques.Divergence observeCalcule directement partir de la distance d de Levenshtein ou de Hamming (substitutions) entre deux squences (ADN ou protines). Taux de divergence = d/n o n est la taille des squences.Pour deux squences alatoires dADN, le taux de divergence est gal 0.25Divergence observe: seule mesure directement accessible.Pas un bon estimateur part pour les squences trs proches: tendance sous-estimer la distance volutive relle.Modle markovien de lvolutionCalcul dune probabilit de transition dun tat un autreCalcul dune matrice 4x4:

mij (i j) : taux de substitution instantan de ltat i ltat j.1-mi : taux de conservation instantan du nuclotide i.Q: matrice des taux du precessus de Markov. La somme sur chaque colonne est 0.

Modle de Jukes et Cantor (JC69)Modle markovien de substitution le plus simple.Considre le mme taux de substitution instantan pour chacun des changements possible, et un seul taux de conservation global.

m/4: taux moyen instantan de substitution.

Modle de Kimura (K80)Transitions et transversions ont des taux diffrents.Transitions: A G, C T Transversions: A T, T G, A C, C G

k rapport entre le taux de transitions et le taux de transversions.

Slection naturelleProcessus par lequel certaines modifications apparaissant par hasard chez certains individus dans une population sont favorises et fixes, tandis que dautres sont dfavorises et perdues.Concept initialement formul par Darwin, base sur une observation des phnotypes, mais la slection naturelle affecte galement le gnotype. Peut mener la cration de nouvelles espces.

Distance synonyme/non-synonyme pour les squences codantes Les gnes sont soumis plusieurs types de slection naturelle:Slection positive: Processus qui encourage la rtention des mutations qui sont bnfiques pour un individu.Slection ngative ou purificatrice: Processus qui tend faire disparatre des mutations nuisibles.Slection neutre: Absence de slection positive ou ngative. Dans le cas de squences qui ne sont affectes par aucune pression slective. Peuvent tre modifies sans consquences sur lorganisme.Distance synonyme/non-synonyme pour les squences codantes Base sur la comparaison des substitutions synonymes et non-synonymes (effet sur les codons)Substitution non-synonyme (non-silencieuse): substitution provoquant la modification dun acide amin.Substitution synonyme (silencieuse): substitution ne provoquant pas la substitution de lacide amin initial.

http://en.wikipedia.org/wiki/Missense_mutation

Distance synonyme/non-synonyme pour les squences codantesSites synonymes et non-synonymes:100% des mutations touchant la 2me base des codons sont non-synonymesSous lhypothse que les frquences nuclotidiques sont gales et que les mutations se font au hasard, 95% des mutations touchant la 1re base et 28% des mutations touchant la 3me base sont non-synonymes.Distances synonymes et non-synonymes:dS (aussi note KS): Distance synonymedN: Distance non-synonyme

Distance synonyme/non-synonyme pour les squences codantes Identification du type de slection:Slection ngative: Dficit de substitutions non-synonymes attendu dN/dS < 1Slection neutre: Aucun dficit en subst. non-synonymes attendu dN/dS 1Slection positive: Excs de subst. non-synonymes attendu dN/dS > 1

Infrence darbres phylogntiquesMthodes de distanceInput: Matrice de distances DConstruire un arbre qui ralise cette matrice: chaque paire (x,y) de feuilles est relie par un chemin dont le score est gal la distance D(x,y) entre x et y. Mthodes de parsimonie: Arbre qui explique lvolution des espces par un nombre minimum de mutations. Deux composantes principales:Calcul dun score dun arbre donn.Recherche, parmi tous les arbres, larbre de score minoimal.Mthodes probabilistesMaximisation de la vraisemblance dun arbreInfrence Baysienne, base sur la probabilit postrieure des hypothses en fonction des donnes.VII. Mthodes de distancetant donne une matrice de distance, existe-t-il un arbre binaire qui ralise la matrice?AA0581211B5091312C89065D1213603E1112530ABCDEEDCBA23141321Condition des 4 pointsThorme: Il existe un arbre ralisant la matrice de distance si et seulement si la matrice satisfait la condition des quatre points.Condition des 4 points: Pour tout choix de 4 feuilles A, B, C, D, deux des sommes suivantes sont gales et suprieures la 3me: D(A,B) + D(C,D), D(A,D) + D(B,C) et D(A,C)+D(B,D)ACBDACBDACBDDistances additivesUne distance qui satisfait la condition des 4 points est une distance additive.ABCD12113AA0335B046C04D0ABCDDistance ultramtriqueCondition des 3 points: Pour tout choix de 3 feuilles A, B,C, parmi les trois distances D(A,B), D(A,C) et D(B,C), deux sont gales et suprieures la troisime.ABCD(A,C) = D(B,C)D(A,B)Distance ultramtriqueCondition des 3 points: Pour tout choix de 3 feuilles A, B,C, parmi les trois distances D(A,B), D(A,C) et D(B,C), deux sont gales et suprieures la troisime.Une distance qui satisfait la condition des 3 points est dite ultramtrique.Une distance ultramtrique est une distance additive. Le contraire nest pas vrai.ABCD(A,C) = D(B,C)D(A,B)Distance ultramtriqueUne distance ultramtrique satisfait lingalit ultratriangulaire: Dik max (Dij, Djk) pour tous i,j,k Tous les chemins de la racine nimporte quelle feuille de la mme longueur.Un arbre associ une distance ultramtrique satisfait la thorie de lhorloge molculaire: taux de mutation constant sur toutes les branches.ABCD(A,C) = D(B,C)D(A,B)Arbre ultramtriqueT est un arbre ultramtrique associ la distance ultramtrique D ssi:T contient n feuilles, chacune tiquete par une ligne de D;Chaque nud interne est tiquet par une case de D et a au moins deux fils;Le long dun chemin de la racine une feuille les valeurs des tiquettes des nuds dcroissent strictement;Pour deux feuilles quelconques i, j, D(i,j) est ltiquette du dernier anctre commun de i et j dans T.T, sil existe, est une reprsentation compacte de D.Remarque: T a au plus n-1 nuds internes. Donc, si D a plus de n-1 valeurs, il nexiste pas darbre ultramtrique pour .Algorithme UPGMAUPGMA: Algorithme de classification ascendante hirarchique. Procde par regroupement des squences les plus proches. chaque tape, les deux regroupements les plus proches sont fusionns.Si D est une distance ultramtrique, alors UPGMA construit larbre ultramtrique associ.

Algorithme UPGMAn squences; Di,j: Distance entre les squences i et j.dij: Distance entre deux regroupements Ci et Cj. Moyenne des distances des paires de squences entre les deux regroupements.

Si Ck = Ci U Cj et Cl est un autre regroupement, alors:

Distance/arbre ultramtriqueThorme: Si D est une matrice ultramtrique, alors larbre ultramtrique de D est unique.

Preuve: Dans la construction de larbre, les classes sont forces, i.e. ne peuvent pas tre dtermines autrement, et les positions de ces classes sont forces aussi.

Consquence: Si D reflte effectivement la distance dvolution entre les espces, alors larbre obtenu est ncessairement le vrai arbre.

Thorme: Si D est ultramtrique, alors larbre ultramtrique peut-tre construit en temps O(n2). De plus, on peut dterminer en O(n2) si une distance est ultramtrique ou non. Que signifient des donnes ultramtriques?Distances tiquetant les arbres ultramtriques supposes reflter le temps qui sest coul depuis la sparation des deux espces.Thorie de lhorloge molculaire (1960): Pour une protine donne, le taux de mutations acceptes par intervalle de temps est constant.Donc, si k mutations acceptes entre les protines A et B, on peut estimer k/2 le nombre de mutations survenues sur chaque branche depuis lanctre commun de A et B. Permet dobtenir des donnes ultramtriques.Distance/arbre additifSoit D une distance pour n squences.T: Arbre contenant au moins n noeuds (dont les feuilles). Chaque ligne de D correspond un nud diffrent, et les artes sont tiquetes. T arbre additif pour D si pour toute paire de nuds (i,j), le poids total du chemin de i j est D(i,j).

Distance/arbre additifProblme: Trouver un arbre additif pour D ou dterminer quun tel arbre nexiste pas.

Thorme: Il existe un arbre additif pour D ssi D est une distance additive (i.e. vrifie la condition des 4 points).

Distance additive: Contrainte moins forte que la contrainte ultramtrique. Une distance ultramtrique est additive. Le contraire nest pas vrai.Cependant, les donnes relles sont rarement additives Neighbor-Joining (Saitou et Nei en 1986)Algorithme glouton qui choisit chaque tape une paire de feuilles voisines. Obtient un arbre additif correspondant une distance additive.En gnral NJ est une approximation du minimum dvolutionMinimum dvolution: Parmi toutes les topologies darbres, choisir celle minimisant la somme des longueurs de branche calcules en utilisant la mthode des moindres carrs, i.e. longeurs de branche minimisant: Q = Si