Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for...

65
Susanne Franssen 1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle Themen der Bioinformatik“ SS 2005

Transcript of Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for...

Page 1: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

Susanne Franssen 1

The splits in the Neighborhood of a Tree

A Classification of Consensus Methods for Phylogenetics

Seminarvortrag zum Thema:„Aktuelle Themen der Bioinformatik“

SS 2005

Page 2: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

2

Übersicht:

• The splits in the Neighborhood of a Tree Einleitung Terminologie Baum Metriken Splits in den Nachbarschaften der vorgestellten Metriken

• A Classification of Consensus Methods for Phylogenetics Einleitung Terminologie Vorstellung verschiedener Consensus Methoden Klassifikation der vorgestellten Consensus Methoden Subtrees & Supertrees

Page 3: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

3

The Splits in the Neighborhood of a Tree - Einleitung

• Phylogenie:– Phylogenese ist die Stammesentwicklung der

Lebewesen im Verlauf der Erdgeschichte

• Zentraler Bereich in der Phylogenie:– Rekonstruktion phylogenetischer Bäume anhand von

gesammelten Daten verschiedener Organismen Distanzbasierte Methoden

(UPGMA, Neighbor-Joining) Merkmalbasierte Methoden

(Maximum Parsimony / Likelihood)

Page 4: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

4

The Splits in the Neighborhood of a Tree - Einleitung

• Motivation zur Betrachtung lokaler Strukturen des Raumes aller Bäume:– Der Baum der eine gegebene Funktion optimiert wird

über die Suche durch den Raum aller Bäume ermittelt

• Problem:– Der Raum aller möglichen phylogenetischen Bäume ist

sehr komplex und wächst überexponentiell in der Anzahl der Blätter

Page 5: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

5

The Splits in the Neighborhood of a Tree - Einleitung

• Vereinfachen der Suche im Raum aller Bäume

Dekomposition der Bäume in Sammlungen von Splits

• Vorteile:- Vereinfachung ermöglicht das Lösen von NP-harten

Optimierungsproblemen im Raum aller Bäume in polynomieller Laufzeit

- Erstellen effizienter Suchalgorithmen

Page 6: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

6

The Splits in the Neighborhood of a Tree - Terminologie

Ungewurzelter, binärer phylogenetischer X-Baum T

X = {a,b,c,d,e}

Σ(T) ist die Menge aller Splits des Baumes T

Σ(T) = {{a}|{b,c,d,e}, {b}|{a,c,d,e}, {c}|{a,b,d,e}, {d}|{a,b,c,e}, {e}|{a,b,c,d}, {a,b}|{c,d,e}, {c,d}|{a,b,e}}

Split A|B von X: Partition von X in zwei nichtleere Mengen A und B

Page 7: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

7

The Splits in the Neighborhood of a Tree - Terminologie

Splits aus Σ(T)

für je zwei Splits A|B und C|D aus Σ(T) gilt: mindestens eine der vier Schnittmengen A∩C, A∩D, B∩C, B∩D muss leer sein

{a,b}|{c,d,e} Σ(T)

{a,b,e}|{c,d} Σ(T)

{a,c}|{b,d,e} Σ(T)

Page 8: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

8

• Robinson-Foulds Metrik (partition metric)

• Robinson-Foulds Distanz – dRF(T1, T2) = ½ | Σ(T1) Δ Σ(T2) |

= ½ | Σ(T1) - Σ(T2) | + ½ | Σ(T2) - Σ(T1) |

• Erweiterung durch gewichtete Kanten– dw(T1, T2) = Σ A|B є Σ(T1) U Σ(T2) | w1(A|B) - w2(A|B) |

The Splits in the Neighborhood of a Tree - Baummetriken

• dRF(T1, T2) = 1- Σ(T1) - Σ(T2) = { {a,b}|{c,d} } Σ(T2) - Σ(T1) = { {a,c}|{b,d} }

Page 9: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

9

• Nearest Neighbor Interchange Metrik

• Nearest Neighbor Interchange (NNI)

• Für jeden binären X-Baum mit n Blättern gilt:– Es gibt genau 2(n-3) X-Bäume Ti mit dRF(T, Ti) = 1

The Splits in the Neighborhood of a Tree - Baummetriken

• (n-3) Anzahl der inneren Kanten im X-Baum• 2 Anzahl möglicher Bäume durch ein NNI

(durch ein NNI wird genau ein Split aus Σ(T) verändert)

Page 10: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

10

• Nearest Neighbor Interchange Metrik

• Für zwei beliebige binäre X-Bäume T1 und T2 gilt:– T1 kann durch eine Folge von NNI in T2 überführt werden

• Nearest Neighbor Distanz: dNNI(T1, T2) – Kleinstmögliche Anzahl von NNI, die benötigt wird einen Baum in den

anderen zu überführen– Bestimmung von dNNI(T1, T2) ist NP-hart

– dNNI(T1, T2) ≥ dRF(T1, T2)

a) ein NNI kann dRF(T1, T2) höchstens um eins verringern

b) Es wird ein NNI durchgeführt, der einen nicht in Σ(T2) enthaltenen Split in einen Split verwandelt, der ebenfalls nicht in Σ(T2) enthalten ist

The Splits in the Neighborhood of a Tree - Baummetriken

Page 11: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

11

The Splits in the Neighborhood of a Tree - Baummetriken

• Beispiel zu b)

dRF(T1, T2) = 2

dNNI(T1, T2) = 3

Page 12: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

12

The Splits in the Neighborhood of a Tree - Baummetriken

• Subtree Prune and Regraft Metrik (SPR)

• Entferne Kante {u,v} zwei Teilbäume Tu und Tv

• Wahl beliebiger Kante aus Tv Einfügen eines neuen Knotens w• Einfügen einer neuen Kante zwischen u und w,

unterdrücken aller Kanten mit nur zwei adjazenten Kanten

Page 13: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

13

The Splits in the Neighborhood of a Tree - Baummetriken

• Subtree Prune and Regraft Metrik (SPR)

• Subtree Prune and Regraft Distanz: dSPR(T1, T2) – Kleinstmögliche Anzahl von SPR, die benötigt wird

einen Baum in den anderen zu überführen– Bestimmung von dSPR(T1, T2) ist NP-hart ?!

– dSPR(T1, T2) ≤ dNNI(T1, T2)

Page 14: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

14

The Splits in the Neighborhood of a Tree - Baummetriken

• Tree Bisection Reconnection Metrik (TBR)

Page 15: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

15

The Splits in the Neighborhood of a Tree - Baummetriken

• Tree Bisection Reconnection Metrik (TBR)

• Tree Bisection Reconnection Distanz: dTBR(T1, T2)– Kleinstmögliche Anzahl von TBR, die benötigt wird

einen Baum in den anderen zu überführen– Bestimmung von dTBR(T1, T2) ist NP-hart

– dTBR(T1, T2) ≤ dSPR(T1, T2)

Page 16: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

16

The Splits in the Neighborhood of a Tree - Terminologie

• Bäume und Splits in der Nachbarschaft des Baumes T

• r-Nachbarschaft von T:– Nd(T,r) = {T’ UB(X) | d(T, T’) ≤ r}– mit UB(X) = Menge aller X-Bäume

• Split Nachbarschaft von T:– Menge aller Splits, die in mind. einem Baum aus der

r-Nachbarschaft von T vorkommen

– Sd(T,r) = T’є Nd(T,r) Σ(T’)

Page 17: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

17

The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood

• T ein binärer X-Baum, A|B ein Split von X– A|B Σ(T)

A|B ist paarweise kompatibel mit jedem Split in Σ(T)– A|B Σ(T)

A|B ist paarweise inkompatibel mit einigen Splits in Σ(T)

• Diese Splits stehen im Konflikt mit A|B. „conflicting splits“

• Die Kanten, die diese Splits verbinden, bezeichnen wir als mit A|B im Konflikt stehende Kanten von T. „conflicting edges“

• Splits in der RF Neighborhood

Page 18: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

18

The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood

• Beispiel: conflicting Splits

• A|B Σ(T) mit A = {a,b,c} und B = {d,e,f}

• Σ(T) = { …{a,b}|{c,d,e,f},

{a,b,f}|{c,d,e}, {a,b,e,f}|

{c,d}}

• Σ(T) = { …{a,b}|{c,d,e,f},

{a,b,f}|{c,d,e}, {a,b,e,f}|

{c,d}}

Page 19: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

19

The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood

• Lemma 3.1.:– Sei ein T binärer X-Baum und A|B ein Split von X, dann

gilt:Die mit A|B im Konflikt stehenden Kanten von T bilden einen verbundenen Subgraph.

• Beweis:– e1 und ek sind zwei conflicting edges

– e1,, e2, … ek sind die Kanten auf dem Weg von e1 nach ek

– Wir zeigen, dass die Kanten e2,, e3, … ek-1 auch „conflicting“ sind.

Page 20: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

20

The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood

• Beweis:– Für i = 1, 2, …, k

Xi|Yi sei der Split, der durch ei verbunden wirdmit X1 c X2 c … c Xk Yk c Yk-1 c … c Y1

– X1|Y1 und A|B sind inkompatibel es existiert: a X1∩A und b X1∩B

– Analog es existiert: a‘ Yk∩A und b‘ Yk∩B

für alle i = 1, 2, …, k existiert:a Xi∩A , b Xi∩B ,a‘ Xi∩A , b‘ Xi∩B

– A|B ist inkompatibel mit Xi|Yi

Page 21: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

21

The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood

• Verdeutlichung der Beweisidee an einem Beispiel

{a,c}|{b,d,e,f} Σ(T)

Page 22: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

22

The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood

• Konstruktive Beschreibung aller Splits– die jeweils mit genau allen Kanten eines geg.

zusammenhängenden Subgraphen in Konflikt stehen

∏(E‘) = A1| A2| … | Ak

Die Partition von X geg. durch T – V‘(V‘ die inzidenten Knoten zu allen Kanten in E‘)

zwei Blöcke Ai , Aj sind adjazent, wenn sie in der gleichen Komponente von T – E‘ enthalten sind

Page 23: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

23

The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood

• Bilde alle möglichen Splitkombinationen aus den Blöcken Ai – Einschränkung: adjzente Blöcke dürfen nicht in der gleichen Menge

(A bzw. B) des Splits A|B vorkommen

∏(E‘) = A1| A2| A3| A4| A5| A6| A7

Adjazente Blöcke:{A1, A2} , {A3, A4} , {A6, A7}

Anzahl der conflicting Splits:

2a+b / 2 a = # adjazenter Blöckeb = # der Blöcke, zu denen es keinen adjazenten Block gibt

Page 24: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

24

The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood

• Theorem 3.3.:– Sei T ein binärer X-Baum.

Ein Split A|B ist genau dann in SRF(T,r), wenn er mit höchstens r Kanten im Konflikt steht.

• Beweis:

– Annahme: A|B Σ(T‘) und dRF(T, T‘) ≤ r es gibt höchstens r Splits in Σ(T) – Σ(T‘), da A|B mit allen Splits aus Σ(T‘) kompatibel ist folgt:

A|B ist kompatibel mit allen Splits aus Σ(T) mit Ausnahme von höchstens r vielen.

Page 25: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

25

The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood

• Beweis:– Annahme:

A|B steht höchstens mit r Kanten von T im Konflikt.S ist die zugehörige Menge von conflicting Splits.|S| ≤ r (Σ(T) – S) {A|B} ist kompatibel es gibt einen binären X-Baum, der die Splits (Σ(T) – S) {A|B} enthält,daher ist dRF(T, T‘) ≤ r

Page 26: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

26

The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood

• Whitney number eines Baumes:– Ť ist der Subgraph von T bestehend aus allen inneren

Kanten und Knoten– k-subtree von Ť: ein verbundener Subgraph von Ť mit k

Knoten (k-1 Kanten)

– Whitney number # aller möglichen k-subtrees von Ť von einem festen Baum T

Page 27: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

27

The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood

• Catalan Zahlen:– Cn = 1/(n+1) * (2n)! / (2n!)– # geordneter (Unterscheidung linker und rechter Sohn),

binärer Bäume mit n Knoten– 1, 2, 5, 14, 42, 132, …

Page 28: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

28

The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood

• Lemma 3.4.:– Sei T ein binärer X-Baum.

Die # von k-subtrees von Ť beträgt O(nCk), mit n = |X| und Ck ist die k-te Catalan Zahl.

• Beweis:– Wahl eines beliebigen Blattes aus Ť. Alle Kanten aus Ť

erhalten eine Orientierung, die von diesem Knoten weggerichtet ist.

– Für jeden der n – 2 inneren Knoten v gilt:die # der k-subtrees mit Wurzel v ist durch Ck beschränkt. (n – 2)Ck ist die obere Schranke für die # an k-subtrees

Page 29: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

29

The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood

• Verdeutlichung der Beweisidee an einem Beispiel– Ť

n – 2 innere KnotenVon jedem dieser Knoten gehen max. Ck viele k-subtrees aus.Auf diese Weise werden alle k-subtrees betrachtet

Page 30: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

30

The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood

• Sei T ein binärer X-Baum.

• Zu Theorem 3.3.:– Ein Split A|B ist genau dann in SRF(T,r), wenn er mit

höchstens r Kanten im Konflikt steht.• Zu Lemma 3.4.:

– Die # von k-subtrees von Ť beträgt O(nCk), mit n = |X| und Ck ist die k-te Catalan Zahl.

• Korollar 3.5.:– Die Anzahl der Splits in SRF(T,r) ist linear in n für ein festes

r.

Page 31: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

31

The Splits in the Neighborhood of a Tree – Splits in the NNI Neighborhood

• Splits in der NNI Neighborhood

– dRF(T1, T2) ≤ dNNI(T1, T2) SNNI(T,r) _ SRF(T,r)

– Die Anzahl der Splits in der NNI Nachbarschaft ist linear in der Anzahl der Blätter für ein festes r.

• Conflicting vertex:– Sei v ein innerer Knoten eines binären X-Baumes.– v ist ein mit A|B im Konflikt stehender Knoten, wenn

alle zu v inzidenten Kanten mit A|B im Konflikt stehen.

Page 32: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

32

The Splits in the Neighborhood of a Tree – Splits in the NNI Neighborhood

• Theorem 4.1.:– Sei T ein binärer X-Baum, A|B ein Split von X und

E‘, V‘ die Kanten bzw. Knoten, die mit A|B im Konflikt stehen.A|B ist in SNNI(T,r) genau wenn |E‘|+|V‘| ≤ r.

• Beweis:

– Annahme: A|B Σ(T‘) und dNNI(T,T‘) = s ≤ r

– Es gibt eine Folge von X-Bäumen T0 bis Ts mit T‘ = T0 , T = Ts so dass für alle i = 0,1,…,s gilt:Ti+1 unterscheidet sich von Ti durch ein NNI

Page 33: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

33

The Splits in the Neighborhood of a Tree – Splits in the NNI Neighborhood

• Beweis:– Behauptung: für alle i gilt |E‘i|+ |V‘i| ≤ i ,

was |E‘|+|V‘| = |Es‘|+ |Vs‘| = s ≤ r impliziert

– Beweis über Induktion:Anker für i = 0 |E‘0|+ |V‘0| ≤ 0 ,da T0 = T‘ und A|B Σ(T‘)

– Die Behauptung gilt für alle i ≤ j und Tj+1 wird aus Tj durch einen NNI um die Kante {u,v} erhalten.

– Unterscheidung zweier Hauptfälle:• Kante {u,v} ist noch nicht conflicting• Kante {u,v} ist bereits conflicting

Page 34: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

34

The Splits in the Neighborhood of a Tree – Splits in the NNI Neighborhood

• Kante {u,v} ist noch nicht im Konflikt mit A|B

- Die # der zu A|B im Konflikt stehenden Kanten wird um eins erhöht.

- Die # der „conflicting vertices“ bleibt unverändert.

Page 35: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

35

The Splits in the Neighborhood of a Tree – Splits in the NNI Neighborhood

• Kante {u,v} steht bereits im Konflikt mit A|B

- Die # der zu A|B im Konflikt stehenden Kanten bleibt unverändert.

- Die # der „conflicting vertices“ kann um höchstens eins erhöht werden.

Page 36: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

36

The Splits in the Neighborhood of a Tree – Splits in the NNI Neighborhood

– Daraus folgt: |E‘j+1|+|V‘j+1| ≤ |E‘j|+|V‘j| + 1 ≤ j+1– Das Ergebnis folgt durch Induktion.

– Annahme: A|B steht im Konflikt mit E‘ und V‘ und es gilt |E‘|+|V‘| ≤ r

– Wahl einer Kante {u,v} aus E‘, wobei u zu keiner weiteren Kante aus E‘ inzident ist.

– Zwei Fälle:• V ist ein conflicting vertex

ein conflicting vertex verschwindet• V ist kein conflicting vertex

eine conflicting edge verschwindet

– |E‘|+|V‘| -faches Wiederholen erzeugt einen Baum T‘, der A|B enthält mit dNNI(T,T‘) .

Page 37: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

37

The Splits in the Neighborhood of a Tree – Splits in the SPR & TBR Neighborhoods

• Splits in den SPR & TBR Neighborhoods

– Jeder NNI ist ein SPR und jeder SPR ist ein TBR dTBR (T1, T2) ≤ dSPR (T1, T2) ≤ dNNI (T1, T2)

– Es folgt: SNNI(T,r) _ SSPR(T,r) _ STBR(T,r)

• Wir wollen zeigen, dass die Split Nachbarschaften von SPR und TBR identisch und beträchtlich größer sind als die NNI Nachbarschaft.– Erklärung der Gleichheit beider Nachbarschaften über

die Parsimony Länge eines Charakters

Page 38: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

38

The Splits in the Neighborhood of a Tree – Splits in the SPR & TBR Neighborhoods

• binary character– Funktion χ : X {0,1}

• Parsimony Länge von χ‘ auf T bezeichnet als lT(χ)– Minimum von l‘T(χ‘) über alle χ‘ von χ

• Die Länge von χ‘ bezeichnet als l‘T(χ‘)– # von Kanten {u,v} mit χ‘(u) ≠ χ‘(v)

• Erweiterung von χ auf einen X-Baum– Funktion χ‘: V(T) {0,1}– So dass die Restriktion von χ‘ auf X gleich χ ist.

Page 39: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

39

The Splits in the Neighborhood of a Tree – Splits in the SPR & TBR Neighborhoods

• Lemma 5.1.:– T‘ unterscheidet sich von T durch eine TBR Operation.

Für jeden Charakter χ gilt: lT‘(χ) ≤ lT(χ)+1

• Beweis:– … siehe Ausarbeitung

• Für jeden Split A|B von X soll gelten:

– χ A|B (x) = 1 falls x A 0 sonst

Page 40: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

40

The Splits in the Neighborhood of a Tree – Splits in the SPR & TBR Neighborhoods

• Theorem 5.2.:– Sei T ein binärer X-Baum und A|B ein Split von X.

Die folgenden drei Aussagen sind äquivalent.1) A|B SSPR(T,r)

2) A|B STBR(T,r)

3) lT(χA|B ) ≤ r+1

• Ringbeweis:• 1) 2)

– Wir haben bereits gezeigt, dass SSPR(T,r) _ STBR(T,r)

Page 41: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

41

The Splits in the Neighborhood of a Tree – Splits in the SPR & TBR Neighborhoods

• 2) A|B STBR(T,r) 3) lT(χA|B ) ≤ r+1

A|B Σ(T‘) und dTBR (T, T‘) = s ≤ r– Es gibt eine Folge von X-Bäumen mit:

T‘ = T0, T1, … Ts = T– Da A|B Σ(T‘) gilt:

lT‘(χA|B ) = 1– Mit Lemma 5.1. Gilt für alle i = 1, 2, …, s :

lTi(χA|B ) ≤ lTi-1(χA|B ) +1 lTs(χA|B ) = lT (χA|B ) ≤ s+1 ≤ r+1

Page 42: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

42

The Splits in the Neighborhood of a Tree – Splits in the SPR & TBR Neighborhoods

• 3) lT(χA|B ) ≤ r+1 1) A|B SSPR(T,r)

– lT (χA|B ) ≤ s+1 ≤ r+1– Wenn s = 0 folgt 1), da lT (χA|B ) = 1 A|B Σ(T)– Für s > 0

sei χ‘ eine Erweiterung von χA|B mit minimaler Länge:es gibt drei Knoten u,v,w mit {u,v} E(T) , v liegt auf dem Weg von u nach w und χ‘(v) ≠ χ‘(u) = χ‘(w)

– Durchführen eines SPR:Entfernen der Kante {u,v}, Einfügen eines neuen Knotens x an einer zu w adjazenten Kante, Hinzufügen der Kante {u,x}, Setzen von χ‘(x) = χ‘(u)

– χ‘ des neuen Baumes hat nun Länge s– Nach s Durchläufen T‘ mit A|B Σ(T‘) und

dSPR(T, T‘) = s

Page 43: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

43

The Splits in the Neighborhood of a Tree – Splits in the SPR & TBR Neighborhoods

• Exakte Formel für die # an Charakteren mit der Parsimony Länge k

• Zusammen mit Theorem 5.2. Ergibt sich daraus eine Formel für die # an Splits in SSPR(T,r) und STBR(T,r)

• |SSPR(T,r)| = |STBR(T,r)| = Σ1≤k≤ r+1 [(n-k)!/(k!(n-2k)!) + (n-k-1)!/(k!(n-2k-1)!)] 2k

Page 44: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

44

Übersicht:

• The splits in the Neighborhood of a Tree Einleitung Terminologie Baum Metriken Splits in den Nachbarschaften der vorgestellten Metriken

• A Classification of Consensus Methods for Phylogenetics Einleitung Terminologie Vorstellung verschiedener Consensus Methoden Klassifikation der vorgestellten Consensus Methoden Subtrees & Supertrees

Page 45: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

45

A Classification of Consensus Methods for Phylogenetics - Einleitung

• Consensus Baum Methoden:– aus einer Sammlung von phylogenetischen Bäumen auf

dem gleichen Taxaset wird ein einzelner „repräsentativer“ Baum, der Consensus Baum, erstellt

• Wie kann man Informationen von miteinander konkurrierenden Bäumen miteinander verbinden?– finden gemeinsamer Substrukturen und Wiedergabe im

Ausgabebaum – Konfliktreiche Regionen werden ausgeschlossen

Page 46: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

46

A Classification of Consensus Methods for Phylogenetics - Einleitung

• Nutzen und Missbrauch von Consensus Methoden:– Art der Interpretation ist zu beachten – Werkzeug zur Repräsentation– Werkzeug für phylogenetische Schlussfolgerungen

problematisch, die meisten Methoden stützen sich auf kombinatorische Eigenschaften im Zusammenhang mit einer bestimmten Zielsetzung, einem Modell oder Paradigma

• Standard Consensus Methoden:– Bestimmen von Gemeinsamkeiten und Differenzen

zwischen Eingabebäumen – verschiedene Zielsetzungen verschiedene Consensus

Methoden

Page 47: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

47

A Classification of Consensus Methods for Phylogenetics - Terminologie

• Gewurzelter phylogenetischer Baum

• {a,b,c,d,e} ist die Menge aller Taxa von T• Gruppe: eine Teilmenge der Menge aller Taxa• Monophyletische Gruppen, Cluster eines Baumes T:

alle Gruppen, die alle Nachkommen ihres jüngsten gemeinsamen Vorfahren enthalten

• Gewurzeltes Tripple z.B. bc|a , cd|er(T) ist die Menge aller Tripple im Baum T

Page 48: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

48

A Classification of Consensus Methods for Phylogenetics - Terminologie

• Kompatibilität von Gruppen:– Eine Sammlung von Gruppen C ist kompatibel, wenn es

einen gewurzelten Baum T gibt, für den jede Gruppe ein Cluster von T bildet

– Für jedes Cluster A und B in C gilt: A _ B oder B _ A oder A ∩ B = Ø

• Restriktion von T auf X: T|X– Jedes Cluster A aus T wird durch die Schnittmenge

A ∩ X ersetzt

• Ein Baum T verfeinert einen Baum T‘– Wenn jedes Clustern/Splits aus T‘ auch in T enthalten ist

Page 49: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

49

A Classification of Consensus Methods for Phylogenetics – Consensus Methoden

• Übersicht von Consensus Methoden– Strict Consensus Tree– Majority Rule Tree– Loose Consensus Tree– Greedy Consensus Tree– Nelson Page & Asymmetric Median Consensus Tree

– Adams Consensus Tree– Cluster Height Methods

– Local Consensus Tree– Prune & Regraft Tree– Q* & R* Consensus Tree

– Matrix Repräsentation mit Parsimony– Average Consensus Tree– Buneman Consensus Tree

Basierend aufSplits & Clustern

Cluster Schnittmengen Methoden

Basierend auf Teilbäumen

Basierend auf Recoding

Page 50: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

50

A Classification of Consensus Methods for Phylogenetics – Consensus Methoden

• Übersicht von Consensus Methoden

• Consensus Methoden basierend auf Splits/Clustern– Strict Consensus Tree– Majority Rule Tree– Loose Consensus Tree– Greedy Consensus Tree

• Cluster Schnittmengen Methoden– Adams Consensus Tree

Page 51: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

51

A Classification of Consensus Methods for Phylogenetics – Consensus Methoden

• Consensus Methoden basierend auf Splits/Clustern

• Strict Consensus Tree– Enthält genau alle Splits/Cluster, die in je allen

Eingabebäumen vorkommen

– Beispiel:T = { ((a,(b,c)),d) , (((a,b),c),d) } ((a,b,c),d)

Page 52: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

52

A Classification of Consensus Methods for Phylogenetics – Consensus Methoden

• Majority Rule Tree– Enthält genau die Splits/Cluster, die in mehr als der

Hälfte der Eingabebäume vorkommen– Verfeinert den Strict Consensus Tree

– Beispiel:T = { ((a,(b,c)),d) , (((a,b),c),d) , (((a,b),d),c) } (((a,b),c),d)

Strict Consensus

Page 53: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

53

A Classification of Consensus Methods for Phylogenetics – Consensus Methoden

• Majority Rule Tree– ein Median Tree

– Symmetrische Differenz Distanz d (T1, T2) = dRF(T1, T2)

– Der Majority Rule Tree T von T = {T1, … Tk} minimiert

d (T, T) = Σ1≤i ≤k d (T, Ti)

Page 54: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

54

A Classification of Consensus Methods for Phylogenetics – Consensus Methoden

• Loose Consensus Tree– Enthält genau alle Splits/Cluster, die mit jedem Baum

aus T kompatibel sind– Verfeinert den Strict Consensus Tree

– Beispiel:T = { ((a,b),(c,d)) , ((a,b,c),d) } ((a,b),c,d)

Page 55: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

55

A Classification of Consensus Methods for Phylogenetics – Consensus Methoden

• Loose Consensus Tree– Wenn T nur aus binären Bäumen besteht, ist der Loose

Consensus Tree identisch mit dem Strict Consensus Tree,da wenn ein Split/Cluster mit T kompatibel ist muss er/es in T enthalten sein

– Können Splits/Cluster enthalten, die nur in einem der Eingabebäume enthalten sind

– Sind kompatibel mit allen Eingabebäumen

Page 56: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

56

A Classification of Consensus Methods for Phylogenetics – Consensus Methoden

• Greedy Consensus Tree– Erlaubt das Einfügen zusätzlicher Splits/Cluster in den

Majority Rule Tree PHYLIP und PAUP erlauben dies

– Liste aller vorkommenden Splits/Cluster in der Reihenfolge ihrer Häufigkeiten (häufigste zu Beginn)

– Schrittweiser Aufbau einer kompatiblen Menge an Splits/Cluster Liste wird durchlaufen, jeder Splits/Cluster wird in S aufgenommen, wenn er mit allen in S enthaltenen Splits/Clustern kompatibel ist

– Problem: Behandlung von Splits/Clustern die mit gleicher Häufigkeit vorkommen willkürliche Auswahl

Page 57: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

57

A Classification of Consensus Methods for Phylogenetics – Consensus Methoden

• Theorem 2.6.:– Die Greedy Selection Methode erzeugt einen

Consensus Baum, der den Majority Rule Tree und den Loose Consensus Tree verfeinert.

• Beweis (für ungewurzelte Bäume):– Splits, die in mehr als der Hälfte der Eingabebäume

enthalten sind, stehen in der ersten Hälfte der Liste; sie sind kompatibel und werden deshalb alle in S aufgenommen

– Jeder Split A|B der mit allen Eingagebäumen kompatibel ist muss in S aufgenommen (es kann in keinem Baum einen Split geben, der mit A|B inkompatibel ist)

Page 58: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

58

A Classification of Consensus Methods for Phylogenetics – Consensus Methoden

• Cluster Schnittmengen Methoden nur für gewurzelte Bäume

• Adams Consensus Tree– Erste Consensus Methode für Bäume (1972)

– П1, П2, … Пk sind k Partitionen auf der Menge X– Partition П ist das Produkt dieser k Partitionen:

a, b X mit a ≠ b sind nur in dem gleichen Block von П enthalten, wenn sie das in allen Пi (für alle i) sindBsp: ab|cde , ac|bde a|b|c|de

– Maximale Cluster Partition von T: П(T)Partition, die die maximalen Cluster von T enthält

Page 59: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

59

A Classification of Consensus Methods for Phylogenetics – Consensus Methoden

• Bildung durch rekursives Aufstellen von Partitionen П von T und Restriktionen der Bäume in T

Procedure AdamsTree(T1, … Tk )If T1 enthält nur ein Blatt return T1 else erzeuge П(T), das Produkt von П(T1), … П(Tk)For jeder Block B von П(T) doAdamsTree (T1 | B, … Tk | B )Verbinde die Wurzeln dieser Bäume mit einem

neuen Knoten vreturn diesen Baum

end

Page 60: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

60

A Classification of Consensus Methods for Phylogenetics – Consensus Methoden

• Beispiel:• T1: (((a,b),c),d)

T2: (((c,b),a),d)

П(T1) = abc|dП(T2) = cba|d

П(T) = abc|d

Procedure AdamsTree(T1, … Tk ) If T1 enthält nur ein Blatt

return T1 else erzeuge П(T), das Produkt von П(T1), … (Tk)

For jeder Block B von П(T) doAdamsTree (T1 | B, … Tk | B )

Verbinde die Wurzeln dieser Bäume mit einem neuen Knoten vreturn diesen Baum

end ((a,b,c),d)

• T1|A : ((a,b),c)T2|A : ((c,b),a)

П(T1|A) = ab|cП(T2|A) = cb|a

П(T |A) = a|b|c

Page 61: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

61

A Classification of Consensus Methods for Phylogenetics – Consensus Methoden

• Theorem 2.8.:– Sei TAD der Adams Consensus Tree für die

Eingabebäume T = {T1, … Tk}.

∩1≤i≤k r(Ti) _ r(TAD) _ 1≤i≤k r(Ti)

• Beweis:– … siehe Ausarbeitung

Page 62: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

62

A Classification of Consensus Methods for Phylogenetics – Klassifikation

• Klassifikation der Consensus Methoden– Kriterium zur Klassifikation:

Art des zusätzlichen Informationsgehalts im Vergleich zum Strict Consensus Tree

Page 63: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

63

A Classification of Consensus Methods for Phylogenetics – Subtrees & Supertrees

• Subtrees & Supertrees– Bisherige Bedingungen:1) Alle Eingabebäume haben das gleiche Taxaset2) Der Consensus Baum ist auf dem gleichen Taxaset

wie die Eingabebäume

• Subtrees– Im Ausgabebaum können bestimmte Taxa

weggelassen werden– Agreement Subtree T für T = {T1, … Tk}:

T = Ti | X für alle i = 1, … k

Page 64: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

64

A Classification of Consensus Methods for Phylogenetics – Subtrees & Supertrees

• Supertrees– Eingabebäume können verschiedene Taxasets

beinhalten

– Zur Analyse auf verschiedenen Datenmengen, die verschiedene Informationen (Taxa) enthalten

– Zur Konstruktion großer Phylogenien

– Einige Consensus Methoden wurden auf das Supertree Problem angepasst (Strict, Adams, …)

– Wilkinson & Thorley haben eine Methode entwickelt, die über Teilmengen aus der Gesamtmenge von Taxa einen Supertree erzeugt.

Page 65: Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

65

Quellen

• Splits in the Neighborhood of a Tree, David Bryant, DIMACS Series in Discrete Mathematics and Theoretical Computer Science

• Aclassifikation of Consensus Methods for Phylogenetics,David Bryant, Annals of Combinatorics, 2003