Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C....

48
2014.11.11. 조선일보컬럼

Transcript of Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C....

Page 1: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

2014.11.11.조선일보컬럼

Page 2: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Chap. 4. Distance-Based Method of Phylogenetics

Distance-based method vs.

Character-based method

Page 3: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

시간

변이

A B C

D

• Phenetic relationship(표현론적 관계)

(A(B,C)) Phenetic relationship에의해 계통을 추론하는 법: Distance-based method

• Cladistic relationship(분지적 관계)

((A,B)C) Cladistic relationship에의해 계통을 추론하는 법: Character-based method

참고) Chronistic relationship(시간적 관계)(D, (A,B,C))

• 종이하의 분류군 또는 집단간의 관계와 같이 낮은 rank의 분류군에서는phenetic relationship = cladisticrelationship이 될 가능성이 많지만 상위 rank에 있어서는 pheneticrelationship은 cladistic relationship과 달라질 가능성이 많다.

Page 4: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Molecular Phylogenetics (분자계통학)의 장점

- 닮았나 닮지 않았나 라고 하는 phenotype들은 종종 진

화적 계통관계를 잘 못 보여주기도 함. 형태학적 유사성

은 언제나 유전적 유사성을 반영하는 것은 아니다.

homoplastic characters (불계적 형질) 때문임.

- 형태학적 형질들은 수가 적어 불충분 함.

• 분자적 자료의 비교에 있어서도 homology를 생각하여

비교의 대상이 될 수 있는 것을 비교하여야 함.

homologous site (상동 좌위)들을 비교해야 하며,

또한 sequence alignment 가 필요함.

Page 5: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

HumanChimpanzeeLionSea lionBat

Humerus

Phalanges

Metacarpals

Carpals

Radiusand ulna

Homology 상동

Page 6: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Phylogenetic Tree- Node 절- Terminal node 말단절- Internal node 내부절- Inferred ancestor (추정) 조상

- Newick format: (((I, II), (III, IV)), V)

- Multifuracting vs. bifracting

- Scaled tree vs. unscaled tree

• 윗 그림의 circle에 해당하는 분류군을 분자계통학과 진화학에서는 MRCA (most recent common ancestor)라고 부른다.

Page 7: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

• 왼쪽 그림과 같이 모든 분류군이 동일 선상에 놓여있고, tree는 이들간의 “관계” 만을 보여주고 있을 때 이를unscaled tree 라고 한다. 이때 Y축에서의 분류군간의 거리와, X축에서의 node 간의거리는 무의미하다.

• 분류군의 분지양상만 고려하여 표시한 수지도(dendrogram)인 cladogram(분지도; 분계도)이 여기에속한다.

Page 8: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

• Scaled tree에 있어서는각 분류군이 동일직선상에놓여있지 않다. 즉 각각의branch의 길이들이 모두틀리고, 이 때 X축에서의node 간의 거리(가지의 길이)는 형질의 변화 양에 해당하고, Y축에서의 분류군간의 거리는 unscaledtree와 마찬가지로 무의미하다.

• 분류군의 분지양상과 함께변화한 형질의 수를 반영하는 계통도를 phylogram이라고 한다.

Page 9: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Newick Format- 계통수의 정보를 텍스트 형태로 저장한 것으로 계통수의 분지상태, 각 가지의 길이

정보 등이 들어 있다. 텍스트 형태의 Newick form의 계통수를 tree drawing 프로그

램에 넣으면 그래픽 형태의 tree를 만들어주게 된다. 계통수에서 두 분류군이 묶이

는 것을 괄호와 컴마로 표현하며 이를 쌓아나가서 전체 계통수 정보를 담게 된다.

※ 다분지의 형태일때는 여러 개의 분류군을 컴마로 연결하면 됨.

Page 10: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Newick format

계통수에서 branch의 길이를 newick format에 포함시키기도 하며,

1 1

2

1 1

1

32

(((A:1,B:1):1,C:2):2,(D:1,E:1):3)

100 95

Node의 통계학적 지지도(bootstrap value)등 기타 표시사항을 포함시키기도 한다.

(((A:1,B:1)1.0:1,C:2):2,(D:1,E:1)0.95:3)

※ Bootstrap은 이후에 설명함.

Page 11: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

D0259 C. longerostrata.v.pal 실피사초D0103 C. boottiana 밀사초

D0008 C. laticeps 갯보리사초E0338 C. mitrata 겨사초

D0013 C. mitrata.v.ari 겨락겨사초E0109 C. candolleana 두메청사초E0402 C. nervata 양지사초D0218 C. kamagariensis 좀목포사초

D0660 C. meridiana 갯바위청사초D0003 C. breviculmis.v.fib 갯청사초D0023 C. breviculmis 청사초

F0014 C. morii 02.DecoraeE0025 C. blepharicarpa.v.ste 여우꼬리사초E0318 C. matsumurae 왕밀사초E0488 C. sabynensis.v.lei 지리실청사초

D0029 C. sabynensis 실청사초D0188 C. sabynensis 실청사초

D0275 C. sabynensis.v.ros 부리실청사초F0017 C. brachyatheraD0067 C. polyschoena 가지청사초D0099 C. genkaiensis 목포사초E0491 C. sachalinensis.v.sik 녹빛실사초E0003 C. alterniflora 선사초E0128 C. conica 애기사초

E0541 C. tsushimensis 섬밀사초E0316 C. macrandrolepsis 청피사초

D0002 C. tristachya 반들사초D0006 C. tristachya.v.poc 애기반들사초

E0302 C. ligulata 갈사초D1231 C. tenuiformis.v.neo. 그늘실사초

E0606 C. tenuiformis.v.neo. 그늘실사초D0787 C. maculata 무늬사초H0009 C. oligocarpa

E0330 C. metallica 흰이삭사초E0482 C. quadriflora 녹빛사초

E0485 C. rugulosa 큰천일사초H0005 C. hyalinolepis

D0449 C. glabrescens 곱슬사초D0206 C. miyabei 융단사초

G0015 C. gotoi 회령사초H0007 C. lupuliformisI0001 C. dickinsii 도깨비사초

G0022 C. brevicollis 왕삿갓사초F0011 C. vesicaria 새방울사초

G0021 C. capricornis 양뿔사초H0001 C. comosa

H0011 C. polystichaE0483 C. nakasimae 화산사초

E0493 C. scabrifolia 천일사초D0004 C. pumila 좀보리사초

E0013 C. arnellii 무산사초D0208 C. planiculmis 그늘흰사초

E0579 C. aphanolepis 골사초E0390 C. mollicula 애기흰사초

D0084 C. japonica 개찌버리사초D0055 C. doniana 흰사초 (Korea)

F0020 C. alopecuroidesF0029 C. doniana 흰사초 (Taiwan)

E0001 C. aequialta 물비늘사초D0521 C. augustinowiczii 북사초

D0149 C. heterolepis 산비늘사초D0057 C. forficula 산뚝사초

D0635 C. dimorpholepis 이삭사초D0081 C. maximowiczii 왕비늘사초

E0525 C. suifunensis 쇠풍경사초D0082 C. phacota 비늘사초

E0497 C. shimidzensis 산꼬리사초F0008 C. spectabilis

F0007 C. obnuptaE0333 C. micrantha 좁쌀사초E0198 C. humbertiana 큰뚝사초D1093 C. thunbergii 복지사초E0449 C. phacota.v.gra 짧은비늘사초

F0018 C. dissitifloraE0601 C. peiktusani 백두사초

E0331 C. meyeriana 진들검정사초E0426 C. orbicularis.v.bra 구슬사초

D0271 C. jaluensis 참삿갓사초D0269 C. erythrobasis 한라사초

D0524 C. lasiolepis 난사초D0289 C. mira 꼬랑사초

E0180 C. gifuensis 애기감둥사초D0001 C. lanceolata 그늘사초

D0261 C. humilis.v.nan 가는잎그늘사초D0279 C. pediformis 넓은잎그늘사초D0009 C. lanceolata 그늘사초

F0001 C. spissaH0010 C. pensylvanica

E0251 C. kujuzana 장성사초D0527 C. pilosa 털사초D0265 C. egena 나래사초D0087 C. parciflora.v.mac 애기염주사초E0157 C. filipes 낚시사초H0014 C. woodii

H0006 C. lonchocarpaH0004 C. folliculata

D0482 C. brownii 흰꼬리사초D0085 C. ischnostachya 염주사초

D0059 C. transversa 화살사초E0479 C. pseudochinensis 햇사초

E0139 C. dispalata 삿갓사초D1135 C. ussuriensis 싸라기사초

F0019 C. albaD0086 C. bostrychostigma 길뚝사초

G0001 C. sendaica 홍노줄사초F0013 C. perakensis

H0019 Schoenoxiphium altumD0129 C. gibba 나도별사초F0015 C. duriuscula 들사초

D0171 C. laevissima 애괭이사초D0497 C. neurocarpa 괭이사초

D0120 C. leiorhyncha 산괭이사초D0005 C. kobomugi 통보리사초

E0431 C. pallida 경성사초E0012 C. arenicola 진퍼리사초

H0013 C. vulpinoideaH0012 C. stipata 양덕사초

D1131 C. stipata 양덕사초G0008 C. lithophila 바위사초

F0039 C. elongataG0019 C. canescens 산사초

G0003 C. loliacea 호밀사초D1301 C. tenuiflora 별사초

E0528 C. tenuiflora 별사초G0010 C. echinata 함북사초 (Korea)H0003 C. echinata (USA)

D0145 C. maackii 타래사초D0210 C. remotiuscula 층실사초

H0002 C. decompositaH0018 Kobresia filifolia

G0020 C. hakonensis 애기바늘사초G0018 C. uda 개바늘사초D0263 C. onoei 바늘사초

E0583 C. capillacea 잔솔입사초D0429 C. biwensis 솔잎사초

E0484 C. rhizopoda 뿌리대사초H0015 Cymophyllus fraseri

H0021 Uncinia sulcataH0022 Uncinia repaensisH0008 C. nardina

H0024 C. curvulaH0016 Kobresia myosuroides

H0017 Kobresia royleanaD0108 C. ciliatomarginata 털대사초

D0075 C. siderosticta 대사초D0116 C. okamotoi 지리대사초

0.005

E0559 Eriophorum gracile 작은황새풀E0854 Trichophorum dioicum 동강고랭이

E0711 Eleocharis acicularis.f.longiseta 쇠털골E0572 Bulbostylis densa 꽃하늘지기

E0735 Fimbristylis autumnalis 애기하늘지기E0812 Lipocarpha microcephala 세대가리E0607 Cyperus amuricus 방동사니

E0796 Kyllinga brevifolia 파대가리E0814 Rhynchospora chinensis 고양이수염

0.005

OUTGROUP

3x

Subgenus Carex

Subgenus Vigniastra

Subgenus Psyllophora

Subgenus Vignea

Subgenus Kreczetoviczia

Sect. Depauperate

Sect. Mitratae

Sect. MitrataeSect.Decorae

Sect. Rhomboidales

10097

100

8596

9352

6782

79

7553

73 100

100

100

87

100

8277

78100

9367

100

87

100

100

9999

969170

6570

7469

58 9198

76

7699

10099

100 73

867480

100

100

7753

55

52

97

100

885865

100

72

10057100

10097

5585

52

74

100

100

88

100100

100

95

100100

81

6665

95

62

100100

Sect. Mitratae

Sect. Mitratae

Sect. Aulocystis

Sect. RhomboidalesSect. Mitratae

Sect. MitrataeSect. Occulusae

Sect. Digitalae

Sect. Rhomboidales

Sect. Chlorostachyae

Sect. Tumidae

Sect. Carex

Sect. Digitalae

Sect. GlaucaeSect. Lamorochlaenae

Sect. Silvaticae

Sect. Tumidae

Sect. Tumidae

Sect. Vesicariae

Sect. Pseudocypereae

Sect. Carex

Sect. Silvaticae

Sect. Anomalae

Sect. Microrhynchae

Sect. Microrhynchae

Sect. Digitalae

Sect. Digitalae

Sect. Anomalae

Sect. Decorae

Sect. Rarae

Sect. Circinatae

Sect. NardinaeSect. Curvulae

Sect. Anomalae

Sect. Depauperate

Sect. Glaucae

Sect. PaniceaeSect. Rostrales

Sect. AlbaeSect. SilvaticaeSect. Gracilis

Sect. Forficulae

Sect. Praelongae

Sect. Praelongae

Sect. ScitaeSect. Temnemis

Sect. Phacocystis

Sect. Mundae

Sect. Phacocystis

Sect. GibbaeSect. BoerneraSect. PhleoideaeSect. MacrocephalaeSect. AmmoglochinSect. DivisaeSect. Vulpinae

Sect. HolarrhenaeSect. Elongatae

Sect. Canescentes

Sect. StellulataeSect. OvalesSect. RemotaeSect. Heleoglochin

Sect. Siderosticatae

Sect. Acrocystis

Sect. Praelongae

Caricoid clade

Basal Core Carex

Siderosticta clade

Caricoid

cla

de

Vig

nea

cla

de

Core

Care

xcla

de

Eu-core

Care

xcla

de

A

B

C

D

E

F

G

H

I

J

K

L

Sect. Lupulinae

Sect. Acrocystis

Six DNA regions -2

Six DNA regions -1

7)0.3800:0.00320832,(((((E0483_C._nakasimae_06Carex_2.Carex:0.00000000,F0011_C._vesicaria_08Vesicariae_2.Carex:0.00000000)0.5800:0.00000000,I0001_C._dickinsii_9Vesicariae_3.Carex:0.00000000)0.2200:0.00000000,G0015_C._gotoi_10Tumidae.Q_2.Carex:0.00594161)0.1200:0.00292581,(E0493_C._scabrifolia_10Tumidae_2.Carex:0.00297665,D0004_C._pumila_10Tumidae_2.Carex:0.00000000)0.7900:0.00596127)0.0900:0.00000000,((((E0485_C._rugulosa_10Tumidae_2.Carex:0.00000000,H0005_C._hyalinolepis_10Tumidae_2.Carex:0.00000000)0.2000:0.00000000,H0007_C._lupuliformis_Q_2.Carex:0.00957413)0.0800:0.00000000,E0013_C._arnellii_13Silvaticae_2.Carex:0.00648292)0.0100:0.00000000,(G0022_C._rhynchophysa_08Vesicariae_2.Carex:0.00295860,(H0011_C._polysticha_11Pseudocypereae_2.Carex:0.00296523,((G0021_C._capricornis_11Pseudocypereae_2.Carex:0.00301512,H0001_C._comosa_11Pseudocypereae_2.Carex:0.00200569)0.3400:0.00000000,(D0206_C._miyabei_06Carex_2.Carex:0.00000000,D0449_C._glabrescens_06Carex_2.Carex:0.00000000)0.6700:0.00319617)0.3400:0.00093975)0.4600:0.00277242)0.0000:0.00000000)0.0000:0.00000000)0.3000:0.00436479)0.0400:0.00000000)0.0000:0.00000000)0.0000:0.00000000)0.0000:0.02149412)0.0000:0.00160936)0.0000:0.01149189)0.0000:0.02642003,D0787_C._maculata_16Glaucae_2.Carex:0.00972790)0.0000:0.00000000,(D0208_C._planiculmis_15Anomalae_2.Carex:0.00321497,(D0085_C._ischnostachya_15Anomalae_2.Carex:0.00000000,(D0482_C._brownii_15Anomalae_2.Carex:0.00000000,D0059_C._transversa_15Anomalae_2.Carex:0.00320152)0.5300:0.00000000)0.5400:0.00338826)0.4200:0.00329080)0.0000:0.00000000,D0269_C._erythrobasis_24Digitatae_2.Carex:0.00000000)0.0000:0.00000000,(D0289_C._mira_26Acrocystis_2.Carex:0.00294817,E0180_C._gifuensis_26Acrocystis_2.Carex:0.00000000)0.8700:0.01052531)0.3800:0.00767931,(G0001_C._sendaica_36-1Gracilis_3.Kreczetoviczia:0.00000000,(D1135_C._ussuriensis_27Albae_2.Carex:0.00000000,F0019_C._alba_27Albae_2.Carex:0.00000000)0.8800:0.00499879)0.4600:0.00497918)0.0600:0.00000000,F0013_C._perakensis_02Decorae_2.Carex:0.00669717)0.4900:0.00769298,D0086_C._bostrychostigma_13Silvaticae_2.Carex:0.02485446)0.5800:0.01931876,(((((((((((E0583_C._capillacea_62Rarae_5.Psyllophora:0.00000000,D0263_C._onoei_62Rarae_5.Psyllophora:0.00000000)1.0000:0.00362561,G0018_C._uda_62Rarae_5.Psyllophora:0.00000000)0.7700:0.00356322,D0429_C._biwensis_62Rarae_5.Psyllophora:0.00371786)0.1600:0.00000000,G0020_C._hakonensis_62Rarae_5.Psyllophora:0.00000000)0.8600:0.01252590,E0484_C._rhizopoda_64Circinatae_5.Psyllophora:0.00645764)0.7500:0.00946989,(H0016_Kobresia._myosuroides:0.00326516,H0017_Kobresia._royleana:0.00000000)0.9000:0.00676012)0.3500:0.00460756,(H0021_Uncinia._sulcata:0.00325976,(H0022_Unicinia._repaensis:0.00325694,(H0015_Cymophyllus._fraseri:0.02457010,H0019_Schoenoxiphium._altum:0.04526576)0.3200:0.00891148)0.0000:0.00000000)0.0500:0.00403591)0.0000:0.00000000,H0024_C._curvula_04Curvulae_2.Carex:0.00685167)0.0000:0.00000000,H0008_C._nardina_68Nardinae_5.Psyllophora:0.00675554)0.0100:0.00000000,H0018_Kobresia._filifolia:0.01016620)0.1100:0.00620773,(D0129_C._gibba_50-1Gibbae_4.Vignea:0.00660151,((D0005_C._kobomugi_45Macrocephalae_4.Vignea:0.00674749,D0497_C._neurocarpa_40Phleoideae_4.Vignea:0.01020125)0.5600:0.00326049,(((D0120_C._leiorhyncha_40Phleoideae_4.Vignea:0.00000000,D0171_C._laevissima_40Phleoideae_4.Vignea:0.00442680)0.4700:0.00000000,F0015_C._duriuscula_47Boernera_4.Vignea:0.00682677)0.1900:0.00000000,(((((D1301_C._tenuiflora_56Canescentes_4.Vignea:0.00000000,E0528_C._tenuiflora_57Canescentes_5.Vignea:0.00000000)0.6700:0.00326115,G0019_C._canescens_56Canescentes_4.Vignea:0.00000000)0.4600:0.00000000,G0003_C._loliacea_56Canescentes_4.Vignea:0.00329578)0.4700:0.00323911,D0145_C._maackii_53Ovales_4.Vignea:0.00988170)0 2900:0 00000000 (((D0210 C remotiuscula 51Remotae 4 Vignea:0

실제 연구결과로 나온 좌측 계통수를 Newickform 으로 표현하면 아래와 같다

Page 12: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

계통연구에 있어서 분자자료의 생성 방법과 자료의 종류

1) DNA-DNA hybridization (자료종류: %)

2) Restriction Fragment Length Polymorphism (RFLP)

(자료종류: 0/1)

3) DNA sequencing (자료종류: A/C/G/T)

i) Single gene comparison

ii) Multiple gene comparison

iii) Comparative genomics

Page 13: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

계통학에서 사용되는 분자적 방법

1) DNA-DNA hybridization

- 생물간의 전체 유전체의 비교.- DNA 분석 초기 동물군에서 활발히 연구.

ex) 독수리, 콘돌, 황새간의 유연관계 연구- 현재는 재현성이 부족하여 거의 사용되고

있지 않음.

Page 14: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

2) RFLP (restriction fragment length polymorphism)

Page 15: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Enzyme Source Recognition Sequence Cut

EcoRI Escherichia coli 5'GAATTC 5'---G/AATTC---3'

EcoRII Escherichia coli 5'CCWGG 5'---/CCWGG---3'

BamHI Bacillus amyloliquefaciens 5'GGATCC5'---G/GATCC---3'

HindIII Haemophilus influenzae 5'AAGCTT 5'---A/AGCTT---3'

TaqI Thermus aquaticus 5'TCGA 5'---T/CGA---3'

NotI Nocardia otitidis 5'GCGGCCGC5'---GC/GGCCGC---3'

HinfI Haemophilus influenzae 5'GANTC 5'---G/ANTC---3'

Sau3A Staphylococcus aureus 5'GATC 5'---/GATC---3'

PovII* Proteus vulgaris 5'CAGCTG5'---CAG/CTG---3'

SmaI* Serratia marcescens 5'CCCGGG5'---CCC/GGG---3’

Page 16: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초
Page 17: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

GGATCC

GGATCC GGATCC GGATCC GGATCC

GGATCC GGATCC GGAACC GGATCC

GGATCC GGATCC GGATCC GGATCC

Page 18: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

• 식물에서는 주로 cpDNA의 RFLP 연구가 1980년대말~90년대 초반까지 활발히 이루어짐• RFLP의 특징은 매우 긴 구간에 대하여 전반적으로 작은 부분의 sampling에 의하여 공유형질을 조사할 수 있다는 것으

로 효율적으로 전체의 유연관계를 판단할 수 있다.• 이에 반하여 DNA sequencing 방법은 상대적으로 작은 구간에 대하여 모든 DNA 염기서열을 비교하는 것이다. 즉 정밀

한 분석은 되지만 가끔 전체를 대변하지 못할 때도 있다 유전자별로 분석한 결과가 틀린 경우도 있음.

Page 19: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

3) DNA sequencingi) 단일 DNA 구간에 의한 자료ii) 복수의 DNA 구간에 의한 자료iii) Comparative genomics

• 계통연구를 위한 DNA 염기서열 분석의 장점:i) 객관적인 형질상태(character status): A/C/G/T ii) 계통상 의미 있는 형질의 수(informative character)가 무수히 많다.iii) 기존의 데이터에 새로운 데이터의 첨가가 용이하다.iV) 매우 적은 양의 시료에서도 데이터를 얻을 수 있다.V) 실험 결과가 광범위한 분류군에 이용될 수 있다.

- 진화속도가 느린 유전자: 전체 피자식물의 계통- 진화속도가 빠른 유전자 또는 유전자들 사이의 염기서열

(intergenic spacer) 등: 속 또는 종들의 구분

• DNA 염기서열 결정방법에 의한 계통수 작성 과정

Sequencing (염기서열 결정) GenBank search (유사염기서열 탐색) filtering (불필요 염기서열 제거) alignments (정렬) phylogenetic analyses (계통분석)

Page 20: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Rooted vs. Unrooted Tree

- 모든 계통수의 도출법은 공통적으로 먼저 unrooted tree (tree network)가 만들어 진 후 root를 설정하여 진화의 방향을 표시하면 rooted tree가 된다. Root 의 설정은 outgroup을 지정함으로서 이루어 지는데, outgroup이란 연구대상의 분류군과 공동 조상을 가장 먼저 이루는 군임(진화의 역사에 있어서 공동조상으로부터 연구 대상과 가장 빨리 분지된 군).

Page 21: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Rooted tree: 궁극적으로 모든 대상 종들이 뻗어 나왔다고 생각되는 하나의root를 설정한 계통수.

root 설정 후 비로소 조상-후손관계가 성립된다.

Page 22: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초
Page 23: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Q: 다음의 unrooted tree 에서 화살표를 rooting 위치로 삼아rooted tree로 다시 그리시오.

A

B

C

D

E

F

G

H

I

J

Page 24: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Find the best tree in HERE

n=3

- n 개의 종이 있을 때 가능한 Rooted tree (NR) 와 unrooted tree (NU) 의수

- 135 human mtochondrial DNA sequences data에서 가능한 tree의수는 2.113X 10267 !!!!!

Page 25: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

A B

C

Unrooted Rooted

A B C A C B C B AN=3

N=4

N=n…

A

B

C

D

A

C

B

D

A

D

C

B

A B C D A D B C A D B C A B D C A B D C

A C B D A D C B A D C B A C D B A C D B

C B A D C B D A C D B A C B D A C B D A

Page 26: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

- Species tree가 언제나gene tree와 일치하는 것은 아님. homologous 한 유전자를 비교해야 함.

Page 27: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초
Page 28: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Homologous (상동)

Orthologous genes (이종상동유전자): 종분화에 의해 만들어짐

Paralogous genes (동종상동유전자; 유사유전자): 유전자 중복(gene duplication)에 의해 만들어짐.

- 계통수를 그릴 때 반드시 orthologous gene들을 분석해야 올바른 계통수를 얻을 수 있고, paralogous

gene들을 분석하면 종의 진화역사와 다른 계통수가 만들어질 수도 있다.

- 유전자들 간의 orthologus/paralogous의 관계는 모든 유전자들을 포함한 계통수를 그려봄으로써 파

악할 수 있다.

Page 29: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

1TTTTT

2CAAAA

3AAAAT

4CCTTT

5CCCAA

6TGGGG

ABCDE

좌측 자료에서

- 변이를 포함한 형질(variable character): 2, 3, 4, 5, 6

- 변이가 없는 형질(invariable character): 1

- 한 개의 변이만을 포함한 형질(singleton): 2, 3, 6

- 계통학적인 정보가 없는 형질(uninformative character): 1, 2, 3, 6

- 계통학적인 정보가 있는 형질(informative character): 4, 5

Parsimony method: informative character 만을 이용한다.Distance method: 모든 character들을 이용한다.

Page 30: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Distance Matrix Method: 가장 간단한 계통수 제작법

Distance based method의 대표적 예UPGMA: Unweighted-pair-group method with arithmetic mean

(산술평균에 의한 비가중 쌍별 그룹법)

Pairwise Distance Matrix

UPGMA tree 작성 방법1) Pairwise distance matrix의 작성: 두 염기서열에서 염기가 서로 다른 좌위의 수를 센다.

Page 31: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

2) Pairwise distance matrix에서 가장 작은 거리를 나타내는 분류군의 쌍을 선택하여 이 둘을우선적으로 묶음. D 와 E 가 가장 작은 거리를 나타냄: (DE)를 우선적으로 묶었음.

3) 이 둘을 묶은 분류군과 다른 분류군들과의 거리를 구함.D와 E를 묶었을 때 (DE)와 다른 분류군 X와의 거리는 DX와 EX의 거리의 합을 반으로 나눈 것으로 정의한다. Distance between (DE) and X:

d(DE)X = ½ (dDX +dEX)ex) d(DE)A = ½ (dDA +dEA) = ½ (12 + 15) = 13.5

4) (DE)를 포함한 pairwise distance matrix를 완성한 후 다시 이들 중 최소 숫자를 선택함. A와 C가 최소값을 갖음. (AC)를 묶음.

5) 3)~4)를 반복하여 전체 계통수를 완성함

- The smallest number is 8:(A, C)

Page 32: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Final Newick format: (((A, C)B, (D, E))

Estimation of Branch Lengths- 지금까지는 topology만을 구한 것이고(cladogram), 모든 가지

의 진화속도가 일정하다면 그림 4.7의 그림과 같이 간단히branch length를 도출해 낼 수 있다. 즉 AC의 거리는 8이었으므로 d(A(AC))와 d(C(AC))는 동일하게 4이다.

- 그러나 가지들의 진화속도가 다르면 세 개의 분지만을 고려한tree에서의 가지 길이는 그림 4.8과 같은 방법으로 구할 수 있다.

- 더 복잡한 계통수에서는 3분지만을 고려한 것을 반복함으로써전체 가지들의 길이를 구할 수 있다.

IF the molecular clock is present!

B

1

5.25

5

d(ABC)(DE)=(16.5+12.5)/2=14.5

Page 33: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

d’ij: 종 i와 j 간의 transformed distancedD: outgroup과 모든 ingroup 분류군들간의 평균거리

# in this case: dD=(dAD+dBD+dCD)/3= (12+15+10)/3=37/3

d’AB= (dAB-dAD-dBD)/2 + 37/3 = (9-12-15)/2+37/3= -9+(37/3)=10/3

Transformed Distance Method (TDM; Farris, 1977)- UPGMA 단점: 모든 계통의 진화속도가 일정하다고 가정.- TDM 은 outgroup과 ingroup 내의 진화속도를 다르게 가정하여 계산할 수 있음.

Page 34: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Neighbor’s Relation Method 근친접근법 (Sattach and Tversky, 1977)- UPGMA의 또 다른 변형으로 모든 분지들의 길이가 최소화되도록 계통수를 작성.

Neighbor와의 관계에 중점을 둔 방법- Neighbor (근친): 오직 하나의 내부절에 의해 분리된 한쌍의 분류군들을 뜻함- 4개의 종으로 만들 수 있는 모든 쌍의 배열 중 어떤 배열이 사점조건을 만족하

는지 파악해 냄.- 4개의 분류군을 정하고 dAB+dCD, dAC+dBD, dAD+dAC를 계산하여 합이 가

장 적은 두 개의 쌍에 1점, 나머지는 0점 부여- 모든 조합을 반복- 가장 높은 누적점수를 갖는 쌍이 근친이됨- 근친이 된 그룹을 인식하여 이를 하나의 점으로 인식.- 이를 반복해 나감…

A,B가 붙고, C,D가 붙은 사점 조건은 다음을 만족.

Page 35: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

A

B

C

D

E

B

C

D

A

E

C

D

A

B

E

D

A

B

C

E

dAB+dCD, dAC+dBD, dAD+dBC

9+10, 8+15, 12+1119 23 23 AB 쌍과 CD 쌍에 각각 1점 부여

dBE+dCD, dCE+dBD, dDE+dBC

dAE+dCD, dAC+dDE, dAD+dCE

dAB+dDE, dAE+dBD, dAD+dAE

dAB+dCE, dAC+dBE, dAE+dAC

18+10, 13+15, 5+1128 28 16 DE 쌍과 CE 쌍에 각각 1점 부여

15+10, 8+5, 12+1325 13 25 AC 쌍과 DE 쌍에 각각 1점 부여

9+5, 15+15, 12+1514 30 27 AB 쌍과 DE 쌍에 각각 1점 부여

9+13, 8+18, 15+8 22 26 23 AB 쌍과 CE 쌍에 각각 1점 부여

AB: 3점AC: 1점AD: 0점AE: 0점BC: 0점BD: 0점BE: 0점CD: 1점CE: 2점DE: 3점

Page 36: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Neighbor Joining (NJ) Method (근친 연결법; Saitou and Nei, 1987)- neighbor joining은 한 개의 내부절에 의해 연결된 분류군들의 쌍인 근친쌍을 순

차적으로 찾아내는 방법이다. 가장 가까운 분류군들을 합쳐나가는 과정이 아니라전체 계통수의 내부 branch 길이를 최소화하는 것이다. NJ tree의 알고리즘은 내부 절이 없는 star-like tree에서 시작하여 임의의 내부절을 만들고 branch의 길이를 계산한다. 순차적으로 모든 가능한 분류군들에 대해 근친을 연결하여 최소길이의 계통수를 발견하게 된다.

- X와 Y가 근친이고, 이들을 결합했을 때의 node를 XY라 하면d(X(XY))= X에서 다른 모든 나머지 분류군들간의 거리의 평균값-나머지 모든 분류군들 쌍들의 평균 거리d(Y(XY))= Y에서 다른 모든 나머지 분류군들간의 거리의 평균값-나머지 모든 분류군들 쌍들의 평균 거리

- 이러한 과정이 반복하면 언제나 가장 짧은 내부절을 갖는 두 개의 분류군들(neighbors)을 연결해 나가게 된다.

- 현재 계통수 작성을 위한 distance 방법으로 가장 많이 사용되는 알고리즘 이다.

S12: any pair of species can take positions 1 and 2 N: number of species 종의 수k: accepted outgroup Dij: distance between species

Page 37: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Chap. 5. Character-based Method of Phylogenetics

Page 38: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Parsimony: 최소가정법. 진화는 항상 그 변화 단계의 수를 최소화 하는 방향

으로 일어난다는 가정하에 수행하는 계통도의 재구성. 단어의 어원은 극도

로 절약하는 구두쇠를 의미하고, 단어 자체는 구두쇠의, 경제적인 등의 의미

를 갖는다.

하나의 자료가 있고, 이 자료에 대하여 여러 가지 형태의 계통수를 가정할

수 있다. 이 계통수 상에서 형질 하나하나가 어떻게 변화해 가는지를 추정할

때 node에서 묶어지는 형질의 수가 많아지면 많아질 수록 변화하는 단계

(step) 수가 줄어든다. 가장 최소의 step 수를 갖는 계통수가 바로

parsimony 방법에 의해 선택되어지는 가장 좋은 계통수이다.

Page 39: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

오컴의 면도날 (Occam's Razor 또는 Ockham's Razor)오컴의 면도날은 흔히 '경제성의 원리' (Principle of economy)라고도 한다. 14세기 영국의 논리학자이며 프란체스코회 수사였던 오컴의 윌리엄 (William of Ockham)의 이름에서 따왔다. 원문은 라틴어로 된 오컴의 저서에 등장하는 말이다

1. "Pluralitas non est ponenda sine neccesitate." (필요하지 않은 경우에까지 많은 것을 가정하면 안 된다)2. "Frustra fit per plura quod potest fieri per pauciora." (보다 적은 수의 논리로 설명이 가능한 경우, 많은수의 논리를 세우지 말라.)

간단하게 오컴의 면도날을 설명하자면, 어떤 현상을 설명할 때 불필요한 가정을 해서는 안 된다는 것이다. 좀더 쉬운 말로 번역하자면, '같은 현상을 설명하는 두 개의 주장이 있다면, 간단한 쪽을 선택하라(given two equally accurate theories, choose the one that is less complex)'는 뜻이다. 여기서 면도날은 필요하지 않은 가설을 잘라내 버린다는 비유로, 필연성 없는 개념을 배제하려 한 "사고 절약의 원리"(Principle of Parsimony)라고도 불리는 이 명제는 현대에도 과학 이론을 구성하는 기본적 지침으로 지지받고 있다.예를 들어, 새까맣게 그을린 나무가 있다고 가정하자. 이는 나무가 벼락에 맞았기 때문이거나, 아니면 누군가가 어떤 장치를 이용해서 나무가 완전히 잿더미로 변하지 않도록 적절히 그을린 다음 자신이 그을렸다는 흔적을 완전히 없앤 것일 수도 있다. 이 상황을 판단할 다른 증거가 없는 경우 오컴의 면도날을 적용해 본다면, 나무가 그을린 것은 벼락에 맞았기 때문이라고 추론하는 것이 옳다. 왜냐하면, 나무가 벼락에 맞아서 그을린 것이라고 설명하는 것이 더 적은 수의 가정을 필요로 하기 때문이다.중세의 철학자들과 신학자들의 복잡하고 광범위한 논쟁속에서, 오컴은 1324년의 어느 날 무의미한 진술들을토론에서 배제시켜야겠다고 결심한다. 그는 지나친 논리비약이나 불필요한 전제를 진술에서 잘라내는 면도날을 토론에 도입하자고 제안했다. 오컴은 "쓸데없는 다수를 가정해서는 안 된다"고 말한다. 이를 좀 더 알아듣기 쉽게 바꾸면 "무언가를 다양한 방법으로 설명할 수 있다면 우리는 그 중에서 가장 적은 수의 가정을 사용하여 설명해야 한다"고 표현할 수 있다. 더 짧게 말하면, 설명은 간단할수록 좋다. 오컴의 면도날은 다음과 같이일종의 계율처럼 말해지기도 한다. "가정은 가능한 적어야 하며, 피할 수만 있다면 절대로 하지 말아야 한다."

오컴의 면도날은 단순히 "여러 가지 가설이 세워지게 된다면 그 중 하나를 고를 때 사용하는 일종의 태도"에지나지 않는다. 그렇기에 오컴의 면도날로 어느 가설을 선택했다고 해서 반드시 그 가설이 옳다고 볼 수는 없다. 거꾸로도 마찬가지로, 어느 가설을 오컴의 면도날로 "잘라내"버렸다 하더라도 그 가설이 틀렸다고 할 수없다. 오컴의 면도날은 진위를 가르는 잣대가 아니다.

Page 40: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Campbell Biology Chap. 26 - PARSIMONY Method

Species I

Three phylogenetic hypotheses:

Species II Species III

I

II

III

I

III

IIIII

III

세 종류의 새가 하나의 기원으로부터 진화했을 때, 진화의 과정을 보여주는 topology는 세가지밖에 없다(n=3일 때 rooted tree의 수). 이 세가지 중 가장 합리적인 한 개를 선택하면 되는데, parsimony에서는 진화과정상 형질의 변화를 최소화하는 계통수를 선택하게 된다.

Page 41: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Fig. 26-15-2

Species I

Site

Species II

Species III

I

II

III

I

III

IIIII

III

Ancestralsequence

1/C

1/C

1/C

1/C

1/C

4321

C

C C

C

T

T

T

T

T

T A

AA

A G

G

Anc Anc Anc

Page 42: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Fig. 26-15-3

Species I

Site

Species II

Species III

I

II

III

I

III

IIIII

III

Ancestralsequence

1/C

1/C

1/C

1/C

1/C

4321

C

C C

C

T

T

T

T

T

T A

AA

A G

G

I I

I

II

II

II

III

III

III3/A

3/A

3/A

3/A

3/A

2/T

2/T

2/T 2/T

2/T4/C

4/C

4/C

4/C

4/C

Anc Anc Anc

Anc Anc Anc

Page 43: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Fig. 26-15-4

Species I

Site

Species II

Species III

I

II

III

I

III

IIIII

III

Ancestralsequence

1/C

1/C

1/C

1/C

1/C

4321

C

C C

C

T

T

T

T

T

T A

AA

A G

G

I I

I

II

II

II

III

III

III3/A

3/A

3/A

3/A

3/A

2/T

2/T

2/T 2/T

2/T4/C

4/C

4/C

4/C

4/C

I I

I

II

II

II

III

III

III

7 events7 events6 events

Anc Anc Anc

Anc Anc Anc

Anc Anc Anc

Page 44: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

STRATEGIES FOR SEARCHING THE BEST TREE.1) Exhaustive search 완전한 검색

전체 가능한 모든 tree topology들에 대하여 모두 step 수를 계산하여 가장 좋은 tree를 구해내는 것이 궁극적인 완전한 검색법(exhaustive search)이다. 그러나 exhaustive search는분류군이 10개만 넘어가도 컴퓨터가 계산하기 거의 불가능한 값이 되어 실질적으로는 적용하기 힘든 방법이다.

하나의 data matrix에 대하여 특정 topology의 tree가 주어지면 형질 변화에 대한 step수를 계산할 수 있다(앵무새 진화의 예 데이터 참조). 여러 개의 가능한 tree가 있다면 이들 각각에 대한step수를 계산하여 가장 적은 step의 tree를 선택하면 이것이 바로 parsimomious tree 이다.

Page 45: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

2) Branch-and-bound method가지-경계법

Calculation of 20 taxa:about 1021 trees

Exhaustive search 보다는 효율적이지만 여전히 계산적 부하가많이 걸려서 일반적으로 20 분류군 이하에서 사용하는 방법이다.

Page 46: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

Branch and bound 방법의 진행 과정

다섯 분류군이 있을 때 세 분류군에 대한 unrooted tree를 먼저 그리고, 분류군을 하나 더 붙여 가능한 tree 3

개를 만들어 낸다(1). 한 분류군을 추가하여 가능한 세개의 tree를 만들고, 이들 중 하나를 선택한다(2). 지속

적으로 한개씩 분류군을 추가하여 tree를 만든 후(3), 최종적으로 마지막 분류군이 추가되면서 만들어진 tree

들에서(그림의 예에서는 전체 분류군 수가 6개이고, 마지막 단계에서 만들어진 tree의 수는 7개임) 각각 step

수를 계산하여(4~19) 이들 중 가장 작은 step인 241 step을 갖는 tree를 선택한다. 바로 전 단계의 n-1개의

분류군을 갖는 다음 tree에서 n-1개의 분류군만을 고려한 step의 수가 241보다 크면 다음 tree로 넘어가고

(11~12), 241보다 작은 step의 tree가 나

오면 여기에서 마지막 분류군을 추가하여

위의 과정을 반복한다. N-1 분류군으로

부터 생성된 tree들에 대한 계산이 끝나면

n-2 분류군이 생성한 tree들로 이동하여

같은 과정을 반복한다. 이로서 전체 tree

의 pool에서 최소 step의 tree를 도출해

낸다(그림에서는 229step이 최소임).

Page 47: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

3) Heuristic method 대략적 방법

- 임의의 계통수를 구성 후 이를 시작점으로 보다 tree를 조금씩 변화시켜 더욱 짧은 계통수를 찾아나감.

- 실질적으로 가장 많이 쓰이는 방법으로 가장효율적이다.

- 하지만 정밀한 조사를 하는 것이 아님으로 최상의 tree를 찾아내지 못할 가능성이 많다. 그러므로 분석을 한번만 하는 것이 아니고 여러가지 다른 최초 계통수를 사용하여 다수의 분석을 수행한 후 가장 적은 step 수를 갖는 계통수를 찾아낸다.

여러 가지 tree를 약간씩 변화시키는 방법으로는 branch swapping (분지교환) 방법이가장 많이 쓰인다.

Branch swapping (분지교환): 임의의 tree를 구성하고 일정수의 분류군을 포함하는가지를 잘라 다른 가지에 붙인 후 step 수를조사한다. 이를 반복하여 가장 적은 step수의 tree를 찾아나간다.

Page 48: Week13-Chap4-1amborella.net/2016-Bioinformatics/Week13-Chap4-1.pdf · 2016. 11. 21. · D0259 C. longerostrata.v.pal실피사초 D0103 C. boottiana밀사초 D0008 C. laticeps갯보리사초

- 단일 heuristic search로는 localbest tree만을 찾아낼 가능성이크다. 이는 마치 가장 높은 봉우리(best tree)를 찾는데, 한 지점에서 시작하여 위로 향하는 경사를 쫓아(작은 step수의 변형된tree) 만을 찾아갔을 때 도달하는꼭대기는 전체 지역에서 가장 높은 곳이 아니라 한 봉우리에서 가장 높은 지점(local best tree)이다. 이를 tree island 라고 하고여러 다른 지점에서 분석을 시작하여 되도록이면 많은 tree island들의 local best tree들을비교하여 the best tree를 찾아내야 한다.

- Exhaustive, branch and bound, heuristic search는 호수에서 가장 큰 물고기를 알아내는데 비유된다. Exhaustive search는 호수의 물을 모두 퍼내고 포함된 물고기를 모두 잡아 크기를 재서 가장 큰 물고기를 인식하는 것이고, branch and bound 방법은 예를 들어 1m 짜리 그물코를 갖는 큰 그물로 전체 호수를 훓터 내어 그물에 걸린 물고기만 크기를 재는 것이다. 그러나 이 두 방법 모두 현실성이 없고, 가장 현실성 있는 방법은 일정크기의 그물을되도록이면 많이 던지면 던질수록 확률적으로 가장 큰 물고기가 잡힐 가능성이 커진다.