ゲノムアセンブリ - 東京大学moris/lecture/upbsb/...Osteichthyes 条鰭綱...

ゲノムアセンブリ

百万年前millions of years ago

中生代 Mesozoic新生代Cenozoic古生代 Paleozoic

900 800 700 600 500 400 300 200 100 0

新原生代 Neoproterozoic

クリオジェニアン Cryogenianオルドビス紀

カンブリア紀

シルル紀

デボン紀

石炭紀

ペルム紀

三畳紀

ジュラ紀

白亜紀

パレオジン

ネオジン

エディアカラ紀Ediacaran

尾索動物、被嚢類ひのうるい Urochordata

頭索動物 Cephalochordata

脊索動物Chordata

ナメクジウオ

ホヤ

脊椎動物Verterata

ヤツメウナギ

無顎口上網Agnatha

軟骨魚類 Chondrichthyes

顎口上網がっこうじょうこう

Gnathostomata

サメ, エイ

硬骨魚類Osteichthyes

条鰭綱じょうきこう

Actinopterygii

多鰭目

全骨類 Holostei

ポリプテレス

チョウザメ, ガー, ボウフィン

真骨魚類 Teleostei

ゼブラフィッシュ

メダカ

ミドリフグ

トラフグ

肉鰭綱にくきこう

Sarcopterygii

シーラカンス, 肺魚肺魚類 Dipnoi

四肢動物類Tetrapoda

有羊膜類ゆうようまくるい

Amniota

両生類 Amphibiaカエル

爬虫綱Reptilia

鳥綱 Aves

トカゲ目 Squamata

ワニ目 Crocodilia

カメ目 Testudinata

トカゲ, ヘビ

ニワトリ

ワニ

カメ

哺乳綱Mammalia

犬

マウス、ラット

ヒト, チンパンジ

大規模ゲノムアセンブリの状況

アメリカAtlas (Baylor College)2.3億ミツバチ2006 / 10

アメリカArachne (MIT)34億オポッサム2007 / 5

Atlas (Baylor College)8億ウニ2006 / 11

アメリカAtlas(Baylor), P-CAP(Wash U), Celera29億アカゲザル2007 / 4

日本clone by clone 農業生物資源研究所3.9億イネ2005 / 8

アメリカJazz (JGI)16億アフリカツメガエル2008 / ?

アセンブリ方式総塩基数種論文発表

アメリカJazz (JGI)6億?ナメクジウオ2008 / ?

イギリスPhesion (Sanger Ctr.)16億ゼブラフィッシュ2008 / ?

日本Ramen (東大) 国立遺伝学研究所7億メダカ2007 / 6

アメリカArachne (MIT)24億ドッグ2005 / 12

アメリカPCAP, Arachne29億チンパンジ2005 / 9

アメリカPCAP (Wash. U.)10億チキン2004 / 12

フランス, アメリカArachne (MIT)3.4億ミドリフグ2004 / 10

アメリカAtlas (Baylor College) + clone by clone25億ラット2004 / 4

中国RePS (Beijing Genomics)

日本Ramen (東大) 農業生物資源研究所5億カイコ(染色体地図なし)2004 / 2

アメリカArachne (MIT) + clone by clone25億マウス2002 / 12

アメリカJazz (JGI)3.6億トラフグ(染色体地図なし)2002 / 7

中国RePS (Beijing Genomics)4.7億イネ(染色体地図なし)2002 / 4

アメリカCelera

国際チームclone-by-clone29億ヒト2001 / 2

大規模なゲノムシークエンシングセンター

米国• Joint Genome Institute, US Dept. of Energy• Whitehead Institute / MIT Center for Genome Research• Washington University Genome Sequencing Center• Baylor College of Medicine

英国• Wellcome Trust Sanger Institute

日本• 国立遺伝学研究所• 理化学研究所ゲノム科学総合研究センター• かずさ DNA 研究所• 農業生物資源研究所

シークエンシング技術の高速化

ヒトゲノムプロジェクト $2.7 billion, 17年

2004年の段階哺乳類ゲノム (3G塩基) の解読 $10-50 millionNIHファンド “$1000 genome project” Feb.20042005年夏から驚異的な高速化

0.012 – 0.02 億/ 日2304/ 日500 – 800 ntABI 3730xl

0.3 – 0.75 億/実験300,000/実験100 – 250 nt454

10 – 20 億/実験40,000,000/実験25 – 50 ntSOLEXA

総塩基数収集可能タグ数*配列（リード）長

*SOLEXAは１回の実験に 3-4 日, 454 は 7-8 時間註 SOLEXA の方式は illumina の HP を参照してください

新型シークエンサーの応用例• あたらしいSNP･挿入・削除の発見• 免疫沈降法と組み合わせたエピゲノム解析および転写因子結合部位解析

• 遺伝子発現のプロファイリング

T G C T T G A C T G A T C ASingle-stranded DNA

TGAT PrimerPolymerase

A

CGT

A

C

AG

T G

T

T

C

A

A

dNTP

ddATP

A C G TA

A

A

Sanger Method (1975)

ddNTP (deoxy triphosphate)

ddNTP(dideoxy triphosphate)

adenosinecytosineguanosinetyrosine

Template DNA

T G C T T G A C T G A T C A

TGATCA

・・・


TGATCAGTC


TGATCAGTCAA

A


TGATCAGTCAA AGC

ddATP ddCTP ddGTP ddTTP

C

A G

T

C

A

A

G

C

A

agarosegelelectrophoresis

A G C T C G C C T G A T C A

Template DNA

TGAT


TGATC


TGATCA


TGATCAG


TGATCAGG

・・・

G

C

A

G

C C

A

G

G

C

G

A

G

C

T

four-color fluorescent dye method (1986)

a) Multiple copies of genome

b) Sheared random fragments by fast water flow

c) Size fractionated fragments

ゲノムアセンブリの手順

Circular vectors

Linearvectors

GenomicDNAFragments

Circular vectors

Digestion

Ligation

Transfection

E. Coliwith a vector

mate pair (end pair)

d) Reads

c) Size fractionated fragments

e) Contigs

ゲノムアセンブリの手順

Original Reads

Assembly

1:CCTATGCTAGTCA2:CGACTGACTAGCAT3:GCTAGTCAGTCGATCTACC4:ACCGGTAGATCGACTG

1:CCTATGCTAGTCA2:ATGCTAGTCAGTCG

3:GCTAGTCAGTCGATCTACC4:CAGTCGATCTACCGGT

Double Stranded Reads1:CCTATGCTAGTCA1:TGACTAGCATAGG2:CGACTGACTAGCAT2:ATGCTAGTCAGTCG3:GCTAGTCAGTCGATCTACC3:GGTAGATCGACTGACTAGC4:ACCGGTAGATCGACTG4:CAGTCGATCTACCGGT

1:CCTATGCTAGTCA2:ATGCTAGTCAGTCG

3:GCTAGTCAGTCGATCTACC4:CAGTCGATCTACCGGT

4:ACCGGTAGATCGACTG3:GGTAGATCGACTGACTAGC

2:CGACTGACTAGCAT1:TGACTAGCATAGG

Contig 生成の詳細

Genome size G = 3*109. Given a random collection of N fragments of size L = 600.Sequence coverage = NL / G, e.g., = 10 if N = 5* 107. Join two fragments that share Lθ nucleotides (θ = 0.1).

1,966,2041,546,383

912,151

478,260

235,089

110,936

50,895

22,873

10,119

4,421

1,5261,940

3,289

6,273

12,761

27,043

58,945

131,158

296,471

678,526

1,000

10,000

100,000

1,000,000

10,000,000

1 2 3 4 5 6 7 8 9 10

Sequence coverage

Exp

ecte

d n

um

ber of co

ntigs

1,000

10,000

100,000

1,000,000A

vera

ge c

ontig le

ngth

Expected number of contigs Average contig length

Lander-Waterman Statistics （Contig 平均長の推定）

stopper fragmentfragment

L(1-θ)

fragment

No fragments appear at any of the first L(1-θ) base pairs.N/G: Probability that some fragments appear at an arbitrary position.

A contig stops at the “stopper” fragment.

Probability of having a stopper fragment:

Lander-Waterman Statistics （Contig 平均長の推定）

1) Overlap

2) Layout

3) Consensus CCTATG-TAGTCAGTCGATGCTAGTCAG

GCTAGTCGGTCGATCTACCCAGTCGATCTGCCGGT

GTCAGTC-ATCTAC-GGTTAGCATTGCConsensus CCTATGCTAGTCAGTCGATCTACCGGTTAGCATTGC

U1 R U2 R U3

Contig 生成の困難な点

Overlap

Non-Overlap

dangling

塩基が一致

dangling

A R B

C R D

A R D

C R B

Which is the correct layout?Are A and B linked?

Correct

A B

Contig 生成エラーの検出： mate-pair 情報の利用１

Route A

Route B

Misjoin by better alignment scores

Route A

Route B

matepair

Revision by matepair

Contig 生成エラーの検出： mate-pair 情報の利用２

A R B

C R D

Base read1 2 3

4 5

Small repeat sequences

A R’ B

C R D

Base read 1

2

A repeat R and a truncated repeat R’, e.g. incompletely retro-transposed elements

Do not align1

2

Conflict !安全をみて Contig を

これ以上伸ばさない

Contig 生成エラーの検出：矛盾の検出

e) Contigs

f) Scaffolds(Super contigs)

Scaffold の生成

Mate-pair を使った scaffold の構築

2,000±α%(plasmid)

10,000±α%(plasmid)

scaffold scaffold

35,000±α% (fosmid) または150,000±α% (BAC)

どのぐらいの量の mate-pair 情報が必要か？

10 ~ 20130 ~ 200 kbＢＡＣ

1040 kbフォスミド

10~205 ~ 10 kbプラスミド

ゲノムカバー率mate-pair 間の平均長 (L)クローンのタイプ

* ゲノムカバー率＝ L × (mate-pair の個数) / ゲノムサイズ

ゲノムの完成度を測る指標は？

Scaffold N50値： 50%以上の塩基がN50値以上の長さのscaffold に含まれる。少なくとも1M塩基以上、5M以上が望ましい。

染色体被覆率：染色体の塩基のうち scaffold に含まれることが判明している割合。90% 以上が望ましい。

ゲノムアセンブリ - 東京大学moris/lecture/upbsb/...Osteichthyes 条鰭綱...

Documents

Transcript of ゲノムアセンブリ - 東京大学moris/lecture/upbsb/...Osteichthyes 条鰭綱...