ゲノムアセンブリ - 東京大学moris/lecture/upbsb/...Osteichthyes 条鰭綱...
Transcript of ゲノムアセンブリ - 東京大学moris/lecture/upbsb/...Osteichthyes 条鰭綱...
ゲノムアセンブリ
百万年前millions of years ago
中生代 Mesozoic新生代Cenozoic古生代 Paleozoic
900 800 700 600 500 400 300 200 100 0
新原生代 Neoproterozoic
クリオジェニアン Cryogenianオルドビス紀
カンブリア紀
シルル紀
デボン紀
石炭紀
ペルム紀
三畳紀
ジュラ紀
白亜紀
パレオジン
ネオジン
エディアカラ紀Ediacaran
尾索動物、被嚢類ひのうるい Urochordata
頭索動物 Cephalochordata
脊索動物Chordata
ナメクジウオ
ホヤ
脊椎動物Verterata
ヤツメウナギ
無顎口上網Agnatha
軟骨魚類 Chondrichthyes
顎口上網がっこうじょうこう
Gnathostomata
サメ, エイ
硬骨魚類Osteichthyes
条鰭綱じょうきこう
Actinopterygii
多鰭目
全骨類 Holostei
ポリプテレス
チョウザメ, ガー, ボウフィン
真骨魚類 Teleostei
ゼブラフィッシュ
メダカ
ミドリフグ
トラフグ
肉鰭綱にくきこう
Sarcopterygii
シーラカンス, 肺魚肺魚類 Dipnoi
四肢動物類Tetrapoda
有羊膜類ゆうようまくるい
Amniota
両生類 Amphibiaカエル
爬虫綱Reptilia
鳥綱 Aves
トカゲ目 Squamata
ワニ目 Crocodilia
カメ目 Testudinata
トカゲ, ヘビ
ニワトリ
ワニ
カメ
哺乳綱Mammalia
犬
マウス、ラット
ヒト, チンパンジ
大規模ゲノムアセンブリの状況
アメリカAtlas (Baylor College)2.3億ミツバチ2006 / 10
アメリカArachne (MIT)34億オポッサム2007 / 5
Atlas (Baylor College)8億ウニ2006 / 11
アメリカAtlas(Baylor), P-CAP(Wash U), Celera29億アカゲザル2007 / 4
日本clone by clone 農業生物資源研究所3.9億イネ2005 / 8
アメリカJazz (JGI)16億アフリカツメガエル2008 / ?
アセンブリ方式総塩基数種論文発表
アメリカJazz (JGI)6億?ナメクジウオ2008 / ?
イギリスPhesion (Sanger Ctr.)16億ゼブラフィッシュ2008 / ?
日本Ramen (東大) 国立遺伝学研究所7億メダカ2007 / 6
アメリカArachne (MIT)24億ドッグ2005 / 12
アメリカPCAP, Arachne29億チンパンジ2005 / 9
アメリカPCAP (Wash. U.)10億チキン2004 / 12
フランス, アメリカArachne (MIT)3.4億ミドリフグ2004 / 10
アメリカAtlas (Baylor College) + clone by clone25億ラット2004 / 4
中国RePS (Beijing Genomics)
日本Ramen (東大) 農業生物資源研究所5億カイコ(染色体地図なし)2004 / 2
アメリカArachne (MIT) + clone by clone25億マウス2002 / 12
アメリカJazz (JGI)3.6億トラフグ(染色体地図なし)2002 / 7
中国RePS (Beijing Genomics)4.7億イネ(染色体地図なし)2002 / 4
アメリカCelera
国際チームclone-by-clone29億ヒト2001 / 2
大規模なゲノムシークエンシングセンター
米国• Joint Genome Institute, US Dept. of Energy• Whitehead Institute / MIT Center for Genome Research• Washington University Genome Sequencing Center• Baylor College of Medicine
英国• Wellcome Trust Sanger Institute
日本• 国立遺伝学研究所• 理化学研究所 ゲノム科学総合研究センター• かずさ DNA 研究所• 農業生物資源研究所
シークエンシング技術の高速化
ヒトゲノムプロジェクト $2.7 billion, 17年
2004年の段階 哺乳類ゲノム (3G塩基) の解読 $10-50 millionNIHファンド “$1000 genome project” Feb.20042005年夏から驚異的な高速化
0.012 – 0.02 億/ 日2304/ 日500 – 800 ntABI 3730xl
0.3 – 0.75 億/実験300,000/実験100 – 250 nt454
10 – 20 億/実験40,000,000/実験25 – 50 ntSOLEXA
総塩基数収集可能タグ数*配列(リード)長
*SOLEXAは1回の実験に 3-4 日, 454 は 7-8 時間註 SOLEXA の方式は illumina の HP を参照してください
新型シークエンサーの応用例• あたらしいSNP・挿入・削除の発見• 免疫沈降法と組み合わせた エピゲノム解析および転写因子結合部位解析
• 遺伝子発現のプロファイリング
T G C T T G A C T G A T C ASingle-stranded DNA
TGAT PrimerPolymerase
A
CGT
A
C
AG
T G
T
T
C
A
A
dNTP
ddATP
A C G TA
A
A
Sanger Method (1975)
ddNTP (deoxy triphosphate)
ddNTP(dideoxy triphosphate)
adenosinecytosineguanosinetyrosine
Template DNA
T G C T T G A C T G A T C A
TGATCA
・・・
T G C T T G A C T G A T C A
TGATCAGTC
T G C T T G A C T G A T C A
TGATCAGTCAA
A
T G C T T G A C T G A T C A
TGATCAGTCAA AGC
ddATP ddCTP ddGTP ddTTP
C
A G
T
C
A
A
G
C
A
agarosegelelectrophoresis
A G C T C G C C T G A T C A
Template DNA
TGAT
A G C T C G C C T G A T C A
TGATC
A G C T C G C C T G A T C A
TGATCA
A G C T C G C C T G A T C A
TGATCAG
A G C T C G C C T G A T C A
TGATCAGG
・・・
G
C
A
G
C C
A
G
G
C
G
A
G
C
T
four-color fluorescent dye method (1986)
a) Multiple copies of genome
b) Sheared random fragments by fast water flow
c) Size fractionated fragments
ゲノムアセンブリの手順
Circular vectors
Linearvectors
GenomicDNAFragments
Circular vectors
Digestion
Ligation
Transfection
E. Coliwith a vector
mate pair (end pair)
d) Reads
c) Size fractionated fragments
e) Contigs
ゲノムアセンブリの手順
Original Reads
Assembly
1:CCTATGCTAGTCA2:CGACTGACTAGCAT3:GCTAGTCAGTCGATCTACC4:ACCGGTAGATCGACTG
1:CCTATGCTAGTCA2:ATGCTAGTCAGTCG
3:GCTAGTCAGTCGATCTACC4:CAGTCGATCTACCGGT
Double Stranded Reads1:CCTATGCTAGTCA1:TGACTAGCATAGG2:CGACTGACTAGCAT2:ATGCTAGTCAGTCG3:GCTAGTCAGTCGATCTACC3:GGTAGATCGACTGACTAGC4:ACCGGTAGATCGACTG4:CAGTCGATCTACCGGT
1:CCTATGCTAGTCA2:ATGCTAGTCAGTCG
3:GCTAGTCAGTCGATCTACC4:CAGTCGATCTACCGGT
4:ACCGGTAGATCGACTG3:GGTAGATCGACTGACTAGC
2:CGACTGACTAGCAT1:TGACTAGCATAGG
Contig 生成の詳細
Genome size G = 3*109. Given a random collection of N fragments of size L = 600.Sequence coverage = NL / G, e.g., = 10 if N = 5* 107. Join two fragments that share Lθ nucleotides (θ = 0.1).
1,966,2041,546,383
912,151
478,260
235,089
110,936
50,895
22,873
10,119
4,421
1,5261,940
3,289
6,273
12,761
27,043
58,945
131,158
296,471
678,526
1,000
10,000
100,000
1,000,000
10,000,000
1 2 3 4 5 6 7 8 9 10
Sequence coverage
Exp
ecte
d n
um
ber of co
ntigs
1,000
10,000
100,000
1,000,000A
vera
ge c
ontig le
ngth
Expected number of contigs Average contig length
Lander-Waterman Statistics (Contig 平均長の推定)
stopper fragmentfragment
L(1-θ)
fragment
No fragments appear at any of the first L(1-θ) base pairs.N/G: Probability that some fragments appear at an arbitrary position.
A contig stops at the “stopper” fragment.
Probability of having a stopper fragment:
Lander-Waterman Statistics (Contig 平均長の推定)
1) Overlap
2) Layout
3) Consensus CCTATG-TAGTCAGTCGATGCTAGTCAG
GCTAGTCGGTCGATCTACCCAGTCGATCTGCCGGT
GTCAGTC-ATCTAC-GGTTAGCATTGCConsensus CCTATGCTAGTCAGTCGATCTACCGGTTAGCATTGC
U1 R U2 R U3
Contig 生成の困難な点
Overlap
Non-Overlap
dangling
塩基が一致
dangling
A R B
C R D
A R D
C R B
Which is the correct layout?Are A and B linked?
Correct
A B
Contig 生成エラーの検出: mate-pair 情報の利用1
Route A
Route B
Misjoin by better alignment scores
Route A
Route B
matepair
Revision by matepair
Contig 生成エラーの検出: mate-pair 情報の利用2
A R B
C R D
Base read1 2 3
4 5
Small repeat sequences
A R’ B
C R D
Base read 1
2
A repeat R and a truncated repeat R’, e.g. incompletely retro-transposed elements
Do not align1
2
Conflict !安全をみて Contig を
これ以上伸ばさない
Contig 生成エラーの検出: 矛盾の検出
e) Contigs
f) Scaffolds(Super contigs)
Scaffold の生成
Mate-pair を使った scaffold の構築
2,000±α%(plasmid)
10,000±α%(plasmid)
scaffold scaffold
35,000±α% (fosmid) または150,000±α% (BAC)
どのぐらいの量の mate-pair 情報が必要か?
10 ~ 20130 ~ 200 kbBAC
1040 kbフォスミド
10~205 ~ 10 kbプラスミド
ゲノムカバー率mate-pair 間の平均長 (L)クローンのタイプ
* ゲノムカバー率= L × (mate-pair の個数) / ゲノムサイズ
ゲノムの完成度を測る指標は?
Scaffold N50値: 50%以上の塩基がN50値以上の長さのscaffold に含まれる。少なくとも1M塩基以上、5M以上が望ましい。
染色体被覆率:染色体の塩基のうち scaffold に含まれることが判明している割合。90% 以上が望ましい。