塩基に偏りがある配列を - Illumina, Inc....3 Whole...

38
© 2012 Illumina, Inc. All rights reserved. Illumina, illuminaDx, BaseSpace, BeadArray, BeadXpress, cBot, CSPro, DASL, DesignStudio, Eco, GAIIx, Genetic Energy, Genome Analyzer, GenomeStudio, GoldenGate, HiScan, HiSeq, Infinium, iSelect, MiSeq, Nextera, Sentrix, SeqMonitor, Solexa, TruSeq, VeraCode, the pumpkin orange color, and the Genetic Energy streaming bases design are trademarks or registered trademarks of Illumina, Inc. All other brands and names contained herein are the property of their respective owners. 塩基に偏りがある配列を MiSeqでシーケンスするには 酒井 名朋子 Sr Technical Applications Scientist イルミナ株式会社

Transcript of 塩基に偏りがある配列を - Illumina, Inc....3 Whole...

Page 1: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

© 2012 Illumina, Inc. All rights reserved.

Illumina, illuminaDx, BaseSpace, BeadArray, BeadXpress, cBot, CSPro, DASL, DesignStudio, Eco, GAIIx, Genetic Energy, Genome Analyzer, GenomeStudio, GoldenGate, HiScan, HiSeq, Infinium,

iSelect, MiSeq, Nextera, Sentrix, SeqMonitor, Solexa, TruSeq, VeraCode, the pumpkin orange color, and the Genetic Energy streaming bases design are trademarks or registered trademarks of

Illumina, Inc. All other brands and names contained herein are the property of their respective owners.

塩基に偏りがある配列を

MiSeqでシーケンスするには 酒井 名朋子

Sr Technical Applications Scientist

イルミナ株式会社

Page 2: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

2

Overview

塩基に偏りがある配列とは?

Base Callのためのパラメタ―計算

– Template Generation

– Matrix

– Phasing と Prephasing

– Pass Filter

– Quality Scoreの計算

塩基に偏りがある場合のRunQualityの改善策

Page 3: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

3

Whole Genomeサンプルの塩基は多様です

Whole Genomeサンプル シーケンス中の各Libraryは様々な配列を持つ。

– Libraryは“バランスが取れている”

– Libraryは“多様である”

Covarisなどによる物理的断片化

(ランダム)

5’ Adapter 3’ Adapter

gDNA

最終Library

Page 4: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

4

塩基に偏りがあるサンプルとは?

PCR Amplicon シーケンス中の各配列は、同一の配列を持つ。

– 異なる配列はターゲット箇所のみ

– 多様性の低いサンプル

5’ Adapter 3’ Adapter

配列の中に相同性があるものは塩基に偏りがある(=Low diversity)と解釈

ほかのLow Diversityサンプルの例: 16s, ChIP-Seq, Methyl-Seq

Page 5: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

5

このサンプルはLow Diversity?

% Base

Page 6: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

6

SAVではこんな結果になります

– Intensity がぎざぎざ

– PFが低い

– Phasing/pre-phasing が高い

– >Q30%が低い

なぜか?

– Base Callを行うアルゴリズムは、多様な塩基を想定して走るため

Low Diversityサンプルを流すとどんな結果になるか?

Page 7: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

7

Sequence中に行うBase Callのアルゴリズム

(RTA:Real Time Analysis)

Page 8: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

8

RTAによるBase Call

Template Generation—クラスターの位置決め(番地決め)

Page 9: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

9

Template Generation

CGAT

CYCLE 1 CYCLE 2

最初の4サイクルまでにFC上で取得された画像を使用

CYCLE 3 CYCLE 4

Page 10: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

10

Template Generation

CGAT

CYCLE 1 CYCLE 2 CYCLE 3 CYCLE 4

この位置情報はR1、R2を通して使用される.

塩基がCallされる際、この位置情報を基にどのクラスターからのIntensityか識別する。

RTAはこれらの4サイクル分の画像を解析し、クラスターの位置を決める。

隣り合うクラスターも特定のサイクルで異なるintenshityを持つ場合は識別可能。

TEMPLATE(クラスターの位置):

Page 11: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

11

RTAによるBase Call

Template Generation—クラスターの位置決め(番地決め)

Matrix の計算—このシグナルはどの塩基からのシグナルか?

Page 12: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

12

Matrix の計算: 蛍光の映り込み(クロストーク)

クロストークとは

– Green LEDを照射すると、GとTの蛍光が発光する。

– Tからシグナルを取っている際、Gからものシグナルも一部カウントされる

– このクロストーク(ほかのチャンネルからの映り込み)を把握する必要がある。

T G

T

cluster 1

G

cluster 2からのシグナルを

除外したい

Page 13: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

13

Matrix の計算: 蛍光の補正(Corrected Intensities)

蛍光色素にはそもそも蛍光の強弱がある

例)Gは多くの場合Intensityがもっとも低い

このままではGのCall頻度が低くなる

Intensityを平均化し、Corrected

Intensitiesを算出する

Page 14: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

14

Matrix の計算: 蛍光の映り込みと蛍光の補正

Matrix を計算することでそれぞれの塩基を正確に特定可能

T

cluster 1

G

cluster 2

を除外

Tで画像を取得している際,

Gからの映り込みを無視する

Gで画像を取得している際,

TとGのシグナルを平均化する

T

cluster 1

を除外

G

cluster 2

Page 15: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

15

RTAによるBase Call

Template Generation—クラスターの位置決め(番地決め)

Matrix の計算—このシグナルはどの塩基からのシグナルか?

Phasing の補正—SBS反応のモニター

Page 16: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

16

Phasing/prephasingの計算

Prephasing

A A

Phasing

G C C C C C

目安:phasing <0.4% prephasing <0.5%

Page 17: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

17

RTAによるBase Call

Template Generation—クラスターの位置決め(番地決め)

Matrix の計算—このシグナルはどの塩基からのシグナルか?

Phasing の補正—SBS反応のモニター

Quality Filtering (PF)—このクラスターからのシグナルは不純がないか?

Page 18: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

18

Quality Filtering (PF)

RTAはシグナルの純度でクラスターにフィルターを掛ける

– 純度が高いと “pass filter”と認識される

純度の計算には CHASTITYを適用

IA

IB

A C G T

BA

A

II

IC

CHASTITY Formula

Page 19: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

19

Quality Filtering (PF)

A C G T

CHASTITY Formula

6

6/(6+0) = 1.0 Cしか存在しないので、Chastity =1の

純度が高いシグナル

純度が高い例:

Page 20: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

20

Quality Filtering (PF)

A C G T

CHASTITY Formula

6

1.5

6/(6+1.5) = 0.8 近隣クラスターのSignal

を拾うが、Chastity は0.8

でまだ当該クラスターのBase Callに影響は及ぼさない範囲

通常の場合:

Page 21: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

21

Quality Filtering (PF)

A C G T

CHASTITY Formula

6/(6+5) = 0.54

6

5

隣り合うクララスターが重なると、純度が低くなる。

CHASTITY <0.6

25サイクルまでに<0.6が2度以上でるとFilterを通らない。

純度が低い例:

Page 22: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

22

RTAによるBase Call

Template Generation—クラスターの位置決め(番地決め)

Matrix の計算—このシグナルはどの塩基からのシグナルか?

Phasing の補正—SBS反応のモニター

Quality Filtering (PF)—このクラスターからのシグナルは不純がないか?

Phred Quality Scores—Callされた塩基のクオリティは?

Page 23: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

23

Phred Quality Scores

Quliatyスコアとはなにか?

Callされた塩基が間違いである可能性を示す指標

Q Tableとスコア計算式により算出される

計算式は解としてQscoreを算出する

イルミナではQ30 以上の確率で正しい塩基の割合をスペックとしています。

– >Q30%

塩基が間違いである確率 Base call の精度

Q-score

1 in 10000 99.99% Q40

1 in 1000 99.9% Q30

1 in 100 99% Q20

1 in 10 90% Q10

Page 24: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

24

RTAによるBase Call いつ計算されるか?

Template Generation—クラスターの位置決め(番地決め)

– サイクル1-4、R1のみ

Matrix の計算—このシグナルはどの塩基からのシグナルか?

– サイクル1-4、R1とR2

Phasing の補正—SBS反応のモニター

– サイクル1-12、R1とR2

Quality Filtering (PF)—このクラスターからのシグナルは不純がないか?

– サイクル1-25

Phred Quality Scores—Callされた塩基のクオリティは?

– サイクル25以降、さかのぼって計算される

Page 25: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

25

PCR Amplicon はなぜBaseCallに影響を及ぼすか?

Page 26: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

26

PCRAmpliconでのTemplate Generation

CYCLE 2 CYCLE 3 CYCLE 4

PhiX

CGAT

CYCLE 1

Amplicon

TEMPLATE

(クラスターの位置)

サイクル毎に異なる塩基が光るので、隣り合うクラスターは別の蛍光を発色。

隣り合っていても、異なるクラスターと認識される。

12個でなく、

8つと認識される

TEMPLATE

隣り合うクラスターは同じものと認識されてしまう

Page 27: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

27

Matrix の計算: 蛍光の映り込みと蛍光の補正への影響

Matrix を計算することでそれぞれの塩基を正確に特定可能

T

PCR Amplicons:

参照となるシグナルが存在せず、正しく補正

できない

T

cluster 1

G

cluster 2

を除外

Tで画像を取得している際,

Gからの映り込みを無視する

Gで画像を取得している際,

TとGのシグナルを平均化する

T

cluster 1

を除外

G

cluster 2

Page 28: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

28

Quality Filtering (PF) におけるPCR Ampliconの影響

Templateが正しく作成されないので、Overlapと認識されることが多くなる

12のうち8つのみ認識.

TEMPLATE

A C G T

CHASTITY Formula

6/(6+5) = 0.54

6

5

(CHASTITY <0.6)

X

X X

5つのみ pass filter

Page 29: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

29

Low DiversityサンプルのRun結果を改善させる

Page 30: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

30

方法1: Library designを再考する

R1とR2の最初12サイクルに多様性を持たせる

例 1: Long PCRを行い産物を断片化、DNA insertに多様性を持たせる.

– Nextera XTを使用

例 2: PCRprimerにN-NNNNまでの塩基を入れ、Offset PCR Primerで多様性を持たせる

– 文献を参照:Hummelen et al., Plos ONE 5: e12078

5’ Adapter 3’ Adapter

12 bases 12 bases

Page 31: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

31

方法 1: Nextera XTを使用してLibrary Designを再考する

Page 32: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

32

方法 1: Nextera XTを使用してLibrary Designを再考する

注意点:

– 1 ng のPCR Ampliconが必要

– 最短300bpのAmpliconが必要(1kbp程度が望ましい)

– 両端50bp程度Coverageが落ちる

http://www.illumina.com/products/nextera_xt_dna_sample_prep_kit.ilmn?scid=2012018PR1

Page 33: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

33

方法1: Library designを再考する

R1とR2の最初12サイクルに多様性を持たせる

5’ Adapter 3’ Adapter

12 bases 12 bases

RTAによる計算 Sequence Qualityは向上するか?

Library

TEMPLATE GEN YES

MATRIX YES

PHASING YES

PASS FILTER YES

Qscore (%>Q30) YES

Page 34: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

34

方法2:Ampliconの種類を増やす

– TruSeq Custom Amplicon (TSCA)の場合最少16種類必要

RTAによる計算 Sequence Qualityは向上するか?

Library Number Density MCS2.2 Spike-in

TEMPLATE GEN YES YES?

MATRIX YES YES?

PHASING YES YES?

PASS FILTER YES YES?

Qscore (%>Q30) YES YES?

Page 35: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

35

方法3:クラスター密度を減らす

– 通常の半分程度に抑える

500K clusters/mm2程度

Yieldが減少する

RTAによる計算 Sequence Qualityは向上するか?

Library Number Density MCS2.2 Spike-in

TEMPLATE GEN YES YES? YES?

MATRIX YES YES? NO

PHASING YES YES? NO

PASS FILTER YES YES? YES?

Qscore (%>Q30) YES YES? YES?

Page 36: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

36

方法4: MCSを2.2にUpgradeする

– Phasing, Prephasingの計算がすべてのサイクルで行われ、Base Callに反映される

Phasing, Prephasingの誤計算によるQuality Scoreの低下か解消される

– Matrix補正の計算に使用するサイクルも増加(-11サイクル)

– Upgrade手順等はTechnical Supportにお問い合わせください。

RTAによる計算 Sequence Qualityは向上するか?

Library Number Density MCS2.2 Spike-in

TEMPLATE GEN YES YES? YES? NO

MATRIX YES YES? NO YES

PHASING YES YES? NO YES

PASS FILTER YES YES? YES? NO

Qscore (%>Q30) YES YES? YES? YES?

Page 37: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

37

方法 5: PhiXをv/v30-50 % spike in する

– 塩基の多様性を上げる

– サンプルからのYieldは減少する

– ほかのIndex付のサンプルでも問題なし

– サンプルリードに一部PhiX配列が検出されるする

BWAでPhiXにMappingして取り除く

RTAによる計算 Sequence Qualityは向上するか?

Library Number Density MCS2.2 Spike-in

TEMPLATE GEN YES YES? YES NO YES?

MATRIX YES YES? NO YES YES?

PHASING YES YES? NO YES YES?

PASS FILTER YES YES? YES? NO YES?

Qscore (%>Q30) YES YES? YES? YES? YES?

Page 38: 塩基に偏りがある配列を - Illumina, Inc....3 Whole Genomeサンプルの塩基は多様です Whole Genomeサンプル シーケンス中の各Libraryは様々な配列 を持つ。

38

まとめ

Low diversity サンプルとはSequence リードが単一であるサンプルを指す

Low diversity サンプルではRTAの計算が正しく行われない

– Template Generation (サイクル 1-4)

– Matrix (サイクル1-4, R1 and R2)

– PhasingとPrephasing (サイクル 1-12, R1 and R2)

– Pass Filter (サイクル 25)

– Quality 計算 (サイクル 25 以降、さかのぼって)

どのように改善するか:

– Library design を再考する

– Ampliconの種類を増やす

– クラスター密度を減らす

– MCSを2.2にUpgradeする

– PhiXなどのバランスの良いサンプルをSpike Inする