BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215,...

44
BLAST B asic L ocal A lignment S earching T ool Altschul et al. (1990) J. Mol. Biol. 215, 403-410. Ewens & Grant (2001) Statistical Methods in Bioinformatics, An Introduction Springer

Transcript of BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215,...

Page 1: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

BLAST!!Basic Local Alignment Searching Tool!�

Altschul et al. (1990) J. Mol. Biol. 215, 403-410.

Ewens & Grant (2001) !Statistical Methods in Bioinformatics, An Introduction!Springer!

Page 2: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

BLAST

Gapped BLAST & PSI-BLAST!

PHI-BLAST

INCA!

BLASTOLOGY!

Page 3: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

・Algorithm for String Comparison

・Statistics for Evaluation of Sequence Similarity

BLAST

Karlin-Altschul Statistic

Page 4: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

BLAST問い合わせ配列

長さwのwordへの分割

各wordの類似word(閾値以上)の生成

有限オートマトンによる表現

・・・・・・・

1 2 3 4 5 6 ・・・・・・・・・L-1 L

w=3

2 3 4 L-2 L-1 L・・・・・・・ 1 2 3

Page 5: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

S0

1

0

1

11

1 0

0

0

0

0

S1

S2 S3

S4 S5

1

文字が 1 , 0 しかない場合

word( 1 0 1 )と( 1 1 1 )を検出するための有限オートマトン

1と0で構成された文字列(配列)が与えられた時、その文字の現れる順番にS0から出発して状態を遷移する。

青で示された遷移が起きると (1 1 1) が生じた事が、 赤で示された遷移が起こると (1 0 1) が生じた事がわかる。

Page 6: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

類似度が閾値以上の場合出力

w1 w2

配列データベース

問い合わせ配列

ungappedextension

w1 w1'w2'

hit hithit

HSPhit

・HSP(:High-Scoring Segment Pairs)のE-Valueを計算

Page 7: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Statistics for BLAST (1) Aligned Two Sequences ・HSP (Yi) の分布� Random Walk! geometric-like distribution!・MSP (Ymax)の分布��Order Statistics! extreme value distribution!・Karlin-Altschul Sum Statistic!!(2) Unaligned Two Sequences!・Theoretical and Empirical Background!・Edge Effect!!(3) Database Searching!

Page 8: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

統計検定としてのBLAST! ・Null Hypothesis H0! アラインメントの任意の位置における �����アミノ酸ペア(i, j)の確率 = Pi P’j! !Pi !一方の配列におけるアミノ酸iの頻度! !P’j !他方の配列におけるアミノ酸jの頻度!!・Alternative Hypothesis H1! アラインメントの任意の位置における �����アミノ酸ペア(i, j)の確率 = q(i, j)! q(i, j)は、スコア・テーブルにより決定される!�

Page 9: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

統計検定の5ステップ (1)H0, H1の設定 (2)α(type I errorの確率)の設定 (3)Test Statisticの決定 (4)H0を棄却するTest Statisticの値の決定!(5)検定の実施�

BLASTのtest statistic = MSP (Ymax)!

Page 10: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Statistics for BLAST (1) Aligned Two Sequences ・HSP (Yi) の分布� Random Walk! geometric-like distribution!・MSP (Ymax)の分布��Order Statistics! extreme value distribution!・Karlin-Altschul Sum Statistic!!(2) Unaligned Two Sequences!・Theoretical and Empirical Background!・Edge Effect!!(3) Database Searching!

Page 11: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

(1)Aligned Two Sequences!!・長さN!・Gap なし!!BLAST Random Walk!�各サイトのスコアを端から加算�

Page 12: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

BLAST Random Walk

-5

0

5

10

15

20

1 2 3 4 5 6 7 8

T Q L A A W C R!R H L D S W R R

S(T,R)

S(T,R)+S(Q,H) + S(L,L)

Page 13: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

General Random WalkによるBLAST Random Walkのモデル化 �General Random WalkにおけるStep Size ����� -c, -c +1, …, 0, …, d-1, d 各ステップの確率 p(-c), p(-c +1), …. p(d) c, dは整数値。ステップの確率は0も許す。 BLAST では、ステップ・サイズがスコア�S(i, j) そのスコアの確率が、 Pi P’j ���S(i, j)= C log の形であり、整数値

���に丸められている�

q(i, j) Pi Pj

Page 14: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

仮定�(BLAST Random Walkでも同様の仮定をおく) (i) p(-c) > 0, p(d) > 0 (ii) ステップサイズの平均は負

E(S) = Σ j p(j) < 0 (iii) 確率0でない ステップ・サイズの最大公約数は1

j = -c

d

Page 15: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Sのmoment generating function(mgf) m(θ) = Σ p(j) exp(jθ)

j = -c

d

m(θ) = 1は、一意な正の解θ*を有する。�

Theorem: mgfとしてm(θ) を有する確率変数Y Yは少なくとも一つの負値(-a)と、少なくとも一つの正値(b) を非ゼロ確率でとるものとする。 また、Yの平均値も非ゼロとする。 この時、 m(θ) = 1は、一意な解θ*を有する。�

Page 16: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

mgfの定義より m(θ) > p(-a) exp(-θa), m(θ) > p(b) exp(θb)

θ → +∞ の時も、 θ → -∞の時も � m(θ) → + ∞

d m(θ) dθ

2

2 = Σ j p(j) exp(jθ) > 0 2 �j= -c

d

m(0) = 1

d m(θ) dθ θ =0

= j= -c

d Σ j p(j) = 0

θ*

1

θ*

1

m’(0) < 0

m’(0) > 0

Page 17: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

0から始まって、ー1にstopping boundaryがあり、 Upper boundaryがないケースを考えたい。�

0から始まって、ー1とy(>0)にstopping boundaryが あるケースをまず考える。 Random Walkは、ー1かそれ以下に到達した時、 あるいはyかそれより大きな値に到達した時止まる。�

Random Walkの終わりうる状態は、 -c, - c+1, …, -1, y, … y +d-1

Page 18: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Theorem:Wald’s identity (証明なし) E(m(θ) exp(θ T )) = 1 for all θ for which the mgf is defined. 期待値操作は、NとT�についてのjoint distribution について行う。T�=�Σ Sj,

N はrandom walkが止まるまでのステップ数�

N -N

N

N j= 1 to N

TNは、0から始まってwalkが止まるまでの 変位の総数で、先にあげた -c, - c+1, …, -1, y, … y +d-1 をとりうる。�

Page 19: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Wald’s identityをθ*について適用すると E(exp(θ*TN)) = 1

P(k)を、状態kでwalkが停止する確率とすると 上式は、 ��Σ P(k) exp(k θ*) + Σ P(k) exp(k θ*) = 1 k = -c to -1 k= y to y+d-1

Page 20: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

y → ∞ (Upper Boundaryがない)漸近的なケース を考える。 (1)Unrestricted Walk を考え、次に (2)Restricted Walk を考える。�

Page 21: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Unrestricted Walk (1)!

Random Walkにboudaryをかさない。 ステップ・サイズの平均が負なので、 Random Walkは最終的には ー∞に向かう。 しかし、その前に正の状態を取りうるので 他の正の数をとる前にk(>0) を訪れる確率 ����Qk を考える。 最大ステップ・サイズがdなので、 Qk�= 0 for k > d ����� (最大公約数=1の条件) Qk = 0 for k = 0 Σ Qk < 1 (正の状態を全く訪れない可能性もあるので) k = 1 to d

Page 22: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Unrestricted Walk (2) +1とーLにboudaryがあるケースを考える。 Lは大きな正の数とする。�

先の考察(ー1とyにboundaryがある場合)より

��Σ Qk(L) exp(k θ*) + Σ Qk(L) exp(k θ*) = 1 k = -L -c+ 1 to -L k= 1 to d

boundaryが1なので、 Qk(L) = Qk for k > 0 lim Qk(L) = Qk L → ∞

θ* > 0, Qk(L) < 1 for all k and Lなので、 L → ∞で 上式左辺の第一項は0となる。�

Σ Qk(L) exp(k θ*) = 1 k= 1 to d �

Page 23: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

FYunr(y) : unrestricted walkにおいて、 Maximum upward wxcursionが、y以下である確率 を求める。 Q = 1 - Q 1 - Q 2 - . . . - Q d 正の状態をとらない確率 一端、正の状態kに到達した後(確率Q k)、そこからの Excursionの取りうる値が y - k 以下である確率 Q0 = 0

Unrestricted Walk (3)!

FYunr(y) = Q + Σ Q k FYunr(y-k) k = 0 to y

Page 24: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Unrestricted Walk (4)

Theorem: The Renewal Theorem (証明なし) 3つの数列(b0, b1, …), (f0, f1, …), (u0. u1, …) を考える。これらは非負の定数で、 uy = by + (uy f0 + uy-1 f1 + uy-2 f2 + … + u1 fy-1 + u0 fy を全てのyについて満たすものとする。 また B=Σi bi < ∞、Σi fi = 1, µ = Σi i fi < +∞ f0, f1, . . .の最大公約数が1とする。 この時、 uy → B µ-1 �as y → +∞

FYunr(y) = Q + Σ Q k FYunr(y-k) k = 0 to y は、renewal equationの形式となっている。�

Page 25: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Unrestricted Walk (5)

形式は類似しているが条件が満たされていない。 �

Σi fi = 1 Σk Qk < 1

B=Σi bi < ∞ bi = Qにした時に 保証されない。

Renewal Equationを使用するため、V(y)=(1 - FYunr(y)) exp(yθ*)) を導入し、先の式を変形すると、y < dの時、 V(y) = exp(yθ*)(Qy+1 + Qy+2 …+ Qd) + Σ(Qk exp(kθ*))V(y-k) k=0 to y

y > d の時、Σ(Qk exp(kθ*))V(y-k) k=0 to d �

Page 26: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Unrestricted Walk (6)

by = exp(yθ*)(Qy+1 + Qy+2 …+ Qd) とすると、y > d ではby = 0なので、Σ by < ∞ は満たされている。 また、 fk�= Qk exp(k θ*) とすると、 Σ Qk exp(k θ*) = 1�は�L→∞について証明済み�

よって、lim V(y)→Vとすると、Vの計算にRenewal Equation を用いることができる。�

Page 27: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Unrestricted Walk (7)

B=Σk bk = Σ exp(kθ*)(Qk+1 + Qk+2 …+ Qd) k= 0 to d

両辺にexp(θ*)-1をかけて、まとめると (exp(θ*)-1)B = Σ exp(kθ*)Qk - (Q1 + Qk+2 …+ Qd) k= 1 to d = 1 - (Q1 + Qk+2 …+ Qd) ������= Q Renewal Equationにより lim V(y) = V = B µ-1 = y→∞

Q (exp(θ*)-1) Σ k Qk exp(kθ*) k= 1 to d

Page 28: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Restricted Walk (1)

Upper boundはなく、-1にstopping boudaryがあり、 0から出発するものとする。 �

F*Yunr(y) = 1 - FYunr(y) F*Y(y) = 1 - FY(y) を考える。 それぞれ、unrestricted と restrictedのrandom walkが Yを超える確率�

F*Yunr(y)= V(y) exp(-yθ*) lim F*Yunr(y) exp(yθ*) = V y→∞

Page 29: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Restricted Walk (2) F*Yunr(y)は、負の状態をとる前にyを超える確率と ����� 負の状態をとった後にy を超える確率に ��より構成される。1ステップで負の状態をとる ��場合、-1, -2, …, -c の一つが起こりうる。 F*Yunr(y)�= F*Y(y) + Σ R(-j) F*Yunr(y+j) j = 1 to c �ここで�R(-j) は。1ステップで-jをとる確率 上式の両辺にexp(yθ*) を乗じて、y→∞とすると V = lim F*Y(y) exp(yθ*) + V Σ R(-j) exp(-jθ*) j = 1 to c

Page 30: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Restricted Walk (3)

lim F*Y(y) exp(yθ*) = V ( 1 - Σ R(-j) exp(-jθ*)) j = 1 to c = = exp(-θ*) C ここで、C=

(exp(θ*)-1) Σ k Qk exp(kθ*) k= 1 to d

Q ( 1 - Σ R(-j) exp(-jθ*)) j = 1 to c

Q ( 1 - Σ R(-j) exp(-jθ*)) j = 1 to c

(1 -exp(-θ*)) Σ k Qk exp(kθ*) k= 1 to d

Page 31: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Restricted Walk (4)

lim F*Y(y) exp(yθ*) = exp(-θ*) C y→∞

F*Y(y) = Prob(Y > y+1)であるので、 Prob(Y > y) ~ C exp(-yθ*) と表す事ができる。すなわち、 Yはgeometric-like distributionを有する。 ※�geometric-like distributionとは 1 - FY(y-1) = Prob(Y> y) ~ Cpy

Page 32: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

General Random Walkから得られる情報

A: Random Walkが-c, -c+1, …, -1のいずれかで �停止するまでの平均ステップ数�

Theorem Wald’s Identity より E(m(θ)-Nexp(θ TN)) = 1 Nは、random walkの停止までのステップ数 TNは、停止した時の状態(変位の総和) 両辺をθで微分 (微分と平均操作をこの場合、入れ替えることが可能)�

Page 33: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

d E(m(θ)-Nexp(θ TN))/ dθ = E(d m(θ)-Nexp(θ TN)/ dθ )

= E (-N m(θ)-N-1exp(θ TN) d m(θ)/ dθ + m(θ)-N TN exp(θ TN)) = 0

ここでθ= 0を代入して(µ(0)= 1), E (-N E(S) + TN) = - E (N) E(S) + E (TN) =0 よって、 E (TN) = E (N) E(S) � �

General Random Walkから得られる情報 (2)

E(S) = Σ jpj j= -c to d

E (TN) = Σ R(-j)(-j) j= 1 to c

R(-j)は、-jで停止する確率�

よって、A = E (N) = E (TN) / E(S) ※計算は R(-j)に依存するが、その求め方は触れられていない�

Page 34: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

BLASTのパラメータ計算 �

三つのパラメータが必要 λ:θ*のこと ��Σ pi p’j exp(λS(i, j))= 1 よりNewton-Raphson法で数値的に計算 C:geometric-like distributiuonの係数 ��General Random Walkで得られた式より計算 n : ladder pointの平均数�= N / A ���

Page 35: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Y1

Y2

Y3 Y4

BLAST Random Walk!

Ladder point: 以前の最下点より始めて低くなった 状態�

・Yiは、ladder point間の最高得点 ・ Yiは、iid で、geometric-like ditributionに従う ・それでは、Ymaxは?�

Page 36: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Prob(Ymax < y) = (1 - Cexp(-θ*y))n

n個の標本Yi i=1,nについて�

Prob(Ymax > y) = 1 - (1 - Cexp(-θ*(y-1)))n = 1 - (1 - Cnexp(-θ*(y -1))/n) n = 1 - exp(-Cnexp(-θ*(y -1))) . .

正確には、 1 - exp(-Cnexp(-θ*y)) < Prob(Ymax > y) < 1 - exp(-Cnexp(-θ*(y -1)))

YmaxのP-valueのboundsを与える。�

BLASTでは、K=(C/A) exp(-λ)を導入し、y= x + logNと することで 1 - exp(-Kexp(-λξ)) < Prob(Ymax > x + (log N)/λ) ��������< 1 - exp(-Kexp(-λ(ξ -1)))�と表されている。�

Page 37: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Expect-valueの計算�(1)�

・Yiがv以上の値をとる確率�C exp(-λv)

・n = N/A のexcursionがある時、 v以上の値をとる � Yiの個数の平均は(binary distributionの平均から) � �����(N/A ) C exp(-λv)

・先に定義した�K = (C/A ) exp(-λ)を用いて、上式を ���� NK exp(-λv) と近似する。 (exp(-λ)は、vが大きいということで無視?)�

Page 38: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Expect-valueの計算�(2)�

・ NK exp(-λv)を平均として有する二項分布 �(v以上のスコアを有するHSPの数の分布)

�→� NK exp(-λv)を平均、分散として持つ ���Poisson分布で近似する。

・任意の値 v をymaxで置き換える。 ���E’ = NK exp(-λ ymax) P(m) =exp(- E’ )(E’ )m / m!

・ E’ を平均、分散とするPoisson分布のもとで、 � 以上のスコアを有するHSPが長さNの配列中に �見出される確率は、1から全くそのようなHSPが �見出されない確率を引けばよいので、

�� P-value = 1 - P(0) = 1 - exp(-E’)

Page 39: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Karlin-Altchul Sum Statistic (1) ・Normalized Score S’= λ Ymax -log(NK) E’ = NK exp(-λ Ymax) -log E’ = λ Ymax -log(NK)

※�bit score = (λ Ymax -logK )/log2 or λ Ymax /log2

・S’について以下の式を書き直す。 exp(-Kexp(-λ(ξ -1))) < Prob(Ymax < x + (log N)/λ) �������� < exp(-Kexp(-λξ ))�

�x = (s + log K)/λとすると� exp(-exp(λ) εξπ(-s)) < Prob(S’ < s) < exp(-exp(-s ))�

※� exp(-Kexp(-λξ ))=exp(-Kexp(-λ(s + log K)/λ) ) = exp(-K exp(-s) exp(- log K) ) = exp(-K exp(-s) /K) = exp(- exp(-s)) よって、 Prob(S’ > s) = 1 - exp(- exp(-s)) = exp(-s)

Page 40: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

・Ymaxだけでは、BLAST random walkで得られる �その他の2位、3位などの高得点のexcursionの情報 �が失われる。 今、 Y1 (=Ymax)> Y2 > … > Yr�とし、 �これをnormalized score S1 , S2 , ..., Srとしへと変換する。 ・ S1 , S2 , ..., Srのnull hypothesis joint distribution�fSは、 fS (s1 , s2 , ..., sr)=exp(-exp(- sr - Σ sk ) ) k=1 to r ・Tr = S1 + S2 + ... + Sr

Karlin-Altschulのsum statistic Prob(Tr > t) = exp(-t)tr-1/(r!(r-1)!)

consistently ordered HSPを考える時には、 �modificationが必要��(このページ証明なし)�

Karlin-Altchul Sum Statistic (2)

Page 41: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

(2)Unaligned Two Sequences!!・長さN1, N2!・Gap なし!

Aligned Two Sequences の長さNをN1N2 � に置き換える 例)n = N1N2 / A S’= λ Ymax -log(N1N2 K)

直観的には、二本の配列中のサイトの任意の組み合わせを 出発点としてrandom walkをするという事であるが、証明 のためには、満たされるべき条件が必要になることと、 N1、N2の極限で証明されているので、実用上はシミュレ ーションに基づき経験的に確認されている。�

Page 42: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

Edge Effect!

短い配列の場合、edge effectを考慮する必要がある。 理論的にはまだ十分な理由付けはないが、経験的に 以下の形で、2本の配列の長さをmodifyしている。 � N’1 = N1 -(λ Ymax )/H ���� N’2 = N2 -(λ Ymax ) /H H = S q(j, k) log (q(j,k)/pj p’k))

複数個のHSPの選択�

rを変えて、Karlin-Altshul sum statisticに従って P-valueを計算し、最も小さな値を与えたものを選択�

Page 43: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

(3)Database Searching!

データベース検索の場合、各配列の長さ( N2(or N’2))!が異なる。 →��D / N’2�を用いる。!�� Dは、データベースの総塩基数!(3ー1)r = 1の場合�(single HSP)! P-value = 1 - exp(-E) � 問い合わせ配列とデータベースの配列で1個以上 ��観測値v以上のスコアが見出される確率

��Expect = (1 - exp(-E)) D / N’2!!

データベース中で、 v以上のスコアを持つ配列の期待値 ��Poisson 近似により �� P-value = 1 - exp(-Expect))!

Page 44: BLASTBLAST! Basic Local Alignment Searching Tool! Altschul et al. (1990) J. Mol. Biol. 215, 403-410.!Ewens & Grant (2001) ! Statistical Methods in Bioinformatics, An Introduction!

(3ー2)r > 1の場合�! P-valueは、Karlin-Altschulのsum statisticにより!�� ��Expect = (P-value) D / N’2!!

データベース中で、 v以上のスコアを持つ配列の期待値 ��Poisson 近似により �� P-value = 1 - exp(-Expect))!