Protein-Protein Interaction Prediction

39
大大 大大 (Masahito Ohue) 2012/09/28 Predicting protein–protein interactions based only on sequences information Juwen Shen, Jian Zhang, Xiaomin Luo, Weiliang Zhu, Kunqian Yu, Kaixian Chen, Yixue Li and Hualiang Jiang Proc Natl Acad Sci USA, 2007, 104(11), 4337-4341. 大大大大大大大大大大大大大大大大大大大大大大

description

Predicting protein–protein interactions based only on sequences information Juwen Shen, Jian Zhang, Xiaomin Luo, Weiliang Zhu, Kunqian Yu, Kaixian Chen, Yixue Li and Hualiang Jiang Proc Natl Acad Sci USA, 2007, 104(11), 4337-4341.

Transcript of Protein-Protein Interaction Prediction

Page 1: Protein-Protein Interaction Prediction

大上 雅史 (Masahito Ohue)

2012/09/28

Predicting protein–protein interactions

based only on sequences information

Juwen Shen, Jian Zhang, Xiaomin Luo, Weiliang Zhu, Kunqian Yu, Kaixian Chen, Yixue Li and Hualiang Jiang

Proc Natl Acad Sci USA, 2007, 104(11), 4337-4341.

配列情報のみに基づくタンパク質間相互作用予測

Page 2: Protein-Protein Interaction Prediction

2

AbstractIntroductionMaterials and MethodsResultsDiscussion配列に基づく PPI 予測のその後の話

目次

Page 3: Protein-Protein Interaction Prediction

3

タンパク質間相互作用( Protein-Protein Interaction, PPI )が重要計算による PPI 予測の従来手法

相同性の情報やその他の情報が必要

配列情報だけを使って PPI を予測する機械学習 (SVM) を使うTriad Feature を使う16,000 超の学習データを使って普遍的な予測モデルを作るPPI ネットワークを予測できたので他の手法より良いよ(?)

Abstract

Page 4: Protein-Protein Interaction Prediction

4

タンパク質間相互作用 (PPI)PPI は細胞内の分子基盤の大部分を支えている• 代謝経路,シグナル伝達経路,転写制御など

創薬ターゲットとしての可能性を秘めている• 疾病のメカニズムの解明• 疾病に関するパスウェイの標的タンパク質に対する阻害 / 活性剤

の開発

PPI 検出手法(実験)Yeast 2 hybrid質量分析プロテインチップ 他

実験的な方法で得られた PPI ペアは PPI ネットワーク上の一部しかカバーできていない

Introduction

Page 5: Protein-Protein Interaction Prediction

5

ゲノム情報に基づく PPI 予測系統学的プロファイル• 配列決定されたものにしか適用できない

ドメインの相互作用情報の利用進化関係特異的な配列モチーフの抽出(相互作用マーカー)

予測性能が相同性や相互作用マーカーの情報に依存する

Introduction

Page 6: Protein-Protein Interaction Prediction

6

“Sequence specifies structure”相互作用の予測には配列だけで充分じゃないか

配列のみから相互作用を予測したいComputational biology の major challengeいくつかのグループが既に取り組んでいる• Bock JR and Gough DA. Predicting protein–protein

interactions from primary structure. Bioinformatics 2001, 17, 455-60.– おそらく一番最初の仕事.物理化学的な特徴量と SVM を利用.

• Nanni L and Lumini A. An ensemble of K-local hyperplanes for predicting protein-protein interactions. Bioinformatics 2006, 22, 1207–10.– 2-Gram と物理化学的パラメータを組み合わせた特徴量+

K-Nearest Neighbor の改良アルゴリズム (Hyperplane KNN) の利用.

• 局所的な配列が考慮できていない• Training sample が少ない

Introduction

Page 7: Protein-Protein Interaction Prediction

7

Materials and Methodsサポートベクターマシン (SVM)S-Kernel特徴量の作り方 (Conjoint Triad Feature)特徴量についてデータセットの構築計算機環境など

目次

Page 8: Protein-Protein Interaction Prediction

8

サポートベクターマシン( Support Vector Machine, SVM )

機械学習の判別問題を解くアルゴリズムの 1 つ写像された高次元空間上でのマージン最大化を行う

高次元空間への写像  をカーネル関数で行う• 例

サポートベクターマシン( SVM )

Polynomial

Radial basis

Sigmoid

Page 9: Protein-Protein Interaction Prediction

9

タンパク質ペアの特徴量タンパク質 A の特徴ベクトルを とおく(普通は)タンパク質ペア A-B の特徴ベクトルを

として作る.(  は「ただくっつけるだけ」を表す記号)• 対称性は保たれていない( A-B と B-A が別の特徴量を持つ)

S-Kernel という新しいカーネル関数を提案

非対称性をカーネルが吸収して対称であるかのように扱える

S-Kernel

Page 10: Protein-Protein Interaction Prediction

10

S-Kernel は RBF カーネルに似ている

S-Kernel

S 距離    を以下のように定義すると,

Radial basis

S-Kernel

Page 11: Protein-Protein Interaction Prediction

11

S-Kernel は正定値カーネルではない正定値カーネル     の定義(正値性)

反例を挙げて正値性を満たさないことを示す

だからなんだ→やたら計算に時間がかかったりすることがある

S-Kernel

任意の                            に対し以下を満たす.

(加えて対称性も満たされる必要がある.今回は自明なので省略.)

Page 12: Protein-Protein Interaction Prediction

12

Conjoint Triad Feature

特徴量の作り方

Yu C-Y, et al. BMC Bioinform 2010, 11, 167.

Page 13: Protein-Protein Interaction Prediction

13

Conjoint Triad Feature二項空間 ( 大層な名前だけど単なる 2 つのベクトル空間の組 )

• : 配列特徴ベクトルの空間,要素 はそれぞれの 3文字組              ( は,アミノ酸 20種なら203, この研究では 73)

• : 頻度ベクトルの空間,要素  は  の頻度

配列長との相関を減らすため正規化( [0,1] 化)

を並べたベクトル空間 を配列の特徴ベクトルとする

特徴量の作り方

Page 14: Protein-Protein Interaction Prediction

14

PPI の駆動力静電相互作用と疎水性相互作用側鎖の極性 (dipole, 双極子モーメント ) と体積に依ると考えられる

アミノ酸の極性と体積を計算20 アミノ酸の構造 : Insight2005 の標準フラグメントライブラリ極性の計算 : Gaussian03(DFT) の B3LYP/6-31G*体積の計算 : Sybyl6.8( 分子モデリング )

似てるアミノ酸をまとめてグループ化

特徴量について

Page 15: Protein-Protein Interaction Prediction

15

極性と体積の計算結果

20個のアミノ酸→ 7 つのアミノ酸グループ

特徴量について

No.Dipole scale

(Debye)

Volume scale(A3

)Amino Acids

1 <1.0 <50 Ala, Gly, Val2 <1.0 >50 Ile, Leu, Phe, Pro3 1.0<D<2.0 >50 Tyr, Met, Thr, Ser4 2.0<D<3.0 >50 His, Asn, Gln, Tpr5 >3.0 >50 Arg, Lys6 >3.0* >50 Asp, Glu

71.0<D<2.0*

* >50 Cys* opposite orientation** S-S結合能があるため No.3 から除外

SI Table 2

Page 16: Protein-Protein Interaction Prediction

16

Conjoint Triad Feature

特徴量の作り方

SI Figure 1

Page 17: Protein-Protein Interaction Prediction

17

PPI の情報を取得Human Protein References Database (HPRD)* から取得

* Version 2005_0913

実験的に確認された 16,443 の(非冗長な =共通のペアがない) PPIエントリ→ Positive Sample

Negative Sample をつくるPositive Sample に現れたタンパク質から構成• タンパク質 A-B ペアと I-J ペアが相互作用する• A-I, A-J, B-I, B-J は相互作用しない(に違いない)

Negative Sample (と思われるもの)を抽出• 数を Positive Sample にそろえる→ 16,443 ペア• 出来るかぎりタンパク質の出現頻度を揃える

Training Set と Test SetP/N 200個ずつを Test Set に,残りは Training Set

データセットの構築

Page 18: Protein-Protein Interaction Prediction

18

計算機128 CPU Origin3800 server (SGI)

ソフトウェアLibSVM 2.8

計算機環境など

書くことがなかったので Origin3800 の図http://www.teleobjetivo.org/blog/requiem-por-silicon-graphics.html

Page 19: Protein-Protein Interaction Prediction

19

ResultsSVM のパラメータ最適化予測性能PPI ネットワーク予測

目次

Page 20: Protein-Protein Interaction Prediction

20

SVM のパラメータ   を決める  は SVM のソフトマージンのパラメータ  はカーネル関数のパラメータ

探索方法→グリッド探索

評価方法Training Set の 3-fold Cross Validation精度は以下で定義したものを用いる(いわゆるAccuracy )

• ただし, MSE は平均二乗誤差• Positive は +1 , Negative は -1 のラベルを持つ

SVM のパラメータ最適化

Page 21: Protein-Protein Interaction Prediction

21

結果

SVM のパラメータ最適化

Figure 1

Page 22: Protein-Protein Interaction Prediction

22

MSE (Mean Square Error, 平均二乗誤差 )目標値との誤差の 2乗を平均したもの

MSE について

予測値 目標値

Page 23: Protein-Protein Interaction Prediction

23

Test Set にかけた結果

予測性能

Test set Accuracy(%)

Precision(%)

Sensitivity(%) MSE

1 84.25 84.42 84.50 0.63

2 82.75 83.59 84.00 0.69

3 83.25 84.82 85.50 0.67

4 83.25 82.23 84.00 0.67

5 86.00 86.00 86.00 0.56

Avg±1σ 83.90 ± 1.29 84.21 ± 1.41 84.80 ± 0.91 0.64 ± 0.05

Kernel function

Accuracy(%)

S-kernel 83.9

Radial basis 80.5

Polynomial 72.9

Sigmoid 50.0

Linear 62.9

他のカーネルと比較

Table 1

SI Table 3

Page 24: Protein-Protein Interaction Prediction

24

これまでに PPI 予測手法のネットワーク予測への応用例は(この筆者らが知ら)ない1 対 1 の PPI 予測をネットワーク予測へ応用する

3 つの PPI ネットワークに分類• 1コアネットワーク• マルチコアネットワーク• クロスオーバーネットワーク

PPI ネットワーク予測

Page 25: Protein-Protein Interaction Prediction

25

ネットワークの分類

1コアネットワーク

マルチコアネットワーク

クロスオーバーネットワーク

コアタンパク質(core protein)

コアでないタンパク質(satellite protein)

Figure 2

Page 26: Protein-Protein Interaction Prediction

26

1コアネットワークの予測方法1コアネットワークのコアタンパク質を PPI データセットから取り除く残ったデータでパラメータ最適化と判別器生成コアタンパク質とコアでないタンパク質間で PPI 予測

マルチコアネットワークの予測方法マルチコアネットワークのコアタンパク質を取り除くあとは同じ

クロスオーバーネットワークの予測方法ネットワークを構成するタンパク質をすべて取り除くあとは同じ

PPI ネットワーク予測

Page 27: Protein-Protein Interaction Prediction

27

結果1コアネットワーク例:CD9 (テトラスパニン)とその結合タンパク質• CD が付くやつはテトラスパニンという膜タンパク質ファミリー

に属する• CD 同士で結合して膜受容体として働くので,マルチコア扱いに

すべき?

13/16 PPI が予測できた• False Positive の数が「私,気になります!」

PPI ネットワーク予測

青線 : True Positiveオレンジ線: False Negative

Figure 2A

Page 28: Protein-Protein Interaction Prediction

28

結果(続き)マルチコアネットワーク例: Ras-Raf-Mek-Erk-Elk-Srfパスウェイ• 細胞外からの増殖因子によるシグナルを核に伝える経路.• 細胞の増殖・分化・細胞死などに関わる.

PPI ネットワーク予測

青線 : True Positiveオレンジ線: False Negative

Kolch W, et al. Expert Reviews in Molecular Medicine, 2002.  

Figure 2B

Page 29: Protein-Protein Interaction Prediction

29

マルチコアネットワークの予測結果161/189 PPI が予測できたFalse Negative について

• x% known model: 6 つのコアタンパク質に関わる正解 PPI のうち x% を学習に用いてつくった判別器

• FN: コアとサテライトの PPI で予測されなかったものの数

PPI ネットワーク予測

Proteins

0% known modelFN/PPI

10% knownmodelFN/PPI

30% knownmodelFP/PPI

Ras 1/39 1/35 1/26

Raf 14/50 9/43 3/34

Mek 4/18 3/17 2/12

Elk 1/11 1/10 0/7

Erk 3/45 3/40 1/30

Srf 6/33 3/30 5/23

SI Table 4

Page 30: Protein-Protein Interaction Prediction

30

PPI ネットワーク予測マルチコアネットワーク(続き)

30% known model を使うとどうなるか• PPI 情報を増やすと予測能力の向上につながるか確認する

結果→ 84% から 90% に accuracy(?) が向上青線 : True Positiveオレンジ線 : False Negative緑線 :追加した PPI情報

SI Figure 4

Page 31: Protein-Protein Interaction Prediction

31

マルチコアネットワーク(続き)accuracy は何の話?

• 確かに Recall は増えた• 本文中の accuracy は Recall の意味 ?

– False Positive が私k(ry

PPI ネットワーク予測

Proteins

0% known modelFN/PPI

30% knownmodelFN/PPI

Ras 1/39 1/26

Raf 14/50 3/34

Mek 4/18 2/12

Elk 1/11 0/7

Erk 3/45 1/30

Srf 6/33 5/23

計 29/196=0.15

12/132=0.09

これのことを言ってるなら,「 85%→91% に向上」(ただし Recall )

SI Table 4 ( 改変 )

Page 32: Protein-Protein Interaction Prediction

32

結果の続き:クロスオーバーネットワーク一般的な PPI はクロスオーバー型

 →計算でちゃんと予測できたらとても便利だねWnt 関連の相互作用ネットワーク→ 73/96 PPI が予測できた• 胚発生とガンに関連するシグナル伝達経路

PPI ネットワーク予測

青線 : True Positiveオレンジ線: False Negative Figure 2C

Page 33: Protein-Protein Interaction Prediction

33

計算による PPI 予測手法を提案SVM を利用• 3-fold Cross Validation でチューニング, C=128, g=0.25

Conjoint Triad Feature の利用とベクトル空間の次元削減(アミノ酸クラスタリング)• 現在の利用可能な PPI データには限界があるが,そのような少な

いデータによる Overfitting を回避してくれる(かもしれない)• 変異しやすいアミノ酸という情報を含んでくれているので予測の幅が広がっている(かもしれない)– 73 と 203 の精度の比較を出してくれてないので結局分からない

S-Kernel の提案• 非対称の問題をクリア• 他のカーネル関数よりも精度が良い

Discussion (ほとんど Conclusion )

Page 34: Protein-Protein Interaction Prediction

34

提案した手法を PPI ネットワークに適用これまで配列情報のみからの PPI 予測の応用例はなかったペアの PPI 予測を組み合わせてネットワーク予測を実施3 つのネットワークトポロジーで性能を確認特に実際のネットワークに近いクロスオーバー型もちゃんと予測できていることが重要

Discussion (ほとんど Conclusion )

Page 35: Protein-Protein Interaction Prediction

35

データセットについてNegative Sample の作り方はこれで良いのかTest Set の抽出の仕方は大丈夫か• Training に A-B が入ってて Test に A-C が入ってる /入ってない,

など

S-Kernel について正定値カーネルでないので計算に時間がかかったりする

考えられる問題点

Page 36: Protein-Protein Interaction Prediction

36

読んでみると「これで PNAS?」という印象を持ってしまうくらいにはあっさりしてて普通

発想自体は既に報告されていた• Bock01 など

ネットワーク予測をやったことが評価されている?• 見た目のインパクトが大きい Figure とか

高 IF な一般誌に載ったことで紛糾?この後に紹介します

感想

Page 37: Protein-Protein Interaction Prediction

37

配列に基づく PPI 予測のその後2008年に 2 つの手法が発表される• Guo Y, et al. Using support vector machine combined with

auto covariance to predict protein-protein interactions from protein sequences. Nucleic Acids Res 2008, 36, 3025–30.– 7種のパラメータ (hydrophobicity など ) と Auto-Covariance を

利用• Pitre S, et al. Global investigation of protein-protein

interactions in yeast Saccharomyces cerevisiae using re-occurring short polypeptide sequences. Nucleic Acids Res 2008, 36, 4286–94.– PPI ペアで共起する部分配列情報を利用

配列に基づく PPI 予測のその後

Page 38: Protein-Protein Interaction Prediction

38

2009年にメタ的な手法が提案される• Park Y. Critical assessment of sequence-based protein-

protein interaction prediction methods that do not require homologous protein sequences. BMC Bioinformatics 2009, 10, 419.– Guo08, Pitre08, Martin05, Shen07 のコンセンサスを取る

2010年ごろからデータセットに関する言及が増える• Shi M-G, et al. Predicting protein-protein interactions from

sequence using correlation coefficient and high-quality interaction dataset. Amino Acids 2010, 38, 891–9.– High-throughput な PPI データなんて駄目.

Gold Standard なデータセットを作ったよ.• Yu C-Y, et al. Predicting protein-protein interactions in

unbalanced data using the primary structure of proteins. BMC bioinformatics 2010, 11, 167.– 本当の PPI ネットワークは P:N=1:1 じゃない. 1:15 とかになると,

Shen07, Guo08 は F-measure がひどいことになるけど,この方法だともう少しマシ.

配列に基づく PPI 予測のその後

Page 39: Protein-Protein Interaction Prediction

39

特に Negative Set についての報告が目立つようになる• Yu J, et al. Simple sequence-based kernels do not predict

protein-protein in-teractions. Bioinformatics 2010, 26, 2610–4.– 今までの Negative Set の構築方法は over-estimate を起こしてい

た.  Balanced Random Sampling を提案. Shen07 の ROC-AUC=0.5 に.

• Smialowski P, et al. The Negatome database: a reference set of non-interacting protein pairs. Nucleic Acids Res 2010, 38, D540–4.– Negative PPI を吟味( PDB chain , PFAM ,人での curation ),

Negative Sample のデータベースを構築.

Yu10, Bioinformatics への反論• Park Y, et al. Revisiting the negative example sampling

problem for predicting protein-protein interactions. Bioinformatics 2011, 27, 3024–8.– Yu10 の sampling は Cross Validation においては激しく過小評価

を起こす.

配列に基づく PPI 予測のその後