Fisica Computazionale applicata alle Macromolecole

Fisica Computazionale applicata alle Macromolecole

Pier Luigi Martelli

Università di [email protected]

051 2094005338 3991609

Reti Neurali per la predizione proteica

Covalent structureTTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN

Ct

Nt

3D structure

Secondary structureEEEE..HHHHHHHHHHHH....HHHHHHHH.EEEE...........

Secondary structure

position of Trans Membrane Segments along the sequenceTopography

Topology of membrane proteins

Porin (Rhodobacter capsulatus)

Bacteriorhodopsin(Halobacterium salinarum)

Bil

ayer

-barrel -helices

Outer Membrane Inner Membrane

ALALMLCMLTYRHKELKLKLKK ALALMLCMLTYRHKELKLKLKK ALALMLCMLTYRHKELKLKLKK

Metodi di prima generazioneMetodi di prima generazione

Scale di propensità

•Statistiche sulla presenza dei 20 amminoacidi nelle differenti strutture•Considerazioni fisico-chimiche

Ad ogni tipo di amminoacido viene attribuito un valore di propensità ad assumere una certa struttura

Struttura secondaria: Metodo di Chou-FasmanStruttura secondaria: Metodo di Chou-Fasman

Dato un insieme di strutture note, si conta quante volte ognuno degli amminoacidi è presente in una data struttura e si determina il grado di indipendenza tra l’amminoacido e la struttura

Esempio: ALAKSLAKPSDTLAKSDFREKWEWLKLLKALACCKLSAALhhhhhhhhccccccccccccchhhhhhhhhhhhhhhhhhh

N(A,h) = 7, N(A,c) =1, N=40, N(A)=8,N(h)=27P(A,h) = 7/40, P(A) = 8/40, P(h) = 27/40

Se amminoacido e struttura sono indipendenti:P(A,h) = P(A)P(h)

Il rapporto P(A,h)/P(A)P(h) è detto propensità


Dato un insieme AMPIO di esempi, si costruisce una scala di propensità per ogni residuo e ogni struttura

Name P(H) P(E) Alanine 1,42 0,83Arginine 0,98 0,93Aspartic Acid 1,01 0,54Asparagine 0,67 0,89Cysteine 0,70 1,19Glutamic Acid 1,51 0,37Glutamine 1,11 1,10Glycine 0,57 0,75Histidine 1,00 0,87Isoleucine 1,08 1,60Leucine 1,21 1,30Lysine 1,14 0,74Methionine 1,45 1,05Phenylalanine 1,13 1,38Proline 0,57 0,55Serine 0,77 0,75Threonine 0,83 1,19Tryptophan 1,08 1,37Tyrosine 0,69 1,47Valine 1,06 1,70


Data una nuova sequenza si graficano i valori di propensità residuo per residuo e si ricava una predizione di struttura secondaria

Q3 = 50/60 % (numero di risposte corrette su un insieme di test scorrelato con l’insieme su cui si è condotta la statistica)

T S P T A E L M R S T GP(H) 69 77 57 69 142 151 121 145 98 77 69 57P(E) 147 75 55 147 83 37 130 105 93 75 147 75


http://www.expasy.ch/cgi-bin/protscale.pl
















Eliche transmembrana: Scala di Kyte e DoolittleEliche transmembrana: Scala di Kyte e Doolittle

Si considera il coefficiente di partizione acqua-ottanolo dei singoli amminoacidiSi considera la frequenza di occorrenza dei singoli amminoacidi nelle eliche transmembrana

Ala: 1.800 Arg: -4.500 Asn: -3.500 Asp: -3.500 Cys: 2.500 Gln: -3.500 Glu: -3.500 Gly: -0.400 His: -3.200 Ile: 4.500 Leu: 3.800 Lys: -3.900 Met: 1.900 Phe: 2.800 Pro: -1.600 Ser: -0.800 Thr: -0.700 Trp: -0.900 Tyr: -1.300 Val: 4.200

Metodi di seconda generazione GORMetodi di seconda generazione GOR

La struttura assunta da un amminoacido non dipende solo dall’amminoacido stesso, ma anche da quelli che lo affiancano

Si possono estendere le statistiche agli amminoacidi che affiancano l’amminoacido di cui si vuol predire la struttura (tipicamente in una finestra -8 < i < 8 / -13 < i < 13)

Si ottengono dei coefficienti P(A,s,i) di contributo dell’amminoacido A, posto in posizione i rispetto al residuo centrale, alla struttura s per il residuo centrale

Struttura secondaria: Metodo GORStruttura secondaria: Metodo GOR

Q3 = 65 % (numero di risposte corrette su un insieme di test scorrelato con l’insieme su cui si è condotta la statistica)

Le posizioni dell’intorno sono considerate scorrelate tra loro, e portano contributi indipendenti

Un metodo più efficiente: Reti neuraliUn metodo più efficiente: Reti neurali

Nuovo paradigma di calcolo: analogia con sistema nervoso

1) Il sistema nervoso è costituito da neuroni2) Il segnale elettrico fluisce nel neurone in una direzione determinata (Principio di polarizzazione dinamica)3)Non esiste continuità citoplasmatica tra le cellule; ogni cellula comunica con alcune cellule in modo specifico attraverso le sinapsi (Principio di specificità connettiva)

Computazione complessa: Bande di MachComputazione complessa: Bande di Mach

Osservate le giunzioni tra le bande


Osservate le giunzioni tra le zone bianche e nere

Da: R. Pierantoni, La trottola di Prometeo, Laterza (1996)


Stimolo Percetto

Inte

nsità

Inte

nsità

Semplice modello di neurone retinicoSemplice modello di neurone retinico

0

50

100

150

200

250

0 20 40 60 80 100

Intensità incidente (fotoni/s)

Potenziale (mV)

Trasduttore lineare Luce-Potenziale

Luce

Potenziale

Trasmissione senza connessioniTrasmissione senza connessioni

02040

6080

100

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

0

40

80

120

160

200

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Fot

oni/

sm

V

Trasmissione con inibizione lateraleTrasmissione con inibizione laterale

02040

6080

100

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Fot

oni/

s

Ogni neurone inibisce i suoi vicini per il 10% del suo potenziale senza inibizioni

mV

0

40

80

120

160

200

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

160 - 0.1 160-0.1 40=140

40 - 0.1 160-0.1 40=20

40 - 0.1 40-0.1 40=32

160 - 0.1 160-0.1 160=128


Molte unità di calcolo uguali, ognuna delle quali compie azioni semplici, ampiamente interconnesse possono compiere computazioni molto complesse.

La “conoscenza” risiede nella topologia delle connessioni e nella “forza” della sinapsi

Modello di neurone di Modello di neurone di McCulloch e Pitts

Unità computazionale che compie la somma pesata dei segnali in ingresso (attivazione,a)

trasforma l’attivazione secondo una funzione di trasferimento g (output, z)

i

d

ii xwa

1

)(agz

w: pesi sinaptici: soglia di attivazione

Funzioni di trasferimentoFunzioni di trasferimento

0

0,5

1

-10 0 10

aeag

1

1)(

Si usano solitamente funzioni NON lineari

Reti neuraliReti neurali

Wij Pesi sinaptici

Neurone i

-

i

d

ii xwa

1

)(agz

La soglia può essere considerata come ulteriore neurone sempre attivo e collegato con peso sinaptico pari a -

Reti neurali: topologieReti neurali: topologie

La topologia delle connessioni definisce il tipo di rete. Ci occuperemo solo delle reti feed-forward in cui i neuroni sono organizzati in strati gerarchici e il segnale fluisce in una unica direzione.

Percettroni2 soli strati: Input e Output wij

ji

iijj xwgz

Reti neurali e operatori logiciReti neurali e operatori logici

2

1

3

ORw13 = 0.5 w23 = 0.5 3 = 0.25

a3 = 0.25z3 = 1

a3 = 0.25z3 = 1

a3 = 0.75z3 = 1

a3 = -0.25z3 = 0


2

1

3

ANDw13 = 0.5 w23 = 0.5 3 = 0.75

a3 = -0.25z3 = 0

a3 = -0.25z3 = 0

a3 = 0.25z3 = 1

a3 = -0.75z3 = 0


2

1

3

NOT (1)w13 = -0.5 w23 = 0.1 3 = -0.25

a3 = -0.25z3 = 0

a3 = 0.35z3 = 1

a3 = -0.15z3 = 0

a3 = 0.25z3 = 1

Separabilità lineareSeparabilità lineare

Data la funzione di trasferimento, il neurone risulta attivato se:

0a

01

i

d

ii xw

Lo spazio degli input è così diviso in due zone da un iperpiano.

Se i mapping che vogliamo effettuare non sono linearmente separabili, il percettrone è insufficiente

Separabilità lineareSeparabilità lineare

AND OR NOT(1)

XOR

Non linearmente separabile: un percettrone non può risolverlo

Reti neurali feed-forward a più stratiReti neurali feed-forward a più strati

Neuroni organizzati a strati

Ogni strato riceve input da quello precedente e trasmette un segnale a quello successivo

w1ij

w2ij

111

jii

ijj xwgz

2122

jii

ijj zwgz

2(

1(

1 (

2

1w1

11

w122

w121

w112

w211

w221

XORw1

11 = 0.7 w121 = 0.7 1

1 = 0. 5 w1

12 = 0.3 w122 = 0.3 1

2 = 0. 5 w2

11 = 0.7 w221 = -0.7 1

2 = 0. 5

a11 = -0.5 z1

1 = 0 a1

2 = -0.5 z12 = 0

a21 = -0.5 z1

2 = 0

x1 = 0 x2 = 0

2(

1(

1 (

2

1w1

11

w122

w121

w112

w211

w221

XORw1

11 = 0.7 w121 = 0.7 1

1 = 0. 5 w1

12 = 0.3 w122 = 0.3 1

2 = 0. 5 w2

11 = 0.7 w221 = -0.7 1

2 = 0. 5

a11 = 0.2 z1

1 = 1 a1

2 = -0.2 z12 = 0

a21 = 0.2 z1

2 = 1

x1 = 1 x2 = 0

2(

1(

1 (

2

1w1

11

w122

w121

w112

w211

w221

XORw1

11 = 0.7 w121 = 0.7 1

1 = 0. 5 w1

12 = 0.3 w122 = 0.3 1

2 = 0. 5 w2

11 = 0.7 w221 = -0.7 1

2 = 0. 5

a11 = 0.2 z1

1 = 1 a1

2 = -0.2 z12 = 0

a21 = 0.2 z1

2 = 1

x1 = 0 x2 = 1

2(

1(

1 (

2

1w1

11

w122

w121

w112

w211

w221

XORw1

11 = 0.7 w121 = 0.7 1

1 = 0. 5 w1

12 = 0.3 w122 = 0.3 1

2 = 0. 5 w2

11 = 0.7 w221 = -0.7 1

2 = 0. 5

a11 = 0.9 z1

1 = 1 a1

2 = 0.1 z12 = 1

a21 = -0.5 z1

2 = 0

x1 = 1 x2 = 1

Gli strati nascosti mappano l’input in una Gli strati nascosti mappano l’input in una rappresentazione linearmente separabilerappresentazione linearmente separabile

Input Output Attivazione desiderato neuroni hidden

0 0 0 0 01 0 1 0 10 1 1 0 11 1 0 1 1

Reti neurali supervisionateReti neurali supervisionate

Le reti neurali Feed-forward possono essere addestrate a partire da esempi di cui sia nota la soluzione.

Funzione di erroreDato un insieme di esempi xi

il cui output desiderato di sia noto, data una rete a parametri w, si può calcolare l’errore quadratico sugli output della rete z (j corre sugli output)

2,

),(2

1 ji

ij

ij dwxzE

Addestrare la rete significa trovare i parametri w che minimizzano tale errore: algoritmi di minimizzazione iterativi che NON garantiscono il raggiungimento del minimo globale

Addestramento di un percettroneAddestramento di un percettrone

Consideriamo come funzione di trasferimento una funzione derivabile:

aeag

1

1)( )(1)(

1)(' 2 agag

e

eag

a

a

Dati dei parametri iniziali w:

ii

lj

ij

ij

ij

ijlj wxw

wxa

wxa

wxz

wxz

E

w

E

),(

),(

),(

),(

),(

ij

iji

j

dwxzwxz

E

),(),(

)('),(

),(ag

wxa

wxzi

j

ij

i

lj

ij

lxw

wxa

),(

z2

z1

x2

x1 jj agz

j

id

iljj l

xwa 1

2,

),(2

1 ji

ij

ij dwxzE

Addestramento di un percettroneAddestramento di un percettrone

Così:

i

il

ij

i

il

ij

ij

lj

xxagdwxzw

E )('),(

Scarto: ij

Si possono aggiornare i pesi per “discesa del gradiente”

ljljlj w

Eww

è detta velocità di apprendimento:troppo piccola: addestramento lentotroppo grande: si superano i minimi

Convergenza: 0

ljw

E

Esempio: OREsempio: OR

2

1

3w13 = 0 w23 = 0 3 = 0 =2

Esempi presentatix1 x2 d a z E w13 w13 3

1 0 1 0 0.5 0.125 -0.125 0 0.1250 1 1 0 0.5 0.125 0 -0.125 0.1250 0 0 0 0.5 0.125 0 0 -0.1250 0 0 0 0.5 0.125 0 0 -0.125

0.5 -0.125 -0.125 0

Esempio: OR, Step 1Esempio: OR, Step 1

2

1

3w13 = 0.25 w23 = 0.25 3 = 0 =2


1 0 1 0.25 0.56 0.096 -0.108 0 0.1080 1 1 0.25 0.56 0.096 0 -0.108 0.1080 0 0 0 0.5 0.125 0 0 -0.1250 0 0 0 0.5 0.125 0 0 -0.125

0.442 -0.108 -0.108 -0.035


2

1

3w13 = 0.466 w23 = 0.466 3 = 0.069 =2


1 0 1 0.397 0.598 0.081 -0.097 0 0.0970 1 1 0.397 0.598 0.081 0 -0.097 0.0970 0 0 -0.069 0.483 0.117 0 0 -0.1210 0 0 -0.069 0.483 0.117 0 0 -0.121

0.395 -0.097 -0.097 -0.048


2

1

3w13 = 0.659 w23 = 0.659 3 = 0.164 =2


1 0 1 0.494 0.621 0.072 -0.089 0 0.0890 1 1 0.494 0.621 0.072 0 -0.089 0.0890 0 0 -0.164 0.459 0.105 0 0 -0.1140 0 0 -0.164 0.459 0.105 0 0 -0.114

0.354 -0.089 -0.089 -0.05Continua Train

GeneralizzazioneGeneralizzazione

2

1

3w13 = 0.659 w23 = 0.659 3 = 0.164 =2

Per l’esempio non presentato (1,1)?x1 x2 d a z

1 1 1 1.153 0.760

La rete ha generalizzato le regole apprese ad un esempio ignoto

Addestramento per reti a più strati:Back-Addestramento per reti a più strati:Back-propagationpropagation

w1ij

w2ij

i

il

ij

i

il

ij

i zzagdwxzw

Ej

lj

,1,2,122

)('),(

Per lo strato 2, valgono le formule date per il percettrone, con la sostituzione x z1,i


il

i

ij

i

ij

ij

xw

a

a

E

w

E

ljlj

,1

1

,1

,11

ij

ik

k

ik

ki

j

ik

ik

i a

a

a

a

a

E

a

E

j

,1

,2,2

,1

,2

,2,1

w1ij

w2ij

Per lo strato 1:

Definisco ij

m

mki

mi

k waga 2,1,2 )(2,1

,1

,2

)(' jki

jij

ik wag

a

a

2,1,2,1 )(' jki

jk

ik

ij wag


passo feed-forward per calcolare zl ;calcolo dello scarto sugli output, 2

l;calcolo dello scarto sui neuroni nascosti, j

1;calcolo delle derivate dell’errore rispetto ai pesi

Input

Output

Cosa apprende una rete?Cosa apprende una rete?

Consideriamo il caso limite ideale in cui la rete venga addestrata su un insieme continuo di esempi, x, ciascuno presente con probabilità P(x) e che le soluzioni desiderate t siano associate ad ognuno degli esempi con probabilità P(t | x)

jjj

jj dxxPxdPdwxzE dd)()|(),(2

1 2

0),(

wxz

E

j

Training, a convergenza:

jjjjj

jj dxxxxPxdPdwxz d)d-()()|(),(0 ,

jjjj dxdPdwxz d)|(),(

Derivata funzionale

Lo stato di attivazione del j-esimo neurone di output è uguale alla media delle soluzioni associate all'input x nell'insieme di addestramento

PredictionNew sequence

Prediction

Tools out of machine learning approaches

Tools out of machine learning approaches

Neural Networks can learn the mapping from sequence to secondary structureNeural Networks can learn the mapping from sequence to secondary structure

General

rules

Data Base Subset

Known mapping

TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN

Training

EEEE..HHHHHHHHHHHH....HHHHHHHH.EEEE

Reti neurali per la predizione della struttura Reti neurali per la predizione della struttura secondariasecondaria

Input

Output

C

M P I L K QK P I H Y H P N H G E A K G

A 0 0 0 0 0 0 0 0 0C 0 0 0 0 0 0 0 0 0D 0 0 0 0 0 0 0 0 0 E 0 0 0 0 0 0 0 0 0 F 0 0 0 0 0 0 0 0 0G 0 0 0 0 0 0 0 0 0H 0 0 0 1 0 1 0 0 1I 0 0 1 0 0 0 0 0 0K 1 0 0 0 0 0 0 0 0L 0 0 0 0 0 0 0 0 0M 0 0 0 0 0 0 0 0 0N 0 0 0 0 0 0 0 1 0P 0 1 0 0 0 0 1 0 0Q 0 0 0 0 0 0 0 0 0R 0 0 0 0 0 0 0 0 0S 0 0 0 0 0 0 0 0 0T 0 0 0 0 0 0 0 0 0 V 0 0 0 0 0 0 0 0 0W 0 0 0 0 0 0 0 0 0Y 0 0 0 0 1 0 0 0 0

Tipicamente:Input 17-23 residui

Hidden neuron :4-15

ACDEFGHIKLMNPQRSTVWY.

H

E

L

D (L)

R (E)

Q (E)

G (E)

F (E)

V (E)

P (E)

A (H)

A (H)

Y (H)

V (E)

K (E)

K (E)

Metodi di terza generazione: l’informazione Metodi di terza generazione: l’informazione evolutivaevolutiva

1 Y K D Y H S - D K K K G E L - -2 Y R D Y Q T - D Q K K G D L - -3 Y R D Y Q S - D H K K G E L - -4 Y R D Y V S - D H K K G E L - -5 Y R D Y Q F - D Q K K G S L - -6 Y K D Y N T - H Q K K N E S - -7 Y R D Y Q T - D H K K A D L - -8 G Y G F G - - L I K N T E T T K 9 T K G Y G F G L I K N T E T T K10 T K G Y G F G L I K N T E T T K

A 0 0 0 0 0 0 0 0 0 0 0 10 0 0 0 0C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0D 0 0 70 0 0 0 0 60 0 0 0 0 20 0 0 0E 0 0 0 0 0 0 0 0 0 0 0 0 70 0 0 0F 0 0 0 10 0 33 0 0 0 0 0 0 0 0 0 0G 10 0 30 0 30 0 100 0 0 0 0 50 0 0 0 0H 0 0 0 0 10 0 0 10 30 0 0 0 0 0 0 0K 0 40 0 0 0 0 0 0 10 100 70 0 0 0 0 100I 0 0 0 0 0 0 0 0 30 0 0 0 0 0 0 0L 0 0 0 0 0 0 0 30 0 0 0 0 0 0 0 0M 0 0 0 0 0 0 0 0 0 0 0 0 0 60 0 0N 0 0 0 0 10 0 0 0 0 0 30 10 0 0 0 0P 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0Q 0 0 0 0 40 0 0 0 30 0 0 0 0 0 0 0R 0 50 0 0 0 0 0 0 0 0 0 0 0 0 0 0S 0 0 0 0 0 33 0 0 0 0 0 0 10 10 0 0T 20 0 0 0 0 33 0 0 0 0 0 30 0 30 100 0V 0 0 0 0 10 0 0 0 0 0 0 0 0 0 0 0W 0 10 0 0 0 0 0 0 0 0 0 0 0 0 0 0Y 70 0 0 90 0 0 0 0 0 0 0 0 0 0 0 0

Position

SeqNo No V L I M F W Y G A P S T C H R K Q E N D

1 1 80 0 20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 2 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0 0 0 0 80 3 3 50 0 0 0 0 0 0 0 33 0 0 0 0 0 0 0 0 17 0 0 4 4 0 0 0 0 0 0 0 0 13 63 13 0 0 0 0 0 0 13 0 0 5 5 13 0 0 0 0 0 0 13 75 0 0 0 0 0 0 0 0 0 0 0 6 6 0 0 0 13 0 0 0 0 0 13 0 13 0 0 0 0 0 0 0 63 7 7 0 0 0 38 0 0 0 38 0 0 0 0 0 0 0 25 0 0 0 0 8 8 25 13 0 0 0 0 0 0 50 0 13 0 0 0 0 0 0 0 0 0 9 9 0 13 13 0 0 0 0 0 0 25 0 0 0 0 0 50 0 0 0 0 10 10 0 0 25 13 0 0 0 0 13 13 0 0 0 0 0 38 0 0 0 0 11 11 0 0 0 0 0 0 0 0 25 0 0 0 0 0 0 13 13 0 0 50 12 12 0 0 0 0 43 0 0 29 0 29 0 0 0 0 0 0 0 0 0 0 13 13 0 14 29 0 0 0 0 0 29 0 0 0 0 0 0 0 0 14 0 14 14 14 0 0 0 0 0 0 0 43 29 0 0 0 0 0 0 29 0 0 0 0

The Network Architecture for Secondary Structure

Prediction


PredictionThe First Network (Sequence to Structure)The First Network (Sequence to Structure)

H E C

CCHHEHHHHCHHCCEECCEEEEHHHCC


Prediction


Prediction

SeqNo No V L I M F W Y G A P S T C H R K Q E N D

1 1 80 0 20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 2 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0 0 0 0 80 3 3 50 0 0 0 0 0 0 0 33 0 0 0 0 0 0 0 0 17 0 0 4 4 0 0 0 0 0 0 0 0 13 63 13 0 0 0 0 0 0 13 0 0 5 5 13 0 0 0 0 0 0 13 75 0 0 0 0 0 0 0 0 0 0 0 6 6 0 0 0 13 0 0 0 0 0 13 0 13 0 0 0 0 0 0 0 63 7 7 0 0 0 38 0 0 0 38 0 0 0 0 0 0 0 25 0 0 0 0 8 8 25 13 0 0 0 0 0 0 50 0 13 0 0 0 0 0 0 0 0 0 9 9 0 13 13 0 0 0 0 0 0 25 0 0 0 0 0 50 0 0 0 0 10 10 0 0 25 13 0 0 0 0 13 13 0 0 0 0 0 38 0 0 0 0 11 11 0 0 0 0 0 0 0 0 25 0 0 0 0 0 0 13 13 0 0 50 12 12 0 0 0 0 43 0 0 29 0 29 0 0 0 0 0 0 0 0 0 0 13 13 0 14 29 0 0 0 0 0 29 0 0 0 0 0 0 0 0 14 0 14 14 14 0 0 0 0 0 0 0 43 29 0 0 0 0 0 0 29 0 0 0 0

The Second Network (Structure to Structure)The Second Network (Structure to Structure)

CCHHEHHHHCHHCCEECCEEEEHHHCC

H E C

Protein set

Training set 1

Testing set 1

The cross validation procedureThe cross validation procedure

The Performance on the Task of Secondary Structure

Prediction

The Performance on the Task of Secondary Structure

Prediction

Efficiency of the Neural Network-Based Predictors onthe 822 Proteins of the Testing Set

INPUTQ3 (%) 66.3

Single SOV 0.62Sequence Q[H] 0.69 Q[E] 0.61 Q[C] 0.66

P[H] 0.70 P[E] 0.54 P[C] 0.71C[H] 0.54 C[E] 0.44 C[C] 0.45

Q3(%) 72.4Multiple SOV 0.69Sequence Q[H] 0.75 Q[E] 0.65 Q[C] 0.75(MaxHom) P[H] 0.77 P[E] 0.64 P[C] 0.73

C[H] 0.64 C[E] 0.54 C[C] 0.53Q3(%) 73.4

Multiple SOV 0.70Sequence Q[H] 0.75 Q[E] 0.70 Q[C] 0.73(PSI-BLAST) P[H] 0.80 P[E] 0.63 P[C] 0.75

C[H] 0.67 C[E] 0.56 C[C] 0.53

Combinando differenti reti: Q3 =76/78%

Secondary Structure PredictionSecondary Structure Prediction

Dalla sequenzaDalla sequenza

TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN

EEEE..HHHHHHHHHHHH....HHHHHHHH.EEEE...........

Alla struttura secondaria Alla struttura secondaria

7997688899999988776886778999887679956889999999

E alla probabilità di corretta predizioneE alla probabilità di corretta predizione

PredictProtein Burkhard Rost (Columbia Univ.)http://cubic.bioc.columbia.edu/predictprotein/

PsiPRED David Jones (UCL)http://bioinf.cs.ucl.ac.uk/psipred/

JPred Geoff Barton (Dundee Univ.)

SecPRED http://www.biocomp.unibo.it

SERVERSSERVERS

http://cubic.bioc.columbia.edu/predictprotein/











http://bioinf.cs.ucl.ac.uk/psipred/














http://www.biocomp.unibo.it/








QEALEIA

1TIF

1WTUA

Translation Initiation Factor 3

Bacillus stearothermophilus

……GIKSKQEALEIAARRN……

Transcription Factor 1

Bacteriophage Spo1

……FNPQTQEALEIAPSVGV……

Segmenti CamaleonteSegmenti Camaleonte

We extract: We extract:

2,452 5-mer chameleons 107 6-mer chameleons 16 7-mer chameleons 1 8-mer chameleon

2,576 couples

The total number of residues in chameleons is 26,044 out of 755 protein chains (~15%)

from a set of 822 non-homologous proteins(174,192 residues)

C

NGDQLGIKSKQEALEIAARRNLDLVLVAP

C

ARKGFNPQTQEALEIAPSVGVSVKPG

Prediction of the Secondary Structure of Chameleon sequences with Neural

Networks

Prediction of the Secondary Structure of Chameleon sequences with Neural

NetworksQEALEIAHHHHHHH

QEALEIACCCCCCC

The Prediction of Chameleons with Neural Networks

The Prediction of Chameleons with Neural Networks

•Struttura secondaria

•Siti di iniziazione del folding

•Topologia delle proteine di membrana

•Stato di legame delle cisteine

•Mappe di contatto delle proteine

•Superfici di contatto di strutture proteiche

Altri predittori a reti neuraliAltri predittori a reti neurali

Predizione dello stato di legame delle cisteinePredizione dello stato di legame delle cisteine

Tryparedoxin-I from Crithidia fasciculata (1QK8)

Cys40

Cys43

Cys68

Free cysteines

Disulphide bonded cysteines

MSGLDKYLPGIEKLRRGDGEVEVKSLAGKLVFFYFSASWCPPCRGFTPQLIEFYDKFHES KNFEVVFCTWDEEEDGFAGYFAKMPWLAVPFAQSEAVQKLSKHFNVESIPTLIGVDADSG DVVTTRARATLVKDPEGEQFPWKDAP

NGDQLGIKSKQEALCIAARRNLDLVLVAP

Legata

Non Legata

Percettrone (con input a profilo di sequenza)Percettrone (con input a profilo di sequenza)

Cosa è memorizzato nei pesi sinaptici?Cosa è memorizzato nei pesi sinaptici?

Residue

Hinton’s plot

bonding state

non bonding state

V L I M F W Y G A P S T C H R K Q E N D 0 & #

-5-4-3-2-1 0 1 2 3 4 5

Residue V L I M F W Y G A P S T C H R K Q E N D 0 & #

-5-4-3-2-1 0 1 2 3 4 5

Posi

tio

nPosi

tio

n

Residue

End

Begin

1

3

2

4

Bonded statesFree states

Struttura sintattica Struttura sintattica

Bonding Residue State State

C40C43C68

End

Begin

1

3

2

4

Un possibile camminoUn possibile cammino


C40 1 FC43C68

End

Begin

1

3

2

4

P(seq) = P(1 | Begin) P(C40 | 1) ...



C40 1 FC43 2 BC68

End

Begin

1

3

2

4

P(seq) = P(1 | Begin) P(C40 | 1) ... P(2 | 1) P(C43 | 2) ..



C40 1 FC43 2 BC68 4 B

End

Begin

1

3

2

4

P(seq) = P(1 | Begin) P(C40 | 1) ... P(2 | 1) P(C43 | 2) .. P(4 | 2) P(C68 | 4) ..



C40 1 FC43 2 BC68 4 B

End

Begin

1

3

2

4

P(seq) = P(1 | Begin) P(C40 | 1) ... P(2 | 1) P(C43 | 2) .. P(4 | 2) P(C68 | 4) .. P(End | 4)


End

Begin

1

43

2


C40 1 FC43 1 FC68 1 F

End

Begin

1

43

2


C40 1 FC43 2 BC68 4 B

End

Begin

1

43

2


C40 2 BC43 4 BC68 1 F

End

Begin

1

43

2


C40 2 BC43 3 FC68 4 B

I 4 possibili camminiI 4 possibili cammini

MYSFPNSFRFGWSQAGFQCEMSTPGSEDPNTDWYKWVHDPENMAAGLCSGDLPENGPGYWGNYKTFHDNAQKMCLKIARLNVEWSRIFPNP...

P(B|W1), P(F|W1) P(B|W3), P(F|W3)P(B|W2), P(F|W2)

W1 W2 W3

Free Cys

Bonded Cys

End

Begin

Viterbi path

Prediction of bonding state of cysteines

Sistema ibridoSistema ibrido

Residue

C40 C43 C68

Predizione della TriparedoxinaPredizione della Triparedoxina

NN Output NN predResidue B F

C40 99 1 B C43 82 18 B C68 61 39 B


NN Output NN pred HMM HMM predResidue B F Viterbi path

C40 99 1 B 2 BC43 82 18 B 4 BC68 61 39 B 1 F

End

Begin

1

43

2


Table I. Performance of the NN predictor (20-fold cross

validation) Set Q2 C Q(B) Q(F) P(B) P(F) Q2prot WD 80.4 0.56 67.2 87.5 74.3 83.2 56.9 RD 80.1 0.56 67.2 87.6 75.7 82.2 49.7

B= cysteine bonding state, F=cysteine free state. WD= whole database (969 proteins, 4136 cysteines) RD= Reduced database, in which the chains containing only one cysteine are

removed (782 proteins, 3949 cysteines).

Table II. Performance of the Hidden NN predictor (20-fold cross validation) Set Q2 C Q(B) Q(F) P(B) P(F) Q2prot WD 88.0 0.73 78.1 93.3 86.3 88.8 84.0 RD 87.4 0.73 78.1 92.8 86.3 88.0 80.2

Neural Network

Hybrid system

Martelli PL, Fariselli P, Malaguti L, Casadio R. -Prediction of the disulfide bonding state of cysteines in proteins with hidden neural networks- Protein Eng. 15:951-953 (2002)

Performance del predittorePerformance del predittore

Fisica Computazionale applicata alle Macromolecole

Documents

Transcript of Fisica Computazionale applicata alle Macromolecole