Fisica Computazionale applicata alle Macromolecole
description
Transcript of Fisica Computazionale applicata alle Macromolecole
Fisica Computazionale applicata alle Macromolecole
Pier Luigi Martelli
Università di [email protected]
051 2094005338 3991609
Reti Neurali per la predizione proteica
Covalent structureTTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN
Ct
Nt
3D structure
Secondary structureEEEE..HHHHHHHHHHHH....HHHHHHHH.EEEE...........
Secondary structure
position of Trans Membrane Segments along the sequenceTopography
Topology of membrane proteins
Porin (Rhodobacter capsulatus)
Bacteriorhodopsin(Halobacterium salinarum)
Bil
ayer
-barrel -helices
Outer Membrane Inner Membrane
ALALMLCMLTYRHKELKLKLKK ALALMLCMLTYRHKELKLKLKK ALALMLCMLTYRHKELKLKLKK
Metodi di prima generazioneMetodi di prima generazione
Scale di propensità
•Statistiche sulla presenza dei 20 amminoacidi nelle differenti strutture•Considerazioni fisico-chimiche
Ad ogni tipo di amminoacido viene attribuito un valore di propensità ad assumere una certa struttura
Struttura secondaria: Metodo di Chou-FasmanStruttura secondaria: Metodo di Chou-Fasman
Dato un insieme di strutture note, si conta quante volte ognuno degli amminoacidi è presente in una data struttura e si determina il grado di indipendenza tra l’amminoacido e la struttura
Esempio: ALAKSLAKPSDTLAKSDFREKWEWLKLLKALACCKLSAALhhhhhhhhccccccccccccchhhhhhhhhhhhhhhhhhh
N(A,h) = 7, N(A,c) =1, N=40, N(A)=8,N(h)=27P(A,h) = 7/40, P(A) = 8/40, P(h) = 27/40
Se amminoacido e struttura sono indipendenti:P(A,h) = P(A)P(h)
Il rapporto P(A,h)/P(A)P(h) è detto propensità
Struttura secondaria: Metodo di Chou-FasmanStruttura secondaria: Metodo di Chou-Fasman
Dato un insieme AMPIO di esempi, si costruisce una scala di propensità per ogni residuo e ogni struttura
Name P(H) P(E) Alanine 1,42 0,83Arginine 0,98 0,93Aspartic Acid 1,01 0,54Asparagine 0,67 0,89Cysteine 0,70 1,19Glutamic Acid 1,51 0,37Glutamine 1,11 1,10Glycine 0,57 0,75Histidine 1,00 0,87Isoleucine 1,08 1,60Leucine 1,21 1,30Lysine 1,14 0,74Methionine 1,45 1,05Phenylalanine 1,13 1,38Proline 0,57 0,55Serine 0,77 0,75Threonine 0,83 1,19Tryptophan 1,08 1,37Tyrosine 0,69 1,47Valine 1,06 1,70
Struttura secondaria: Metodo di Chou-FasmanStruttura secondaria: Metodo di Chou-Fasman
Data una nuova sequenza si graficano i valori di propensità residuo per residuo e si ricava una predizione di struttura secondaria
Q3 = 50/60 % (numero di risposte corrette su un insieme di test scorrelato con l’insieme su cui si è condotta la statistica)
T S P T A E L M R S T GP(H) 69 77 57 69 142 151 121 145 98 77 69 57P(E) 147 75 55 147 83 37 130 105 93 75 147 75
Struttura secondaria: Metodo di Chou-FasmanStruttura secondaria: Metodo di Chou-Fasman
http://www.expasy.ch/cgi-bin/protscale.pl
Eliche transmembrana: Scala di Kyte e DoolittleEliche transmembrana: Scala di Kyte e Doolittle
Si considera il coefficiente di partizione acqua-ottanolo dei singoli amminoacidiSi considera la frequenza di occorrenza dei singoli amminoacidi nelle eliche transmembrana
Ala: 1.800 Arg: -4.500 Asn: -3.500 Asp: -3.500 Cys: 2.500 Gln: -3.500 Glu: -3.500 Gly: -0.400 His: -3.200 Ile: 4.500 Leu: 3.800 Lys: -3.900 Met: 1.900 Phe: 2.800 Pro: -1.600 Ser: -0.800 Thr: -0.700 Trp: -0.900 Tyr: -1.300 Val: 4.200
Metodi di seconda generazione GORMetodi di seconda generazione GOR
La struttura assunta da un amminoacido non dipende solo dall’amminoacido stesso, ma anche da quelli che lo affiancano
Si possono estendere le statistiche agli amminoacidi che affiancano l’amminoacido di cui si vuol predire la struttura (tipicamente in una finestra -8 < i < 8 / -13 < i < 13)
Si ottengono dei coefficienti P(A,s,i) di contributo dell’amminoacido A, posto in posizione i rispetto al residuo centrale, alla struttura s per il residuo centrale
Struttura secondaria: Metodo GORStruttura secondaria: Metodo GOR
Q3 = 65 % (numero di risposte corrette su un insieme di test scorrelato con l’insieme su cui si è condotta la statistica)
Le posizioni dell’intorno sono considerate scorrelate tra loro, e portano contributi indipendenti
Un metodo più efficiente: Reti neuraliUn metodo più efficiente: Reti neurali
Nuovo paradigma di calcolo: analogia con sistema nervoso
1) Il sistema nervoso è costituito da neuroni2) Il segnale elettrico fluisce nel neurone in una direzione determinata (Principio di polarizzazione dinamica)3)Non esiste continuità citoplasmatica tra le cellule; ogni cellula comunica con alcune cellule in modo specifico attraverso le sinapsi (Principio di specificità connettiva)
Computazione complessa: Bande di MachComputazione complessa: Bande di Mach
Osservate le giunzioni tra le bande
Computazione complessa: Bande di MachComputazione complessa: Bande di Mach
Computazione complessa: Bande di MachComputazione complessa: Bande di Mach
Osservate le giunzioni tra le zone bianche e nere
Da: R. Pierantoni, La trottola di Prometeo, Laterza (1996)
Computazione complessa: Bande di MachComputazione complessa: Bande di Mach
Stimolo Percetto
Inte
nsità
Inte
nsità
Semplice modello di neurone retinicoSemplice modello di neurone retinico
0
50
100
150
200
250
0 20 40 60 80 100
Intensità incidente (fotoni/s)
Potenziale (mV)
Trasduttore lineare Luce-Potenziale
Luce
Potenziale
Trasmissione senza connessioniTrasmissione senza connessioni
02040
6080
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
0
40
80
120
160
200
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Fot
oni/
sm
V
Trasmissione con inibizione lateraleTrasmissione con inibizione laterale
02040
6080
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Fot
oni/
s
Ogni neurone inibisce i suoi vicini per il 10% del suo potenziale senza inibizioni
mV
0
40
80
120
160
200
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
160 - 0.1 160-0.1 40=140
40 - 0.1 160-0.1 40=20
40 - 0.1 40-0.1 40=32
160 - 0.1 160-0.1 160=128
Computazione complessa: Bande di MachComputazione complessa: Bande di Mach
Molte unità di calcolo uguali, ognuna delle quali compie azioni semplici, ampiamente interconnesse possono compiere computazioni molto complesse.
La “conoscenza” risiede nella topologia delle connessioni e nella “forza” della sinapsi
Modello di neurone di Modello di neurone di McCulloch e Pitts
Unità computazionale che compie la somma pesata dei segnali in ingresso (attivazione,a)
trasforma l’attivazione secondo una funzione di trasferimento g (output, z)
i
d
ii xwa
1
)(agz
w: pesi sinaptici: soglia di attivazione
Funzioni di trasferimentoFunzioni di trasferimento
0
0,5
1
-10 0 10
aeag
1
1)(
Si usano solitamente funzioni NON lineari
Reti neuraliReti neurali
Wij Pesi sinaptici
Neurone i
-
i
d
ii xwa
1
)(agz
La soglia può essere considerata come ulteriore neurone sempre attivo e collegato con peso sinaptico pari a -
Reti neurali: topologieReti neurali: topologie
La topologia delle connessioni definisce il tipo di rete. Ci occuperemo solo delle reti feed-forward in cui i neuroni sono organizzati in strati gerarchici e il segnale fluisce in una unica direzione.
Percettroni2 soli strati: Input e Output wij
ji
iijj xwgz
Reti neurali e operatori logiciReti neurali e operatori logici
2
1
3
ORw13 = 0.5 w23 = 0.5 3 = 0.25
a3 = 0.25z3 = 1
a3 = 0.25z3 = 1
a3 = 0.75z3 = 1
a3 = -0.25z3 = 0
Reti neurali e operatori logiciReti neurali e operatori logici
2
1
3
ANDw13 = 0.5 w23 = 0.5 3 = 0.75
a3 = -0.25z3 = 0
a3 = -0.25z3 = 0
a3 = 0.25z3 = 1
a3 = -0.75z3 = 0
Reti neurali e operatori logiciReti neurali e operatori logici
2
1
3
NOT (1)w13 = -0.5 w23 = 0.1 3 = -0.25
a3 = -0.25z3 = 0
a3 = 0.35z3 = 1
a3 = -0.15z3 = 0
a3 = 0.25z3 = 1
Separabilità lineareSeparabilità lineare
Data la funzione di trasferimento, il neurone risulta attivato se:
0a
01
i
d
ii xw
Lo spazio degli input è così diviso in due zone da un iperpiano.
Se i mapping che vogliamo effettuare non sono linearmente separabili, il percettrone è insufficiente
Separabilità lineareSeparabilità lineare
AND OR NOT(1)
XOR
Non linearmente separabile: un percettrone non può risolverlo
Reti neurali feed-forward a più stratiReti neurali feed-forward a più strati
Neuroni organizzati a strati
Ogni strato riceve input da quello precedente e trasmette un segnale a quello successivo
w1ij
w2ij
111
jii
ijj xwgz
2122
jii
ijj zwgz
2(
1(
1 (
2
1w1
11
w122
w121
w112
w211
w221
XORw1
11 = 0.7 w121 = 0.7 1
1 = 0. 5 w1
12 = 0.3 w122 = 0.3 1
2 = 0. 5 w2
11 = 0.7 w221 = -0.7 1
2 = 0. 5
a11 = -0.5 z1
1 = 0 a1
2 = -0.5 z12 = 0
a21 = -0.5 z1
2 = 0
x1 = 0 x2 = 0
2(
1(
1 (
2
1w1
11
w122
w121
w112
w211
w221
XORw1
11 = 0.7 w121 = 0.7 1
1 = 0. 5 w1
12 = 0.3 w122 = 0.3 1
2 = 0. 5 w2
11 = 0.7 w221 = -0.7 1
2 = 0. 5
a11 = 0.2 z1
1 = 1 a1
2 = -0.2 z12 = 0
a21 = 0.2 z1
2 = 1
x1 = 1 x2 = 0
2(
1(
1 (
2
1w1
11
w122
w121
w112
w211
w221
XORw1
11 = 0.7 w121 = 0.7 1
1 = 0. 5 w1
12 = 0.3 w122 = 0.3 1
2 = 0. 5 w2
11 = 0.7 w221 = -0.7 1
2 = 0. 5
a11 = 0.2 z1
1 = 1 a1
2 = -0.2 z12 = 0
a21 = 0.2 z1
2 = 1
x1 = 0 x2 = 1
2(
1(
1 (
2
1w1
11
w122
w121
w112
w211
w221
XORw1
11 = 0.7 w121 = 0.7 1
1 = 0. 5 w1
12 = 0.3 w122 = 0.3 1
2 = 0. 5 w2
11 = 0.7 w221 = -0.7 1
2 = 0. 5
a11 = 0.9 z1
1 = 1 a1
2 = 0.1 z12 = 1
a21 = -0.5 z1
2 = 0
x1 = 1 x2 = 1
Gli strati nascosti mappano l’input in una Gli strati nascosti mappano l’input in una rappresentazione linearmente separabilerappresentazione linearmente separabile
Input Output Attivazione desiderato neuroni hidden
0 0 0 0 01 0 1 0 10 1 1 0 11 1 0 1 1
Reti neurali supervisionateReti neurali supervisionate
Le reti neurali Feed-forward possono essere addestrate a partire da esempi di cui sia nota la soluzione.
Funzione di erroreDato un insieme di esempi xi
il cui output desiderato di sia noto, data una rete a parametri w, si può calcolare l’errore quadratico sugli output della rete z (j corre sugli output)
2,
),(2
1 ji
ij
ij dwxzE
Addestrare la rete significa trovare i parametri w che minimizzano tale errore: algoritmi di minimizzazione iterativi che NON garantiscono il raggiungimento del minimo globale
Addestramento di un percettroneAddestramento di un percettrone
Consideriamo come funzione di trasferimento una funzione derivabile:
aeag
1
1)( )(1)(
1)(' 2 agag
e
eag
a
a
Dati dei parametri iniziali w:
ii
lj
ij
ij
ij
ijlj wxw
wxa
wxa
wxz
wxz
E
w
E
),(
),(
),(
),(
),(
ij
iji
j
dwxzwxz
E
),(),(
)('),(
),(ag
wxa
wxzi
j
ij
i
lj
ij
lxw
wxa
),(
z2
z1
x2
x1 jj agz
j
id
iljj l
xwa 1
2,
),(2
1 ji
ij
ij dwxzE
Addestramento di un percettroneAddestramento di un percettrone
Così:
i
il
ij
i
il
ij
ij
lj
xxagdwxzw
E )('),(
Scarto: ij
Si possono aggiornare i pesi per “discesa del gradiente”
ljljlj w
Eww
è detta velocità di apprendimento:troppo piccola: addestramento lentotroppo grande: si superano i minimi
Convergenza: 0
ljw
E
Esempio: OREsempio: OR
2
1
3w13 = 0 w23 = 0 3 = 0 =2
Esempi presentatix1 x2 d a z E w13 w13 3
1 0 1 0 0.5 0.125 -0.125 0 0.1250 1 1 0 0.5 0.125 0 -0.125 0.1250 0 0 0 0.5 0.125 0 0 -0.1250 0 0 0 0.5 0.125 0 0 -0.125
0.5 -0.125 -0.125 0
Esempio: OR, Step 1Esempio: OR, Step 1
2
1
3w13 = 0.25 w23 = 0.25 3 = 0 =2
Esempi presentatix1 x2 d a z E w13 w13 3
1 0 1 0.25 0.56 0.096 -0.108 0 0.1080 1 1 0.25 0.56 0.096 0 -0.108 0.1080 0 0 0 0.5 0.125 0 0 -0.1250 0 0 0 0.5 0.125 0 0 -0.125
0.442 -0.108 -0.108 -0.035
Esempio: OR, Step 2Esempio: OR, Step 2
2
1
3w13 = 0.466 w23 = 0.466 3 = 0.069 =2
Esempi presentatix1 x2 d a z E w13 w13 3
1 0 1 0.397 0.598 0.081 -0.097 0 0.0970 1 1 0.397 0.598 0.081 0 -0.097 0.0970 0 0 -0.069 0.483 0.117 0 0 -0.1210 0 0 -0.069 0.483 0.117 0 0 -0.121
0.395 -0.097 -0.097 -0.048
Esempio: OR, Step 3Esempio: OR, Step 3
2
1
3w13 = 0.659 w23 = 0.659 3 = 0.164 =2
Esempi presentatix1 x2 d a z E w13 w13 3
1 0 1 0.494 0.621 0.072 -0.089 0 0.0890 1 1 0.494 0.621 0.072 0 -0.089 0.0890 0 0 -0.164 0.459 0.105 0 0 -0.1140 0 0 -0.164 0.459 0.105 0 0 -0.114
0.354 -0.089 -0.089 -0.05Continua Train
GeneralizzazioneGeneralizzazione
2
1
3w13 = 0.659 w23 = 0.659 3 = 0.164 =2
Per l’esempio non presentato (1,1)?x1 x2 d a z
1 1 1 1.153 0.760
La rete ha generalizzato le regole apprese ad un esempio ignoto
Addestramento per reti a più strati:Back-Addestramento per reti a più strati:Back-propagationpropagation
w1ij
w2ij
i
il
ij
i
il
ij
i zzagdwxzw
Ej
lj
,1,2,122
)('),(
Per lo strato 2, valgono le formule date per il percettrone, con la sostituzione x z1,i
Addestramento per reti a più strati:Back-Addestramento per reti a più strati:Back-propagationpropagation
il
i
ij
i
ij
ij
xw
a
a
E
w
E
ljlj
,1
1
,1
,11
ij
ik
k
ik
ki
j
ik
ik
i a
a
a
a
a
E
a
E
j
,1
,2,2
,1
,2
,2,1
w1ij
w2ij
Per lo strato 1:
Definisco ij
m
mki
mi
k waga 2,1,2 )(2,1
,1
,2
)(' jki
jij
ik wag
a
a
2,1,2,1 )(' jki
jk
ik
ij wag
Addestramento per reti a più strati:Back-Addestramento per reti a più strati:Back-propagationpropagation
passo feed-forward per calcolare zl ;calcolo dello scarto sugli output, 2
l;calcolo dello scarto sui neuroni nascosti, j
1;calcolo delle derivate dell’errore rispetto ai pesi
Input
Output
Cosa apprende una rete?Cosa apprende una rete?
Consideriamo il caso limite ideale in cui la rete venga addestrata su un insieme continuo di esempi, x, ciascuno presente con probabilità P(x) e che le soluzioni desiderate t siano associate ad ognuno degli esempi con probabilità P(t | x)
jjj
jj dxxPxdPdwxzE dd)()|(),(2
1 2
0),(
wxz
E
j
Training, a convergenza:
jjjjj
jj dxxxxPxdPdwxz d)d-()()|(),(0 ,
jjjj dxdPdwxz d)|(),(
Derivata funzionale
Lo stato di attivazione del j-esimo neurone di output è uguale alla media delle soluzioni associate all'input x nell'insieme di addestramento
PredictionNew sequence
Prediction
Tools out of machine learning approaches
Tools out of machine learning approaches
Neural Networks can learn the mapping from sequence to secondary structureNeural Networks can learn the mapping from sequence to secondary structure
General
rules
Data Base Subset
Known mapping
TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN
Training
EEEE..HHHHHHHHHHHH....HHHHHHHH.EEEE
Reti neurali per la predizione della struttura Reti neurali per la predizione della struttura secondariasecondaria
Input
Output
C
M P I L K QK P I H Y H P N H G E A K G
A 0 0 0 0 0 0 0 0 0C 0 0 0 0 0 0 0 0 0D 0 0 0 0 0 0 0 0 0 E 0 0 0 0 0 0 0 0 0 F 0 0 0 0 0 0 0 0 0G 0 0 0 0 0 0 0 0 0H 0 0 0 1 0 1 0 0 1I 0 0 1 0 0 0 0 0 0K 1 0 0 0 0 0 0 0 0L 0 0 0 0 0 0 0 0 0M 0 0 0 0 0 0 0 0 0N 0 0 0 0 0 0 0 1 0P 0 1 0 0 0 0 1 0 0Q 0 0 0 0 0 0 0 0 0R 0 0 0 0 0 0 0 0 0S 0 0 0 0 0 0 0 0 0T 0 0 0 0 0 0 0 0 0 V 0 0 0 0 0 0 0 0 0W 0 0 0 0 0 0 0 0 0Y 0 0 0 0 1 0 0 0 0
Tipicamente:Input 17-23 residui
Hidden neuron :4-15
ACDEFGHIKLMNPQRSTVWY.
H
E
L
D (L)
R (E)
Q (E)
G (E)
F (E)
V (E)
P (E)
A (H)
A (H)
Y (H)
V (E)
K (E)
K (E)
Metodi di terza generazione: l’informazione Metodi di terza generazione: l’informazione evolutivaevolutiva
1 Y K D Y H S - D K K K G E L - -2 Y R D Y Q T - D Q K K G D L - -3 Y R D Y Q S - D H K K G E L - -4 Y R D Y V S - D H K K G E L - -5 Y R D Y Q F - D Q K K G S L - -6 Y K D Y N T - H Q K K N E S - -7 Y R D Y Q T - D H K K A D L - -8 G Y G F G - - L I K N T E T T K 9 T K G Y G F G L I K N T E T T K10 T K G Y G F G L I K N T E T T K
A 0 0 0 0 0 0 0 0 0 0 0 10 0 0 0 0C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0D 0 0 70 0 0 0 0 60 0 0 0 0 20 0 0 0E 0 0 0 0 0 0 0 0 0 0 0 0 70 0 0 0F 0 0 0 10 0 33 0 0 0 0 0 0 0 0 0 0G 10 0 30 0 30 0 100 0 0 0 0 50 0 0 0 0H 0 0 0 0 10 0 0 10 30 0 0 0 0 0 0 0K 0 40 0 0 0 0 0 0 10 100 70 0 0 0 0 100I 0 0 0 0 0 0 0 0 30 0 0 0 0 0 0 0L 0 0 0 0 0 0 0 30 0 0 0 0 0 0 0 0M 0 0 0 0 0 0 0 0 0 0 0 0 0 60 0 0N 0 0 0 0 10 0 0 0 0 0 30 10 0 0 0 0P 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0Q 0 0 0 0 40 0 0 0 30 0 0 0 0 0 0 0R 0 50 0 0 0 0 0 0 0 0 0 0 0 0 0 0S 0 0 0 0 0 33 0 0 0 0 0 0 10 10 0 0T 20 0 0 0 0 33 0 0 0 0 0 30 0 30 100 0V 0 0 0 0 10 0 0 0 0 0 0 0 0 0 0 0W 0 10 0 0 0 0 0 0 0 0 0 0 0 0 0 0Y 70 0 0 90 0 0 0 0 0 0 0 0 0 0 0 0
Position
SeqNo No V L I M F W Y G A P S T C H R K Q E N D
1 1 80 0 20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 2 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0 0 0 0 80 3 3 50 0 0 0 0 0 0 0 33 0 0 0 0 0 0 0 0 17 0 0 4 4 0 0 0 0 0 0 0 0 13 63 13 0 0 0 0 0 0 13 0 0 5 5 13 0 0 0 0 0 0 13 75 0 0 0 0 0 0 0 0 0 0 0 6 6 0 0 0 13 0 0 0 0 0 13 0 13 0 0 0 0 0 0 0 63 7 7 0 0 0 38 0 0 0 38 0 0 0 0 0 0 0 25 0 0 0 0 8 8 25 13 0 0 0 0 0 0 50 0 13 0 0 0 0 0 0 0 0 0 9 9 0 13 13 0 0 0 0 0 0 25 0 0 0 0 0 50 0 0 0 0 10 10 0 0 25 13 0 0 0 0 13 13 0 0 0 0 0 38 0 0 0 0 11 11 0 0 0 0 0 0 0 0 25 0 0 0 0 0 0 13 13 0 0 50 12 12 0 0 0 0 43 0 0 29 0 29 0 0 0 0 0 0 0 0 0 0 13 13 0 14 29 0 0 0 0 0 29 0 0 0 0 0 0 0 0 14 0 14 14 14 0 0 0 0 0 0 0 43 29 0 0 0 0 0 0 29 0 0 0 0
The Network Architecture for Secondary Structure
Prediction
The Network Architecture for Secondary Structure
PredictionThe First Network (Sequence to Structure)The First Network (Sequence to Structure)
H E C
CCHHEHHHHCHHCCEECCEEEEHHHCC
The Network Architecture for Secondary Structure
Prediction
The Network Architecture for Secondary Structure
Prediction
SeqNo No V L I M F W Y G A P S T C H R K Q E N D
1 1 80 0 20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 2 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0 0 0 0 80 3 3 50 0 0 0 0 0 0 0 33 0 0 0 0 0 0 0 0 17 0 0 4 4 0 0 0 0 0 0 0 0 13 63 13 0 0 0 0 0 0 13 0 0 5 5 13 0 0 0 0 0 0 13 75 0 0 0 0 0 0 0 0 0 0 0 6 6 0 0 0 13 0 0 0 0 0 13 0 13 0 0 0 0 0 0 0 63 7 7 0 0 0 38 0 0 0 38 0 0 0 0 0 0 0 25 0 0 0 0 8 8 25 13 0 0 0 0 0 0 50 0 13 0 0 0 0 0 0 0 0 0 9 9 0 13 13 0 0 0 0 0 0 25 0 0 0 0 0 50 0 0 0 0 10 10 0 0 25 13 0 0 0 0 13 13 0 0 0 0 0 38 0 0 0 0 11 11 0 0 0 0 0 0 0 0 25 0 0 0 0 0 0 13 13 0 0 50 12 12 0 0 0 0 43 0 0 29 0 29 0 0 0 0 0 0 0 0 0 0 13 13 0 14 29 0 0 0 0 0 29 0 0 0 0 0 0 0 0 14 0 14 14 14 0 0 0 0 0 0 0 43 29 0 0 0 0 0 0 29 0 0 0 0
The Second Network (Structure to Structure)The Second Network (Structure to Structure)
CCHHEHHHHCHHCCEECCEEEEHHHCC
H E C
Protein set
Training set 1
Testing set 1
The cross validation procedureThe cross validation procedure
The Performance on the Task of Secondary Structure
Prediction
The Performance on the Task of Secondary Structure
Prediction
Efficiency of the Neural Network-Based Predictors onthe 822 Proteins of the Testing Set
INPUTQ3 (%) 66.3
Single SOV 0.62Sequence Q[H] 0.69 Q[E] 0.61 Q[C] 0.66
P[H] 0.70 P[E] 0.54 P[C] 0.71C[H] 0.54 C[E] 0.44 C[C] 0.45
Q3(%) 72.4Multiple SOV 0.69Sequence Q[H] 0.75 Q[E] 0.65 Q[C] 0.75(MaxHom) P[H] 0.77 P[E] 0.64 P[C] 0.73
C[H] 0.64 C[E] 0.54 C[C] 0.53Q3(%) 73.4
Multiple SOV 0.70Sequence Q[H] 0.75 Q[E] 0.70 Q[C] 0.73(PSI-BLAST) P[H] 0.80 P[E] 0.63 P[C] 0.75
C[H] 0.67 C[E] 0.56 C[C] 0.53
Combinando differenti reti: Q3 =76/78%
Secondary Structure PredictionSecondary Structure Prediction
Dalla sequenzaDalla sequenza
TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN
EEEE..HHHHHHHHHHHH....HHHHHHHH.EEEE...........
Alla struttura secondaria Alla struttura secondaria
7997688899999988776886778999887679956889999999
E alla probabilità di corretta predizioneE alla probabilità di corretta predizione
PredictProtein Burkhard Rost (Columbia Univ.)http://cubic.bioc.columbia.edu/predictprotein/
PsiPRED David Jones (UCL)http://bioinf.cs.ucl.ac.uk/psipred/
JPred Geoff Barton (Dundee Univ.)
SecPRED http://www.biocomp.unibo.it
SERVERSSERVERS
QEALEIA
1TIF
1WTUA
Translation Initiation Factor 3
Bacillus stearothermophilus
……GIKSKQEALEIAARRN……
Transcription Factor 1
Bacteriophage Spo1
……FNPQTQEALEIAPSVGV……
Segmenti CamaleonteSegmenti Camaleonte
We extract: We extract:
2,452 5-mer chameleons 107 6-mer chameleons 16 7-mer chameleons 1 8-mer chameleon
2,576 couples
The total number of residues in chameleons is 26,044 out of 755 protein chains (~15%)
from a set of 822 non-homologous proteins(174,192 residues)
C
NGDQLGIKSKQEALEIAARRNLDLVLVAP
C
ARKGFNPQTQEALEIAPSVGVSVKPG
Prediction of the Secondary Structure of Chameleon sequences with Neural
Networks
Prediction of the Secondary Structure of Chameleon sequences with Neural
NetworksQEALEIAHHHHHHH
QEALEIACCCCCCC
The Prediction of Chameleons with Neural Networks
The Prediction of Chameleons with Neural Networks
•Struttura secondaria
•Siti di iniziazione del folding
•Topologia delle proteine di membrana
•Stato di legame delle cisteine
•Mappe di contatto delle proteine
•Superfici di contatto di strutture proteiche
Altri predittori a reti neuraliAltri predittori a reti neurali
Predizione dello stato di legame delle cisteinePredizione dello stato di legame delle cisteine
Tryparedoxin-I from Crithidia fasciculata (1QK8)
Cys40
Cys43
Cys68
Free cysteines
Disulphide bonded cysteines
MSGLDKYLPGIEKLRRGDGEVEVKSLAGKLVFFYFSASWCPPCRGFTPQLIEFYDKFHES KNFEVVFCTWDEEEDGFAGYFAKMPWLAVPFAQSEAVQKLSKHFNVESIPTLIGVDADSG DVVTTRARATLVKDPEGEQFPWKDAP
NGDQLGIKSKQEALCIAARRNLDLVLVAP
Legata
Non Legata
Percettrone (con input a profilo di sequenza)Percettrone (con input a profilo di sequenza)
Cosa è memorizzato nei pesi sinaptici?Cosa è memorizzato nei pesi sinaptici?
Residue
Hinton’s plot
bonding state
non bonding state
V L I M F W Y G A P S T C H R K Q E N D 0 & #
-5-4-3-2-1 0 1 2 3 4 5
Residue V L I M F W Y G A P S T C H R K Q E N D 0 & #
-5-4-3-2-1 0 1 2 3 4 5
Posi
tio
nPosi
tio
n
Residue
End
Begin
1
3
2
4
Bonded statesFree states
Struttura sintattica Struttura sintattica
Bonding Residue State State
C40C43C68
End
Begin
1
3
2
4
Un possibile camminoUn possibile cammino
Bonding Residue State State
C40 1 FC43C68
End
Begin
1
3
2
4
P(seq) = P(1 | Begin) P(C40 | 1) ...
Un possibile camminoUn possibile cammino
Bonding Residue State State
C40 1 FC43 2 BC68
End
Begin
1
3
2
4
P(seq) = P(1 | Begin) P(C40 | 1) ... P(2 | 1) P(C43 | 2) ..
Un possibile camminoUn possibile cammino
Bonding Residue State State
C40 1 FC43 2 BC68 4 B
End
Begin
1
3
2
4
P(seq) = P(1 | Begin) P(C40 | 1) ... P(2 | 1) P(C43 | 2) .. P(4 | 2) P(C68 | 4) ..
Un possibile camminoUn possibile cammino
Bonding Residue State State
C40 1 FC43 2 BC68 4 B
End
Begin
1
3
2
4
P(seq) = P(1 | Begin) P(C40 | 1) ... P(2 | 1) P(C43 | 2) .. P(4 | 2) P(C68 | 4) .. P(End | 4)
Un possibile camminoUn possibile cammino
End
Begin
1
43
2
Bonding Residue State State
C40 1 FC43 1 FC68 1 F
End
Begin
1
43
2
Bonding Residue State State
C40 1 FC43 2 BC68 4 B
End
Begin
1
43
2
Bonding Residue State State
C40 2 BC43 4 BC68 1 F
End
Begin
1
43
2
Bonding Residue State State
C40 2 BC43 3 FC68 4 B
I 4 possibili camminiI 4 possibili cammini
MYSFPNSFRFGWSQAGFQCEMSTPGSEDPNTDWYKWVHDPENMAAGLCSGDLPENGPGYWGNYKTFHDNAQKMCLKIARLNVEWSRIFPNP...
P(B|W1), P(F|W1) P(B|W3), P(F|W3)P(B|W2), P(F|W2)
W1 W2 W3
Free Cys
Bonded Cys
End
Begin
Viterbi path
Prediction of bonding state of cysteines
Sistema ibridoSistema ibrido
Residue
C40 C43 C68
Predizione della TriparedoxinaPredizione della Triparedoxina
NN Output NN predResidue B F
C40 99 1 B C43 82 18 B C68 61 39 B
Predizione della TriparedoxinaPredizione della Triparedoxina
NN Output NN pred HMM HMM predResidue B F Viterbi path
C40 99 1 B 2 BC43 82 18 B 4 BC68 61 39 B 1 F
End
Begin
1
43
2
Predizione della TriparedoxinaPredizione della Triparedoxina
Table I. Performance of the NN predictor (20-fold cross
validation) Set Q2 C Q(B) Q(F) P(B) P(F) Q2prot WD 80.4 0.56 67.2 87.5 74.3 83.2 56.9 RD 80.1 0.56 67.2 87.6 75.7 82.2 49.7
B= cysteine bonding state, F=cysteine free state. WD= whole database (969 proteins, 4136 cysteines) RD= Reduced database, in which the chains containing only one cysteine are
removed (782 proteins, 3949 cysteines).
Table II. Performance of the Hidden NN predictor (20-fold cross validation) Set Q2 C Q(B) Q(F) P(B) P(F) Q2prot WD 88.0 0.73 78.1 93.3 86.3 88.8 84.0 RD 87.4 0.73 78.1 92.8 86.3 88.0 80.2
Neural Network
Hybrid system
Martelli PL, Fariselli P, Malaguti L, Casadio R. -Prediction of the disulfide bonding state of cysteines in proteins with hidden neural networks- Protein Eng. 15:951-953 (2002)
Performance del predittorePerformance del predittore