Fisica Computazionale applicata alle Macromolecole

77
Fisica Computazionale applicata alle Macromolecole Pier Luigi Martelli Università di Bologna [email protected] 051 2094005 338 3991609 Reti Neurali per la predizione proteica

description

Fisica Computazionale applicata alle Macromolecole. Pier Luigi Martelli Università di Bologna [email protected] 051 2094005 338 3991609. Reti Neurali per la predizione proteica. Secondary structure EEEE..HHHHHHHHHHHH....HHHHHHHH.EEEE. 3D structure. Nt. Ct. Secondary structure. - PowerPoint PPT Presentation

Transcript of Fisica Computazionale applicata alle Macromolecole

Page 1: Fisica Computazionale applicata alle Macromolecole

Fisica Computazionale applicata alle Macromolecole

Pier Luigi Martelli

Università di [email protected]

051 2094005338 3991609

Reti Neurali per la predizione proteica

Page 2: Fisica Computazionale applicata alle Macromolecole

Covalent structureTTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN

Ct

Nt

3D structure

Secondary structureEEEE..HHHHHHHHHHHH....HHHHHHHH.EEEE...........

Secondary structure

Page 3: Fisica Computazionale applicata alle Macromolecole

position of Trans Membrane Segments along the sequenceTopography

Topology of membrane proteins

Porin (Rhodobacter capsulatus)

Bacteriorhodopsin(Halobacterium salinarum)

Bil

ayer

-barrel -helices

Outer Membrane Inner Membrane

ALALMLCMLTYRHKELKLKLKK ALALMLCMLTYRHKELKLKLKK ALALMLCMLTYRHKELKLKLKK

Page 4: Fisica Computazionale applicata alle Macromolecole

Metodi di prima generazioneMetodi di prima generazione

Scale di propensità

•Statistiche sulla presenza dei 20 amminoacidi nelle differenti strutture•Considerazioni fisico-chimiche

Ad ogni tipo di amminoacido viene attribuito un valore di propensità ad assumere una certa struttura

Page 5: Fisica Computazionale applicata alle Macromolecole

Struttura secondaria: Metodo di Chou-FasmanStruttura secondaria: Metodo di Chou-Fasman

Dato un insieme di strutture note, si conta quante volte ognuno degli amminoacidi è presente in una data struttura e si determina il grado di indipendenza tra l’amminoacido e la struttura

Esempio: ALAKSLAKPSDTLAKSDFREKWEWLKLLKALACCKLSAALhhhhhhhhccccccccccccchhhhhhhhhhhhhhhhhhh

N(A,h) = 7, N(A,c) =1, N=40, N(A)=8,N(h)=27P(A,h) = 7/40, P(A) = 8/40, P(h) = 27/40

Se amminoacido e struttura sono indipendenti:P(A,h) = P(A)P(h)

Il rapporto P(A,h)/P(A)P(h) è detto propensità

Page 6: Fisica Computazionale applicata alle Macromolecole

Struttura secondaria: Metodo di Chou-FasmanStruttura secondaria: Metodo di Chou-Fasman

Dato un insieme AMPIO di esempi, si costruisce una scala di propensità per ogni residuo e ogni struttura

Name P(H) P(E) Alanine 1,42 0,83Arginine 0,98 0,93Aspartic Acid 1,01 0,54Asparagine 0,67 0,89Cysteine 0,70 1,19Glutamic Acid 1,51 0,37Glutamine 1,11 1,10Glycine 0,57 0,75Histidine 1,00 0,87Isoleucine 1,08 1,60Leucine 1,21 1,30Lysine 1,14 0,74Methionine 1,45 1,05Phenylalanine 1,13 1,38Proline 0,57 0,55Serine 0,77 0,75Threonine 0,83 1,19Tryptophan 1,08 1,37Tyrosine 0,69 1,47Valine 1,06 1,70

Page 7: Fisica Computazionale applicata alle Macromolecole

Struttura secondaria: Metodo di Chou-FasmanStruttura secondaria: Metodo di Chou-Fasman

Data una nuova sequenza si graficano i valori di propensità residuo per residuo e si ricava una predizione di struttura secondaria

Q3 = 50/60 % (numero di risposte corrette su un insieme di test scorrelato con l’insieme su cui si è condotta la statistica)

T S P T A E L M R S T GP(H) 69 77 57 69 142 151 121 145 98 77 69 57P(E) 147 75 55 147 83 37 130 105 93 75 147 75

Page 9: Fisica Computazionale applicata alle Macromolecole

Eliche transmembrana: Scala di Kyte e DoolittleEliche transmembrana: Scala di Kyte e Doolittle

Si considera il coefficiente di partizione acqua-ottanolo dei singoli amminoacidiSi considera la frequenza di occorrenza dei singoli amminoacidi nelle eliche transmembrana

Ala: 1.800 Arg: -4.500 Asn: -3.500 Asp: -3.500 Cys: 2.500 Gln: -3.500 Glu: -3.500 Gly: -0.400 His: -3.200 Ile: 4.500 Leu: 3.800 Lys: -3.900 Met: 1.900 Phe: 2.800 Pro: -1.600 Ser: -0.800 Thr: -0.700 Trp: -0.900 Tyr: -1.300 Val: 4.200

Page 10: Fisica Computazionale applicata alle Macromolecole

Metodi di seconda generazione GORMetodi di seconda generazione GOR

La struttura assunta da un amminoacido non dipende solo dall’amminoacido stesso, ma anche da quelli che lo affiancano

Si possono estendere le statistiche agli amminoacidi che affiancano l’amminoacido di cui si vuol predire la struttura (tipicamente in una finestra -8 < i < 8 / -13 < i < 13)

Si ottengono dei coefficienti P(A,s,i) di contributo dell’amminoacido A, posto in posizione i rispetto al residuo centrale, alla struttura s per il residuo centrale

Page 11: Fisica Computazionale applicata alle Macromolecole

Struttura secondaria: Metodo GORStruttura secondaria: Metodo GOR

Q3 = 65 % (numero di risposte corrette su un insieme di test scorrelato con l’insieme su cui si è condotta la statistica)

Le posizioni dell’intorno sono considerate scorrelate tra loro, e portano contributi indipendenti

Page 12: Fisica Computazionale applicata alle Macromolecole

Un metodo più efficiente: Reti neuraliUn metodo più efficiente: Reti neurali

Nuovo paradigma di calcolo: analogia con sistema nervoso

1) Il sistema nervoso è costituito da neuroni2) Il segnale elettrico fluisce nel neurone in una direzione determinata (Principio di polarizzazione dinamica)3)Non esiste continuità citoplasmatica tra le cellule; ogni cellula comunica con alcune cellule in modo specifico attraverso le sinapsi (Principio di specificità connettiva)

Page 13: Fisica Computazionale applicata alle Macromolecole

Computazione complessa: Bande di MachComputazione complessa: Bande di Mach

Osservate le giunzioni tra le bande

Page 14: Fisica Computazionale applicata alle Macromolecole

Computazione complessa: Bande di MachComputazione complessa: Bande di Mach

Page 15: Fisica Computazionale applicata alle Macromolecole

Computazione complessa: Bande di MachComputazione complessa: Bande di Mach

Osservate le giunzioni tra le zone bianche e nere

Da: R. Pierantoni, La trottola di Prometeo, Laterza (1996)

Page 16: Fisica Computazionale applicata alle Macromolecole

Computazione complessa: Bande di MachComputazione complessa: Bande di Mach

Stimolo Percetto

Inte

nsità

Inte

nsità

Page 17: Fisica Computazionale applicata alle Macromolecole

Semplice modello di neurone retinicoSemplice modello di neurone retinico

0

50

100

150

200

250

0 20 40 60 80 100

Intensità incidente (fotoni/s)

Potenziale (mV)

Trasduttore lineare Luce-Potenziale

Luce

Potenziale

Page 18: Fisica Computazionale applicata alle Macromolecole

Trasmissione senza connessioniTrasmissione senza connessioni

02040

6080

100

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

0

40

80

120

160

200

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Fot

oni/

sm

V

Page 19: Fisica Computazionale applicata alle Macromolecole

Trasmissione con inibizione lateraleTrasmissione con inibizione laterale

02040

6080

100

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Fot

oni/

s

Ogni neurone inibisce i suoi vicini per il 10% del suo potenziale senza inibizioni

mV

0

40

80

120

160

200

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

160 - 0.1 160-0.1 40=140

40 - 0.1 160-0.1 40=20

40 - 0.1 40-0.1 40=32

160 - 0.1 160-0.1 160=128

Page 20: Fisica Computazionale applicata alle Macromolecole

Computazione complessa: Bande di MachComputazione complessa: Bande di Mach

Molte unità di calcolo uguali, ognuna delle quali compie azioni semplici, ampiamente interconnesse possono compiere computazioni molto complesse.

La “conoscenza” risiede nella topologia delle connessioni e nella “forza” della sinapsi

Page 21: Fisica Computazionale applicata alle Macromolecole

Modello di neurone di Modello di neurone di McCulloch e Pitts

Unità computazionale che compie la somma pesata dei segnali in ingresso (attivazione,a)

trasforma l’attivazione secondo una funzione di trasferimento g (output, z)

i

d

ii xwa

1

)(agz

w: pesi sinaptici: soglia di attivazione

Page 22: Fisica Computazionale applicata alle Macromolecole

Funzioni di trasferimentoFunzioni di trasferimento

0

0,5

1

-10 0 10

aeag

1

1)(

Si usano solitamente funzioni NON lineari

Page 23: Fisica Computazionale applicata alle Macromolecole

Reti neuraliReti neurali

Wij Pesi sinaptici

Neurone i

-

i

d

ii xwa

1

)(agz

La soglia può essere considerata come ulteriore neurone sempre attivo e collegato con peso sinaptico pari a -

Page 24: Fisica Computazionale applicata alle Macromolecole

Reti neurali: topologieReti neurali: topologie

La topologia delle connessioni definisce il tipo di rete. Ci occuperemo solo delle reti feed-forward in cui i neuroni sono organizzati in strati gerarchici e il segnale fluisce in una unica direzione.

Percettroni2 soli strati: Input e Output wij

ji

iijj xwgz

Page 25: Fisica Computazionale applicata alle Macromolecole

Reti neurali e operatori logiciReti neurali e operatori logici

2

1

3

ORw13 = 0.5 w23 = 0.5 3 = 0.25

a3 = 0.25z3 = 1

a3 = 0.25z3 = 1

a3 = 0.75z3 = 1

a3 = -0.25z3 = 0

Page 26: Fisica Computazionale applicata alle Macromolecole

Reti neurali e operatori logiciReti neurali e operatori logici

2

1

3

ANDw13 = 0.5 w23 = 0.5 3 = 0.75

a3 = -0.25z3 = 0

a3 = -0.25z3 = 0

a3 = 0.25z3 = 1

a3 = -0.75z3 = 0

Page 27: Fisica Computazionale applicata alle Macromolecole

Reti neurali e operatori logiciReti neurali e operatori logici

2

1

3

NOT (1)w13 = -0.5 w23 = 0.1 3 = -0.25

a3 = -0.25z3 = 0

a3 = 0.35z3 = 1

a3 = -0.15z3 = 0

a3 = 0.25z3 = 1

Page 28: Fisica Computazionale applicata alle Macromolecole

Separabilità lineareSeparabilità lineare

Data la funzione di trasferimento, il neurone risulta attivato se:

0a

01

i

d

ii xw

Lo spazio degli input è così diviso in due zone da un iperpiano.

Se i mapping che vogliamo effettuare non sono linearmente separabili, il percettrone è insufficiente

Page 29: Fisica Computazionale applicata alle Macromolecole

Separabilità lineareSeparabilità lineare

AND OR NOT(1)

XOR

Non linearmente separabile: un percettrone non può risolverlo

Page 30: Fisica Computazionale applicata alle Macromolecole

Reti neurali feed-forward a più stratiReti neurali feed-forward a più strati

Neuroni organizzati a strati

Ogni strato riceve input da quello precedente e trasmette un segnale a quello successivo

w1ij

w2ij

111

jii

ijj xwgz

2122

jii

ijj zwgz

Page 31: Fisica Computazionale applicata alle Macromolecole

2(

1(

1 (

2

1w1

11

w122

w121

w112

w211

w221

XORw1

11 = 0.7 w121 = 0.7 1

1 = 0. 5 w1

12 = 0.3 w122 = 0.3 1

2 = 0. 5 w2

11 = 0.7 w221 = -0.7 1

2 = 0. 5

a11 = -0.5 z1

1 = 0 a1

2 = -0.5 z12 = 0

a21 = -0.5 z1

2 = 0

x1 = 0 x2 = 0

Page 32: Fisica Computazionale applicata alle Macromolecole

2(

1(

1 (

2

1w1

11

w122

w121

w112

w211

w221

XORw1

11 = 0.7 w121 = 0.7 1

1 = 0. 5 w1

12 = 0.3 w122 = 0.3 1

2 = 0. 5 w2

11 = 0.7 w221 = -0.7 1

2 = 0. 5

a11 = 0.2 z1

1 = 1 a1

2 = -0.2 z12 = 0

a21 = 0.2 z1

2 = 1

x1 = 1 x2 = 0

Page 33: Fisica Computazionale applicata alle Macromolecole

2(

1(

1 (

2

1w1

11

w122

w121

w112

w211

w221

XORw1

11 = 0.7 w121 = 0.7 1

1 = 0. 5 w1

12 = 0.3 w122 = 0.3 1

2 = 0. 5 w2

11 = 0.7 w221 = -0.7 1

2 = 0. 5

a11 = 0.2 z1

1 = 1 a1

2 = -0.2 z12 = 0

a21 = 0.2 z1

2 = 1

x1 = 0 x2 = 1

Page 34: Fisica Computazionale applicata alle Macromolecole

2(

1(

1 (

2

1w1

11

w122

w121

w112

w211

w221

XORw1

11 = 0.7 w121 = 0.7 1

1 = 0. 5 w1

12 = 0.3 w122 = 0.3 1

2 = 0. 5 w2

11 = 0.7 w221 = -0.7 1

2 = 0. 5

a11 = 0.9 z1

1 = 1 a1

2 = 0.1 z12 = 1

a21 = -0.5 z1

2 = 0

x1 = 1 x2 = 1

Page 35: Fisica Computazionale applicata alle Macromolecole

Gli strati nascosti mappano l’input in una Gli strati nascosti mappano l’input in una rappresentazione linearmente separabilerappresentazione linearmente separabile

Input Output Attivazione desiderato neuroni hidden

0 0 0 0 01 0 1 0 10 1 1 0 11 1 0 1 1

Page 36: Fisica Computazionale applicata alle Macromolecole

Reti neurali supervisionateReti neurali supervisionate

Le reti neurali Feed-forward possono essere addestrate a partire da esempi di cui sia nota la soluzione.

Funzione di erroreDato un insieme di esempi xi

il cui output desiderato di sia noto, data una rete a parametri w, si può calcolare l’errore quadratico sugli output della rete z (j corre sugli output)

2,

),(2

1 ji

ij

ij dwxzE

Addestrare la rete significa trovare i parametri w che minimizzano tale errore: algoritmi di minimizzazione iterativi che NON garantiscono il raggiungimento del minimo globale

Page 37: Fisica Computazionale applicata alle Macromolecole

Addestramento di un percettroneAddestramento di un percettrone

Consideriamo come funzione di trasferimento una funzione derivabile:

aeag

1

1)( )(1)(

1)(' 2 agag

e

eag

a

a

Dati dei parametri iniziali w:

ii

lj

ij

ij

ij

ijlj wxw

wxa

wxa

wxz

wxz

E

w

E

),(

),(

),(

),(

),(

ij

iji

j

dwxzwxz

E

),(),(

)('),(

),(ag

wxa

wxzi

j

ij

i

lj

ij

lxw

wxa

),(

z2

z1

x2

x1 jj agz

j

id

iljj l

xwa 1

2,

),(2

1 ji

ij

ij dwxzE

Page 38: Fisica Computazionale applicata alle Macromolecole

Addestramento di un percettroneAddestramento di un percettrone

Così:

i

il

ij

i

il

ij

ij

lj

xxagdwxzw

E )('),(

Scarto: ij

Si possono aggiornare i pesi per “discesa del gradiente”

ljljlj w

Eww

è detta velocità di apprendimento:troppo piccola: addestramento lentotroppo grande: si superano i minimi

Convergenza: 0

ljw

E

Page 39: Fisica Computazionale applicata alle Macromolecole

Esempio: OREsempio: OR

2

1

3w13 = 0 w23 = 0 3 = 0 =2

Esempi presentatix1 x2 d a z E w13 w13 3

1 0 1 0 0.5 0.125 -0.125 0 0.1250 1 1 0 0.5 0.125 0 -0.125 0.1250 0 0 0 0.5 0.125 0 0 -0.1250 0 0 0 0.5 0.125 0 0 -0.125

0.5 -0.125 -0.125 0

Page 40: Fisica Computazionale applicata alle Macromolecole

Esempio: OR, Step 1Esempio: OR, Step 1

2

1

3w13 = 0.25 w23 = 0.25 3 = 0 =2

Esempi presentatix1 x2 d a z E w13 w13 3

1 0 1 0.25 0.56 0.096 -0.108 0 0.1080 1 1 0.25 0.56 0.096 0 -0.108 0.1080 0 0 0 0.5 0.125 0 0 -0.1250 0 0 0 0.5 0.125 0 0 -0.125

0.442 -0.108 -0.108 -0.035

Page 41: Fisica Computazionale applicata alle Macromolecole

Esempio: OR, Step 2Esempio: OR, Step 2

2

1

3w13 = 0.466 w23 = 0.466 3 = 0.069 =2

Esempi presentatix1 x2 d a z E w13 w13 3

1 0 1 0.397 0.598 0.081 -0.097 0 0.0970 1 1 0.397 0.598 0.081 0 -0.097 0.0970 0 0 -0.069 0.483 0.117 0 0 -0.1210 0 0 -0.069 0.483 0.117 0 0 -0.121

0.395 -0.097 -0.097 -0.048

Page 42: Fisica Computazionale applicata alle Macromolecole

Esempio: OR, Step 3Esempio: OR, Step 3

2

1

3w13 = 0.659 w23 = 0.659 3 = 0.164 =2

Esempi presentatix1 x2 d a z E w13 w13 3

1 0 1 0.494 0.621 0.072 -0.089 0 0.0890 1 1 0.494 0.621 0.072 0 -0.089 0.0890 0 0 -0.164 0.459 0.105 0 0 -0.1140 0 0 -0.164 0.459 0.105 0 0 -0.114

0.354 -0.089 -0.089 -0.05Continua Train

Page 43: Fisica Computazionale applicata alle Macromolecole

GeneralizzazioneGeneralizzazione

2

1

3w13 = 0.659 w23 = 0.659 3 = 0.164 =2

Per l’esempio non presentato (1,1)?x1 x2 d a z

1 1 1 1.153 0.760

La rete ha generalizzato le regole apprese ad un esempio ignoto

Page 44: Fisica Computazionale applicata alle Macromolecole

Addestramento per reti a più strati:Back-Addestramento per reti a più strati:Back-propagationpropagation

w1ij

w2ij

i

il

ij

i

il

ij

i zzagdwxzw

Ej

lj

,1,2,122

)('),(

Per lo strato 2, valgono le formule date per il percettrone, con la sostituzione x z1,i

Page 45: Fisica Computazionale applicata alle Macromolecole

Addestramento per reti a più strati:Back-Addestramento per reti a più strati:Back-propagationpropagation

il

i

ij

i

ij

ij

xw

a

a

E

w

E

ljlj

,1

1

,1

,11

ij

ik

k

ik

ki

j

ik

ik

i a

a

a

a

a

E

a

E

j

,1

,2,2

,1

,2

,2,1

w1ij

w2ij

Per lo strato 1:

Definisco ij

m

mki

mi

k waga 2,1,2 )(2,1

,1

,2

)(' jki

jij

ik wag

a

a

2,1,2,1 )(' jki

jk

ik

ij wag

Page 46: Fisica Computazionale applicata alle Macromolecole

Addestramento per reti a più strati:Back-Addestramento per reti a più strati:Back-propagationpropagation

passo feed-forward per calcolare zl ;calcolo dello scarto sugli output, 2

l;calcolo dello scarto sui neuroni nascosti, j

1;calcolo delle derivate dell’errore rispetto ai pesi

Input

Output

Page 47: Fisica Computazionale applicata alle Macromolecole

Cosa apprende una rete?Cosa apprende una rete?

Consideriamo il caso limite ideale in cui la rete venga addestrata su un insieme continuo di esempi, x, ciascuno presente con probabilità P(x) e che le soluzioni desiderate t siano associate ad ognuno degli esempi con probabilità P(t | x)

jjj

jj dxxPxdPdwxzE dd)()|(),(2

1 2

0),(

wxz

E

j

Training, a convergenza:

jjjjj

jj dxxxxPxdPdwxz d)d-()()|(),(0 ,

jjjj dxdPdwxz d)|(),(

Derivata funzionale

Lo stato di attivazione del j-esimo neurone di output è uguale alla media delle soluzioni associate all'input x nell'insieme di addestramento

Page 48: Fisica Computazionale applicata alle Macromolecole

PredictionNew sequence

Prediction

Tools out of machine learning approaches

Tools out of machine learning approaches

Neural Networks can learn the mapping from sequence to secondary structureNeural Networks can learn the mapping from sequence to secondary structure

General

rules

Data Base Subset

Known mapping

TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN

Training

EEEE..HHHHHHHHHHHH....HHHHHHHH.EEEE

Page 49: Fisica Computazionale applicata alle Macromolecole

Reti neurali per la predizione della struttura Reti neurali per la predizione della struttura secondariasecondaria

Input

Output

C

M P I L K QK P I H Y H P N H G E A K G

A 0 0 0 0 0 0 0 0 0C 0 0 0 0 0 0 0 0 0D 0 0 0 0 0 0 0 0 0 E 0 0 0 0 0 0 0 0 0 F 0 0 0 0 0 0 0 0 0G 0 0 0 0 0 0 0 0 0H 0 0 0 1 0 1 0 0 1I 0 0 1 0 0 0 0 0 0K 1 0 0 0 0 0 0 0 0L 0 0 0 0 0 0 0 0 0M 0 0 0 0 0 0 0 0 0N 0 0 0 0 0 0 0 1 0P 0 1 0 0 0 0 1 0 0Q 0 0 0 0 0 0 0 0 0R 0 0 0 0 0 0 0 0 0S 0 0 0 0 0 0 0 0 0T 0 0 0 0 0 0 0 0 0 V 0 0 0 0 0 0 0 0 0W 0 0 0 0 0 0 0 0 0Y 0 0 0 0 1 0 0 0 0

Tipicamente:Input 17-23 residui

Hidden neuron :4-15

Page 50: Fisica Computazionale applicata alle Macromolecole

ACDEFGHIKLMNPQRSTVWY.

H

E

L

D (L)

R (E)

Q (E)

G (E)

F (E)

V (E)

P (E)

A (H)

A (H)

Y (H)

V (E)

K (E)

K (E)

Page 51: Fisica Computazionale applicata alle Macromolecole

Metodi di terza generazione: l’informazione Metodi di terza generazione: l’informazione evolutivaevolutiva

1 Y K D Y H S - D K K K G E L - -2 Y R D Y Q T - D Q K K G D L - -3 Y R D Y Q S - D H K K G E L - -4 Y R D Y V S - D H K K G E L - -5 Y R D Y Q F - D Q K K G S L - -6 Y K D Y N T - H Q K K N E S - -7 Y R D Y Q T - D H K K A D L - -8 G Y G F G - - L I K N T E T T K 9 T K G Y G F G L I K N T E T T K10 T K G Y G F G L I K N T E T T K

A 0 0 0 0 0 0 0 0 0 0 0 10 0 0 0 0C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0D 0 0 70 0 0 0 0 60 0 0 0 0 20 0 0 0E 0 0 0 0 0 0 0 0 0 0 0 0 70 0 0 0F 0 0 0 10 0 33 0 0 0 0 0 0 0 0 0 0G 10 0 30 0 30 0 100 0 0 0 0 50 0 0 0 0H 0 0 0 0 10 0 0 10 30 0 0 0 0 0 0 0K 0 40 0 0 0 0 0 0 10 100 70 0 0 0 0 100I 0 0 0 0 0 0 0 0 30 0 0 0 0 0 0 0L 0 0 0 0 0 0 0 30 0 0 0 0 0 0 0 0M 0 0 0 0 0 0 0 0 0 0 0 0 0 60 0 0N 0 0 0 0 10 0 0 0 0 0 30 10 0 0 0 0P 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0Q 0 0 0 0 40 0 0 0 30 0 0 0 0 0 0 0R 0 50 0 0 0 0 0 0 0 0 0 0 0 0 0 0S 0 0 0 0 0 33 0 0 0 0 0 0 10 10 0 0T 20 0 0 0 0 33 0 0 0 0 0 30 0 30 100 0V 0 0 0 0 10 0 0 0 0 0 0 0 0 0 0 0W 0 10 0 0 0 0 0 0 0 0 0 0 0 0 0 0Y 70 0 0 90 0 0 0 0 0 0 0 0 0 0 0 0

Position

Page 52: Fisica Computazionale applicata alle Macromolecole

SeqNo No V L I M F W Y G A P S T C H R K Q E N D

1 1 80 0 20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 2 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0 0 0 0 80 3 3 50 0 0 0 0 0 0 0 33 0 0 0 0 0 0 0 0 17 0 0 4 4 0 0 0 0 0 0 0 0 13 63 13 0 0 0 0 0 0 13 0 0 5 5 13 0 0 0 0 0 0 13 75 0 0 0 0 0 0 0 0 0 0 0 6 6 0 0 0 13 0 0 0 0 0 13 0 13 0 0 0 0 0 0 0 63 7 7 0 0 0 38 0 0 0 38 0 0 0 0 0 0 0 25 0 0 0 0 8 8 25 13 0 0 0 0 0 0 50 0 13 0 0 0 0 0 0 0 0 0 9 9 0 13 13 0 0 0 0 0 0 25 0 0 0 0 0 50 0 0 0 0 10 10 0 0 25 13 0 0 0 0 13 13 0 0 0 0 0 38 0 0 0 0 11 11 0 0 0 0 0 0 0 0 25 0 0 0 0 0 0 13 13 0 0 50 12 12 0 0 0 0 43 0 0 29 0 29 0 0 0 0 0 0 0 0 0 0 13 13 0 14 29 0 0 0 0 0 29 0 0 0 0 0 0 0 0 14 0 14 14 14 0 0 0 0 0 0 0 43 29 0 0 0 0 0 0 29 0 0 0 0

The Network Architecture for Secondary Structure

Prediction

The Network Architecture for Secondary Structure

PredictionThe First Network (Sequence to Structure)The First Network (Sequence to Structure)

H E C

CCHHEHHHHCHHCCEECCEEEEHHHCC

Page 53: Fisica Computazionale applicata alle Macromolecole

The Network Architecture for Secondary Structure

Prediction

The Network Architecture for Secondary Structure

Prediction

SeqNo No V L I M F W Y G A P S T C H R K Q E N D

1 1 80 0 20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 2 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0 0 0 0 80 3 3 50 0 0 0 0 0 0 0 33 0 0 0 0 0 0 0 0 17 0 0 4 4 0 0 0 0 0 0 0 0 13 63 13 0 0 0 0 0 0 13 0 0 5 5 13 0 0 0 0 0 0 13 75 0 0 0 0 0 0 0 0 0 0 0 6 6 0 0 0 13 0 0 0 0 0 13 0 13 0 0 0 0 0 0 0 63 7 7 0 0 0 38 0 0 0 38 0 0 0 0 0 0 0 25 0 0 0 0 8 8 25 13 0 0 0 0 0 0 50 0 13 0 0 0 0 0 0 0 0 0 9 9 0 13 13 0 0 0 0 0 0 25 0 0 0 0 0 50 0 0 0 0 10 10 0 0 25 13 0 0 0 0 13 13 0 0 0 0 0 38 0 0 0 0 11 11 0 0 0 0 0 0 0 0 25 0 0 0 0 0 0 13 13 0 0 50 12 12 0 0 0 0 43 0 0 29 0 29 0 0 0 0 0 0 0 0 0 0 13 13 0 14 29 0 0 0 0 0 29 0 0 0 0 0 0 0 0 14 0 14 14 14 0 0 0 0 0 0 0 43 29 0 0 0 0 0 0 29 0 0 0 0

The Second Network (Structure to Structure)The Second Network (Structure to Structure)

CCHHEHHHHCHHCCEECCEEEEHHHCC

H E C

Page 54: Fisica Computazionale applicata alle Macromolecole

Protein set

Training set 1

Testing set 1

The cross validation procedureThe cross validation procedure

The Performance on the Task of Secondary Structure

Prediction

The Performance on the Task of Secondary Structure

Prediction

Page 55: Fisica Computazionale applicata alle Macromolecole

Efficiency of the Neural Network-Based Predictors onthe 822 Proteins of the Testing Set

INPUTQ3 (%) 66.3

Single SOV 0.62Sequence Q[H] 0.69 Q[E] 0.61 Q[C] 0.66

P[H] 0.70 P[E] 0.54 P[C] 0.71C[H] 0.54 C[E] 0.44 C[C] 0.45

Q3(%) 72.4Multiple SOV 0.69Sequence Q[H] 0.75 Q[E] 0.65 Q[C] 0.75(MaxHom) P[H] 0.77 P[E] 0.64 P[C] 0.73

C[H] 0.64 C[E] 0.54 C[C] 0.53Q3(%) 73.4

Multiple SOV 0.70Sequence Q[H] 0.75 Q[E] 0.70 Q[C] 0.73(PSI-BLAST) P[H] 0.80 P[E] 0.63 P[C] 0.75

C[H] 0.67 C[E] 0.56 C[C] 0.53

Combinando differenti reti: Q3 =76/78%

Page 56: Fisica Computazionale applicata alle Macromolecole

Secondary Structure PredictionSecondary Structure Prediction

Dalla sequenzaDalla sequenza

TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN

EEEE..HHHHHHHHHHHH....HHHHHHHH.EEEE...........

Alla struttura secondaria Alla struttura secondaria

7997688899999988776886778999887679956889999999

E alla probabilità di corretta predizioneE alla probabilità di corretta predizione

Page 58: Fisica Computazionale applicata alle Macromolecole

QEALEIA

1TIF

1WTUA

Translation Initiation Factor 3

Bacillus stearothermophilus

……GIKSKQEALEIAARRN……

Transcription Factor 1

Bacteriophage Spo1

……FNPQTQEALEIAPSVGV……

Segmenti CamaleonteSegmenti Camaleonte

Page 59: Fisica Computazionale applicata alle Macromolecole

We extract: We extract:

2,452 5-mer chameleons 107 6-mer chameleons 16 7-mer chameleons 1 8-mer chameleon

2,576 couples

The total number of residues in chameleons is 26,044 out of 755 protein chains (~15%)

from a set of 822 non-homologous proteins(174,192 residues)

Page 60: Fisica Computazionale applicata alle Macromolecole

C

NGDQLGIKSKQEALEIAARRNLDLVLVAP

C

ARKGFNPQTQEALEIAPSVGVSVKPG

Prediction of the Secondary Structure of Chameleon sequences with Neural

Networks

Prediction of the Secondary Structure of Chameleon sequences with Neural

NetworksQEALEIAHHHHHHH

QEALEIACCCCCCC

Page 61: Fisica Computazionale applicata alle Macromolecole

The Prediction of Chameleons with Neural Networks

The Prediction of Chameleons with Neural Networks

Page 62: Fisica Computazionale applicata alle Macromolecole

•Struttura secondaria

•Siti di iniziazione del folding

•Topologia delle proteine di membrana

•Stato di legame delle cisteine

•Mappe di contatto delle proteine

•Superfici di contatto di strutture proteiche

Altri predittori a reti neuraliAltri predittori a reti neurali

Page 63: Fisica Computazionale applicata alle Macromolecole

Predizione dello stato di legame delle cisteinePredizione dello stato di legame delle cisteine

Tryparedoxin-I from Crithidia fasciculata (1QK8)

Cys40

Cys43

Cys68

Free cysteines

Disulphide bonded cysteines

MSGLDKYLPGIEKLRRGDGEVEVKSLAGKLVFFYFSASWCPPCRGFTPQLIEFYDKFHES KNFEVVFCTWDEEEDGFAGYFAKMPWLAVPFAQSEAVQKLSKHFNVESIPTLIGVDADSG DVVTTRARATLVKDPEGEQFPWKDAP

Page 64: Fisica Computazionale applicata alle Macromolecole

NGDQLGIKSKQEALCIAARRNLDLVLVAP

Legata

Non Legata

Percettrone (con input a profilo di sequenza)Percettrone (con input a profilo di sequenza)

Page 65: Fisica Computazionale applicata alle Macromolecole

Cosa è memorizzato nei pesi sinaptici?Cosa è memorizzato nei pesi sinaptici?

Residue

Hinton’s plot

bonding state

non bonding state

V L I M F W Y G A P S T C H R K Q E N D 0 & #

-5-4-3-2-1 0 1 2 3 4 5

Residue V L I M F W Y G A P S T C H R K Q E N D 0 & #

-5-4-3-2-1 0 1 2 3 4 5

Posi

tio

nPosi

tio

n

Residue

Page 66: Fisica Computazionale applicata alle Macromolecole

End

Begin

1

3

2

4

Bonded statesFree states

Struttura sintattica Struttura sintattica

Page 67: Fisica Computazionale applicata alle Macromolecole

Bonding Residue State State

C40C43C68

End

Begin

1

3

2

4

Un possibile camminoUn possibile cammino

Page 68: Fisica Computazionale applicata alle Macromolecole

Bonding Residue State State

C40 1 FC43C68

End

Begin

1

3

2

4

P(seq) = P(1 | Begin) P(C40 | 1) ...

Un possibile camminoUn possibile cammino

Page 69: Fisica Computazionale applicata alle Macromolecole

Bonding Residue State State

C40 1 FC43 2 BC68

End

Begin

1

3

2

4

P(seq) = P(1 | Begin) P(C40 | 1) ... P(2 | 1) P(C43 | 2) ..

Un possibile camminoUn possibile cammino

Page 70: Fisica Computazionale applicata alle Macromolecole

Bonding Residue State State

C40 1 FC43 2 BC68 4 B

End

Begin

1

3

2

4

P(seq) = P(1 | Begin) P(C40 | 1) ... P(2 | 1) P(C43 | 2) .. P(4 | 2) P(C68 | 4) ..

Un possibile camminoUn possibile cammino

Page 71: Fisica Computazionale applicata alle Macromolecole

Bonding Residue State State

C40 1 FC43 2 BC68 4 B

End

Begin

1

3

2

4

P(seq) = P(1 | Begin) P(C40 | 1) ... P(2 | 1) P(C43 | 2) .. P(4 | 2) P(C68 | 4) .. P(End | 4)

Un possibile camminoUn possibile cammino

Page 72: Fisica Computazionale applicata alle Macromolecole

End

Begin

1

43

2

Bonding Residue State State

C40 1 FC43 1 FC68 1 F

End

Begin

1

43

2

Bonding Residue State State

C40 1 FC43 2 BC68 4 B

End

Begin

1

43

2

Bonding Residue State State

C40 2 BC43 4 BC68 1 F

End

Begin

1

43

2

Bonding Residue State State

C40 2 BC43 3 FC68 4 B

I 4 possibili camminiI 4 possibili cammini

Page 73: Fisica Computazionale applicata alle Macromolecole

MYSFPNSFRFGWSQAGFQCEMSTPGSEDPNTDWYKWVHDPENMAAGLCSGDLPENGPGYWGNYKTFHDNAQKMCLKIARLNVEWSRIFPNP...

P(B|W1), P(F|W1) P(B|W3), P(F|W3)P(B|W2), P(F|W2)

W1 W2 W3

Free Cys

Bonded Cys

End

Begin

Viterbi path

Prediction of bonding state of cysteines

Sistema ibridoSistema ibrido

Page 74: Fisica Computazionale applicata alle Macromolecole

Residue

C40 C43 C68

Predizione della TriparedoxinaPredizione della Triparedoxina

Page 75: Fisica Computazionale applicata alle Macromolecole

NN Output NN predResidue B F

C40 99 1 B C43 82 18 B C68 61 39 B

Predizione della TriparedoxinaPredizione della Triparedoxina

Page 76: Fisica Computazionale applicata alle Macromolecole

NN Output NN pred HMM HMM predResidue B F Viterbi path

C40 99 1 B 2 BC43 82 18 B 4 BC68 61 39 B 1 F

End

Begin

1

43

2

Predizione della TriparedoxinaPredizione della Triparedoxina

Page 77: Fisica Computazionale applicata alle Macromolecole

Table I. Performance of the NN predictor (20-fold cross

validation) Set Q2 C Q(B) Q(F) P(B) P(F) Q2prot WD 80.4 0.56 67.2 87.5 74.3 83.2 56.9 RD 80.1 0.56 67.2 87.6 75.7 82.2 49.7

B= cysteine bonding state, F=cysteine free state. WD= whole database (969 proteins, 4136 cysteines) RD= Reduced database, in which the chains containing only one cysteine are

removed (782 proteins, 3949 cysteines).

Table II. Performance of the Hidden NN predictor (20-fold cross validation) Set Q2 C Q(B) Q(F) P(B) P(F) Q2prot WD 88.0 0.73 78.1 93.3 86.3 88.8 84.0 RD 87.4 0.73 78.1 92.8 86.3 88.0 80.2

Neural Network

Hybrid system

Martelli PL, Fariselli P, Malaguti L, Casadio R. -Prediction of the disulfide bonding state of cysteines in proteins with hidden neural networks- Protein Eng. 15:951-953 (2002)

Performance del predittorePerformance del predittore