Alignment free sequence comparison—a review

54
Alignment-free sequence comparison A review (1) Seminario di Franco Chiavetta sull’articolo (1) di Susana Vinga and Jonas Almeida per il corso di Bioinformatica

description

Metodi per il confronto alignment-free di sequenze biologiche

Transcript of Alignment free sequence comparison—a review

Page 1: Alignment free sequence comparison—a review

Alignment-free sequence comparison

A review (1)

Seminario di Franco Chiavettasull’articolo (1) di

Susana Vinga and Jonas Almeidaper il corso di Bioinformatica

Page 2: Alignment free sequence comparison—a review

Introduzione

• In biologia, i primi metodi di confronto fra sequenze sono statiderivati dai criteri di string-matchingutilizzati nella Computer Science.

• La nozione di similarità si è fino a poco tempo fa basata prevalentemente su metodi per l’allineamentodi sequenze, tipicamente basati sulla programmazione dinamica.

• Obiettivi di tali metodi sono l’allineamento globaleo localedi sequenze

Page 3: Alignment free sequence comparison—a review

Introduzione

• I metodi di allineamento trattano le molecole biologiche come sequenze lineari secondo un approccio spesso di tipo “linguistico”

• Hanno dei limiti in quanto prescindono da:

• la natura fisica e chimica di tali molecole,

• la loro struttura tridimensionale,

• la loro dinamicità evolutiva.

Page 4: Alignment free sequence comparison—a review

Introduzione

• La dinamica evolutivaè dovuta a– fenomeni su “piccola scala” (o “puntuali”):

• Mutazioni, inserzioni, delezioni di singoli nucleotidi– mutano, scompaiono o compaiono singole basi

– fenomeni su “media scala”• Cambiamenti nella struttura di un gene:

– comparsa/scomparsa di introni

• “Fusioni” di geni, o viceversa, divisione di geni in geni più piccoli

– fenomeni su “larga scala”• Riarrangiamenti della sequenza genomica: una o più regioni

cambiano di posto• Duplicazione: si possono duplicare INTERE regioni genomiche

Page 5: Alignment free sequence comparison—a review

Introduzione

Eventi su larga scala: riarrangiamenti, duplicazioniinserzioni, cancellazioni di ampie regioni

Mutazioni (di singoli nucleotidi, spesso)Inserzioni o cancellazioni di più nucleotidi

Eventi “epici”: duplicazioni di interi genomi

Sca

la d

ei fe

nom

eni

Page 6: Alignment free sequence comparison—a review

Introduzione

• La ricombinazione geneticaed in particolare il rimescolamento genetico, sono in contrasto con i criteri di confronto di sequenze mediante allineamenti i quali presuppongono la conservazione della contiguità fra segmenti omologhie sono sensibili solo a modifiche locali

Page 7: Alignment free sequence comparison—a review

Introduzione

• Per rimediare alle limitazioni dei criteri di confronto mediante allineamenti sono stati sviluppati vari metodi di confronto alignment-free basati su diversi impalcati teorici.

Page 8: Alignment free sequence comparison—a review

Notazione

• Una sequenza X di lunghezza n, è una successione di n simboli presi da un alfabeto finito A con cardinalitàr.

• Un segmento di L simboli, con L<=n, viene detto L-tupla (o L-word)

• Con WL denotiamo l’insieme di tutte le K possibili L-tuple, con K = rL.

WL = {wL,1, wL,2, … , wL,K}

Page 9: Alignment free sequence comparison—a review

Notazione

• La ricerca di L-tuple in una sequenza X consiste nel effettuare un conteggio delle occorrenze (con overlapping) degli elementi di WL

• Si effettua facendo scorrere lungo X una “finestra” di larghezza L, dalla posizione 1 alla posizione n – L +1 per ricavare il vettore word-count

CXL = {cX

L,1, cXL,2, … , cX

L,K}

dovecXL,i è il numero di occorrenze di wL,i in X

Page 10: Alignment free sequence comparison—a review

Notazione

• Analogamente, è possibile calcolare il vettore fXL delle frequenze delle L-tuple in X

fXL = { fXL,1, fXL,2, … , fXL,K}dove:

• Da fXL si possono poi stimare le probabilità frequentistiche di trovare ogni possibile L-tupla in X, ricavando il vettore

PXL = {pX

L,1, pXL,2, … , pX

L,K}

dove pXL,i è la probabilità di wL,i in X

Page 11: Alignment free sequence comparison—a review

Overlapping

• La valutazione della significatività statistica delle misure di similarità, presenta il problema di ricavare formule per la stima dei valori attesi per i conteggi, per la varianza e la covarianza fra le frequenze di L-tuple, cioè la distribuzione di PX

L.

• Per una corretta stima delle covarianze di PXL è necessario che

tali misure prevedano la cosidetta “overlapping capability”, ossia la capacità conteggiare correttamente L-tuple che si susseguono condividendo prefissi e suffissi.

• Tali problema si ha ad esempio nelle metriche basate sulla distanza di Mahalanobis.

Page 12: Alignment free sequence comparison—a review

Esempio per sequenze di DNA

• A = {A, T, G, C} : r = 4• X = ATATAC : n = 6• Consideriamo “trinucleotidi” : L = 3• Calcoliamo le frequenze di tutti i possibili trinucleotidi

ottenibili facendo scorrere una finestra larga 3 per n – L + 1 = 6 - 3 + 1 = 4 volte:

W3 = {ATA, TAT, TAC, AAA,…}

CX3 = {2, 1, 1, 0, …}

fX3 = {0.5, 0.25, 0.25, 0, …}

dove i vettori CX3 e fX3 hanno lunghezza K = rL = 43 = 64

Page 13: Alignment free sequence comparison—a review

Confronti alignment-free

• In letteratura sono stati presentati:– metodi basati sul conteggio/frequenza di L-tuple

ad una specifica risoluzione (scale dependent)• metriche definite nello spazio dei vettori word-count come la

distanza Euclideae l’entropia relativadella distribuzione delle frequenze

– metodi nonbasati sul conteggio/frequenza di L-tuple a lunghezza fissa (scale independent)

• rappresentazioni scale-indipendent delle sequenze mediante teoria della complessità di Kolmogorov, e mappe iterative.

Page 14: Alignment free sequence comparison—a review

Distanza euclidea• Il primo articolo in cui viene sistematizzato l’uso dei conteggi

delle L-tuple per il confronto tra sequenze è dovuto a Blaisdell (1986)

• Nell’articolo le sequenze sono modellate come catene di Markov, e la differenza tra due sequenze viene vista come la distanza quadratica euclidea tra le rispettive matrici di transizione.

• Il fatto che la matrice di transizione di una catena di Markov potesse essere identificata con la frequenza delle possibili L-tuple, portò l’autore a formulare ulteriori metodi di confronto in articoli seguenti.

Page 15: Alignment free sequence comparison—a review

Distanza euclidea

• Per una data possibile “risoluzione“ o “lunghezza di parola”L, la distanza quadratica euclideatra due sequenze X e Yèdata da:

Page 16: Alignment free sequence comparison—a review

Distanza euclidea

• Tale metrica è stata validata applicandola al confronto di lunghe sequenze relative ad organismi in relazione filogenetica ampiamente documentata.

• Inoltre, è stata usata per effettuare il riconoscimento di relazioni filogenetiche tra coppie di sequenze supportando i risultati ottenuti con metodi convenzionali basati sull’allineamento totale

• E’ stato osservato che i valori di dissimilarità ottenuti con tale metrica hanno andamento direttamente proporzionale al conteggio dei mismatch dei metodi di allineamento convenzionali.

Page 17: Alignment free sequence comparison—a review

Distanza euclidea

• Studi successivi (Pevzner, 1992) hanno ricavato deduzioni su alcune caratteristiche statistiche quali: il valore atteso per la distanza e la varianza per confronti mediante L-tuple.

• Le proprietà statistiche della distanza quadratica Euclidea sono state documentate ampiamente attraverso l’uso di test statistici sulla non unformità delle corrispondenti distribuzioni (Zharkikh and Rzhetsky, 1993).

Page 18: Alignment free sequence comparison—a review

Distanza euclidea

• Interessanti lavori hanno studiato le relazioni di dipendenza tra le misurazioni della distanza quadratica euclidea a diverse scale o risoluzioni (i.e. al variare di L)

– i.e. come il conteggio delle 3-tupledipende da quello delle 2-tuple.

Page 19: Alignment free sequence comparison—a review

Distanza euclidea pesata

• Gli studi sulle sequenze biologiche dimostrano che alcuni segmenti (L-tuple) sono normalmente più frequenti di altri.

• Ciò ha quindi un impatto sul calcolo della d.e.

• Per tenere conto di tale fatti oggettivi, sono state proposte metriche pesate che tenessero dessero maggiore “peso” al conteggio di determinate parole piuttosto che ad altre.

Page 20: Alignment free sequence comparison—a review

Distanza euclidea pesata

• La metrica pesata d2 proposta da Torney et al. 1990, utilizza pesi ρi per ogni possibile parola e combina inoltre diverse risoluzioni da l ad u.

Page 21: Alignment free sequence comparison—a review

Distanza euclidea pesata• La metrica d2 si è dimostrata abbastanza efficace ed

implementabile efficientemente.• I confronti su sequenze omologhe mescolate o con

inserzioni/delezioni danno valori di distanza comunque bassi.• Per tali proprietà tale metrica è stata inclusa in package come

STACK (Sequence Tag Alignment and Consensus Knowledgebase)

• Le metriche euclidee sono spesso usate come filtro di preprocessingper isolare da larghi database le migliori sequenze candidate per l’applicazione successiva di algoritmi FASTA/BLAST

Page 22: Alignment free sequence comparison—a review

Distanze basate su coefficienti statistici

• Covarianza– In teoria della probabilità la covarianzadi due variabili aleatorie è un

numero Cov(X,Y) che fornisce una misura di quanto le due varino assieme, ovvero della loro dipendenza.

– La covarianza di due variabili aleatorie X e Yè il valore attesodei prodotti delle loro distanze dalla media:

Cov(X,Y)=E[(X - E(X)) * (Y - E(Y)]

– La covarianza di X e Ypuò anche essere espressa come la differenza tra il valore atteso del loro prodotto e il prodotto dei loro valori attesi

Cov(X,Y)=E[XY] – E[X]E[Y]

Page 23: Alignment free sequence comparison—a review

Distanze basate su coefficienti statistici

• Correlazione

– In statistica per correlazionesi intende una relazione tra due variabili casuali tale che a ciascun valore della prima variabile corrisponda con una certa regolarità un valore della seconda.

– Il grado di correlazionefra due variabili viene espresso mediante i cosiddetti indici di correlazione.

• Questi assumono valori compresi tra - 1 (variabili inversamente correlate) e + 1 (correlazione assoluta cioè quando alla variazione di una variabile corrisponde una variazione rigidamente dipendente dall'altra)

• Un indice di correlazione pari a 0 indica un'assenza di correlazione. – Due variabili indipendenti hanno sicuramente un indice di correlazione pari a

0, ma al contrario un valore pari a 0 non implica necessariamente che le due variabili siano indipendenti.

Page 24: Alignment free sequence comparison—a review

Distanze basate su coefficienti statistici

• Indice di correlazione di Pearson– Date due variabili statistiche X e Y è definito come la loro covarianza divisa

per il prodotto delle deviazioni standard delle due variabili:

ρXY = σXY/(σX * σY )

dove

• σXY , è la covarianza tra X e Y

• σX eσY , sono le due deviazioni standard

Page 25: Alignment free sequence comparison—a review

Distanza basata sulla correlazione

• Alcune metriche alignment free si basano sul calcolo del vettore delle frequenze delle L-tuple in X e Y

fXL = { fXL,1, fXL,2, … , fXL,K}

fYL = { fYL,1, fYL,2, … , fYL,K}

e sul successivo calcolo dei coefficienti di correlazione lineare(LCC)

Page 26: Alignment free sequence comparison—a review

Distanza basata sulla correlazione

• Il formalismo adottato è quello dell’indice di correlazione di Pearson

Page 27: Alignment free sequence comparison—a review

Distanza basata sulla correlazione

• Il formalismo adottato è quello dell’indice di correlazione di Pearson

Deviazione standard di f XL

Deviazione standard di

f YL

Covarianza

tra f XL e f YL

Page 28: Alignment free sequence comparison—a review

Distanza basata sulla correlazione

• Tale metrica è stata usata per queries su database di sequenze lunghe e di strutture proteiche (Petrilli and Tonukari,1997).

• L’applicazione di tale metrica ha permesso di ricavare conclusioni semplificative di grande utilità pratica, come il fatto che per classificare correttamente famiglie di proteine sono necessarie solo le frequenze di 25 peptidi su 400 possibili(Solovyev and Makarova, 1993)

Page 29: Alignment free sequence comparison—a review

Distanze basata sulla covarianza

• Questi metodi si basano sull’uso – della matrice di covarianza, – della distanza di Mahalanobis– o della distanza Euclidea standardizzata

Page 30: Alignment free sequence comparison—a review

Distanze basata sulla covarianza

• Distanza di Mahalanobis

• S= [sij] rappresenta la matrice di covarianza dei vettori word-count CXL e CY

L

• S-1 è l’inversa di S(con K × K elementi)

Page 31: Alignment free sequence comparison—a review

Distanze basata sulla covarianza

• Distanza Euclidea Standard

• Si pone cov(ci,cj)=0 per i≠j ignorando la covarianza tra le stesse parole, considerando solo la varianza delle parole.

• Si riduce alla distanza quadratica Euclidea se si considera sii = 1, per i =1,…,K

Page 32: Alignment free sequence comparison—a review

Distanze basata sulla covarianza

• In un articolo del 1997, Wuha proposto sia la dLM che

la dLSE per il confronto fra sequenze

• Nello stesso articolo si proponeva inoltre di combinare misure a diverse risoluzioni

Page 33: Alignment free sequence comparison—a review

Distanze basata sulla covarianza

• Tali metriche hanno problemi implementativiin quanto Sha determinante normalmente prossimo a zero (matrice quasi singolare) ed è quindi di difficile inversione.

• Diventano comunque inefficienti per risoluzioni L>4

• Hanno avuto qualche successo nelle ricerche in database di lipoproteine lipasi umane.

• In tali metriche è di particolare rilievo l’overlapping capability

Page 34: Alignment free sequence comparison—a review

Misure basate sulla teoria dell’informazione

• L’ Information Theory si basa sui lavori di C. Shannon (1948), sulla trasmissione delle informazioni su canali disturbati.

• Solomon Kullback, l’ha reinquadrata rigorosamente nell’ambito della Statistica (1968)

• Tra i concetti più importanti della I.T. vi sono il concetto di entropiae di entropia relativae di mutua informazione.

• Le metriche basate sull’I.T. sono applicate, come le precedenti, al conteggio/frequenza di L-tuple viste come variabili casuali.

Page 35: Alignment free sequence comparison—a review

Misure basate sulla teoria dell’informazione

• Il criterio utilizzato per il confronto tra sequenze si basa sulconcetto di informazione mutua,una quantità che misura la mutua dipendenza delle due variabili.

• Intuitivamente, l'informazione mutuamisura l'informazione che X e Ycondividono: essa misura quanto la conoscenza di una di queste variabili riduce la nostra incertezza riguardo all'altra …

Page 36: Alignment free sequence comparison—a review

Misure basate sulla teoria dell’informazione

• Ad esempio, se X e Ysono indipendenti, allora la conoscenza di X non dà alcuna informazione riguardo a Ye viceversa, perciò la loro mutua informazione è zero.

• All'altro estremo, se X e Ysono identiche allora tutte le informazioni trasmesse da X sono condivise con Y: la conoscenza di X determina il valore di Ye viceversa.

• Come risultato, nel caso di identità, l'informazione mutua è la stessa contenuta in un una sola delle due (Yo X), vale a dire l'entropia di X (o di Y), perchè chiaramente se X e Ysono identiche, hanno identica entropia.

Page 37: Alignment free sequence comparison—a review

Misure basate sulla teoria dell’informazione

• Formalmente, l'informazione mutua di due variabili casuali discrete X e Ypuò essere definita come:

dove p(x,y) è ora la funzione di "densità" di probabilitàcongiunta di X e Y, e p1(x) e p2(y) sono le funzioni di densità di probabilità marginale rispettivamente di X e Y.

Page 38: Alignment free sequence comparison—a review

Misure basate sulla teoria dell’informazione

• Tale concetto può essere applicato quindi per misurare la dissimilarità tra due sequenze biologiche come proposto nei lavori di Wu et al. (2001).

• In questo caso la mutua informazione è stata formulata in termini di “divergenza di Kullback-Leibler”, computandola dai vettori delle frequenze delle L-tuple.

– Per evitare valori infiniti quando fXL,1 è 0 l’autore ha riformulato l’espressione aggiungendo 1 a numeratore e denominatore nel rapporto

Page 39: Alignment free sequence comparison—a review

Confronti

• Nei lavori di Wu si è riscontrato che:

– in termini di sensibilità, selettività, la migliore metrica è la dL

M , seguita da dLSE ed infine dalla dLKL

viceversa,

– in termini di efficienza computazionalela migliore metrica è dL

KL , seguita da dLSE ed infine dalla dLM

Page 40: Alignment free sequence comparison—a review

Metrica basata sugli angoli

• In un report del 2002, Stuart et al. propongono una funzione distanza fra due sequenze X e Y considerando il coseno

dell’angolo formato dai due vettori word-count.

Page 41: Alignment free sequence comparison—a review

Metrica basata sugli angoli

• Poiché tali vettori sono considerati in un spazio ad un elevato numero di dimensioni (K = rL), viene applicato un algoritmo di tipo SVD prima del calcolo del coseno, utilizzando solo le dimensioni corrispondenti agli autovalori più alti (Truncated SVD) (dimensionality reduction).

• L’uso della SVD viene visto dagli autori come un modo per portare la misurazione in uno spazio di caratteristiche differenti da quello delle L-tuple.

Page 42: Alignment free sequence comparison—a review

Metrica basata sugli angoli

• Tale metrica è insensibile ai pattern “ricorrenti”: – la distanza tra X ed XX risulta = 0 in quanto i due vector

count su X e XX risultano avere norma diversa ma uguale direzione poichéCXX = 2CX.

• Questa proprietà è fondamentale in quanto “filtra”automaticamente le ripetizioni, distinquendo le sequenze solo per il diverso bilanciamento del “contenuto” in L-tuple.

• dCOSpresenta inoltre similarità con la ”correlation distance”dLCC .

Page 43: Alignment free sequence comparison—a review

Metrica basata sugli angoli

• Nello stesso report, Stuart et al, ricorrono alla misura degli angoli per proporre una funzione per misurare la distanza evolutivatra due sequenze.

• La dLEVOL è stata usata nello studio del genoma mitocondriale

e le distanze evolutive osservate sono risultate in corrispondenza con valori ottenuti in precedenza con altri metodi.

Page 44: Alignment free sequence comparison—a review

Metodi resolution -free

• Le metriche precedenti si basano sull’uso di L-tuple a risoluzioni fissate, o su combinazioni di misurazioni a diverse risoluzioni

• Esistono però altri metodi di misurazione che non sono dipendenti dalla scala/risoluzione e che risultano quindi assolutamente indipendenti dall’assunzione della conservazione di contiguità.

• Tale obiettivo viene raggiunto in due modi:– Mediante uso di algoritmi di compressionedelle sequenze,

– Mediante uso di mappe iterative

Page 45: Alignment free sequence comparison—a review

Kolmogorov Complexity

• Ci si basa sul concetto di “complessità algoritmica” delle sequenze.

• La complessità algoritmica, o di Kolmogorov, di una sequenza X, indicata con K(X), rappresenta la lunghezza del più piccolo programma P in grado di generarla, vedendo quindi P come descrizione della sequenza X in un certo linguaggio di programmazione L

• Si dimostra che, se K1(X) e K2(X) sono le complessità relative a due dati linguaggi L1 ed L2, esiste una costante c tale che

∀X |K1(X) - K2(X)| ≤ c

Page 46: Alignment free sequence comparison—a review

Kolmogorov Complexity

• La distanza proposta in Li and Vitanyi (1997) si basa sul concetto di complessità di Kolmogorov,

dove K(X|Y) è la complessità condizionale, e K(XY) è la complessità della concatenazione delle due sequenze XY.

• La complessità condizionale K(X|Y) di due stringhe X e Y è la lunghezza del più breve programma P che calcola X dato in input Y.

• K(X|Y) rappresenta quindi la quantità minima di informazioni necessarie per generare X da qualsiasi calcolo effettivoquando Y è dato come input per il calcolo

Page 47: Alignment free sequence comparison—a review

Kolmogorov Complexity

• Esiste un teorema che dimostra che K(X) non è una funzione computabile nel senso di Turing.

• Dal punto di vista pratico, ci si basa quindi su una approssimazione del suo limite superiorealla lunghezza|C(X)| della versione “compressa” di X, ottenuta mediante un opportuno algoritmo di compressione C, come ad es. Lempel-Ziv LZ77.

• |C(XY)| approssima analogamente K(X|Y)

dKC(X,Y) = max{|C(XY) | - |C(X)|, |C(YX) | - |C(Y)|} / max{|C(X)|, |C(Y)|}

Page 48: Alignment free sequence comparison—a review

Kolmogorov Complexity

• Li and Vitanyi (1997) dimostrano che dKC è effettivamente una funzione distanza

• E’ stata testata sul genoma mitocondriale di mammiferi e le distanze ottenute sono risultate consistenti con le relazioni filogenetiche note.

• Le sue caratteristiche ne consentono l’applicabilità anche a sequenze su alfabeti di ordine più elevato, come le sequenze proteiche.

Page 49: Alignment free sequence comparison—a review

Chaos Theory• L’idea di fondo è che ad ogni sequenza biologica si può far

corrispondere biettivamente una rappresentazione sotto forma di traiettoria in uno spazio di coordinate continuo multidimensionale, mantenendo le proprietà statistiche delle sequenze originali.

• La corrispondenza biunivoca (mapping) è ottenuta mediante funzioni iterative caotiche,

• Il mapping ha la proprietà di portare sequenze simili su traiettorie “vicine” (la metrica si sposta nello spazio multidimensionale), permettendo l’analisi di sequenze di lunghezza arbitraria in modo scale-indipendent

Page 50: Alignment free sequence comparison—a review

Chaos Theory• Nel 1990 Jeffrey propose sistemi

di funzioni iterative chiamateChaos Game Representation (CGR)per mappare sequenze nucleotidiche su uno spazio continuo bidimensionale corrispondente ad un quadrato unitario.

Recentemente Almeida and Vinga hanno proposto una estensione di questo metodo, chiamato Universal Sequence Maps (USM),che fornisce una tecnica scale-independent per rappresentare e confrontare qualsiasi sequenza di unità discrete, come sequenze genomiche, proteomiche, e anche testi.

Page 51: Alignment free sequence comparison—a review

USM Algorithm

• Mapping of a sequence X into a continuous space

• Extension of Chaos Game Representation (CGR) procedure for higher order alphabets using a n-dimensional hypercube → all CGR properties are maintained.

• Dimension needed for a m-symbol alphabet: log2(m) .

� Sequence X, length k, from m-symbol alphabet A

� Each symbol s is represented by a unique binary number u

corresponding to a corner of the n-hypercube.

Page 52: Alignment free sequence comparison—a review

USM Algorithm

� USM construction is based on a Iterative Function, where USMi is the point

in the USM map after ith iteration and ui are the coordinates of the vertex of

the ith symbol in the sequence.

Page 53: Alignment free sequence comparison—a review

USM Algorithm

Page 54: Alignment free sequence comparison—a review

Fine