Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni:

Transcript

1 Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni: antonella.meloni@ifc.cnr.it

2

3 Sequenza A= stringa formata da N simboli, dove i simboli apparterranno ad un certo alfabeto. A = (a 1, a 2, a 3,..a N ) Con a i ε (A,T,C,G) nel caso di sequenze di acidi nucleici e a i ε (A,R,N,D,C,Q,E,G,H,I,L,K,M,F,P,S,T,W,Y,V) nel caso di sequenze proteiche.

4 La più semplice analisi di sequenze consiste nel chiedersi se c è una qualche relazione di similarità (somiglianza di tipo algoritmico indipendente dalle cause che la generano) significativa tra due o più sequenze (di DNA o proteine). E utile per scoprire informazioni funzionali, strutturali ed evolutive delle sequenze in esame: un applicazione tipica è quella di scoprire geni simili ad un gene di cui si conosce la funzione, ad esempio in questo modo è stata verificata la somiglianza tra geni oncogeni e geni deputati alla crescita cellulare. La similarità di due o più sequenze si verifica effettuando prima un allineamento tra le sequenze in esame (o parte di esse) e poi decidendo se le eventuali parti comuni sono più facilmente dovute al caso o ad una effettiva relazione tra loro.

5 Date due sequenze A e B descritte da due stringhe formate da N ed M simboli rispettivamente, allineare le due sequenze vuol dire trovare la funzione f(b) tale che la distanza tra A e C=f(B) sia la minima possibile (oppure che la similarità sia massima). f() è una qualche trasformazione che può essere applicata alla sequenza, ad esempio un semplice shift di n caratteri. Formalizzando, l operazione di allineamento consiste in tre passi fondamentali: 1. Scelta di una metrica di allineamento (distance). 2. Definizione delle possibili trasformazioni f() che s possono applicare (search space). 3. Definizione di un algoritmo che trovi il minimo (o il massimo) della metrica nel search space (algoritmo di ottimizzazione).

6 Allineamento globale: si tenta di allineare il massimo numero di caratteri delle due sequenze, incluse le parti finali. Candidate ideali sono le sequenze di lunghezza simile e quasi simili. Allineamento locale: si tenta di allineare solo pezzi di sequenze molto simili. L allineamento termina quando termina l isola di forte match. Candidate ideali sono sequenze con lunghezze diverse, con regioni fortemente conservate. Si distingue inoltre tra: - pairwise allignment - multiple allignment Metodi principali di allineamento a coppie: Algoritmi di Programmazione Dinamica - Needleman & Wunsh (1970) per l allineamento globale - Smith & Watermann (1981) per l allineamento locale Tecniche euristiche (algoritmi FASTA e BLAST)

7 Buona distanza: sempre non negativa e simmetrica (cioè d(a,b)=d(b,a)). La distanza è uguale a zero se le sequenze sono perfettamente allineate. Il modello più semplice di distanza definito in bioinformatica è la distanza di Hamming: numero di posizioni in cui due stringhe differiscono tra loro. La distanza di Hamming si calcola confrontando le coppie (ai,bi) e contando le coppie differenti. Analogamente, la similarità di Hamming si computa contando le coppie uguali. Le metriche di Hamming dipendono dalla lunghezza delle sequenze, quindi può essere opportuno usare delle versioni normalizzate alla lunghezza delle sequenze stesse.

8 Supponiamo di utilizzare la distanza di Hamming e che f() sia un operazione di shift delle due sequenze. A = A A K K Q W B = A A K Q W Per ognuna delle possibili posizioni dobbiamo valutare il numero di simboli che si appaiano esattamente, ovvero la similarità di Hamming. In questo caso l allineamento ottimo risulta quello della quinta casella con punteggio 4 (shift = +1).

9 DOT MATRIX: Alternativa grafica alla ricerca esaustiva. Viene costruita una matrice NxM, e gli elementi della matrice vengono posti ad uno in caso di corrispondenza tra i simboli delle due sequenze. Nel caso di due sequenze identiche, la dot-matrix è formata da una diagonale continua con del rumore, costituito dagli allineamenti casuali. In generale, un indice di similarità alto tra due sequenze corrisponderà ad una diagonale marcata. Il rumore casuale può essere ridotto con opportuni algoritmi di filtraggio.

10 L approccio brute force è applicabile solo per problemi semplici. Supponiamo ad esempio di volere allineare tre sequenze di lunghezza N, definendo la similarità come il numero di coincidenze nelle tre sequenze (quindi S=0,1,2 per ogni locazione). Il numero di casi da computare è (2N-1)K-1. Il numero di casi diventi estremamente grande. La complessità computazionale dell algoritmo brute force è troppo grande. In generale per risolvere problemi di allineamento di interesse pratico è quindi necessario utilizzare algoritmi di ottimizzazione più efficienti (cioè con complessità computazionale minore) della semplice ricerca esaustiva.

11 La edit distance tra due stringhe è il numero minimo di operazioni di editing necessarie per trasformare una stringa nell altra. Le possibili operazioni di editing sono: inserzione di un simbolo, cancellazione di un simbolo, sostituzione di un simbolo con un altro. L edit distance è equivalente alla distanza di Hamming se non si considerano le operazioni di inserzione e cancellazione. Tenendo conto delle operazioni di inserzione e cancellazione si ottiene un modello di distanza più adeguato alla realtà biologica. Esistono infinite combinazioni di operazioni di inserzione, cancellazione e sostituzione che trasformano una stringa in un altra.

12 Ad esempio, consideriamo le stringhe: S1: TGCATAT S2: ATCCGAT E possibile trasformare S1 in S2 con 5 operazioni: TGCATAT Cancellare l ultima T TGCATA Cancellare l ultima A TGCAT Aggiungere A all inizio ATGCAT sostituzione di G con C ATCCAT Inserire una G ATCCAT Sembrerebbe quindi che la edit distance sia 5. In realtà è possibile trasformare S1 in S2 con sole 4 operazioni: TGCATAT Inserimento di A all inizio ATGCATAT cancellazione di T alla posizione 6 ATGCAAT sostituzione di A con G ATGCGAT sostituzione di G con C ATCCGAT

13 Il problema del calcolo della edit distance tra due sequenze è quindi quello di trovare tra tutte le possibili trasformazioni quella che richiede il numero minimo di operazioni. E facile verificare che la possibilità di inserire spazi (gap) nelle due sequenze aumenta in modo esponenziale la complessità degli algoritmi brute-force di allineamento. Limitandoci ad un solo gap, l inserzione dello stesso in una sequenza di N simboli crea N nuove sequenze, ognuna delle quali andrebbe allineata con la seconda sequenza ottenendo una complessità O(n 3 ). Aumentando il numero di gap, la complessità diviene O(n n ). Diviene quindi impossibile utilizzare algoritmi esaustivi (o bruteforce) ma bisogna passare ad algoritmi più efficienti, quali quelli di programmazione dinamica.

14 Il calcolo della edit distance è equivalente al calcolo della matrice di allineamento ottima. Ogni percorso diagonale nella matrice corrisponde ad un possibile allineamento. Ogni segmento che congiunge due nodi di un percorso è equivalente ad una colonna dell allineamento. Segmenti verticali ed orizzontali corrispondono all inserimento di uno spazio.

15 Le colonne con lo stesso simbolo si dicono matches, quelle con uno spazio si dicono indels, divise in insertions (spazio nella colonna superiore) e deletions (spazio nella colonna inferiore). Numero di indels in un allineamento senza mismatch = numero di trasformazioni del calcolo della edit distance Corrispondenza tra il problema dell allineamento di due sequenze ed il problema di trovare un percorso ottimo in una matrice formata dalle due sequenze in esame. Tutti i problemi di allineamento di sequenze possono essere ricondotti quindi ad un problema di tipo matriciale, risolvibile con algoritmi di tipo dynamic programming. In generale per risolvere il problema del percorso ottimo, dobbiamo in qualche modo pesare i vari nodi della matrice introducendo una qualche metrica.

16 Nel caso della edit distance, mismatch, inserzioni e delezioni vengono pesate tutte con valore -1. In generale, una misura di similarità che tenga conto dell inserimento di gap dovrà tener conto del numero di gap inseriti e della loro lunghezza. Formalizzando avremo l espressione: score = L i= 1 s( a, b ) δ i [ γ + ( len( j) 1) ] - L = lunghezza dell allineamento che stiamo considerando, cioè della parte in cui le due sequenze si sovrappongono. - s(a,b)= score dell appaiamento di due residui: s(a,b)=1 se a=b, 0 altrimenti. - G= numero di gap inseriti. - γ= penalità per l inserzione di un gap, - δ = penalità per l allungamento di un gap esistente. - len = lunghezza del gap. i G j= 1

17

18 Calcolo della similarità di Hamming. Scrivere un programma MATLAB che accetti in input un numero N di sequenze in formato FASTA e fornisca la matrice della massima similarità di Hamming tra le sequenze. Per matrice di similarità si intende l insieme delle similarità tra tutte le possibili coppie di sequenze. La massima similarità di Hamming va valutata come massimo delle similarità per tutti i possibili valori di shift tra le due sequenze). Applicare il programma alle sequenze di DNA mitocondriale in allegato (Uomo, Scimpanzé, Neanderthal, Gorilla, Polytomella). Per la lettura del formato fasta si usi la funzione fastaread1.m.

19 Significatività della similarità di Hamming Dato un certo valore della massima similarità di Hamming tra due sequenze, esisterà una certa probabilità che tale valore sia dato da un appaiamento casuale di nucleotidi e non abbia un significato biologico (ipotesi nulla). Se la probabilità dell ipotesi nulla è abbastanza bassa (ad esempio minore del 5%), respingeremo l ipotesi nulla e considereremo le sequenze effettivamente simili secondo la metrica considerata. La probabilità dell ipotesi nulla può essere calcolata con gli strumenti del calcolo delle probabilità. Una possibilità alternativa è quella di creare dei dati casuali partendo dai dati sotto analisi (dati surrogati) e calcolare il parametro che ci interessa sui dati surrogati. Reiterando più volte il procedimento, si ottiene una distribuzione casuale del parametro di interesse (tipicamente gaussiana) dalla quale si possono ricavare le statistiche del primo ordine (media e SD). La soglia del parametro per respingere l ipotesi nulla sarà poi media ± 1.96SD.

20 Nel nostro caso, date le due sequenze S1 e S2, possiamo creare i dati surrogati mescolando in modo random le basi di una delle due sequenze. Otterremo quindi la massima similarità di Hamming SH per i dati surrogati come visto nell esercitazione 1.1. Ripetendo il procedimento un numero elevato di volte, avremo una distribuzione gaussiana di SH. Da tale distribuzione otteniamo l intervallo di valori di SH compatibile con l ipotesi nulla. A questo punto possiamo verificare se il valore di SH ottenuto tra le due sequenze originali è all interno dell intervallo definito dai dati surrogati.

21 Dot-matrix I bioinformatics toolbox di matlab forniscono la funzione seqdotplot che calcola la dot matrix tra due sequenze. Attraverso i parametri della funzione è possibile realizzare il filtraggio della matrice per migliorare la visualizzazione. In particolare è possibile scegliere una finestra (Window) e visualizzare solo le finestre con un certo numero di match (Number). Notiamo che la matrice è restituita in formato sparse che è un formato matlab utile ad ottimizzare l occupazione di memoria. Si calcolino e visualizzino le dot matrix delle coppie di sequenze homosapiens-scimpanze e homosapiens-polytomella (usare le sequenze in allegato dove sono stati eliminati i gap).

22 Un alternativa per ottimizzare la visualizzazione è operare un filtraggio della matrice come avviene per le immagini. Ad esempio possiamo operare un filtraggio con un kernel diagonale e binarizzare la matrice risultante secondo una soglia. Effettuare il filtraggio della dot matrix non filtrata homosapiensscimpanze con un kernel diagonale di dimensioni 11x11 (usare la funzione conv2, per trasformare la matrice sparse usare full() ). Binarizzare la matrice con soglia 7. Confrontare i risultati ottenuti con quelli dati dalla funzione seqdotplot con window=11, Number=7.