Programmazione dinamica

Transcript

1 Programmazione dinamica Fornisce l allineamento ottimale tra due sequenze semplici variazioni dell algoritmo producono allineamenti globali o locali l allineamento calcolato dipende dalla scelta di alcuni parametri Sfrutta la ricorsione.. ogni risultato parziale dipende dal risultato del calcolo precedente del punteggio di allineamento registrato in una tabella. Quest ultima è utilizzata alla fine per ricostruire il percorso ottimale.

2 Needleman & Wunsch (1970) Allineamento globale Punteggio (odds score) di un allineamento sequenza 1 M - N A L S D R T sequenza 2 M G S D R T T E T punteggio = -5

3 Pairwise Sequence Alignment Esempio HEAGAWGHEE PAWHEAE HEAGAWGHE-E P-A--W-HEAE HEAGAWGHE-E --P-AW-HEAE Qual è il migliore?

4 Esempio A E H P W A E G H W Gap penalty: -8 HEAGAWGHE-E --P-AW-HEAE (-8) + (-8) + (-1) (-8) (-8) + 6 = 9 Esercizio: Calcolate per.. HEAGAWGHE-E P-A--W-HEAE La risposta è (-2)+(-8)+5+(-8)+(-8)+15+(-8)+10+6+(-8)+6 = 0

5 Global Alignment Notazione x i i-esimo elemento della sequenza x y j j-esimo elemento della sequenza y x 1..i Prefisso di x da 1 a i F matrice di score ottimali F(i,j) rappresenta l allineamento ottimale x 1..i con y 1..j d penalità s scoring matrix

6 Global Alignment Costruiamo F Inizializzo: F(0,0) = 0, F(i,0) = id, F(0,j)=jd Riempio da alto-sinistra verso il basso-destra usando la relazione ricorsiva + = d j i F d j i F y x s j i F j i F j i 1), ( ) 1, ( ), ( 1) 1, ( max ), (

7 Global Alignment y j allineata ad un gap Muoviti avanti su entrambe F(i-1,j-1) s(x i,y j ) F(i,j-1) d x i allineata ad un gap F(i-1,j) d F(i,j) Mentre si costruisce la tabella, si può tenere traccia del percorso ovvero quale direzione si prende (frecce di direzione inversa)

8 H E A G A W G H E E P A W H E A E Esempio Il primo step è quello di riempire i valori della tabella considerando una matrice di sostituzione (BLOSUM50 in questo caso) di appaiamento degli AA nella griglia) Matrice dei punteggi secondo BLOSUM50 degli appaiamenti tra AA GAP D = -8 Il secondo step prevede il riempimento della tabella ricorsivamente H E A G A W G H E E P A -16 W -24 H -32 E -40 A -48 E -56

9 H E A G A W G H E E P A W H E A E Tavola completata Matrice dei punteggi secondo BLOSUM50 degli appaiamenti tra AA GAP D = -8 H E A G A W G H E E P A W H E A E

10 Traceback H E A G A W G H E E P A W H E A E Percorso a ritroso seguendo le frecce: Il percorso parte sempre dall ultima casella Per definizione fino allo 0 Spostamenti: Diagonale entrambi Su gap in alto Sx gap in basso HEAGAWGHE-E --P-AW-HEAE

11 Sommario Inizializzazione valori tabella (-jd e id) Uso della ricorsione per riempire le caselle intermedie della tabella (programmazione dinamica) Traceback dall ultima casella (i,j) Uso di O(nm) spazio e tempo O(n 2 ) algoritmo Possibile per piccole sequenze ma non per interi genomi

12 Local Alignment Smith-Waterman (1981) Altra soluzione di programmazione dinamica molto simile ad allineamento globale nella costruzione tabella In questo caso viene introdotto lo 0 nel calcolo del punteggio delle caselle. Non si hanno mai valori negativi F( i, j) = F( i max 1, j 1) + F( i 1, j) F( i, 0 j 1) s( x d d i, y j )

13 Esempio H E A G A W G H E E P A W H E A E

14 Traceback H E A G A W G H E E P A W H Inizia dal punteggio più alto trovato nella tabella e ripercorre a ritroso da quella casella fino al primo 0 AWGHE AW-HE E A E

15 SOLUZIONI ALTERNATIVE Possono capitare soluzioni alternative nel caso di punteggio uguale in certe posizioni della tabella

16 ALTRO TIPO DI ALLINEAMENTO Il Freeshift o glocal Si utilizza quando ci si aspetta che una sequenza sia completamente contenuta in un altra oppure abbia un overlap. Quello che si vuole è un tipo di allineamento globale in cui non vengano penalizzati gli overhang terminali

17 Sequenza contenuta dentro un altra sequenza e con delle zone di overhang D L G P S S K S T G K G S I M R I W D N G M D I T K S A G K G A I M R L E M OVERLAP ZONE OVERHANG ZONE

18 Il problema si traduce nel partire dal punteggio massimo della matrice sull ultima colonna o riga e ripercorrere a ritroso fino alla fine (o prima riga o prima colonna) L inizializzazione della matrice e con il punteggio 0 come nel caso dell allineamento locale Il riempimento della matrice avviene, invece, con la regola dell allineamento globale H E A G A W G H E E Da qui il nome di allineamento g-local P A W H E HEAGAWGHEE PAW-HEAE A E

19 La ricerca di similarità in banche dati Uno dei problemi più comunemente affrontati con metodi bioinformatici è quello di trovare omologie di sequenza interrogando una banca dati. L idea di base è che proteine omologhe derivano da un progenitore comune e, quindi, condividono ampie regioni simili. Comparando la similarità tra la nostra sequenza (query) e tutte quelle contenute in una banca dati possiamo stimare la percentuale di similarità e da questa inferire una eventuale omologia (attenzione ai termini!!).

20 La ricerca di similarità in banche dati Quando le sequenze sono molto simili è ovvio assumere che sono anche omologhe, ma, nella maggior parte dei casi questo non si verifica quando bisogna confrontarsi con bassi livelli di similarità. In molti casi, tuttavia veri omologhi funzionali hanno bassi livelli di similarità e non è affatto facile discriminare falsi omologhi da veri omologhi. In mancanza di elementi funzionali la discriminazione tra veri e falsi omologhi si fonda su considerazioni statistiche. In sintesi sulla base della percentuale di similarità si assegna un punteggio ad ogni singolo appaiamento di sequenze e si valuta la probabilità di avere lo stesso punteggio per caso. Tanto più bassi sono i valori di probabilità tanto più significativo risulta l allineamento. Ci sono due grossi problemi da risolvere: Lo sviluppo di algoritmi capaci di identificare sequenze simili alla sequenza query tra milioni di sequenze target e la scelta di metodi statistisci a cui affidare la decisione di quali siano le sequenze significative. I principali programmi di interrogazione di banche dati, come FASTA, BLAST e SSEARCH si caratterizzano essenzialmente per l approccio a questi problemi.

21 La ricerca di similarità: accuratezza TP = positivi veri (il metodo dice che è omologa e in effetti corrisponde al vero) FP = falsi positivi (il metodo dice che è omologa quando invece non lo è) TN = negativi veri (il metodo dice che non è omologa e in effetti corrisponde al vero) FN = falsi negativi (il metodo dice che non è omologa quando invece lo è) (TP+FN) = effettivi positivi nella banca dati (TP+FP) = positivi predetti dal metodo falsi e veri È omologa? Sì No Predetta come omologa? Sì No TP FN FP TN

22 La ricerca di similarità: accuratezza Sensibilità = TP / (TP + FN) è la percentuale di esempi predetti correttamente dal metodo sulla totalità di quelli che sono realmente presenti in banca dati. Selettività = TP / (TP + FP) è la percentuale di volte in cui la predizione positiva si rivela corretta. Specificità = TN / (TN + FP) è la percentuale di esempi predetti come negativi sul totale di quelli effettivamente negativi Esempio: Omologia reale tra proteine: (A, B, C), (D, E), (F, G, H) Predizione: A B, C B C C A, E D B E B F A, H G F H F, G Risultati: TP = 8 FP = 4 FN = 6 TN = molti Sens = 8 / (8+6) = 0.57 Sel = 8 / (8+4) = 0.66

23 La ricerca di similarità: accuratezza Sel. = TP / (TP + FP) Sens.= TP / (TP + FN) In genere ad ogni predizione è affiancata una stima di affidabilità. I valori di sensibilità e selettività si calcolano soltanto per quelle predizioni che superano un valore minimo di affidabilità (threshold, soglia). La scelta della soglia e fatta su basi statistiche ed e determinante. In generale i metodi cercano un compromesso per cui: Alta sensibilità bassa selettività e viceversa In base alla soglia scelta si possono ottenere valori di sensibilità e selettività molto diversi tra di loro. Per questo entrambi i valori vanno riferiti allo stesso valore di soglia per poter essere paragonati. Esempio: Omologia reale tra proteine: (A, B, C), (D, E), (F, G, H) A B, C 10 B C 5 C A, E 10 D B 5 E B 5 F A, H 15 G F 5 H F, G 15 Soglia >= 5: TP = 8 FP = 4 FN = 6 Sens = 0.57 Sel = 0.66 Soglia >= 10: TP = 6 FP = 2 FN = 8 Sens = 0.42 Sel = 0.75 Soglia >= 15: TP = 3 FP = 1 FN = 11 Sens = 0.21 Sel = 0.75

24 La ricerca di similarità: accuratezza Alternativa: ROC (receiver operator characteristic) Grafico che rappresenta l andamento della sensibilità in base alla selettività, basato su soglia mobile. Permette di visualizzare tutte le combinazioni contemporaneamente. Intuitivamente, il metodo A funziona meglio di quello B se ha una curva con valori sempre maggiori dell altro. In termini matematici si può calcolare l area sotto la curva (valore AUC = area under curve) per quantificare la performance dei metodi.

25 La ricerca di similarità: i metodi Pairwise alignment allineamenti a coppie 1. Analisi della matrice a punti (dot matrix) 2. Programmazione dinamica (dynamic programming) allineamenti locale e globale. algoritmi che trovano la soluzione ottima. 3. Metodo delle n-tuple (Fasta, Blast) le banche dati crescono a dismisura e gli algoritmi ottimi sono computazionalmente molto lunghi. Compromesso tra velocità e precisione per avvicinarsi alla soluzione ottima ideale. In questo caso si parla di euristica. I metodi delle n-ple sono difficili da quantificare in complessità di calcolo ma in generale l ordine passa da O(n 2 ) a O(n).

26 FASTA FASTA è un programma che cerca similarità locali utilizzando l algoritmo di Pearson e Lipman La sua strategia è quella di suddividere la sequenza query in tante sottosequenze lunghe 1 o 2 amminoacidi (parole). Il passo seguente è quello di suddivere tutte le sequenze della banca dati in sequenze di stessa lunghezza e di calcolare la posizione delle varie parole in tutte le sequenze. Per velocizzare i calcoli il programma ha già preparato una tabella con tutte le possibili combinazioni di due o tre amminoacidi ( 20 x 20 = 400 combinazioni) e calcola il numero e la posizione delle varie parole che compongono ogni singola sequenza. Per esempio data una query di sequenza: MAPESRTGSAATATSTD MA AP PE ES.. e una libreria di n sequenze avremo: 1) LCSPAPATREYFELFARIGIDKK 2) ETAHGSAATATWKLINCV n) parola 1 2 n MA - - AP 5 - PE - - ES - - SR - - RT - - TG - GS - 5 SA - 6 AA - 7 AT 7 8,10 TA - 2,9 AT - 10 TS - - ST - - ecc.

27 FASTA Subito dopo FASTA si preoccupa di calcolare il cosiddetto offset. Dopo aver determinato tutte le parole in comune tra la sequenza query e tutte le altre sequenze della banca dati, si preoccupa di determinarne le posizioni relative, per identificare quelle con amminoacidi comuni in un allineamento senza interruzioni. In pratica calcola la differenza tra le posizioni parole nella query e quelle corrispondenti in ciascuna delle sequenze della banca dati. parola query 1 2 n offset 1 offset 2 offset n (1-query) (2-query) (n-query) MA AP PE ES SR 5 RT TG 7 GS SA AA AT , , -1 TA 12-2, , -3 AT TS ST

28 FASTA Siccome nella tabella di offset, a valori uguali corrispondono amminoacidi allineati, si possono costruire allineamenti di proteine Query MAPESR TGSA ATATSTD Sequenza 2 ETAHGSA ATATWKLINCV Utilizzando opportune matrici di sostituzione, come BLOSUM 62 o PAM 240, si possono assegnare valori numerici ai vari allineamenti, scegliere le 10 regioni con i valori più alti e sommarle insieme ottenendo il valore chiamato init1. Tutti i valori di init1 vengono ordinati per valori decrescenti e i migliori vengono utilizzati per l analisi successiva E possibile introdurre gaps o inserzioni per allungare l estensione dell allineamento pagando delle penalizzazioni ( il punteggio init1 si abbassa ) Query PK---MAPESR TGSA ATATSTD--- N -V Sequenza 2 PKACVVMETAHGSA ATATWKLINCV I nuovi valori vengono ricalcolati con le stesse procedure e la somma dei nuovi dieci valori è chiamata initn. Ancora una volta i valori di initn vengono ordinati per valori decrescenti dal migliore al peggiore. I migliori valori, infine, vengono allineati alla sequenza query con un algoritmo di allineamento globale e i punteggi finali sono indicati opt.

29 FASTA a) Ricerca parole identiche tra le due seq. b) Ricerca diagonali (k-ple sulla stessa diagonale sono considerate parte dell allineamento senza gap se non distano troppo per un parametro fissato). Calcolo di init1 con le matrici solo i 10 più alti sono classificati ed il più alto utilizzato c) Allungamento con gap e calcolo di initn. Questa ricongiunzione viene effettuata se la penalità di ricongiungimento, proporzionale alla distanza tra le regioni di similarità, é inferiore al contributo dato al punteggio di similarità dalla regione di similarità che viene ricongiunta nell'allineamento. d) Nella quarta ed ultima fase, l'allineamento precedentemente ottenuto viene ulteriormente ottimizzato utilizzando la procedura di allineamento descritta da Chao et al. (1992) che utilizza un algoritmo per l'allineamento di due sequenze all'interno di una banda diagonale di dimensioni predeterminate. Il punteggio di similarità calcolato in questa ultima fase viene denominato punteggio opt.

30 Dopo aver calcolato i punteggi finali (opt) FASTA elabora i risultati per stimare la significatività statistica dei risultati operando come segue: Genera un numero statisticamente significativo di combinazioni di sequenze con la stessa lunghezza e la stessa composizione amminoacidica della sequenza query Per ciascuna di esse lancia un FASTA contro un subset della banca dati Calcola la media (mu µ), la deviazione standard (rho σ), assumendo che i valori si distribuiscano in modo normale (cioè con una distribuzione casuale di Poisson) Confronta i valori opt ottenuti con il valore medio della distribuzione ricavandone la probabilità di avere quel particolare valore di opt per caso

31 Z-score lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random è una misura di quanto il valore di opt si discosta dalla deviazione standard media. indica di quante dev. Standard si discosta (4 indica già che siamo fuori della distribuzione) Deviazione standard è l indice di dispersione della distribuzione σ = ( x µ) N 2

32 E-value E(S) Effettuate le prove di raccolta dei punteggi otterremo una distribuzione simile a quella normale ma che in realtà si chiama distribuzione dei valori estremi (Gumbel distribution o EVD) A Yev X Se si vuole sapere quanto significativo è il punteggio ottenuto dal mio allineamento reale in confronto alla distribuzione ottenuta secondo quanto detto prima, allora si ricorre all Evalue che indica: Il numero di differenti allineamenti con uno score (x) equivalente o migliore di quello ottenuto dal mio allineamento (chiamato S) che possono capitare per caso in una ricerca in database. Più basso è tale valore e più significativo è il mio allineamento K e λ dipendono dalla banca dati e dalla λs E( x S) E( S) = kmne sua grandezza (e FASTA li calcola) m e n sono le lunghezze delle due sequenze. S è il punteggio del mio allineamento

33 Bit-score Il bit-score consente di mettere in relazione diretta ricerche effettuate in banche dati di grandezze diverse dato che non dipende dai parametri λ e K come invece lo è il raw score. Sono così confrontabili due ricerche in banche dati diverse. Il bit-score si ricava dal punteggio grezzo S (raw score), si definisce come S e si normalizza come segue: Da cui deriva che l E-value è: S ln K S' = λ ln 2 E = mn2 S ' E dipende solo dai parametri di lunghezza delle sequenze. Esiste infine un altra misura che è il P-value molto simile all E-value

34

35