La distribuzione dei veri e falsi positivi la ricerca della giusta soglia

Transcript

1 La distribuzione dei veri e falsi positivi la ricerca della giusta soglia

2 BLAST Blast (Basic Local Aligment Search Tool) è un programma che cerca similarità locali utilizzando l algoritmo di Altschul et al. Anche Blast, come FASTA, funziona: 1. scomponendo la sequenza query in parole di pochi amminoacidi, di solito 2 o 3 (parametro W) e generando una lista di parole affini (diverso da FASTA) con la matrice di sostituzione (BLOSUM). Le parole affini conservate dovranno avere uno score superiore ad una soglia fissata T 2. Le parole affini sono ricercate nella banca dati per match esatti ed una volta trovate le sequenze che li contengono questi vengono estesi a dx e sx dell allineamento per una certa profondità stabilita dal parametro X e le coppie di segmenti, presenti nella stessa coppia di sequenze, che totalizzano un punteggio di similarità statisticamente significativo, superiore ad una soglia S, vengono definiti HSP (High scoring Segment Pairs). 3. Nella stessa coppia possono esserci più HSP di cui é anche possibile calcolare la probabilità di occorrenza (Karlin & Altschul, 1993). W = word-size T = threshold X = elongation S = HSP threshold

3 Si definisce MSP (Maximal scoring Segment Pair) la coppia di segmenti, di eguale lunghezza, che realizza il massimo punteggio di similarità nel confronto di due sequenze; l algorimo ne valuta in modo rigoroso la significatività statistica (Karlin & Altschul, 1990, 1993).

4 BLAST two hit method le versioni attuali di Blast adottano il Two-hit method che deriva dall'osservazione che il tempo di esecuzione dell'algoritmo e' principalmente impiegato nell'allungamento degli Hits per ottenere gli HSPs. L'algoritmo allora considera solo i casi in cui esistono due hit sulla stessa diagonale ad una distanza inferiore ad un parametro A prima di cercare gli HSPs. Per non perdere in sensibilità e' stata abbassata la soglia di T. L'algoritmo è più veloce e non ha perso in precisione Nella sua attuale implementazione, inoltre, BLAST considera anche i gap nel tentativo di unire, quindi, degli HSP "ungapped" che sono spazialmente vicini nella matrice di allineamento e la cui unione in un unico frammento (contenente gap ed inserzioni) non comporta un peggioramento dello score finale ma un miglioramento complessivo. Il tutto secondo dei nuovi parametri che regolano i costi e le penalità della presenza di gap nell'allineamento. Il parametro A

5 BLAST I vari algoritmi differiscono molto per il metodo con cui definiscono una sequenza casuale. BLAST calcola a priori la probabilità che un certo punteggio sia significativo sulla base della dimensione e composizione della banca dati applicando: λs E( S) = kmne dove m è la lunghezza della sequenza query e n è la lunghezza della sequenza subject della banca dati λ e K sono precalcolati secondo una distribuzione standard interna al contrario di FASTA. Il punteggio è simile a quello di FASTA La significatività di un risultato è espressa come valore E(S) (Expectation). Più basso il valore di E più significativo è l allineamento. Un valore di 1.0e-5 per esempio vuol dire che la probabilità di avere per caso una sequenza con lo stesso score della mia query è uguale a 1.0e-5; ovvero l attesa è che ogni sequenze se ne possa, in media, trovare una (1/100000) che totalizzi un punteggio uguale o migliore di 1.0e-5.

6

7

8 CONFRONTO BLAST E FASTA fasta3 proteina o DNA contro banca dati o proteici o DNA rispettivamente fastx/y3 DNA contro banca dati proteico, traduzione nei 6 frame tfastx/y3 proteina contro banca dtai di DNA tradotto blastn query DNA banca dati DNA blastp query proteina banca dati proteine blastx query DNA (tradotta nei sei frame di lettura) banca dati proteine tblastn query proteina banca dati DNA (sequenze tutte tradotte nelle sei fasi di lettura) tblastx query DNA (tradotta nei sei frame di lettura) banca dati DNA (tradotta nei sei frame di lettura) SIMILARITA USO DELLA SCORING MATRIX K-TUPLE FASTA Locale (e' in genere riportato solo il miglior allineamento locale) Durante la estensione nella fase B. In questo caso il calcolo si effettua nella prima fase solo per identità 1-2 aa / 4-6 nt BLAST Locale (e' riportata la serie di allineamenti locali sopra il valore soglia tra query e subject: al contrario di FASTA si riescono ad individuare repeat e zone eventuali di overlap tra gli allineamenti locali che sono eliminate da FASTA nella fase C) Fase di scansione per W e fase di estensione per gli HSP l'algoritmo e' ottimizzato per ricercare parole W "simili" e non esatte. Si traduce il tutto in una maggiore sensibilità di ricerca rispetto a FASTA per le proteine. GAP Consentiti nella fase C Consentiti nella versione attuale 3 aa / 11-12nt. A livello nucleotidico, non essendo applicate matrici di similarità che perdono di significato avendo solo 4 simboli (A,C,G,T), BLAST perde in sensibilità avendo W=11 VELOCITA' Da 1/2 ad 1/5 di BLAST Da 2 a 5 volte maggiore di FASTA SPECIFICITA' Migliore per il confronto di sequenze nucleotidiche Migliore per il confronto di sequenze proteiche

9 Alcuni esempi di interfacce web FASTA ( BLAST (

10

11

12

13

14

15

16

17

18

19

20

21 ALLINEAMENTI MULTIPLI Identificazione di siti funzionalmente importanti Dimostrazione di omologia Filogenesi molecolare Ricerca di somiglianze deboli ma significative in banche dati Predizione di struttura Predizione di funzione

22

23 Utilizzo dei colori I file raw-text possono essere utilizzati per visualizzare le colonne, ma è possibile associare colori diversi per residui con caratteristiche chimico fisiche diverse. Questo facilita molto la visualizzazione dei multiallineamenti ESPript e PrettyPlot sono programmi dedicati a questo tipo di analisi qualitativa disponibili in rete

24 ESTENSIONE DEGLI ALLINEAMENTI GLOBALI (NW) O LOCALI (SW)? L applicazione degli algoritmi per la ricerca di un allineamento ottimale tra due sequenze pone problemi per l applicazione a più di tre sequenze contemporaneamente se L è la lunghezza delle sequenze occorrerebbe un tempo di O(L N ) che è impraticabile Uso di metodi approssimati (euristici) o progressivi che si basano sull ipotesi che le sequenze da allineare siano filogeneticamente correlate

25 Metodi approssimati Allineamento progressivo (Clustal) Metodi iterativi (Multalin) Metodi basati su zone comuni di sequenza conservate (Profili) Metodi statistici e modelli probabilistici (HMM)

26 Allineamento progressivo CLUSTAL (Higgins & Sharp, 1988) ClustalW ClustalX PILEUP (GCG)

27 CLUSTAL (Higgins & Sharp, 1988) 1. Allineamento a coppie di tutte le sequenze iniziali con: 1. Metodi approssimati (n-ple) oppure 2. algoritmo dinamico di Myers & Miller, Il punteggio degli allineamenti (matrice delle distanze) è utilizzato per costruire un albero filogenetico (neighbor-joining) 3. Allineamento delle sequenze secondo l ordine dell albero (le sequenze più simili prima)

28 neighbor-joining Saitou Mol. Biol. Evol È un algoritmo di clustering che attraverso iterazioni successive determina le coppie di sequenze più simili e le restanti. Se N sono le sequenze allora ci saranno N(N-1)/2 Possibilità di scegliere la prima coppia di sequenze che tra loro hanno il punteggio di similarità più alto. La prima coppia così costituita verrà utilizzata come consenso e la procedura si ripete per trovare un altra sequenza o cluster che sia il più vicino possibile alla coppia appena costituita. Parlando in termini filogenetici in cui NJ viene usato si può dire che l albero filogenetico si risolve progressivamente dalla tipologia a stella fino a che non si ottengono tutti gli N-3 rami interni.

29

30

31

32 In questo caso si ha che il nuovo nodo X, dato dall unione di (1-2), avrà una distanza dagli altri pari a: (m appartiene ai nodi {3,8}) D xm = 1 2 ( D + D D ) 1, m 2, m 1,2

33

34

35

36

37 CLUSTAL Il contributo delle sequenze al punteggio dell allineamento multiplo è pesato Sistema di penalizzazione degli indels che sono favoriti tra domini conservati. Durante il processo di allineamento, la penalizzazione dei gap viene abbassata nelle zone in cui sono già presenti dei gap Si basa sul NJ che utilizza i valori di similarità dei k(k-1)/2 allineamenti a coppie (basato sull idea dell algoritmo di Feng-Doolittle). Nella costruzione dell allineamento fa un allineamento sequenza -> profilo Sequence weighting: ogni sequenza ha un peso associato, funzione della distribuzione statistica delle sequenze. Gruppi di sequenze correlate hanno pesi diminuiti perchè contengono informazione ridondante. Matrix score: a seconda della distanza fra le sequenze sono usate diverse matrici di sostituzione. Special gap score: i punteggi associati ai gap variano in relazione a molti fattori, tra cui la frequenza dei residui allineati con il gap e la lunghezza delle sequenze.

38

39 QUALITA DI UN ALLINEAMENTO MULTIPLO WSP score = N i= 2 i 1 j= 1 W QUAL( A ij ij ) N CAGPHJKLCMMWERQASDF CAHPHJKLCVMWERQASDF CAGPHJELCVMWERRASDF MAGPHJKLCVMWERFASDF Si ottiene sommando i punteggi di similarità QUAL(A) pesati per un peso W di ciascuna delle possibili coppie allineate nell allineamento multiplo (Weight Sum of Pairs) Dipende dai parametri scelti per calcolare match e INDELS Il peso W serve per pesare sequenze sovra o sotto rappresentate nell allineamento

40

41 Svantaggi dei metodi progressivi Non c è garanzia di trovare la soluzione ottimale Gli errori iniziali sono propagati nei passaggi successivi. Se si introduce un errore nell allineamento iniziale non si può più correggere ma anzi si fissa Gli errori nell allineamento dipendono dalla somiglianza delle sequenze ovvero bisogna stare attenti alle sequenze in input che siano realmente omologhe e di lunghezza paragonabile tra loro per evitare inserzioni di troppi gap Gli alberi filogenetici iniziali derivano da matrici di distanza tra coppie di sequenze allineate separatamente che sono meno affidabili di alberi derivati da allineamenti multipli completi Quando le sequenze sono molto divergenti (25-30% di identità) i metodi progressivi sono poco affidabili

42 Metodi iterativi I metodi iterativi tentano di correggere errori iniziali riallineando iterativamente sottogruppi di sequenze che poi vengono riuniti in un allineamento multiplo MULTALIN (Corpet, 1988) PRRP (Gotoh, 1996)

43 Metodi iterativi Negli algoritmi precedenti, una volta che un allineamento è fissato, non viene più modificato nei passi successivi. In particolare, la posizione dei gap non cambia (once a gap, always a gap). In un metodo iterativo, una volta generato un allineamento iniziale, una sequenza o un insieme di sequenze è rimosso dall allineamento e riallineato al profilo relativo alle rimanenti sequenze. Si può dimostrare che, iterando su tutte le sequenze, si converge ad un massimo locale. Metodo di Barton-Sternberg Trova le due sequenze con il massimo grado di somiglianza e allineale con un algoritmo standard per il pairwise alignment. Trova la sequenza più simile al profilo del precedente allineamento e allineala a tale profilo. Ripeti finchè non sono state incluse tutte le sequenze. Rimuovi la prima sequenza e riallineala al profilo delle rimanenti. Ripeti per ogni sequenza. Ripeti il passo precedente finchè il punteggio non converge oppure fino a quando si raggiunge un numero massimo di iterazioni.

44 Punti fondamentali su allineamenti progressivi e iterativi 1) progressivi: Idea: costruire l allineamento multiplo aggiungendo una sequenza alla volta. Metodo euristico: non garantisce l ottimalità. Occorre stabilire: in quale ordine aggiungere le sequenze; come costruire la progressione; come allineare una sequenza ad un allineamento. La progressione può essere lineare aggiungi la sequenza all unico allineamento; oppure ad albero costruisci più sottoallineamenti e allineali in qualche modo tra loro Alberi guida le cui foglie sono sequenze e i cui nodi interni rappresentano gruppi (cluster ) di sequenze. Usati per determinare l ordine in cui effettuare l allineamento progressivo k(k-1)/2 confronti. definisci una distanza fra cluster. Ripeti i due passi seguenti fino ad ottenere un unico cluster: scegli i due cluster con distanza minima e fondili in un unico cluster; aggiorna le distanze calcolando la distanza tra il nuovo cluster e i rimanenti. Il procedimento genera un albero con radice. problema fondamentale è la propagazione dell errore che si può risolvere con i metodi iterativi 2) iterativi A B C D E riallineano iterativamente sottogruppi di sequenze che poi vengono riuniti in un allineamento multiplo

45 T-COFFEE (Notredame, JMB 2000) T-Coffee (Tree-based Consistency Objective Function for alignment Evaluation) T-Coffee has two main features: It provides a simple and flexible means of generating multiple alignments, using heterogeneous data sources. 1. The data from these sources are provided to T-Coffee via a library of pair-wise alignments. T-Coffee computes multiple alignments using a library that was generated using a mixture of: local pair-wise alignments (lalign) global pair-wise alignments (clustalw) 2. The second main feature of T-Coffee is the optimization method, which is used to find the multiple alignment that best fits the pair-wise alignments in the input library. We use a so-called progressive strategy (Feng & Doolittle, 1987; Taylor, 1988; Thompson et al., 1994), which is similar to that used in ClustalW. This has the advantage of being fast and relatively robust. Use of a heuristic algorithm that called library extension. The overall idea is to combine information in such a manner that the final weight, for any pair of residues, reflects some of the information contained in the whole library. To do so, a triplet approach is used.

46

47 Le sequenze consenso Si definisce sequenza consenso una sequenza derivata da un multiallineamento che presenta solo i residui più conservati per ogni posizione riassume un multiallineamento. non è identica a nessuna delle proteine del dataset. si possono definire dei simboli che la definiscano e che indichino anche conservazioni non perfette in una posizione. è possibile utilizzare una formattazione precisa che permetta di capire anche le variazioni in una posizione, non solo le conservazioni.

48 Alcuni modi di indicare le sequenze consenso WebLogo è una risorsa in rete per generare sequenze consenso Consenso esatto Consenso a simboli GRVQGV--R------A--LG -GWV GRVQGh-aRvvvvvvAvvLGivGWV GRVQG[VI]-[FY]R------A L----GWY GRVQGV--R-6A LG--GWV Consenso con variazioni Consenso con ripetizioni