BLAST: Basic Local Alignment Search Tool

Documenti analoghi
BLAST. W = word size T = threshold X = elongation S = HSP threshold

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random

Ricerca di omologia di sequenza

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento

Ricerche con BLAST (Laboratorio)

La ricerca di similarità: i metodi

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche)

FASTA. Lezione del

Algoritmi di Allineamento

Allineamenti a coppie

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche

Allineamenti Multipli di Sequenze

Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini)

La ricerca di similarità in banche dati

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

Allineamenti di sequenze: concetti e algoritmi

Perché considerare la struttura 3D di una proteina

Allineamento e similarità di sequenze

Allineamento locale: BLAST

ALLINEAMENTO DI SEQUENZE

Introduzione alla programmazione

Programmazione dinamica

Programmazione dinamica

Metodi di Distanza. G.Allegrucci riproduzione vietata

Omologia di sequenze: allineamento e ricerca

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0;

Laboratorio di Bioinformatica I. Parte 2. Dott. Sergio Marin Vargas (2014 / 2015)

Lezione 6. Analisi di sequenze biologiche e ricerche in database

Lezione 7. Allineamento di sequenze biologiche

Corso di Bioinformatica

Informatica e biotecnologie II parte

La struttura elettronica degli atomi

Tesina di Biologia Molecolare II

ESERCITAZIONE 3. OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST

Unità aritmetica e logica

R. Cusani, F. Cuomo: Telecomunicazioni - DataLinkLayer: Gestione degli errori, Aprile 2010

Laboratorio di Bioinformatica I. Parte 1. Dott. Sergio Marin Vargas (2014 / 2015)

La mappatura dei geni umani. SCOPO conoscere la localizzazione dei geni per identificarne la struttura e la funzione

2.2 Alberi di supporto di costo ottimo

Lezione 2: Allineamento di sequenze. BLAST e CLUSTALW

Derivazione numerica. Introduzione al calcolo numerico. Derivazione numerica (II) Derivazione numerica (III)

Note sull implementazione in virgola fissa di filtri numerici

Lezione 6. Lo string matching

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

x 1 x 2 x 3 x 5 La base iniziale è B 0 = I e risulta x B 0 = , x N 0 = Iterazione 0. Calcolo dei costi ridotti. γ 0 = c N 0 (N 0 ) T c B 0 =

Sviluppo di programmi

Corso di Elementi di Bionformatica

8. Sovrapposizione e confronto di strutture proteiche

Esplorazione grafica di dati multivariati. N. Del Buono

Riconoscimento e recupero dell informazione per bioinformatica

RELAZIONE di BIOLOGIA MOLECOLARE

Statistica Applicata all edilizia: il modello di regressione

Problemi, istanze, soluzioni

FUNZIONI BOOLEANE. Vero Falso

Programmazione Lineare: problema del trasporto Ing. Valerio Lacagnina

Esercitazione di Calcolo Numerico 1 22 Aprile Determinare la fattorizzazione LU della matrice a 1 1 A = 3a 2 a 2a a a 2 A =

Informatica e Bioinformatica: Basi di Dati

Formattare il testo con gli stili

ESERCITAZIONE MICROECONOMIA (CORSO B) ESEMPI DI ESERCIZI DI TEORIA DEI GIOCHI

Array e Oggetti. Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1. Dispensa 12. A. Miola Dicembre 2006

Biologia Molecolare Computazionale

2. Modellazione dei casi d uso

SISTEMI OPERATIVI, RETI, INTERNET

Anno 4 Matrice inversa

Vai al sito: Incolla nel box vuoto la sequenza nucleotidica

Lezione 7. Allineamento di sequenze biologiche

Relazione sequenza-struttura e funzione

A lezione sono stati presentati i seguenti passi per risolvere un problema:

Appunti di informatica. Lezione 3 anno accademico Mario Verdicchio

Metodi per la risoluzione di sistemi lineari

osservazione: 1 MCD(m,n) min(m,n) = si provano i numeri compresi tra 1 e min(m,n) conviene iniziare da min(m,n) e scendere verso 1

GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi

DISPENSA ACCESS (OFFICE 2010 BETA)

UNIVERSITÀ DEGLI STUDI DI PAVIA FACOLTÀ DI INGEGNERIA. Matlab: esempi ed esercizi

CURRICOLO DI ISTITUTO

Programmazione Matematica: VI Estensioni dell algoritmo del Simplesso

SISTEMI LINEARI. x y + 2t = 0 2x + y + z t = 0 x z t = 0 ; S 3 : ; S 5x 2y z = 1 4x 7y = 3

La codifica digitale

Uso di BLAST. Premessa

Esercizi Capitolo 7 - Hash

Analisi Numerica. Debora Botturi ALTAIR. Debora Botturi. Laboratorio di Sistemi e Segnali

Abilità Informatiche

Esercizi per il corso di. Logistica I. a.a Daniela Favaretto. Dipartimento di Matematica Applicata Università Ca Foscari di Venezia

Esplorazione grafica di dati multivariati. N. Del Buono

Fondamenti di Chimica Farmaceutica. La scoperta dei farmaci

la edit distance tra X e Y è la distanza relativa all allineamento (o agli allineamenti) che minimizza tale distanza.

Allineamenti multipli

Gestione della produzione e della supply chain Logistica distributiva

Cosa si intende con stato

Ordinamento per inserzione e per fusione

io e la mia calcolatrice

Corso di Calcolo Numerico

3. Confronto tra due sequenze

Riconoscimento e recupero dell informazione per bioinformatica

Informatica, Algoritmi, Linguaggi

Il Concetto Intuitivo di Calcolatore. Esercizio. I Problemi e la loro Soluzione. (esempio)

La chimica della vita

Insert > Object > Chart

Transcript:

BLAST: Basic Local Alignment Search Tool 1

Outline della lezione di oggi BLAST Uso pratico Algoritmo Strategie Trovare proteine lontanamente legate: PSI-BLAST 2

Problema con gli algoritmi dinamici Gli algoritmi visti (WS, NW) sono precisi ma lenti. Servono metodi euristici: trovano soluzioni approssimate ma vicine a quella ottimale in tempi brevi. Spesso la domanda è: data una sequenza query, quali sequenze simili sono note e già presenti nei database? Tra i metodi euristici più usati per la ricerca di singole sequenze in banche dati troviamo FASTA e BLAST 3

BLAST BLAST (Basic Local Alignment Search Tool) permette un confronto rapido tra una sequenza query e il contenuto di un database. L'algoritmo di BLAST è: veloce, accurato, web-accessibile. 4

Perché usare BLAST? BLAST è fondamentale per capire la relazione di una sequenza query con altre proteine o sequenze di DNA note. I suoi utilizzi comprendono: individuare ortologhi e paraloghi scoperta di nuovi geni o proteine scoperta di varianti di geni o proteine noti lo studio delle expressed sequence tags (EST) lo studio di struttura e funzione delle proteine 5

Le quattro fasi di una ricerca BLAST 1. Scegli la sequenza (query) 2. Selezionare il tipo di programma BLAST 3. Selezionare il database per la ricerca 4. Scegliere i parametri opzionali Quindi fare clic su "BLAST" 6

7

Passo 1: Scelta della sequenza La sequenza può essere inserita in formato FASTA o come accession number (RefSeq) 8

Esempio di formato FASTA per una query BLAST 9

Passo 2: Scegli il programma BLAST 10

Passo 2: Scegli il programma BLAST blastn (nucleotide BLAST) blastp (protein BLAST) blastx (BLAST tradotto n P) tblastn (BLAST tradotto p N ) tblastx (BLAST tradotto n P P N) 11

Passo 3: scegliere il database nr = non ridondante (database più generale, ritorna una sequenza e diversi riferimenti in database in cui la stessa è presente) refseq = solo sequenze con codice refseq dbest = database di EST database nucleotidici dbsts = database di sequenze localizzate gss = genome sequence surveys (BAC, Yac, ecc) Altri pdb, genomi completi, solo sequenze oggetto di brevetti (pat) ecc. ecc. database di proteine 12

Fase 4: parametri opzionali Si può... scegliere l'organismo di ricerca attivare filtri modificare la matrice di punteggio cambiare il valore minimo di affidabilità dei risultati modificare la dimensione della parola W 13

Fase 4a: Selezionare i parametri di ricerca opzionali organismo Entrez! algoritmo E possibile limitare la ricerca con sintassi Entrez, come per esempio Smith[auth] 14

Fase 4a: parametri opzionali di blastp Soglia attesa Valore massimo di incertezza richiesto ai risultati W Dimensione della parola usata dall algoritmo di BLAST Matrice di punteggio Filtri & Maschere Esclude parti della query perché non informative (i.e. ripetute) o non 15 significative

Fase 4a: parametri opzionali di blastn Soglia attesa Valore massimo di incertezza richiesto ai risultati W Dimensione della parola usata dall algoritmo di BLAST Punteggio Determina il punteggio per match o mismatch Filtri & Maschere Esclude parti della query perché non informative (i.e. ripetute) o non 16 significative

BLAST output: parte superiore query database tassonomia programma 17 pagina 112

BLAST output: output grafico 18

BLAST output: valori in dettaglio Punteggi più alti E-value più bassi 19

BLAST output: confrontiamo gli allineamenti: seconda hit 20

BLAST output: confrontiamo gli allineamenti: ultima hit (su 100) 21

Outline della lezione di oggi BLAST Uso pratico Algoritmo Strategie Trovare proteine lontanamente legate: PSI-BLAST 22

BLAST: le basi dell allineamento di sequenze L allineamento può essere: 1) Globale (Needleman & Wunsch). Usa la programmazione dinamica per trovare i migliori allineamenti tra due sequenze. (Anche se gli allineamenti sono ottimali, la ricerca non è esaustiva). I gap sono ammessi e l intera lunghezza delle sequenze è allineata (da cui "globale"). 2) Locale (Smith & Waterman, 1980). L allineamento può riguardare solo una parte di una delle sequenze, ed è adatto alla ricerca di caratteristiche locali comuni alle sequenze (domini, siti attivi, ecc). BLAST è una approssimazione euristica per l'allineamento locale. Esamina solo una parte dello spazio di ricerca. 23

Come funziona una ricerca BLAST "L'idea centrale dell algoritmo di BLAST è di limitare l'attenzione a coppie di segmenti in cui si allineano parole di lunghezza w con un punteggio di almeno T. " Altschul et al. (1990) 24

Come funziona l algoritmo originale di BLAST: tre fasi Fase 1 Fase 1: compilare una lista di coppie di parole (di lunghezza w = 3) con un punteggio oltre la soglia T Esempio: per una query di RBP umana... FSGTWYA... Un elenco di parole (w = 3) è il seguente: FSG SGT GTW TWY WYA Cui possono corrispondere: YSG TGT ATW SWY WFA FTG SVT GSW TWF WYS.............................. Consideriamo come esempio la parola GTW 25

Come funziona l algoritmo originale di BLAST: tre fasi GTW 6+5+11 -> 22 allineamenti GSW 6+1+11 -> 18 con punteggio ATW 0+5+11 -> 16 > della soglia NTW 0+5+11 -> 16 (T = 11) Fase 1 GTY 6+5+2 -> 13 GNW -> 10 allineamenti GAW -> 9 con punteggio < della soglia Dunque saranno esclusi dai passi successivi 26

Come funziona l algoritmo originale di BLAST: tre fasi Fase 2 Fase 2: Scansione del database per le voci che corrispondono alla lista compilata (con punteggio maggiore della soglia T). E un passo veloce e relativamente semplice: i database sono indicizzati per la ricerca di parole di lunghezza W 27

Algoritmi basati su tabelle di hash Sequenza da indicizzare: ATGCGTAATGCGATATGTA 12345 Con una parola di lunghezza 2: AA 0000 7 AC 0001 AG 0010 AT 0011 1,8,13,15 CA 0100 CC 0101 CG 0110 4,11 CT 0111 GA 1000 12 GC 1001 3,10 GG 1010 GT 1011 5,17 TA 1100 6,14,18 TC 1101 TG 1110 2,9,16 TT 1111 L approccio basato su tabelle di hash memorizza la posizione di tutte le parole (kmer) di una data lunghezza (2 nel nostro esempio) nella sequenza da indicizzare (reference o read). La tabella di hash consente di tenere traccia della posizione di ciascuna parola nella sequenza La tabella di hash viene poi utilizzare per eseguire la scansione delle sequenza da cercare per trovare le corrispondenze (i seed) tra le 2 sequenze.

Come funziona l algoritmo originale di BLAST: tre fasi Fase 3 Fase 3: quando si riesce a trovare una corrispondenza (abbinamento tra una parola con punteggio > T al database), estendere l allineamento in entrambe le direzioni. Tenere traccia del punteggio (utilizzando la matrice di punteggio) Stop quando il punteggio è inferiore a una certa soglia. KENFDKARFSGTWYAMAKKDPEG 50 RBP (query) MKGLDIQKVAGTWYSLAMAASD. 44 lattoglobulina (HIT) estendere Hit! estendere 29

Seed-and-Extend ATGCGTAATGCGATATGTA Seed ATGCGTAATGCGATATGTA Extend Dopo aver identificato la corrispondenza con il seed l allineamento viene esteso e raffinato al resto della sequenza. Anche l algoritmo BLAST utilizza questo approccio: dopo aver identificato una corrispondenza del seed con la sequenza subject l allineamento viene raffinato utilizzando l algoritmo Smith-Waterman

Come funziona l algoritmo originale di BLAST: tre fasi Fase 3 Fase 3: nella versione originale di BLAST (1990) ciascun hit è esteso in entrambe le direzioni. Nella versione migliorata, dal 1997, sono necessari due hit vicini (entro una distanza A). In questo modo le estensioni avvengono meno frequentemente ma si ottiene un notevole risparmio di tempo 31

Come funziona l algoritmo originale di BLAST: tre fasi I parametri È possibile personalizzare i parametri di BLAST, sia per le soglie menzionate che per le dimensioni delle parole w (default 3 per le proteine e 11 per le sequenze nucleotidiche). Ecco che effetto ha la scelta di diversi valori della soglia T Parole più grandi producono meno hits, velocizzando la ricerca, a scapito della sensibilità 32

Come interpretare una ricerca BLAST: il valore atteso E 'importante valutare la significatività statistica dei risultati della ricerca. I punteggi seguono una distribuzione del valore estremo (EVD), piuttosto che un distribuzione normale. 33

probabilità 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 Distribuzione normale 0-5 -4-3 -2-1 0 1 2 3 4 5 x 34

probabilità La densità di probabilità del valore estremo (u valore caratteristico = 0 e costante di decadimento l= 1) E spostata a destra rispetto alla distribuzione normale 0.40 0.35 0.30 0.25 Distribuzione normale Distribuzione del valore Estremo o di Gumbel 0.20 0.15 0.10 0.05 0-5 -4-3 -2-1 0 1 2 3 4 5 x 35

Come interpretare una ricerca BLAST: il valore atteso Il valore atteso E: è il numero di allineamenti (high scoring segment pairs o HSP) con punteggio maggiore o uguale a un punteggio S che dovrebbero verificarsi per caso in quella ricerca sul database. Si può pensarlo come un indice di incertezza. Un valore E è correlato a un valore di probabilità p. L'equazione fondamentale che descrive un valore E è: Con: M N S l,k E = KMN e -ls lunghezza della query lunghezza della sequenza nel database score parametri che dipendono dallo scoring system (l) dal database usato (K) 36

Alcune proprietà delle equazioni E = KMN e -ls Il valore di E decresce esponenzialmente con l'aumentare S. Valori più elevati di S corrispondono a migliori allineamenti e infatti hanno E values più bassi. Ottenere un allineamento con E = 1 significa che esiste un altro allineamento con lo stesso score S che è risultato per caso. La stessa ricerca, su un database più piccolo o più grande, anche se restituisce lo stesso allineamento deve avere un valore di E diverso (ciò dipende da K) 37

Punteggio, dallo score grezzo (S) in bit Ci sono due tipi di punteggi: punteggi grezzi (calcolato da una particolare matrice di sostituzione) punteggi bit (punteggio normalizzato) I punteggi in bit sono paragonabili tra diverse ricerche (es. diverse matrici di sostituzione o diverse banche dati) perché sono normalizzati, adatti quindi al paragone anche se originati tramite diverse matrici di punteggio e database di dimensione diversa S = bit score = (ls - lnk) / ln2 38

Come interpretare BLAST: E-value e p-value Il valore atteso E è il numero di allineamenti con punteggio maggiore o uguale a un punteggio S che dovrebbero verificarsi per caso in un database di ricerca. Il p-value è un modo diverso (ma equivalente) di rappresentare la significatività di un risultato p = 1 - e -E Per valori molto piccoli E e p sono molto simili. Tuttavia tra 1 e 10 il valore di E è più chiaro (poichè riflette un numero di hits) E p 10 0.99995460 5 0.99326205 2 0.86466472 1 0.63212056 E p 0.1 0.09516258 (circa 0.1) 0.05 0.04877058 (circa 0.05) 0.001 0.00099950 (circa 0.001) 0.0001 0.0001000 39

Come interpretare BLAST: panoramica 40

Dimensione del database Soglia T di punteggio W Dimensione della parola usata dall algoritmo di BLAST Soglia attesa Valore massimo di incertezza richiesto ai risultati Costo gap apertura ed estensione Matrice di punteggio 41

Parametri per il calcolo di E Query (147 AA) 42

In quali casi ha senso una soglia E elevata? Si supponga di eseguire una ricerca con una query corta (ad esempio 9 aminoacidi). Non ci sono residui sufficienti per accumulare un punteggio elevato (o un valore di E piccolo). Infatti, una corrispondenza di tutti e 9 i residui potrebbe produrre un punteggio di piccole dimensioni con un valore di E =100 o 200. E tuttavia, questo risultato potrebbe essere "reale" e di vostro interesse. In casi particolari, impostando il valore di cut-off per E a 20.000 non si cambia il modo in cui è stata fatta la ricerca, ma si cambiano i risultati che vengono riportati 43

Outline della lezione di oggi BLAST Uso pratico Algoritmo Strategie Trovare proteine lontanamente legate: PSI-BLAST Hidden Markov Models 44

Strategie per la ricerca con BLAST Concetti generali Come valutare la significatività dei risultati Come gestire troppi risultati Come gestire troppo pochi risultati Blast e la valutazione dell omologia 45

A volte un vero match ha un valore di E> 1 reale match?... Provare un BLAST reciproco per confermare 46

A volte un valore E simile si verifica sia per un match esatto corto che per uno lungo corto, quasi identico lungo, ma solo 31% identità, valore di E simile 47 I risultati delle ricerche, ordinati per E, si valutano poi nel dettaglio!

Valutare se le proteine sono omologhe: Es. lipocaline: hanno bassa s.i. ma struttura 3D simile RBP4 (query) e Salivary Lipocalin from boar: Basso punteggio bit, valore E 0,40, il 21% di identità ( twilight zone"). Ma sono davvero omologhe. Prova un altra ricerca BLAST con la seconda come query, per trovare molte altre lipocaline. 48

Link diretto per la visualizzazione della struttura 3D 49

L'universo di lipocaline (proteine che trasportano piccoli ligandi idrofobici) ogni punto è una proteina retinol-binding protein apolipoprotein D odorant-binding protein 50

la ricerca con BLAST con salivary lipocalin [Sus scrofa] come query trova molte altre lipocaline (continua ) 51

la ricerca con BLAST con salivary lipocalin [Sus scrofa] come query trova molte altri lipocaline 52

Utilizzando la beta globina umana come una query, ecco i risultati blastp contro le proteine umane RefSeq (PAM30). Dove si trova mioglobina? E 'assente! Abbiamo bisogno di usare PSI-BLAST 53

Outline della lezione di oggi BLAST Uso pratico Algoritmo Strategie Trovare proteine lontanamente legate: PSI-BLAST 54

Due esempi di problemi che BLAST standard non può risolvere 1) Usando la beta globina umana come query contro proteine umane con RefSeq, blastp non trova la mioglobina umana. Questo perché le due proteine sono troppo distanti. PSI-BLAST presso NCBI così come i modelli nascosti di Markov possono facilmente risolvere questo problema. 2) Come possiamo cercare con 10.000 paia o addirittura milioni di paia di basi come query? Molti Strumenti tipo-blast per il DNA genomico sono disponibili come PatternHunter, Megablast, Blat, e BLASTZ. 55

BLAST reiterato per posizione specifica: PSI-BLAST (position specific iterated) Lo scopo di PSI-BLAST è quello di cercare più in profondità nel database match alla sequenza della proteina query, utilizzando una matrice di punteggio che è adattata dinamicamente (in modo iterativo) per la ricerca in corso. 56

PSI-BLAST viene eseguito in cinque fasi 1) Selezionare una query di ricerca (diverse sequenze) contro un database proteico 57

PSI-BLAST viene eseguito in cinque fasi 1) Selezionare una query di ricerca (diverse sequenze) contro un database proteico e lanciare BLASTP 2) PSI-BLAST costruisce un allineamento di sequenze multiple a partire dagli hit migliori e crea quindi un "profilo" detto anche Matrice di calcolo posizione-specifica (PSSM, position-specific scoring matrix) Un PROFILO di lunghezza L è una matrice L X 20 (per proteine, o L X 4 per DNA) di elementi s i,j rappresentanti lo score per allineare la la lettera j alla posizione i. Un profilo può essere allineato ad una sequenza individuale esattamente allo stesso modo di una normale sequenza 58

Come costruire in pratica il profilo: esaminare l'output di blastp per identificare "regole empiriche di punteggio per gli aminoacidi tollerati in ogni posizione: non tutte le posizioni ammettono la stessa variabilità. Il punteggio ne terra conto R,I,K C D,E,T K,R,T N,L,Y,G 59

A R N D C Q E G H I L K M F P S T W Y V 1 M -1-2 -2-3 -2-1 -2-3 -2 1 2-2 6 0-3 -2-1 -2-1 1 2 K -1 1 0 1-4 2 4 In -2 riga: 0-3 -3 3-2 -4-1 0-1 -3-2 -3 3 W -3-3 -4-5 -3-2 -3-3 -3-3 -2-3 -2 1-4 -3-3 12 2-3 4 V 0-3 -3-4 -1-3 -3 20-4 -4 aminoacidi 3 1-3 1-1 -3-2 0-3 -1 4 5 W -3-3 -4-5 -3-2 -3-3 -3-3 -2-3 -2 1-4 -3-3 12 2-3 6 A 5-2 -2-2 -1-1 -1 0-2 -2-2 -1-1 -3-1 1 0-3 -2 0 7 L -2-2 -4-4 -1-2 -3-4 -3 2 4-3 2 0-3 -3-1 -2-1 1 8 L -1-3 -3-4 -1-3 -3-4 -3 2 2-3 1 3-3 -2-1 -2 0 3 9 L -1-3 -4-4 -1-2 -3-4 -3 2 4-3 2 0-3 -3-1 -2-1 2 10 L In -2 colonna: -2-4 -4-1 -2-3 -4-3 2 4-3 2 0-3 -3-1 -2-1 1 11 A tutti 5-2 gli -2 aa -2 dalla -1-1 -1 0-2 -2-2 -1-1 -3-1 1 0-3 -2 0 12 A 5-2 -2-2 -1-1 -1 0-2 -2-2 -1-1 -3-1 1 0-3 -2 0 13 W posizione -2-3 -4-41 -2 alla -2 fine -3-4 -3 1 4-3 2 1-3 -3-2 7 0 0 14 A (L) 3-2 della -1-2 proteina -1-1 -2 4-2 -2-2 -1-2 -3-1 1-1 -3-3 -1 15 A 2-1 0-1 -2 2 0 2-1 -3-3 0-2 -3-1 3 0-3 -2-2 16 A query 4-2 -1 per -2 PSI-BLAST -1-1 -1 3-2 -2-2 -1-1 -3-1 1 0-3 -2-1... 37 S 2-1 0-1 -1 0 0 0-1 -2-3 0-2 -3-1 4 1-3 -2-2 38 G 0-3 -1-2 -3-2 -2 6-2 -4-4 -2-3 -4-2 0-2 -3-3 -4 39 T 0-1 0-1 -1-1 -1-2 -2-1 -1-1 -1-2 -1 1 5-3 -2 0 40 W -3-3 -4-5 -3-2 -3-3 -3-3 -2-3 -2 1-4 -3-3 12 2-3 41 Y -2-2 -2-3 -3-2 -2-3 2-2 -1-2 -1 3-3 -2-2 2 7-1 42 A 4-2 -2-2 -1-1 -1 0-2 -2-2 -1-1 -3-1 1 0-3 -2 0 60

A R N D C Q E G H I L K M F P S T W Y V 1 M -1-2 -2-3 -2-1 -2-3 -2 1 2-2 6 0-3 -2-1 -2-1 1 2 K -1 1 0 1-4 2 4-2 0-3 -3 3-2 -4-1 0-1 -3-2 -3 3 W -3-3 -4-5 -3-2 -3-3 -3-3 -2-3 -2 1-4 -3-3 12 2-3 4 V 0-3 -3-4 -1-3 -3-4 -4 3 1-3 1-1 -3-2 0-3 -1 4 5 W -3-3 -4-5 -3-2 -3-3 -3-3 -2-3 -2 1-4 -3-3 12 2-3 6 A 5-2 -2-2 -1-1 -1 0-2 -2-2 -1-1 -3-1 1 0-3 -2 0 7 L -2-2 -4-4 -1-2 -3-4 -3 2 4-3 2 0-3 -3-1 -2-1 1 8 L -1-3 -3-4 -1-3 -3-4 -3 2 2-3 1 3-3 -2-1 -2 0 3 9 L -1-3 -4-4 -1-2 -3-4 -3 2 4-3 2 0-3 -3-1 -2-1 2 10 L -2-2 -4-4 -1-2 -3-4 -3 2 4-3 2 0-3 -3-1 -2-1 1 11 A 5-2 -2-2 -1-1 -1 0-2 -2-2 -1-1 -3-1 1 0-3 -2 0 12 A 5-2 -2-2 -1-1 -1 0-2 -2-2 -1-1 -3-1 1 0-3 -2 0 13 W -2-3 -4-4 -2-2 -3-4 -3 1 4-3 2 1-3 -3-2 7 0 0 14 A 3-2 -1-2 -1-1 -2 4-2 -2-2 -1-2 -3-1 1-1 -3-3 -1 15 A 2-1 0-1 -2 2 0 2-1 -3-3 0-2 -3-1 3 0-3 -2-2 16 A 4-2 -1-2 -1-1 -1 3-2 -2-2 -1-1 -3-1 1 0-3 -2-1... 37 S 2-1 0-1 -1 0 0 0-1 -2-3 0-2 -3-1 4 1-3 -2-2 38 G 0-3 -1-2 -3-2 -2 6-2 -4-4 -2-3 -4-2 0-2 -3-3 -4 39 T 0-1 0-1 -1-1 -1-2 -2-1 -1-1 -1-2 -1 1 5-3 -2 0 40 W -3-3 -4-5 -3-2 -3-3 -3-3 -2-3 -2 1-4 -3-3 12 2-3 41 Y -2-2 -2-3 -3-2 -2-3 2-2 -1-2 -1 3-3 -2-2 2 7-1 42 A 4-2 -2-2 -1-1 -1 0-2 -2-2 -1-1 -3-1 1 0-3 -2 0 61

A R N D C Q E G H I L K M F P S T W Y V 1 M -1-2 -2-3 -2-1 -2-3 -2 1 2-2 6 0-3 -2-1 -2-1 1 2 K -1 1 0 1-4 2 4-2 0-3 -3 3-2 -4-1 0-1 -3-2 -3 3 W -3-3 -4-5 -3-2 -3-3 -3-3 -2-3 -2 1-4 -3-3 12 2-3 4 V 0-3 -3-4 -1-3 -3-4 -4 3 1-3 1-1 -3-2 0-3 -1 4 5 W -3-3 -4-5 -3-2 -3-3 -3-3 -2-3 -2 1-4 -3-3 12 2-3 6 A 5-2 -2-2 -1-1 -1 0-2 -2-2 -1-1 -3-1 1 0-3 -2 0 7 L -2-2 -4-4 -1 nota -2-3 che -4 dato -3 2 un 4-3 2 0-3 -3-1 -2-1 1 8 L -1-3 -3-4 -1-3 -3-4 2 2-3 1 3-3 -2-1 -2 0 3 9 L -1-3 -4-4 -1 aminoacido -2-3 -4-3(come 2 4-3 2 0-3 -3-1 -2-1 2 10 L -2-2 -4-4 -1 l alanina) -2-3 -4 nella -3 2 4-3 2 0-3 -3-1 -2-1 1 11 A 5-2 -2-2 -1-1 -1 0-2 -2-2 -1-1 -3-1 1 0-3 -2 0 12 A 5-2 -2-2 -1 sequenza -1-1 0-2 query, -2-2 si -1-1 -3-1 1 0-3 -2 0 13 W -2-3 -4-4 -2 possono -2-3 -4 ottenere -3 1 4-3 2 1-3 -3-2 7 0 0 14 A 3-2 -1-2 -1-1 -2 4-2 -2-2 -1-2 -3-1 1-1 -3-3 -1 15 A 2-1 0-1 -2 diversi 2 0 punteggi 2-1 -3-3 per 0 il -2-3 -1 3 0-3 -2-2 16 A 4-2 -1-2 -1 match, -1-1 in 3 relazione -2-2 -2-1 -1-3 -1 1 0-3 -2-1... 37 S 2-1 0-1 -1 alla 0 posizione 0 0-1 -2 nella -3 0-2 -3-1 4 1-3 -2-2 38 G 0-3 -1-2 -3 sequenza -2-2 6-2 query -4-4 e -2 alla -3-4 -2 0-2 -3-3 -4 39 T 0-1 0-1 -1-1 -1-2 -2-1 -1-1 -1-2 -1 1 5-3 -2 0 40 W -3-3 -4-5 -3 frequenza -2-3 -3-3 in cui -3-2 la -3-2 1-4 -3-3 12 2-3 41 Y -2-2 -2-3 -3 ritrovo -2-2 nell allineam. -3 2-2 -1-2 -1 3-3 -2-2 2 7-1 42 A 4-2 -2-2 -1-1 -1 0-2 -2-2 -1-1 -3-1 1 0-3 -2 0 multiplo 62

A R N D C Q E G H I L K M F P S T W Y V 1 M -1-2 -2-3 -2-1 -2-3 -2 1 2-2 6 0-3 -2-1 -2-1 1 2 K -1 1 0 1-4 2 4-2 0-3 -3 3-2 -4-1 0-1 -3-2 -3 3 W -3-3 -4-5 -3-2 -3-3 -3-3 -2-3 -2 1-4 -3-3 12 2-3 4 V 0-3 -3-4 -1-3 -3-4 -4 3 1-3 1-1 -3-2 0-3 -1 4 5 W -3-3 -4-5 -3-2 -3-3 -3-3 -2-3 -2 1-4 -3-3 12 2-3 6 A 5-2 -2-2 -1-1 -1 0-2 -2-2 -1-1 -3-1 1 0-3 -2 0 7 L -2-2 -4-4 -1-2 -3-4 -3 2 4-3 2 0-3 -3-1 -2-1 1 8 L -1-3 -3-4 -1-3 -3-4 -3 2 2-3 1 3-3 -2-1 -2 0 3 9 L -1-3 -4-4 -1 Lo -2 stesso -3-4 -3 vale 2 4 anche -3 2 0-3 -3-1 -2-1 2 10 L -2-2 -4-4 -1-2 -3-4 -3 2 4-3 2 0-3 -3-1 -2-1 1 11 A 5-2 -2-2 -1 per -1-1 il triptofano: 0-2 -2-2 -1-1 -3-1 1 0-3 -2 0 12 A 5-2 -2-2 -1 posizioni -1-1 0-2 diverse -2-2 -1-1 -3-1 1 0-3 -2 0 13 W -2-3 -4-4 -2-2 -3-4 -3 1 4-3 2 1-3 -3-2 7 0 0 14 A 3-2 -1-2 -1 hanno, -1-2 4 per -2-2 lo stesso -2-1 -2-3 -1 1-1 -3-3 -1 15 A 2-1 0-1 -2 match, 2 0 2 punteggi -1-3 -3 0-2 -3-1 3 0-3 -2-2 16 A 4-2 -1-2 -1-1 -1 3-2 -2-2 -1-1 -3-1 1 0-3 -2-1... diversi 37 S 2-1 0-1 -1 0 0 0-1 -2-3 0-2 -3-1 4 1-3 -2-2 38 G 0-3 -1-2 -3-2 -2 6-2 -4-4 -2-3 -4-2 0-2 -3-3 -4 39 T 0-1 0-1 -1-1 -1-2 -2-1 -1-1 -1-2 -1 1 5-3 -2 0 40 W -3-3 -4-5 -3-2 -3-3 -3-3 -2-3 -2 1-4 -3-3 12 2-3 41 Y -2-2 -2-3 -3-2 -2-3 2-2 -1-2 -1 3-3 -2-2 2 7-1 42 A 4-2 -2-2 -1-1 -1 0-2 -2-2 -1-1 -3-1 1 0-3 -2 0 63

In pratica: il profilo posizione-specifico (PSSM) cattura il pattern di conservazione nell allineamento multiplo ottenuto dai migliori hits di BLASTP e lo immagazzina sottoforma di matrice di punteggi Posizioni altamente conservate ottengono punteggi alti; posizioni poco conservate ottengono punteggi bassi. Il profilo e quindi una specie di nuova query in cui ogni posizione ha un peso differenziato: questa informazione puo essere utilizzata per estendere la ricerca 64

PSI-BLAST viene eseguito in cinque fasi 1) Selezionare una query di ricerca (diverse sequenze) contro un database proteico e lanciare BLASTP 2) PSI-BLAST costruisce un allineamento di sequenze multiple a partire dagli hit migliori e crea quindi un "profilo" detto anche Matrice di calcolo posizione-specifica (PSSM) 3) Il PSSM (e non più la sequenza iniziale) è usato come query sul database: mi aspetto ora di trovare più sequenze sui cui ricalcolare l allineamento multiplo 4) PSI-BLAST stima la significatività statistica (valori di E) 65

Esempio: 2 iterazioni di PSI-BLAST (come prima, globina beta, PAM30, RefSeq): la mioglobina compare già alla seconda iterazione! Possiamo continuare con le iterazioni 66

PSI-BLAST viene eseguito in cinque fasi 1) Selezionare una query di ricerca (diverse sequenze) contro un database proteico 2) PSI-BLAST costruisce un allineamento di sequenze multiple e crea quindi un "profilo" detto anche Matrice di calcolo (PSSM) posizione-specifica 3) Il PSSM è usato come query sul database 4) PSI-BLAST stima la significatività statistica (valori di E) 5) Ripetere i passaggi 3 e 4 in modo iterativo, tipicamente 5 volte. Ad ogni nuova ricerca, un nuovo profilo viene utilizzato nella query. 67

Esempio: dopo 4 iterazioni non vengono più aggiunte sequenze per i nuovi profili 68

Schematicamente, questi gli step per i primi due cicli: CICLO 1 : singola query, 1 run di BLAST 69

CICLO 1 : singola query, 1 run di BLAST CICLO 2 : PSSM come query, più sequenze trovate 70

Risultati di una ricerca PSI-BLAST Iterazioni # hits # hits > soglia 1 104 49 2 173 96 3 236 178 4 301 240 5 344 283 6 342 298 7 378 310 8 382 320 71

NOTA: (come prima, globina beta, PAM30, RefSeq, Homo sapiens). Gli E-values cambiano a seconda delle interazioni, e possono migliorare drasticamente Seguiamo iterativamente l allineamento con la subunità mu 72

Iterazione # 1: allineamento con la subunità mu 73

Iterazione # 2: allineamento con la subunità mu 74

Iterazione # 3: allineamento con la subunità mu E non migliora più (e nemmeno il bit-score) 75

Iterazione # 4: allineamento con la subunità mu E non migliora più (e nemmeno il bit-score) 76

Iterazione # 5: allineamento con la subunità mu E non migliora più (e nemmeno il bit-score) 77

L'universo delle lipocaline (ogni punto è una proteina) retinol-binding protein apolipoprotein D odorant-binding protein 78

Le matrici di punteggio consentono di fare attenzione a caratteristiche generali o a dettagli retinol-binding protein RBP nella query 79

Le matrici di punteggio consentono di fare attenzione a caratteristiche generali o a dettagli PAM250 PAM30 RBP proteina proteina RBP Blosum80 Blosum45 80

PSI-BLAST genera matrici di punteggio più potenti delle PAM o BLOSUM proteina RBP proteina RBP 81

PSI-BLAST: il problema della corruzione PSI-BLAST è utile per rilevare relazioni tra le proteine deboli ma biologicamente significative. La principale fonte di falsi positivi è la falsa amplificazione di sequenze non correlate alla query. ESEMPIO: una query con un motif coiled-coil può rilevare migliaia di altre proteine con questo motivo che non sono omologhe. Una volta che anche una singola proteina spuria è inclusa in una ricerca PSI-BLAST oltre la soglia, non ne uscirà e influenzerà la iterazioni successive. 82

PSI-BLAST: il problema della corruzione La corruzione è definita come la presenza di almeno un falso allineamento positivo con un valore E <10-4 dopo cinque iterazioni. Tre approcci per arrestare la corruzioni: 1) applicare filtri alle regioni con composizione poco specifica 2) aggiustare il valore di E da 0.001 (default) ad uno più basso, come E = 0.0001. 3) controllare visivamente l'output di ogni iterazione. Rimuovere gli hit sospetti deselezionando la casella. 83