Ricerca di omologia di sequenza RICERCA DI OMOLOGIA DI SEQUENZA := Data una sequenza (query), una banca dati, un sistema per il confronto e una soglia statistica trovare le sequenze della banca più somiglianti alla data sequenza, ordinate per significatività
Ricerca di omologia: schema >AAAA acgctaggctagctggatcggggatcggat aggctcggatcgggatttgagtctagggatg >BBBB gctagctggatcggggatcggat ggatcgggatttgagtctagggatg >query ccgctaggctagccatcggggatcggat acgctaggctagctggatcggggaaaa >CCCC cgctaggatagctggatcggggatcggat ggctcggatcgggatttgagtctagggatg acgctaggctagctggatcggggatcggat acgctaggctagctggatcggggatcggat acgctaggctagctggatcggggatcggat >DDDD acgctaaaaggctagcatcggggatcggat Filtro statistico 1 2 >FFFFF cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg >DDDD acgctaaaaggctagcatcggggatcggat >EEEEE cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg >FFFFF cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg n >AAAA acgctaggctagctggatcggggatcggat aggctcggatcgggatttgagtctagggatg >ZZZZZ acgctaggctagctggatcggggatcggat aggctcggatcgggatttgagtctagggatg
Calcolo della significatività P = 1 e -E P E se E<<1 E Kmne S E=significatività: numero di segmenti attesi raggiungere lo score S per effetto del caso K e sono parametri stimati con fitting. Dipendono dal tipo di matrice usata, dalle penalità assegnate ai gap e dalla composizione delle sequenze m = lunghezza della query n = dimensione della bancadati
Metodi per la ricerca Un algoritmo di programmazione dinamica ha un tempo di esecuzione proporzionale a N x D (lunghezza della sequenza per dimensione della banca dati). Quest'algoritmo può richiedere molto tempo se le dimensioni della bancadati sono grandi Allineamento ottimale SSEARCH (Smith-Waterman) Allineamento euristico (ricerca con indici) FASTA BLAST Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale.
SSEARCH Utilizza un algoritmo completo di programmazione dinamica. Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca data. Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza Poco usato perché richiede tempi lunghi di calcolo
FASTA, BLAST: Confronto tra indici Query A C T A C G Parola Indice AA = AC = 1,4 AG = AT = CA = CC = CG = 5 CT = 2 GA = GC = GG = GT = TA = 3 TC = TG = TT = confronto tra indici Database G A C T A T T Parola Indice AA = AC = 2 AG = AT = 5 CA = CC = CG = CT = 3 GA = 1 GC = GG = GT = TA = 4 TC = TG = TT = 6 Differenze dello stesso valore indicano segmenti comuni Segmento comune A C T A differenze AA = AC = -1,+2 AG = AT = CA = CC = CG = CT = -1 GA = GC = GG = GT = TA = -1 TC = TG = TT =
FASTA Pearson & Lipmann, PNAS 1988 K tuple = lungezza delle parole nell'indice k tuple k tuple sensibilità velocità sensibilità velocità Valori standard: k tuple=2 (proteine) k tuple=6 (nucleotidi)
BLAST Basic Local Alignment Search Tool Altschul et al JMB 1990 Words (parole indice) T (punteggio minimo per parola) W T sensibilità velocità >query AGPDPATA AGP GPD PDP DPA PAT ATA words + PEP, EPA, DPG, Neighbourhood words W T sensibilità velocità La lunghezza delle words è definita dal parametro W. Il punteggio che devono raggiungere per essere considerate è definito dal parametro T. Valori standard W = 11 (DNA) W = 3 (protein)
Uso di BLAST: scelta del programma
Uso di BLAST: avvio ricerca
Uso di BLAST: modifica parametri ricerca
Uso di BLAST: Recupero risultati
Uso di BLAST: Lettura risultati
Uso di BLAST: Lettura risultati
Uso di BLAST: Lettura allineamenti
BLAST Output 2 Alignments >gi 6320379 ref NP_010459.1 High mobility group (HMG)-like protein; Hmo1p [Saccharomyces Length = 246 Score = 332 bits (850), Expect = 3e-90 Identities = 191/220 (86%), Positives = 191/220 (86%) Query: 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct: 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60 Query: 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYV Sbjct: 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120 Query: 121 RQELREDRQKAGLPPLSSTEITQEISKKWKELSDNEKEKWKQAYNVELENYQREKSKYLE 180 RQELREDRQKAGLPPLSSTEITQEISKKWKELSDNEKEKWKQAYNVELENYQREKSKYLE Sbjct: 121 RQELREDRQKAGLPPLSSTEITQEISKKWKELSDNEKEKWKQAYNVELENYQREKSKYLE 180 Query: 181 AKKNGTLPPASLENGPTHAPVPIPFSLQHAAEPPVEKRPH 220 AKKNGTLPPASLENGPTHAPVPIPFSLQHAAEPPVEKRPH Sbjct: 181 AKKNGTLPPASLENGPTHAPVPIPFSLQHAAEPPVEKRPH 220 Lambda K H 0.308 0.127 0.355 Gapped Lambda K H 0.267 0.0410 0.140 Matrix: BLOSUM62 Gap Penalties: Existence: 11, Extension: 1 Statistiche basate su valori precalcolati per determinate matrici e penalità gap
Regioni a bassa complessità LRVSGGGGAGGGGGGAGGGGGGGGGGGKDFCV Le regioni a bassa complessità hanno probabilità di match casuali più alte Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto. La sequenza verrà quindi trasformata in: LRVSXXXXXXXXXXXXXXXXXXXXXXXKDFCV E riportata in blast come: LRVSggggaggggggagggggggggggKDFCV Il filtro può essere attivo a default in BLAST. In alcuni casi, quando si vuole avere match completi o ricercare altre sequenze con simili ripetizioni, è opportuno disattivare il filtro
E(DNA) vs E(Proteine) Valori attesi con la sequenza di DNA [Score, E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila. La ricerca che utilizza la sequenza proteica fornisce risultati più significativi ed è in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Misure dell accuratezza della ricerca := SENSIBILITA Basso numero di falsi negativi, ovvero la capacità di trovare le sequenze effettivamente imparentate alla query sequence SELETTIVITA := Basso numero di falsi positivi, ovvero la capacità di escludere le sequenze non imparentate alla query sequence
Argomenti pratici nella ricerca in banca dati Sapere dove cercare! (usare la banca dati più completa. Notare che alcune sezioni dbest, HTGS, Patent sono tenute separate dalla banca dati principale). Preferire una ricerca con la traduzione in amino acidi se la query sequence è codificante In BLAST è possibile restringe la ricerca a specifici organismi In BLAST ricordarsi del limite delle sequenze in output In BLAST fare attenzione all opzione filtro Esaminare con attenzione l allineamento con le sequenze simili prima di fare deduzioni su omologia e funzione