Ricerca di omologia di sequenza

Похожие документы
BLAST. W = word size T = threshold X = elongation S = HSP threshold

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento

Metodi euristici di allineamento

Programmazione dinamica

Lezione 6. Analisi di sequenze biologiche e ricerche in database

Lezione 7. Allineamento di sequenze biologiche

Ricerche con BLAST (Laboratorio)

Algoritmi di Allineamento

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing

Bioinformatica ed applicazioni di bioinformatica strutturale!

Omologia di sequenze: allineamento e ricerca

Allineamenti a coppie

Lezione 7. Allineamento di sequenze biologiche

BLAST: Basic Local Alignment Search Tool

Le sequenze consenso

ALLINEAMENTO DI SEQUENZE

Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli. Esercizi ricerche in banche dati

Allineamenti di sequenze: concetti e algoritmi

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY.

Lezione 2: Allineamento di sequenze. BLAST e CLUSTALW

Bioinformatica. Analisi del genoma

Allineamenti Multipli di Sequenze

Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini)

Allineamento e similarità di sequenze

Metodi di Distanza. G.Allegrucci riproduzione vietata

6) Una cellula con 10 coppie di cromosomi entra in mitosi. Quanti cromosomi avrà ognuna delle due cellule figlie? a) 5 b) 20 coppie e) 20 d) 10

ESERCITAZIONE 3. OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST

Riconoscimento e recupero dell informazione per bioinformatica

2.2 Alberi di supporto di costo ottimo

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

Informatica e biotecnologie II parte

Confronto di sequenze: allineamento

Riconoscimento e recupero dell informazione per bioinformatica

Laboratorio di Bioinformatica I. Parte 1. Dott. Sergio Marin Vargas (2014 / 2015)

Punti. calcolare la distanza d tra le seguenti coppie di punti. calcolare il perimetro dei poligoni di vertici assegnati 1 ± 2 2. Geometria Analitica

LA SINTESI PROTEICA LE MOLECOLE CHE INTERVENGONO IN TALE PROCESSO SONO:

GESTIONE DELLA MEMORIA CENTRALE

Riconoscimento e recupero dell informazione per bioinformatica

Informatica e Bioinformatica A. A

Allineamento multiplo

I marcatori molecolari. Dipartimento di Scienze Agronomiche e Genetica Vegetale Agraria Corso di Genetica Agraria Giovanna Attene

Allineamento multiplo

Allineamenti multipli

Sperimenta il BioLab Attività di Bioinformatica Caccia al gene

Risultati simulazione test di accesso per l ammissione al corso di Laurea in Economia

Laboratorio di Architettura lezione 5. Massimo Marchiori W3C/MIT/UNIVE

Vai al sito: Incolla nel box vuoto la sequenza nucleotidica

Транскрипт:

Ricerca di omologia di sequenza RICERCA DI OMOLOGIA DI SEQUENZA := Data una sequenza (query), una banca dati, un sistema per il confronto e una soglia statistica trovare le sequenze della banca più somiglianti alla data sequenza, ordinate per significatività

Ricerca di omologia: schema >AAAA acgctaggctagctggatcggggatcggat aggctcggatcgggatttgagtctagggatg >BBBB gctagctggatcggggatcggat ggatcgggatttgagtctagggatg >query ccgctaggctagccatcggggatcggat acgctaggctagctggatcggggaaaa >CCCC cgctaggatagctggatcggggatcggat ggctcggatcgggatttgagtctagggatg acgctaggctagctggatcggggatcggat acgctaggctagctggatcggggatcggat acgctaggctagctggatcggggatcggat >DDDD acgctaaaaggctagcatcggggatcggat Filtro statistico 1 2 >FFFFF cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg >DDDD acgctaaaaggctagcatcggggatcggat >EEEEE cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg >FFFFF cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg n >AAAA acgctaggctagctggatcggggatcggat aggctcggatcgggatttgagtctagggatg >ZZZZZ acgctaggctagctggatcggggatcggat aggctcggatcgggatttgagtctagggatg

Calcolo della significatività P = 1 e -E P E se E<<1 E Kmne S E=significatività: numero di segmenti attesi raggiungere lo score S per effetto del caso K e sono parametri stimati con fitting. Dipendono dal tipo di matrice usata, dalle penalità assegnate ai gap e dalla composizione delle sequenze m = lunghezza della query n = dimensione della bancadati

Metodi per la ricerca Un algoritmo di programmazione dinamica ha un tempo di esecuzione proporzionale a N x D (lunghezza della sequenza per dimensione della banca dati). Quest'algoritmo può richiedere molto tempo se le dimensioni della bancadati sono grandi Allineamento ottimale SSEARCH (Smith-Waterman) Allineamento euristico (ricerca con indici) FASTA BLAST Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale.

SSEARCH Utilizza un algoritmo completo di programmazione dinamica. Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca data. Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza Poco usato perché richiede tempi lunghi di calcolo

FASTA, BLAST: Confronto tra indici Query A C T A C G Parola Indice AA = AC = 1,4 AG = AT = CA = CC = CG = 5 CT = 2 GA = GC = GG = GT = TA = 3 TC = TG = TT = confronto tra indici Database G A C T A T T Parola Indice AA = AC = 2 AG = AT = 5 CA = CC = CG = CT = 3 GA = 1 GC = GG = GT = TA = 4 TC = TG = TT = 6 Differenze dello stesso valore indicano segmenti comuni Segmento comune A C T A differenze AA = AC = -1,+2 AG = AT = CA = CC = CG = CT = -1 GA = GC = GG = GT = TA = -1 TC = TG = TT =

FASTA Pearson & Lipmann, PNAS 1988 K tuple = lungezza delle parole nell'indice k tuple k tuple sensibilità velocità sensibilità velocità Valori standard: k tuple=2 (proteine) k tuple=6 (nucleotidi)

BLAST Basic Local Alignment Search Tool Altschul et al JMB 1990 Words (parole indice) T (punteggio minimo per parola) W T sensibilità velocità >query AGPDPATA AGP GPD PDP DPA PAT ATA words + PEP, EPA, DPG, Neighbourhood words W T sensibilità velocità La lunghezza delle words è definita dal parametro W. Il punteggio che devono raggiungere per essere considerate è definito dal parametro T. Valori standard W = 11 (DNA) W = 3 (protein)

Uso di BLAST: scelta del programma

Uso di BLAST: avvio ricerca

Uso di BLAST: modifica parametri ricerca

Uso di BLAST: Recupero risultati

Uso di BLAST: Lettura risultati

Uso di BLAST: Lettura risultati

Uso di BLAST: Lettura allineamenti

BLAST Output 2 Alignments >gi 6320379 ref NP_010459.1 High mobility group (HMG)-like protein; Hmo1p [Saccharomyces Length = 246 Score = 332 bits (850), Expect = 3e-90 Identities = 191/220 (86%), Positives = 191/220 (86%) Query: 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct: 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60 Query: 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYV Sbjct: 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120 Query: 121 RQELREDRQKAGLPPLSSTEITQEISKKWKELSDNEKEKWKQAYNVELENYQREKSKYLE 180 RQELREDRQKAGLPPLSSTEITQEISKKWKELSDNEKEKWKQAYNVELENYQREKSKYLE Sbjct: 121 RQELREDRQKAGLPPLSSTEITQEISKKWKELSDNEKEKWKQAYNVELENYQREKSKYLE 180 Query: 181 AKKNGTLPPASLENGPTHAPVPIPFSLQHAAEPPVEKRPH 220 AKKNGTLPPASLENGPTHAPVPIPFSLQHAAEPPVEKRPH Sbjct: 181 AKKNGTLPPASLENGPTHAPVPIPFSLQHAAEPPVEKRPH 220 Lambda K H 0.308 0.127 0.355 Gapped Lambda K H 0.267 0.0410 0.140 Matrix: BLOSUM62 Gap Penalties: Existence: 11, Extension: 1 Statistiche basate su valori precalcolati per determinate matrici e penalità gap

Regioni a bassa complessità LRVSGGGGAGGGGGGAGGGGGGGGGGGKDFCV Le regioni a bassa complessità hanno probabilità di match casuali più alte Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto. La sequenza verrà quindi trasformata in: LRVSXXXXXXXXXXXXXXXXXXXXXXXKDFCV E riportata in blast come: LRVSggggaggggggagggggggggggKDFCV Il filtro può essere attivo a default in BLAST. In alcuni casi, quando si vuole avere match completi o ricercare altre sequenze con simili ripetizioni, è opportuno disattivare il filtro

E(DNA) vs E(Proteine) Valori attesi con la sequenza di DNA [Score, E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila. La ricerca che utilizza la sequenza proteica fornisce risultati più significativi ed è in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Misure dell accuratezza della ricerca := SENSIBILITA Basso numero di falsi negativi, ovvero la capacità di trovare le sequenze effettivamente imparentate alla query sequence SELETTIVITA := Basso numero di falsi positivi, ovvero la capacità di escludere le sequenze non imparentate alla query sequence

Argomenti pratici nella ricerca in banca dati Sapere dove cercare! (usare la banca dati più completa. Notare che alcune sezioni dbest, HTGS, Patent sono tenute separate dalla banca dati principale). Preferire una ricerca con la traduzione in amino acidi se la query sequence è codificante In BLAST è possibile restringe la ricerca a specifici organismi In BLAST ricordarsi del limite delle sequenze in output In BLAST fare attenzione all opzione filtro Esaminare con attenzione l allineamento con le sequenze simili prima di fare deduzioni su omologia e funzione