Ricerca di omologia di sequenza

Documenti analoghi
Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

BLAST. W = word size T = threshold X = elongation S = HSP threshold

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random

Banche dati di sequenze biologiche: Organizzazione e Interrogazione

La ricerca di similarità: i metodi

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2.

Banche dati di sequenze biologiche: interrogazione e ricerca di omologia

La ricerca di similarità in banche dati

Internet web: >8,000,000,000 pagine

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche)

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento

Metodi euristici di allineamento

Programmazione dinamica

FASTA. Lezione del

Lezione 6. Analisi di sequenze biologiche e ricerche in database

Lezione 7. Allineamento di sequenze biologiche

Ricerche con BLAST (Laboratorio)

Lezione 7. Allineamento di sequenze biologiche

Algoritmi di Allineamento

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche

Università degli studi di Pisa

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing

Bioinformatica ed applicazioni di bioinformatica strutturale!

Omologia di sequenze: allineamento e ricerca

Programmazione dinamica

Allineamenti a coppie

31/05/2007. Omologia. Evoluzione: Mutabilità e Selezione Naturale. Similarità. Sequenze omologhe sono sempre simili?

Lezione 7. Allineamento di sequenze biologiche

BLAST: Basic Local Alignment Search Tool

Le sequenze consenso

ALLINEAMENTO DI SEQUENZE

Pairwise Sequence Alignment BIOINFORMATICA. Corso di Laurea in Ingegneria Informatica e Biomedica. Università Magna Graecia Catanzaro

Bioinformatics more basic notions

Corso di Bioinformatica

La distribuzione dei veri e falsi positivi la ricerca della giusta soglia

Allineamento multiplo di sequenze

Informatica e biotecnologie

Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni:

Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli. Esercizi ricerche in banche dati

Allineamenti di sequenze: concetti e algoritmi

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY.

Lezione 2: Allineamento di sequenze. BLAST e CLUSTALW

Bioinformatica. Analisi del genoma

Allineamenti Multipli di Sequenze

Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini)

Cerca la tua sequenza ed analizzala. 4-Utilizzando l intera sequenza NM_ quante ORF trovate nella ORF +3?

A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I

Allineamento e similarità di sequenze

Sommario. Presentazione dell opera Ringraziamenti

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0;

Metodi di Distanza. G.Allegrucci riproduzione vietata

Protein folding. Un gran numero di interazioni deboli + ΔH

6.6 Sequence Alignment

6) Una cellula con 10 coppie di cromosomi entra in mitosi. Quanti cromosomi avrà ognuna delle due cellule figlie? a) 5 b) 20 coppie e) 20 d) 10

ESERCITAZIONE 3. OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST

MODELLO SCHEDA INSEGNAMENTO. II II Luigi Cerulo

Riconoscimento e recupero dell informazione per bioinformatica

Il Corso sarà tenuto nei giorni di Lunedì, Mercoledì e Venerdì dalle ore 17 alle ore 19.

Bioinformatica A.A semestre I

2.2 Alberi di supporto di costo ottimo

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

Informatica e biotecnologie II parte

Modello computazionale per la predizione di siti di legame per fattori di trascrizione

Confronto di sequenze: allineamento

RELAZIONE DI BIOLOGIA MOLECOLARE

Riconoscimento e recupero dell informazione per bioinformatica

2.2 Alberi di supporto di costo ottimo

Laboratorio di Bioinformatica I. Parte 1. Dott. Sergio Marin Vargas (2014 / 2015)

Sequence alignment... in parallel!!

Punti. calcolare la distanza d tra le seguenti coppie di punti. calcolare il perimetro dei poligoni di vertici assegnati 1 ± 2 2. Geometria Analitica

UTILIZZO DI BLAST PER ALCUNE SEMPLICI APPLICAZIONI IN STUDI GENOMICI

Biologia Molecolare Computazionale

LA SINTESI PROTEICA LE MOLECOLE CHE INTERVENGONO IN TALE PROCESSO SONO:

18/05/2014. Università di Ferrara Corso di Ingegneria del Software AA 2013/2014

GESTIONE DELLA MEMORIA CENTRALE

Ai miei genitori, Love is caring enough not to hold on tightly. Con affetto, Fabrizio

Introduzione al Calcolo Scientifico A.A Lab. 11

Riconoscimento e recupero dell informazione per bioinformatica

Divisione di Polizia Amministrativa Sociale e dell Immigrazione

Informatica e Bioinformatica A. A

Analisi della struttura primaria delle proteine

Allineamento multiplo

I marcatori molecolari. Dipartimento di Scienze Agronomiche e Genetica Vegetale Agraria Corso di Genetica Agraria Giovanna Attene

Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna).

Esercizio: punti e segmenti

Allineamenti multipli

Allineamento multiplo

Allineamenti multipli

Sperimenta il BioLab Attività di Bioinformatica Caccia al gene

Risultati simulazione test di accesso per l ammissione al corso di Laurea in Economia

Lezione 5. Cambiamenti evolutivi nelle sequenze nucleotidiche

Banche Dati proteiche

Laboratorio di Architettura lezione 5. Massimo Marchiori W3C/MIT/UNIVE

Distanza di Edit. Speaker: Antinisca Di Marco Data:

Vai al sito: Incolla nel box vuoto la sequenza nucleotidica

2.2 Alberi di supporto di costo ottimo

Transcript:

Ricerca di omologia di sequenza RICERCA DI OMOLOGIA DI SEQUENZA := Data una sequenza (query), una banca dati, un sistema per il confronto e una soglia statistica trovare le sequenze della banca più somiglianti alla data sequenza, ordinate per significatività

Ricerca di omologia: schema >AAAA acgctaggctagctggatcggggatcggat aggctcggatcgggatttgagtctagggatg >BBBB gctagctggatcggggatcggat ggatcgggatttgagtctagggatg >query ccgctaggctagccatcggggatcggat acgctaggctagctggatcggggaaaa >CCCC cgctaggatagctggatcggggatcggat ggctcggatcgggatttgagtctagggatg acgctaggctagctggatcggggatcggat acgctaggctagctggatcggggatcggat acgctaggctagctggatcggggatcggat >DDDD acgctaaaaggctagcatcggggatcggat Filtro statistico 1 2 >FFFFF cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg >DDDD acgctaaaaggctagcatcggggatcggat >EEEEE cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg >FFFFF cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg n >AAAA acgctaggctagctggatcggggatcggat aggctcggatcgggatttgagtctagggatg >ZZZZZ acgctaggctagctggatcggggatcggat aggctcggatcgggatttgagtctagggatg

Calcolo della significatività P = 1 e -E P E se E<<1 E Kmne S E=significatività: numero di segmenti attesi raggiungere lo score S per effetto del caso K e sono parametri stimati con fitting. Dipendono dal tipo di matrice usata, dalle penalità assegnate ai gap e dalla composizione delle sequenze m = lunghezza della query n = dimensione della bancadati

Metodi per la ricerca Un algoritmo di programmazione dinamica ha un tempo di esecuzione proporzionale a N x D (lunghezza della sequenza per dimensione della banca dati). Quest'algoritmo può richiedere molto tempo se le dimensioni della bancadati sono grandi Allineamento ottimale SSEARCH (Smith-Waterman) Allineamento euristico (ricerca con indici) FASTA BLAST Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale.

SSEARCH Utilizza un algoritmo completo di programmazione dinamica. Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca data. Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza Poco usato perché richiede tempi lunghi di calcolo

FASTA, BLAST: Confronto tra indici Query A C T A C G Parola Indice AA = AC = 1,4 AG = AT = CA = CC = CG = 5 CT = 2 GA = GC = GG = GT = TA = 3 TC = TG = TT = confronto tra indici Database G A C T A T T Parola Indice AA = AC = 2 AG = AT = 5 CA = CC = CG = CT = 3 GA = 1 GC = GG = GT = TA = 4 TC = TG = TT = 6 Differenze dello stesso valore indicano segmenti comuni Segmento comune A C T A differenze AA = AC = -1,+2 AG = AT = CA = CC = CG = CT = -1 GA = GC = GG = GT = TA = -1 TC = TG = TT =

FASTA Pearson & Lipmann, PNAS 1988 K tuple = lungezza delle parole nell'indice k tuple k tuple sensibilità velocità sensibilità velocità Valori standard: k tuple=2 (proteine) k tuple=6 (nucleotidi)

BLAST Basic Local Alignment Search Tool Altschul et al JMB 1990 Words (parole indice) T (punteggio minimo per parola) W T sensibilità velocità >query AGPDPATA AGP GPD PDP DPA PAT ATA words + PEP, EPA, DPG, Neighbourhood words W T sensibilità velocità La lunghezza delle words è definita dal parametro W. Il punteggio che devono raggiungere per essere considerate è definito dal parametro T. Valori standard W = 11 (DNA) W = 3 (protein)

Uso di BLAST: scelta del programma

Uso di BLAST: avvio ricerca

Uso di BLAST: modifica parametri ricerca

Uso di BLAST: Recupero risultati

Uso di BLAST: Lettura risultati

Uso di BLAST: Lettura risultati

Uso di BLAST: Lettura allineamenti

BLAST Output 2 Alignments >gi 6320379 ref NP_010459.1 High mobility group (HMG)-like protein; Hmo1p [Saccharomyces Length = 246 Score = 332 bits (850), Expect = 3e-90 Identities = 191/220 (86%), Positives = 191/220 (86%) Query: 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct: 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60 Query: 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYV Sbjct: 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120 Query: 121 RQELREDRQKAGLPPLSSTEITQEISKKWKELSDNEKEKWKQAYNVELENYQREKSKYLE 180 RQELREDRQKAGLPPLSSTEITQEISKKWKELSDNEKEKWKQAYNVELENYQREKSKYLE Sbjct: 121 RQELREDRQKAGLPPLSSTEITQEISKKWKELSDNEKEKWKQAYNVELENYQREKSKYLE 180 Query: 181 AKKNGTLPPASLENGPTHAPVPIPFSLQHAAEPPVEKRPH 220 AKKNGTLPPASLENGPTHAPVPIPFSLQHAAEPPVEKRPH Sbjct: 181 AKKNGTLPPASLENGPTHAPVPIPFSLQHAAEPPVEKRPH 220 Lambda K H 0.308 0.127 0.355 Gapped Lambda K H 0.267 0.0410 0.140 Matrix: BLOSUM62 Gap Penalties: Existence: 11, Extension: 1 Statistiche basate su valori precalcolati per determinate matrici e penalità gap

Regioni a bassa complessità LRVSGGGGAGGGGGGAGGGGGGGGGGGKDFCV Le regioni a bassa complessità hanno probabilità di match casuali più alte Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto. La sequenza verrà quindi trasformata in: LRVSXXXXXXXXXXXXXXXXXXXXXXXKDFCV E riportata in blast come: LRVSggggaggggggagggggggggggKDFCV Il filtro può essere attivo a default in BLAST. In alcuni casi, quando si vuole avere match completi o ricercare altre sequenze con simili ripetizioni, è opportuno disattivare il filtro

E(DNA) vs E(Proteine) Valori attesi con la sequenza di DNA [Score, E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila. La ricerca che utilizza la sequenza proteica fornisce risultati più significativi ed è in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Misure dell accuratezza della ricerca := SENSIBILITA Basso numero di falsi negativi, ovvero la capacità di trovare le sequenze effettivamente imparentate alla query sequence SELETTIVITA := Basso numero di falsi positivi, ovvero la capacità di escludere le sequenze non imparentate alla query sequence

Argomenti pratici nella ricerca in banca dati Sapere dove cercare! (usare la banca dati più completa. Notare che alcune sezioni dbest, HTGS, Patent sono tenute separate dalla banca dati principale). Preferire una ricerca con la traduzione in amino acidi se la query sequence è codificante In BLAST è possibile restringe la ricerca a specifici organismi In BLAST ricordarsi del limite delle sequenze in output In BLAST fare attenzione all opzione filtro Esaminare con attenzione l allineamento con le sequenze simili prima di fare deduzioni su omologia e funzione