La ricerca di similarità: i metodi

Documenti analoghi
BLAST. W = word size T = threshold X = elongation S = HSP threshold

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random

La ricerca di similarità in banche dati

Programmazione dinamica

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento

La distribuzione dei veri e falsi positivi la ricerca della giusta soglia

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche)

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2.

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Metodi euristici di allineamento

Le sequenze consenso

FASTA. Lezione del

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST

Ricerca di omologia di sequenza

Algoritmi di Allineamento

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing

Ricerche con BLAST (Laboratorio)

BLAST: Basic Local Alignment Search Tool

Programmazione dinamica

ALLINEAMENTO DI SEQUENZE

Allineamento e similarità di sequenze

Corso di Bioinformatica

Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni:

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche

Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini)

Pairwise Sequence Alignment BIOINFORMATICA. Corso di Laurea in Ingegneria Informatica e Biomedica. Università Magna Graecia Catanzaro

Bioinformatica ed applicazioni di bioinformatica strutturale!

Riconoscimento e recupero dell informazione per bioinformatica

Allineamento multiplo di sequenze

Lezione 7. Allineamento di sequenze biologiche

Allineamenti a coppie

Lezione 6. Analisi di sequenze biologiche e ricerche in database

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0;

Informatica e biotecnologie

Cerca la tua sequenza ed analizzala. 4-Utilizzando l intera sequenza NM_ quante ORF trovate nella ORF +3?

Bioinformatics more basic notions

Dipartimento di Fisica a.a. 2004/2005 Fisica Medica 2 Test di ipotesi 2/5/2005

Università degli studi di Pisa

Statistica I. Ingegneria Gestionale. Scritto del 17/07/2012

UTILIZZO DI BLAST PER ALCUNE SEMPLICI APPLICAZIONI IN STUDI GENOMICI

Bioinformatica. Analisi del genoma

Informatica e Bioinformatica A. A

Lezione 2: Allineamento di sequenze. BLAST e CLUSTALW

Lezione 7. Allineamento di sequenze biologiche

Informatica 3. Informatica 3. LEZIONE 21: Ricerca su liste e tecniche di hashing. Lezione 21 - Modulo 1. Introduzione (1) Introduzione (2) Ricerca:

Riconoscimento e recupero dell informazione per bioinformatica

Informatica e Bioinformatica: Basi di Dati

Informatica e biotecnologie II parte

Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna).

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

CONFRONTO TRA LA MEDIE DI DUE CAMPIONI INDIPENDENTI

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2014/2015 II Esonero - 15 Gennaio 2015

Riconoscimento e recupero dell informazione per bioinformatica

Statistica Elementare

Lezione 7. Allineamento di sequenze biologiche

PROBABILITA. Distribuzione di probabilità

Omologia di sequenze: allineamento e ricerca

Teoria e tecniche dei test

University of Messina, Italy

Lezione 6. Lo string matching

Proposta sistema elettorale per elezioni parlamentari

STATISTICA AZIENDALE Modulo Controllo di Qualità

standardizzazione dei punteggi di un test

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

Allineamento locale: BLAST

Corso di Visione Artificiale. Texture. Samuel Rota Bulò

Allineamenti di sequenze: concetti e algoritmi

Quanti soggetti devono essere selezionati?

NUMERI CASUALI E SIMULAZIONE

Richiami di inferenza statistica Strumenti quantitativi per la gestione

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

Metodi statistici per le ricerche di mercato

Universita degli Studi di Siena

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Lez. 8 La Programmazione. Prof. Pasquale De Michele (Gruppo 2) e Raffaele Farina (Gruppo 1) 1

Argomenti Capitolo 1 Richiami

Corso di Laurea a Distanza in Ingegneria Elettrica Corso di Comunicazioni Elettriche Teoria della probabilità A.A

CALCOLO DELL ERRORE E VALUTAZIONE DI UN METODO ANALITICO

A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I

Appunti lezione Capitolo 13 Programmazione dinamica

Probabilità e Statistica

Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"

Appunti di statistica ed analisi dei dati

Perché considerare la struttura 3D di una proteina

Corso Integrato di Statistica Informatica e Analisi dei Dati Sperimentali. Esercitazione E

Test di significatività

Strumenti di indagine per la valutazione psicologica

8 Metodi iterativi per la risoluzione di sistemi lineari

Gli errori nella verifica delle ipotesi

6.6 Sequence Alignment

Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli. Esercizi ricerche in banche dati

Teorema del limite centrale TCL Questo importante teorema della statistica inferenziale si applica a qualsiasi variabile aleatoria che sia combinazion

Algoritmi di ricerca locale

Esercitazione 4 del corso di Statistica 2 Prof. Domenico Vistocco

Risoluzione di problemi ingegneristici con Excel

Transcript:

La ricerca di similarità: i metodi Pairwise alignment allineamenti a coppie 1. Analisi della matrice a punti (dot matrix) 2. Programmazione dinamica (dynamic programming) allineamenti locale e globale. algoritmi che trovano la soluzione ottima. 3. Metodo delle n-tuple (Fasta, Blast) le banche dati crescono a dismisura e gli algoritmi ottimi sono computazionalmente molto lunghi. Compromesso tra velocità e precisione per avvicinarsi alla soluzione ottima ideale. In questo caso si parla di euristica. I metodi delle n-ple sono difficili da quantificare in complessità di calcolo ma in generale l ordine passa da O(n 2 ) a O(n). FASTA FASTA è un programma che cerca similarità locali utilizzando l algoritmo di Pearson e Lipman 1985. La sua strategia è quella di suddividere la sequenza query in tante sottosequenze lunghe 1 o 2 amminoacidi (parole). Il passo seguente è quello di suddivere tutte le sequenze della banca dati in sequenze di stessa lunghezza e di calcolare la posizione delle varie parole in tutte le sequenze. Per velocizzare i calcoli il programma ha già preparato una tabella con tutte le possibili combinazioni di due o tre amminoacidi ( 20 x 20 = 400 combinazioni) e calcola il numero e la posizione delle varie parole che compongono ogni singola sequenza. Per esempio data una query di sequenza: MAPESRTGSAATATSTD MA AP PE ES.. e una libreria di n sequenze avremo: 1) LCSPAPATREYFELFARIGIDKK 2) ETAHGSAATATWKLINCV n) --------------------------------- parola 1 2 n MA - - AP 5 - PE - - ES - - SR - - RT - - TG - GS - 5 SA - 6 AA - 7 AT 7 8,10 TA - 2,9 AT - 10 TS - - ST - - ecc. 1

FASTA Subito dopo FASTA si preoccupa di calcolare il cosiddetto offset. Dopo aver determinato tutte le parole in comune tra la sequenza query e tutte le altre sequenze della banca dati, si preoccupa di determinarne le posizioni relative, per identificare quelle con amminoacidi comuni in un allineamento senza interruzioni. In pratica calcola la differenza tra le posizioni parole nella query e quelle corrispondenti in ciascuna delle sequenze della banca dati. parola query 1 2 n offset 1 offset 2 offset n (1-query) (2-query) (n-query) MA 1 - - - - AP 2 5 - +3 - PE 3 - - - - ES 4 - - - - SR 5 RT 6 - - - - TG 7 GS 8-5 - -3 SA 9-6 - -3 AA 10-7 - - -3 AT 11 7 8,10-4 -3, -1 TA 12-2,9 - -10, -3 AT 13-10 -3 TS 14 - - ST 15 - - Query FASTA Siccome nella tabella di offset, a valori uguali corrispondono amminoacidi allineati, si possono costruire allineamenti di proteine MAPESR TGSA ATATSTD Sequenza 2 ETAHGSA ATATWKLINCV Utilizzando opportune matrici di sostituzione, come BLOSUM 62 o PAM 240, si possono assegnare valori numerici ai vari allineamenti, scegliere le 10 regioni con i valori più alti e sommarle insieme ottenendo il valore chiamato init1. Tutti i valori di init1 vengono ordinati per valori decrescenti e i migliori vengono utilizzati per l analisi successiva E possibile introdurre gaps o inserzioni per allungare l estensione dell allineamento pagando delle penalizzazioni ( il punteggio init1 si abbassa ) Query PK---MAPESR TGSA ATATSTD--- N -V Sequenza 2 PKACVVMETAHGSA ATATWKLINCV I nuovi valori vengono ricalcolati con le stesse procedure e la somma dei nuovi dieci valori è chiamata initn. Ancora una volta i valori di initn vengono ordinati per valori decrescenti dal migliore al peggiore. I migliori valori, infine, vengono allineati alla sequenza query con un algoritmo di allineamento globale e i punteggi finali sono indicati opt. 2

FASTA a) Ricerca parole identiche tra le due seq. b) Ricerca diagonali (k-ple sulla stessa diagonale sono considerate parte dell allineamento senza gap se non distano troppo per un parametro fissato). Calcolo di init1 con le matrici solo i 10 più alti sono classificati ed il più alto utilizzato c) Allungamento con gap e calcolo di initn. Questa ricongiunzione viene effettuata se la penalità di ricongiungimento, proporzionale alla distanza tra le regioni di similarità, é inferiore al contributo dato al punteggio di similarità dalla regione di similarità che viene ricongiunta nell'allineamento. d) Nella quarta ed ultima fase, l'allineamento precedentemente ottenuto viene ulteriormente ottimizzato utilizzando la procedura di allineamento descritta da Chao et al. (1992) che utilizza un algoritmo per l'allineamento di due sequenze all'interno di una banda diagonale di dimensioni predeterminate. Il punteggio di similarità calcolato in questa ultima fase viene denominato punteggio opt. Dopo aver calcolato i punteggi finali (opt) FASTA elabora i risultati per stimare la significatività statistica dei risultati operando come segue: Genera un numero statisticamente significativo di combinazioni di sequenze con la stessa lunghezza e la stessa composizione amminoacidica della sequenza query Per ciascuna di esse lancia un FASTA contro un subset della banca dati Calcola la media (muµ), la deviazione standard (rhoσ), assumendo che i valori si distribuiscano in modo normale (cioè con una distribuzione casuale di Poisson) Confronta i valori opt ottenuti con il valore medio della distribuzione ricavandone la probabilità di avere quel particolare valore di opt per caso 3

Z-score lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random è una misura di quanto il valore di opt si discosta dalla deviazione standard media. indica di quante dev. Standard si discosta (4 indica già che siamo fuori della distribuzione) Deviazione standard è l indice di dispersione della distribuzione σ = ( x µ) N 2 Calcoli statistici Statistica dei confronti locali tra due sequenze Per stimare se il punteggio di allineamento tra due sequenze è dovuto al caso oppure è significativo si fanno un certo numero di confronti (sequence space) di una delle due sequenze (la Query) di stessa composizione AA ma con ordine casuale contro la seconda sequenza (il Subject). L equazione che mette in relazione il punteggio grezzo per capire se è significativo o no è l E-value: S è il punteggio grezzo E( x S) E( S) = kmne λs K dipende dal numero di allineamenti prova effettuati (sequence space) λ dipende dalla matrice di sostituzione m ed n sono le lunghezze delle due sequenze 4

Punteggio grezzo S E-value E(S) Le prove di raccolta dei punteggi avranno una distribuzione simile a quella normale ma che in realtà si chiama distribuzione dei valori estremi (Gumbel distribution o EVD) 0.4 A. 0.2 Yev -2-1 0 1 2 3 4 5 X Se si vuole sapere quanto significativo è il punteggio ottenuto dal mio allineamento reale in confronto alla distribuzione ottenuta secondo quanto detto prima, allora si ricorre all Evalue che indica: Il numero di differenti allineamenti con uno score (x) equivalente o migliore di quello ottenuto dal mio allineamento (chiamato S) che possono capitare per caso in una ricerca in database. Più basso è tale valore e più significativo è il mio allineamento E( x S) E( S) = kmne λs 5

Bit-score Il punteggio grezzo S ha in sé scarso significato perché è come un valore numerico che indica la similarità tra le due sequenze ma senza una unità di misura che possa essere utilizzata per il confronto con altre ricerche. 1. In pratica non riassume l essenza statistica del sistema di punteggio utilizzato per calcolare se quello che si osserva è veramente significativo o no. 2. Infatti uno stesso allineamento può avere punteggi S diversi se si utilizzano matrici di sostituzione diverse che attribuiscono a match, mismatch e gap valori diversi 3. A tale scopo è stato introdotto il bit-score che consente di ottenere una normalizzazione dei punteggi. S si normalizza come segue: Da cui deriva che l E-value è: S ln K S' = λ ln 2 E = mn2 S ' E, di conseguenza, dipende solo dai parametri di lunghezza delle sequenze. Esiste infine un altra misura che è il P-value molto simile all E-value Calcolo E-value nel caso di ricerca in banca dati Nel caso di ricerca in banca dati le equazioni precedenti sono: E( x S) E( S) = kmne E = mn2 S ' S ln K S' = λ ln 2 λs L unica differenza è nel significato. Nel caso di FASTA se m è la lunghezza della sequenza query n è è il numero delle sequenze della banca dati K e λ sono calcolati dinamicamente per ogni singola ricerca 6

7

La distribuzione dei veri e falsi positivi la ricerca della giusta soglia BLAST Blast (Basic Local Aligment Search Tool) è un programma che cerca similarità locali utilizzando l algoritmo di Altschul et al. Anche Blast, come FASTA, funziona: 1. scomponendo la sequenza query in parole di pochi amminoacidi, di solito 2 o 3 (parametro W) e generando una lista di parole affini (diverso da FASTA) con la matrice di sostituzione (BLOSUM). Le parole affini conservate dovranno avere uno score superiore ad una soglia fissata T 2. Le parole affini sono ricercate nella banca dati per match esatti ed una volta trovate le sequenze che li contengono questi vengono estesi a dx e sx dell allineamento per una certa profondità stabilita dal parametro X e le coppie di segmenti, presenti nella stessa coppia di sequenze, che totalizzano un punteggio di similarità statisticamente significativo, superiore ad una soglia S, vengono definiti HSP (High scoring Segment Pairs). 3. Nella stessa coppia possono esserci più HSP di cui é anche possibile calcolare la probabilità di occorrenza (Karlin & Altschul, 1993). W = word-size T = threshold X = elongation S = HSP threshold 8

Si definisce MSP (Maximal scoring Segment Pair) la coppia di segmenti, di eguale lunghezza, che realizza il massimo punteggio di similarità nel confronto di due sequenze; l algorimo ne valuta in modo rigoroso la significatività statistica (Karlin & Altschul, 1990, 1993). BLAST two hit method le versioni attuali di Blast adottano il Two-hit method che deriva dall'osservazione che il tempo di esecuzione dell'algoritmo e' principalmente impiegato nell'allungamento degli Hits per ottenere gli HSPs. L'algoritmo allora considera solo i casi in cui esistono due hit sulla stessa diagonale ad una distanza inferiore ad un parametro A prima di cercare gli HSPs. Per non perdere in sensibilità e' stata abbassata la soglia di T. L'algoritmo è più veloce e non ha perso in precisione Nella sua attuale implementazione, inoltre, BLAST considera anche i gap nel tentativo di unire, quindi, degli HSP "ungapped" che sono spazialmente vicini nella matrice di allineamento e la cui unione in un unico frammento (contenente gap ed inserzioni) non comporta un peggioramento dello score finale ma un miglioramento complessivo. Il tutto secondo dei nuovi parametri che regolano i costi e le penalità della presenza di gap nell'allineamento. Il parametro A 9

BLAST I vari algoritmi differiscono molto per il metodo con cui definiscono una sequenza casuale. BLAST calcola a priori la probabilità che un certo punteggio sia significativo sulla base della dimensione e composizione della banca dati applicando: λs E( S) = kmne m è la lunghezza della sequenza query e n è la lunghezza in residui della banca dati λ e K sono precalcolati secondo una distribuzione standard interna al contrario di FASTA. Il punteggio è simile a quello di FASTA La significatività di un risultato è espressa come valore E(S) (Expectation). Più basso il valore di E più significativo è l allineamento. Un valore di 1.0e-5 per esempio vuol dire che la probabilità di avere per caso una sequenza con lo stesso score della mia query è uguale a 1.0e-5; ovvero l attesa è che ogni 100000 sequenze se ne possa, in media, trovare una (1/100000) che totalizzi un punteggio uguale o migliore di 1.0e-5. 10

CONFRONTO BLAST E FASTA fasta3 proteina o DNA contro banca dati o proteici o DNA rispettivamente fastx/y3 DNA contro banca dati proteico, traduzione nei 6 frame tfastx/y3 proteina contro banca dtai di DNA tradotto blastn query DNA banca dati DNA blastp query proteina banca dati proteine blastx query DNA (tradotta nei sei frame di lettura) banca dati proteine tblastn query proteina banca dati DNA (sequenze tutte tradotte nelle sei fasi di lettura) tblastx query DNA (tradotta nei sei frame di lettura) banca dati DNA (tradotta nei sei frame di lettura) SIMILARITA USO DELLA SCORING MATRIX K-TUPLE GAP VELOCITA' SPECIFICITA' 1-2 aa / 4-6 nt FASTA Locale (e' in genere riportato solo il miglior allineamento locale) Durante la estensione nella fase B. In questo caso il calcolo si effettua nella prima fase solo per identità Consentiti nella fase C Da 1/2 ad 1/5 di BLAST Migliore per il confronto di sequenze nucleotidiche Locale (e' riportata la serie di allineamenti locali sopra il valore soglia tra query e subject: al contrario di FASTA si riescono ad individuare repeat e zone eventuali di overlap tra gli allineamenti locali che sono eliminate da FASTA nella fase C) Fase di scansione per W e fase di estensione per gli HSP l'algoritmo e' ottimizzato per ricercare parole W "simili" e non esatte. Si traduce il tutto in una maggiore sensibilità di ricerca rispetto a FASTA per le proteine. 3 aa / 11-12nt. A livello nucleotidico, non essendo applicate matrici di similarità che perdono di significato avendo solo 4 simboli (A,C,G,T), BLAST perde in sensibilità avendo W=11 Consentiti nella versione attuale Da 2 a 5 volte maggiore di FASTA Migliore per il confronto di sequenze proteiche BLAST 11

CONFRONTO BLAST E FASTA Calcolo statistico K e λ E-value E( S) = kmn e λs FASTA Calcolati dinamicamente m -> lunghezza sequenza query n -> numero sequenze della banca dati BLAST Precalcolati per quella determinata matrice di sostituzione e valore di gap penalties m -> lunghezza sequenza query n -> numero residui o nucleotidi totali della banca dati E( x S) E( S) = kmne S ln K S' = λ ln 2 E = mn2 S ' λs Alcuni esempi di interfacce web FASTA (http://www2.ebi.ac.uk/fasta3/) BLAST (http://www.ncbi.nlm.nih.gov/blast/) 12

13

14

15

16

17

18