Corso di Bioinformatica

Transcript

1 Corso di Bioinformatica Cortona - Novembre 2002 Metodi Computazionali per l'analisi delle sequenze Dr. Sabino Liuni Istituto di Tecnologie Biomediche- CNR Sezione di Bioinformatica e Genomica - Bari Sabino@area.ba ba.cnr.it

2 Metodi Comparativi Con il procedere dei progetti di sequenziamento stiamo assistendo ad una crescita esponenziale nel numero delle sequenze ma con poca conoscenza circa la loro struttura e funzione. La determinazione della struttura e funzione di una sequenza non e' un compito facile quindi la via migliore per arrivare alla comprensione della funzione e struttura delle sequenze è quella di mettere in relazione queste sequenze con altre sequenze conosciute utilizzando metodi comparativi Le relazioni tra le sequenze possono variare da casi in cui abbiamo una quasi Identità completa ad una apparente relazione in quanto condividono solo alcune strutture, questa situazione pone una grande difficoltà nell'utilizzo degli algoritmi idonei all'analisi I metodi di confronto delle sequenze rappresentano quindi il primo passo verso la caratterizzazione funzionale delle sequenze il cui compito è determinare la relazione esistente tra struttura e funzione. I metodi comparativi di analisi possono essere applicati a diversi livelli: sequenza primaria struttura 3D Le metodologie più utilizzate nei metodi di analisi comparativi sono: allineamento ricerca in banca dati

3 Allineamento L'allineamento è un problema difficile. Questa metodologia è molto diffusa nell'analisi computazionale poiché sulla base delle posizioni individuate in comune nelle varie colonne delle sequenze è possibile ipotizzare una relazione evolutiva o funzionale. E' molto importante nell uso di queste metodologie l applicazione di una corretta terminologia.

4 L allineamento può essere FACILE e DIFFICILE GCGGCCCA TCAGGTAGTT GGTGG GCGGCCCA TCAGGTAGTT GGTGG GCGTTCCA TCAGCTGGTT GGTGG GCGTCCCA TCAGCTAGTT GGTGG GCGGCGCA TTAGCTAGTT GGTGA ******** ********** ***** TTGACATG CCGGGG---A AACCG TTGACATG CCGGTG--GT AAGCC TTGACATG -CTAGG---A ACGCG TTGACATG -CTAGGGAAC ACGCG TTGACATC -CTCTG---A ACGCG ********?????????? ***** FACILE DIFFICILE

5 OMOLOGHI Il termine si riferisce a sequenze che condividono un ancestore comune e si divide in due sottoclassi: Ortologhi - Speciazione Sono gli stessi geni (e.s. cythocrome C) in differenti specie. Due geni nello stesso organismo non possono essere ortologhi. Paraloghi - Duplicazione Sono il risultato di una duplicazione genica (e.s. hemoglobin beta e delta). Se due geni/proteine sono omologhi nello stesso organismo questi sono Paraloghi

6 Analoghi Termine raramente utilizzato, sono sequenze che non condividono un ancestore comune, ma hanno alcune funzioni simili, quindi appartengono ad una stessa classe. Ad esempio la Trypsin like serine proteinase e Subtilismis, non sono in relazione, la loro struttura al di fuori del sito attivo è completamente differente. Sito Attivo Il sito attivo in una proteina è costituito da tre residui i quali sono spaziati attraverso tutta la lunghezza della sequenza proteica.

7 Omologia e Similarità Questi due termini sono molto spesso intercambiabili ma hanno un significato defferente. Omologia Due sequenze sono omologhe se derivano da un ancestore comune mediante un processo di speciazione o duplicazione. L omologia e un carattere qualitativo poggiato su una misura oggettiva della similarità. Similarità Rappresenta un parametro quantitativo in quanto esprime il grado di omologia tra le due sequenze.

8 Similarità La similarità, nei metodi di allineamento viene evidenziate come: Sequence Identity: Si riferisce ai match esatti dei residui di acidi nucleici o proteine tra due sequenze allineate ed espressa in termini percentuli. Es. due sequenze allineate lunghe 150 residui con 66 matches hanno una S.I pari a 66/150*100 = 44% Sequence Similarity: applicato alle sequenze proteiche e si riferisce agli aminoacidi che hanno proprietà chimiche simili. Il punteggio in questo caso viene assegnato alla probabilità di sostituzione di un aminoacido in un altro e viene calcolato sulla base di matrici di sostituzioni.

9 Allineamento Nei processi di allineamento, si cerca di individuare il minimo numero di cambi (Sostituzione, Inserzione, Delezione) per convertire una sequenza in un'altra. L'utilizzazione di questi criteri porta alla definizione di MISMATCHES (similarità negative) e MATCHES (similarità positive) e GAPS (similarità negative). Un allineamento dipende oltre dai parametri utilizzati e dal peso assegnato ai parametri anche dall'esperienza. In un processo di allineamento molte sono le questioni che necessitano di una risposta: Come è possibile assegnare un punteggio all'allineamento? Quale è il miglior schema per assegnare i punteggi ai dati? Possono essere inseriti gaps al fine di facilitare altrove i matches tra le sequenze? Se i gaps sono permessi, come è possibile assegnare i punteggi? Una volta individuato un corretto schema, per l'assegnazione dei parametri, qual è il miglior algoritmo per cercare un ottimo allineamento? Quando un allineamento è prodotto esso è significativo?

10 Allineamento - Matrici Quando si guarda un allineamento, quello che ci si chiede è se questo allineamento è significativo oppure è un evento casuale. La risposta a questa domanda viene fornita dall'utilizzo delle matrici. La costruzione delle matrici è un processo complesso in quanto bisogna tenere presente molti fattori quali ad esempio: la natura chimica del residuo, la frequenza del verificarsi di un evento di sostituzione etc. Ci sono molte matrici di sostituzione attualmente in uso, e molti dei programmi di allineamento e Database Searches ne usano una di default. Le matrici hanno un ruolo fondamentale nei processi di allineamento e database searches.

11 Allineamento - Matrici PAM Per un lungo periodo sono state utilizzate le matrici di sostituzione della Dayhoff e precisamente la PAM250. Questa matrice è fondata sull osservazione del contegio del cambio degli aminoacidi in un gruppo di proteine fortemente in relazione tra di loro (85% identità). Queste matrici sono costruite sulla base di relazioni evolutive. Esse evidenziano la probabilità di cambio di un aminoacido in un altro in proteine omologhe durante l evoluzione. Se consideriamo un gruppo di proteine omologhe, che evolutivamente si sono allontanate minimamente e presentano un 50% di similarità, esiste una tipica matrice PAM che in questa situazione mi indica la frequenza dei cambi che mi aspetto. Se le proteine omologhe presentano un 20% di similarità (quindi più distanti evolutivamnete) esiste un altra matrice PAM. Queste matrici sono utilizzate per produrre un alineamento e definire i punteggi di similarità nell allineamento.

12 Costruzione delle Matrici BLOSUM Allineamento - Matrici Blosum Queste matrici sono ottenute partendo dalla banca dati BLOCKS. Questa banca dati contiene un insieme di proteine allineate che sono n relazioni tra di loro e l'allineamento è relativo a regioni di sequenze prive di gap. Ogni blocco si riferisce normalmente ad un insieme di proteine in relazioni tra di loro. Mediante delle tecniche di clustering, tutte le sequenze contenute in un blocco, vengono messe insieme in gruppi. All'interno di una famiglia, clusterizzata in gruppi, viene determinata la FREQUENZA di SOSTITUZIONE e quindi le sostituzioni significative. Il valore numerico associato alle matrici (es. BLOSUM62) rappresenta il valore di soglia applicato dal metodo di clustering. Un valore di 62 indica che le sequenze sono messe insieme nello stesso cluster, se hanno un valore di identità uguale o maggiore al 62%. Valori molto bassi di soglia (es. BLOSUM 45) stanno ad indicare che sono state clusterizzate sequenze che sono più distanti evolutivamente. Tabella di Utilizzo delle Matrici

13 Allineamento - Matrici

14 Allineamento - Matrici I valori riportati nelle matrici sono calcolati considerando due probabilità: P 1 la probabilità che l'evento di accoppiamento dei residui nell'allineamento è random P 2 la probabilità che l'accoppiamento dei residui nell'allineamento è significativo. Il valore nella matrice è dato come log del rapporto P 2 /P 1 Se i valori sono positivi, significa che l'evento non è casuale. Il punteggio dell'allineamento è calcolato sulla base dei valori contenuti nelle matrici. Nella matrice possiamo notare che l'acido Glutamico (E) ha un punteggio positivo con la sostituzione di D (acido aspartico) o Q (Glutamine). Se andiamo a guardare le sostituzioni possiamo notare che sono residui con proprietà chimiche simili. Sempre lo stesso residuo (E) ha valori negativi di sostituzione con altri aminoacidi Isoleucine (I) e Leucine (L). Il triptofano (W) sostituito con un altro Triptofano ha un valore di 11, difficilmente si puo' affermare che la probabilità di appaiamento sia casuale

15 Matrici PAM o Blosum? Ci sono delle differenze molto rilevanti tra le due matrici, e queste condizionano l interpretazione del risultato dell allineamento delle sequenze proteiche. Prima considerazione Le matrici PAM sono poggiate su un modello evolutivo dove il cambio di un aminoacido in un sito è indipendente dai cambi che sono avvenuti nello stesso sito. I cambi sono calcolati considerando gruppi di sequenze omologhe all 85% dopo la produzione di un alero evolutivo. Le matrici utilizzate per confrontare sequenze proteiche molto distanti evolutivamente sono ESTRAPOLATE partendo da questa matrice. Le matrici Blosum non sono poggiate su un modello evolutivo. Esse derivano considerando i cambi aminoacidi osservati nelle REGIONI ALLINEATE di famiglie proteiche i n relazione. Il modello evolutivo implicito in queste matrici è rappresentato dal fatto che le proteine di ciascuna famiglia condividono un ancestore comune in quanto hanno tutte una stessa attività biochimica

16 Matrici PAM o Blosum? Seconda considerazione Il punteggio delle matrici PAM si riferisce al conteggio di ogni posizione dell aminoacido nella sequenza completa, mentre le BLOSUM si riferiscono all analisi delle sostituzioni e posizioni conservate nei blocchi i quali rappresentano le regioni comuni più simili nelle sequenze in relazione. Qiindi: La PAM sono disegnate per seguire le tracce dell origine evolutiva delle proteine Le Blosum sono designate per trovare domini conservati.

17 Allineamento Quando parliamo di allineamento, le sequenze possono essere rappresentate mediante un allineamento globale o locale, che dipende dalle finalità del confronto. Il metodo usato dipende se le sequenze sono presumibilmente in relazione sull'intera sequenza oppure se condividono delle isolate regioni di similarità. I programmi di database searching nel mostrare un allineamento applicano l'algoritmo di Smith-Waterman che è un allineamento locale. Per valutare il significato di un allineamento locale (e non globale) tra due sequenze una procedura è quella di generare molte sequenze random delle stesse sequenze e verificare che il punteggio di similarità più o meno una deviazione standard non si discosti molto. Allineamento Globale Allineamento Locale

18 Multiallineamento Al fine di condurre un analisi evolutiva o strutturale è necessario allineare contemporaneamente tutte le sequenze omologhe in esame. Si ottiene cosi un multiallineamento in modo che tutte le sequenze considerate abbiamo la stessa lunghezza comprendendo anche le eventuali inserzioni e delezioni. In termini generali l'allineamento multiplo ha come obiettivo quello di allineare un set di sequenze al fine di individuare le similarità strutturali, che stanno alla base (che caratterizzano)di una famiglia di sequenze funzionali o evolutivamente in relazione. L'allineamento multiplo mette in evidenza pattern conservati che possono essere a loro volta sfruttati utilizzando il metodo dei profili, per ricercare nel database. Utilizzando il sistema del multiallineamento e la ricerca nel database mediante profili è possibile rilevare delle omologie remote con sequenze di altri organismi. Questo tipo di analisi permette di definire delle famiglie complete di nuovi geni. Il profilo rappresenta un punteggio informativo dei vari residui che è ottenuto dalla frequenza che hanno sulle colonne allineate. Utilizzando il profilo, sulla base del multiallineamento, come ricerca nella banca dati è possibile individuare sequenze che sono evolutivamente più distanti.

19 I concetti essenziali per un multiallineamento sono: Ci sono famiglie di sequenze che condividono delle caratteristiche comuni da un punto di vista strutturale, funzionale o entrambi. Questo non è altro che il riflesso di regioni conservate nel multiallineamento delle sequenze. Le variazioni osservate nell'allineamento delle sequenze omologhe rappresentano le variazioni esistenti nella famiglia delle proteine da queste codificate. L'allineamento di una famiglia di proteine fornisce molta più informazione di quanto viene fornito da un accoppiamento a coppie.

20 Qual è la funzione di un Multiallineamento Normalmente si procede ad un allineamento multiplo per: Evoluzione molecolare e filogenia; Ricerca nei database mediante i profili; Disegno di primer per PCR; Definizione di una consensus

21 MULTIALLINEAMENTO - CLUSTALW LINK

22 Quale metodologia scegliere?

23 Risorse Web dei Programmi di allineamento Dialign Clustalw SIM4 Il programma affronta il problema di allineare sequenze trascritte (mrna, EST) in modo efficiente con le sequenze genomiche. DBClustal Il programma dopo avere effettuato il db-searching, mostra tutti i risultati. Selezionando le sequenze migliori e' in grado di eseguire un multiallineamento.

24 DATABASE SEARCHING I programmi di ricerca nella banca dati apparentemente possono sembrare semplici da utilizzare, in realtà questi programmi devono essere trattati con lo stesso rigore con la quale si utilizzano le procedure di laboratorio e i dati richiedono la stessa attenzione dei risultati del laboratorio. Il risultato che si ottiene mediante la ricerca in banca dati è una similarità con altre sequenze, l'omologia intesa come relazione evolutiva con le sequenze può essere solo dedotta e da questa deduzione arrivare alla eventuale funzione.

25 DATABASE SEARCHING Le linee guida per una corretta analisi di ricerca in banca dati sono: Utilizzare una banca dati aggiornata; Confrontare con proteine piuttosto che con DNA; Filtrare le sequenze a bassa complessità; Interpretare correttamente i risultati mediante E_value Riconoscere che molte omologie non sono trovate mediante il confronto delle sequenze Tener presente che ci sono sistemi di ricerca più lenti ma più potenti (SSEARCH E' stato inoltre osservato una forte caduta di performance della ricerca in DB, quando la sequenza da ricercare è più corta di 200bp Da studi fatti è stato visto che se le sequenze Proteiche sono >80 residui diventa significativo l'allineamento se la % di identità è > 25%.

26 DATABASE SEARCHING La formulazione dell'esperimento di ricerca in banca dati inizia con un primo quesito: quale tipo di sequenza bisogna confrontare: DNA, Proteina oppure DNA come Proteina? Se la sequenza è una proteina oppure è una sequenza di DNA che codifica per una proteina, la ricerca deve essere fatta a livello di proteina in quanto è possibile evidenziare delle omologie molto più distanti rispetto alle sequenze di acidi nucleici. Per esempio nel DNA c'è un forte rumore dovuto ad un rapido cambiamento nella terza base dei codoni. Un altro vantaggio nella ricerca mediante proteina è che gli aminoacidi a differenza dei nucleotidi oltre a presentare il confronto identità/non-identità possegono delle caratteristiche chimiche in comune. In breve la ricerca a livello di proteina aiuta a individuare geni in relazione da un punto di vista evolutivo, mentre la ricerca con il DNA aiuta nella ricerca di regioni identiche.

27 DATABASE SEARCHING I programmi classici che eseguono ricerca di sequenze nelle banche dati sono FASTA e Blast. Il principo euristico che questi programmi usano è la ricerca di "Words" nelle banche dati. Una parola "Word" è rappresentata da diversi caratteri disposti in qualsiasi modo nelle proteine o acidi nucleici. Normalmente queste parole sono individuate con il termine K-Tuple. La grande assunzione in un metodo basato sulla ricerca è che le sequenze in relazioni tra di loro condividono molte parole.

28 DATABASE SEARCHING L'utilizzo di parole lunghe porta ad una riduzione della sensibilità, in quanto se due sequenze si sono allontanate molto da un punto di vista evolutivo queste non condividono più parole lunghe ma bensì parole più corte. Nei processi di database searching bisogna sempre cercare un compromesso tra SENSIBILITA' e SELETTIVITA': Sensibilità : rappresenta la capacità di identificare sequenze in relazione ma distanti evolutivamente. Aumentando la sensibilità aumenta il numero di match osservati, ma diminuisce la velocità di ricerca. Selettività : è la capacità di evitare falsi positivi (es. sequenze non in relazione ma che presentano un'alto valore di similarità).

29 DATABASE SEARCHING - Blast Un aspetto rilevante nel database searching è la presenza nella sequenza di corti elementi ripetuti che sono definite regioni a bassa complessità. Come risultato due sequenze che presentano queste regioni ripetute possono ottenere un alto valore di similarità che riflette solo questo comportamento. La presenza di queste regioni ripetute può inoltre oscurare altre regioni importanti. I programmi di Blast presso l'ncbi rimuovono automaticamente queste regioni sostituendole con le X mediante un programma chiamato SEG (proteine) e DUST (acidi nucleici). Algoritmo Blast

30 DATABASE SEARCHING - Blast La famiglia dei programmi Blast sono: blastp: confronta la sequenza di una proteina contro una banca dati di proteine; balstn: confronta la sequenza di acidi nucleici, contro la banca dati di acidi nucleici blastx: traduce una sequenza di acidi nucleici, nelle sue sei frames e confronta ogniuna di queste con la banca dti di proteine; tblastn: confronta una sequenza proteica contro una banca dati di acidi nucleici, dove ogni sequenza viene tradotta nelle sei frames; tblastx: confronta le sei frames di una sequenza di acidi nucleici contro le sei frames di ogniuna delle sequenze della banca dati di acidi nucleici;

31 DATABASE SEARCHING - Fasta L'algoritmo Fasta utilizza il metodo di Pearson e Lipman. La ricerca viene effettuata in quattro fasi successive. Algoritmo Prima fase : vengono prese in considerazione solo i segmenti identici tra le due coppie di sequenze sulla base del valore di k-tuple (6 per DNA). Seconda fase : tra tutte le regioni di similarità (diagonali) vengono individuate le migliori regioni di similarità locale, anche su diagonali diverse. Tra tutte le regioni viene individuata la regione che presenta la massima similarità. Questa regione viene chiamata "Regione primaria di Similarità" e viene indicata con INIT1. Terza Fase : Il programma verifica che le regioni (diagonali) precedentemente individuate, possono essere unite per ottenere un unico allineamento. Queste regioni sono unite se il costo da pagare è inferiore rispetto al punteggio che si ottiene nella ricongiunzione. Il punteggio di similarità relativo che si ottiene, mediante l'unione delle regioni viene indicato con INITN. Quarta Fase : Viene ottimizzato l'allineamento e viene calcolato o score complessivo (Opt). output

32 DATABASE SEARCHING Considerazioni Utilizzando un set di sequenze di differente lunghezza > di 200 bp mediante i diversi programmi di analisi sono stati ottenuti i seguenti risultati: Metodo individuate % di sequenze in relazione BLASTN default 21.6 BLASTN w= Fasta default 43.4 SSEARCH 58.2 Questi valori indicano la sensibilità degli algoritmi. L'algoritmo di Smith -Waterman presenta la migliore sensibilità i quanto trova più sequenze degli altri metodi. Il BLASTN con w=6 e Fasta con i valori di default sono paragonabili. Per quanto riguarda il significato statistico dato dai programmi all'analisi, in questo caso troviamo al primo posto i programmi Blast e Fasta e poi SSEARCH.

33 DATABASE SEARCHING Considerazioni Tabella di significatività dei risultati Metodo Valore BLASTN default P value 0,01 BLASTN w=6 P value 0,01 Fasta E_value 0,005 SSEARCH Z-score 5

34

35

36 PatSearch Una delle maggiori sfide nella biologia molecolare è comprendere i meccanismi di regolazione dell espressione genica, in quanto molti dei meccanismi di base della vita: crescita cellulare, differenziamento ecc. sono dipendenti dalla differente regolazione dell espressione genica. La regolazione dell espressione genica è un meccanismo che avviene sia a livello Trascrizionale che Post-trascrizionale, mediante rei piccoli tratti di DNA o RNA chiamati Binding Protein, dove chiaramente si legano le proteine. Il programma PatSearch è in grado di analizzare una sequenza oppure una collezione di sequenze alla ricerca di pattern complessi che vengono costruiti mediante delle Regular Expression.

37 PatSearch Regole di costruzione dei pattern Un pattern è definito come una sequenza di Pattern Unit indicati come: p1 p2 p3 pn Ad esempio il pattern: GGCC 3 8 GAACC è costituito da tre pattern unit p1 p2 p3 Consideriamo ora il pattern : p1=4 4 p1 p1 questa sintassi va letta come, ricercare un pattern di qualsiasi carattere di quattro elementi che siano seguiti per due volte dallo stesso Pattern Unit (p1). Il risultato: ACGT ACGT ACGT p1 p1 p1 Similarmente: p1=4 4 p1 p2=3 3 p1 p2 p1 p1 p2 risultato AAAA AAAA CCC AAAA CCC AAAA AAAA CCC p1 p1 p2 p1 p2 p1 p1 p2

38 PatSearch Il pattern unit può accettare :[Mismatches, Delezioni, Inserzioni] Es: TTTATTT[1,0,0] troverà la sequenza TTTGTTT TTTATTT[0,1,0] troverà la sequenza TTTTTT TTTATTT[0,0,1] trovera la sequenza TTTACTTT Pattern Unit: Palindromi Viene utilizzata l espressione <p1 Es: p1=4 4 <p1 trovami qualsiasi carattere che letto nell altra direzione è identico SAPRRPAS Ricerca di strutture Quando si ricercano delle regioni nucleotidiche molte volte, c è la necessità di ricercare regioni che formano dei loop. La sintassi per rappresentare questo è: p1 Es: p1= p1 Questa è una tipica struttura STEM-LOOP