Corso di Bioinformatica - Esercitazione

Transcript

1 Corso di Bioinformatica - Esercitazione Yuri Pirola 19 dicembre 2007 L esercitazione si compone di due parti: la prima è relativa all interrogazione di banche dati genomiche mentre la seconda è relativa all uso di un software per la ricostruzione di filogenesi. Durante l esercitazione verranno posti alcuni quesiti. Le risposte a questi quesiti devono essere riportate in un file di testo semplice in cui compaiano anche i nomi e le matricole dei componenti del gruppo. Questo file e i file aggiuntivi che verranno prodotti durante l esercitazione devono essere compressi in un archivio e consegnati via posta elettronica all indirizzo yuri.pirola@disco.unimib.it. 1 Interrogazione di Banche dati In questa parte dell esercitazione si ricercheranno un insieme di informazioni all interno della banca dati dell NCBI tramite la sua interfaccia Entrez raggiungibile all indirizzo Si scelga casualmente un componente del gruppo e se ne prenda l iniziale del cognome. Sia n la posizione della lettera nell alfabeto (ad es. A=1, B=2, ecc.). Si cerchino in NCBI i dati relativi al cromosoma n dell uomo (reference assembly) in modo da rispondere alle seguenti domande (suggerimento utilizzare la banca dati Genome e una query chromosome n ). 1. Qual è il numero del cromosoma? 2. Qual è la versione di riferimento? 3. Qual è l accession number? 4. Di quante basi è composto? 1

2 5. Quanti cluster UniGene sono presenti sul cromosoma n? 6. Quanti geni sono conosciuti sul cromosoma n? 7. Che nome ha l ultimo gene del cromosoma n? 8. Quanto è lunga la sequenza di riferimento di questo gene? 9. In che posizione si trova (coordinate genomiche)? 10. Qual è la base in posizione (=10M)? 11. La posizione 10M si trova all interno di un gene conosciuto? Se sì, quale? 2 Ricostruzione di Filogenesi I processo di ricostruzione di filogenesi è volto ad inferire la storia evolutiva di un insieme di specie basandosi su dati molecolari. I dati genetici in input possono prendere diversa forma: ad esempio possono essere delle sequenze genomiche relative a geni ortologhi nelle diverse specie, sequenze amminoacidiche, enzimi di restrizione caratteri continui e caratteri discreti. In particolare, in questa esercitazione ci baseremo sui dati provenienti da sequenze nucleotidiche di geni ortologhi. Prodotto della ricostruzione di filogenesi è un albero filogenetico che mostra le relazioni intercorrenti fra gruppi tassonomici (cioè specie) differenti. Le specie vanno ad etichettare le foglie dell albero filogenetico mentre i nodi interni rappresentano delle unità tassonomiche intermedie tra le specie prese in considerazione. Nel caso in cui l albero ricostruito sia radicato allora i nodi interni possono essere considerati come una sorta di antenati comuni (non necessariamente realmente esistenti), altrimenti mostrano unicamente le relazioni di parentela tra le specie. Si noti che stabilire la radice dell albero filogenetico è un operazione abbastanza complessa, proprio per la lettura che, in questo caso, si da ai nodi interni. 2.1 Metodi di ricostruzione di filogenesi I metodi di ricostruzione di filogenesi che si utilizzeranno durante l esercitazione possono essere suddivisi in tre tipologie: - metodi basati sulla distanza; - metodo di massima verosimiglianza; - metodo di massima parsimonia. Nei prossimi paragrafi delineeremo le caratteristiche di queste tre tipologie. 2

3 2.1.1 Metodi basati sulla distanza I metodi basati sulla distanza sono metodi composti da due fasi distinte. La prima fase prende in input l allineamento multiplo di un insieme di sequenze genetiche (ciascuna relativa a una specie presa in esame) e, sulla base dell allineamento fornito, calcola una matrice della distanza evolutiva tra tutte le coppie di specie considerate. Nella seconda fase, invece, viene costruito un albero filogenetico pesato che rispetti la matrice delle distanze ottenuta precedentemente, ovvero per il quale la somma dei pesi degli archi del cammino che congiunge ciascuna coppia di specie sia approssimativamente uguale alla distanza evolutiva della coppia stessa. Calcolo della distanza evolutiva. La distanza evolutiva è una misura quantitativa della differenza fra le sequenze genetiche relative alle due specie rispetto all allineamento fornito e viene interpretata come una stima del tempo di divergenza tra le due specie. Per poter essere così interpretata, la distanza evolutiva è calcolata basandosi sulla stima della probabilità che si verifichi l insieme delle mutazioni che distinguono le sequenze sotto l assunzione di un preciso modello biologico di riferimento. Attualmente, i modelli più importanti e utilizzati in letteratura sono quattro seguenti. 1. Il modello di Jukes Cantor. In questo modello si assume che la probabilità che una base azotata muti in una delle altre tre è uniforme fra tutte le basi. 2. Il modello di Kimura. Questo modello si basa sull osservazione che la struttura chimica di adenina e guanina (che sono due purine) è profondamente differente da quella di citosina e timina (che sono due pirimidine). Di conseguenza, nel modello di Kimura si assume che la probabilità che avvenga una transizione, cioè una mutazione da una purina a una pirimidina (o viceversa), sia differente dalla probabilità che avvenga una transversione, cioè una mutazione da una purina a un altra purina o da una pirimidina a un altra pirimidina. Per questo motivo è anche chiamato modello a 2 parametri. Generalmente le transizioni sono considerate più probabili delle transversioni con un rapporto di 2/1. Naturalmente il modello di Kimura è una generalizzazione del modello di Jukes Cantor. 3. Il modello F84. Questo modello è un arricchimento del modello di Kimura in cui le 4 basi azotate non sono considerate equiprobabili e, in base alle frequenze con cui si presentano nelle sequenze (o a informazioni a priori), vengono derivate le probabilità di mutazione. 4. Il modello Log Det. Questo modello si differenzia dai precedenti e si basa sulla stima della probabilità congiunta con cui si presentano le basi nelle due sequenze. Risulta essere particolarmente adatto quando la frequenza delle basi varia notevolmente di sequenza in sequenza. In questi casi, infatti, i primi tre modelli non forniscono risultati validi. 3

4 Tutti questi modelli, inoltre, prendono in considerazione ulteriori parametri, come la variazione del tasso di mutazione in funzione della posizione all interno della sequenza 1, per meglio approssimare la realtà biologica per come è ad oggi conosciuta. Costruzione dell albero. Una volta ottenuta una matrice delle distanze evolutive fra le specie 2 si può procedere alla costruzione dell albero che rispetta le distanze date. In letteratura sono stati proposti diversi algoritmi per risolvere questo problema. Tra di essi ricordiamo l algoritmo UPGMA, neighbour joining e Fitch Margoliash. I primi due algoritmi si basano sulla fusione iterativa dei due cluster di specie che, ad ogni passo, minimizzano una funzione della distanza mentre il terzo algoritmo ricerca l albero che minimizza l errore fra distanza predetta sull albero e distanza evolutiva specificata in input. La correttezza dei primi due algoritmi è garantita solo se la matrice delle distanze soddisfa una determinata ipotesi (ultrametricità per UPGMA e addittività per NJ) che, sfortunatamente, non è verificata in pratica. Il terzo metodo, invece, è più generale ma molto più lento dei precedenti e, se la matrice delle distanze è quasi ultrametrica (o quasi addittiva), non fornisce risultati troppo dissimili dai precedenti Metodo di massima verosimiglianza (ML) Questo metodo ha natura statistica e mira a ricostruire l albero che più verosimilmente ha portato alla generazione dell allineamento in input ricostruendo la storia evolutiva di ogni singolo sito (cioè ogni singola base) delle diverse sequenze. In questo metodo si assume che ciascun sito si sia evoluto, quindi sia mutato, indipendentemente dagli altri e, parallelamente, che ogni linea evolutiva sia indipendente dalle altre. Risulta essere essenziale fornire al metodo le sequenze complete di tutte le basi e non solo le parti che differiscono tra le diverse specie altrimenti le stime del tasso di evoluzione, e quindi gli stessi output, risultano essere fortemente compromessi. Il metodo di ML è un metodo iterativo potenzialmente molto lento e, in linea generale, non è in grado di trovare l albero filogenetico ottimo. Per questo motivo è spesso buona norma confrontare gli alberi risultanti da diverse ricostruzioni a partire dalle stesse sequenze ma considerate con ordini differenti. Qualora la ricostruzione risentisse fortemente dell ordine delle sequenze, i risultati ottenuti avrebbero scarsa significatività. 1 Questo parametro è particolarmente utile per sequenze composte da esoni e introni, dove gli introni, che non sono codificanti, hanno generalmente un numero più elevato di mutazioni 2 Si noti che nel nostro caso la matrice delle distanze è stata ottenuta dall allineamento multiplo di sequenze nucleotidiche. Gli algoritmi di costruzione dell albero, comunque, potrebbero essere impiegati anche per matrici delle distanze ottenute a partire da altri dati o, al limite, derivate dalla conoscenza del biologo. 4

5 Il metodo di massima verosimiglianza fornisce alberi filogenetici non radicati perché è in grado unicamente di stabilire delle relazioni fra le specie, e fra gruppi di specie, ma non riesce a stabilire una relazione di parentela fra i nodi interni (e, quindi, non riesce a determinare la radice dell albero). Sotto l assunzione che valga l ipotesi dell orologio molecolare, però, si è però in grado di stimare il tempo in cui due specie si sono distinte e, di conseguenza, le relazioni di parentela fra i nodi interni. Purtroppo la validità dei risultati ottenuti sotto questa assunzione è piuttosto discussa e, in alcuni casi, decisamente ridotta Metodo di massima parsimonia Il criterio di parsimonia è un criterio usato trasversalmente in bioinformatica perché formalizza il principio conosciuto con il nome di rasoio di Occam generalmente ritenuto valido in biologia (e anche in altre discipline). Secondo il rasoio di Occam, se più soluzioni a un problema sono possibili allora quella giusta è (molto probabilmente) quella più semplice. Nel caso della ricostruzione di filogenesi secondo il metodo di massima parsimonia, quindi, si ricerca l albero che induce il numero minimo di mutazioni tra i vari nodi dell albero, sia interni che foglia. Anche in questo caso, lo spazio delle soluzioni, ovvero di tutti gli alberi filogenetici pesati, in cui trovare l albero ottimo è potenzialmente molto grande (varia esponenzialmente con il numero di sequenze). Per questo motivo, anche il metodo di massima parsimonia richiede un considerevole sforzo computazionale per trovare la soluzione ottima (se si utilizza un algoritmo esatto) oppure fornisce una soluzione buona in tempi ragionevoli (utilizzando un algoritmo euristico). 2.2 PHYLIP - Un software per la ricostruzione di filogenesi PHYLIP è una collezione di programmi liberamente disponibili che implementano un largo numero di metodi per la ricostruzione e lo studio di filogenesi. L home page del progetto è raggiungibile all indirizzo html. Tramite il sito è possibile scaricare i programmi precompilati per le piattaforme più diffuse e la relativa documentazione (molte distribuzioni Linux hanno PHYLIP nel loro repository dei pacchetti). Tutti i metodi (nonché numerosi altri) che sono stati riassunti nella sezione precedente sono disponibili in PHYLIP come singoli programmi con interfaccia testuale a menù. La scelta progettuale di suddividere in più programmi tutte le funzionalità offerte ha comportato una semplificazione nello sviluppo dei singoli programmi, una maggior pulizia dell interfaccia di ciascun programma e consente una maggior flessibilità di utilizzo. Per 5

6 contro esso richiede all utente di conoscere i vari programmi compresi nella collezione e le funzionalità offerte da ciascuno di essi. L utilizzo di PHYLIP avviene, di solito, in flussi di lavoro in cui il file in output di un programma viene poi utilizzato come input di un altro e così via. In genere i singoli programmi rispettano la convenzione di utilizzare il file infile come file in input e i file outfile e outtree come file in output. Se il file infile non viene trovato all avvio del programma, viene richiesto all utente di specificare da console il file in input da utilizzare. Una volta avviato il programma (ed eventualmente specificato il file in input), l utente può modificare le impostazioni rispetto al loro valore di default mediante il menù presentato a schermo. Finita la personalizzazione è possibile, in genere con la funzione Y, lanciare l esecuzione del metodo vero e proprio. Qui di seguito vengono presentati i programmi che si utilizzeranno durante l esercitazione. - Programmi di ricostruzione di filogenesi Metodi basati sulla distanza dnadist, calcolo delle matrici di distanza (tutti i modelli) neighbor, costruzione di alberi mediante UPGMA e NJ fitch, costruzione di alberi mediante Fitch Margoliash kitch, costruzione di alberi mediante Fitch Margoliash sotto l ipotesi dell orologio molecolare Metodo di massima verosimiglianza dnaml, metodo di massima verosimiglianza dnamlk, metodo di massima verosimiglianza sotto l ipotesi dell orologio molecolare Metodo di massima parsimonia dnapars, algoritmo euristico per il metodo di massima parsimonia dnapenny, algoritmo esatto per il metodo di massima parsimonia - Programmi di visualizzazione e manipolazione di alberi filogenetici drawgram, visualizzazione grafica di alberi filogenetici radicati drawtree, visualizzazione grafica di alberi filogenetici non radicati consense, calcolo dell albero di consenso fra diversi alberi filogenetici treedist, calcolo di misure per quantificare la differenza fra alberi filogenetici retree, manipolazione interattiva di alberi filogenetici Un altro programma di estrema utilità è seqboot che consente, tra tutte le funzionalità che offre, di estrarre un campione casuale di sequenze dalle sequenze fornite in input. 6

7 Questo programma è impiegato per validare la significatività dell albero di filogenesi che viene ottenuto. Infatti, un flusso di lavoro tipico prevede: (1) la generazione del campione di n insiemi di sequenze a partire dall allineamento in input, (2) la ricostruzione di n alberi filogenetici a partire da ciascun insieme del campione e (3) la costruzione di un albero di consenso (con il programma consense) che riassume la struttura degli n alberi generati. Quasi tutti i programmi indicati supportano direttamente la gestione del campione generato tramite seqboot utilizzando l opzione di dataset multipli (opzione M) Utilizzo di PHYLIP In questa sezione verrà richiesto di utilizzare PHYLIP per ricostruire la filogenesi delle specie Human, Chimp, Gorilla, Orang, Macaque e Night Monkey sulla base delle sequenze nucleotidiche che codificano un gene ortologo alle specie. Queste sequenze sono memorizzate nel file sequenze_6.txt nella cartella c:\temp\esercitazione su Windows e /tmp/esercitazione su Linux. L invocazione dei programmi deve essere fatta a linea di comando in una finestra di console (Prompt dei Comandi). Le modalità di invocazione variano a seconda del sistema operativo utilizzato: in Windows si deve invocare direttamente il nome del programma, mentre in Linux si deve invocare il programma phylip passandogli come unico parametro il nome del programma desiderato. I file in output dei vari programmi (file out*) devono essere rinominati con un nome indicativo del contenuto in modo da poter tenere traccia del lavoro svolto ed evitare di sovrascrivere i risultati delle invocazioni precedenti. Il tutto deve poi essere compresso in un archivio e inviato per posta elettronica come indicato nelle istruzioni generali. Esercizio 1 Calcolare le matrici delle distanze evolutive tra le specie considerate secondo i modelli di Jukes Cantor, Kimura e F84 (con i parametri di default) salvandole in file separati. Le 3 matrici sono differenti? Esercizio 2 Ricostruire gli alberi filogenetici a partire dalle matrici delle distanze ottenute nell esercizio 1 con i vari metodi disponibili (NJ, UPGMA, Fitch Margoliash e Fitch Margoliash con orologio molecolare). Si dovrebbero ottenere 12 alberi filogenetici. Sono differenti? 7

8 Esercizio 3 Rappresentare graficamente (in un file PostScript) gli alberi ottenuti mediante Kimura + NJ e F84 + Fitch Margoliash con orologio molecolare. Sono differenti? Che programmi sono stati usati per rappresentarli? Perché? Esercizio 4 Ricostruire l albero filogenetico con il metodo di NJ a partire dalla matrice delle distanze ottenuta con Kimura applicando una randomizzazione dell ordine delle sequenze in input (opzione J del programma) e confrontare i risultati ottenuti con l albero generato precedentemente con Kimura + NJ. I due alberi sono differenti? Se sì, come? Cosa se ne deduce? Esercizio 5 Applicare il metodo di massima parsimonia alle sequenze in input sia nella versione euristica che nella versione esatta. Quale dei due programmi impiega più tempo? I risultati differiscono? Cosa se ne deduce? Esercizio 6 Applicare il metodo di massima verosimiglianza alle sequenze in input senza e con orologio molecolare. In cosa differiscono i due metodi? I risultati sono differenti? Secondo ML con orologio molecolare qual è la specie più imparentata con l uomo? Esercizio 7 Applicare il metodo di massima verosimiglianza con orologio molecolare randomizzando l ordine delle sequenze in input (opzione J del menù). Il risultato cambia notevolmente rispetto a quello ottenuto senza randomizzare l ordine? Utilizzate il programma treedist per calcolare la Branch Score Distance. Quanto è la distanza? Attenzione: i due alberi sono radicati, attivate l opzione opportuna di treedist. Esercizio 8 Utilizzare il programma seqboot per generare un campione casuale a partire dalle sequenze in input e effettuare la ricostruzione dell albero filogenetico con il metodo del ML con orologio molecolare. Attenzione: attivare l opzione di analisi di data set multipli in dnamlk. Costruire l albero di consenso e rappresentarlo graficamente. Il risultato differisce significativamente da quello ottenuto precedentemente? Cosa se ne deduce? 8