Ortologhi e paraloghi

Транскрипт

1 Ortologhi e paraloghi Similarità e distanza Sequenza originaria GHSVLIWETS Gene Gene uplicazione Eventi di sostituzione: vvenuti = 12 Osservabili = 3 Speciazione Gene 1 Gene 2 Geni Ortologhi uplicazione Gene Gene Geni Paraloghi Singola oincidenti Parallele Multiple RetroSostituzione onvergenti >T G H> S V>I L I>>L W E>>E T S>I>T G H S V L I W E T S >E >I >T Ortologhi e paraloghi Proteine o geni omologhi possono appartenere stessa specie o a specie diverse e possono avere origine in seguito ad eventi di Speciazione o di uplicazione. Quando nasce una nuova specie lo stesso gene si troverà in due copie diverse nelle due specie diverse e ognuna delle due copie avrà la sua storia evolutiva ma continuerà nei due diversi organismi a svolgere la stessa funzione. Geni omologhi che hanno questa origine sono definiti Ortologhi. L'altro modo attraverso cui possono nascere geni omologhi è attraverso eventi di duplicazione. In questo caso le due copie del gene si trovano nello stesso organismo e spesso una delle due assume una funzione diversa dalla prima. Geni omologhi che si sono originati attraverso eventi di duplicazione perndono il nome di Paraloghi. Identità tra due sequenze e distanza evolutiva Uno dei modi per valutare la distanza evolutiva fra due sequenze è quello di misurare la loro Identità allineandole. Si può infatti suppporre che il numero di sostituzioni che osserviamo sono un indice del tempo trascorso dalla loro separazione. Ma le sostituzioni aminoacidiche che si possono osservare tra due sequenze sono solo una parte delle sostituzioni che sono in realtà avvenute. Infatti tutti gli eventi di sostituzione che ripristinano l'identità di due aminoacidi in una posizione delle sequenze impediscono di contare tutti gli altri eventi avvenuti in precedenza nella stessa posizione. Gli eventi di sostituzione hanno nomi diversi a seconda se coinvolgano la stessa posizione in una sola o in enrtambe le sequenze, se avvengono in posizioni nuove o che già avevano subito una sostituzione o se ripristinano l'identità in una posizione. Nella figura sono rappresentate due sequenze separatesi in seguito ad un evento di duplicazione e che accumulano una serie di sostituzioni (frecce gialle). Le posizioni che in seguito all'evento di sostituzione risultano diverse sono le uniche sostituzioni osservabili (in rosso). In totale, nell'esempio, di 12 sostituzioni avvenute fra le due sequenze, quelle osservabili (allineando le due sequenze finali) sono solamente 3.

2 istanza Genetica % Identità 0% istanza Jukes & antor d= istanza Genetica d(nucleotidi) = 0. * ln( 1 0.*N ) d(aminoacidi) = 0.9 * ln( 1 0.9*N ) 2% 0% % 100% Meglio usare sequenze nucleotidiche: regioni non codificanti mutazioni nucleotidiche possono non essere aminoacidiche modello più facile Tempo Tempo ssunzioni del modello: Stessa probabilità delle sostituzioni Stessa probabilità dei siti Indipendenza dei siti OROLOGIO MOLEOLRE Velocità di sostituzione costante STZIONRIET omposizione nucleotidica costante istanza Genetica La distanza genetica è una stima della misura del tempo trascorso dalla separazione di due sequenze. Per misurare la distanza fra due geni è meglio usare la sequenza nucleotidica piuttosto che quella aminoacidica per tre diversi motivi. Primo perchè possiamo così anche analizzare le regioni non codificanti del gene, secondo perchè mutazioni a livello di nucleotidi possono non trasformarsi in mutazioni a livello di aminoacidi e terzo perchè trattandosi solamente di basi, qualunque modello si voglia utilizzare sarà più facile. causa di eventi di sostituzione che possono avvenire ma non sono più contabili, se analizziamo due sequenze nucleotidiche (N o RN) a tempi diversi dal loro momento di separazione il numero di nucleotidi identici che contengono non diminuisce linearmente, ma ad un certo punto rallenta fino a tendere al 2%. Questo perchè una volta che fra due sequenze nucleotidiche rimane solo il 2 per cento di identità, ogni nuovo evento di sostituzione ha la stessa probabilità di aumentare la loro identità, quanto di diminuirla. L'identità di due sequenze non è quindi una buona misura della loro distanza perchè, superata una certa soglia a tempi molto lunghi corrisponderebbe una diminuzione del valore molto basso. istanza Jukes & antor Una misura di distanza corretta fra due sequenze dovrebbe crescere linearmente con il passare del tempo. Il più semplice dei modelli probabilistici che possono essere usati per ottenre una misura della distanza genetica fra due sequenze nucleotidiche a partire dalla misura della loro similarità è quello di Jukes e antor. Secondo questo modello la distanza tra due sequenze è pari a 3/ * ln(13/) dove è la frazione di nucleotidi non identici che rimangono fra le due sequenze. Lo stesso modello può essere applicato alle proteine sostituendo entrambi i valori costanti di 3/ con 19/20. Perchè la distanza genetica fra due sequenze misurata in questo modo sia però valida devono essere anche valide una serie di assunzioni: ogni sito deve avere la stessa probabilità di mutare, la probabilità di una sostituzione deve essere uguale per ogni nucleotide, la probabilità di mutazione in un sito deve essere indipendente da mutazioni in altri siti, la probabilità di mutazioni in una sequenza deve rimanere invariata col passare del tempo (ipotesi dell'orologio molecolare) e la composizione nucleotidica delle sequenze deve rimanere costante col passare del tempo (ipotesi della stazionarietà). Se si vuole supporre per le sequenze un comportamento diverso da questi specificati bisogna far uso di modelli più complessi che misurano la distanza molecolare in altri modi. d esempio un modello più complesso potrebbe permettere di considerare probabilità diverse per le sostituzioni fra purine e pirimidine.

3 Matrici di distanze lberi Filogenetici Radice Nodi interni Unità tassonomiche sconosciute Rami Tempo ψη globine Scimpanzè Gorilla Orango Macaco Scim. Ragno Scimpanzè Gorilla Orango Macaco 0.12 Scim.Ragno Nodi esterni Foglie Unità tassonomiche operative E F istanza FH G H Matrici di distanze Per analizzare le relazioni evolutive fra una serie di geni bisogna inanzitutto calcolare la distanza evolutiva esistente fra ogni singola coppia di sequenze. Per fare questo le sequenze vanno allineate a coppie fra di loro in tutte le possibili combinazioni. Per ogni allineamento viene quindi calcolata la distanza genetica con uno qualunque dei metodi a disposizione. Una volta calcolate le distanza queste possono essere rappresentate in una matrice delle distanze. Una matrice delle distanze è simile ad una matrice di sostituzione fra aminoacidi, ma anzichè contenere valori di similarità fra aminoacidi contiene distanze fra sequenze. La matrice ha tante righe e tante colonne quante sono le sequenze di prese in considerazione, e all'interno di ogni cella della matrice è rappresentata la distanza misurata fra le due sequenze. La diagonale della matrice contiene le distanze fra ogni sequenza con se stessa ed ha quindi valori tutti a 0. La metà della matrice contiene valori identici all'altra metà, dal momento che la distanza fra una sequenza ed una è uguale alla distanza fra ed, e può quindi essere lasciata vuota. Nella figura è rapresentata la matrice di distanze di una serie di geni ortologhi di globine appartenenti a diverse specie di primati. lberi filogenetici onoscendo la matrice di distanze fra una serie di sequenze omologhe il modo migliore per rappresentare le relazioni evolutive ipotetiche esistenti fra di loro e quello di usare un albero filogenetico. Un albero filogenetico è un grafo costituito da una serie di nodi collegati fra di loro da rami. Ogni nodo è collegato solamente ad altri 3, un nodo genitore e due nodi figli. I nodi esterni dell'albero si chiamano foglie e non hanno nodi figli. Le foglie rappresentano le sequenze di cui sono note le sequenze e sono chiamate Unità tassonomiche operative. I nodi interni (Unità tassonomiche sconosciute), rappresentano le proteine/geni ancestrali, di cui non è nota la sequenza, progenitrici delle sequenze rappresentate dai nodi figli. Il nodo senza sequenza genitore è detto radice dell'albero. La lunghezza dei rami rappresenta il tempo trascorso tra una sequenza e l'altra, con i nodi posti più in alto che si sono originati prima. la distanza fra due sequenze qualsiasi è quindi rappresentata dalla somma dei rami che le collegano. La distanza fra le sequenze F ed H è pari alla somma della lunghezza dei rami rappresentati in rosso in figura.

4 Filogenesi molecolare istanze su un piano Filogenesi di geni ortologhi Hb lpha natra Filogenesi di geni paraloghi Hb Zeta Mioglobina Hb lpha Gorilla Hb lpha Hb lpha Ratto Hb lpha Topo Hb lpha Hb Theta Hb Epsilon Hb Gamma Hb eta Hb elta Emoglobina alfa in specie diverse iverse catene di emoglobina nell uomo Filogenesi di geni ortologhi e paraloghi Gli alberi filogenetici sono utilizati per descrivere le relazioni evolutive fra famiglie di geni. E' possiblie studiale la filogenesi di geni ortologhi o di geni paraloghi. Nelle analisi di geni ortologhi viene scelto lo stesso gene in diversi organismi. L'albero che ne deriva sarà quindi simile all'albero che rappresenta i rapporti evolutivi fra le specie prese in considerazione. d esempio in figura è rappresentato l'albero filogenetico del gene dell'emoglobina lfa, in diverse specie di vertebrati. Nelle analisi filogenetiche di geni paraloghi vengono invece scelti geni omologhi apparteneti al medesimo organismo (quindi geni paraloghi). d esempio nella figura è rappresentato l'albero filogenetico delle emoglobine dell' uomo. In questo tipo di alberi vengono quindi rappresentati i rapporti evolutivi fra diversi geni appartenenti ad un unica specie. Ora che abbiamo visto cos'e' un albero filogenetico vedremo quali metodi si usano per costruirlo. Rappresentazione delle distanze usando spazi a più dimensioni ostruire un albero filogenetico, consiste nell'analizzare la matrice delle distanze di una famiglia di sequenze per trovare quali delle sequenze sono meno distanti fra di loro e debbano quindi trovarsi vicine in un albero e quali sono invece più distanti. I metodi che servono a suddividere le sequenze in gruppi di sequenze vicine si chiamano algoritmi di clustering (raggruppamento). Per comprendere a che serve un algoritmo di clustering possiamo immaginare una matrice di distanze rappresentata in modo diverso ovvero usando uno spazio multidimensionale (nella figura schematizzato dalle due dimensioni di un piano) dove la distanza esistente fra ogni coppia nella matrice corrisponde a una distanza nello spazio. d esempio la distanza fra le sequenze viola e quella azzurra è nella matrice delle distanze e deve essere quindi anche sul piano.

5 lustering lustering gerarchico 2 lusters 3 lusters lusters lustering Raggruppare delle sequenze vuol dire associarle insieme in gruppi in modo tale che la somma fra le distanze di tutte le sequenze presenti nello stesso gruppo sia minima. In pratica unire in gruppi le sequenze che sono fra loro più vicine. Il più semplice degli algoritmi di clustering è quello in cui va deciso a priori il numero di gruppi che vogliamo avere. d esempio partendo dalle distanze rappresentate in figura per sei sequenze se dobbiamo scegliere due clusters il modo migliore sarà di raggruppare la sequenze gialla, arancione e rossa in un primo gruppo e quelle rosa, viola e azzurra. Se volessimo fare invece tre gruppi sarebbe meglio mettere la sequenza azzurra ( quella più lontana da tutte) da sola e fare altri due gruppi per le altre. lustering gerarchico Per costruire un albero non è però sufficiente dividere le sequenze in gruppi separati, ma a loro volta i gruppi devono essere raggruppati fra di loro a formare entità più grandi e così via, sino a quando non esista un unico gruppo che comprende tutte le sequenze (la radice dell'albero). Per fare questo tipo di raggruppamento bisogna usare algoritmi di clustering detto gerarchico. Nel clustering gerarchico un singolo oggetto non appartiene ad un solo gruppo ma a più gruppi a loro volta contenuti l'uno dentro l'altro. Nell'esempio in figura la forchetta ed il coltello appartengono al gruppo delle posate, mentre il tegame e lo scolapasta appartengono al gruppo degli oggetti per cucinare. Il bicchiere appartiene insieme al gruppo delle posate all'unico gruppo degli oggetti da tavola. loro volta gli oggetti da tavola appartengono insieme agli oggetti per cucinare all'unico gruppo degli strumenti da cucina. E per finire questi insieme al martello appartengono al gruppo degli oggetti di casa. llo stesso modo in un albero filogenetico le sequenze sono raggruppate a gruppi di due in modo gerarchico.

6 Gerarchico addittivo istanza fra clusters Single linkge istanza minima = omplete linkage istanza massima = 6 ()/2=6 Group verage istanza media = 6 lustering gerarchico addittivo Nell'ambito degli algoritmi di clustering gerarchico possiamo distinguere due tuipi fondamentali quelli di tipo addittivo e quelli di tipo sottrattivo. Nel clustering gerarchico addittivo si cominciano a raggrupparre oggetti (sequenze singole o cluster già formati) a coppie partendo dagli oggetti più vicini, sino a quando non esiste un unico gruppo all'interno del quale ci siano tutte le sequenze. Nella figura le due sequenze più vicine sono la gialla e l'arancione e si iniziano quindi a raggruppare quelle formando il cluster (gruppo) numero 1. desso le due sequenze più vicine sono la rosa e la viola che veno raggruppate di nuovo insieme formando il gruppo 2. Per formare il prossimo gruppo si vede che i due oggetti più vicini sono la sequenza rossa ed il gruppo numero 1 (sequenza gialla e arancione insieme), che vengono quindi raggruppati insieme a formare il gruppo 3. La distanza minore è poi quella fra il gruppo 3 ed il gruppo 2 che vengono uniti a formare il gruppo. Ed infine vengono uniti il gruppo e la sequenza azzurra a formare un ultimo gruppo. In un albero filogenetico le sequenze sono raggruppate a gruppi di due in modo gerarchico. istanza fra clusters e sequenze Nel clustering gerarchico di tipo addittivo ci si trova a dover valutare la distanza fra una sequenza ed un cluster già formato (o anche la distanza fra due cluster diversi). La distanza fra due sequenze la possiamo trovare nella matrice di distanze, ma che vuol dire misurare la distanza fra una sequenza ed un insieme di sequenze già raggruppate in un unico cluster? E' possibile definire tre modi diversi per misurare la distanza fra due cluster, o fra un cluster ed una sequenza. Un criterio è quello di scegliere come distanza fra due clusters la distanza minima possibile, ovvero quella che esiste fra le due sequenze più vicine fra di loro all'interno dei due clusters. d esempio nella figura la distanza minima fra la sequenza ed il cluster è pari a ovvero la distanza fra e ( la sequenza più vicina a all'interno del cluster). Un altro modo (altrettanto sensato) è quello di considerare invece per buona la distanza massima. Ovvero la distanza esistente fra gli elementi dei due cluster più lontani. Nella figura quindi la distanza fra la sequenza ed il cluster sarebbe la distanza fra e (la sequenza più lontana da all'interno del cluster) ovvero. L'ultimo criterio (ed anche quello che useremo noi) è quello di decidere che la distanza fra due clusters è data dalla distanza media fra tutti gli elementi che contengono. Nella figura quindi la distanza tre e è pari alla media fra la distanza () e la distanza () quindi 6 (()/2).

7 UPGMUnweighted Pair Group Method using verages UPGMUnweighted Pair Group Method using verages ()/2= (119)/2 ()/2= (110)/2 (,,)/2= (1012)/2=11 Unweighted pair group Method using averages Il più semplice dei metodi usati per costruire un albero filogenetico di sequenze a partire da una matrice di distanze è quello chiamato UPGM (Unweighted pair group Method using averages). Questo metodo altro non è che un algoritmo di clustering addittivo che usa per calcolare la distanza fra una sequenza ed un cluster la distanza media fra la sequenza e tutte le sequenze del cluster. Il metodo inizia scegliendo all'interno della matrice delle distnze la coppia di sequenze con la distanza minima fra di loro ( nella figura). Le due sequenze formano quindi un primo cluster (cluster ) e sono assegnate come figli ad un primo nodo dell'albero (che rappresenta il cluster, o sequenza progenitrice). Per calcolare la lunghezza dei rami si usa una distanza pari alla metà della distanza fra le due sequenze (ovvero 2.). In questo modo il percorso sull'albero per andare da una sequenza all'altra è esattamente pari alla distanza fra le due sequenze (2. in salita da al nodo 2. in discesa dal nodo alla sequenza ). Una volta formato un primo cluster, questo prenderà il posto delle sequenze (e ) nella matrice. questo punto è necessario ricalcolare le distanze fra il nuovo cluster e tutte le altre sequenze. Queste distanze usando il metodo il criterio della media, sarà pari alla media delle distanze della sequenza con ognuna delle due sequenze che formano il cluster. Nell'esempio quindi la distanza fra la sequenza ed il cluster sarà pari alla media delle distanze fra ed nella vecchia matrice (overo 119 diviso 2). llo stesso modo può essere calcolata la distanza fra la sequenza ed il nuovo cluster. Il metodo prosegue poi come prima considerando il cluster come un unica sequenza. UPGM 2 desso nella matrice delle distanze i due oggetti più vicini sono diventati la sequenza e quella (distanza ). I due oggetti vengono quindi raggruppato in un unico cluster e viene creato un nuovo nodo dell'albero. Le sequenze e formano ora un unico gruppo sulla matrice delle distanze e le nuove distanze vengono ricalcolate. La distanza fra e sarà quindi la media fra la distanza e e fra quella tra e (ovvero diviso 2).

8 UPGMUnweighted Pair Group Method using verages Orologio molecolare Ipotesi orologio molecolare non valida UPGM assunzione Ipotesi orologio molecolare valida Stessa distanza da radice UPGM 3 Nell'ultimo pasaggio esistono solo più due oggetti da raggruppare che sono i cluster e. I due cluster sono uniti da un nuovo nodo sull'albero. Ipotesi orologio molecolare L'ipotesi dell'orologio molecolare afferma che la distanza fra due qualsiasi sequenze aumenta sempre in modo costante col passare del tempo. Questo significa che date una serie di sequenze che derivano da un unica sequenza la distanza fra ognuna di loro e la sequenza progenitrice deve sempre essere uguale. Il metodo UPGM genera degli alberi in cui tutte le foglie hanno la stessa distanza dalla radice e quindi in cui tutte le sequenze che si considerano avranno rappresentate sull'albero una distanza uguale (totale della lunghezza dei rami) dalla sequenza progenitrice (la radice). Questo significa che se vogliamo costruire un albero filogenetico per una serie di sequenze all'interno delle quali l'ipotesi dell'orologio molecolare non è valida (ad esempio esiste una sequenza che evolve più lentamente delle altre per ragioni biologiche) non è possibile usare il metodo UPGM altrimenti otterremmo un risultato inesatto. Quando si usano sequenze le cui distanze non concordano con l'ipotesi dell'orologio molecolare bisogna usare un altro tipo di metodo di clustering. Un albero costruito corretamente per questo tipo di sequenze apparire come l'albero in figura a, in cui la distanza fra le sequenze e la radice sono differenti.

9 istanze ultrametriche Matrice con distanze ULTRMETRIHE Matrice con istanze NON ULTRMETRIHE ate 3 sequenze e le loro 3 distanze E sempre vero che 1<=(2=3) Es: <=(=) <=(=) istanze ultrametriche E' possibile verificare a priori data una matrice di distanze se è valida l'ipotesi dell'orologio molecolare, e quindi se è corretto usare il metodo UPGM per la costruzione dell'albero. Il modo per farlo è quello di vedere se le distanze contenute nella matrice ultrametriche. Una serie di distanze è detta ultrametrica se prese tre sequenze a caso e trovate sulla matrice le loro distanze è sempre vero che delle tre distanze due sono uguali fra di loro e contemporaneamente sono entrambe maggiori o uguali alla terza distanza. d esempio se scegliamo nella matrice di figura a le sequenze,, e e vero che la distanza tra e e quella tra e sono uguali (entrambe ) e sono maggiori della distanza fra e (). E la stessa cosa è vera qualunque insieme di tre sequenze si scelga. Nella matrice di figura invece le distanze non sono ultramertiche. Perchè scelte tre sequenze qualunque si può verificare che la regola non è rispettata. Es Prendendo, e non è mai vero che 1<=(2=3)