Filogenesi molecolare
Evoluzione dei geni Gene ancestrale Gene duplicazione genica Gene speciazione Gene 1 Gene 1 ortologhi paraloghi ortologhi Gene 2 Gene 2 Specie 1 Specie 2
Proteine o acidi nucleici? In filogenesi vengono utilizzati entrambi, ma è necessario fissare alcuni aspetti chiave che definiscono i diversi range di azione dei due: Sequenze proteiche - necessitano di matrici si sostituzione 20x20, molto complesse da trattare. - sono espressione di sole regioni codificanti. - aminoacidi identici possono essere espressione di più codoni Sequenze nucleotidiche - sono descrivibili con matrici 4x4. - possono essere estratte da sequenze genomiche non codificanti, quindi con una tendenza all avariazione più ampia - non hanno degenerazione né ridondanza. Per la filogenesi molecolare è preferibile utilizzare sequenze nucleotidiche
ssunzioni a priori Per calcolare una distanza evolutiva è necessario formulare un modello evolutivo: è quindi necessario considerare alcuni aspetti generali che possono essere considerati assunzioni a priori del modello: 1. tutti i siti evolvono in modo indipendente 2. tutti i siti mutano con la stessa probabilità 3. tutte le sostituzioni sono ugualmente probabili 4. la velocità di sostituzione è costante nel tempo 5. la composizione delle basi è costante Fare assunzioni a priori semplifica la trattazione matematica del modello (e quindi anche il numero di calcoli da effettuare) ma in generale si può affermare che: maggiore è il numero di assunzioni a priori - maggiore è la semplicità del modello - minore è l attendibilità dei risultati
lcuni modelli proposti ssunzioni 1 2 3 4 5 J69 - Jukes & antor (1969) x x x x x KIM - Kimura (1980). x x x x Tamura (1992) x x x F81 - Felsenstein (1981) x x x x Hasegawa (1985) x x x GTR - Lanave (1984) x x Il modello GTR è il più complesso possibile, compatibilmente con una trattazione matematica adeguata. Tutti i modelli richiedono però che la composizione in basi sia stazionaria, altrimenti non possono essere applicati. isogna quindi verificarlo prima.
lcuni modelli proposti ssunzioni 1 2 3 4 5 J69 - Jukes & antor (1969) x x x x x KIM - Kimura (1980). x x x x 3: tutte le sostituzioni sono ugualmente probabili Jukes & antor Kimura a 2 parametri
L orologio molecolare L evoluzione è un processo inevitabilmente divergente e il numero di mutazioni che si accumulano nel tempo è direttamente proporzionale al tempo intercorso dalla divergenza delle sequenze in analisi. (1965, Zuckerkandl e Pauling). Se questo è vero, data una distanza genetica calcolata osservando le divergenze, è possibile ottenere il tempo trascorso dal momento in cui due sequenze hanno cominciato a divergere. Inoltre, se la velocità di accumulo delle mutazioni è costante, è possibile la datazione degli organismi in base a un solo dato verificato di distanza temporale. K K es. istanza uomo topo: 80 milioni di anni V = ----- => = ------ istanza tra le alpha-globine: 0.093 2t 2V V = 0.56 x 10-8 sostituzioni/sito anno => anche se l orologio molecolare è vero, non è universale, perché siti diversi hanno diversi tassi di mutazione.
lberi filogenetici Sono grafi costituiti da NOI, che rappresentano le unità tassonomiche e da RMI che uniscono i nodi, rappresentando le distanze tra i due. Si definisce TOPOLOGI la struttura generale di un albero. Se ai rami non si dà valenza di distanza evolutiva, ho un LOGRMM, altrimenti ho un FILOGRMM. radice lberi ON RIE accettano come vera l ipotesi dell orologio molecolare e i nodi stanno in un preciso ordine temporale. nodo ramo F E E lberi SENZ RIE non prevedono significati evolutivi in termini temporali e descrivono semplicemente le relazioni tra le sequenze F ramo nodo
Topologie degli alberi filogenetici La topologia è la forma dell albero, e determinare la sua topologia è il primo passo dell analisi filogenetica. Il numero complessivo di alberi che si possono costruire con N sequenze (denominate OTU, cioè Operational Taxonomic Units) è dato da Rooted: (2N - 3)! Nr = ---------------- 2 N-3 (N - 3)! Unrooted: (2N - 5)! Nu = ---------------- 2 N-3 (N - 3)! es. 10 OTU, albero con root Nr = ((2*10)-3)! / 2 7 (7)! = circa 35 milioni di alberi possibili
Metodologie: Metodi per la creazione degli alberi I sistemi per costruire gli alberi possono essere distinti secondo due tipi di raggruppamenti, a seconde delle lgoritmi di clusterizzazione (FM, UPMG, NJ): si basano sull osservazione delle distanze genetiche calcolate su allineamenti multipli. lgoritmi di ottimizzazione (Minima evoluzione): ottimizzazione degli alberi in base a criteri obiettivi di qualità. o in base alla Origine dei dati: istanze genetiche pre-calcolate: tempi di calcolo minori. Sequenze omologhe multiallineate: tempi di calcolo molto maggiori.
istanze genetiche Per la distinzione filogenetica di due sequenze, è necessario conoscere quanto esse divergono. Serve quindi un parametro oggettivo e calcolabile, definito distanza genetica. - Per gli acidi nucleici conservati spesso si utilizza semplicemente il numero di sostituzioni percentuiali osservate dopo allineamento multiplo. n sostituzioni d = lunghezza - Per gli acidi nucleici meno conservati (> 25%) la d viene corretta con la formula di Jukes-antor d = 3 4 log ( 1- ) 4 3 d - Per le proteine, allineate con una matrice di sostituzione, spesso viene utilizzata la formula approssimata d = S obs S rand S max S rand S obs S max S rand score dell allineamento score massimo (media degli score degli allineamenti di tutte le proteine con loro stesse) score atteso per sequenze della stessa lunghezza e composizione
Tabelle di distanza La tabella di distanza più semplice deriva da allineamenti multipli in cui tutte le sequenze hanno la stessa lunghezza (es. un frammento di allineamento multiplo). 3 6 7 8 3 7
Le relazioni filogenetiche negli alberi I sistemi per costruire gli alberi devono capire come le sequenze stanno in relazione tra loro: il sistema da cui si estraggono le informazioni (le sequenze stesse o le distanze) serve a creare un sistema di equazioni in grado di capire quando le sequenze divergono (i nodi) e quanto estesa è la separazione (i rami). 22 a b 39 c 41 e si arriva a capire come, quanto e dove si biforcano, utilizzando criteri di varia natura, non necessariamente molecolari. Si parte da un albero teorico in cui si inseriscono le varie OTU, senza dare importanza ai vari rami 12 10 29
Schema di applicabilità dei vari metodi
lgoritmo di Fitch-Margoliash (FM) L algoritmo di Fitch-Margoliash serve a calcolare la lunghezza dei rami dato un albero a topologia nota. Funziona bene quando le distanze sono relativamente comparabili e assume che la lunghezza dei rami sia additiva. Per 3 sequenze procede così: 22 a b 39 c 41 lbero generico (1) a+b = 22 (2) a+c = 39 (3) b+c = 41 Sistema: 3 equazioni 3 incognite => sempre risolvibile 12 10 29 lbero vero Esempio: (4) = (2) - (3) = a - b = 39-41 = - 2 (4)+(1) = a+b-(a-b) = 2b = 20 => b = 10 da (1): a + 10 = 22 => a = 12 da (2): 12 + c = 39 => c = 29
lgoritmo di Fitch-Margoliash (FM) con N > 3 L algoritmo di Fitch-Margoliash con 5 sequenze esemplifica i passaggi per ogni caso in cui N (OTU) > 3: ata una matrice di distanze e un albero a topologia nota: erco le OTU più vicine. alcolo la loro distanza media dalle altre OTU. Uso questa per calcolare la lunghezza dei rami che uniscono le OTU vicine al loro nodo. Unisco le OTU vicine, utilizzando come distanze la media delle distanze che questi avevano rispetto alle altre OTU dell albero. reo una nuova matrice di distanze
lgoritmo di Fitch-Margoliash (FM) con N > 3 ata una matrice di distanze... e. un albero a topologia nota (1) d(,e) = d + e = 10 (2) d(,) = d + m = (39+41+18)/3 = 32.7 m = g+[c+(f+a)+(f+b)]/3 (3) d(e,) = e + m = (41+43+20)/3 = 34.7 (4) = (2) - (3) = d - e = -2 => d = e - 2 da (1) e (4): d + e = e - 2 + e = 10 => 2e = 12 => e = 6 da (1): d - 6 = 10 => d = 4 b a f g 6 c E 4 OTU risolte b b a a f g e gc + gfa + gfb 3 La distanza media di o E da,,e f c E d c g
lgoritmo di Fitch-Margoliash (FM) con N > 3 Matrice di partenza con N = 5 OTU d(,) = 39 d(,e) = 41 d(,) = 41 d(,e) = 43 d(,) = 18 d(,e) = 20 d(,(e)) = 40 d(,(e)) = 42 d(,(e)) = 19 Matrice con N-1 = 4 OTU
lgoritmo di Fitch-Margoliash (FM) con N > 3 ata una matrice di distanze... e. un albero a topologia nota (1) d(,e) = c + g = 19 (2) d(,) = c + m = (39+41)/2 = 40 (3) d(e,) = g + m = (40+42)/2 = 41 (4) = (2) - (3) = c - g = -1 => c = g - 1 E m = [(f+a)+(f+b)]/2 da (3): c + g = g - 1 + g = 19 => 2g = 20 => g = 10/2 = 5 (condivisi tra ed E) da (3): c + 10 = 19 => c = 9 b a f g 6 c 4 b a f 9 5 4 6 OTU risolte Procedendo in questo modo, via via si risolvono le lunghezze di tutti i rami E
Neighbour - Joining E un metodo rapido per risolvere la topologia degli alberi e viene utilizzato quando si ipotizzano evoluzioni con diverse velocità. SI basa sul quadrato delle lunghezze dei rami, cercando di minimizzarlo. La procedura è la seguente: Si parte da un albero a stella Si estrae dall albero una coppia (es. ) Si calcolano tutti i rami con FM. Si sommano i rami. Ottengo uno score S
Neighbour Joining: S 0 L albero a stella iniziale ha uno score S 0, il punto di partenza per i confronti. Il calcolo della somma dei rami si effettua percorrendo i tracciati da una OTU ad un altra, senza ripetere i percorsi doppi e utilizzando una matrice di distanze. d+d+d+de b+d+de d+de de + (ab+ac+ad+ae) + (bc+bd+be) + (cd+ce) = (de) 22 + 39 + 39 + 41 + Ogni ramo è contato 4 volte 41 + 41 + 43 + 18 + 20 + 10 = 314 / 4 = 78.5 La formula generale per risolvere S 0 è: S o = Σ d ij / (N-1) Score S 0
Neighbour Joining: S ab L albero in cui viene isolata la coppia avrà una topologia diversa, e la somma dei rami S ab sarà da calcolare con criteri diversi: isogna stare attenti a non ripassare per più volte sullo stesso percorso. Matematicamente questo si risolve dividendo in modo coerente gli score che si ottengono dalle coppie. La formula generale per risolvere S è: d + (ab) d+d+de + (afc+afd+afe) b+d+de + (bfc+bfd+bfe) d+de + (cd+ce) de = (de+) 22 = 22.0 + (39 + 39 + 41) / 3 = 39.6 + (41 + 41 + 43) / 3 = 41.6 + (18 + 20) = 38.0 + 10 = 141.2 S ab = [(Σ d ia +d ib )/(2(N-2))] + (d ab /2) + [(Σ d ij )/(N-2)] i,j tutte le sequenze tranne a ed b
Questa viene definita vicina (neighbour) e viene unita (joined). Si ricrea una nuova matrice di distanze in cui la coppia figura come una singola OTU (le distanze saranno la media delle distanze dalle due), e si ripete la procedura daccapo. Ogni volta la lunghezza dei rami viene calcolata con l algoritmo FM. Neighbour Joining Vengono provate tutte le coppie, cercando quella che totalizza lo score S più basso.
Unweighted Pair Group Method with ritmetic mean Il metodo UPGM è il più semplice da calcolare. ssume l orologio molecolare e si basa sul fatto che tra due sequenze accoppiate ci sia uguale divergenza. oppia più simile: E, dato che la loro distanza è 10, ad ogni ramo viene assegnato 10/2 = 5 5 on E accoppiati, creo una nuova matrice in cui le distanze tengono conto della media delle distanze tra E e le altre OTU. osì facendo risulta che le più vicine sono ora a E con una d = 19., Quindi è a 19/2 = 9.5 da E e il ramo che congiunge il nodo da E sarà 9.5-5 = 4.5 9.5 5 4.5 9.5 5 5 E E ggiungendo via via le coppie più simili e assegnando loro la distanza media tra le due, posso ottenere la topologia completa dell albero.
Metodo della massima parsimonia Non si lavora più con le distanze ma con le sequenze: si cerca l albero che richiede il minor numero di sostituzioni che spieghino le differenze osservate tra le sequenze. Si lavora solo su alcuni siti INFORMTIVI, cioè che presentano almeno 2 residui uguali. In questo caso è la topologia rossa. 1 2 3 TGTGGTGTG TGTTGGTTGTTTG TTGGGTGTGTG TTGTTGTTTG G G 1 G G G G G T T 2 T T T T T T T G T T G 3 T G G G G T T
Massima verosimiglianza Per ciascun sito del multiallineamento si calcola la probabilità che esso sia generato da un preciso albero. Estendendo la ricerca di probabilità a tutti i possibili alberi, ottengo l albero a maggior probabilità di rappresentare il multiallineamento. E il metodo più corretto di valutare le significatività degli alberi, ma ha un grosso limite: L enorme mole di calcolo per ottenere il risultato È impossibile ottenere risultati per multi-allineamenti di più di 20-30 sequenze Sono stati prodotti vari metodi di approssimazione, tra cui uno detto quartet puzzle (QP) in cui si fanno operazioni su gruppi di 4 sequenze, e i risultati vengono intersecati tra loro.
ootstrapping E un metodo relativamente semplice per determinare la significatività di un risultato derivante da una analisi complessa: Si tratta di un RIMPIONMENTO casuale di sequenze a cui vengono applicate le stesse procedure applicate alle sequenze vere. In questo modo ottengo due valori: - uno effettivo, quello delle sequenze in analisi - uno che rappresenta il valore che otterrei con un campione casuale. al loro confronto è possibile ottenere una stima della veridicità del risultato. In generale vale la regola che: Maggiore è il numero di operazione di bootstrapping, maggiore è l attendibilità dei valori. Maggiore è la percentuale di risultati di bootstrapping che si accordano col risultato vero, maggiore è la precisione della stima del valore vero.
Principali programmi per l analisi filogenetica PHYLIP (http://evolution.genetics.washington.edu/phylip.html) è un pacchetto di programmi curati da Joseph Felsenstein che non hanno interfaccia grafica. Sono programmi rapidi, efficienti e versatili, ma un po scomodi da utilizzare a causa della diversità dei formati di file utilizzati e dell approccio di separazione delle varie fasi. PUP: (http://paup.csit.fsu.edu/index.html) come Phylip, ma con un numero maggiore di test statistici per la validazione degli alberi. Ma si paga. Markov: effettua il calcolo delle distanze genetiche utilizzando il modello GTR e effettua il test di stazionarietà della composizione del dataset. E on-line, ma per utilizzarlo bisogna registrarsi.
Principali programmi per l analisi filogenetica Mrayes: (http://mrbayes.csit.fsu.edu/index.php) utilizza per il calcolo delle distanze un metodo introdotto recentemente di inferenza bayesiana, che sta dando ottimi risultati in termini di qualità degli alberi generati. PhyloWin: (http://pbil.univ-lyon1.fr/software/phylowin.html) dotato di interfaccia grafica, è piuttosto semplice e consente analisi con i metodi presenti anche in Phylip e PUP. MEG: (http://www.megasoftware.net/) attualmente è il programma più completo e facile da usare. Ha un interfaccia grafica molto intuitiva, una serie di strumenti grafici per la comprensione dei risultati e comprende numerosi approcci per il calcolo delle distanze, per la costruzione degli alberi e per la valutazione dell attendibilità con numerosi test statistici. Inoltre il manuale di Mega è molto completo, quasi un libro sulla filogenesi molecolare.