Corso di Bioinformatica. Docente: Dr. Antinisca DI MARCO

Corso di Bioinformatica Docente: Dr. Antinisca DI MARCO Email: antinisca.dimarco@univaq.it

Analisi Filogenetica Gene Ancestrale duplicazione genica La filogenesi è lo studio delle relazioni evolutive tra entità biologiche (non solo specie) che condividono antenati comuni Gene A Gene A1 Gene B1 Gene B speciazione ortologhi parologhi ortologhi Gene A2 Gene B2 Specie 1 Specie 2

Analisi Filogenetica La sua rappresentazione grafica è l albero filogenetico L albero filogenetico contiene i tempi e gli schemi temporali dei processi di divergenza Tutti gli organismi hanno un unico antenato comune nel passato Ogni coppia di organismi ha un antenato comune nel passato Eventi di speciazione si susseguono nel tempo creando nuove specie

Analisi Filogenetica Nodo Radice Ricostruzione di Filogenesi Una albero evolutivo, o filogenesi, è un albero con radice o senza radice i cui nodi interni hanno almeno grado 3 (ad eccezione della radice che ha grado 2) e rappresentano specie progenitrici, mentre le foglie rappresentano specie attuali. Gli archi dell albero solitamente rappresentano la distanza temporale tra due specie (nodi). Nodo Radice Nodo Antenato Nodo Antenato Orango Gorilla Uomo Scimpanzé

Analisi Filogenetica Nodo Radice Problema della Ricostruzione di Filogenesi Istanza: un insieme di specie S (es. S = {Orango, Gorilla, }) Questione: trovare la filogenesi T che rappresenta l evoluzione delle specie in S Nodo Radice Nodo Antenato Nodo Antenato Orango Gorilla Uomo Scimpanzé

Analisi Filogenetica Nodo Radice Proteine o acidi nucleici? In filogenesi vengono utilizzati entrambi: Sequenze proteiche - necessitano di matrici si sostituzione 20x20, molto complesse da trattare. - sono espressione di sole regioni codificanti. - aminoacidi identici possono essere espressione di più codoni

Analisi Filogenetica Nodo Radice Proteine o acidi nucleici? In filogenesi vengono utilizzati entrambi: Sequenze proteiche - necessitano di matrici si sostituzione 20x20, molto complesse da trattare. - sono espressione di sole regioni codificanti. - aminoacidi identici possono essere espressione di più codoni Sequenze nucleotidiche - sono descrivibili con matrici 4x4. - possono essere estratte da sequenze genomiche non codificanti, quindi con una tendenza alla variazione più ampia - non hanno degenerazione né ridondanza.

Analisi Filogenetica Nodo Radice Proteine o acidi nucleici? In filogenesi vengono utilizzati entrambi: Sequenze proteiche - necessitano di matrici si sostituzione 20x20, molto complesse da trattare. - sono espressione di sole regioni codificanti. - aminoacidi identici possono essere espressione di più codoni Sequenze nucleotidiche - sono descrivibili con matrici 4x4. - possono essere estratte da sequenze genomiche non codificanti, quindi con una tendenza alla variazione più ampia - non hanno degenerazione né ridondanza. Per la filogenesi molecolare è preferibile utilizzare sequenze nucleotidiche

Analisi Filogenetica Nodo Radice Assunzioni a priori Per calcolare una distanza evolutiva è necessario formulare un modello evolutivo: è quindi necessario considerare alcuni aspetti generali che possono essere considerati assunzioni a priori del modello: 1. tutti i siti evolvono in modo indipendente 2. tutti i siti mutano con la stessa probabilità 3. tutte le sostituzioni sono ugualmente probabili 4. la velocità di sostituzione è costante nel tempo 5. la composizione delle basi è costante maggiore è il numero di assunzioni a priori - maggiore è la semplicità del modello - minore è l attendibilità dei risultati

Analisi Filogenetica Nodo Radice Topologia Si definisce TOPOLOGIA la struttura generale di un albero. Se ai rami non si dà valenza di distanza evolutiva, ho un CLADOGRAMMA, altrimenti ho un FILOGRAMMA. Alberi CON RADICE accettano come vera l ipotesi dell orologio molecolare* e i nodi stanno in un preciso ordine temporale. UOMO MUCCA TOPO Alberi SENZA RADICE Non prevedono significati evolutivi in termini temporali e descrivono semplicemente le relazioni tra le sequenze * L evoluzione è un processo inevitabilmente divergente e il numero di mutazioni che si accumulano nel tempo è direttamente proporzionale al tempo intercorso dalla divergenza delle sequenze in analisi. Se questo è vero, data una distanza genetica calcolata osservando le divergenze, è possibile ottenere il tempo trascorso dal momento in cui due sequenze hanno cominciato a divergere. B A 1 2 C D 3 E

Analisi Filogenetica Nodo Radice Topologia Si definisce TOPOLOGIA la struttura generale di un albero. Se ai rami non si dà valenza di distanza evolutiva, ho un CLADOGRAMMA, altrimenti ho un FILOGRAMMA. Alberi CON RADICE accettano come vera l ipotesi dell orologio molecolare* e i nodi stanno in un preciso ordine temporale. Alberi SENZA RADICE Non prevedono significati evolutivi in termini temporali e descrivono semplicemente le relazioni tra le sequenze Il numero complessivo di alberi che si possono costruire con N sequenze (denominate OTU, cioè Operational Taxonomic Units) è dato da: Rooted N R = (2N - 3)! / (2 N-3 )*(N-3)! UnRooted N U = (2N - 5)! / (2 N-3 )*(N-3)! * L evoluzione è un processo inevitabilmente divergente e il numero di mutazioni che si accumulano nel tempo è direttamente proporzionale al tempo intercorso dalla divergenza delle sequenze in analisi. Se questo è vero, data una distanza genetica calcolata osservando le divergenze, è possibile ottenere il tempo trascorso dal momento in cui due sequenze hanno cominciato a divergere.

Analisi Filogenetica Nodo Radice Metodi per la creazione degli alberi I sistemi per costruire gli alberi possono essere distinti secondo due tipi di raggruppamenti, a seconde delle metodologie: Algoritmi di clusterizzazione (Unweighted Pair Group Method with Aritmetic mean (UPMGA), Neighbour Joining(NJ)): si basano sull osservazione delle distanze genetiche calcolate su allineamenti multipli. Algoritmi di ottimizzazione (Minima evoluzione): ottimizzazione degli alberi in base a criteri obiettivi di qualità. Oppure in base all origine dei dati Distanze genetiche pre-calcolate: tempi di calcolo minori. Sequenze omologhe multiallineate: tempi di calcolo molto superiori.

Analisi Filogenetica Nodo Radice MEGA: http://www.megasoftware.net http://www.megasoftware.net/webhelp/helpfile.htm http://www.megasoftware.net/previousversions.php Per maggiori dettagli sugli algoritmi per studio filogenetico è possibile fare riferimento al file AlgoritmiPhylogenesis.pdf

Neighbour Joining Algorithm The Neighbour Joining method is a method for re-constructing phylogenetic trees, and computing the lengths of the branches of this tree. In each stage, the two nearest nodes of the tree are chosen and defined as neighbours in our tree. This is done recursively until all of the nodes are paired together. Neighbours are defined as a pair of OTU's (OTU=operational taxonomic units, or in other words leaves of the tree), who have one node connecting them. For instance, in the tree in figure 1, nodes A and B are neighbours (connected by only one internal node), and nodes C and D are neighbours, whereas nodes A and C (for example) are not neighbours.

Neighbour Joining Algorithm How do we find neighbours, and how de we construct our tree? 1. We start off with a star tree: 2. We define some kind of distance parameter between our nodes (1 through 5), and enter this parameter into a distance matrix. The columns and rows of the matrix represent nodes, and the value i,j of the matrix represent the distance between node i and node j. Note that the matrix is symmetric, and that the diagonal is irrelevant, therefore only the top half (or lower half) are enough. 3. We pick the two nodes with the lowest value in the matrix defined in step 2. These are defined as neighbours. For example, assuming nodes 1 and 2 are the nearest, we define them as neighbours

Neighbour Joining Algorithm Figure 2(b)

sostituzioni. L algoritmo ha due componenti