Algoritmi di Allineamento

Documenti analoghi
Allineamento e similarità di sequenze

FASTA. Lezione del

ALLINEAMENTO DI SEQUENZE

Lezione 7. Allineamento di sequenze biologiche

Allineamenti a coppie

Allineamenti di sequenze: concetti e algoritmi

Le sequenze consenso

Allineamento multiplo

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche

ALLINEAMENTO DI SEQUENZE

Lezione 7. Allineamento di sequenze biologiche

Lezione 6. Analisi di sequenze biologiche e ricerche in database

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0;

Allineamenti Multipli di Sequenze

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento

Biologia Molecolare Computazionale

Corso di Bioinformatica. Docente: Dr. Antinisca DI MARCO

Sommario. Presentazione dell opera Ringraziamenti

Allineamenti multipli

Bioinformatica ed applicazioni di bioinformatica strutturale!

BLAST. W = word size T = threshold X = elongation S = HSP threshold

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

Alberi filogenetici. File: alberi_filogenetici.odp. Riccardo Percudani 02/03/04

Omologia di sequenze: allineamento e ricerca

Riconoscimento e recupero dell informazione per bioinformatica

Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni:

Allineamenti multipli

ALLINEAMENTI MULTIPLI

La ricerca di similarità in banche dati

Lezione 2: Allineamento di sequenze. BLAST e CLUSTALW

Riconoscimento e recupero dell informazione per bioinformatica

Filogenesi molecolare

Sperimenta il BioLab. Introduzione alla Bioinformatica. Università degli Studi di Milano Settore Didattico, via Celoria 20, Milano Laboratorio 105

Corso di Bioinformatica

A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I

Laboratorio di Bioinformatica I. Filogenesi. Dott. Sergio Marin Vargas (2014 / 2015)

Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna).

Programmazione dinamica

ALLINEAMENTO DI SEQUENZE

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I 1 INTRODUZIONE

Programmazione Greedy I codici di Huffman

Modello computazionale per la predizione di siti di legame per fattori di trascrizione

Allineamento di sequenze proteiche

La ricerca di similarità: i metodi

Ricerca di omologia di sequenza

Come si sceglie l algoritmo di allineamento? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione?

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random

Organizzazione del genoma umano

Probabilità congiunta

BLAST: Basic Local Alignment Search Tool

Bioinformatica e Biologia Computazionale per la Medicina Molecolare

Informatica e biotecnologie II parte

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre II. 4 Evoluzione e filogenesi

COME CALCOLARE IL PUNTEGGIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi

Bioinformatica. Analisi del genoma

Filogenesi molecolare

Unità aritmetica e logica

Metodo della matrice a punti

Introduzione all analisi di arrays: clustering.

TASSONOMIA O SISTEMATICA

Determinare la sequenza del DNA

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche)

Genomica Evoluzione e cambiamenti dei genomi. Dott.ssa Inga Prokopenko

Perché considerare la struttura 3D di una proteina

RELAZIONE di BIOLOGIA MOLECOLARE

Progettazione di Algoritmi

Metodi di Distanza. G.Allegrucci riproduzione vietata

ESERCITAZIONE 3. OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST

RISOLUZIONE IN LOGICA PROPOSIZIONALE. Giovanna D Agostino Dipartimento di Matemaica e Informatica, Università di Udine

Curve Spline. Scelta dei valori dei nodi

Laboratorio di Elementi di Bioinformatica

Allineamento multiplo di sequenze

Modulo Laboratorio A.A. 2014/2015

Tool di allineamento multiplo a confronto

Informatica Generale Homework di Recupero 2016

Sulla classificazione di famiglie proteiche attraverso Self Organizing. Maps. Tesi di laurea di Luca Martini. lunedì 23 aprile 2007

Sequence alignment... in parallel!!

Un approccio informatico per lo studio

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego

Ricerche con BLAST (Laboratorio)

Note sull implementazione in virgola fissa di filtri numerici

6) Descrivere con un diagramma a blocchi un algoritmo che legga da input due numeri ne calcoli il prodotto in termini di somme ripetute.

Sistemi lineari. Lorenzo Pareschi. Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara

Distanza di Edit. Speaker: Antinisca Di Marco Data:

3. Confronto tra due sequenze

INFORMATICA. Scienza dei calcolatori elettronici (computer science) Scienza dell informazione (information science)

La codifica. dell informazione

Evoluzione delle molecole biologiche

Algoritmi di ricerca. Per ricerca si intende qui il procedimento di localizzare una particolare informazione in un elenco di dati.

PROBLEMI ALGORITMI E PROGRAMMAZIONE

Edit distance. v intner RIMDMDMMI wri t ers

Massimo Benerecetti Tabelle Hash

Complementi ed Esercizi di Informatica Teorica II

RICERCA DI PATTERN E DI MOTIVI DEFINIZIONE DI MOTIVO

Marcatori molecolari per l analisi genica, genetica e genomica

Corso di Laurea Specialistica in Ingegneria Informatica

MODELLI QUANTITATIVI. f x r = c

Metrologia. L elemento che è contenuto nell altro è detto elemento interno. L elemento che contiene l altro è detto elemento esterno.

Informatica e Bioinformatica: Basi di Dati

Transcript:

Algoritmi di Allineamento CORSO DI BIOINFORMATICA Corso di Laurea in Biotecnologie Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento di Coppie di Sequenze Allineamento Multiplo 1

Nel contesto generale Allineamenti a coppie Allineamenti multipli Estrazione di sottosequenze comuni Ricostruzione di filogenesi N.B I procedimenti descritti possono essere impiegati sia per sequenze genomiche che proteiche modificando solamente la funzione di scoring Similarità vs Allineamento similarità allineamento non si possono allineare due sequenze senza definire criteri si similarità per valutare la similarità tra due sequenze, dobbiamo prima allinearle 2

Nell allineamento Allineare quale allineamento considerare quale sistema di punteggio adottare quale algoritmo usare per trovare un buon allineamento Valutare la significativita` quale test statistico impiegare INPUT Calcolo della similarità acidi nucleici (4 nucleotidi) proteine (20 aminoacidici) Modello di Rappresentazione: stringhe di caratteri 3

Similarità vs Omologia (1/2) similarità omologia é un dato che prescinde da eventuali ipotesi sulla causa della similarità stessa due sequenze si dicono omologhe se condividono una stessa origine filogenetica Similarità vs Omologia (2/2) La similarità biologica è spesso dovuta ad omologia, ma può anche presentarsi per caso oppure per fenomeni di convergenza adattativa Ad esempio: l ala di un uccello e l ala di un pipistrello si sono evolute indipendentemente e di conseguenza non sono omologhe 4

Sequenze ortologhe e paraloghe Due sequenze omologhe si dicono ortologhe quando rappresentano lo stesso gene in specie differenti. Detto gene era presente già nell antenato comune delle due specie considerate. Le sequenze ortologhe derivano pertanto da un processo di speciazione. Due sequenze omologhe si dicono paraloghe quando derivano da un comune gene ancestrale e si sono prodotte per un processo di duplicazione genica. 5

Calcolo della Similarità Una semplice misura di similarità: somma dei caratteri delle due sequenze che si appaiano esattamente Si generino tutti i possibili allinemeamenti attribuendo ad ognuno di essi un punteggio e si scelga quello migliore INTRATTABILE: 2n 2n ( 2n)! 2 = 2 n (!) n 2πn ESEMPIO 0 3 0 1 0 0 0 0 4 0 6

Ricerca per Similarità in Banca Dati Quando si deve effettuare una ricerca per similarità di sequenza in una banca dati, l operazione di confronto tra due sequenze deve inoltre essere ripetuta per ogni coppia di sequenze: A) sequenza in input (query sequence) B) ognuna delle sequenze della banca dati Calcolo della Similarità con GAPS (1/4) si può anche considerare l inserimento e/o la cencellazione di caratteri (gaps) nell allineamento tra due sequenze IPLMTRWDQEQESDFGHKLPIYTREWCTRG CHKIPLMTRWDQQESDFGHKLPVIYTREW 10 IPLMTRWDQEQESDFGHKLP-IYTREWCTRG CHKIPLMTRWDQ-QESDFGHKLPVIYTREW 25 7

Calcolo della Similarità con GAPS (2/4) l inserimento di gaps comporta una modifica del nostro iniziale SEMPLICE metodo di misura della similarità possiamo associare un punteggio di penalizzazione (gap penalty) per ogni gap aggiunto all allineamento o attribuire un punteggio di penalizzazione diverso per l apertura di un gap nell allineamento o per il suo allungamento (gap extension penalty) Calcolo della Similarità con GAPS (3/4) IPLMTRWDQEQESDFGHKLP-IYTREWCTRG CHKIPLMTRWDQ-QESDFGHKLPVIYTREW gap creation penalty (es.: -1 per ogni gap) IPLMTRWDQEQESDFGHKLP----IYTREWCTRG CHKIPLMTRWDQ-QESDFGHKLPVGSSIYTREW gap extension penalty (es.: -0.1 per ogni ins/del successiva alla prima) 8

Calcolo della Similarità con GAPS (4/4) un algoritmo di allineamento che tenesse conto 1. del possibile inserimento di un gap in ogni possibile posizione delle due sequenze e 2. di ogni possibile lunghezza di un gap in ogni possibile posizione sarebbe estremamente LENTO da ciò discende la necessità di trovare soluzioni Approssimate Valutazione di un Allineamento Per effettuare ricerche di similarità occorre un sistema che sia in grado di trovare automaticamente gli allineamenti migliori. Esistono programmi informatici che sono in grado di identificare il "percorso migliore all'interno di una dot matrix, cioè il percorso che totalizza il massimo punteggio. Per percorso si intende l'insieme di caselle che corrispondono agli aminoacidi appaiati. È quindi essenziale attribuire un punteggio agli allineamenti, altrimenti non si avrebbe modo di stabilire se un allineamento è migliore di un altro. 9

Matrici di Scoring Nel caso più semplice possiamo assegnare il valore di '1' ad ogni identità e '0' ad ogni "mismatch" cioè ai caratteri non appaiati correttamente. Un tale criterio non è però molto valido perchè non ha senso penalizzare tutti i mismatch allo stesso modo. Estendendo questo ragionamento possiamo attribuire ad ogni possibile coppia di aminoacidi un punteggo di appaiamento. In questo modo otteniamo una MATRICE DI SOSTITUZIONE MATRICI PAM la divergenza di due sequenze si può misurare in PAM: 1 PAM = 1 Percent Accepted Mutation è comunque necessario evitare di considerare allineamenti in cui possano essere avvenuti sostituzioni multiple in determinate posizioni 10

Matrici Blosum Sono anch esse basate su un analisi delle sostituzioni ma considerando allineamenti locali (senza gap e tra proteine con similarità più basse che per PAM) se due sequenze sono filogeneticamente distanti è opportuno usare matrici PAM con indici più alti, e viceversa Algoritmi Disponibili in Letteratura Algoritmi Esatti Needleman-Wunsch (Allineamento Globale) Smith-Waterman (Allineamento Locale) Metodi Approssimati BLAST FAST 11

Esempio: JALIGNER JALIGNER è un implementazione opensource dell algoritmo di SMITH- WATERMAN http://jaligner.sourceforge.net/ E utilizzabile anche da remoto Esempio: 12

Allineamenti multipli passare da allineamento a coppie ad allineamenti a gruppi concetto di profilo --> caratterizzazione topologica allineamenti: sequenza-sequenza sequenza-profilo profilo-profilo Clustalw Thompson, Higgins & Gibson, 1994 tre passi fondamentali: costruzione di una matrice distanza valutata su tutte le coppie di sequenze costruzione di un albero base mediante il metodo del neighbour-joining clustering allineamento progressivo sui nodi in ordine decrescente di similarita` 13

il programma Clustalw disponibile come servizio on-line allo EBI disponibile come programma autonomo su molte piattaforme output sensibile ai parametri stabiliti dall utente. 14