A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I

Documenti analoghi
COME CALCOLARE IL PUNTEGGIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi

Metodo della matrice a punti

Algoritmi di Allineamento

Le sequenze consenso

Come si sceglie l algoritmo di allineamento? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione?

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0;

ALLINEAMENTO DI SEQUENZE

Lezione 6. Lo string matching

TRADUZIONE. 2. Transfer (legato agli aminoacidi) 3. Ribosomale (associato a proteine nei ribosomi)

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

BLAST. W = word size T = threshold X = elongation S = HSP threshold

Biologia Molecolare. CDLM in CTF La riparazione del DNA

Pairwise Sequence Alignment BIOINFORMATICA. Corso di Laurea in Ingegneria Informatica e Biomedica. Università Magna Graecia Catanzaro

Bioinformatica ed applicazioni di bioinformatica strutturale!

Bioinformatics more basic notions

Edit distance. v intner RIMDMDMMI wri t ers

Analisi della struttura primaria delle proteine

Sequenze nucleotidiche del DNA definite loci costituiscono i geni. Ogni gene codifica per una specifica proteina

Lezione 6. Confronti fra sequenze: distanze, allineamenti

moli OH - /mole amminoacido

Omologia di sequenze: allineamento e ricerca

Lezione 1. Le molecole di base che costituiscono la vita

Probabilità congiunta

Allineamento e similarità di sequenze

La ricerca di similarità in banche dati

FASTA. Lezione del

Lezione 5. Cambiamenti evolutivi nelle sequenze nucleotidiche Distanze

ALIMENTI DI ORIGINE VEGETALE Verdure

Le L z e io i ne n 6 Co C n o f n ro r n o t n i i fra r a se s q e u q e u n e z n e z : e di d s i t s a t nz n e z, e allineamenti

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random

Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna).

Caratteristiche generali

Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni:

DNA E PROTEINE IL DNA E RACCHIUSO NEL NUCLEO, MENTRE LA SINTESI PROTEICA SI SVOLGE NEL CITOPLASMA: COME VIENE TRASPORTATA L INFORMAZIONE?

Lezione 7. Allineamento di sequenze biologiche

Ricerca di omologia di sequenza

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2.

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I 1 INTRODUZIONE

REPLICAZIONE DEL DNA

UNIVERSITÀ DEGLI STUDI DI MILANO. Giorgio Valentini. Bioinformatica. A.A semestre I 1 INTRODUZIONE

Proteine strutturali Sostegno meccanico Cheratina: costituisce i capelli Collagene: costituisce le cartilagini Proteine di immagazzinamento

Informatica e Bioinformatica A. A

Programmazione dinamica

10. VARIABILI CASUALI MULTIPLE

Allineamento di sequenze proteiche

MFN0366-A1 (I. Perroteau) -traduzione e indirizzamento delle proteine. Solo per uso didattico, vietata la riproduzione, la diffusione o la vendita

Metodi di Distanza. G.Allegrucci riproduzione vietata

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento

06_citologia_SER_golgi 1

Da cosa dipendono le nostre caratteristiche? Come si trasmettono? Perché siamo simili o diversi?

Lezione 6. Analisi di sequenze biologiche e ricerche in database

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche

Allineamenti di sequenze: concetti e algoritmi

LE PROTEINE: POLIMERI COSTITUITI DA 20 TIPI DI MONOMERI, I 20 AMINOACIDI

Elementi di matematica - dott. I. GRASSI

ALLINEAMENTO DI SEQUENZE

Distanza di Edit. Speaker: Antinisca Di Marco Data:

G. Licini, Università di Padova. La riproduzione a fini commerciali è vietata

α-amminoacidi O α O α R CH C O - NH 3 forma ionizzata sale interno (zwitterione) OH NH 2 forma non ionizzata (non esistente in realtà)

ALLINEAMENTO DI SEQUENZE

LE PROTEINE. SONO Polimeri formati dall unione di AMMINOACIDI (AA) Rende diversi i 20 AA l uno dall altro UN ATOMO DI C AL CENTRO

MACROMOLECOLE. Polimeri (lipidi a parte)

Mutagenesi: introduzione di alterazioni in una sequenza nucleotidica. Mutagenesi random: le mutazioni avvengono a caso su un tratto di DNA.

Probabilità: teoremi e distribuzioni

scaricato da I peptidi risultano dall unione di due o più aminoacidi mediante un legame COVALENTE

Riconoscimento e recupero dell informazione per bioinformatica

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

Moltiplicazione. Divisione. Multipli e divisori

Perché considerare la struttura 3D di una proteina

Matematica Lezione 4

La ricerca di similarità: i metodi

ARITMETICA BINARIA. La somma viene eseguita secondo le regole per la somma di due bit, di seguito riportate:

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

Cap. 1 Interazioni delle molecole con l acqua

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST

Allineamenti a coppie

LABORATORIO DI INFORMATICA ESERCITAZIONE VIII

LE MUTAZIONI. MUTAZIONE: MODIFICAZIONE DEL MESSAGGIO GENETICO, cambiamento raro, casuale, permanente ed EREDITABILE del DNA RIMESCOLAMENTO!!

Lezione 2: Allineamento di sequenze. BLAST e CLUSTALW

Appunti di matematica per le Scienze Sociali Parte 1

Interazioni proteina-dna

Lezione 2. Le molecole di base che costituiscono la vita

Lezione 7. Allineamento di sequenze biologiche

n +1 determinanti (D i, i =1,...,n e det A) n! prodotti per ciascun determinante n 1 moltiplicazioni per ciascun prodotto

Classificazione. I complessi. Le pietre miliari della tassonomia. Tassonomia del genere Mycobacterium. Pietre miliari nella tassonomia dei micobatteri

Soluzione nel dominio del tempo

ESAME DI MATURITÀ. Opzione specifica biologia e chimica. giugno 2011

Prodotti notevoli Quadrato di un binomio

Allineamento multiplo

AMINOACIDI Struttura. Funzione. Classificazione. Proprietà

Struttura delle Proteine

Esercizi. 2. [Conteggio diretto] Due dadi vengono lanciati in successione. a) Qual è la probabilità che la somma dei due risultati faccia 7?

Lezione 2. costituiscono la vita

Variabili aleatorie. Variabili aleatorie e variabili statistiche

Corso di Bioinformatica

Transcript:

COME CALCOLARE IL PUNTEIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi che, però, sono le due facce di una stessa medaglia al lato pratico. 1) edit-distance o distanza di Levenshtein: in questo caso il punteggio dell allineamento è calcolato basandosi sul minimo numero di sostituzioni, inserzioni e delezioni che si devono fare per passare dalla sequenza A alla sequenza B (concetto dell evoluzione). Ad esempio ai match si attribuisce un valore di 0 ed ai mismatch un valore positivo tipo 1. 2) Punteggio di similarità: il punteggio dell allineamento è frutto del calcolo della similarità tra le due sequenze allineate in questione. Ovvero si deve trovare l allineamento con il punteggio più alto. Ai match si attribuisce un valore positivo. Processo addittivo. Nella maggior parte dei casi le due quantità sono correlate ma ci sono delle differenze concettuali. L edit-distance è adatta nel caso degli allineamenti globali. Per l editdistance deve valere la disuguaglianza triangolare. Se ho x, y e z e l evento di mutazione da x a y ha un costo > dell evento x->z + z->y allora ogni volta che devo sostituire x con y devo effettuare due sostituzioni prima con z e poi con y perché al fine del punteggio finale costano meno. L editdistance, infatti, prevede che si devono minimizzare i costi di eventi di mutazioni per passare da una sequenza all altra. Prevale il concetto che l evoluzione deve risparmiare. Specie A Specie B Specie C A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I Edit-distance Da A si passa a B (1 mutazione) si passa a C (una nuova mutazione). Quindi da A a C ci sono state due mutazioni (edit-distance = 2). Ovvero per passare da A a C non si passa direttamente ma si passa attraverso lo stato intermedio di B poiché B è meno mutata rispetto ad A di quanto non lo sia C (A->B->C percorso = 2) e quindi non è possibile pensare un rapporto evolutivo che prevede di partire da A poi si arriva a C e da C si arriva a B (A->C->B percorso = 3) devo minimizzare il percorso!!!! Similarità A e B hanno 11 AA in comune A e C ne hanno 10 quindi il percorso anche in questo caso sarà A->B->C devo massimizzare il percorso (A->B = 11 A->C sarebbe 10. Preferisco passare prima attraverso B 1

EDIT-DISTANCE Problema di base: misurare la differenza o distanza tra due sequenze Trasformare una sequenza in un altra per mezzo di una serie di operazioni di editing su singoli caratteri Operazioni di editing: inserzione, delezione, sostituzione, match (non operazione) Edit distance: è definita come il numero minimo di operazioni di editing (inserzione, delezione e sostituzione) necessarie per trasformare la prima sequenza nella seconda RIMDMDMMI v intner wri t ers Edit distance: indica gli eventi di mutazione che hanno differenziato due sequenze (Processo) Allineamento: indica la relazione che intercorre tra due sequenze (Prodotto) SIMILARITA Date due sequenze A e B, costituite ognuna da una serie di residui, rispettivamente (a 1,a 2,a 3,..., a i ) e (b 1,b 2,b 3,..., b i ), il punteggio (score) di un qualsiasi allineamento tra tutti quelli possibili tra le due sequenze può essere calcolato con la formula sottostante. Lo score totale dell'allineamento è dato dalla somma degli scores relativi alle singole coppie di residui appaiati s (a i,, b i ) per tutti i valori di i compresi tra 1 e la lunghezza (L) dell'allineamento, a cui deve essere sottratta la somma delle penalità dovute ai gap; quindi per ciascuno dei gap deve essere calcolata una penalitaγper I'apertura del gap più una penalitaδper ogni sua singola estensione. Pur non essendo I'unico modo possibile di assegnare uno score di similarità il criterio riportato sopra è utilizzato dai principali programmi di allineamento. II migliore allineamento tra tutti quelli possibili tra due sequenze è quello che produce il massimo score, per cui generalmente si adotta lo score del migliore allineamento come score di similarità delle due sequenze. sequenza 1 M - N A L S D R T sequenza 2 M S D R T T E T punteggio 6-12 1 0-3 1 0-1 3 = -5 2

ALLINEAMENTO A PARTIRE DA UNA MATRICE Congiungendo con una linea continua le due estremità il alto a sinistra e in basso a destra possono essere rappresentati diversi percorsi, cui corrispondono altrettanti allineamenti possibili. L A M I A S E Q U E N Z A S I A L L I N E A S E M P R E P E R C H E Q P T C L A M I A S I T D P R E P K N Costruendo delle matrici di similarità LAMIASEQUENZAALLINEASEMPREPERCHE capaci di assegnare valori numerici ad ogni possibile accoppiamento amminoacidico e sviluppando algoritmi capaci QPTCLAMIASITD - - - - - - - - - - - - - PREPKN di identificare i percorsi con gli score LAMIASEQUENZ -AALLINEASEMPREPERCHE più alti è possibile trovare l allineamento ottimale di due sequenze. QPTCLAMIASITDPREPKN Le matrici di similarità A differenza degli acidi nucleici in cui gli appaiamenti tra basi complementari hanno tutti lo stesso valore di tipo tutto o niente: appaiamento o non appaiamento nel caso delle proteine abbiamo 20 amminoacidi e le singole sostituzioni amminoacidiche non hanno lo stesso peso. E intuitivo capire, per esempio che la sostituzione di una serina (S) con una treonina (T) oppure di un acido glutammico (E) con un acido aspartico (D) sono ben tollerate dalle proteine perché i corrispondenti amminoacidi sono molto simili tra loro. Su questi presupposti sono state costruite delle matrici di similarità costituite da tabelle in cui a ciascun tipo di sostituzione amminoacidica è assegnato un valore che ne indica il grado di similarità Sebbene queste matrici possano essere basate sulle proprietà chimico-fisiche dei singoli amminoacidi, le matrici più usate sono state sviluppate con metodi statistici che indicano la frequenza con cui un amminoacido si sostituisce ad un altro in famiglie di proteine omologhe. Allineando famiglie di proteine omologhe, infatti, è possibile calcolare la frequenza con cui un certo amminoacido viene sostituito con un altro, per esempio A V calcolato come numero di allineamenti A-V diviso il numero di sequenze allineate e si indica come f A V. Analogamente si calcolano la frequenza complessiva di A e di V, come f A e f V. Infine, da questi valori di frequenze si calcolano i valori delle matrici come log (f A V /(f A x f V ) ) Il prodotto delle frequenze indica la probabilità che l allineamento tra V e A avvenga casualmente (l atteso per eventi indipendenti) mentre il logaritmo per avere quantità trattabili (numeri con molti decimali) 3

Probabilità di AA non correlati (modello random) per tutto l allineamento lo score si formalizza come segue: P ( a, b R) = C( a, = q ai bj i j Nel caso invece di Probabilità di AA correlati (modello match) ovvero dovuti all osservazione che a e b in realtà sono AA che derivano da uno stesso antenato c sono cioè evolutivamente correlati il punteggio P ( a, b M ) = M ( a, pai, bi i Il rapporto di queste entità o likelihoods è noto come come odds ratio ed è il rapporto di un evento osservato con quello atteso: = M ( a, C( a, Per rendere trattabile queste quantità e non perdere decimali nelle moltiplicazioni da effettuare si trasformano in quantità additive con il logaritmo (log odds ratio): s( a, = log( q p ai, bi ai p bi ) q = S i q p ai = i ai,bi p bi s( a, Le matrici PAM M. Dayhoff (1978) Il problema fondamentale da affrontare per costruire una matrice di similarità è quello di convenire su una famiglia di proteine omologhe sulle quali basare i calcoli della matrice. Le matrici PAM ( Point accepted mutation) sono costruite su sequenze omologhe che presentano solo l 1% di mutazioni accettate, dove per accettate si intende mutazioni che non alterano la funzione della proteina. Due sequenze sono dette a 1 PAM di distanza se per convertirle l una nell altra si è verificata, in media, una mutazione ogni 100 amminoacidi. Da questi dati vengono inferiti tutti gli altri. Sapendo che la probabilità di due eventi indipendenti è uguale al prodotto delle probabilità possiamo ricavarci valori corrispondenti a proteine molto più divergenti moltiplicando i valori tra loro. Per esempio per ricavarci i valori PAM 2, corrispondenti a due proteine con 2 amminoacidi diversi/100 amminoacidi moltiplichiamo tra loro i valori PAM1 x PAM1. Naturalmente man mano che le sequenze divergono aumenta la probabilità che singole mutazioni revertano da cui deriva che i valori non coincidono più; per esempio una matrice PAM 80 non identifica proteine che divergono per l 80% dei loro residui ma solo del 50%. Per la PAM 250 in cui sono stati calcolati 250 passi evolutivi, ad esempio, il risultato è che le sequenze mantengono ancora un 20% di identità. 4

Calcolo di matrici PAM Basato su 1572 mutazioni in 71 gruppi di sequenze simili almeno all 85% per evitare più di una mutazione nella stessa posizione Le mutazioni non alterano significativamente la funzione delle proteine (mutazioni accettate) Le sequenze simili vengono organizzate in alberi filogenetici dai quali vengono desunte le mutazioni Calcolo di matrici PAM La comprensione delle matrici PAM è complicata dal fatto che con il termine PAM si possono intendere due cose diverse: 1) le matrici PAM di probabilità di sostituzione, 2) le matrici PAM di punteggi (scoring matrix) come la PAM 240, che sono utilizzate dai programmi di allineamento. Queste ultime sono calcolate a partire dalle matrici di probabilità, applicando la seguente formula: dove s (a, è il punteggio (score) da attribute all'appaiamento tra i due aminoacidi a e b, mentre M (a, e C (a, sono rispettivamente la probabilità di sostituzione espressa nella matrice PAM di cui al punto 1) e la probabilità di appaiamento casuale dei due amminoacidi. 5

Calcolo di matrici PAM La probabilità M (a, di sostituzione dell'aminoacido a in amminoacido b è calcolata a partire dalla matrice di probabilità PAM 1 ed equivale alla probabilità che, a una definita distanza PAM, i due amminoacidi siano correlati filogeneticamente, cioè siano omologhi. La probabilità di omologia definita in M(a, è divisa per la probabilità C (a, di trovare casualmente I'appaiamento degli stessi amminoacidi, calcolata in base alla frequenza media di ogni amminoacido, assumendo che tutti gli amminoacidi si possano appaiare senza alcuna preferenza. Per esempio, I'appaiamento tra due amminoacidi con frequenze di 0,1 e 0,05 avverrà con una probabilità di 0,005 dovuta al caso. Procedendo sistematicamente per tutti i valori della matrice, sono calcolati i rapporti di probabilità (definiti odds) che in pratica rappresentano quante volte la probabilità di omologia sia maggiore della probabilità casuale. Calcolo di matrici PAM I rapporti di probabilità calcolati sono convertiti nei loro logaritmi (log odds) in modo che nel calcolo globale del punteggio di un allineamento possano essere sommati piuttosto che moltiplicati tra loro, rendendo piu semplici i calcoli. Valori pari a 0 significano che la probabilità di omologia è uguale alla probabilità di appaiamento casuale, mentre valori positivi e negativi indicano rispettivamente una maggiore o minore probabilità di omologia o di appaiamento casuale. eneralmente i log odds sono moltiplicati per una costante e arrotondati a numero intero per costituire le matrici PAM comunemente usate dai programmi di allineamento. Più le sequenze sono distanti e più le PAM che devono essere usate avranno un numero alto. 6

Matrice BLOSUM (Henikoff & Henikoff, 1992) Blocks Amino Acid Substitution Matrices = BLOSUM Basata sulle sostituzioni amminoacidiche osservate in ~2000 blocchi conservati di sequenze. Questi blocchi sono stati estratti da una banca dati di 500 famiglie di proteine Sono contati gli scambi amminoacidici osservati in ciascuna colonna 7

Calcolo di matrici BLOSUM Il calcolo della matrice è simile a quello delle PAM ma il termine M(a, è relativo alla probabilità di sostituzione negli allineamenti delle famiglie proteiche del database BLOCKS. Il database BLOCKS ha allineamenti di sequenze che sono simili tra loro per una data soglia P che varia in genere da 35% a 95% di identità. Una famiglia di BLOCKS 50 ha sequenze allineate con >= 50% identità tra loro. 8

DIFFERENZE TRA PAM E BLOSUM 1) PAM minori servono per allineare sequenze strettamente correlate PAM maggiori servono per allineare sequenze tra loro distanti viceversa per le BLOSUM 2) Troppo poche sequenze utilizzate per ricavare la matrice di Dayhoff e propagazione dell errore dalla PAM1 alla PAM250 3) Per le matrici BLOSUM non si fa alcuna assunzione di omologia visto che derivano da blocchi conservati di sequenza. È una osservazione diretta 4) Le matrici PAM tendono a dare un peso maggiore alle sostituzioni aminoacidiche che derivano dalla mutazione di una singola base (tirosina/fenilalanina) penalizzando quelle più complesse. 5) Le matrici BLOSUM per tali ragione sono forse più adatte per la valutazione degli allineamenti T C A T TTT Phe (F) TTC " TTA Leu (L) TT " TCT Ser (S) TCC " TCA " TC " TAT Tyr (Y) TAC TAA Ter TA Ter TT Cys (C) TC TA Ter T Trp (W) Il codice genetico C CTT Leu (L) CTC " CTA " CT " CCT Pro (P) CCC " CCA " CC " CAT His (H) CAC " CAA ln (Q) CA " CT Arg (R) CC " CA " C " A ATT Ile (I) ATC " ATA " AT Met (M) ACT Thr (T) ACC " ACA " AC " AAT Asn (N) AAC " AAA Lys (K) AA " AT Ser (S) AC " AA Arg (R) A " TT Val (V) TC " TA " T " CT Ala (A) CC " CA " C " AT Asp (D) AC " AA lu (E) A " T ly () C " A " " DIFFERENZE TRA PAM E BLOSUM PAM è basato su un modello evolutivo BLOSUM è basato su famiglie proteiche. PAM è basato su allineamento globale. BLOSUM è basato su allineamento locale. 9