Probabilità congiunta

Documenti analoghi
Metodi di Distanza. G.Allegrucci riproduzione vietata

A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0;

Moltiplicazione. Divisione. Multipli e divisori

Un ripasso di aritmetica: Conversione dalla base 10 alla base 2

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

ESERCITAZIONE N.8. Il calcolatore ad orologio di Gauss. L aritmetica dell orologio di Gauss. Operazioni e calcoli in Z n

Kangourou Italia Gara del 28 marzo 2008 Categoria Student Per studenti di quarta o quinta della secondaria di secondo grado

NOZIONI DI CALCOLO DELLE PROBABILITÀ

Un allineamento multiplo. Multiplo o a coppie? Regioni con gaps: Loops? Riga = sequenza. 2 sequenze. Troppo divergenti. 1 2 sequenze.

Parte Seconda. Prova di selezione culturale

Il Sistema di numerazione decimale

La codifica digitale

R. Cusani, F. Cuomo: Telecomunicazioni - DataLinkLayer: Gestione degli errori, Aprile 2010

Disequazioni - ulteriori esercizi proposti 1

Distribuzione Gaussiana - Facciamo un riassunto -

Esercitazione di Calcolo Numerico 1 22 Aprile Determinare la fattorizzazione LU della matrice a 1 1 A = 3a 2 a 2a a a 2 A =

La codifica. dell informazione

Note sulla probabilità

Sistemi di numerazione

SISTEMI LINEARI. x y + 2t = 0 2x + y + z t = 0 x z t = 0 ; S 3 : ; S 5x 2y z = 1 4x 7y = 3

Ulteriori applicazioni del test del Chi-quadrato (χ 2 )

La simulazione con DERIVE Marcello Pedone LE SIMULAZIONI DEL LANCIO DI DADI CON DERIVE

1 Definizione di sistema lineare omogeneo.

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente:

Algoritmi in C++ (seconda parte)

Test di autovalutazione

Elementi di Analisi Combinatoria

ESERCITAZIONE: ESPONENZIALI E LOGARITMI

COME CALCOLARE IL PUNTEGGIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi

DEFINIZIONE. L unità frazionaria 1n (con n 0) rappresenta una sola delle n parti uguali in cui è stato diviso l intero.

prima urna seconda urna

Come si sceglie l algoritmo di allineamento? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione?

Funzioni elementari: funzioni potenza

Limiti di successioni

Sistemi e problemi, Pag. 1\10 Prof. I. Savoia - Giugno 2011 SISTEMI E PROBLEMI

Concetti fondamentali

Domande di teoria. Esercizi

Segno di espressioni quoziente di due espressioni elementari Vediamo di ragionare su un esempio pratico. Consideriamo un'espressione del tipo

SOLUZIONI DEL 1 0 TEST DI PREPARAZIONE ALLA 1 a PROVA INTERMEDIA

Sistemi lineari. Lorenzo Pareschi. Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara

= elemento che compare nella seconda riga e quinta colonna = -4 In generale una matrice A di m righe e n colonne si denota con

a + 2b + c 3d = 0, a + c d = 0 c d

Elementi di Psicometria con Laboratorio di SPSS 1

Calcolo numerico e programmazione Rappresentazione dei numeri

LEGGI PER LE ANALISI E LA SINTESI DELLE RETI ELETTRICHE

SISTEMI LINEARI: APPROFONDIMENTI ED ESEMPI

Anno 3. Funzioni esponenziali e logaritmi: le 4 operazioni

Un polinomio è un espressione algebrica data dalla somma di più monomi.

LABORATORIO Costruzione di un ipertesto. Studio delle varie specie di numeri dai numeri naturali ai numeri reali

I Prodotti. Notevoli

Come risolvere i quesiti dell INVALSI - terzo

La riduzione a gradini e i sistemi lineari (senza il concetto di rango)

Esercizi sui sistemi di equazioni lineari.

Variabili aleatorie. Variabili aleatorie e variabili statistiche

L1 L2 L3 L4. Esercizio. Infatti, osserviamo che p non può essere un multiplo di 3 perché è primo. Pertanto, abbiamo solo due casi

Lanciando un dado, il tuo compagno esclama: uscirà 1, 2, 3, 4, 5 o 6 oppure: uscirà il numero 4. uscirà il numero 9

Dott. Dallavalle Riccardo UNITA DIATTICA nr. 5 Gli argomenti di oggi:

SCALE MUSICALI E LOGARITMO IN BASE 2

Chi non risolve esercizi non impara la matematica.

Calcolatori: Sistemi di Numerazione

Proprietà della varianza

4 0 = 4 2 = 4 4 = 4 6 = 0.

Prodotto scalare e prodotto vettoriale. Elisabetta Colombo

I logaritmi. Cenni storici

FUNZIONI BOOLEANE. Vero Falso

Rappresentazione dei Dati

MAPPA MULTIPLI E DIVISORI

La probabilità matematica

Conversione di base. Conversione decimale binario. Si calcolano i resti delle divisioni per due

Una prima distinzione nell ambito della teoria dei giochi è quella tra: Giochi cooperativi (si possono fare accordi vincolanti)

CAPITOLO V. DATABASE: Il modello relazionale

1 (UNO) INDICA LA QUANTITÀ DI ELEMENTI DELL INSIEME UNITARIO B = (CLASSI CHE HANNO LA LIM) SOLO LA 4ª A HA LA LIM QUINDI L INSIEME È UNITARIO.

Note sull implementazione in virgola fissa di filtri numerici

IL CALCOLO DELLE PROBABILITA

Somma di numeri binari

I. Foglio di esercizi su vettori linearmente dipendenti e linearmente indipendenti. , v 2 = α v 1 + β v 2 + γ v 3. α v 1 + β v 2 + γ v 3 = 0. + γ.

Consideriamo un sistema composto da due particelle identiche. Due particelle sono identiche se hanno le stesse proprietà intrinseche (massa, carica,

Anno 4 Matrice inversa

Alcuni esercizi sulla diagonalizzazione di matrici. campo dei reali. Se lo è calcolare una base spettrale e la relativa forma diagonale di A.

CALCOLO LETTERALE I MONOMI. Il primo tipo di oggetto che incontriamo nel calcolo letterale è il MONOMIO.

La divisione di numeri naturali: esercizi svolti

Funzioni implicite - Esercizi svolti

CONOSCENZE 1. il significato di evento casuale. 2. il significato di eventi impossibili, complementari;

Fondamenti di Informatica - 1. Prof. B.Buttarazzi A.A. 2011/2012

La codifica. dell informazione

Le proprietà che seguono valgono x, y > 0, a > 0 a 1, e b qualsiasi. Da queste si possono anche dedurre le seguenti uguaglianze log a 1 = 0

Numeri interi relativi

Possibile applicazione

Dipendenza e indipendenza lineare (senza il concetto di rango)

ESERCIZI SVOLTI SUL CALCOLO INTEGRALE

Teoria dell informazione

CORSO ZERO DI MATEMATICA

X Lezione Analisi della varianza Esempi e esercizi CPS - Corso di studi in Informatica II parte: Statistica

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

UNITÀ 1 LA CARICA ELETTRICA E L'ELETTRIZZAZIONE. I corpi possono acquisire (prendere) una proprietà che si chiama carica elettrica.

CORSO DI PROGRAMMAZIONE

Scegliamo a caso i numeri e vediamo alcuni esempi:

Distribuzioni campionarie. Antonello Maruotti

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

Transcript:

Una vera matrice di sostituzione F K M N P Q 4 5 5 4 3 3 5 6 5 4 3 5 4 4 3 6 4 3 4 5 3 F 8 5 5 4 5 5 4 5 3 4 3 3 6 3 5 K 5 3 3 6 4 3 3 3 M 6 N P 6 Q 4 6 V Y 3 3 3 3 V 4 4 6 8 6 6 6 3 5 3 4 4 6 5 5 6 7 Y 3 4 4 6 5 4 5 4 4 3 3 Probabilità congiunta Probabilità di tirare un 4 = p(4) = /6 =.6 Probabilità di tirare 4 per due volte di seguito = p(4) * p(4) = /6 * /6 =.6 *.6 =.5 Per 3 volte =.6*.6*.6 =.46 Una matrice di sostituzione Probabilità congiunta di due eventi Quando si allineano due sequenze, i valori da assegnare ad ogni coppia di residui possono venire ricavati da una matrice di sostituzione. Una matrice di sostituzione contiene un valore per ogni tipo possibile di sostituzione fra due aminoacidi. punteggi della matrice sono di tipo positivo o negativo a seconda della similarità della coppia di aminoacidi. e coppie di aminoacidi identici si trovano sulla diagonale ed hanno generalmente un valore più alto rispetto alle altre sostituzioni dello stesso residuo, visto che ovviamente è più probabile nel corso dell'evoluzione che un aminoacido non venga sostituito piuttosto che il contrario. l valore assegnato ad ogni coppia di aminoacidi è calcolato a partire dalla frequenza della coppia in allineamenti di sequenze omologhe. l modo esatto in cui sono costruite è descritto in questo capitolo. ue eventi indipendenti hanno una probabilità di verificarsi contemporaneamente pari al prodotto delle loro probabilità di verificarsi singolarmente. d esempio se la probabilità di ottenere un 4 con un dado a 6 facce è di un /6, la probabilità di ottenere volte 4 lanciando due dadi (eventi indipendenti) sarà di /36 (/6 x /6).

Probabilità di una sequenza Frequenze degli aminoacidi Numero di aminoacidi: Frequenza degli aminoacidi: p() x p() x p() x p() x p() = f() x f() x f() x f() x f() =.5 x.5 x.5 x.5 x.5 = 3,5 x 7 = 5 = 5 = 5 = 5 otale = 4 = numero/ totale f= 5/4 =.375 f= 5/4 =.375 f= 5/4 =.5 f= 5/4 =.5 Probabilità di osservare una sequenza Frequenze aminoacidiche e una sequenza di aminoacidi è generata attraverso una serie di eventi casuali e indipendenti, la probabilità di osservarla è analoga a quella di pescare le stesse lettere da cui è composta estraendole nello stesso ordine una dopo l'altra da un sacchetto. Questa probabilità è pari al prodotto delle probabilità di estrazione di ognuna delle lettere. e il sacchetto contiene un numero infinito di lettere e un numero di lettere uguale per ogni tipo, la probabilità di estrazione di ogni lettera e' di / e la probabilità per un intera sequenza di lunghezza n è di (/) n. a frequenza di un aminoacido X in un insieme di sequenze costituito da N aminoacidi è data dal rapporto tra il numero di volte in cui compare l'aminoacido X e il numero totale di aminoacidi N. Per calcolare quindi la frequenza di un aminoacido si conta quante volte quell'aminoacido è presente e si divide il valore per il numero totale degli aminoacidi. Nelle 4 sequenze della figura la frequenza della è pari a 5 (il numero delle ) diviso 4 (il numero totale degli aminoacidi nelle 4 sequenze), ovvero.375.

omposizione aminoacidica Probabilità di una sequenza Frequenze osservate degli aminoacidi: f=.375 f=.375 f=.5 f=.5 Prodotto delle probabilità di occorrenza di ogni coppia = f() x f() x f() x f() x f() =.375 x.375 x.375 x.5 x.5 = 8, x 4 omposizione aminoacidica a composizione aminoacidica di una sequenza è l'insieme delle frequenze di ogunno dei aminoacidi calcolate per la sequenza stessa. onsiderando la composizione di un gran numero di sequenze si osserva che i diversi aminoacidi in natura non sono egualmente rappresentati ma ci sono aminoacidi più frequenti, come ad esempio alanina (.9) e glicina ed aminoacidi meno frequenti come il triptofano (.). Probabilità di sequenze reali Per calcolare la probabilitò di osservare una sequenza in natura non bisogna quindi considerare ogni aminoacido egualmente probabile, poichè maggiore è la frequenza di quell'aminaocido in natura maggiore è la probabilità che questo venga usato (estratto dal sacchetto). a probabilità di osservare una sequenza reale è quindi il prodotto delle frequenze di tutti gli aminoacidi che la compongono. parità di lunghezza, quindi, una sequenza formata da aminoacidi con un'alta frequenza sarà più probabile rispetto ad un'altra composta da aminoacidi più rari.

llineamenti casuali equenze casuali ffiancare casualmente p()= f() * f() = *.375 *.375 =.8 p()= f() * f() =.5 *.5 =.5 ostituzioni casuali ff ff ff ff ff ff ff ff ff ff Frequenze osservate degli aminoacidi: f=.375 f=.375 f=.5 f=.5.4.8.4.9.9.5.9.9.3.5 Matrice delle frequenze attese per caso ostituzioni osservate in allineamenti casuali ome si possono generare sequenze casuali, allo stesso modo si possono anche generare allineamenti casuali di sequenze casuali. llineare casualmente due sequenze significa affiancarle casualmente l'una all'altra in uno dei diversi modi possibili senza considerare la similarità fra gli aminoacidi che stiamo appaiando. Quale è la probabilità di osservare una coppia di aminoacidi, ad esempio la coppia, in una data posizione di un allineamento casuale? Questa probabilità dipende solamente dalla frequenza degli aminoacidi che la compongono. d esempio la probabilità di osservare la coppia in una posizione dell'allineamento è data dal prodotto delle probabilità di osservare una in quella posizione sulla prima sequenza e una nella stessa posizione sulla seconda sequenza, o viceversa, ovvero la somma di f()xf() + f()xf() o xf()xf(). Per le coppie di aminoacidi identici, come, la probabilità di osservarle in una posizione sarà invece solo la probabilità di avere una in una posizione per quella di avere una anche nella seconda posizione, ovvero f() x f(). Matrici delle sostituzioni casuali ato un insieme di sequenze generate casualmente usando una certa composizione aminoacidica, è possibile calcolare la probabilità di osservare ogni possibile coppia di aminoacidi in un allineamento casuale di queste sequenze. sistono 4 (x) diverse possibili coppie di aminoacidi, ma considerando uguali le coppie formate dagli stessi aminoacidi, ad esempio con e con, le possibili coppie diverse sono solo. Una matrice delle sostituzioni casuali contiene per ognuna delle possibili coppie di aminoacidi, la probabilità di osservare una di queste coppie in una posizione di un allineamento casuale. Nella figura è riportata una parte di una matrice di sostituzioni casuali per i soli 4 aminoacidi,, ed. e assumiamo la composizione aminoacidica indicata in figura (f=.375 e f.5), la probabilità di osservare casualmente in un allineamento la coppia è indicata nella matrice all' incrocio tra la riga e alla colonna, ed è pari a xfxf, ovvero circa.9.

ostituzioni osservate ostituzioni osservate = 6 = 6 =3 = = = ot = 6 3 6 6/ 3/ / /.3.5 6/ / /.3 / /..5 /. ostituzioni osservate ino ad ora abbiamo considerato la frequenza con cui era possibile osservare sostituzioni fra aminoacidi casuali in allineamenti casuali. a situazione cambia completamente se consideriamo invece allineamenti reali (calcolati ad esempio usando l'algoritmo di mith e aterman) di sequenze di proteine reali e tra loro omologhe. n questo caso le frequenze con con cui osserviamo le coppie di aminoacidi che si appaiano nell'allineamento sono molto lontane dalle frequenze attese per quelle coppie in allineamenti casuali. nanzitutto le coppie di aminoacidi identici, come con sono molto più frequenti di coppie di aminoacidi sostituiti come P con. noltre coppie di aminoacidi simili biochimicamente come con sono trovate in modo più frequente, rispetto a coppie di aminoacidi molto differenti come con. partire da questa considerazione possiamo pensare di usare le frequenze con cui le coppie di aminoacidi appaiati compaiono in un insieme predefinito e grande di allineamenti conosciuti di sequenze molto simili come punteggi per indicare la similarità di una coppia di aminoacidi e creare una matrice di sostituzione. Matrice delle frequenze per le sostituzioni osservate Per costruire una matrice di sostituzione, si sceglie un numero molto alto di proteine e si allineano fra di loro quelle sicuramente omologhe e molto simili, in modo tale da essere certi che tutte le coppie di aminoacidi osservate negli allineamenti siano realmente coppie che occupano posizioni corrispondenti nelle due sequenze. Una volta ottenuti gli allineamenti, si valutano le frequenze delle coppie di aminoacidi appaiati. Nella figura la coppia è trovata 6 volte su un totale di coppie nei due allineamenti, quindi con una frequenza di 6/ ovvero.3. Possiamo costruire in questo modo una matrice che contiene le frequenze di tutte le sostituzioni osservate. n questa matrice i valori più alti dovrebbero essere assegnati alle coppie di aminoacidi più simili e che di solito vengono quindi trovate più frequentemente negli allineamenti di sequenze omologhe. Usando questo semplice metodo però si incorre in un problema: guardando la matrice di sostituzione che abbiamo appena costruito nell'esempio in figura, si vede che la coppia (frequenza.5) ha un valore più alto della coppia (.) o della coppia (.). ome è possibile che una sostituzione fra aminoacidi diversi sia avvantaggiata rispetto al mantenimento di una coppia di aminoacidi uguali?

Frequenza sostituzioni Osservate & attese apporto osservati/attesi Odds = rapporti fra il numero di coppie osservate e in numero di coppie attese f().5 > f().??? Frequenze osservate degli aminoacidi: f=.375 f=.375 f=.5 f=.5 p(xx) = f(xx) /a(xx) Freq. osservata f().5 P() = = = =.53 ( < sfavorita ) Freq. attesa a().8 Freq. osservata f(). P() = = = = 6.4 ( > favorita ) Freq. attesa a().5 Frequenza osservata e frequenza attesa per caso. Questo accade perchè la frequenza dei singoli aminoacidi e è molto maggiore della frequenza dei singoli aminoacidi ed se si vede la composizione aminoacidica delle sequenze che abbiamo usato negli allineamenti di partenza (f=.375 e f =.5). Questo fa si che essendo molte di più le e le è molto più facile per queste capitare appaiate fra di loro per puro caso. n realtà infatti quello che noi vorremmo misurare in una matrice di sostituzione è quanto spesso osserviamo una coppia di aminoacidi in degli allineamenti ma solamente rispetto a quanto osserveremmo quella coppia per puro effetto del caso. Odds apporto frequenze osservate / frequenze attese Per considerare questi effetti le matrici di sostituzioni sono costruite usando i valori delle frequenze osservate per ogni coppia di aminoacidi ma normalizzati dividendoli per i valori delle frequenze attese per caso per quella stessa coppia. Queste quantità si chiamano Odds (rapporti) e sono un indice di quanto una coppia è avvantaggiata o sfavorita in un allineamento. e la frequenza con cui una coppia viene osservata è più alta rispetto a quanto ci si aspetterebbe di trovarla per puro caso, il rapporto sarà un numero maggiore di e avrà un valore tanto più alto tanto più quell'appaiamento è favorito. e al contrario la coppia viene osservata in allineamenti reali meno spesso di quanto ci si aspetterebbe di trovare quei dua aminoacidi appaiati in allineamenti casuali, il rapporto sarà un numero minore di e tanto più vicino allo zero quanto più la coppia è svantaggiata. Nella figura si vede che la coppia (frequenza osservata =.5) sarebbe attesa per caso (come si calcola dalla matrice delle sostituzioni casuali) in modo molto maggiore (frequenza attesa.8) rispetto a quante volte viene realmente osservata. Questo fa si che il rapporto frequenza attesa/frequenza osservata sia minore di (Odd=.53) e che quindi la coppia risulta sfavorita dall'evoluzione. l contrario la coppia pur essendo osservata con una frequenza più bassa rispetto ad a (solo.) è attesa per caso con una frequenza ancora inferiore (.5) risultando di fatto avvantaggiata. ompre infatti negli allineamenti 6.4 volte di più rispetto a quanto sarebbe attesa per caso.

.3 Matrice di probabilità.5.3..............5. Frequenze osservate.3 iviso.53.3 6.4.6 6.4 Matrice di probabilità.4.8.4.9.9.5 Frequenze attese.9.9.3. < ostituzione sfavorita > ostituzione favorita = Probabilità di allineamento.3.53.3 6.4.6 6.4 f() x f() x f() x f() x f() a() x a() x a() x a() x a() = p x p x p x p x p =.3 x.3 x.53 x.6 x 6.4 = 5 comodo! Matrice di probabilità li Odds non possono essere sommati Per calcolare il puneggio di un allineamento ma debbono essere moltiplicati Matrice di probabilità e punteggio di un allineamento a matrice che contiene per ogni coppia di aminoacidi al suo interno gli Odds (ovvero il rapporto fra frequenza attesa/ frequenza osservata per ogni coppia), si chiama matrice di probabilità e può essere usata per calcolare il punteggio di un allineamento. Per costruire questa matrice si dividono i valori contenuti nella matrice delle frequenze osservate per i valori calcolati per le frequenze attese di ogni coppia. d esempio per la coppia la probabilità è.3 (.3/.4). Punteggio di un allineamento a probabilità di osservare un allineamento rispetto alla probabilità di osservare lo stesso allineamento per caso può essere calcolata come il prodotto delle probabilità di osservare ogni coppia di aminoacidi che lo compone rispetto alle probabilità di osservare le stesse coppie per caso. valori di probabilità per ogni possibile coppia di aminoacidi sono quelli contenuti nella matrice di probabilità. l fatto di dover eseguire tante moltiplicazioni quante sono le coppie di aminoacidi da allineare rende molto scomode da usare in pratica questo genere di matrici.

ogaritmo delle frequenze og ( a x b x c x d ) = log(a) + log(b) + log(c) + log(d) Prob = p x p x p x p x p log( Prob ) = log( p x p x p x p x p ) og (Prob) = log(p) +log(p) +log(p) +log(p) +log(p) Matrice di punteggio.3.53.3 6.4.6 6.4 ogaritmo = Matrice di probabilità Matrice di punteggio.3..3.8..8 p p p p p p p log(p) log(p) log(p) log(p) log(p) log(p) log(p) < ostituzione sfavorita > ostituzione favorita p p log(p) log(p) p log(p) ogaritmo delle frequenze Per trasformare il puntegio di un allineamento calcolabile come un prodotto, in un punteggio calcolabile come una somma possiamo usare una proprietà dei logaritmi. l logaritomo del prodotto di una serie di numeri è uguale alla somma dei logatimi dei singoli valori. l punteggio di un allineamento è il prodotto dei valori contenuti nella matrice di probabilità per ogni coppia di aminoacidi. l logaritmo del punetggio è quindi uguale al logaritmo del prodotto dei singoli valori, e quindi anche, grazie alla proprità di cui sopra, alla somma dei logaritmi dei singoli valori. e quindi in una matrice di probabilità usiamo anzichè gli odds i logaritmi degli odds otterrmo l'effetto che questi valori potranno essere sommati fra di loro anzichè moltiplicati per ottenere il logaritmo del punteggio di un allineamento. Matrice di punteggio Una matrice di punteggio è come una matrice di probabilità ma anziche contenere gli odds contiene il logaritmo degli odds per ogni coppia di aminoacidi. alcolando il logaritmo, i valori che erano maggiori di nella matrice di probabilità (le sostituzioni favorite) diventeranno adesso numeri maggiori di. Mentre i numeri fra uno e zero ( le sostituzioni sfavorite) diventeranno adesso numeri negativi.

Punteggio di un allineamento.3..3.8..8 Matrice di punteggio < ostituzione sfavorita > ostituzione favorita Una matrice di punteggio =.3 +.3. +. +.8 =.4 Prob=.4 = 5 dentità ostituzioni avvantaggiate ostituzioni avvantaggiate ostituzioni svantaggiate Punteggio di un allineamento valori contenuti in una matrice di punteggio possono quindi essere sommati fra di loro per ottenere un punteggio per un allineamento. l punteggio otteunto sarà pari al logaritmo della probabilità di osserare un allineamento rispetto alla probabilità di osservarlo per caso. Per conoscere la probabilità bisogna quindi elevare al punetggio ottenuto. Matrice di punteggio reale appresentata in figura è una matrice di punteggio reale costruita con il metodo che abbiamo appena descritto a partire da molti allineamenti di sequenze omologhe. n diagonale ci sono i valori di sostituzione di un aminoacido con se stesso ( in arancione), che sono i più alti di tutti. lcuni valori sono positivi (in blu e verde), e sono le sostituzioni avvantaggiate fra coppie di aminoacidi simili fra di loro. utti gli altri (in bianco) sono le sostituzioni svantaggiate. e matrici che vengono usate per gli allineamenti si distinguono inanzitutto per il modo in cui sono stati scelti gli allineamenti di proteine usati per costruirle. Noi analizzeremo i due tipi di matrici più utilizzati. e matrici PM e quelle BOUM.

istanza delle matrici 3 9 8 5..5..5..7.8.9..5 a allineamenti di sequenze molto simili a allineamenti di sequenze molto divergenti istanza di una matrice Una caratteristica che distingue tutte le matrici (indipendentemente dal modo in cui sono stati scelti gli allinemaenti) è il valore di similarità delle sequenze usate per costruirle. e gli allineamenti usati sono allineamenti di proteine molto vicine filogeneticamente fra di e con un alto grado di identità ovviamente ci saramnno pochissime sostituzioni osservabili e le matrici che ne deriveranno avranno i valori sulla diagonale molto più alti che in tutto il resto della matrice, ed ogni sostituzione (anche le più favorite) saranno molto svantaggiate in un allineamento. l contrario se sono stati usati allineamenti di sequenze sempre omologhe ma molto divergenti e con numerose sostituzioni, si avranno matrici in cui la differenza fra i punteggi sulla diagonale rispetto al resto della matrice sarà molto ridotta. Matrici BOUM dentità < x % Matrici Blosum e matrici blosum sono costruite a partire da blocchi di allineamenti multipli locali di famiglie di proteine derivati dalla banca dati BOK. n pratica per contare le sostituzioni si analizzanto corti tratti di sequenza senza gaps fra tutte le possibli coppie di proetine appartenenti alla stessa famiglia. l numero associato alla parola blosum indica la percentuale di identità massima esistente all'interno della famiglia di proteine presa in considerazione. d esempio la matrice BOUM 6 contiene i valori di sostituzione derivati da allineamenti locali di tutte le proteine appartenenti ad una certa famiglia ma con una percentuale di identità massimo nei loro allineamenti del 6%.

Matrici PM Percent ccepted Mutation orrispondenza PM/BOUM Maggiore divergenza PM 5 BOUM 45 PM BOUM 5 PM 6 BOUM 6 PM = PM * PM PM 3 = PM * PM PM 4 = PM 3 * PM etc.. PM BOUM 8 Minore PM BOUM 9 divergenza e matrici PM e marici pam sono costruite a partire da allineamenti di famiglie di proteine dove gli allineamenti sono fatti solamente fra coppie di proteine che sono immediatamente vicine nell'albero filogenetico della famiglia. a matrice di probabilità ottenuta è poi modificata in modo da far si che ci sia solamente mutazione accettata ogni aminoacidi (PM = Percent ccepted Mutation). n questo modo viene costruita la matrice PM, che rappresenta le mutazioni osservabili in un cortissimo lasso di tempo in cui due sequenze divergono fra di loro per appena sostituzione. e altre matrici PM sono ottenute moltiplicando più volte la matrice PM per se stessa per ottenere le probabilità di sostituzioni osservabili in tempi evolutivi maggiori. d esempio la matrice PM si ottiene moltiplicando per se stessa la PM, la PM tre moltiplicando la PM per la PM. l grafico della figura mette in relazione la distanza evolutiva fra due sequenze misurata in PM ed il numero di residui non più identici che rimangono fra di loro. celta della matrice di sostituzione Quando dobbiamo allineare due sequenze bisogna usare una matrice di sostituzione che sia generata a partire da allineamenti in cui la quantità di residui identici sia paragonabile al numero di residui identici negli allineamenti usati per costruire la matrice. Quindi per confrontare sequenze molto simili dovremo usare Matrici PM con un numero basso o BOUM con un numero alto ad esempio PM o BOUM 9. Per confrontare sequenze molto divergenti useremo invece matrici PM con un numero alto o BOUM con un numero basso, ad esempio PM 5 o BOUM 45. Nella figura si vede la relazione fra le matrici PM e quelle BOUM, le matrici che sono sulla stessa riga sono equivalenti.