Consensus Allineamento multiplo domini EGF-like. Motivi e proteine. Famiglie di proteine. Domini proteici. Motivi funzionali.

Motivi e proteine Famiglie di proteine omini proteici Motivi funzionali equenze segnale onsensus llineamento multiplo domini GF-like B2_UMN/1641652 t s a q g t G f s B2_MOU/1641652 t s a q g t G f s B2_R/1641652 t s a q g t G f s 11_UMN/698-79 i q p d w t G k d 11_MOU/72-713 i q p d w t G k d 11_XN/381-392 i h p e w t G k d 22_UMN/7-711 v n r h w i G s d 22_MOU/698-79 v n r h w t G a d 22_XN/71-712 i d r f w t G e d 23_UMN/757-768 i d f t w a G t d 23_MOU/754-765 i d f t w a G t d M8_MOU/346-357 y p e p r e G g g P1_Y/79-9 e i e g f a G d d ONNU G Motivi funzionali e tramite ricerche in banca dati di una sequenza sconosciuta non è possibile identificare nessuna sequenza simile, esistono altri metodi per poter associare ugualmente la sequenza ad un qualche tipo di attività funzionale. ome in assenza di una similarità globale fra due sequenze è possible identificare una similarità di tipo locale, allo stesso modo anche in assenza di una ben definita similarità locale, usando metodi più sofisticati è possibile individuare dei tratti caratteristici all'interno di una sequenza associati ad una funzione. Queste regioni sono chiamate pattern o motivi funzionali, ed in questo capitolo vedremo, come sono fatti e che metodi si usano per individuarli su di una sequenza. a famiglia cui la proteina appartiene, i domini funzionali e strutturali di cui è composta, la presenza di aminoacidi in posizioni chiave (un sito attivo, un sito di legame, un segnale di riconoscimento), sono tutti tratti caratteristici che posono essere individuati e caratterizzati. seconda del tipo di funzionalità vogliamo identificare (famiglia, dominio, motivo) è meglio usare patterns di tipo diverso. omunque qualunque sia il tipo di pattern scelto, la sua costruzione e la sua identificazione parte sempre dalla costruzione di un allineamento multiplo di più sequenze che possiedono tutte la caratteristica funzionale che vogliamo descrivere. e si vuole ad esempio costruire un pattern che ci permetta di identificare proteine che sono trasportate nei mitocondri, grazie alla presenza di un corto peptide segnale sulla loro sequenza, si deve iniziare costruendo un allineamento multiplo di una serie di proteine che contengono questo segnale. onsensus a consensus di un allineamento multiplo è il tipo di pattern funzionale più semplice che possiamo immaginare di usare. bbiamo visto che gli allineamenti multipli sono utili perche ci permettono di identificare in una famiglia di proteine le posizioni della sequenza che sono particolarmente conservate e quindi probabilmente funzionalmente importanti. n figura è rappresentato l'allineamento multiplo di una serie di proteine contenti il dominio GF-like, una regione di 3-4 aminoacidi presente nel fattore di crescita dell'epidermide. alla riga di consesus dell'allineamento si vede che tutte le proteine possiedono un pattern di aminoacidi conservati: due isteine separate fra di loro da un aminoacido, seguite da una Glicina a cinque aminoacidi didistanza seguita a sua volta da un altra isteina dopo due posizioni. i può supporre che tutte le proteine (anche quelle di cui ancora non si conosce la sequenza) che possiedono questo dominio possiedano anche conservata questa serie di 5 aminoacidi. Usando questa informazione è possibile sapere, cercando la presenza del pattern, se una nuova sequenza contenga o no al suo interno un dominio di tipo GF-like, anche se la sequenza non dovesse mostrare nessuna similarità locale o globale con altre proteine.

Ricerca di un motivo KFOWGGPFFKO = + G KFOWGGPFFKO G KFOWGGPFFKO G KFOWGGPFFKO G G KFOWGGPFFKO KFOWGGPFFKO G KFOWGGPFFKO Ricerche in banche dati con un motivo UNPRO RP2_UMN FF_MOU R_MOU GN4_Y R_UMN Organismo uman Mouse Mouse Yeast uman G equenza Ricerca MRNNYKKQYWGYYKMKGYRYFMNPP MKKM RNYKFKPGKFYPRG equenze Positive: RP2_UMN, R_MOU, KKJFOWRMPKFFKOFKFWGRGNF NKPGKFYYKMKGYRYFGRKNYK NPR RKF YK MQRNNF equenze Negative: FF_MOU, GN4_Y, R_UMN, ercare un motivo su di una sequenza ome si può sapere se una sequenza sconosciuta contiene al suo interno un motivo funzionale derivato da una consensus? Un semplice metodo è lo stesso usato per allineare due sequenze senza gaps, ovvero vedere se la consensus è presente in qualcuna di tutte le possibili posizioni sulla sequenza. Per fare questo si allinea la consensus con la prima posizione della sequenza e si vede se gli aminoacidi sulla consensus corrispondono a quelli presenti sulla sequenza. Nel caso della figura questo non è vero perche in prima posizione sulla sequenza c'e' una mentre sulla consensus c'e' una. questo punto si fa scorrere d una posizione verso destra la consensus rispetto alla sequenza e si vede se in questa nuova posizione gli aminoacidi corrispondono. 'operazione è ripetuta ripetuta fino a quando non si arriva al termine della sequenza. i vede quindi se in qualcuna delle posizioni provate è stata trovata una perfetta corrispondenza tra gli aminoacidi presenti sulla consensus e quelli nella sequenza. Nell'esempio della figura si quando si fa cominciare la consensus sulla terza posizione della sequenza si crea un accoppiamento esatto degli aminoacidi. Questo vuol dire che la sequenza dell'esempio contiene la consensus del dominio GF-like, in terza posizionr. Una consensu può ovviamente anche essere trovata ripetuta più volte su di una stessa sequenza. Ricerche in banche dati con motivi opo aver visto come creare un motivo funzionale e vedere se è presente su di una sequenza, vediamo in che modo possono essere usati questi motivi funzionali. Una delle operazioni che possiamo fare con un motivo funzionale e quello di cercarlo su di una intera banca dati di sequenze per vedere quali di queste contengono almeno una copia del motivo e possiedano quindi presubilmente la funzione associata la motivo. Nella figura si vede la consensus del motivo GF-like cercata nell'intera banca dati di proteine UNPRO. l risultato di questa ricerca sarà l'elenco di una serie di proteine all'interno della cui sequenza è stato ritrovato il motivo (in rosso). e seuenze che contengono il motivo sono definite "positive", quelle invece che non lo contengono "negative" (in bianco).

eri/falsi Positivi/Negativi eri/falsi Positivi/Negativi a un dominio GF? equenza Risultato onsensus 1 No FRRJKKQYWGYYKMKGY 2 i KKQYWGYYKMKGY Positivo 3 No FGKGPOKFGFJRJNOXFMF 4 i MRNNYKKQYWGYYKMKGY Positivo 5 No MKKMNYKFK 6 7 8 9 No i No No FGFKGFKFWGRGNF KFYYKMKGYRYFGRKNYK NPFFKFMKGMKFGMBJBUBU FGXXMXRFOXPOXKOMXMN Falso Falso Positivo Raccolgo pomodori nell orto Prendendo tutto quello che è di colore rosso. Positivo Falso Falso Risultati eri e Falsi e facciamo una ricerca con la consensus per il dominio GF-like in una banca dati, dobbiamo immaginare che tutte le proteine "positive" abbiano effettivamente il dominio GF-like e che tutte quelle "negative" ne siano prive? Nonostante abbiamo sino ad ora dato per scontato che questo fosse vero, la sola presenza di un motivo all'interno di una sequenza in realtà non è affatto garanzia della presenza della funzione nella proteina, come anche l'assenza del motivo non è garanzia dell'assenza della funzione. Possono infatti esistere delle proteine che possiedono i 5 aminoacidi del motivo nella giusta posizione ma solamente per caso e non all'interno di un dominio GF-like. Oppure possono esistere proteine (a noi sconosciute al momento della costruzione dell'allineamento multiplo) con un domino GF-like e quindi con la funzione ma prive della consensus a causa di una mutazione in uno dei 5 aminoacidi conservati. efiniamo una sequenza trovata in banca dati vera se la presenza della consensus corrisponde effettivamente con la presenza del dominio (vera positiva) o l'assenza della consensu corrisponde con l'assenza del dominio (vera negativa). ltrimenti la sequenza potrà essere falsa perchè ha in dominio ma non ha la consensus (falsa negativa) o perchè ha la consensus ma non il dominio (falsa positiva). alutazione della capacità predittiva di un motivo hiariamo il concetto di risultati veri o falsi e positivi o negativi, perchè il numero di sequenze che troviamo appartenere ad una di queste 4 classi è indicativo della capacità predittiva e quindi della qualità di un motivo. mmaginiamo di avere un orto (la nosta banca dati di sequenze), che contiene pomodori, zucchine e fragole. upponiamo di voler raccogliere tutti i pomodori (che corrispondono alle sequenze che vogliamo identificare, ad esempio quelle che hanno il dominio GF-like) lasciando al loro posto gli altri ortaggi. obbiamo scegliere un criterio per decidere se un ortaggio è o meno un pomodoro (il che corrisponde a trovare un motivo funzionale) e dalla considerazione che molti pomodori sono rossi, scegliamo di raccogliere tutti gli ortaggi di colore rosso. Raccogliendo tutti gli ortaggi di colore rosso (equivalente a fare una ricerca in banca dati col motivo) commettiamo degli errori. pomodori rossi sono tutti raccolti e rappresentano i veri positivi ( anno infatti il motivo rosso e sono pomodori). pomodori di colore verde non vengono raccolti e rappresentano i Falsi Negativi ( Non hanno il motivo rosso pur essendo pomodori). e zucchine, coreettamente, non sono raccolte e rappresentano i eri Negativi (Non hanno il colore rosso e non sono pomodori). e fragole invece verarnno raccolte per errore e sono i Falsi Positivi ( anno il colore rosso ma non sono pomodori). a qualità di un motivo funzionale può essere misurata contando il numero di veri & falsi e positivi & negativi che riesce a trovare. Motivi funzionali affidabili devono trovare molte sequenze ere Positive e ere Negative, cercando di minimizzare il numero di Falsi positivi e Falsi negativi.

ensitività del motivo Quanti pomodori sono riuscito ad identificare? elettività del motivo Quanti ortaggi scelti sono veramente pomodori? --------- + P = --------- P + FN 13 = ------ =.81 13 + 3 --------- + P = --------- P + FP 13 = ------ =.65 13 + 7 ensitività di un motivo a sensitività di un motivo funzionale è una misura che ci indica la sua capacità di recuperare il maggior numero di sequenze che effettivamente hanno la funzione che stiamo cercando. a sensitività è pari al rapporto tra il numero di eri Positivi (le sequenze con la funzione che sono state trovate), rispetto al totale dei eri Positivi più i Falsi Negativi (ovvero il totale delle sequenze che avevano la funzione). valore di ensitività può andare da 1 (1% delle sequenze con la funaione recuperate) a (% delle sequenze con la funzione recuperate). Nell'esempio della figura la sensitività ci indica la frazione dei pomodori che riusciamo a recuperare, ovvero i 13 pomodori rossi (quelli presi) diviso 16 ( 13 rossi + i 3 verdi non presi) il totale dei pomodori che erano nell'orto. Ovvero un valore pari a.81 (sono stati recuperati l'81% dei pomodori presenti). elettività di un motivo a selettività di un motivo funzionale è una misura che ci indica la sua capacità di commettere il minor numero possibile di errori fra le sequenze scelte come positive per la funzione che stiamo cercando. a sensitività è pari al rapporto tra il numero di eri Positivi (le sequenze con la funzione che sono state trovate), rispetto al totale dei eri Positivi più i Falsi Positivi (ovvero il totale delle sequenze che sono state scelte). l valore di elettività può andare da 1 (1% delle sequenze che abbiamo scelto avevano effettivamente la funzione) a (% delle sequenze scelte avevano la funzione). Nell'esempio della figura la selettività ci indica la frazione degli ortaggi che erano effettivamente pomodori fra tutti quelli che abbiamo scelto, ovvero i 13 pomodori rossi (quelli giusti) diviso 2 ( 13 pomodori rossi + le 7 fragole prese per sbaglio) il totale degli ortaggi che abbiamo raccolto. Ovvero un valore pari a.65 (solo il 65% degli ortaggi raccolti erano pomodori).

celta del Motivo Migliore GF-like NO GF-like tsaqgtgfs iqpdwtgkd iqpdwtgkd ihpegtgkd vnrhwigd idrfwtd idftwad idftwatd ypepreggg eiegfagdd tsaqgtgfs iqpdwtgkd iqpdwtgkd ihpegtgkd vnrhwigd idrfwtd idftwad idftwatd ypepreggg eiegfagdd tsaqgtgfs iqpdwtgkd iqpdwtgkd ihpegtgkd vnrhwigd idrfwtd idftwad idftwatd ypepreggg eiegfagdd oefficiente di orrelazione PN FNFP ------------------------------------------------------- Radice di (N+FN)(N+FP)(P+FN)(P+FP) Motivo XXX XG GG ensitività 1% elettività 5% ensitività 6% elettività 6% ensitività 4% elettività 1% celta del motivo migliore iversi motivi possono avere una effiaccia diversa nel ritrovare sequenze con una data funzione in una banca dati. Possono esistere diversi motivi per identificare lo stesso tipo di funzione. partire da un allineamento multiplo di sequenze è possibile scegliere diversi motivi funzionali che possano descriverlo. l motivo che descrive il dominio GF-like invece che essere composto dai 4 aminoacidi (GG) potrebbe essere composto da un numero maggiore o minore di aminoacidi. Potrebbe infatti essere descritto dal motivo più corto o dal motivo più lungo GG. Quale di questi tre motivi è migliore per descrivere il dominio GF-like? Motivi molto corti permettono di trovare tutte le sequenze con la funzione, ma aumentano anche la probabilità di prendere per caso molte sequenze prive della funzione. Questi motivi tendono quindi ad avere un alta sensitività ma una bassa selettività. l contrario motivi molto lunghi selezioneranno solamente sequenze che di sicuro hanno la funzione ma ne troveranno insieme anche molte altre sbagliate. Questi motivi tendono quindi ad avere un alta selettività ma una bassa sensitività. Nella figura sono mostrati due allineamenti multipli. Quello in alto di sequenze che hanno il dominio GF-like e quello in basso di sequenze che ne sono prive. seconda di quale dei tre possibili motivi rappresentati decidiamo di usare, alcune sequenze saranno trovate positive (in rosso) ed altre negative. Per valutare l'efficienza di un motivo non ha senso usare uno solo dei due valori ( la selettività o la sensitività), infatti avere una sensitività pari al 1% ma una selettività molto bassa, o viceversa, è inutile. oefficiente di correlazione mmaginiamo di usare per fare una ricerca un motivo funzionale cortissimo che trova sempre positive tutte le sequenze della banca dati, per esempio un motivo che contenga solo una X. Un motivo del genere avrebbe un sensitività pari a 1%, in quanto recupererebbe effettivamente tutte le sequenze che hanno la funzione, ma avrebbe anche una selettività prossima allo, poichè sceglierebbe oltre alle seqeunze giuste anche tutte le altre presenti nella banca dati e sbagliate. l contrario usando un motivo molto lungo e specifico, come ad esempio QGG, questo non sceglierebbe nessuna sequenza sbagliata (priva della funzione GF-like). vrebbe quindi una selettività del 1%, ma contemporaneamente essendo troppo specifico troverebbe solo pochissime delle sequenze giuste e avrebbe quindi una sensitività molto bassa. Per capire complessivamente come si comporta un motivo funzionale è possibile calcolare il suo oefficiente di orrelazione. l coefficiente di correlazione è una misura unica per l'efficienza di un motivo. Può assumere un valore variabile tra 1 e. ale per motivi perfetti che trovano il 1% di veri positivi ed il 1% di veri negativi. Un valore vicino allo è posseduto da quei motivi che trovano un 5% di veri positivi insieme ad un 5% di falsi positivi. Motivi che hanno un valore vicino allo vuol dire che si comportano in modo completamente casuale. il che significa che scegliendo quali sono le sequenze giuste e quelle sbagliate usando una moneta invece del motivo si ottengono gli stessi risultati. Motivi che hanno valori minori di addirittura si comportano peggio di un dado, e invece di trovare le sequenze giuste tendono a trovare quelle sbagliate. Un punteggio di lo hanno infatti i motivi che sbagliano in modo "perfetto" trovando il 1% di falsi positivi e il 1% di falsi negativi.

Ricerche con Motivi Funzione ito di N-glicosilazione ito di fosforilazione Motivo di legame all P Motivo di legame al calcio ominio GF Zinc finger erniera di eucine Banca dati di motivi Motivo N..R G...GK R..R.....G........ Ricerca KNGGPFF KRORKWOPKPGFP RRRWRW equenza sconosciuta spressioni regolari WNK WRQ GWNR WR WR...W -[,]--X-X-X--W Posizioni con più possibilità = [,,, ] -[,]--X(3)--W Posizioni ripetute = (n) KNGGPFFKRORKWOPKPGFPRRRWRW ito di N-glicosilazione N ito di fosforilazione ito di legame al calcio Ricerche in Banche dati di motivi Una volta che abbiamo costruito un motivo a partire da un allineamento multiplo e ne abbiamo verificato la sua efficacia nel recuperare in una banca dati il maggior numero di sequenze che hanno la funzione evitando di scegliere quelle che non la hanno, possiamo conservarlo in una banca dati. sistono banche dati di motivi funzionali che associano diversi motivi conosciuti a diverse funzioni. nnotare una sequenza significa cercare se in una sequenza a funzione sconosciuta sono presenti uno o più motivi funzionali. Per fare questo si cercano tutti i motivi contenuti in una banca dati uno alla volta sulla sequenza. l termine dell'operazione la sequenza potrà risultare contenere al suo interno uno o più di questi motivi funzionali. a probabilità che questi motivi trovati siano veri (ovvero che la sequenza abbia realmente quella funzione) o che la sequenza abbia una funzione che non è stata trovata, dipende dall'efficienza dei motivi funzionali contenuti dalla banca dati. spressioni regolari la consensus è il più semplice dei motivi che possono essere usati per rappresentare una funzione, infatti in ogni posizione del motivo può essere presente un solo tipo di aminoacido. mmaginiamo un allineamento multiplo di proteine che hanno tutte la stessa funzione, in cui in una delle posizioni compaiono due aminoacidi simili ad esempio la e la (in giallo nella figura). e si vuole rappresentare questo motivo usando una consensus, bisogna scegliere se mettere nel motivo una o una, perdendo in entrambi i casi alcune sequenze con la funzione. Per fortuna esistono modi più sofisticati per rappresentare un motivo. Uno di questi sono le espressioni regolari. Una espressione regolare assomiglia molto ad una consensus, usando anch'essa una X per rappresentare le posizioni dove possono essere presenti qualunque tipo di aminoacidi. Ma a differenze della consensus permette la presenza di più aminoacidi differenti in una posizione. Per specificare la presenza di più aminoacidi diversi si usano le parentesi quadre attorno alla posizione e tutti gli aminoacidi possibili in quella posizione sono separati da virgole. Nell'esempio della figura l'espressione -[,]- significa un stidina seguita da una eriona o una reonina nella seconda posizione, seguite poi da una isteina. Un altro simbolo che si può usare nelle espressioni regolari sono delle parentesi tonde che contengono un numero, questo numero sta a significare quante volte deve essere ripetuto il simbolo nella posizione precedente. d esempio -X-X-X--W può essere scritto come -X(3)--W, significando in entrambi i casi che ci deve essere una isteina seguita da 3 aminoacidi qualunque, seguita poi da un altra isteina e da un riptofano.

Ripetizioni variabili G----WNR --WNK WRQ? GWNR -[,]--X--W? Matrici posizionali di peso []--[]--[]-[]-[]--[] WNK WRQ G----WNR --WNK WRQ -[,]--X-X-X--W? -[,]--X-X-X-X-X--W? -[,]--X(1,5)--W Numero variabile di ripetizioni = (i, j).8.8 1. 1..6 1..8.6 Position pecific coring Matri Numero variabile di ripetizioni Matrici posizionali di peso (PM) n figura è rappresentato un allineamento multiplo, con dei gaps in alcune posizioni. Non sembrerebbe possibile individuare una unica espressione regolare che possa ritrovare tutte e tre le sequenze, infatti ogni sequenza è rappresentata da un motivo con un numero di X diverso. Un motivo che ha una sola X troverebbe la prima sequenza ma non la seconda e la terza, un motivo che avesse 3 X troverebbe la seconda sequenza ma non la prima e la terza, etc. e espressioni regolari permettono di risolvere queste situazioni spesso causate dalla presenza di gaps di lunghezza variabile all'interno di allineamenti multipli. n un' espressione regolare è possibile specificare che il carattere contenuto in una posizione sia ripetuto un numero variabile di volte. Per indicare questo si usano due numeri separati da una virgola all'interno di parentesi tonde che seguono la posizione da ripetere. l primo numero rappresenta il numero MNMO di volte che il carattere deve essere ripetuto nella sequenza perchè il pattern sia valido, il secondo numero rappresenta il numero MMO di volte che il carattere può essere ripetuto. Nella figura il pattern -[,]--X(1,5)--W significa che fra le due possono esserci 1, 2, 3, 4 o anche 5 aminoacidi di tipo diverso e comunque il pattern verrebbe considerato valido. n questo modo questa espressione regolare rappresenta tutte e tre le sequenze dell'allineamento multiplo contemporaneamente. Ovvero cercando con questa espressione regolare tutte e tre le sequenze risulterebbero possedere il motivo corretto. all'allineamento multiplo delle 5 sequenze in figura si vede che in terza posizione quattro sequenze su cinque hanno una ed una sola una. e usiamo un'espressione regolare per descrivere questo motivo funzionale troveremo sia sequenze con una che sequenze con una. e la fosse più importante della in quella posizione come sembrerebbe suggerire l'allineamento multiplo non abbiamo modo di rappresentare questo concetto nel motivo. 'unica possibilità sarebbe di escludere la dall'espressione regolare, ma perderemmo in questo modo una parte delle sequenze con la funzione. Quello di cui abbiamo bisogno è un tipo di motivo che accetti entrambe le lettere ma dia un vantaggio alle sequenze che hanno una rispetto a quelle che hanno una. e Position pecific coring matri (PM) o Matrici Posizionali di peso permettono proprio di fare questo. ono delle matrici con un numero di colonne pari alla lunghezza del motivo funzionale che vogliamo descrivere ed una riga per ogni aminoacido diverso che compare nell'allineamento (quindi massimo 2 ringhe). n ogni cella di una PM è contenuto un valore da 1 a che corrisponde alla frazione di posto che l'aminoacido della riga occupa nella colonna dell'allineamento, rispetto agli altri aminoacidi. d esempio nella figura la in terza colonna è presente in 4 copie su 5 aminoacidi totali (4/5=.8), mentre la è presente in 1 copia (1/5=). n quarta posizione invece 5 aminoacidi su cinque sono isteine (5/5=1.). Guardando una PM è possibile vedere quali aminoacidi sono permessi in ogni posziione e quali di quelli ammessi sono avvantaggiati rispetto agli altri (hanno un valore maggiore).

Punteggio con PM og-odds Punteggio = 1log(osservati/attesi) G.8.8 1. 1..6 1..8.6 Position pecific coring Matri W Y equenza 1..81..81.=.8192 in posizione 3 = 1log(.8/.5) =.41 = G + -4 + -2-4 Position pecific coring Matri W Y = equenza alcolo del punteggio per un motivo con una PM Per cercare un motivo su di una sequenza usando una PM si procede allo stesso modo che con le espressioni regolari, ovvero si fa scorrere il motivo lungo la sequenza da cercare e si vede posizione per posizione se il motivo è presente o meno. on una PM un motivo è presente quando per ogni posizione l'aminoacido è presente nella matrice (anche con un punteggio molto baso). Ma avendo usato una PM per descrivere un motivo funzionale invece di un espressione regolare abbiamo ora la possibilità, se il motivo è presente, anche di calcolare un punteggio associato alla qualità del motivo. Quindi di sapere se il motivo è costituito da aminoacidi frequenti nell'allineamento multiplo o da aminoacidi più rari (e quindi più improbabili). l punteggio si calcola moltiplicando fra di loro tutti i valori corrispondenti agli aminoacidi trovati nelle diverse posizioni sulla sequenza. Per la sequenza in figura il punteggio è il prodotto di ( in prima posizione) per 1. (la in seconda posizione) per.8 (la in terza posizione) e così via... l punteggio ottenuto può andare da 1 a, e sarà tanto maggiore quanti più aminoacidi frequenti sono stati trovati sulla sequenza rispetto a quelli più rari. PM con i log-odds Una PM che contiene i valori che abbiamo appena visto è piuttosto scomoda da usare perchè bisogna fare tante moltiplicazioni quanto è lungo il motivo per calcolare il punteggio. ome abbiamo visto per le matrici di sostituzione anche qui è possibile trasformare questi valori, nei logaritmi delle frequenze osservate nel multiallineamento rispetto alle frequenze attese, e poi usare la somma di questi valori per calcolare il punteggio. a frequenza attesa di un aminoacido in una posizione è calcolata come se tutti gli aminoacidi possibili in quella posizione fossero presenti lo stesso numero di volte. d esempio la frequenza attesa per la in terza posizione sarebbe.5 se ci fossero tante quante nell'allineamento multiplo. a frequenza attesa per la in prima posizione sarebbe 5 se le le le e le fossero presenti in eguali quantità (essendoci in quella posizione 4 aminoacidi diversi 1/4 = 5). Per la in terza posizione il nuovo valore sulla matrice sarà quindi log(.8/.5)=, cioè il logaritmo fra la frequenza osservata nell'allineamento multiplo (il vecchio valore della PM) e la frequenza attesa.5. valori trovati possono poi essere moltiplicati per 1 per avere dei numeri interi. l valore finale per la posizione della in terza colonna sarà quindi di (,2 1). opo aver calcolato il logaritmo avremo dei valori positivi per gli aminoacidi che sono più frequenti in una posizione rispetto a quanto ci attenderemmo per caso e dei valori negativi per gli aminoacidi che sono meno frequenti in una posizione rispetto all'atteso. l punteggio finale del motivo puù essere ora calcolato come la somma dei punteggi per ogni singola posizione.

Ricerca PM su sequenza RWRYPNMWQ Ricerca spressione regolare RWRYPNMWQ alcolo punteggio PM RWRYPNMWQ +5 3 celta motivi più alti del volore soglia RWRYPNMWQ []--[]--[]-[]-[]--[] -4-2 -4 PM > -22 = PO PM < -22 = NG Positiva urve Roc % eri positivi 1% 75% 5% 25% Motivo efficiente Motivo poco efficiente Random 25% 5% 75% 1% % Falsi positivi Ricerche con PM e curve RO Quando si fa una ricerca di un motivo su di una sequenza usando una PM, il risultato non sarà solamente negativo o positivo (il motivo è presente o assente), ma sarà associato ad un punteggio proporzionale alla qualità del motivo trovato sulla sequenza. Quindi anche dopo aver fatto la ricerca per decidere quali sequenze sono positive (hanno il motivo funzionale) e quali sono negative (non lo hanno) bisogna scegliere un valore di soglia al di sopra del quale considerare i motivi trovati sulla sequenza come veri, e al di sotto falsi. Una scelta ragionevole potrebbe essere una soglia pari a e scegliere quindi per buoni tutti i motivi con un punteggio positivo e sbagliati tutti i motivi con punteggio negativo. Ovviamente il valore di sensitività e selettività di un motivo non sarà più sempre uguale ma cambierà al variare della soglia che scegliamo. Una soglia molto bassa (con cui quasi tutti i motivi trovati vanno bene), trovando positive molte sequenze, farà recuperare molti dei veri positivi ma prenderà per sbaglio anche molti falsi positivi. Una soglia bassa avrà quindi valori di ensitività molto alti e di selettività molto bassi. l contrario con una soglia molto alta, molti motivi trovati non saranno considerati validi, si perderanno quindi molte sequenze con la funzione ma ci saranno anche molti pochi falsi positivi. Una soglia alta avrà quindi valori di sensitività molto bassi e di selettività molto alti. on motivi funzionali che danno un risultato qualitativo come le PM, la scelta della soglia ha quindi gli stessi effetti sull'efficienza del motivo di quelli che avevano nelle consensus l'aggiunta o la rimozione di aminoacidi dal motivo. mmaginiamo un diagramma dove indichiamo su di un asse la percentuale di veri positivi trovati da un motivo (la sensitività) e sull'altro asse la percentuale di falsi positivi presi per sbaglio dallo stesso motivo (l'inverso della selettività). u un piano di questo tipo l'efficienza di un motivo (esempio un espressione regolare) può essere rappresentata con un punto sul piano a cui corrisponderanno valori unici di sensitività e di selettività. punti sul piano dove è rappresentata in figura la linea rossa corrispondono a motivi funzionali che si comportano in modo assolutamente casuale (non sono più utili per identificare la funzione di una proteina del lancio di un dado). nfatti abbiamo visto che qualunque motivo funzionale può sempre facilmente trovare la stessa percentuale di veri positivi e falsi positivi, ad esempio un motivo che scelga tutte le sequenze avrà facilmente il 1% di veri positivi (1 di sensitività) ma anche il 1% di falsi positivi ( di selettività). Quindi in questo piano tutti i motivi che si trovano sopra la linea rossa funzionano bene (meglio del caso) e quelli sotto male (peggio del caso). Piu il motivo si trova vicino alla parte alta a sinistra del grafico migliore sarà (più veri positivi e meno falsi positivi). Motivi con un valore di soglia, tipo le PM, sono rappresentati su questo grafico anzichè come dei punti come delle linee (la verde o la gialla), le curve RO, infatti a seconda del valore scelto per la soglia, l'efficienza del motivo può cambiare. ' possibile quindi confrontare l'efficienza di due PM, indipendentemente dalla soglia scelta, andando a misurare l'area sotto la curva RO, maggiore sarà quest'area meglio funzionerà il motivo. d esempio il motivo in verde sarà sempre più efficiente (indipendentemente dalla soglia scelta) del motivo rappresentato dalla curva gialla.

ogo di sequenza 1..8 1..8.6 1..6 Ricerca con allineamento? Y llineamento Multiplo G W equenza Y Y Y Y Y ltezza = log 2 (2) - F log 2 (F) = 4.32 - F log2 (F) P1+P2+P3+P4+P5+P6+P7+P8+ P9 /5 = Punteggio sequenza Rappresentazione di un motivo con i ogo di sequenza. bbiamo visto che i valori contenuti nelle PM ci possono dare un indicazione degli aminoacidi che sono più o meno favoriti nelle diverse posizioni di un motivo funzionale. partire da una PM è possibile costruire una rappresentazione grafica del contenuto di una PM, che permette di vedere a colpo d'occhio sia quali sono le posizioni più conservate nel motivo sia quali sono gli aminoacidi favoriti in ogni posizione. Questa rappresentazione si chiama OGO di una sequenza e raffigura posizione per posizione le lettere consentite in ogni colonna di un motivo. utte le lettere che sono possibili in ogni posizione vengono disegnate l'una sopra l'altra. 'altezza di ogni lettera e quindi la sua grandezza è proporzionale alla frequenza della lettera in quella posizione e quindi al valore della lettera nella PM. ontemporaneamente l'altezza totale della colonna che rappresenta ogni posizione è proporzionale al grado di conservazione della posizione stessa. Ovvero se in una posizione viene sempre osservato un solo tipo di aminoacido la sua altezza sarà maggiore della somma delle altezze delle lettere in colonne formate da più possibili aminoacidi. d esempio nella figura l'altezza della lettera nella seconda posizione è maggiore della somma delle altezze delle lettere,, e della prima posizione. a formula esatta per calcolare l'altezaz di ogni lettera è log 2(2)-flog 2(f), dove f è la frequenza della lettera in quella posizione. 'altezza della sarà quindi log 2(2)- 1.log 2(1.) = 4.32 - = 4.32. Ricerca di un motivo usando l'allineamento multiplo ' allineamento della figura mostra una situazione che le PM non possono gestire. n terza posizione è presente sulla sequenza l'aminaocido Y, dove nell'allineamento multiplo con cui è stato costruito il motivo c'erano solamente la e la. Quindi usando la PM per una ricerca la sequenza non potrebbe essere trovata. ssendo l'aminoacido Y relativamente simile alla ed alla, può essere che la sequenza abbia comunque la funzione? ' possibile che al momento della costruzione dell'allineamento multiplo, non si fosse ancora a conoscenza, di altre sequenze positive che avessero in quella posizione una Y. l problema può essere risolto da un metodo di ricerca che permetta di identificare anche sequenze che contengono aminoacidi non sono presenti nel motivo funzionale. Questo metodo potrebbe usare come punteggio per un aminoacido mai visto in una certa posizione, il suo valore di similarità (preso da una matrice di sostituzione) con gli altri aminoacidi presenti in quella posizione. Un metodo simile già esiste ed è quello che si per dare il punteggio ad un allineamento di una sequenza con un allineamento multiplo. on questo metodo il punteggio dato ad ogni lettera della sequenza è pari alla media dei punteggi di sostituzione di quella lettera con ogni altra lettera presente nella colonna dell'allineamento multiplo. d il punteggio finale dell'allineamento (e quindi del motivo) è la somma dei punetggi presi ad ogni lettera della sequenza. d esempio il punteggio della lettera Y sarà la somma del valore di sostituzione di una con una Y più 4 volte il valore di sostituzione di una con una Y il utto diviso 5. Quindi (Y+Y+Y+Y+Y)/5.

Profilo di un allineamento W Y - 1 2 3 4 5 6 7 8 9 llineamento Multiplo =(++++)/5 =(++++)/5 Ricerca con profilo 1 F G W Y - 2 3 4 5 K R F W G W Punteggio = 1F+3+4+5W+6+7+8+9G 6 7 8 9 Profilo Profilo di un allineamento Ricerche con un profilo Usando questi punteggi abbiamo quindi modo di valutare se una sequenza contenga un motivo funzionale. Per non dovere ogni volta ricalcolare la media di tutti i punteggi di sostituzione per ogni posizione dell'allineamento multiplo con l'aminoacido che deve essere allineato in quella posizione è possibile calcolare questi valori una sola volta per ognuno dei possibili 2 aminoacidi che possono capitare in quella posizione e memorizzare tutti i valori in una matrice. Queste matrici si chiamano Profilo di un allineamento multiplo e possono essere quindi usate al posto dell'allineamento stesso. Un profilo è una matrice con tante colonne quante sono le posizioni dell'allineamento multiplo che si vuole rappresentare e 2 righe una per ogni tipo di aminoacido. ll'interno di ogni cella del Profilo viene conservato il valore pari al punteggio che verrebbe dato all'aminoacido disposto sulla riga se allineato con quella colonna. Questo valore non è altro che la media dei punteggi di sostituzione dell'aminoacido indicato dalla riga con tutti gli aminoacidi presenti nella colonna dell'allineamento multiplo. d esempio la cella corrispodente alla della quarta colonna dell'allineamento in figura conterrà la media dei valori di sostituzione con, con, con, con e con. profili generalmente contengono anche una 21' riga che corrisponde ai gaps e contiene la penalità che viene data all'apertura di un gaps in quella posizione nell'allineamento della sequenza al profilo. desso che abbiamo visto come si costruisce un profilo. ediamo come può essere utilizzato per cercare un motivo funzionale su di una sequenza. ome si fa con una PM il profilo viene provato in ogni posizione possibile della sequenza, ad ogni posizione viene attribuito un punteggio e si vede se il punteggio è superiore alla soglia decisa per quel profilo. Per calcolare il punteggio vengono sommati fra di loro un valore per ogni colonna del profilo, il valore scelto è quello corrispondente alla riga dell'aminoacido che è stato allineato alla colonna. Nell'esempio per la prima colonna vine epreso il valore della cella, per la seconda colonna quello della cella F e così via. Questa procedura è analoga e da lo stesso risultato del calcolare il punteggio della sequenza allineata al mutiallineamento da cui è stato costruito il profilo. se in un punto della sequenza è conveninete inserire un gap si usa il puntegio contenuto nella riga corrispondente ai gaps.

P- B Banche dati di sequenze equenza sconosciuta B equenze Omologhe + iclo N 2 Nuove equenze Omologhe + iclo N 3 Nuove equenze Omologhe + iclo N ostruzione llineamento Multiplo llineamento Multiplo Profilo dell allineamento ostruzione Profilo P- B vendo visto come è possibile cercare un profilo su di una sequenza adesso possiamo cercare un profilo su tutte le sequenze presenti in una banca dati. Fare una ricerca in banca dati con un profilo da risultati molto più accurati che facendola con solo una sequenza, dal momento che un allineamento multiplo contiene molte più informazioni di una singola sequenza. P-B è uno strumento che permette di fare ricerche in banche dati usando anzichè una singola sequenza, un profilo costruito a partire da un allineamento multiplo di sequenze omologhe. ' conveniente usare P_B anzichè B se bisogna fare una ricerca in banca dati e si conoscono già in partenza delle sequenze omologhe a quella che stiamo cercando. e invece si conosce una sola sequenza è possibile iniziare facendo una prima ricerca con la sequenza da sola, e usare le sequenze omologhe che vengono trovate per costruire un allineamento multiplo ed un profilo. Una volta che si dispone di un profilo si può fare una seconda ricerca in banca dati più accurata, il che ci permetterà probabilmente di individuare nuove sequenze omologhe più lontane che non eravamo stati in grado di individuare in un primo momento. Usando le nuove sequenze trovate è possibile nuovamente migliorare l'allineamento multiplo e costruire un altro profilo, per fare una nuova ricerca. P- B ci permetet quindi a partire da una sola sequenza atraverso una serie di cicli ripetuti di trovare in modo accurato in una banca dati il maggior numero possibile di sequenze omologhe.