ALLINEAMENTI MULTIPLI

Transcript

1 ALLINEAMENTI MULTIPLI Allineamento progressivo (Clustal) Metodi iterativi (Multalin) Metodi basati su zone comuni di sequenza conservate (Profili) Metodi statistici e modelli probabilistici (HMM)

2 Motivazione Data una famiglia di proteine, come si può fissare al meglio l informazione contenuta nell allineamento multiplo per cercare altre sequenze ancora sconosciute??? I metodi di allineamento classici, anche se usano profili, p.es. non tengono in considerazione le posizioni di indels. Idea: crea un modello che rappresenti nel modo più esatto possibile la realtà. NSEQ 12 LEN 161 1YEA 1YCC 2PCBB 5CYTR 1CCR 1CRY 1HROA 1CXC 1C2RA 155C 2C2C 2mtac 1YEA 1YCC 2PCBB 5CYTR 1CCR 1CRY 1HROA 1CXC 1C2RA 155C 2C2C 2mtac AKESTGFKPGSAKKGATLFKTRCQQCHTIEE GGPNKVGPNLHGIFGRHSGQVK ----TEFKAGSAKKGATLFKTRCLQCHTVEK GGPHKVGPNLHGIFGRHSGQAE GDVEKGKKIFVQKCAQCHTVEK GGKHKTGPNLHGLFGRKTGQAP GDVAKGKKTFVQKCAQCHTVEN GGKHKVGPNLWGLFGRKTGQAE -ASFSEAPPGNPKAGEKIFKTKCAQCHTVDK GAGHKQGPNLNGLFGRQSGTTP QDAASGEQVFK-QCLVCHSIGP GAKNKVGPVLNGLFGRHSGTIE -----SAPPGDPVEGKHLFHTICITCHTDIK G-ANKVGPSLYGVVGRHSGIEP QEGDPEAGAKAFN-QCQTCHVIVDDSGTTIAGRNAKTGPNLYGVVGRTAGTQA GDAAKGEKEFN-KCKTCHSIIAPDGTEIVKG-AKTGPNLYGVVGRTAGTYP NEGDAAKGEKEFN-KCKACHMIQAPD-GTDIKG-GKTGPNLYGVVGRKIASEE EGDAAAGEKVSK-KCLACHTFDQ GGANKVGPNLFGVFENTAAHKD -----APQFFNIIDGSPLNFDD-----AMEEGRDTEAVKHFLETGENVYNEDPEILPEAE. * : * :.. GYS-YTDANINK-----NVKWDEDSMSEYLTNPKKYIP GTKMAFAGLKKEKD GYS-YTDANIKK-----NVLWDENNMSEYLTNPKKYIP GTKMAFGGLKKEKD GFT-YTDANKNK-----GITWKEETLMEYLENPKKYIP GTKMIFAGIKKKTE GYS-YTDANKSK-----GIVWNNDTLMEYLENPKKYIP GTKMIFAGIKKKGE GYS-YSTADKNM-----AVIWEENTLYDYLLNPKKYIP GTKMVFPGLKKPQE GFA-YSDANKNS-----GITWTEEVFREYIRDPKAKIP GTKMIFAGVKDEQK GYN-YSEANIKS-----GIVWTPDVLFKYIEHPQKIVP GTKMGYPGQPDPQK DFKGYGEGMKEAGAK--GLAWDEEHFVQYVQDPTKFLKEYTGDAKAKGKMTF-KLKKEAD EFK-YKDSIVALGAS--GFAWTEEDIATYVKDPGAFLKEKLDDKKAKTGMAF-KLAK--G GFK-YGEGILEVAEKNPDLTWTEANLIEYVTDPKPLVKKMTDDKGAKTKMTF-KMGK--N NYA-YSESYTEMKAK--GLTWTEANLAAYVKNPKAFVLEKSGDPKAKSKMTF-KLTKDDE EL--YAGMCSGCHGHYAEGKIGPGLNDAYWTYPGNETDVGLFSTLYGG--ATGQMGPMWG * * * Questo viene fatto p.es. dal database Pfam di domini proteici. Il programma più conosciuto per questo è HMMER. (Eddy 1995)

3 CATENE DI MARKOV Nelle matrici sito-specifiche e nei profili classici le probabilità di avere un AA in una certa posizione non dipende dall AA che lo precede ma potrebbe essere interessante calcolare la dipendenza, ad esempio, di coppie di AA e la loro frequenza. S = [s1, s2, s3,., sn] Una sequenza S di amminoacidi può essere considerata una catena di Markov (Markov chain) di ordine k se è vero che la probabilità di avere l elemento X nella i-esima posizione dipende solo dai k elementi che lo precedono P(ai ai-1 ai-2 a1 ) = P(ai ai-1 ai-2 ai-k ) Se k=0 allora la probabilità è il prodotto delle frequenze dei singoli AA se k=1 dipende dalla frequenza delle coppie di AA e così via. inizio transizione fine stato

4 probabilità di transizione CATENE DI MARKOV A ogni sequenza di stati può essere associata una probabilità di transizione. Rappresentano transizioni tra stati che avvengono in modo probabilistico. Le probabilità di transizione non dipendono dal numero di transizioni effettuate (proprietà di omogeneità). Le probabilità di transizione dipendono unicamente dallo stato attuale (proprietà memoryless, o di assenza di memoria).

5 HIDDEN MARKOV MODEL (catene nascoste di Markov) A differenza delle catene di Markov in cui c è un solo modo per rappresentare un amminoacido (o un simbolo qualsiasi) in un modello nascosto può essere rappresentato da più stati. Il risultato è che siamo in grado di valutare solo il prodotto finale ovvero la sequenza finale di stati, che è in effetti una catena di Markov, ma non siamo in grado di valutare qual è stato il passaggio ovvero la transizione tra i vari stati. I vari stati sono interconnessi ed ognuno emette simboli.

6

7 Semplice HMM a due stati che rappresenta una sequenza di DNA con una composizione eterogenea di basi (una regione ricca in basi AT - stato 1 ed una ricca in basi GC - stato 2). Le transizioni di stato e le probabilità associate sono indicate dalle frecce mentre le probabilità di A, C G e T per ogni stato (1 e 2) sono indicate sotto i corrispondenti stati. In (b) c è la sequenza (nascosta) degli stati 1 e 2 che è una catena di Markov che emette una base in accordo con la sua probabilità per quello stato (c). La probabilità della sequenza è il prodotto delle transizioni di stato (b) e delle probabilità di emissione (c). Per una data sequenza osservata siamo interessati a inferire la sequenza degli stati nascosti che l hanno generata ovvero sapere se la sequenza generata appartiene ad una regione ricca in AT o GC.

8

9 Il profilo (senza gap) precedente può essere visto come un HMM banale con uno stato per ogni colonna (più uno stato iniziale e uno finale): Gli M i sono detti match states. Le probabilità di emissione in M i sono date dall i-esima colonna del profilo. Le probabilità di transizione sono pari a uno. Si può modificare questo profilo HMM in modo da trattare la presenza di gap. Esempio: AVFDFRT M 1 M 2... M 7

10 Gli inserimenti sono porzioni di x che non hanno corrispondenza nel modello. Gli I j sono detti insert states. Ciascun I j modella l allineamento del/dei carattere/i di x successivi a x j con un gap. AVFDFRT Esempio: AV-DYKT I 3

11 Le delezioni sono segmenti dell allineamento multiplo (modellato dall HMM) che non hanno corrispondenza in posizione x del modello. I D j sono detti delete states. Stati silenziosi : non emettono alcun simbolo. D 3 Esempio: AV-DYKT AAFDSRT

12 Ciascuna tripla (M j, I j, D j ) è un modulo. Un HMM con M moduli ha 3M + 3 stati.

13 Cammini più probabili di cinque sequenze attraverso un HMM con undici moduli. Gli inserimenti non sono allineati: intesi come atipicità, parti non conservate di una famiglia.

14 Allineamento con HMM: lo spessore delle frecce è proporzionale alla probabilità di transizione AVFDFRT AV-DYKT AAFDSRT

15 COSTRUZIONE DI UNA HMM Dato un numero di sequenze come si costruisce una HMM? Se non è noto a priori un modello, allineamento multiplo e stima del modello avvengono simultaneamente come segue: 1. si sceglie la lunghezza del profilo HMM (usando una regola euristica o un sistema più sofisticato) e si inizializzano i parametri; (costruzione) 2. si fornisce una stima dei parametri del modello usando l algoritmo di Baum-Welch o altri; (fitting) 3. si decodificano (determinazione della sequenza di stati o percorso più probabile attraverso la rete) tutte le sequenze secondo il modello così determinato e si costruisce l allineamento multiplo (tipo Viterbi). (utilizzo)

16 ALGORITMO DI BAUM-WELCH per il calcolo del percorso più probabile (CENNI) 1) Si inizializza il modello con dei parametri casuali o ad hoc e si calcola il punteggio, attraverso il modello con l algoritmo di forward e backward delle sequenze dell allineamento (si basano sul fatto che la probabilità di osservare una determinata sequenza è data dalla somma di tutti i possibili percorsi, o quasi, attraverso la rete) 2) In questa fase si devono approssimare i punteggi dei vari stati e delle transizioni e modificarli affinchè il modello risponda bene alle sequenze. Idealmente si deve raggiungere il punteggio massimo possibile per ciascuna sequenza del set. Il modello deve risultare la migliore rappresentazione possibile. Si procede fino a convergenza o ad un valore soglia imposto. 3) È un approccio di machine learning come le reti neurali. Ottimizzazione di tipo stocastico. (esiste anche il Viterbi Training)

17 ALGORITMO DI VITERBI per il calcolo del percorso più probabile (CENNI) Avendo un modello che rappresenta un allineamento multiplo di sequenze possono esserci più percorsi che generano la stessa sequenza ma bisogna trovare quello giusto ovvero che massimizza il punteggio. A tale proposito si usa l algoritmo di Viterbi: 1) Si crea una matrice composta da colonne che sono gli stati del modello e da righe che contengono gli AA della sequenza così come è stata emessa dal modello. 2) Si calcolano i valori di probabilità per i vari stati con programmazione dinamica scegliendo sempre quello con punteggio maggiore. 3) Riempita la matrice si ripercorre all indietro per il percorso tracciato lungo i punteggi più alti fino all inizio. 4) Il concetto è simile alle matrici degli allineamenti globali. Ottimizzazione deterministica, che però non garantisce l ottimo globale.

18 VANTAGGI 1. Fondamenti statistici solidi e metodi di apprendimento efficienti. 2. Trattamento consistente delle penalizzazioni per inserzioni e delezioni sotto forma di probabilità locali apprendibili. Quindi una migliore modellizzazione dei siti più frequenti di indels. 3. Le HMM possono essere considerate la generalizzazione più flessibile dei profili di sequenza che soffrono della limitazione del trial and error. 4. Possono partire da sequenze grezze per costruire un allineamento multiplo e possono essere utilizzate in numerevoli compiti che vanno dal data mining alla classificazione, analisi strutturale e scoperta di pattern.

19 LIMITI 1. Gli HMM, in quanto modelli lineari, non sono in grado di catturare correlazioni di grado più elevato tra gli aminoacidi di una proteina. Queste correlazioni comprendono ponti di idrogeno e ponti salini tra aminoacidi non adiacenti della catena polipeptidica, così come ponti disolfuro tra cisteine. In pratica, questi residui distanti in sequenza possono essere in contatto nella molecola. Le interazioni di questo tipo non possono essere predette con un modello lineare. 2. Un numero elevato di parametri da fittare. Tipicamente per una proteina di N aminoacidi esistono 49*N parametri (40 emissioni e 9 transizioni). Questo risulta in modelli con molti parametri da ottimizzare. Per avere buoni risultati un HMM deve essere creato e allenato con una famiglia di almeno 25 sequenze simili.

20 Proteine transmembrana

21 Un esempio diverso di HMM...

22 Proteine transmembrana La determinazione sperimentale è difficoltosa (NMR difficile, X-ray non cristallizzano). Esistono poche strutture determinate a causa di questo fatto. La predizione diventa, quindi, un obbligo anche perché è semplificata dal fatto che: 1. Constraint della membrana riducono i gradi di libertà 2. Due tipi di proteine: 1. Ad alfa-elica: caratteristiche ben definite essendo immerse nella membrana plasmatica che ne limita le possibili conformazioni. Consentono l analisi strutturale e topologica. 2. Beta-strand: conformazione delle porine. Scarsi dati sperimentali. Difficile prevedere l accuratezza della predizione. Oltre il 20% delle proteine codificate da un genoma sono generalmente proteine transmembrana.

23 Proteine transmembrana Accuratezza Si può distinguere tra la predizione di segmenti di membrana, che richiedono solo il contesto locale e la predizione di topologia. Predire correttamente la topologia significa: 1. Identificare correttamente tutti i segmenti di membrana; out 2. Predire l orientamento dei loop (interni o esterni). in

24 Proteine transmembrana Alfa eliche hanno l orientazione o topologia basata sull N-terminale (IN se N-terminale è intracellulare OUT viceversa). Si distinguono le seguenti caratteristiche: 1. Lunghe residui e tipicamente molto idrofobiche, quindi facile da predire; 2. Loop esterni tipicamente inferiori ai 60 AA; 3. Positive-inside-rule : distribuzione specifica degli AA carichi + (ARG e LYS) (vonheijne, 1986). I loop di connessione sono maggiormente carichi + se sono interni; 4. Regioni globulari > 60 non soddisfano le regole della positive-inside-rule.

25 METODI BASATI SUL CALCOLO DELL IDROFOBICITÀ I metodi si basano sul calcolo dell idrofobicità locale di parti della proteina basandosi su scale che valutano la propensione all idrofobicità di ogni singolo AA. Queste scale sono ad esempio quelle di Kyte e Doolittle (1982) o Hopp e Woods (1983). I problemi di questi metodi sono: 1. Non discriminano bene le regioni idrofobiche transmembrana da quelle idrofobiche di proteine globulari. 2. La scelta accurata della finestra di intorno locale per il calcolo della media dei valori di idrofobicità dei singoli AA ed il valore soglia oltre il quale determinare la idrofobicità.

26 PHDhtm (Rost et al., 1995) Applicazione di rete neurale per la predizione di segmenti transmembrana. Problema: Come si può predire la topologia?

27 METODI DI ULTIMA GENERAZIONE BASATI SU HMM Le HMM si adattano bene allo scopo perché: 1. Calcolano le dipendenze di blocchi consecutivi di AA adiacenti che hanno caratteristiche diverse a seconda che si trovino in una zona loop IN o OUT oppure transmembrana. 2. Quindi ci sono delle transizioni di stato ben definite con blocchi di AA consecutivi ben distinti. 3. In generale non occorre trovare dipendenze tra AA lontani in sequenza della catena polipeptidica.

28 HMMTOP Uno dei migliori metodi per predire i segmenti e la topologia di proteine transmembrana è HMMTOP. (Tusnády & Simon, 1998) I segmenti transmembrana sono predetti correttamente nel 98% dei casi, la topologia nel 78%. Utilizza un HMM (hidden Markov model) come metodo di machine learning per imparare la realtà delle proteine transmembrana e dedurre delle regole. Anche in questo caso gli autori sfruttano la diversa distribuzione AA lungo i vari tratti delle proteine transmembrana e hanno allenato l HMM sulla base di queste propensioni. Log likelihood ovvero una distribuzione preferenziale in certe regioni di certi AA. Sulla base di questo è possibile ricavare la topologia delle proteine TM. In questo senso le HMM possono essere un modello formale preciso e adatto allo scopo in quanto per attribuire ad una regione della proteina una sua locazione TM o loop IN o loop OUT quest ultima deve massimizzare il punteggio di propensione.

29

30 HMMTOP Gli autori hanno notato una prevalenza di loop compresi tra 5 e 30 AA in lunghezza nei tratti esterni alla membrana in confronto ad una distribuzione casuale (hanno simulato i tratti di transmembrana come se fossero inseriti a caso all interno della catena polipeptidica della proteina per effettuare il calcolo). In figura si nota la distribuzione regolare della linea tratteggiata (distribuzione casuale) con quella reale. Hanno quindi suddiviso la struttura HMM in due categorie di stati: NFL (non-fixed length): gli stati dei loop esterni > 30 AA che hanno un andamento simile alla distribuzione casuale. FL (fixed length): gli stati dei loop tra 5 e 30 AA che sono più frequenti si ha un Max e un Min. Questo si traduce in una architettura della HMM più semplice per i NFL rispetto a quella FL che ha dei confini precisi (arrivano alle stesse conclusione di TMHMM ma hanno dei limiti diversi per le varie regioni).

31 HMMTOP Regione NFL Regione FL Parametri: Helix: MIN h = 17 MAX h = 25 Loop: MIN L = 1 MAX L = 15

32 TMHMM (TransMembrane HMM) (Krogh et al.2001) Suddivisione della HMM: 1. 5 stati regione cap citopl. e non-citopl. Parte della regione trans. Con proprietà leggermente polari per la presenza dei fosfati del bilayer. 2. Regione TM vera e propria a 25 stati: transizione tali che tale regione può variare da 5 a 25 AA. Insieme alle regioni cap a 5 AA fissi otteniamo regioni TM da 15 AA min a 35 AA max. 3. Regione loop citopl. e non-citopl. A 10 stati. Segue la regola del positive-inside rule per cui la distribuzione AA è diversa. 4. Regione globulare ricorsiva senza preferenze di composizione AA self-loop. 5. Regione non-citopl ha due path diversi a seconda della presenza di loop lunghi < 60 AA o lunghi. Accuratezza (topologia) intorno all 80%.

33 STRUTTURA TM IN PRATICA 1. L affidabilità di metodi TM è difficile da valutare poiché esistono pochi casi sperimentali risolti di strutture transmembrana. Quindi se da un lato la struttura TM sembra dover sottostare a delle regole rigide, da l altro lato i pochi casi sperimentali noti possono non essere sufficienti a creare un valido metodo di predizione. 2. Visto che i metodi come TMHMM e HMMTOP si basano su un ridotto numero di sequenze come training-set allora potrebbero essere stati over-trained su questi ultimi. Significa che simulano bene solo quei casi particolari per i quali raggiungono alti livelli di precisione e non i casi più generali che potrebbero essere più eterogenei e sfuggire all analisi. In pratica la loro affidabilità potrebbe essere sovrastimata. 3. La distinzione tra proteine globulari e di membrana sembra comunque funzionare. 4. Anche per la predizione TM formare un consensus (= voto a maggioranza) di più metodi (nella pubblicazione sono 5) migliora i risultati (Nilsson et al., 2000).

34 PREFERENZE DI TOPOLOGIA Generalmente è più diffusa la topologia N in nelle sequenze genomiche. (Krogh et al., 2001)

35 DISTRIBUZIONE NEI GENOMI La percentuale di proteine con segmenti transmembrana codificata nei genomi varia tra il 15% e il 30%, con una media del 25%. (Liu & Rost, 2001)

36 BANCHE DATI PER LA RICERCA DI DOMINI FUNZIONALI E PATTERN

37

38 PROSITE Istituita nel 1988 nella stessa sede di SwissProt Banca dati di siti e motivi di sequenze biologicamente importanti Formulazione orientata al trattamento computazionale Metodo per determinare la funzione di sequenze non caratterizzate tradotte da geni I motivi strutturali sono presi dalla letteratura e/o sviluppati e estesi dagli autori Contiene oltre 1400 motivi

39 PROSITE I motivi sono riportati in files di documentazione e descrizione contenente la lista dei veri positivi e falsi negativi Dal 1994 viene aggiunto un profilo come ulteriore descrittore del motivo. Altro esempio di profilo

40 PROSITE Manuale di prosite Esempio di ricerca con il programma scanprosite: Home risultato

41 motivo Matrici BLOSUM HMM

42 PRINTS Contiene gruppi di motivi di sequenze (fingerprints) allineate Contiene circa 1000 raggruppamenti contenenti ~5700 motivi individuali Fornisce strumenti per l interrogazione della banca dati

43 Manuale di PRINTS Esempio di un record di PRINTS

44 BLOCKS database Database di blocchi conservati di sequenze derivanti dall analisi di allineamenti multipli proteici. I blocchi sono creati automaticamente ricercando le regioni più altamente conservate e senza gap. Il metodo alla base della creazione dei blocchi parte dalla identificazione di tre aminoacidi conservati nell allineamento (possono non essere consecutivi). Home-page del Server BLOCKS tutorial su BLOCKS esempio di una entry

45

46 Pfam Collezione di allineamenti multipli di sequenza basati sui modelli di Markov nascosti (HMM) Comprende due sezioni: Pfam-A contenente allineamenti mantenuti manualmente Pfam-B in cui le sequenze non incluse in Pfam-A sono raggruppate automaticamente Contiene oltre 1500 famiglie

47 Pfam Include sequenze da SwissProt e Tr-EMBL Esempio di una scheda di una famiglia proteica e del relativo allineamento Help di Pfam Record in formato testo

48 ProDom Consiste di una compilazione automatica di domini omologhi Sistema per analizzare la disposizione di domini in proteine e famiglie di proteine Viene utilizzato il programma PSI-BLAST con un profilo preso da Pfam ed arricchita la famiglia di appartenenza delle sequenze Home-page e help e interfaccia di ricerca

49 InterPro Tentativo di creare una singola risorsa per la diagnosi e documentazione di famiglie proteiche Integrazione di banche dati di motivi di sequenza Interfaccia amichevole per la ricerca dell informazione Sorgente dell informazione: PRINTS; PROSITE; Pfam; ProDom

50 Manuale utente di InterPro Form di ricerca Scheda di un file di InterPro Formato grafico di una ricerca

51 EXPASY La sede centrale è in Svizzera e gestisce la banca dati SWISSPROT oltre ad una serie di innumerevoli tool per la proteomica e link alle banche dati esterne e alle risorse di programmi La home-page dei tool per la proteomica