Modelling. Perché considerare la struttura 3D di una proteina

Transcript

1 Modelling Perché considerare la struttura 3D di una proteina Implicazioni in vari campi : biologia, evoluzione, biotecnologie, medicina, chimica farmaceutica... Metodi di studio della struttura di una proteina Metodi sperimentali: Xray, NMR Metodi computazionali: Da templato (C.M, F.R), senza Templato (N.F.) Vantaggi: Forniscono strutture affidabili Svantaggi: Non sempre applicabili Costosi e con tempi lunghi Vantaggi: Veloci Economici e sempre applicabili Svantaggi: Forniscono predizioni in cui il margine di errore può essere alto. 1

2 Structural Genomics Assegnare strutture 3D alle proteine codificate da genomi interi Grand goal : asssegnare una struttura ad ogni sequenza esistente. Combinazione di esperimenti & predizioni Structural genomics I metodi di predizione dovrebbero essere in grado di produrre strutture 3D per tutte le sequenze senza soluzione sperimentale Homology modelling & fold recognition 0 Sequenze Comparative Models Strutture Metodi Computazionali: predizioni da templato. Comparative Modeling Fold Recognition Approccio Comune Individuazione struttura del templato o dei templati Allineamento del target con i templati. Costruzione modello. Valutazione del modello. Livello di predizione diverso 2

3 Risultati Ottenibili dai metodi Computazionali Necessaria una valutazione oggettiva dei metodi. CASP: stato dell arte CASP Critical Assessment of Techniques for Protein Structure Prediction. CAFASP Critical Assessment of Fully Authomated Techniques for Protein Structure Prediction. Valutazione gruppi migliori Valutazione server automatici migliori Dall analisi dei metodi migliori e più innovativi partono nuovi filoni di ricerca per migliorare la capacità predittiva dei metodi bioinformatici. 3

4 CASP 6 (2004) Il problema del folding delle proteine è stato risolto??? Dichiarazioni contrastanti fino a circa dieci anni fa. Critical Assessment of Techniques for Protein Structure Prediction blind test che coinvolge tutti i principali gruppi, ripetuto ogni 2 anni CASP-6 (e CAFASP-4) nel 2004 Oltre 250 gruppi di predittori, oltre 85 targets Cerca di misurare lo stato dell arte ed i miglioramenti in tutti i maggiori settori della predizione di strutture proteiche (Stabilisce un ranking dei migliori gruppi) CASP 6 Le principali categorie del CASP: Homology modelling Fold recognition Ab initio / novel folds Predizioni 1D Struttura secondaria Disordine Contatti domini Valutazione energetica modelli 4

5 T0137 Model Real Structure 135 residui. 40% di identità tra target e templato. L RMSD su tutta la struttura è di 0.98 A. CASP4 TargetT0100 Wrong Prediction from SAM-T99 Real Structure 5

6 COME COSTRUIRE UN MODELLO DELLA PROTEINA A PARTIRE DALLA SEQUENZA AMINOACIDICA COME COSTRUIRE UN MODELLO DELLA PROTEINA A PARTIRE DALLA SEQUENZA AMINOACIDICA A seconda di quanto la nostra proteina è simile a qualcche struttura già nota possiamo distinguere varie categorie per la predizione: 1.Comparative o homology modelling 2.Fold recognition e Threading 3.Ab initio 6

7 Target: Sequenza di cui si cerca la struttura Templato: Sequenza con struttura nota, stampo per il modello Comparative o homology modeling Ricerca in database Modello costruito da struttura omologa Fold recognition (Threading) Tenta di riconoscere omologie remote Approcci differenti che utilizzano struttura secondaria, profili di sequenza, funzioni energetiche specializzate,... Target: Sequenza di cui si cerca la struttura Templato: Sequenza con struttura nota, stampo per il modello 7

8 Similarità di sequenza similarità di struttura? Coppie di proteine con struttura simile (Rost, 1999) Coppie di proteine con struttura diversa Osservazione: Se un allineamento contiene più del 30% ca. di residui identici, allora le strutture molto probabilmente apparterranno allo stesso fold. Per allineamenti più corti la soglia è più alta. Però: in alcuni casi proteine con meno del 20% di identità di sequenza appartengono alla stessa classe di fold ( twilight zone ). 8

9 Ricerca in database Ricerca in database per trovare sequenze omologhe. Produce uno o più allineamenti tra le sequenze. Generalmente usato: PSI-BLAST I domini sono spesso identificabili dall allineamento multiplo. Utilizzo di dati sperimentali Cosa si sa della proteina da modellare? Ci sono evidenze sperimentali utili? P.es. attività enzimatica, domini noti, residui funzionali, proteine omologhe, ecc. Queste ed altre informazioni si trovano nelle banche dati di sequenze, in particolare Swiss-Prot Pfam Prima di iniziare il modelling è buona norma raccogliere tutte le informazioni disponibili per semplificare il lavoro e validare al meglio il modello. 9

10 Il problema dei domìni Molte proteine sono composte da più di un dominio, che possono essere presenti in diverse combinazioni sia a livello di sequenza (p.es. in SWISS-PROT) che di struttura risolta con dati sperimentali (PDB). Molte strutture PDB contengono singoli domìni. Comparative modelling 10

11 COME TROVARE UN TEMPLATO PER LA PROTEINA TARGET PDB-BLAST BLAST (il protocollo più semplice di fold recognition ora utilizzato per trovare templati ovvi per il target) Il protocollo più semplice di fold recognition. Utilizza il fatto che PSI-BLAST permette di salvare il PSSM e ripartire con una nuova ricerca usando lo stesso PSSM. Per massimizzare l informazione su sequenze simili, si inizia con una ricerca contro NR (non-redundant, = tutte le sequenze note) per 4-5 iterazioni, costruendo un PSSM. Questo PSSM viene utilizzato per cercare strutture simili nel database PDBAA (= sequenze con struttura nota). Il metodo, chiamato PDB-BLAST, è molto più sensibile di PSI-BLAST contro PDBAA, dato il maggior numero di sequenze utilizzate per creare il PSSM. Allo stesso tempo permette una ricerca mirata di sequenze in PDB nel secondo passaggio. In pratica viene utilizzato per distinguere casi di fold recognition facili e difficili. 11

12 COME COSTRUIRE IL MODELLO Dalla sequenza al modello 12

13 Comparative Modelling Schema classico: 1. Template 2. Alignment Raw model Loop modeling Side chain placement Refinement 3. Raw model (conserved regions) 4. Loop modeling (divergent regions) 5. Sidechain placement 6. Refinement Scelta del templato Criteri: X-ray o NMR? flessibilità Qualità della struttura X-ray: Risoluzione e B- factor NMR: Numero di vincoli Similarità Percentuale di identità Punteggio dell allineamento X-ray Generalmente è preferibile utilizzare il templato più simile. A parità di similarità è buona norma, salvo alcune eccezzioni, scegliere la struttura X-ray con la risoluzione migliore. NMR 13

14 Allineamento delezione inserzione target templato Ricerca in database per trovare sequenze omologhe con struttura nota. Assegna le posizioni di residui equivalenti fra target e templato. Determina inserzioni e delezioni. L allineamento determina la qualità del modello che si sta costruendo. L allineamento di sequenza non è sempre ottimale per construire i modelli. Generalmente usato: PSI-BLAST Come migliorare l allineamento L allineamento detta la qualità del modello finale Errori commessi durante l allineamento non possono essere più corretti! problema: il migliore allineamento di sequenza spesso non è ottimale per la struttura Esperienza... Alcune buone regole: Mantenere la geometria di residui conservati Considerare la struttura secondaria Inserzioni e delezioni possono essere spostate Collar extension : è possibile estendere una α-helix o β-strand? 14

15 Conclusioni dal CASP6/CAFASP4 Non compatibile con legame peptidico Miglior allineameno fra sequenze Allineameno alternativo e subottimale Compatibile con legame peptidico Metodi profilo profilo Allineamento ottimizzato Blast (sequenza sequenza) è stato sostituito dal più potente PSI-Blast (profilo sequenza), quindi... Allineamenti strutturali per la costruzione dei profili Basati su FSSP, HOMSTRAD, CATH, ecc. Costruzione del modello Valutazione della qualità di modelli alternativi Come scegliere il modello più giusto in mezzo a tante alternative. Modelli compositi Come combinare le parti migliori dei singoli modelli. 15

16 Individuazione struttura del templato o dei templati Allineamento del target con i templati Costruzione del modello Valutazione del modello Approccio classico: approssimazione di un allineamento strutturale con il migliore allineamento fra sequenze per sfruttare le coordinate del templato e ricostruire il target. Nuovi approcci: costruire una serie di modelli a partire da allineamenti fra sequenze non ottimali (allineamenti alternativi o subottimali). Allineamento del target con i templati Tanto maggiori sono le alternative, tanto maggiori è la probalibilità di avere la struttura più vicina alla nativa. Valutazione del modello CONSEGUENZA: Valutazione dei modelli alternativi prodotti tramite una funzione energetica e scelta della struttura energeticamente più favorita.? 3D SHOTGUN (Fischer, Proteins 2003) Un Meta-server che utilizza le predizioni di vari metodi per costruire modelli ibridi di tipo consensus. Assembla frammenti 3D di struttura Osservazione: Se più metodi predicono modelli simili (in 3D) è probabile che il risultato sia corretto. 16

17 Comparative protein structure modeling by iterative alignment, model building and model assessment (John & Sali, NAR 2003) Utilizza MODELLER per costruire i singoli modelli 17

18 Creazione allineamenti alternativi (un esempio) GAIA: Generator of Alignments by Inverse Approach Motivazione: aumentare il numero di allineamenti alternativi fra target e templato permette di aumentare il numero di modelli prodotti e aumenta la probabilità il modello strutturalmente migliore. Allineamento singolo Allineamento alternativi (suboptimal) Amplificazione alternative Variazione parametri allineamento Reconstruct Alignment Reconstruct Alignment Sequenza target e templato Reconstruct Alignment Alternative Alignment 18

19 Reconstruct Alignment Fasi della costruzione del modello finale: Pre-modello (mantenere le posizioni conservate nell allineamento) Loop modelling (costruire le parti mancanti gap nell allineamento) Catene laterali (posizionare le catene laterali mancanti) 19

20 Costruzione del pre-modello La struttura del templato viene utilizzata come stampo per costruire il modello seguendo l allineamento. flexible Regioni strutturalmente conservate e divergenti. Residui allineati e inserzioni/delezioni (indel). conserved Costruzione del pre-modello Le coordinate 3D dei residui strutturalmente conservati si possono utilizzare direttamente. flexible Le regioni variabili della struttura (generalmente loop) ed in particolare le posizioni vicine a indel devono essere predette. Due metodi principali per la costruzione: Fragment-based Restrained-based conserved 20

21 Costruzione fragment-based Idea: Copia le coordinate dei frammenti conservati più adatti. Costruisce un insieme spigoloso Mantiene meglio la geometria, p.es. del sito attivo Software: 3D-JIGSAW (Bates et al.) COMPOSER (Blundell et al.) HOMER (Tosatto et al.) Costruzione restrained-based Idea: Utilizza i templati per derivare restrizzioni alle posizioni atomiche. Ottimizza la struttura in base a queste. Spalma gli errori su tutta la struttura, minimizzandoli globalmente Non garantisce la geometria locale, p.es. del sito attivo Software: MODELLER (Šali et al.) 21

22 Loop modeling Al pre-modello possono mancare interi frammenti di catena principale non conservati nella famiglia proteica Inserzioni Delezioni loop Descrizione del problema: Si cerca un fold che colleghi il frammento N- terminale (pre-loop) con quello C-terminale (postloop) tramite k residui (φ,ψ) sono gli unici parametri liberi pre-loop post-loop Loop modeling Metodi di database Estrai frammenti di loop dalla PDB. Scegli il frammento che rispetta meglio i vincoli geometrici. Problema: non tutti i frammenti possibili sono disponibili in PDB. loop Metodi ab initio Genera molti frammenti alternativi basati sui vincoli geometrici (angoli torsionali). Seleziona il frammento migliore. Problema: tempi di calcolo. pre-loop post-loop 22

23 Loop Modeling: Divide & Conquer 1. Dividi ricorsivamente il loop di lunghezza n in due parti di lunghezza n/2 con un punto centrale C. C 2. Se n=1 calcola la coordinate atomiche (trasformazione geometrica). 3. Ricomponi le soluzioni per ricreare il loop originale. A B Come si può trovare C? Loop Modeling: Realization Genera un database di possibili punti centrali e posizioni finali per loop di tutte le lunghezze Usa il Monte Carlo sampling per limitarne la dimensione ed assicurare una buona distribuzione Selezione random di k punti di sampling Costruisci frammenti più grandi tramite concatenazione di frammenti corti (n + n = 2n) 23

24 Loop Modeling: : Ranking Selezione e ranking si basano su sequenza, geometria ed energia. Propensioni dei residui (filter) Backbone RMSD prima/dopo il loop RAPDF Knowledge-based potential (Samudrala & Moult, JMB 1998) Catene laterali Problema: Applicando le coordinate del templato sulla sequenza del target cambiano tipo, dimensione e posizione delle catene laterali. Assumendo un 50% di identità di sequenza vuol dire che ogni seconda catena laterale è stata sostituita. L RMSD cambia relativamente poco, però possono cambiare le conformazioni di residui importanti (p.es. del sito attivo). Esistono metodi standard per risolvere questo problema, p.es. SCWRL. 24

25 Catene laterali Hα g - (-60 ) t (180 ) Rotameri 3 posizioni preferite per angolo torsionale χ Cβ La propensione ad assumere uno dei rotameri varia a seconda delgli angoli torsionali (ϕ,ψ) e del tipo di aminoacido N g + (60 ) C Interdipendenza, effetto domino Dove possibile è meglio mantenere le conformazioni delle catene laterali del templato. Side-Chains With Rotamer Library Bower, Cohen & Dunbrack, JMB Metodo euristico molto veloce ed efficace Best practice al CASP Idea: Utilizza le probabilità dei rotameri Se possibile, scegli le soluzioni più probabili Dove questo non è possibile forma cluster di residui da risolvere con ricerca combinatoria Funzione energetica semplice: Collision detection Entropia (= bonus per rotameri più probabili) 25

26 Refinement Per ridurre tutti quei piccoli errori che si accumulano durante il processo di modelling si può ricorrere ai campi di forza (p.es. CHARMM o AMBER) per minimizzare l energia del modello. Riducono le collisioni molecolari e rendono il modello più bello. Non modificano significativamente il modello e richiedono relativamente tanto tempo di calcolo. In caso di eccesso possono incrementare l RMSD complessiva del modello. Valutazione dei modelli (un esempio) 26

27 Campi di forza e potenziali statistici Come in altri settori, anche per il calcolo delle energie di una conformazione proteica si possono distinguere due approcci diversi: Campo di forza = modello di tipo predittivo, parametri derivati da dati sperimentali; Potenziale statistico = modello statistico basato sulla distribuzione di AA nelle proteine note. In generale si può dire che i campi di forza sono più precisi mentre i potenziali statistici danno una migliore approssimazione della distanza dalla struttura nativa. Problema dei minimi locali nello spazio conformazionale... Un campo di forza tipico (CHARMM, AMBER o GROMACS) contiene le seguenti componenti energetiche: bonded: 1. bond stretching 2. angle bending 3. bond rotation (torsion) non-bonded: 1. van-der-waals 2. electrostatic Campi di forza Il contributo di solvatazione generalmente non viene calcolato. 27

28 Campi di forza van-der-waals elettrostatica (cariche di segno opposto) Potenziali statistici Knowledge-based: poiché molti aspetti della predizione di fold sono difficili, lacunosi e computazionalmente intrattabili è stato proposto di derivare una funzione di energia delle strutture reali osservate da paragonare con quelle predette. Sin dal 1990 da Sippl il termine Knowledge-based potential si usa per espressione del tipo: Dove P observed e P expected sta per probabilità o frequenza di un evento osservato nei confronti di uno atteso (reale). Ad esempio la vicinanza di due atomi ad una certa distanza nella struttura ecc. sono potenziali statistici. 28

29 Potenziali statistici Esempio: RAPDF (Residue-specific Allatom Probability Discriminatory Function; Samudrala & Moult, 1998) Potenziale statistico che distingue gli atomi pesanti per tutti e 20 i tipi di AA (168 tipi di atomi). P.es. Cα Val e Cα Trp sono atomi diversi. Le energie sono discretizzate in finestre di 1 A, da 2 (= distanze 0-2 A) a 20 A. Buon livello di discriminazione della nativa. Liberamente disponibile. Potenziali statistici solvatazione Uno degli esempi può essere l energia di solvatazione (proteine nel solvente) il cui calcolo richiede complessi calcoli di interazione delle particelle di acqua con la proteina. Jones nel 1999 propose di valutare: 1. Non gli atomi ma gli AA come singole entità. 2. Anziché calcolare l accessibilità al solvente calcolare il numero di residui che ricadono in un certo raggio (esempio 10 Ǻ) dall AA considerato. 3. Rapporto tra osservato e atteso dà una idea della distribuzione e se ci sono AA distribuiti male nel modello. Esempio AA carichi nel core proteico (molti AA nel suo intorno) che nelle strutture reali sono circondati da pochi AA perché esposti al solvente. 29

30 Potenziali Statistici: Knowledge based potential -Restituiscono valori di pseudo-energia. Basati su: Pregi: Veloci Difetti: Non basati su leggi fisiche reali, non restituiscono valori assoluti e applicabili solo in ambito comparativo Knowledge TOP500 (Lovell et al., Proteins 2003): Valutazione Energetica Tentano di approssimare Torsion Potential Nei potenziali statistici si premiano le soluzioni più frequenti rispetto ad una media presunta e si penalizzano le soluzioni meno frequenti. Le medie sono calcolate su un knowledge rappresentativo dell universo delle proteine. potenziale statistico basato sulla propensione degli angoli torsionali misurabili in un modello. Angoli considerati pre-phi pre-psi phi psi chi2 chi1 omega Valutazione del modello Una volta costruito è possibile valutare il modello con vari parametri di qualità. P.es.: Profili di frequenza o energia Ingombro sterico e collisioni Deviazione della geometria da parametri standard Per questo scopo esistono programmi dedicati, p.es. PROCHECK WHAT-CHECK VERIFY-3D PROSA-II 30

31 Valutazione del modello Come si risolvono questi problemi del modello senza crearne altri che possono essere peggiori?! Il CASP insegna la filosofia del Don t touch it Non conviene modificare localmente le strutture. Creare modelli con allineamenti alternativi da scegliere tramite profili di energia può permettere di migliorare il modello finale Bisogna sapere valutare quali parti dell allineamento si possono variare e quali no... Errori tipici Catene laterali Scostamento Loops Allineamento errato Templato errato 31

32 32