BIOINFORMATICA PER LA BIOLOGIA STRUTTURALE



Documenti analoghi
Le Biomolecole I parte. Lezioni d'autore di Giorgio Benedetti

strutture di Proteine

E il server più utilizzato, permette di tracciare tutte le operazioni che svolge e di impostare alcuni parametri importanti per il risultato finale.

ControlloCosti. Cubi OLAP. Controllo Costi Manuale Cubi

Predire la struttura terziaria

Macromolecole Biologiche. I domini (III)

ANALISI SOSPENSIONI Modalità Base

Sistema operativo: Gestione della memoria

Automazione Industriale (scheduling+mms) scheduling+mms.

Predizione della struttura terziaria

e-dva - eni-depth Velocity Analysis

Consideriamo due polinomi

Capitolo 13: L offerta dell impresa e il surplus del produttore

( x) ( x) 0. Equazioni irrazionali

IL RISCHIO D IMPRESA ED IL RISCHIO FINANZIARIO. LA RELAZIONE RISCHIO-RENDIMENTO ED IL COSTO DEL CAPITALE.

3. Confronto tra due sequenze

Controlli Automatici T. Trasformata di Laplace e Funzione di trasferimento. Parte 3 Aggiornamento: Settembre Prof. L.

Il concetto di valore medio in generale

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

SISTEMI MULTIAGENTE. Esercizio

DATA BASE ON LINE (BANCA DATI MODULI SPERIMENTALI)

Università degli Studi di Messina

Applicazioni biotecnologiche in systems biology

Guida all uso di. a cura dell Area Economia Applicata (AEA) - IPI

Introduzione all Information Retrieval

Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A Pietro Frasca.

Manuale Utente Albo Pretorio GA

CAPACITÀ DI PROCESSO (PROCESS CAPABILITY)

la struttura tridimensionale può essere ottenuta solo per Un intero dominio in genere da 50 a 300 residui

EasyPrint v4.15. Gadget e calendari. Manuale Utente

11. Evoluzione del Software

MOCA. Modulo Candidatura. [Manuale versione 1.0 marzo 2013]

Statistica. Lezione 6

Sistemi Informativi Territoriali. Map Algebra

Analisi e diagramma di Pareto

Capitolo 2. Operazione di limite

LE CARATTERISTICHE DEI PRODOTTI MULTIVARIANTE

9. Urti e conservazione della quantità di moto.

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini.

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Plate Locator Riconoscimento Automatico di Targhe

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY.

POLITECNICO DI TORINO

Corso di Matematica per la Chimica

1- OBIETTIVI DEL DOCUMENTO 2- INTRODUZIONE

Documento di accompagnamento: mediane dei settori bibliometrici

Analisi della performance temporale della rete

Metodi statistici per le ricerche di mercato

~ Copyright Ripetizionando - All rights reserved ~ STUDIO DI FUNZIONE

Sistema Banca dati e Repertorio dei dispositivi medici Notifiche multiple di DM simili

IL RISPARMIO ENERGETICO E GLI AZIONAMENTI A VELOCITA VARIABILE L utilizzo dell inverter negli impianti frigoriferi.

SERVIZIO NAZIONALE DI VALUTAZIONE

SCRUTINIO ON LINE 2 PERIODO

Calcolo delle probabilità

COLLI. Gestione dei Colli di Spedizione. Release 5.20 Manuale Operativo

Progetto SINTESI - Dominio Provinciale

ISTRUZIONI PER LA DICHIARAZIONE TARIFFE ONLINE (GUIDE TURISTICHE)

Capitolo 12 La regressione lineare semplice

Settaggio impostazioni tema. Cliccando nuovamente su aspetto e poi su personalizza si avrà modo di configurare la struttura dinamica della template.

Gestione Risorse Umane Web

Parte I. Prima Parte

Studio di funzioni ( )

Accesso tramite il portale del Comune di Ferrara Accesso diretto

Rappresentazione dei numeri in un calcolatore

PROTEINE. sono COMPOSTI ORGANICI QUATERNARI

Rappresentazione dei Dati Biologici

Scuola Digitale. Manuale utente. Copyright 2014, Axios Italia

Ing. Simone Giovannetti

Strutturazione logica dei dati: i file

15. Antico gioco russo

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

Un altro importante parametro di questo processo è la risoluzione che rappresenta la distanza minima che la litografia può apprezzare.

Funzioni funzione dominio codominio legge argomento variabile indipendente variabile dipendente

. A primi passi con microsoft a.ccepss SommarIo: i S 1. aprire e chiudere microsoft access Start (o avvio) l i b tutti i pro- grammi

Progetto di simulazione molecolare per il corso di Complementi di algoritmi A.A

APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE

Banca dati Professioniste in rete per le P.A. Guida all uso per le Professioniste

Progetto NoiPA per la gestione giuridicoeconomica del personale delle Aziende e degli Enti del Servizio Sanitario della Regione Lazio

3DEverywhere S.r.l. sito web:

Sistema GEFO. Guida all utilizzo Presentazione delle domande

ELABORAZIONE DI DATI TRIDIMENSIONALI - RELAZIONE HOMEWORK 2

2.0 Gli archivi. 2.1 Inserire gli archivi. 2.2 Archivio Clienti, Fornitori, Materiali, Noleggi ed Altri Costi. Impresa Edile Guida all uso

CMS ERMES INFORMATICA

Piani di input e piani di calcolo reale in FaTA-e

Il sistema C.R.M. / E.R.M.

Appunti sulla Macchina di Turing. Macchina di Turing

Hub-PA Versione Manuale utente

Introduzione alla teoria dei database relazionali. Come progettare un database

Database 1 biblioteca universitaria. Testo del quesito

Relazioni statistiche: regressione e correlazione

Procedura Import tracciato ministeriale

SPC e distribuzione normale con Access

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

Sistema operativo. Sommario. Sistema operativo...1 Browser...1. Convenzioni adottate

PROGRAMMA GESTIONE TURNI MANUALE UTENTE. Programma Gestione Turni Manuale Utente versione 1.1

Manuale d uso Sole-Project.com

bensì una tendenza a ruotare quando vengono applicate in punti diversi di un corpo

MANUALE ESSE3 Gestione Registro delle lezioni

Guida rapida per i docenti all'uso della piattaforma di e-learning dell'istituto Giua

L ANALISI ABC PER LA GESTIONE DEL MAGAZZINO

Transcript:

BIOINFORMATICA PER LA BIOLOGIA STRUTTURALE Predizione di struttura secondaria La predizione di struttura secondaria è trattata nel corso base "Informatica e Bioinformatica" per la laurea triennale di primo livello in Biotecnologie. Nel caso si sia frequentato un corso in cui questo argomento non era trattato, o si vogliano riportare a mente i concetti base sull'argomento, la specifica dispensa è disponibile (liberamente scaricabile) dal link sulla pagina delle lezioni per il corso di "Informatica e Bioinformatica". In questa sezione si riportano solo brevi cenni ai collegamenti logici tra predizione di struttura secondaria ed analisi/predizione delle strutture 3D delle proteine. Un primo collegamento riguarda il flusso di informazioni utili alla predizione di struttura secondaria che è prodotto ogni volta che una nuova struttura proteica viene risolta (X-ray o NMR). Infatti, i database di informazioni su alfa eliche, foglietti beta, beta turn, loops ecc possono essere arricchiti con i nuovi dati sperimentali derivanti da ciascuna nuova struttura. Come più volte sottolineato, la performance dei programmi predittivi non dipende solo dall'algoritmo, ma anche dall'ampiezza dei dataset di risorsa. L'arricchimento di tali dataset rende più affidabili le predizioni poichè aumenta il numero di riferimenti reali e diminuisce quello dei modellizzati. Un secondo collegamento riguarda il confronto tra predizione di struttura secondaria e struttura (reale o modellizzata) 3D. Infatti, nella predizione di struttura secondaria, alcune regioni mostrano elevata proprensione ad assumere una specifica struttura secondaria (ad es. alfa elica), mentre altre mostrano livelli comparabili di propensione (questo argomento è trattato nella dispensa del corso triennale). Queste ultime regioni a maggiore indeterminazione sono quelle che, nella struttura 3D, potrebbero subire transizioni conformazionali importanti per l'attività e le interazioni della proteina. Può apparire strano predie la s.s. di una proteina la cui struttura 3D sia già stata risolta. Invece si deve considerare il fatto che la struttura 3D depositata in pdb è uno "snapshot", la foto istantanea di una struttura che in realtà è dinamica. L'individuazione delle presunte regioni di transizione conformazionale può quindi aggiungere informazione a quella "reale ma statica" della scheda pdb. Ad esempio, immaginando di avere già la struttura 3D di una proteina di circa 260 aminoacidi, la figura che segue (plot di propensione per specifiche strutture secondarie) suggerisce che la regione 160-180 possa essere soggetta a transizioni conformazionali: Visualizzazione di strutture Il sito di riferimento per le strutture proteiche, cristallografiche ed NMR, è il Protein Data Bank (http://www.pdb.org). Ad ogni struttura è assegnato un codice alfanumerico a 4 lettere, attraverso il quale si accede alla scheda di ogni entry. Nelle schede PDB sono contenute molte informazioni: tra le altre ricordiamo Primary citation, ossia l articolo che, generalmente, accompagna la sequenza; informazioni riguardo la sequenza e la struttura secondaria, con link ad altri database di classificazione, organismo di origine delle proteine cristallizzate, ecc. Per scaricare il file PDB che contiene la struttura, si apre il menù a tendina cliccando su download file in alto a destra e si

seleziona PDB (text). Aprendo questo file con un editor di testo, si trova una lunga lista di campi, contenenti informazioni riguardanti la struttura cristallografica. Ad un certo punto si trova una serie di campi denominati ATOM: questa parte della scheda consente di visualizzare la struttura 3D della proteina e consiste in un elenco di tutti gli atomi che compongono la molecola, numerati in modo progressivo e con le coordinate nello spazio. Al termine dei campi ATOM si trova il campo TER, che indica l atomo che termina la catena polipeptidica. I successivi campi HETAM forniscono le coordinate degli atomi di ossigeno delle molecole di acqua presenti nel cristallo (o di altri atomi eventualmente presenti nel cristallo, ma che non appartengono alla catena polipeptidica). Possono essere presenti più catene polipeptidiche nel file; in questo caso, si troverà un altra serie di campi ATOM, riferiti alla seconda catena, e così via. Il file si chiude infine col campo END. I campi ATOM sono gli unici indispensabili acciocchè il file venga letto dal programma di visualizzazione; ma questo non sempre è vero per tutti i programmi che lavorano su file in formato PDB. Molti richiedono, ed asempio, i campi TER ed END per leggere il file. Questo è particolarmente rilevante quando si modellizza una proteina, in quanto i file dei modelli spesso consistono solamente dei campi ATOM ed END e non vengono perciò riconosciuti da alcuni software: in questo caso, è necessario editarli a mano per ingannare il software. Tra i migliori software di visualizzazione di strutture 3D vi sono UCSF Chimera e Pymol, che hanno innumerevoli funzioni: è possibile muovere nello spazio le catene polipeptidiche, colorarle, visualizzare il backbone, la superficie o le catene laterali, rimuovere parti di sequenza, ecc. (illustrato nelle esercitazioni). Sovrapposizione di strutture A partire dai file pdb di due o (piu ) molecole si può eseguire una sovrapposizione strutturale, in cui le coordinate vengono traformate in modo da far combaciare la posizione nello spazio del maggior numero di atomi. I software di sovrapposizione mantengono fisse le coordinate della proteina di riferimento e applicano alle coordinate della seconda proteina un vettore di traslazione e una matrice di rotazione, che consentono di variare la posizione nello spazio della seconda proteina. In questo processo, le proteine sono trattate come corpi rigidi e gli atomi considerati nel processo di sovrapposizione sono generalmente i Cα, in quanto il loro numero non dipende dall identità della sequenza, ma solo dalla sua lunghezza. Per misurare la bontà di una sovrapposizione si utilizza generalmente il parametro Root Mean Square Deviation (rmsd), che è un modo per indicare la distanza media degli atomi strutturalmente equivalenti e viene espressa in Angstrom (Å) (a volte anche in nm): Dove x, y e z sono le coordinate cartesiane degli atomi delle due proteine (trasformata e di riferimento) ed N è il numero di atomi strutturalmente equivalenti. Ovviamente, minore è il valore di rmsd e migliore è la sovrapposizione. Il numero di atomi strutturalmente equivalenti è un parametro variabile, ed è l unico sul quale, in pratica, l operatore ha generalmente facoltà di agire per adattare la sovrapposizione alle proprie esigenze. Infatti si può stabilire una distanza arbitraria (dell ordine di pochi Å) entro cui due atomi vengono considerati strutturalmente equivalenti: se eccedono questa distanza, vengono scartati e non vanno ad influenzare la rmsd e, di conseguenza, la sovrapposizione. A livello operativo, il processo di sovrapposizione può impiegare algoritmi diversi, basati sul confronto di mappe di contatto (DALI), insiemi di elementi di struttura secondaria (VAST) e altri. Citiamo solo una paio di esempi: DALI server (http://ekhidna.biocenter.helsinki.fi/dali_server/start) che consente la ricerca e l estrazione da database di strutture simili alla query e protein3dfit (http://protein3dfit.tu-bs.de/cgi-bin/3daligner.py) che consente sovrapposizioni a coppia. Esistono poi siti che consentono sovrapposizioni multiple, ossia clustering, di strutture. Citiamo ad esempio SuperPose (http://wishart.biology.ualberta.ca/superpose/).

Nelle esercitazioni del corso si acquisisce la capacità di realizzare sovrapposizioni in modo relativamente semplice attraverso UCSF Chimera, che non è solo un visualizzatore molecolare bensì integra numerose funzioni, rappresentando un vero e proprio portale per l analisi delle proteine. Analisi di strutture L analisi di una proteina a livello strutturale presenta forti analogie con l analisi di una sequenza, ed è possibile tracciare dei parallellismi. Infatti, nell analisi del prodotto di un ORF, ci sono alcune operazioni che normalmente si effettuano, e che trovano un proprio corrispettivo nell analisi strutturale. Innanzitutto, la sequenza nucleotidica viene tradotta in sequenza aminoacidica: questo passaggio è concettualmente analogo alla modellizzazione di una sequenza aminoacidica, in quanto anche in questo caso si ha una traduzione da un alfabeto (aminoacidico) ad un altro (sterico). Passaggi successivi sono le ricerca di sequenze simili nei database, sfruttando ad esempio l algoritmo BLAST, e il loro successivo allineamento per evidenziare le zone di conservazione e divergenza, ad esempio utilizzando un algoritmo di allineamento globale come CLUSTALW. In entrambi i casi, si tratta di allineare (cioè, confrontare) sequenze. Anche questi due passaggi sono paragonabili a processi analoghi effettuabili con le strutture tridimensionali: esistono infatti server e software che, sfruttando diversi algoritmi, possono confrontare (cioè sovrapporre) strutture tridimensionali, evidenziando similarità e differenze, e consentendo anche di estrarre dai database strutture simili. Elementi per la predizione della struttura tridimensionale Nel raggiungimento del folding gioca un ruolo fondamentale la tendenza a raggiungere lo stato di minima energia. Le forze in gioco sono costrizioni (legami covalenti tra i residui) ed interazioni polari con l'acqua, idrofobiche con i lipidi di membrana o tra residui (polari, idrofobiche e ioniche). Le funzioni delle proteine sono in genere mediate da pochi residui in specifiche regioni. Affinchè tali residui siano esposti correttamente, il resto della proteina deve fornire la struttura 3D. La modulazione funzionale solitamente dipende da variazioni nei residui o gruppi di residui che le mediano; proteine e domini con funzioni correlate probabilmente hanno un backbone conservato. Proteine con struttura simile condividono anche una stessa architettura di domini e questi ultimi, con buona probabilità, mostreranno pattern simili di elementi di struttura secondaria (ovvero, folding molto simile). Per la predizione della struttura 3D sono importanti sia le considerazioni a priori (valutazione delle proprietà chimico-fisiche) che quelle empiriche (disponibilità di uno o più modelli o proteine/domini templato). Modellizzazione di strutture L ottenimento di un modello a partire da una sequenza aminoacidica si può basare su diversi approcci; la scelta dipende sostanzialmente dall omologia di della nostra sequenza ignota con quella di una struttura risolta (detta templato). Per livelli di identità pari o superiore al 20-30% tra query e templato (cioè al di sopra della cosiddetta twilight zone ) si può utilizzare il modelling per omologia. Un buon sito che consente di ottenere questo tipo di modelling è Swiss-Model (http://swissmodel.expasy.org/). Il modelling per omologia consiste sostanzialmente di 4 fasi. Si inizia con la ricerca dei templati, generalmente utilizzando algoritmi come BLAST o PSI-BLAST. Segue la selezione del miglior templato, che si basa ovviamente sull omologia di sequenza ma anche su altre caratteristiche come la risoluzione del cristallo e la presenza di ligandi, che possono indurre cambiamenti conformazionali anche importanti. Si deve poi allineare le sequenze di query e templato, e questa è la fase più critica di tutto il processo: per minimizzare gli errori, spesso si utilizzano allineamenti multipli, che consentono di evidenziare le sostituzioni possibili per ogni posizione e quindi di migliorare l allineamento. E importante chiarire a questo punto che l uso frequente di algoritmi di allineamento locale (come appunto PSI-BLAST) è limitato alla sola ricerca dei templati. Nell allineamento tra sequenza target e

sequenza del templato, invece, si utilizzano necessariamente metodi di allineamento globale, poiché non è certo ipotizzabile lasciare buchi nella struttura ove il livello di similarità è più basso. L ultima fase consiste nella costruzione del modello, in cui vengono assegnate alla query le coordinate dei residui analoghi presenti sul templato. Questo processo riguarda essenzialmente le cosiddette zone strutturalmente conservate, ossia eliche e foglietti. Le catene laterali vengono posizionate nel modello in modo da mimare il più possibile la corrispondente posizione nel templato; nel caso non ci sia omologia significativa, si utilizzano le librerie di rotameri. La parte più difficile da modellizzare rimangono i loop, in quanto sono le porzioni intrinsecamente più variabili, ma anche spesso associate alla funzione della proteina. Anche in questo caso, esistono banche dati di anse, oppure si può procedere con una modellizzazione ab initio (vedi sotto). Al di sotto del 20% di identità tra query e templato ci troviamo nella cosiddetta zona notturna (midnight zone) in cui non si riesce a distinguere una somiglianza di sequenza significativa, ed anzi le similarità possono derivare sia da evoluzione divergente (omologia) che convergente (analogia). In questo caso si utilizza un approccio diverso, detto di fold recognition, per mezzo del threading. Un ottimo server di questo tipo è Phyre (http://www.sbg.bio.ic.ac.uk/phyre2/). Questo tipo di approccio parte dall osservazione che la struttura tridimensionale è generalmente più conservata della sequenza: si stima che infatti possano esistere 10 4 tipi di fold base, a fronte di un numero virtualmente infinito di possibili sequenze diverse. Tra i diversi sistemi di riconoscimento del fold, uno dei primi proposti è quello dei Profili-3D, in cui la struttura 3D viene tradotta in una sequenza che tiene conto delle caratteristiche struturali di ogni residuo. In particolare, i residui vengono divisi in diverse classi: esposto al solvente, parzialmente esposto, non esposto (queste classi sono poi suddivise in sottoclassi, per un totale di 6). Il residuo può poi appartenere a strutture secondarie (eliche e foglietti) o loop. In totale, esistono 6x3=18 classi, che descrivono l intera gamma dei possibili intorni chimici dei residui di una struttura. Per mezzo di matrici di punteggio 3D-1D, ottenute analizzando strutture reali, è possibile confrontare questo alfabeto di 18 lettere con quello a 20 lettere degli aminoacidi: in pratica, queste matrici ci dicono con quale propensione ogni aminoacido si colloca in ogniuna delle 18 classi. A questo punto, un algoritmo allinea tra loro le sequenze tradotte nell alfabeto a 18 lettere, associando tra loro i residui compatibili, in modo analogo a quanto si fa nell allineamento di sequenze aminoacidiche, ottenendo così il modello. La modellizzazione di catene laterali e loop segue gli stessi principi del modeling per omologia. Può infine capitare che una sequenza, oltre a non avere significativa identità di sequenza con un templato, non venga rinosciuta dai programmi di threading. In questo caso, rimane un ultima possibilità: il modeling ab initio. In questo approccio non si va a cercare un unico templato che possa fungere da stampo per il nostro modello ma, al contrario, la sequenza ignota viene spezzettata in molti frammenti (lunghi anche pochi aminoacidi), e questi frammenti vengono modellizzati separatamente, basandosi su templati diversi. Infatti, per sequenze così corte, è molto probabile trovare un omologia di sequenza con una struttura nota. I frammenti vengono poi assemblati in un unica struttura, che viene rifinita con calcoli di minimizzazione energetica/sterica. Server di questo tipo utilizzano anche settimane per ottenere un modello; citiamo ad esempio I-Tasser (http://zhanglab.ccmb.med.umich.edu/i-tasser/). Dal momento che, pur con strategie diverse, tutti i sistemi di modellazione si basano sull omologia di sequenza tra query e templato, è evidente che ad un maggior livello di identità (e similarità) corrisponderà un modello più affidabile. Valutazione (assessment) dei modelli Una volta ottenuto un modello, è importante valutarne la qualità. Gli strumenti che analizzano la qualità dei modelli si dividono sostanzialmente in metodi di controllo della qualità stereochimica, (ovvero di proprietà quali gli angoli di legame, la planarietà degli anelli nelle catene laterali dei residu aromatici ecc.) e metodi di controllo della stabilità, che avviene per confronto della stabilità predetta per il modello (nelle varie regioni e subregioni) con strutture omologhe stabili (ove disponibili,

ovviamente). Diversi validation tools sono reperibili online, ad esempio presso il server ExPASy: http://swissmodel.expasy.org/workspace/index.php?func=show_workspace. I principali sono: ANOLEA è un potenziale empirico atomico, volto a valutare la qualità del packaging del modello. Un analisi condotta con ANOLEA dimostra immediatamente la presenza di regioni dominate da dei clashes sterici, in quanto queste regioni saranno caratterizzate da alta energia. Nel grafico prodotto, l asse y rappresenta l energia per ogni amminoacido della catena proteica: i valori negativi (in verde) rappresentano un ambiente energetico favorevole e quelli positivi (in rosso) un ambiente sfavorevole. Anche la suite di GROMOS (utilizzata soprattutto in Dinamica Molecolare) restituisce un grafico di cui l asse y rappresenta l energia per ogni amminoacido della catena proteica e, come per ANOLEA, i valori energetici in ordinata sono in verde (ambiente favorevole) o rosso (sfavorevole). QMEAN6 è una scoring function che combina 6 descrittori strutturali. Il valore è compreso tra 0 e 1 con valori più elevati per i modelli migliori. La misura dell assoluta qualità del modello è fornita dal QMEAN Z-SCORE poichè fornisce una stima del grado di natività del modello ed inoltre la likelihood che un dato modello sia di qualità comparabile a strutture sperimentalmente dedotte. I modelli di scarsa qualità presentano un QMEAN Z-SCORE basso. L analisi degli Z-scores dei termini individuali può aiutare nella comprensione di un valore basso dello Z-score globale. DFIRE è un potenziale statistico all-atom adoperato nella valutazione delle interazioni di tipo nonbonded nel modello. Valori fortemente negativi indicano vicinanza alla struttura nativa. PROCHECK è una suite di programmi per valutare la qualità stereochimica del modello. Con PROCHECK si testa quanto normale sia la geometria dei residui del modello costruito, confrontandola con parametri stereochimici appartenenti a strutture ad alta definizione. PROMOTIF identifica ed analizza in maniera automatica dei motif di struttura superseconda come: beta turns, gamma turns, chiavi greche, forcine beta e beta bulges.

DSSP definisce la struttura secondaria, le caratteristiche geometriche e l esposizione al solvente adoperando come input le coordinate atomiche del file PDB sottomesso. Molecular Dynamics Con il termine dinamica molecolare si intende un insieme di tecniche computazionali di simulazione che, mediante l integrazione delle equazioni del moto, permette di studiare la dinamica di evoluzione di un sistema fisico e chimico a livello atomico e molecolare. In particolare, lo studio della dinamica molecolare è fondamentale per comprendere appieno la funzione delle proteine e le loro interazioni. Le srutture proteiche depositate, derivate da studi di cristallizzazione e diffrazione a raggi X o da studi per NMR, sono paragonabili a fotografie o brevi filmati, ovvero non descrivono tutti i possibili stati, le numerose conformazioni che le proteine sono in grado di assumere. Le proteine sono, appunto, strutture dinamiche in grado di adattarsi a varie interazioni e di modulare le proprietà biochimiche e di legame in funzione delle transizioni strutturali. La dinamica molecolare è utilizzata sia nella ricerca di base che in progetti biotecnologici : Comprensione del folding: è possibile eseguire esperimenti di folding/ unfolding a partire da strutture note per chiarire gli aspetti cinetici (Lei & Duan, 2007. J Mol Biol. 370:196-206) Studio delle interazioni: la funzione cellulare di tutte le molecole siano esse proteiche o di altro tipo dipende in ultima analisi dalle interazioni (una molecola che non interagisce con alcun altro componente è irrilevante per il sistema). La dinamica molecolare può studiare le interazioni poiché esse sono mediate da meccanismi e forze che controllano anche le transizioni conformazionali, il folding ecc. E ben noto il meccanismo con cui il legame a siti specifici (allostrici) è in grado di modulare l attività enzimatica; in realtà il legame di ligandi a una regione proteica si trasduce in altre parti della proteina, regolandone la conformazione e quindi le proprietà di legame ad altre proteine, al DNA ecc. Farmacogenomica: lo studio delle interazioni trova immediata applicazione biotecnologica nella farmacogenomica. Negli approcci tradizionali, nuovi farmaci sono sviluppati mediante modificazioni casuali e multiple di molecole già esistenti e successiva selezione dei principi attivi attraverso la caratterizzazione sperimentale dell interazione con specifici recettori o molecole bersaglio. Grazie alle tecniche di studio delle strutture proteiche e di dinamica molecolare è invece possibile tagliare fortemente tempi e costi realizzando librerie di ligandi modificati in silico e prevedendone l interazione.

Comprensione dei meccanismi di voltage-gating: lo studio dei canali ionici, come quello del potassio KvAP (Cuello et al. 2004. Science 306:491-5), è fondamentale per il passaggio a fasi di ingegneria proteica volte a modificare la selettività ionica e rendere i canali mutanti in grado di trasportare ioni di metalli pesanti. Organismi in cui i canali sono stati mutati in tal senso possono essere utilizzati in programmi di decontaminazione ambientale (bioremediation e phytoremediation). Effetto di mutazioni: qui la dinamica molecolare viene impiegata ad esempio per lo studio del folding anomalo che caratterizza determinate proteine patogene come il prione, o nello studio di patologie multifattoriali dove un errato ripiegamento delle proteine che interagiscono con gli acidi nucleici è un fattore chiave nell insorgenza di queste malattie (Barducci A et al. 2005. Biophys. J. 88,1334). Nella dinamica molecolare si associa all energia potenziale degli atomi della proteina una funzione che descrive una superficie o Potential Energy Surface (PES). (maggiori dettagli nella sezione fuori programma di approfondimento) I metodi per il calcolo dell energia possono essere metodi quantomeccanici, che tengono conto di posizione e velocità di nuclei ed elettroni e metodi classici in cui sono considerati solo i nuclei, Tra i metodi classici, la meccanica molecolare si estrinseca nel force field, cioè un potenziale che descrive le caratteristiche energetiche della molecola (maggiori dettagli nella sezione fuori programma di approfondimento). A seconda delle esigenze, la dinamica può essere implementata in differenti simulazioni di fase sovente: - Solvente esplicito --> è necessaria una simulazione più accurata ed è quindi simulata l aggiunta di molecole d acqua al sistema. In caso di proteine con cariche nette vengono aggiunti controioni per neutralizzare il sistema. Questo metodo è più accurato ma anche più dispendioso computazionalmente. - Solvente implicito --> la presenza del solvente è simulato da una costante dielettrica efficiente. In questo caso il metodo è meno accurato ma il costo computazionale è notevolmente ridotto rispetto alla trattazione con solvente esplicito. La fase di minimizzazione energetica è necessaria per eliminare gli atom clashes; in pratica il sistema è virtualmente portato alla temperatura desiderata per rientropizzare e consentire nuovamente il raggiungimento di minimi energetici. Dopo la minimizzazione avviene uno step di equilibrazione del sistema, in cui si cerca di mantenere il sistema stesso alla temperatura desiderata. Successivamente alla fase di equilibrazione possono prendere via i cicli produttivi (production runs). Dopo un esperimento di dinamica molecolare, il parametro RMSD precedentemente introdotto è utilizzato come indicatore del raggiungimento del folding (se la distanza compresa rispetto alla struttura iniziale è tra 3 e 4 ). Il processo di folding è tipicamente accompagnato da un decremento significativo della SASA (Solvent Accessible Surface Area). (maggiori dettagli nella sezione fuori programma di approfondimento). Predizione di interazioni intramolecolari Per assemblare i vari elementi di struttura secondaria in un contesto 3D non modellizzabile più o meno facilmente grazie ad un templato può essere utile considerare le interazioni intramolecolari a medio e lungo raggio. La predizione di contatti è fatta a posteriori, ovvero considerando l effetto di mutazioni in coppia, compensative per il mantenimento della funzione. Ad esempio, nell allineamento:

Nella posizione contornata dal box blu, tutte le sequenze hanno un residuo aromatico grande (triptofano, W, tirosina, Y, fenilalanina, F) tranne una (che mostra una glicina, G). Nella posizione contornata dal box rosso, quasi tutte le sequenze hanno un residuo piccolo (G o alanina, A), ma la quinta dall alto ha un residuo grande (W). In questa sequenza l'ordine grande-piccolo per i residui nelle posizioni contornate dai due box è invertito rispetto alle altre cinque sequenze; se è noto che per le sei proteine la funzione è conservata, allora la doppia mutazione è tollerata, suggerendo che i residui nelle due posizioni siano in contatto e formino coppie di ingombro sterico equivalente, ovvero grande + piccolo oppure piccolo + grande. Invece, nell allineamento: il contatto di coppia è tra residui di carica opposta, negativa in posizione N-ter (box blu) e positiva in C-ter (box rosso), tranne che in una sequenza, che ha le posizioni invertite ma carica complessiva immutata (poiché -1 +1 oppure +1 1 è comunque pari a zero). Ci sono, tuttavia, limiti in questo tipo d'analisi; talora è difficile riconoscere l effetto di compensazione poichè non sempre è mediato da sostituzioni compensative di altri residui. Infatti, il backbone proteico ha una certa elasticità ed, entro certi limiti, può consentire un certo "accomodamento" dei residui. Inoltre, non necessariamente la compensazione a coppie avviene tra singoli residui: la compensazione può riguardare gruppi di residui. Ad esempio, nell allineamento: I residui in rosso nei riquadri sono complessivamente aromatici o idrofobici ed il loro ingombro sterico totale è più o meno costante. Ad esempio, nel gruppo N-ter (box blu) tutte le sequenze hanno due residui grandi (W, F o Y) ed uno piccolo (G o A) ma una di esse ha tre residui di grandezza intermedia (V); nella posizione C-ter (box rosso) tutte hanno un residuo V e due residui piccoli. Docking Se la struttura di due proteine è conosciuta ed è noto che interagiscono, non è sufficiente comparare le due strutture per dedurre le regioni di interazione. Infatti, la struttura di una proteina può cambiare se ad essa è complessato un ligando proteico o di altro tipo (docking):

Nella predizione di docking può essere di aiuto l identificazione di mutazioni correlate tra allineamenti di proteine per le quali sia noto che formano complessi.il docking non riguarda solo la formazione di complessi tra due o più proteine ma anche l interazione con acidi nucleici o piccoli ligandi ionici o lipidici. Il complesso tra proteine procariotiche spesso è simile alla struttura 3D di domini omologhi in una proteina eucariotica più grande. Nell'esempio in figura, i complessi procariotico (a sinistra) ed eucariotico (a destra) hanno struttura simile, ma nel procariote le subunità sono quattro (A, B, C, D) mentre nell'eucariote sono solo due: la proteina A, che è conservata ed una singola proteina E composta da tre domini corrispondenti alle proteine procariotiche B, C e D): Irene Righetto e Francesco Filippini, 2005-2015