Protein folding -ΔS Un gran numero di interazioni deboli +ΔS + ΔH E r
Protein structure modelling: A digression I polimeri (inclusi quelli di amino acidi) in generale non hanno una struttura unica. Le proteine sono polimeri speciali perché sono stati selezionati dall evoluzione per svolgere una determinata funzione. La loro stabilità è solo marginale. La probabilità che una sequenza casuale di amino acidi soddisfi queste condizioni è molto bassa. This is a rare event: in fact, it is a miracle*! *Aliosha Finkelstein
Immaginiamo... Mutazione di un amino acido Protein structure modelling: A digression
Immaginiamo... Mutazione di un amino acido Protein structure modelling: A digression La proteina non si struttura più Il risultato più probabile
Immaginiamo... Mutazione di un amino acido Protein structure modelling: A digression La proteina non si struttura più La nuova sequenza assume una struttura completamente diversa, stabile e funzionale Il risultato più probabile Un miracolo 2
Immaginiamo... Mutazione di un amino acido Protein structure modelling: A digression La proteina non si struttura più Il risultato più probabile La mutazione si accomoda con distorsioni locali Il solo risultato possibile se c'è pressione evolutiva La nuova sequenza assume una struttura completamente diversa, stabile e funzionale Un miracolo 2
In conclusione La fisica delle proteine e l evoluzione garantiscono che proteine omologhe hanno struttura simile
In conclusione La fisica delle proteine e l evoluzione garantiscono che proteine omologhe hanno struttura simile
Quanto simili? Misurare la similarità di struttura Possiamo misurare la distanza media tra atomi corrispondenti
Root mean square deviation (RMSD) RMSD = 1 N N [(x i x ' i ) 2 + (y i y ' i ) 2 + (z i z ' i ) 2 ] i=1
L RMSD puo non essere la misura ideale
GDT-TS GDT TS =100 n 1 + n 2 + n 3 + n 4 4L n i = numero di aminoacidi allineati distanti meno di i Å L = numero di aminoacidi allineati
TM-score
Sovrapposizione Dati due insiemi di punti A=(a 1, a 2,... a n ) e B= (b 1, b 2,..., b m ) occorre trovare la trasformazione G che minimizza la distanza: min G Con P=Q, d di solito è rmsd { d[a(p) G[B(Q)] }
Quindi Occorre trovare la corrispondenza tra i punti di A e i punti di B (NP-hard) Trovare la trasformazione (rotazione e traslazione) (O(n))
Sovrapposizione strutturale Sovrapporre e misurare la distanza tra due strutture con la stessa sequenza è semplice, basta minimizzare la distanza fra atomi corrispondenti Negli altri casi: Si può usare un allineamento di sequenza per ottenere la corrispondenza Si può cercare la migliore corrispondenza e la trasformazione contemporaneamente
Atomi corrispondenti La catena polipeptidica è formata da una parte ripetitiva (catena principale o backbone) e da una parte variabile (catene laterali o residui). Se le sequenze delle proteine sono diverse, dobbiamo limitarci al backbone.
Metodi DALI: Rappresenta le strutture come matrici di distanza tra gli atomi Ca Holm and Sander. Protein structure comparison by alignment of distance matrices. J Mol Biol 1993, 233:123-128. CE (Combinatorial extension): Usa caratteristiche di geometria locale e poi le unisce in un percorso ottimale Shindyalov and Bourne, Protein structure alignment by incremental combinatorial extension (CE) of optimal path. Prot Eng, 1998, 11:739-747. SSAP (Sequential Structure Alignment Program ): Usa un algortimo di doppia programmazione dinamica Taylor WR, Orengo CA. 1989b. Protein structure alignment. J Mol Biol 208:l-22 VAST (Vector Alignment Search Tool ), TM-align etc.
Mappa di contatti
DALI Divide la struttura in frammenti di 6 aminoacidi e costruisce una matrice di contatto per ogni frammento Confronta sottomatrici 6x6 Ottimizza il punteggio finale di sovrapposizione con MC
DALI: Sottomatrici Image from Mark Maciejewski at UConn
Confronta (tutte?) le possibili combinazioni di matrici A d ij B d ij d ij A d ij B
Problemino 100 amino acidi -> 96 esapeptidi = 95 2 /2 = 4.512 matrici 150 amino acidi -> 145 esapeptidi = 145 2 /2 = 10.152 matrici 47.430.144 confronti
In realtà Confronta la matrice di una proteina con tutte quelle dell altra Ripete per tutte le matrici Ordina le coppie per similarità Unisce matrici consecutive e conserva solo la matrice del set con maggiore similarità
DALI In questo modo conserva solo una matrice per ogni set
DALI Ci sono ancora troppe coppie Confronta le coppie a caso Mantiene solo le coppie con un punteggio positivo Finisci quando ne ha 80,000 Prende le 40,000 migliori Usa Monte Carlo per ottimizzare la sovrapposizione finale Per valutare la significatività usa lo Z-score
Quanto simili sono le proteine omologhe 3.50 3.00 2.50 RMSD 2.00 1.50 1.00 0.50 0.00 1 0.8 0.6 0.4 0.2 0 Percentuale di identità di sequenza Dipende dalla distanza evolutiva (che possiamo stimare dalla percentuale di identità di sequenza) Chothia and Lesk, EMBO J., 1986
Protein structure modelling: Possiamo usare la struttura A digression della proteina omologa (templato) come prima approssimazione della struttura della nostra proteina (target) Protein No. FLAV_CLOBE 1 A... I V Y W S G T G N T E K M A E CYSJ_THIRO 2 A. I T I L F G S Q T G N A K A V A E
Date due strutture proteiche sovrapposte, si può dedurre la corrispondenza tra i loro amino acidi AVSERT ALSDRS
Data la corrispondenza tra gli amino acidi di sue proteine (allineamento) si può dedurre la corrispondenza tra i loro atomi in tre dimensioni AVSERT ALSDRS
T GFFS VSD? ATA VTE LSA KV G V V S D E V V A A S L A T A
GFFS VSD? ATA VTE LSA KV
GFFS VSD? ATA VTE LSA KV
GFFS VSD? ATA VTE LSA KV
GFFS VSD? ATA VTE LSA KV
L allineamento corretto è essenziale Protein No. FLAV_CLOBE 1 A... I V Y W S G T G N T E K M A E CYSJ_THIRO 2 A. I T I L F G S Q T G N A K A V A E CYSJ_ECOLI 3 A. I T I I S A S Q T G N A R R V A E NOS2_CHICK 4 A K V T V I Y A T E T G K S E T L A N NOS2_ONCMY 5 A.. T V L Y A T E T G K S Q T L A Q NOS1_RABIT 6 A K A T I L Y A T E T G K S Q A Y A K NOS3_HUMAN 7 A K A T I L Y G S E T G R A Q S Y A Q NOS_RHOPR 8 A K A T I L F A T E T G K S E M Y A R NOS_ANOST 9 A K A T V L Y A T E T G R S E Q Y A R NOS_LYMST 10 A K C S I F Y A T E T G R S E R F A R NCPR_HUMAN 11 A N I I V F Y G S Q T G T A E E F A N NCPR_CANTR 12 A N T L L L F G S Q T G T A E D Y A N NCPR_SCHPO 13 A. A A V F F G S Q T G T A E D F A Y NCPR_YEAST 14 A N Y L V L Y A S Q T G T A E D Y A K FLAV_DESSA 15 A K S L I V Y G S T T G N T E T A A E FLAV_DESGI 16 A K A L I V Y G S T T G N T E G V A E
Occorre modellare le regioni strutturalmente divergenti Per regioni piccole si possono usare regole basate sulle sequenze Si possono esplorare le possibili conformazioni e valutarne l energia nel contesto della proteina Si possono utilizzare metodi euristici
Un metodo euristico Numero di amino acidi d
Un metodo euristico Numero di amino acidi d
Un metodo euristico Numero di amino acidi d
Un metodo euristico Numero di amino acidi d
Modello del backbone
Le catene laterali
Le catene laterali
Le catene laterali possono assumere conformazioni diverse Esplorarle tutte è tecnicamente impossibile
Non tutte le possibili conformazioni sono equiprobabili 15% 22% 25% 33% Possiamo stimare le probabilità analizzando la frequenza nelle strutture note
Librerie di rotameri 15% 22% 33% 25%
Librerie di rotameri Esploriamo solo le conformazioni presenti nella libreria seguendo l ordine della loro probabilità Possiamo usare il dead end elimination algorithm identificando le conformazioni che non possono far parte del minimo globale.
Altra possibilità Spesso abbiamo più di una proteina di struttura nota omologa alla nostra (templati) Ciascun templato ha una diversa distanza evolutiva dalla nostra proteina target e quindi sarà più o meno simile in struttura Templato 1 Templato 2
Altra possibilità Spesso abbiamo più di una proteina di struttura nota omologa alla nostra (templati) Ciascun templato ha una diversa distanza evolutiva dalla nostra proteina target e quindi sarà più o meno simile in struttura Templato 1 Templato 2 Modello
Altra possibilità Spesso abbiamo più di una proteina di struttura nota omologa alla nostra (templati) Ciascun templato ha una diversa distanza evolutiva dalla nostra proteina target e quindi sarà più o meno simile in struttura Possiamo ottenere le distribuzioni di probabilità (PDF) di osservare certe differenze tra distanze, angoli, etc, in funzione della distanza evolutiva
Esempio: distanze tra i Ca g: Distanza media da una gap i: percentuale di identità a: accessibilità al solvente d : distanza
Modeller Allinea sequenze e strutture Estrai i vincoli spaziali Ottimizza soddisfacendo i vincoli
Tasser
Se non abbiamo un templato Metodi ab initio non sono ancora sufficientemente accurati I metodi più accurati al momento sono basati su frammenti
Metodi basati su frammenti AVGIFRAAVCTRGVAKAVDFVP AVGIFR AAVCTR GVAKAVDF Dividiamo la sequenza in frammenti
Metodi basati su frammenti AVGIFRAAVCTRGVAKAVDFVP AVGIFR AAVCTR GVAKAVDF Dividiamo la sequenza in frammenti Per ciascun frammento cerchiamo LE regioni di proteine di struttura nota con similarità di sequenza
Metodi basati su frammenti AVGIFRAAVCTRGVAKAVDFVP AVGIFR AAVCTR GVAKAVDF Combiniamole casualmente
Metodi basati su frammenti AVGIFRAAVCTRGVAKAVDFVP AVGIFR AAVCTR GVAKAVDF Combiniamole casualmente
Metodi basati su frammenti AVGIFRAAVCTRGVAKAVDFVP AVGIFR AAVCTR GVAKAVDF Combiniamole casualmente
Metodi basati su frammenti OTTIMIZZAZIONE: Monte Carlo, Simulated annealing, algoritmi genetici,...
Potenziali di coppia
[ ] " " # $ % % & ' + + + + + + = atoms bonded non C ij j i C ij ij C ij ij C angles dihedrals eq C eq bonds C b C r q q r B r A n K K b b K E, 0 6, 12, 2 2 ) cos( 1 2 ) ( ) ( ε γ φ φ θ θ θ Energia
Metodi basati su frammenti Si distinguono per: La dimensione dei frammenti Il data base di frammenti La metodologia di selezione dei frammenti La funzione o le funzioni energia
Metodi basati su frammenti In alcuni casi usano domini o arrangiamenti frequenti di strutture secondarie (strutture supersecondarie) Templati strutturali Domini strutturali Identificazione di domini Modello finale Assemblaggio e ottimizzazione
Possibile schema Frammenti candidati Selezione dei frammenti Sequenza di amino acidi Assemblaggio dei frammenti Modelli Ottimizzazione Valutazione Lista ordinata
Possibile schema Frammenti candidati Selezione dei frammenti Sequenza di amino acidi Assemblaggio dei frammenti Predizioni Modelli Ottimizzazione Dati sperimentali Valutazione Lista ordinata
Predizioni Struttura secondaria Basati su metodi di apprendimento automatico Accessibilità al solvente Basati su metodi di apprendimento automatico Contatti...