Protein folding. Un gran numero di interazioni deboli + ΔH

Protein folding -ΔS Un gran numero di interazioni deboli +ΔS + ΔH E r

Protein structure modelling: A digression I polimeri (inclusi quelli di amino acidi) in generale non hanno una struttura unica. Le proteine sono polimeri speciali perché sono stati selezionati dall evoluzione per svolgere una determinata funzione. La loro stabilità è solo marginale. La probabilità che una sequenza casuale di amino acidi soddisfi queste condizioni è molto bassa. This is a rare event: in fact, it is a miracle*! *Aliosha Finkelstein

Immaginiamo... Mutazione di un amino acido Protein structure modelling: A digression

Immaginiamo... Mutazione di un amino acido Protein structure modelling: A digression La proteina non si struttura più Il risultato più probabile

Immaginiamo... Mutazione di un amino acido Protein structure modelling: A digression La proteina non si struttura più La nuova sequenza assume una struttura completamente diversa, stabile e funzionale Il risultato più probabile Un miracolo 2

Immaginiamo... Mutazione di un amino acido Protein structure modelling: A digression La proteina non si struttura più Il risultato più probabile La mutazione si accomoda con distorsioni locali Il solo risultato possibile se c'è pressione evolutiva La nuova sequenza assume una struttura completamente diversa, stabile e funzionale Un miracolo 2

In conclusione La fisica delle proteine e l evoluzione garantiscono che proteine omologhe hanno struttura simile

Quanto simili? Misurare la similarità di struttura Possiamo misurare la distanza media tra atomi corrispondenti

Root mean square deviation (RMSD) RMSD = 1 N N [(x i x ' i ) 2 + (y i y ' i ) 2 + (z i z ' i ) 2 ] i=1

L RMSD puo non essere la misura ideale

GDT-TS GDT TS =100 n 1 + n 2 + n 3 + n 4 4L n i = numero di aminoacidi allineati distanti meno di i Å L = numero di aminoacidi allineati

TM-score

Sovrapposizione Dati due insiemi di punti A=(a 1, a 2,... a n ) e B= (b 1, b 2,..., b m ) occorre trovare la trasformazione G che minimizza la distanza: min G Con P=Q, d di solito è rmsd { d[a(p) G[B(Q)] }

Quindi Occorre trovare la corrispondenza tra i punti di A e i punti di B (NP-hard) Trovare la trasformazione (rotazione e traslazione) (O(n))

Sovrapposizione strutturale Sovrapporre e misurare la distanza tra due strutture con la stessa sequenza è semplice, basta minimizzare la distanza fra atomi corrispondenti Negli altri casi: Si può usare un allineamento di sequenza per ottenere la corrispondenza Si può cercare la migliore corrispondenza e la trasformazione contemporaneamente

Atomi corrispondenti La catena polipeptidica è formata da una parte ripetitiva (catena principale o backbone) e da una parte variabile (catene laterali o residui). Se le sequenze delle proteine sono diverse, dobbiamo limitarci al backbone.

Metodi DALI: Rappresenta le strutture come matrici di distanza tra gli atomi Ca Holm and Sander. Protein structure comparison by alignment of distance matrices. J Mol Biol 1993, 233:123-128. CE (Combinatorial extension): Usa caratteristiche di geometria locale e poi le unisce in un percorso ottimale Shindyalov and Bourne, Protein structure alignment by incremental combinatorial extension (CE) of optimal path. Prot Eng, 1998, 11:739-747. SSAP (Sequential Structure Alignment Program ): Usa un algortimo di doppia programmazione dinamica Taylor WR, Orengo CA. 1989b. Protein structure alignment. J Mol Biol 208:l-22 VAST (Vector Alignment Search Tool ), TM-align etc.

Mappa di contatti

DALI Divide la struttura in frammenti di 6 aminoacidi e costruisce una matrice di contatto per ogni frammento Confronta sottomatrici 6x6 Ottimizza il punteggio finale di sovrapposizione con MC

DALI: Sottomatrici Image from Mark Maciejewski at UConn

Confronta (tutte?) le possibili combinazioni di matrici A d ij B d ij d ij A d ij B

Problemino 100 amino acidi -> 96 esapeptidi = 95 2 /2 = 4.512 matrici 150 amino acidi -> 145 esapeptidi = 145 2 /2 = 10.152 matrici 47.430.144 confronti

In realtà Confronta la matrice di una proteina con tutte quelle dell altra Ripete per tutte le matrici Ordina le coppie per similarità Unisce matrici consecutive e conserva solo la matrice del set con maggiore similarità

DALI In questo modo conserva solo una matrice per ogni set

DALI Ci sono ancora troppe coppie Confronta le coppie a caso Mantiene solo le coppie con un punteggio positivo Finisci quando ne ha 80,000 Prende le 40,000 migliori Usa Monte Carlo per ottimizzare la sovrapposizione finale Per valutare la significatività usa lo Z-score

Quanto simili sono le proteine omologhe 3.50 3.00 2.50 RMSD 2.00 1.50 1.00 0.50 0.00 1 0.8 0.6 0.4 0.2 0 Percentuale di identità di sequenza Dipende dalla distanza evolutiva (che possiamo stimare dalla percentuale di identità di sequenza) Chothia and Lesk, EMBO J., 1986

Protein structure modelling: Possiamo usare la struttura A digression della proteina omologa (templato) come prima approssimazione della struttura della nostra proteina (target) Protein No. FLAV_CLOBE 1 A... I V Y W S G T G N T E K M A E CYSJ_THIRO 2 A. I T I L F G S Q T G N A K A V A E

Date due strutture proteiche sovrapposte, si può dedurre la corrispondenza tra i loro amino acidi AVSERT ALSDRS

Data la corrispondenza tra gli amino acidi di sue proteine (allineamento) si può dedurre la corrispondenza tra i loro atomi in tre dimensioni AVSERT ALSDRS

T GFFS VSD? ATA VTE LSA KV G V V S D E V V A A S L A T A

GFFS VSD? ATA VTE LSA KV

L allineamento corretto è essenziale Protein No. FLAV_CLOBE 1 A... I V Y W S G T G N T E K M A E CYSJ_THIRO 2 A. I T I L F G S Q T G N A K A V A E CYSJ_ECOLI 3 A. I T I I S A S Q T G N A R R V A E NOS2_CHICK 4 A K V T V I Y A T E T G K S E T L A N NOS2_ONCMY 5 A.. T V L Y A T E T G K S Q T L A Q NOS1_RABIT 6 A K A T I L Y A T E T G K S Q A Y A K NOS3_HUMAN 7 A K A T I L Y G S E T G R A Q S Y A Q NOS_RHOPR 8 A K A T I L F A T E T G K S E M Y A R NOS_ANOST 9 A K A T V L Y A T E T G R S E Q Y A R NOS_LYMST 10 A K C S I F Y A T E T G R S E R F A R NCPR_HUMAN 11 A N I I V F Y G S Q T G T A E E F A N NCPR_CANTR 12 A N T L L L F G S Q T G T A E D Y A N NCPR_SCHPO 13 A. A A V F F G S Q T G T A E D F A Y NCPR_YEAST 14 A N Y L V L Y A S Q T G T A E D Y A K FLAV_DESSA 15 A K S L I V Y G S T T G N T E T A A E FLAV_DESGI 16 A K A L I V Y G S T T G N T E G V A E

Occorre modellare le regioni strutturalmente divergenti Per regioni piccole si possono usare regole basate sulle sequenze Si possono esplorare le possibili conformazioni e valutarne l energia nel contesto della proteina Si possono utilizzare metodi euristici

Un metodo euristico Numero di amino acidi d

Modello del backbone

Le catene laterali

Le catene laterali possono assumere conformazioni diverse Esplorarle tutte è tecnicamente impossibile

Non tutte le possibili conformazioni sono equiprobabili 15% 22% 25% 33% Possiamo stimare le probabilità analizzando la frequenza nelle strutture note

Librerie di rotameri 15% 22% 33% 25%

Librerie di rotameri Esploriamo solo le conformazioni presenti nella libreria seguendo l ordine della loro probabilità Possiamo usare il dead end elimination algorithm identificando le conformazioni che non possono far parte del minimo globale.

Altra possibilità Spesso abbiamo più di una proteina di struttura nota omologa alla nostra (templati) Ciascun templato ha una diversa distanza evolutiva dalla nostra proteina target e quindi sarà più o meno simile in struttura Templato 1 Templato 2

Altra possibilità Spesso abbiamo più di una proteina di struttura nota omologa alla nostra (templati) Ciascun templato ha una diversa distanza evolutiva dalla nostra proteina target e quindi sarà più o meno simile in struttura Templato 1 Templato 2 Modello

Altra possibilità Spesso abbiamo più di una proteina di struttura nota omologa alla nostra (templati) Ciascun templato ha una diversa distanza evolutiva dalla nostra proteina target e quindi sarà più o meno simile in struttura Possiamo ottenere le distribuzioni di probabilità (PDF) di osservare certe differenze tra distanze, angoli, etc, in funzione della distanza evolutiva

Esempio: distanze tra i Ca g: Distanza media da una gap i: percentuale di identità a: accessibilità al solvente d : distanza

Modeller Allinea sequenze e strutture Estrai i vincoli spaziali Ottimizza soddisfacendo i vincoli

Tasser

Se non abbiamo un templato Metodi ab initio non sono ancora sufficientemente accurati I metodi più accurati al momento sono basati su frammenti

Metodi basati su frammenti AVGIFRAAVCTRGVAKAVDFVP AVGIFR AAVCTR GVAKAVDF Dividiamo la sequenza in frammenti

Metodi basati su frammenti AVGIFRAAVCTRGVAKAVDFVP AVGIFR AAVCTR GVAKAVDF Dividiamo la sequenza in frammenti Per ciascun frammento cerchiamo LE regioni di proteine di struttura nota con similarità di sequenza

Metodi basati su frammenti AVGIFRAAVCTRGVAKAVDFVP AVGIFR AAVCTR GVAKAVDF Combiniamole casualmente

Metodi basati su frammenti OTTIMIZZAZIONE: Monte Carlo, Simulated annealing, algoritmi genetici,...

Potenziali di coppia

[ ] " " # $ % % & ' + + + + + + = atoms bonded non C ij j i C ij ij C ij ij C angles dihedrals eq C eq bonds C b C r q q r B r A n K K b b K E, 0 6, 12, 2 2 ) cos( 1 2 ) ( ) ( ε γ φ φ θ θ θ Energia

Metodi basati su frammenti Si distinguono per: La dimensione dei frammenti Il data base di frammenti La metodologia di selezione dei frammenti La funzione o le funzioni energia

Metodi basati su frammenti In alcuni casi usano domini o arrangiamenti frequenti di strutture secondarie (strutture supersecondarie) Templati strutturali Domini strutturali Identificazione di domini Modello finale Assemblaggio e ottimizzazione

Possibile schema Frammenti candidati Selezione dei frammenti Sequenza di amino acidi Assemblaggio dei frammenti Modelli Ottimizzazione Valutazione Lista ordinata

Possibile schema Frammenti candidati Selezione dei frammenti Sequenza di amino acidi Assemblaggio dei frammenti Predizioni Modelli Ottimizzazione Dati sperimentali Valutazione Lista ordinata

Predizioni Struttura secondaria Basati su metodi di apprendimento automatico Accessibilità al solvente Basati su metodi di apprendimento automatico Contatti...