Protein folding. Un gran numero di interazioni deboli + ΔH

Documenti analoghi
Esempio: distanze tra i Cα. g: Distanza media da una gap i: percentuale di iden7tà a: accessibilità al solvente d : distanza

Ricerca di omologhi. La sequenza di cui vogliamo trovare gli omologhi viene de6a query.

Perché considerare la struttura 3D di una proteina

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

Predizione della struttura terziaria

Predire la struttura terziaria

E il server più utilizzato, permette di tracciare tutte le operazioni che svolge e di impostare alcuni parametri importanti per il risultato finale.

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0;

Proprietà comuni. Il gruppo α-carbossilico b è un acido più forte del gruppo carbossilico degli acidi alifatici

Chimica Biologica A.A α-elica foglietto β reverse turn

Ricerca di omologia di sequenza

CENNI SUL TIPO DI FORZE

8. Sovrapposizione e confronto di strutture proteiche

E il server più utilizzato, permette di tracciare tutte le operazioni che svolge e di impostare alcuni parametri importanti per il risultato finale.

BLAST. W = word size T = threshold X = elongation S = HSP threshold

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento

Macromolecole Biologiche. La struttura secondaria (II)

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche

Si osserva il comportamento dei protoni La proteina è in soluzione

Perché considerare la struttura 3D di una proteina

ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI. (Visione 3D)

Allineamenti di sequenze: concetti e algoritmi

Structural Genomics. Grand goal : asssegnare una struttura ad ogni sequenza esistente.

Se la funzione è analiticamente invertibile, estratto q, si può ricavare x = x(q).

30/10/2015 LIVELLI DI ORGANIZZAZIONE STRUTTURALE DELLE PROTEINE

Modelling. Perché considerare la struttura 3D di una proteina

Aminoacidi. Gli α-aminoacidi sono molecole con almeno due gruppi funzionali legati al carbonio α

Problemi e algoritmi. Il che cosa ed il come. Il che cosa ed il come. Il che cosa e il come

Algoritmi di Allineamento

Il gruppo peptidico ha una struttura rigida e planare, dovuta al parziale. legame peptidico. O O - N N + H H

Diagramma di Ramachandran

Allineamenti a coppie

Relazione sequenza-struttura e funzione

A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I

FASTA. Lezione del

sono le unità monomeriche che costituiscono le proteine hanno tutti una struttura comune

Markov Chains and Markov Chain Monte Carlo (MCMC)

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche)

Macromolecole Biologiche. La struttura secondaria (III)

Introduzione al Metodo del Simplesso. 1 Soluzioni di base e problemi in forma standard

La ricerca di similarità in banche dati

gruppo amminico Gli aminoacidi polimerizzano durante la sintesi delle proteine mediante la formazione di legami peptidici. gruppo carbossilico

Formazione del legame peptidico:

La struttura delle proteine e e descritta da quattro livelli di organizzazione

COMPORTAMENTO ANFOTERO DEGLI AA

ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI. (Visione 3D)

Le proteine sono polimeri lineari costituiti da unità base formate da oltre 40 amminoacidi. Possono assumere forme diverse a seconda della funzione

Relazione Laboratorio di bioinformatica

Sintesi Sequenziale Sincrona Sintesi Comportamentale di reti Sequenziali Sincrone

La struttura delle proteine

ALLINEAMENTO DI SEQUENZE

Come si sceglie l algoritmo di allineamento? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione?

10. Previsione della struttura tridimensionale di una proteina

Alcune domande di carattere evolutivo

Macromolecole Biologiche. Metodi di simulazione

Prospettive di sviluppo

Regressione Lineare e Regressione Logistica

AMMINOACIDI E PROTEINE

Metodi e Modelli per l Ottimizzazione Combinatoria Ripasso sulla Programmazione Lineare e il metodo del Simplesso (parte I)

Immunologia e Immunologia Diagnostica MATURAZIONE DEI LINFOCITI

Macromolecole Biologiche. La struttura secondaria (I)

GLI ORBITALI ATOMICI

Esercizio 1. CF 2 CS 2 CCl 4 ClF 3

Correzione primo compitino, testo A

Lezione 7. Allineamento di sequenze biologiche

6.5 RNA Secondary Structure. 18 novembre 2014

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

Simulazione dei dati

Il problema del commesso viaggiatore: da Ulisse alla Logistica integrata. Luca Bertazzi

Introduzione alla programmazione lineare

Corso di Bioinformatica. Docente: Dr. Antinisca DI MARCO

Stima della qualità dei classificatori per l analisi dei dati biomolecolari

Omologia di sequenze: allineamento e ricerca

Alberi filogenetici. File: alberi_filogenetici.odp. Riccardo Percudani 02/03/04

RETI DI CALCOLATORI II

Rappresentazione dei Dati Biologici

Sub-Optimal Measurement-Based CAC Algorithm

scaricato da Proteine semplici costituite dai soli amminoacidi

Algoritmi e Strutture Dati

LE PROTEINE. SONO Polimeri formati dall unione di AMMINOACIDI (AA) Rende diversi i 20 AA l uno dall altro UN ATOMO DI C AL CENTRO

Modellazione di sistemi ingegneristici (parte 2 di 2)

Algoritmi e Strutture Dati

STRUTTURA E FUNZIONE DELLE PROTEINE

Ottimizzazione Combinatoria e Reti (a.a. 2007/08)

Regole associative Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

La ricerca di similarità: i metodi

Fisica Quantistica III Esercizi Natale 2009

Ricerca Operativa A.A. 2007/2008

Lezione 6. Analisi di sequenze biologiche e ricerche in database

Analisi degli Errori di Misura. 08/04/2009 G.Sirri

Ingegneria della Conoscenza e Sistemi Esperti Lezione 9: Evolutionary Computation

Corso di Geometria BIAR, BSIR Esercizi 2: soluzioni

Valutazione della capacità dissipativa di un sistema strutturale

Principi e Metodologie della Progettazione Meccanica

Macromolecole Biologiche Interazioni non covalenti

Serie storiche Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

SISTEMI INFORMATIVI GEOGRAFICI (GIS)

Acidi Nucleici: DNA = acido deossiribonucleico

Chimotripsina Una proteina globulare. Glicina Un amminoacido

Allineamento e similarità di sequenze

Transcript:

Protein folding -ΔS Un gran numero di interazioni deboli +ΔS + ΔH E r

Protein structure modelling: A digression I polimeri (inclusi quelli di amino acidi) in generale non hanno una struttura unica. Le proteine sono polimeri speciali perché sono stati selezionati dall evoluzione per svolgere una determinata funzione. La loro stabilità è solo marginale. La probabilità che una sequenza casuale di amino acidi soddisfi queste condizioni è molto bassa. This is a rare event: in fact, it is a miracle*! *Aliosha Finkelstein

Immaginiamo... Mutazione di un amino acido Protein structure modelling: A digression

Immaginiamo... Mutazione di un amino acido Protein structure modelling: A digression La proteina non si struttura più Il risultato più probabile

Immaginiamo... Mutazione di un amino acido Protein structure modelling: A digression La proteina non si struttura più La nuova sequenza assume una struttura completamente diversa, stabile e funzionale Il risultato più probabile Un miracolo 2

Immaginiamo... Mutazione di un amino acido Protein structure modelling: A digression La proteina non si struttura più Il risultato più probabile La mutazione si accomoda con distorsioni locali Il solo risultato possibile se c'è pressione evolutiva La nuova sequenza assume una struttura completamente diversa, stabile e funzionale Un miracolo 2

In conclusione La fisica delle proteine e l evoluzione garantiscono che proteine omologhe hanno struttura simile

In conclusione La fisica delle proteine e l evoluzione garantiscono che proteine omologhe hanno struttura simile

Quanto simili? Misurare la similarità di struttura Possiamo misurare la distanza media tra atomi corrispondenti

Root mean square deviation (RMSD) RMSD = 1 N N [(x i x ' i ) 2 + (y i y ' i ) 2 + (z i z ' i ) 2 ] i=1

L RMSD puo non essere la misura ideale

GDT-TS GDT TS =100 n 1 + n 2 + n 3 + n 4 4L n i = numero di aminoacidi allineati distanti meno di i Å L = numero di aminoacidi allineati

TM-score

Sovrapposizione Dati due insiemi di punti A=(a 1, a 2,... a n ) e B= (b 1, b 2,..., b m ) occorre trovare la trasformazione G che minimizza la distanza: min G Con P=Q, d di solito è rmsd { d[a(p) G[B(Q)] }

Quindi Occorre trovare la corrispondenza tra i punti di A e i punti di B (NP-hard) Trovare la trasformazione (rotazione e traslazione) (O(n))

Sovrapposizione strutturale Sovrapporre e misurare la distanza tra due strutture con la stessa sequenza è semplice, basta minimizzare la distanza fra atomi corrispondenti Negli altri casi: Si può usare un allineamento di sequenza per ottenere la corrispondenza Si può cercare la migliore corrispondenza e la trasformazione contemporaneamente

Atomi corrispondenti La catena polipeptidica è formata da una parte ripetitiva (catena principale o backbone) e da una parte variabile (catene laterali o residui). Se le sequenze delle proteine sono diverse, dobbiamo limitarci al backbone.

Metodi DALI: Rappresenta le strutture come matrici di distanza tra gli atomi Ca Holm and Sander. Protein structure comparison by alignment of distance matrices. J Mol Biol 1993, 233:123-128. CE (Combinatorial extension): Usa caratteristiche di geometria locale e poi le unisce in un percorso ottimale Shindyalov and Bourne, Protein structure alignment by incremental combinatorial extension (CE) of optimal path. Prot Eng, 1998, 11:739-747. SSAP (Sequential Structure Alignment Program ): Usa un algortimo di doppia programmazione dinamica Taylor WR, Orengo CA. 1989b. Protein structure alignment. J Mol Biol 208:l-22 VAST (Vector Alignment Search Tool ), TM-align etc.

Mappa di contatti

DALI Divide la struttura in frammenti di 6 aminoacidi e costruisce una matrice di contatto per ogni frammento Confronta sottomatrici 6x6 Ottimizza il punteggio finale di sovrapposizione con MC

DALI: Sottomatrici Image from Mark Maciejewski at UConn

Confronta (tutte?) le possibili combinazioni di matrici A d ij B d ij d ij A d ij B

Problemino 100 amino acidi -> 96 esapeptidi = 95 2 /2 = 4.512 matrici 150 amino acidi -> 145 esapeptidi = 145 2 /2 = 10.152 matrici 47.430.144 confronti

In realtà Confronta la matrice di una proteina con tutte quelle dell altra Ripete per tutte le matrici Ordina le coppie per similarità Unisce matrici consecutive e conserva solo la matrice del set con maggiore similarità

DALI In questo modo conserva solo una matrice per ogni set

DALI Ci sono ancora troppe coppie Confronta le coppie a caso Mantiene solo le coppie con un punteggio positivo Finisci quando ne ha 80,000 Prende le 40,000 migliori Usa Monte Carlo per ottimizzare la sovrapposizione finale Per valutare la significatività usa lo Z-score

Quanto simili sono le proteine omologhe 3.50 3.00 2.50 RMSD 2.00 1.50 1.00 0.50 0.00 1 0.8 0.6 0.4 0.2 0 Percentuale di identità di sequenza Dipende dalla distanza evolutiva (che possiamo stimare dalla percentuale di identità di sequenza) Chothia and Lesk, EMBO J., 1986

Protein structure modelling: Possiamo usare la struttura A digression della proteina omologa (templato) come prima approssimazione della struttura della nostra proteina (target) Protein No. FLAV_CLOBE 1 A... I V Y W S G T G N T E K M A E CYSJ_THIRO 2 A. I T I L F G S Q T G N A K A V A E

Date due strutture proteiche sovrapposte, si può dedurre la corrispondenza tra i loro amino acidi AVSERT ALSDRS

Data la corrispondenza tra gli amino acidi di sue proteine (allineamento) si può dedurre la corrispondenza tra i loro atomi in tre dimensioni AVSERT ALSDRS

T GFFS VSD? ATA VTE LSA KV G V V S D E V V A A S L A T A

GFFS VSD? ATA VTE LSA KV

GFFS VSD? ATA VTE LSA KV

GFFS VSD? ATA VTE LSA KV

GFFS VSD? ATA VTE LSA KV

L allineamento corretto è essenziale Protein No. FLAV_CLOBE 1 A... I V Y W S G T G N T E K M A E CYSJ_THIRO 2 A. I T I L F G S Q T G N A K A V A E CYSJ_ECOLI 3 A. I T I I S A S Q T G N A R R V A E NOS2_CHICK 4 A K V T V I Y A T E T G K S E T L A N NOS2_ONCMY 5 A.. T V L Y A T E T G K S Q T L A Q NOS1_RABIT 6 A K A T I L Y A T E T G K S Q A Y A K NOS3_HUMAN 7 A K A T I L Y G S E T G R A Q S Y A Q NOS_RHOPR 8 A K A T I L F A T E T G K S E M Y A R NOS_ANOST 9 A K A T V L Y A T E T G R S E Q Y A R NOS_LYMST 10 A K C S I F Y A T E T G R S E R F A R NCPR_HUMAN 11 A N I I V F Y G S Q T G T A E E F A N NCPR_CANTR 12 A N T L L L F G S Q T G T A E D Y A N NCPR_SCHPO 13 A. A A V F F G S Q T G T A E D F A Y NCPR_YEAST 14 A N Y L V L Y A S Q T G T A E D Y A K FLAV_DESSA 15 A K S L I V Y G S T T G N T E T A A E FLAV_DESGI 16 A K A L I V Y G S T T G N T E G V A E

Occorre modellare le regioni strutturalmente divergenti Per regioni piccole si possono usare regole basate sulle sequenze Si possono esplorare le possibili conformazioni e valutarne l energia nel contesto della proteina Si possono utilizzare metodi euristici

Un metodo euristico Numero di amino acidi d

Un metodo euristico Numero di amino acidi d

Un metodo euristico Numero di amino acidi d

Un metodo euristico Numero di amino acidi d

Modello del backbone

Le catene laterali

Le catene laterali

Le catene laterali possono assumere conformazioni diverse Esplorarle tutte è tecnicamente impossibile

Non tutte le possibili conformazioni sono equiprobabili 15% 22% 25% 33% Possiamo stimare le probabilità analizzando la frequenza nelle strutture note

Librerie di rotameri 15% 22% 33% 25%

Librerie di rotameri Esploriamo solo le conformazioni presenti nella libreria seguendo l ordine della loro probabilità Possiamo usare il dead end elimination algorithm identificando le conformazioni che non possono far parte del minimo globale.

Altra possibilità Spesso abbiamo più di una proteina di struttura nota omologa alla nostra (templati) Ciascun templato ha una diversa distanza evolutiva dalla nostra proteina target e quindi sarà più o meno simile in struttura Templato 1 Templato 2

Altra possibilità Spesso abbiamo più di una proteina di struttura nota omologa alla nostra (templati) Ciascun templato ha una diversa distanza evolutiva dalla nostra proteina target e quindi sarà più o meno simile in struttura Templato 1 Templato 2 Modello

Altra possibilità Spesso abbiamo più di una proteina di struttura nota omologa alla nostra (templati) Ciascun templato ha una diversa distanza evolutiva dalla nostra proteina target e quindi sarà più o meno simile in struttura Possiamo ottenere le distribuzioni di probabilità (PDF) di osservare certe differenze tra distanze, angoli, etc, in funzione della distanza evolutiva

Esempio: distanze tra i Ca g: Distanza media da una gap i: percentuale di identità a: accessibilità al solvente d : distanza

Modeller Allinea sequenze e strutture Estrai i vincoli spaziali Ottimizza soddisfacendo i vincoli

Tasser

Se non abbiamo un templato Metodi ab initio non sono ancora sufficientemente accurati I metodi più accurati al momento sono basati su frammenti

Metodi basati su frammenti AVGIFRAAVCTRGVAKAVDFVP AVGIFR AAVCTR GVAKAVDF Dividiamo la sequenza in frammenti

Metodi basati su frammenti AVGIFRAAVCTRGVAKAVDFVP AVGIFR AAVCTR GVAKAVDF Dividiamo la sequenza in frammenti Per ciascun frammento cerchiamo LE regioni di proteine di struttura nota con similarità di sequenza

Metodi basati su frammenti AVGIFRAAVCTRGVAKAVDFVP AVGIFR AAVCTR GVAKAVDF Combiniamole casualmente

Metodi basati su frammenti AVGIFRAAVCTRGVAKAVDFVP AVGIFR AAVCTR GVAKAVDF Combiniamole casualmente

Metodi basati su frammenti AVGIFRAAVCTRGVAKAVDFVP AVGIFR AAVCTR GVAKAVDF Combiniamole casualmente

Metodi basati su frammenti OTTIMIZZAZIONE: Monte Carlo, Simulated annealing, algoritmi genetici,...

Potenziali di coppia

[ ] " " # $ % % & ' + + + + + + = atoms bonded non C ij j i C ij ij C ij ij C angles dihedrals eq C eq bonds C b C r q q r B r A n K K b b K E, 0 6, 12, 2 2 ) cos( 1 2 ) ( ) ( ε γ φ φ θ θ θ Energia

Metodi basati su frammenti Si distinguono per: La dimensione dei frammenti Il data base di frammenti La metodologia di selezione dei frammenti La funzione o le funzioni energia

Metodi basati su frammenti In alcuni casi usano domini o arrangiamenti frequenti di strutture secondarie (strutture supersecondarie) Templati strutturali Domini strutturali Identificazione di domini Modello finale Assemblaggio e ottimizzazione

Possibile schema Frammenti candidati Selezione dei frammenti Sequenza di amino acidi Assemblaggio dei frammenti Modelli Ottimizzazione Valutazione Lista ordinata

Possibile schema Frammenti candidati Selezione dei frammenti Sequenza di amino acidi Assemblaggio dei frammenti Predizioni Modelli Ottimizzazione Dati sperimentali Valutazione Lista ordinata

Predizioni Struttura secondaria Basati su metodi di apprendimento automatico Accessibilità al solvente Basati su metodi di apprendimento automatico Contatti...