Laboratorio di Bioinformatica I Database di strutture di Proteine Dott. Sergio Marin Vargas (2014 / 2015)
Dal gene alla proteina La funzione della proteina è nella sua struttura 3D.
Struttura delle proteine
Struttura Primaria Gli aminoacidi
Struttura Secondaria Elementi con strutture ripetitive sono le Alpha helix e le Beta strand (Beta sheet) Elementi non strutturati (Non hanno strutture ripetitive)
Struttura Terziaria
Struttura 3D di una proteina
Risoluzione della struttura 3D di proteine tramite Cristallografia Sincrotrone
Risoluzione della struttura 3D di proteine tramite NMR
Predizione della struttura 3D di proteine tramite Modeling Homology Modeling
Rappresentazione delle proteine
Rappresentazione al computer delle proteine (Il formato PDB) http://www.wwpdb.org/documentation/file-format Atomo Aminoacido Catena Il formato PDB (Protein Data Bank) creato nel 1970 fornisce una rappresentazione standard per i dati di strutture macro molecolari (in particolare proteine) derivati da studi di Cristallografia ed NMR. Principalmente descrive la posizione spaziale (coordinate X Y Z rispetto a un origine) di tutti gli atomi di ciascun amino acido di ciascuna catena di cui è composta una proteina, ma non solo può contenere eventuali ligandi, ioni o altre molecole complessate. Attualmente esistono una gran quantità di programmi e database che utilizzano questo formato. Di fatto è lo standard per la rappresentazione delle proteine. Posizione Coordinate
PDBe (Europe PDB) http://www.ebi.ac.uk/pdbe/ Stringa di ricerca
PDBj (Japan PDB) http://pdbj.org/ Stringa di ricerca
RCSB PDB (USA PDB) http://www.rcsb.org/ Stringa di ricerca
RCSB PDB Item Dati disponibili Files Nome e codice PDB disponibili Articolo di riferimento Metodo di risoluzione Dettagli molecolari
Esercizio 1: RCSB PDB http://www.rcsb.org/ Cercare in RCSB PDB la struttura della proteina con codice 2PY5. Di quale proteina si tratta? Qual è la funzione di questa proteina? La struttura della proteina è stata risolta da sola o complessata, con cosa? Qual è il codice pubmed dell articolo di riferimento? Quanto è lunga la sequenza aminoacidica della proteina? Quante è lunga la sequenza (sequenze) nucleotidica che è complessata con la proteina, se ci sono? Quante catene sono presenti per ciascuna sequenza e con quale codice? Qual è la risoluzione della struttura e con quale metodo è stata risolta?
Esercizio 1: RCSB PDB http://www.rcsb.org/ Di quale proteina si tratta? Qual è la funzione di questa proteina? Qual è il codice pubmed dell articolo di riferimento? Quanto è lunga la sequenza aminoacidica? Quante è lunga la sequenza nucleotidica? Quante catene sono presenti per ciascuna sequenza e con che codice? Qual è la risoluzione della struttura?
Esercizio 2: PDB http://www.rcsb.org/ Cercare in PDB la struttura della proteina con codice 2PY5 ed scaricare il file PDB, aprirlo ed individuare: La data della struttura L organismo utilizzato per il gene L organismo utilizzato per l espressione Che informazione c è nelle righe con COMPND? Dove si trovano le sequenze nucleotidiche delle due catene della proteina? Le catene sono uguali? La sequenza della catena Y del DNA Trovare l inizio della catena B della proteina. Di quanti amianoacidi è lunga la catena A? Quante eliche ha la catena A? Quanti beta-sheet ha la catena B? Sono tutti i betasheet uguali?
Esercizio 3: PDB http://www.rcsb.org/ Cercare in PDB la struttura della proteina transferrin receptor 1 (TFR1) complessata con la transferrina e con il ferro, che sia stata risolta mediante cristallografia con una risoluzione di 3.22 A. Scaricare il file PDB. Qual è il codice PDB della struttura? Chi sono gli autori della risoluzione della struttura? Quante proteine sono risolte in questa struttura? Di quante catene è composta ciascuna proteina, indicare anche quale catene appartengono a quale proteina? Il ferro a quali catene è legato? Quindi a quale proteina? Il recettore della transferrina 1 (TFR1) è legato a qualche ione?
Famiglie di Proteine Raggruppamento (clusterizzazione) delle proteine per caratteristiche strutturali e funzionali simili
Pfam (http://pfam.xfam.org/) http://pfam.sanger.ac.uk/ Ricerca testuale Ricerca per codice
Pfam (http://pfam.xfam.org) Pfam ha diverse sezioni, relative a diversi database proteici
Pfam Item Pfam è integrato con diverse risorse (wikipedia, InterPro) Sezioni disponibili Database correlati Clan: concetto generale che raggruppa diverse proteine, accomunate dalla presenza di domini simili
Pfam Item (HMM logo) Frequenza, posizione specifica, degli aminoacidi nelle posizioni degli appartenenti alla famiglia
Esercizio 4: Pfam http://pfam.xfam.org/ Cercare la famiglia Pfam corrispondente a Chlorophyll A-B binding protein. Qual è il codice della famiglia di proteine in Pfam? In che parte della cellula si trovano queste proteine? Quante sequenze fanno parte dell allineamento «seed» della famiglia? Qual è o quali sono gli amminoacidi più rappresentati nella famiglia e in quale posizioni?
Esercizio 5: Pfam http://pfam.xfam.org/ Cercare la famiglia Pfam corrispondente a ricettori dell olfatto 4. Qual è il codice della famiglia di proteine in Pfam? Quante sequenze complessive fanno parte dell allineamento della famiglia e quante sono state utilizzate come seme? Qual è l amminoacido più rappresentato nella famiglia e in quale posizione?
Classificazione strutturale di proteine
SCOP (http://scop.mrc-lmb.cam.ac.uk/scop/) Ricerche testuali
SCOP (http://scop.mrc-lmb.cam.ac.uk/scop/) Root Classe Ripiegamento Superfamiglia Famiglia Domini
SCOPe (http://scop.berkeley.edu/)
Esercizio 6: SCOP http://scop.mrc-lmb.cam.ac.uk/scop Parte A: A quale classe (nella classificazione strutturale di proteine) appartengono le Chlorophyll A-B binding protein. Quante domini ci sono? Parte B: A quale classe, fold, superfamiglia e famiglia (nella classificazione strutturale di proteine) appartengono le Globine. Quante domini ci sono?
Domini di Proteine Si definisce dominio strutturale di una proteina: un'unità globulare o fibrosa formata da catene polipeptidiche ripiegate in più regioni compatte le quali costituiscono divisioni della struttura terziaria. Cioè in poche parole è quella parte della sequenza di una proteina che anche se tagliata si ripiega allo stesso modo.
CATH (http://www.cathdb.info/) Ricerche
CATH (http://www.cathdb.info/) Classificazione CATH: Classe/Architettura/Topologia/Superfamiglia omologa Gene ontology Enzyme Consortium Specie Variabilità delle strutture Organizzazione del dominio Classificazioni Funzionali
Esercizio 7: CATH (Beta barrel) http://www.cathdb.info/ Molti pori (canali) della membrana cellulare hanno una forma a beta barrel. Cercare la classificazione CATH delle proteine beta barrel. Qual è il codice e la descrizione della classe? Quale è il codice e la descrizione dell architettura? Quale è il codice e la descrizione della topologia?
Esercizio 8: CATH (unknown protein) http://www.cathdb.info/ Utilizzando la sequenza in formato FASTA del file unknown_protein.fasta che si trova nella pagina del corso, trovare a quale superfamiglia appartiene la proteina (codice e descrizione)?