Rappresentazione dei Dati Biologici CORSO DI BIOINFORMATICA C.d.L. Ingegneria Informatica e Biomedica Outline Proteine ed Amminoacidi Rappresentazione di Amminoacidi Rappresentazione delle strutture Proteiche 1
Problema Cos è una proteina? Polimero biologico i cui monomeri sono gli amminoacidi (solo 20) Catena con il legame peptidico come giunzione portante Macromolecola dotata di orientazione (C- o N-) 2
Gli AA differiscono per: carica (+, -, neutri) polarita solubilita ingombro disponibilita a formare legami laterali Ogni amminoacido è codificato da tre basi nucleotidiche Sintesi Proteica Le proteine sono codificate nei genomi. Il processo che porta alla produzione delle proteine è chiamato sintesi proteica. 3
Codifica degli Amminoacidi Rappresentazione degli Amminoacidi (1/2) Esistono due Rappresentazioni Monoletterale (utilizzata in Swiss Prot) Triletterale (impiegata in PDB) 4
Esempio: Rappresentazione delle Proteine La rappresentazione informatica delle proteine è strettamente legata alla struttura che si intende investigare 5
Rappresentazione della Struttura Primaria La rappresentazione della struttura primaria è data dalla sequenza degli amminoacidi. Una proteina è quindi codificata come una stringa Il rapporto struttura-funzione le proteine assumono una struttura 3D a volte molto complessa le proteine esplicano la loro funzione biologica mediante contatti di superficie con le altre molecole la funzione biologica di una proteina e quindi determinata dalla sua struttura 3D 6
ma non e facile generalizzare... a volte piccole mutazioni su una proteina possono indurre catastrofici cambiamenti di struttura 3D proteine con funzione analoga possono anche avere strutture 3D diverse proteine con funzione diversa possono avere struttura 3D molto simile Un organizzazione locale: le strutture secondarie arrangiamenti locali della molecola vengono conservate piu della struttura 3D nelle denaturazioni risentono meno delle costrizioni globali alfa-elica, foglietti beta, random-coil 7
Motivi e Domini Motivo: breve successione di strutture II-arie Dominio: pattern di strutture secondarie, fortemente legato alla funzione biologica della proteina individuazione della funzione --> pattern recognition Rappresentazione delle strutture spaziali 8
Rappresentazione della struttura delle proteine La rappresentazione tridimensionale delle proteine è stato a lungo oggetto di discussione. Esiste oggi uno standard de facto introdotto in PDB Rappresentazione di PDB Ogni singolo atomo della proteina è individuato dalle sue coordinate cartesiane in riferimento ad un opportuno sistema. In questo modo ogni atomo è individuato da una terna di coefficienti. L assunzione, implicita nel modello, è che le proteine abbiano una struttura rigida. 9
Rappresentazioni Alternative Esistono anche altre rappresentazioni, ad esempio mediante gli angoli di torsione, che sono di ausilio in talune applicazioni. Esempio Analisi della proteina SERINE HYDROXYMETHYLTRANSFERASE 10
Visualizzazione dei Risultati Struttura Primaria 11
Tipo atomo Coordinata X Tag Coordinata Y n atomo Residuo Coordinata Z n residuo ATOM 1 N LEU A 2 33.168 113.216 67.767 1.00 46.71 N ATOM 2 CA LEU A 2 32.707 112.902 66.380 1.00 48.11 C ATOM 3 C LEU A 2 32.876 114.103 65.463 1.00 50.16 C ATOM 4 O LEU A 2 32.295 115.160 65.701 1.00 51.11 O ATOM 5 CB LEU A 2 31.235 112.479 66.378 1.00 43.96 C ATOM 6 CG LEU A 2 30.871 111.181 67.090 1.00 38.04 C ATOM 7 CD1 LEU A 2 29.394 110.885 66.878 1.00 34.36 C ATOM 8 CD2 LEU A 2 31.727 110.046 66.548 1.00 39.00 C ATOM 9 N LYS A 3 33.671 113.929 64.411 1.00 51.89 N ATOM 10 CA LYS A 3 33.935 114.992 63.451 1.00 49.52 C ATOM 11 C LYS A 3 33.317 114.623 62.112 1.00 49.66 C ATOM 12 O LYS A 3 33.412 113.480 61.670 1.00 49.39 O ATOM 13 CB LYS A 3 35.448 115.200 63.306 1.00 46.86 C ATOM 14 N ARG A 4 32.684 115.598 61.470 1.00 52.55 N ATOM 15 CA ARG A 4 32.035 115.387 60.182 1.00 53.29 C PDB File(Estratto) ATOM 16 C ARG A 4 32.942 114.775 59.117 1.00 53.18 C ATOM 17 O ARG A 4 32.477 114.030 58.257 1.00 53.05 O ATOM 18 CB ARG A 4 31.461 116.712 59.666 1.00 55.69 C ATOM 19 CG ARG A 4 30.195 117.173 60.384 1.00 60.14 C ATOM 20 CD ARG A 4 28.951 116.480 59.824 1.00 64.42 C ATOM 21 NE ARG A 4 27.740 116.702 60.623 1.00 67.33 N ATOM 22 CZ ARG A 4 27.260 117.894 60.975 1.00 65.60 C ATOM 23 NH1 ARG A 4 27.886 119.008 60.606 1.00 64.18 N ATOM 24 NH2 ARG A 4 26.145 117.972 61.694 1.00 59.28 N ATOM 25 N GLU A 5 34.234 115.075 59.176 1.00 56.38 N ATOM 26 CA GLU A 5 35.168 114.554 58.181 1.00 57.75 C ATOM 27 C GLU A 5 35.427 113.045 58.227 1.00 55.33 C ATOM 28 O GLU A 5 36.068 112.498 57.330 1.00 56.62 O ATOM 29 CB GLU A 5 36.502 115.303 58.266 1.00 62.26 C ATOM 30 CG GLU A 5 37.162 115.269 59.628 1.00 73.22 C ATOM 31 CD GLU A 5 38.521 115.949 59.627 1.00 83.10 C ATOM 32 OE1 GLU A 5 38.619 117.082 59.104 1.00 85.01 O ATOM 33 OE2 GLU A 5 39.490 115.354 60.152 1.00 88.27 O 12
Struttura Secondaria I programmi per la visualizzazione delle strutture tridimensionali delle proteine interpretano i files PDB posizianando sfere di diametro adeguato nelle posizioni descritte dal files, posizionando i legami secondo i criteri imposti dal tipo di residuo (es. tutti i carboni alpha (CA) saranno legati insieme, ogni residuo avrà i suoi atomi legati tra loro ecc.). RasMol : per la visualizzazione e l osservazione delle proteine Deep View Swiss PDB Viewer: per una analisi dettagliata e per apportare modificazioni alla proteina 13
Conformazione Spaziale (Rasmol) 14