Visualizzazioni 3D. Informatica. Matrice di voxel. Tipi di dato. Dati vettoriali. Tecniche di rappresentazione

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Visualizzazioni 3D. Informatica. Matrice di voxel. Tipi di dato. Dati vettoriali. Tecniche di rappresentazione"

Transcript

1 Informatica Lezione VIII Visualizzazione 3D di proteine Visualizzazioni 3D Rappresentazione di strutture/oggetti tridimensionali Risultato di un esperimento modello teorico dati fisici astrazione 1 Lezione VIII 2 Lezione VIII Tipi di dato Array 3D di punti (matrice 3D di voxel) es. output di una TAC a spirale Corrisponde ad uno stack di immagini insieme di vettori es. molecola caratterizzata da atomi e legami chimici I dati sono espressi mediante funzioni analitiche Matrice di voxel Insieme di valori: M(i,j,k) Analogo 3D di un immagine 3 Lezione VIII 4 Lezione VIII Dati vettoriali Rappresentazione a ball and stick Uso di: Sfere Cilindri Tecniche di rappresentazione Sezioni mobili volume rendering ray tracing surface rendering dipendente dalle schede grafiche 5 Lezione VIII 6 Lezione VIII 1

2 Sezioni mobili Vengono visualizzate sezioni all interno del volume Molto veloce non altera i dati E possibile ruotare il volume Traslarlo Avvicinare o allontanare l oggetto Di norma le sezioni sono parallele alle facce del volume che coincide con un parallelepipedo E possibile anche rappresentare sezioni oblique Richiede interpolazione Sezioni mobili Esempio su dati di una TAC Dati: matrice 512x512x256 7 Lezione VIII 8 Lezione VIII Ray-tracing L immagine e calcolata punto per punto ricostruendo a ritroso la traiettoria di ogni raggio incidente sul pixel 9 Lezione VIII Ray tracing Il colore del pixel risultante è determinato dalla somma di tutti i contributi dei voxel del volume attraversati dal raggio Per ogni voxel del volume è stato precedentemente definito un valore di opacità Lo stesso volume può essere rappresentato usando soglie di opacità differenti Il colore da rappresentare per ogni grado di opacità può essere definito dall utente Gestione delle sorgenti luminose Non necessita di hardware dedicato Ma può essere utile Capacità di gestire grandi quantità di dati 10 Lezione VIII Ray tracing Esempio su dati di una TAC; dati: matrice 512x512x256 Surface rendering Scopo della procedura è rappresentare una superficie ideale che delimita valori di densità superiori ad una data soglia. La soglia delimitante deve essere compresa nel range di valore dei voxel. La superficie ripartisce il volume in due porzioni contenenti voxel di valore superiore o inferiore alla soglia. La superficie viene calcolata tenendo conto dei punti dove interseca la griglia 3D che definisce i voxel. Il problema del tracciamento è quindi ricondotto a congiungere in modo opportuno i punti sulla griglia Una volta disegnata la superficie, l informazione sui voxel viene persa. 11 Lezione VIII 12 Lezione VIII 2

3 Chaperonina GroEL Grande proteina del peso di qualche milione di Dalton Mappa 3D 64x64x64 1 voxel= 3.5 Å Surface rendering Viene creata una isosuperficie a maglie triangolari I triangoli sono rappresentati tenendo conto dell angolo di vista La superficie è smussata eliminando la traccia dei triangoli 13 Lezione VIII 14 Lezione VIII Effetto della soglia Surface rendering All aumentare della soglia la superficie include un volume via via più piccolo Il calcolo della superficie può essere complesso Una volta calcolati, la gestione dei triangoli viene gestita direttamente dalla scheda grafica o per emulazione software Open GL Consente di gestire le fonti di illuminazione Definire le proprietà dei materiali Colore Opacità/semitrasparenza Riflettività 15 Lezione VIII 16 Lezione VIII Surface rendering Esempio sui dati TAC Soglia a livello pelle soglia a livello osseo Dati vettoriali L oggetto è descritto da un insieme di punti/vettori/superfici regolari noti per via analitica Il problema è ricondotto a disegnare figure geometriche con le regole della prospettiva Si possono applicare le metodologie del surface rendering o del ray tracing Velocità e qualità dipendenti dall hardware 17 Lezione VIII 18 Lezione VIII 3

4 Pixmap VS immagini vettoriali Esempi di zoom Lo zoom di una pixmap richiede interpolazione dei pixel Lo zoom di un immagine vettoriale no Anche le immagini con testi spesso sono costruite tramite definizioni vettoriali dei font Conviene salvare le immagini vettoriali alla dimensione finale desiderata Ingrandimenti successivi peggiorano la qualità Ma anche riduzioni successive possono far svanire le righe sottili. Zoom x 3 fatto con rasmol Zoom x 3 fatto con dell immagine salvata in precedenza 19 Lezione VIII 20 Lezione VIII Immagine originale Riduzioni Riduzione 50% pixmap Riduzione 50% vettoriale 21 Lezione VIII Rappresentazione 3D di molecole Wireframe solo legami Stick Legami con migliore vista prospettica Ball and Stick Visualizza anche gli atomi Importante se ci sono atomi isolati Spacefill Inviluppo delle sfere di van der Waals 22 Lezione VIII Complessità dei dati Più grande e complessa è la molecola e più numerosi divengono i modi di rappresentarla una maggiore complessità richiede rappresentazioni efficienti sotto il profilo della compattezza dell informazione Space fill Actina stick and balls Queste rappresentazioni sono poco informative per una proteina 23 Lezione VIII 24 Lezione VIII 4

5 Proteine Sono costituite da una catena di amminoacidi legati fra loro mediante legame peptidico esistono 20 amminoacidi, che compongono tutte le proteine Gli amminoacidi si differenziano per dimensione e caratteristiche chimiche (polarità, idrofobia, possibilità di formare legami H) 25 Lezione VIII Amminoacidi acido aspartico alanina arginina asparagina cisteina acido glutamico glicina glutamina valina leucina isoleucina prolina fenilanina triptofano metionina serina treonina tirosina lisina istidina 26 Lezione VIII Catena polipeptidica Gli amminoacidi si legano fra loro mediante legame peptidico Il legame rispetta una specifica geometria di distanze e angoli Catena polipeptidica Il legame peptidico consente piccole torsioni attorno al proprio asse distribuendo piccole torsioni su tanti legami, la catena si puo ripiegare secondo angoli rilevanti 27 Lezione VIII 28 Lezione VIII Folding La torsione dei legami e la creazione di ponti tra zone distanti della sequenza produce un preciso tipo di avvolgimento della catena di amminoacidi chiamato folding Il modo di ripiegarsi dipende dalla sequenza di amminoacidi e dall ambiente circostante (es. grado di ph e presenza di altre proteine) la forma finale della catena determina quali gruppi si affacciano all esterno ed all interno, e quindi il tipo di interazioni con l esterno Eliche e sheet Alcune sequenze di amminoacidi danno luogo a tratti piuttosto rigidi, per via della formazione di legami idrogeno I tratti rigidi hanno molta importanza ai fini del folding e la loro eventuale presenza è un fattore da evidenziare si distinguono due tipi di tratti alpha eliche beta sheet 29 Lezione VIII 30 Lezione VIII 5

6 Struttura di una proteina Primaria la sequenza degli amminoacidi Secondaria alpha eliche o beta sheet Terziaria folding Quaternaria assemblaggio di più catene Importanza della rappresentazione strutturale Nella progettazione di farmaci si può definire la forma della molecola da sintetizzare sulla base delle caratteristiche morfologiche del sito a cui dovrà legarsi. Conoscere la forma del bersaglio Forma e disposizione di cariche Definire la forma dell oggetto che potrà legarsi Analizzare tutto l esistente per cercare composti dalle caratteristiche opportune 31 Lezione VIII 32 Lezione VIII Struttura primaria dell actina ACE ASP ASP ASP ILE ALA ALA LEU VAL VAL ASP ASN GLY SER GLY MET CYS LYS ALA GLY PHE ALA GLY ASP ASP ALA PRO ARG ALA VAL PHE PRO SER ILE VAL GLY ARG PRO ARG HIS GLN GLY VAL MET VAL GLY MET GLY GLN LYS ASP SER TYR VAL GLY ASP GLU ALA GLN SER LYS ARG GLY ILE LEU THR LEU LYS TYR PRO ILE GLU HIS GLY ILE VAL THR ASN TRP ASP ASP MET GLU LYS ILE TRP HIS HIS THR PHE TYR ASN GLU LEU ARG VAL ALA PRO GLU GLU HIS PRO VAL LEU LEU THR GLU ALA PRO LEU ASN PRO LYS ALA ASN ARG GLU LYS MET THR GLN ILE MET PHE GLU THR PHE ASN THR PRO ALA MET TYR VAL ALA ILE GLN ALA VAL LEU SER LEU TYR ALA SER GLY ARG THR THR GLY ILE VAL MET ASP SER GLY ASP GLY VAL THR HIS THR VAL PRO ILE TYR GLU GLY TYR ALA LEU PRO HIS ALA ILE LEU ARG LEU ASP LEU ALA GLY ARG ASP LEU THR ASP TYR LEU MET LYS ILE LEU THR GLU ARG GLY TYR SER PHE THR THR THR ALA GLU ARG GLU ILE VAL ARG ASP ILE LYS GLU LYS LEU CYS TYR VAL ALA LEU ASP PHE GLU GLN GLU MET ALA THR ALA ALA SER SER SER SER LEU GLU LYS SER TYR GLU LEU PRO ASP GLY GLN VAL ILE THR ILE GLY ASN GLU ARG PHE ARG CYS PRO GLU ALA LEU PHE GLN PRO SER PHE LEU GLY MET GLU SER CYS GLY ILE HIS GLU THR THR PHE ASN SER ILE MET LYS CYS ASP VAL ASP ILE ARG LYS ASP LEU TYR ALA ASN THR VAL LEU SER GLY GLY THR THR MET TYR PRO GLY ILE ALA ASP ARG MET GLN LYS GLU ILE THR ALA LEU ALA PRO SER THR MET LYS ILE LYS ILE ILE ALA PRO PRO GLU ARG LYS TYR SER VAL TRP ILE GLY GLY SER ILE LEU ALA SER LEU SER THR PHE GLN GLN MET TRP ILE SER LYS GLN GLU TYR ASP GLU SER GLY PRO SER ILE VAL HIS ARG LYS CYS PHE Rappresentazione E importante cogliere le caratteristiche di interesse in modo immediato Si fa uso di rappresentazioni convenzionali per alpha eliche e beta sheet Ogni altra caratteristica degli amminoacidi (polarità ecc.) deve poter essere rappresentata 33 Lezione VIII 34 Lezione VIII Alfa eliche Beta sheet Sono zone di elevata rigidità dovuta alla formazione di ponti H tra tratti paralleli della catena Un elica può essere schematizzata con un semplice nastro 35 Lezione VIII 36 Lezione VIII 6

7 Rappresentazione a stick con un colore per ciascuna catena Beta sheet Rappresentazione compatta Rappresentazione globale backbone della catena Rappresentazione compatta per evidenziare eliche e sheet 37 Lezione VIII 38 Lezione VIII Uso di programmi diversi Uso dei colori VMD (con GL) Rasmol Colori diversi per distinguere catene diverse gruppi diversi eliche da sheet parti idrofobe e parti idrofile 39 Lezione VIII 40 Lezione VIII Canale del potassio Wireframe (O rosso) Un diverso colore per ogni catena Canale del potassio Anelli aromatici evidenziati Parti idrofobe in rosso 41 Lezione VIII 42 Lezione VIII 7

8 Il colore distingue le catene DNA Il colore distingue le basi Marcatura di un amminoacido La prolina (rosso) si trova nelle zone terminali delle eliche, dove la curvatura è maggiore 43 Lezione VIII 44 Lezione VIII Il comando Select Per precisare l insieme da selezionare si può fare uso di funzioni logiche: Select *A OR *B Seleziona le catene A e B Select *A AND helix Seleziona i tratti alpha elica della catena A Select helix OR sheet Seleziona alpha eliche e beta sheet (tutti i pezzi con struttura secondaria) Formato dati: File PDB File di tipo testo (apribile da un editor) Derivato dai formati testo per fortran, ogni riga contiene record di 80 colonne con campi in posizioni definite Per saperne di più rame.html Tipi di record Atoms (tipo di atomo e coordinate) Helix Sheet Author Source (origine della molecola) Cryst1 (informazioni cristallografiche) 45 Lezione VIII 46 Lezione VIII Record ATOM Record SEQRES ATOM 133 CB CYS A C ATOM 134 SG CYS A S ATOM 135 H CYS A H ATOM 136 N MET A Numero 48 progressivo dell atomo N ATOM 137 CA MET A Tipo di atomo C ATOM 138 C MET A C ATOM 139 O MET A O ATOM 140 CB MET A C ATOM 141 CG MET A C ATOM 142 SD MET A S ATOM 143 CE MET A C ATOM 144 H MET A Numero progressivo dell aminoacido H ATOM 145 N SER A N ATOM 146 CA SER A Tipo di aminoacido C ATOM 147 C SER A C ATOM 148 O SER A O ATOM 149 CB SER A C ATOM 150 OG SER A O ATOM 151 H SER A H SEQRES GLU VAL LYS GLN GLU ASN ARG LEU LEU ASN GLU SER GLU SEQRES SER SER SER GLN GLY LEU LEU GLY TYR TYR PHE SER ASP SEQRES LEU ASN PHE GLN ALA PRO MET VAL VAL THR SER SER THR SEQRES THR GLY ASP LEU SER ILE PRO SER SER GLU LEU GLU ASN SEQRES ILE PRO SER GLU ASN GLN TYR PHE GLN SER ALA ILE TRP SEQRES SER GLY PHE ILE LYS VAL LYS LYS SER ASP GLU TYR THR SEQRES PHE ALA THR SER ALA ASP ASN HIS VAL THR MET TRP VAL SEQRES ASP ASP GLN GLU VAL ILE ASN LYS ALA SER ASN SER ASN SEQRES LYS ILE ARG LEU GLU LYS GLY ARG LEU TYR GLN ILE LYS SEQRES ILE GLN TYR GLN ARG GLU ASN PRO THR GLU LYS GLY LEU SEQRES ASP PHE LYS LEU TYR TRP THR ASP SER GLN ASN LYS LYS SEQRES GLU VAL ILE SER SER ASP ASN LEU GLN LEU PRO GLU LEU Riportano la struttura primaria della proteina Catena proteica (A,B,C.) Coordinate atomiche 47 Lezione VIII 48 Lezione VIII 8

9 Record HELIX Numero progressivo dell elica HELIX 1 1 ASP A 263 GLN A HELIX 2 2 SER A 297 ALA A HELIX 3 3 ARG A 316 GLY A HELIX 4 4 ARG A 334 LEU A HELIX 5 5 ARG A 339 VAL A Lunghezza dell elica 5 HELIX 6 6 ASP B 263 GLN B HELIX 7 7 SER B 297 ALA B (in numero di residui) 11 HELIX 8 8 ARG B 316 GLY B HELIX 9 9 ARG B 334 LEU B HELIX ARG B 339 VAL B HELIX ASP C 263 GLN C Punto finale (aminoacido Alanina, 307 della catena A) Record SHEET SHEET 1 A 6 GLN 94 ILE 97 0 SHEET 2 A 6 VAL 87 VAL 91-1 N VAL 91 O GLN 94 SHEET 3 A 6 LEU 113 GLN N GLN 119 O THR 88 SHEET 4 A 6 SER 62 LYS 70-1 N ILE 69 O TYR 114 SHEET 5 A 6 LEU 20 PHE 24-1 N PHE 24 O SER 62 SHEET 6 A 6 PRO 32 SER 37-1 N THR 36 O GLY 21 Per gli sheet la composizione del record è complessa in quanto tiene conto di parecchi fattori che descrivono chimicamente la struttura Anche qui si notano gli aminoacidi di inizio e fine dei ponti Punto d inizio (aminoacido Serina, 297 della catena A) 49 Lezione VIII 50 Lezione VIII Intestazione HEADER TOXIN 05-FEB-97 1ACC TITLE ANTHRAX PROTECTIVE ANTIGEN COMPND MOL_ID: 1; COMPND 2 MOLECULE: ANTHRAX PROTECTIVE ANTIGEN; COMPND 3 CHAIN: NULL; COMPND 4 SYNONYM: PA SOURCE MOL_ID: 1; SOURCE 2 ORGANISM_SCIENTIFIC: BACILLUS ANTHRACIS; SOURCE 3 ORGANISM_COMMON: ANTHRAX BACILLUS; SOURCE 4 CELLULAR_LOCATION: SECRETED; SOURCE 5 PLASMID: PXO1; SOURCE 6 GENE: PAG KEYWDS TOXIN, CALCIUM-BINDING EXPDTA X-RAY DIFFRACTION AUTHOR C.PETOSA,R.C.LIDDINGTON REVDAT 1 11-FEB-98 1ACC 0 JRNL AUTH C.PETOSA,R.J.COLLIER,K.R.KLIMPEL,S.H.LEPPLA, JRNL AUTH 2 R.C.LIDDINGTON JRNL TITL CRYSTAL STRUCTURE OF THE ANTHRAX TOXIN PROTECTIVE JRNL TITL 2 ANTIGEN JRNL REF NATURE V JRNL REFN ASTM NATUAS UK ISSN REMARK 1 REMARK 2 Dati e Proteine Le sequenze di aminoacidi che formano la struttura primaria vengono ottenute mediante sequenziatori e conservati in apposite banche dati Queste banche spesso conservano anche i dati del genoma NCBI (National Center for Biotechnoly Information) Enseble Genome Browser Expasy Proteomics server EBI (European Bioinfomatics Institute) 51 Lezione VIII 52 Lezione VIII Sequenze Hanno un formato puramente testuale (sono stringhe di lettere di un certo alfabeto) Esempi di sequenze biologiche: Sequenze DNA formate da 4 tipi di lettere: A (adenina), C (citosina), G (guanina), T (timina) esempio: ATGCCGTAA, TAG, TTT, Sequenze RNA formate da 4 tipi di lettere: A (adenina), C (citosina), G (guanina),u (uracile) esempio: AUCGCUAA, AUUCG, Sequenze proteiche formate da 20 lettere corrispondenti agli aminoacidi: A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y esempio: MPIVDTGSVAPLSAAEK Simboli degli aminoacidi Ala A Leu L Arg R Lys K Asn N Met M Asp D Phe F Cys C Pro P Gln Q Ser S Glu E Thr T Gli G Trp W His H Tyr Y Ile I Val V 53 Lezione VIII 54 Lezione VIII 9

10 Struttura Terziaria La struttura terziaria è più difficile da ottenere Bisogna disporre di cristalli macroscopici purificare la proteina e farla cristallizzare Studiare la diffrazione a Raggi X Ricostruire la cella elementare Alla fine si ottiene la posizione e la distanze relativa fra gli atomi della molecola Perché si parla di cristalli L analisi ai raggi X permette di determinare la struttura di molecole o proteine a livello atomico, purché esse siano impaccate in modo regolare Cristalli (diamante, quarzo, grafite.) Strutture dotate di periodicità nello spazio Ripetizione per traslazione Sono possibili diversi tipi di periodicità Simmetria Elemento caratteristico: cella elementare Prisma definito dai vettori di traslazione 55 Lezione VIII 56 Lezione VIII Cristalli Protein Data Bank I file contenti le coordinate atomiche di tutte le proteine note sono conservati nel PROTEIN DATA BANK Informazioni sulla proteina Visualizzazioni della struttura File scaricabili ed analizzabili sul proprio PC 57 Lezione VIII 58 Lezione VIII Il Protein Data Bank Tutte le strutture memorizzate ricevono una sigla (chiave primaria) Le ricerche si eseguono per: Chiave (se la si conosce) Spesso quando si parla di una struttura viene indicata Nome della proteina Reazioni interessate Autori dello studio Informazione contenuta in ciascun record File formato PDB della struttura Coordinate atomiche File scaricabile (download) Sequenza primaria Strumenti di visualizzazione Proprietà Collegamenti con altre banche dati 59 Lezione VIII 60 Lezione VIII 10

11 Dati strutturali Composizione Numero di catene, residui e atomi Aspetti cristallografici Gruppo spaziale (tipo di impaccamento) Dimensioni di cella (lati ed angoli) Risoluzione Protein data bank Ricerca per chiave Per autori Per testo contenuto 61 Lezione VIII 62 Lezione VIII Ricerca avanzata Struttura 1PRE Summary Information: : dati generali 63 Lezione VIII 64 Lezione VIII Rappresentazioni Download file Serie di opzioni per la visualizzazione File formato PDB Non compresso possono richiedono plug-in 65 Lezione VIII 66 Lezione VIII 11

12 File formato PDB Visualizzazione con rasmol E un file di testo, leggibile e modificabile con wordpad Struttura secondaria evidenziata Rapp. space-fill; catene in diverso col. 67 Lezione VIII 68 Lezione VIII Altri dati Sequenza FASTA Sequenza FASTA Biology & chemistry Materiali & metodi 69 Lezione VIII 70 Lezione VIII 12