Rapporto tecnico dataset genomica Indice 1 Introduzione 2 2 Struttura del dataset 2 2.1 GOgraphs............................... 3 2.2 Annotations.............................. 3 2.3 Proles................................ 3 2.4 Nets.................................. 4 Riferimenti bibliograci 6 1
1 Introduzione Nel seguente documento verrà presentato e descritto il dataset utilizzato nel progetto per il caso di studio relativo alla genomica. I dati contenuti nel dataset sono riferiti a due specie: l'uomo (Homo Sapiens) e la pianta nota col nome di Arabetta comune (Arabidopsis Thaliana). L'Arabetta comune viene utilizzata come organismo modello vegetale nella genomica per diverse ragioni: Le dimensioni del suo genoma sono contenute (circa 125 milioni di paia di nucleotidi, di cui 29 mila geni, in soli cinque cromosomi) 1. È stato il primo essere vegetale il cui genoma è stato sequenziato [1]. Le piccole dimensioni la rendono ideale negli spazi sempre ristretti dei laboratori e delle serre negli istituti di ricerca. Il suo ciclo di vita di circa sei settimane, dalla germinazione di una piantina no a che questa, diventata adulta, produca propri semi, permette di accelerare notevolmente la ricerca rispetto ad altre specie vegetali. Tramite il processo di trasformazione genetica, sfruttando il batterio Agrobacterium tumefaciens, è possibile produrre piante transgeniche incorporando nuovo DNA nel genoma della pianta. Figura 1: L'Arabidopsis Thaliana 2 Struttura del dataset I vari le che compongono il dataset sono stati scaricati dal sito uciale del Gene Ontology nel luglio 2013. I le relativi all'uomo hanno il presso hs (Homo Sapiens), mentre quelli relativi all'arabetta hanno il presso at (Arabidopsis Thaliana). Di seguito sono descritti in dettaglio i le così come sono stati suddivisi nelle diverse directory. 1 Per maggiori informazioni sulle ricerche eettuate con l'arabetta è possibile visitare il The Arabidopsis Information Resource http://www.arabidopsis.org/about/index.jsp. 2
2.1 GOgraphs In questa directory sono memorizzati i gra associati alle ontologie che compongono il Gene Ontology: il Biological Process ontology (BP), il Molecular Function ontology (MF) e il Cellular Component ontology (CC). Tali gra vengono memorizzati in le in formato Rdata (ossia le R 2 binari compressi) come oggetti di classe GraphNEL 3. L'elenco dei le presenti nella cartella è inserita nella Tabella 1. GOgraphs at.graph.bp.rda at.graph.cc.rda at.graph.mf.rda hs.graph.bp.rda hs.graph.cc.rda hs.graph.mf.rda Tabella 1: Elenco dei le presenti nella cartella GOgraphs 2.2 Annotations In questa directory sono memorizzate le annotazioni Gene Ontology BP, MF e CC (vedi sezione 2.1) per le proteine. I le contenuti nella directory sono in formato testuale. A causa della grandezza di tali le essi sono compressi in formato zip per occupare meno spazio possibile. Ogni singolo le di testo rappresenta una tabella, le cui righe corrispondono alle proteine mentre le colonne corrispondono alle classi GO. L'elenco dei le presenti nella cartella è inserita nella Tabella 2. Il formato del le è il seguente: Nella prima riga sono indicati i nomi delle classi GO separati da uno spazio. Dalla seconda riga alla ne del le ogni riga rappresenta una proteina e le sue annotazioni. Ogni riga presenta l'identicatore Swissprot della proteina seguito da una serie di valori booleani. In modo simile alla prima riga i vari dati presenti nella riga vengono separati da uno spazio. Se la proteina è annotata per la classe GO della colonna corrispondente il suo valore sarà 1, in caso contrario sarà 0. 2.3 Proles In questa directory sono memorizzati i proli binari ottenuti da otto database. I database utilizzati 4 sono: EggNOG, InterPro, Pfam, PRINTS, PROSITE, SMART, SUPERFAMILY, UniProtKB Swiss-Prot (keywords). I le contenuti nella directory sono disponibili sia in formato Rdata che in formato testuale compresso. Ogni singolo le di testo rappresenta una tabella 2 R è un linguaggio di programmazione utilizzato nella statistical computing e nella creazione di gra, programmabile tramite RStudio http://www.rstudio.com/. 3 http://svitsrv25.epfl.ch/r-doc/library/graph/html/graphnel-class.html 4 Vedi i documenti D1.4 - Analisi risorse disponibili per genomica e D2.4 - Rapporto tecnico su selezione dataset genomica per informazioni sui database citati. 3
Annotations at.ann.bp.zip at.ann.cc.zip at.ann.mf.zip hs.ann.bp.zip hs.ann.cc.zip hs.ann.mf.zip Tabella 2: Elenco dei le presenti nella cartella Annotations le cui righe corrispondono alle proteine e le colonne alle feature associate alla proteine. L'elenco dei le presenti nella cartella è inserita nella Tabella 3. Il formato del le è il seguente: Nella prima riga sono indicati i nomi delle varie feature. Dalla seconda riga alla ne del le ogni riga rappresenta una proteina e le sue feature separate da uno spazio. Ogni riga presenta quindi l'identi- catore Swissprot della proteina seguito da una serie di valori booleani. In modo simile alla prima riga i vari dati presenti nella riga vengono separati da uno spazio. Se la proteina possiede la feature della colonna corrispondente il suo valore sarà 1, in caso contrario sarà 0. 2.4 Nets In questa directory sono memorizzate le reti costruite a partire dai proli (vedi sezione 2.3) tramite l'uso di opportune misure di similarità 5 e successivi ltraggi degli archi. Le otto reti sono poi state integrate tramite l'utilizzo della semplice media non pesata [2]. I le contenuti nella directory sono in formato testuale. A causa della grandezza di tali le essi sono compressi in formato zip per occupare meno spazio possibile. Ogni singolo le di testo rappresenta una matrice pesata M di adiacenza di un grafo non diretto in modo tale che la entry M [i, j ] rappresenta la similarità funzionale fra le proteine i e j. L'elenco dei le presenti nella cartella è inserita nella Tabella 4. Il formato del le è il seguente: Nella prima riga sono indicati tutti gli identicatori Swissprot delle proteine. Dalla seconda riga alla ne del le ogni riga rappresenta una proteina e le sue similarità funzionali con tutte le restanti proteine annotazioni. Ogni riga presenta quindi l'identicatore Swissprot della proteina seguito dai valori delle similarità funzionali tra la proteina della riga e la proteina della colonna corrispondente. 5 Tali misure sono ottenute tramite l'indice o coeciente di similarità di Jaccard, un indice statistico utilizzato per confrontare la similarità e la diversità di insiemi campionari. 4
Proles at.eggnog.rda at.eggnog.zip at.interpro.rda at.interpro.zip at.keywords.rda at.keywords.zip at.pfam.rda at.pfam.zip at.prints.rda at.prints.zip at.prosite.rda at.prosite.zip at.smart.rda at.smart.zip at.supfam.rda at.supfam.zip do.les.r do.zip.r hs.eggnog.rda hs.eggnog.zip hs.interpro.rda hs.interpro.zip hs.keywords.rda hs.keywords.zip hs.pfam.rda hs.pfam.zip hs.prints.rda hs.prints.zip hs.prosite.rda hs.prosite.zip hs.smart.rda hs.smart.zip hs.supfam.rda hs.supfam.zip Tabella 3: Elenco dei le presenti nella cartella Proles Nets at.ua.net.zip hs.ua.net.zip Tabella 4: Elenco dei le presenti nella cartella Nets 5
Riferimenti bibliograci [1] Arabidopsis Genome Initiative, Analysis of the genome sequence of the owering plant Arabidopsis thaliana, 2000 [2] G. Valentini, A. Paccanaro, H. Caniza, A.E. Romero, M. Rea, An extensive analysis of disease-gene associations using network integration and fast kernel-based gene prioritization methods, 2014 6