Rapporto tecnico dataset genomica

Documenti analoghi
Laboratorio di Bioinformatica I. Parte 2. Dott. Sergio Marin Vargas (2014 / 2015)

Genomi vegetali Da 7x10 7 bp per genoma aploide (130Mbp diploide, 5 cromosomi) di Arabidopsis thaliana alle 1,5x10 11 bp ( Mbp=150Gbp) di una

Progetto :TRIFOGLIO UNIVERSITA CATTOLICA DEL SACRO CUORE Piacenza. O.G.M. Vegetali

Strategie di annotazione di geni e genomi

RELAZIONE di BIOLOGIA MOLECOLARE

Genomica, proteomica, genomica strutturale, banche dati.

Trasformazione genetica di cellule vegetali: introduzione ed inserzione nel genoma nucleare di un nuovo gene, senza utilizzare la fecondazione.

Elementi di Ingegneria Genetica Piante Geneticamente Modificate

Le biotecnologie. Sadava et al. Biologia La scienza della vita Zanichelli editore 2010

Malattie genetiche. Dott. Giovanni LONGO

Laboratorio di Elementi di Bioinformatica

Laboratorio di Elementi di Bioinformatica

MIGLIORAMENTO GENETICO TRADIZIONALE

Sintesi Sequenziale Sincrona Sintesi Comportamentale di reti Sequenziali Sincrone

Laboratorio di Bioinformatica I. Parte 1. Dott. Sergio Marin Vargas (2014 / 2015)

Corso di Laurea in Biotecnologie corso di laurea interfacoltà

Marcatori molecolari per l analisi genica, genetica e genomica

LA TRASFORMAZIONE GENETICA NELLE PIANTE: PRINCIPI E STATO DEI LAVORI. Michele Morgante

Prova di Laboratorio del [ Corso A-B di Programmazione (A.A. 2004/05) Esempio: Media Modalità di consegna:

Sommario. Diversità genetica a livello di sequenza Trovare gli SNP Genotipizzare gli SNP Principali applicazioni

La genomica dei batteri lattici: quali benefici per il settore caseario? Un caso studio: Streptococcus thermophilus

LA BIOLOGIA MOLECOLARE E UNA BRANCA DELLA BIOLOGIA CHE STUDIA LE BASI MOLECOLARI DELLE FUNZIONI BIOLOGICHE, PONENDO UNA PARTICOLARE ATTENZIONE A QUEI

ORGANISMI GENETICAMENTE MODIFICATI

la dislessia evolutiva si eredita Genetica della dislessia Ogni generazione Ha un dislessico: il Genitore Trasmette al figlio

A COSA SERVE il CLONAGGIO del DNA?? COME FUNZIONA il CLONAGGIO del DNA? COME FUNZIONA il CLONAGGIO del DNA?

I GENI sono alla base delle Biotecnologie

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

Marcatori molecolari

Dalla tabella alla funzione canonica

il tessuto vascolare contiene una sostanza in grado di stimolare la divisione cellulare (tubero patata/ferita)

Ingegneria genetica nelle piante

OGM ORGANISMI GENETICAMENTE MODIFICATI

L Era Genomica. Da: Binnewies et et al. (Funct. Integr. Genomics 6: , 2006)

I genomi vegetali. Arabidopsis (genoma aploide circa 140 Mb di DNA; 2n=10 barbabietola da zucchero (750 Mb; 2n=18) pino (23000 Mb; 2n=24)

Come facciamo ad isolare un gene da un organismo? Utilizziamo una libreria ovvero una collezione dei geni del genoma del cromosoma di un organismo

TRASFORMAZIONE GENETICA DI SPINACIO (SPINACIA OLERACEA L.) MEDIATA DA AGROBACTERIUM TUMEFACIENS

= ca. 1,7 mt. 3*10 9 (devono rientrare in uno

Fogli di Calcolo Elettronici

La mappatura dei geni umani. SCOPO conoscere la localizzazione dei geni per identificarne la struttura e la funzione

HI-TECH IN SANITA'. MINI-INVASIVITA' 2.0: nuove tecnologie al servizio dell'appropriatezza e della bioetica professionale

Malattie genetiche e progetto genoma: a che punto siamo arrivati?


You created this PDF from an application that is not licensed to print to novapdf printer (

PROGRAMMA DEL CORSO di Fisiologia e Principi di Biotecnologie vegetali. Prof. Renato D Ovidio tel:

Evoluzione del genoma. Silvia Fuselli, 29 novembre 2011

INDICE 7.1 INTRODUZIONE 3

Informatica e biotecnologie I parte

TAVOLA DI PROGRAMMAZIONE

DATASET GUIDA ALL USO

Parte I I principi fondamentali della clonazione dei geni e dell analisi del DNA

LICEO SCIENTIFICO STATALE R. CACCIOPPOLI ANNO SCOLASTICO 2012/13 CLASSE III G PROGRAMMA DI SCIENZE PROF.SSA ANGELOZZI ROBERTA CHIMICA

ISTITUTO TECNICO COMMERCIALE STATALE ABBA-BALLINI

Informatica per la Comunicazione/ Verdicchio/ 19/06/2013/ Domande / Versione 1

CORSO DI LAUREA MAGISTRALE IN BIOTECNOLOGIE INDUSTRIALI

Data Import e Probabilità. Renato Mainetti

Definizione di file. Directory e file File binari e file di testo

Introduzione alla Base Informativa di Progetto

Corso di BioMedicina Molecolare Genomica e dei Sistemi Complessi

C 159/10 Gazzetta ufficiale delle Comunità europee

Argomenti XML JSON. Linguaggi per la definizione e lo scambio di dati strutturati, semi-strutturati, non strutturati. XML Data Model JSON

La rappresentazione delle Informazioni

Nei batteri non è presente una membrana nucleare

PROGETTO SCUOLA. Proposte per gli insegnanti

INIZIO DELLA TRADUZIONE. Proteine citoplasmatiche (ed anche nucleari,mitocondriali ecc. Proteine integrali di membrana. Proteine di secrezione

Dott.ssa Raffaella Casadei Dipartimento di Istologia Embriologia e Biologia Applicata Via Belmeloro, 8 Bologna

Principi di biologia Introduzione alla biologia

Corso di Laurea Magistrale in Biotecnologie Vegetali

Il DNA mobile rappresenta una componente importante del genoma eucariotico e procariotico

Corso di Fisiologia e genetica per l ambiente Genetica GENSTT 13 14_1 2

Relazioni evolutive tra i viventi. Le distanze tra le ramificazioni sono proporzionali alla entità della differenza

SRS (Sequence Retrieval System) della EBI che mette a disposizione anche dello spazio sul server per memorizzare le richerche.

Programma di INFORMATICA

Gestione dei dati in proteomica

Genetica dei caratteri quantitativi

Emanuele Pascariello

Apprendimento Automatico: Teoria e Applicazioni

2. Negli Anfibi la circolazione e doppia ma incompleta. Il cuore di una rana ha pertanto:

ATTIVITA DI BIOINFORMATICA SU CROMOSOMI E ANOMALIE CROMOSOMICHE. SITO INTERNET:

INTRODUZIONE AL TESTO FILOSOFICO

ALCUNE DOMANDE DI RIEPILOGO PER LA 2 2 VERIFICA DEL CORSO DI GENETICA AGRARIA

Relazione DNA. Giulia Carbonara classe 3 A

LA LUNGHEZZA DEI GENI UMANI (Es4.1)

La nuova biologia.blu

GENETICA. Modulo di 6 CFU. Esame integrato di BIOCHIMICA&GENETICA Secondo anno del corso di laurea triennale in SCIENZE AMBIENTALI

Elaborato Shell. Elementi di architettura e sistemi operativi 2016/2017

Laboratorio di Programmazione Laurea in Ingegneria Civile e Ambientale

La vita e gli esseri viventi, la cellula. La vita e gli esseri viventi

MENDEL E L EREDITARIETA

Ricevimento Studenti: Lunedì previa prenotazione. Cenci lab

Strutture dati e loro organizzazione. Gabriella Trucco

Corso di Access. Modulo L2 A (Access) 1.4 Le maschere

Percorso formativo di BIOLOGIA. I Biennio (Lo studio scientifico della vita Dal macroscopico al microscopico)

BIOINFORMATICA: Cosa è?

Fondamenti di Programmazione

Esistono Open Tools di Microsoft per migliorare le attività di ricerca scientifica

Elementi di Genetica Vegetale

CROMOSOMI SESSUALI e ALLELI

LA GENETICA MOLECOLARE

Test con punteggio 0.5

Transcript:

Rapporto tecnico dataset genomica Indice 1 Introduzione 2 2 Struttura del dataset 2 2.1 GOgraphs............................... 3 2.2 Annotations.............................. 3 2.3 Proles................................ 3 2.4 Nets.................................. 4 Riferimenti bibliograci 6 1

1 Introduzione Nel seguente documento verrà presentato e descritto il dataset utilizzato nel progetto per il caso di studio relativo alla genomica. I dati contenuti nel dataset sono riferiti a due specie: l'uomo (Homo Sapiens) e la pianta nota col nome di Arabetta comune (Arabidopsis Thaliana). L'Arabetta comune viene utilizzata come organismo modello vegetale nella genomica per diverse ragioni: Le dimensioni del suo genoma sono contenute (circa 125 milioni di paia di nucleotidi, di cui 29 mila geni, in soli cinque cromosomi) 1. È stato il primo essere vegetale il cui genoma è stato sequenziato [1]. Le piccole dimensioni la rendono ideale negli spazi sempre ristretti dei laboratori e delle serre negli istituti di ricerca. Il suo ciclo di vita di circa sei settimane, dalla germinazione di una piantina no a che questa, diventata adulta, produca propri semi, permette di accelerare notevolmente la ricerca rispetto ad altre specie vegetali. Tramite il processo di trasformazione genetica, sfruttando il batterio Agrobacterium tumefaciens, è possibile produrre piante transgeniche incorporando nuovo DNA nel genoma della pianta. Figura 1: L'Arabidopsis Thaliana 2 Struttura del dataset I vari le che compongono il dataset sono stati scaricati dal sito uciale del Gene Ontology nel luglio 2013. I le relativi all'uomo hanno il presso hs (Homo Sapiens), mentre quelli relativi all'arabetta hanno il presso at (Arabidopsis Thaliana). Di seguito sono descritti in dettaglio i le così come sono stati suddivisi nelle diverse directory. 1 Per maggiori informazioni sulle ricerche eettuate con l'arabetta è possibile visitare il The Arabidopsis Information Resource http://www.arabidopsis.org/about/index.jsp. 2

2.1 GOgraphs In questa directory sono memorizzati i gra associati alle ontologie che compongono il Gene Ontology: il Biological Process ontology (BP), il Molecular Function ontology (MF) e il Cellular Component ontology (CC). Tali gra vengono memorizzati in le in formato Rdata (ossia le R 2 binari compressi) come oggetti di classe GraphNEL 3. L'elenco dei le presenti nella cartella è inserita nella Tabella 1. GOgraphs at.graph.bp.rda at.graph.cc.rda at.graph.mf.rda hs.graph.bp.rda hs.graph.cc.rda hs.graph.mf.rda Tabella 1: Elenco dei le presenti nella cartella GOgraphs 2.2 Annotations In questa directory sono memorizzate le annotazioni Gene Ontology BP, MF e CC (vedi sezione 2.1) per le proteine. I le contenuti nella directory sono in formato testuale. A causa della grandezza di tali le essi sono compressi in formato zip per occupare meno spazio possibile. Ogni singolo le di testo rappresenta una tabella, le cui righe corrispondono alle proteine mentre le colonne corrispondono alle classi GO. L'elenco dei le presenti nella cartella è inserita nella Tabella 2. Il formato del le è il seguente: Nella prima riga sono indicati i nomi delle classi GO separati da uno spazio. Dalla seconda riga alla ne del le ogni riga rappresenta una proteina e le sue annotazioni. Ogni riga presenta l'identicatore Swissprot della proteina seguito da una serie di valori booleani. In modo simile alla prima riga i vari dati presenti nella riga vengono separati da uno spazio. Se la proteina è annotata per la classe GO della colonna corrispondente il suo valore sarà 1, in caso contrario sarà 0. 2.3 Proles In questa directory sono memorizzati i proli binari ottenuti da otto database. I database utilizzati 4 sono: EggNOG, InterPro, Pfam, PRINTS, PROSITE, SMART, SUPERFAMILY, UniProtKB Swiss-Prot (keywords). I le contenuti nella directory sono disponibili sia in formato Rdata che in formato testuale compresso. Ogni singolo le di testo rappresenta una tabella 2 R è un linguaggio di programmazione utilizzato nella statistical computing e nella creazione di gra, programmabile tramite RStudio http://www.rstudio.com/. 3 http://svitsrv25.epfl.ch/r-doc/library/graph/html/graphnel-class.html 4 Vedi i documenti D1.4 - Analisi risorse disponibili per genomica e D2.4 - Rapporto tecnico su selezione dataset genomica per informazioni sui database citati. 3

Annotations at.ann.bp.zip at.ann.cc.zip at.ann.mf.zip hs.ann.bp.zip hs.ann.cc.zip hs.ann.mf.zip Tabella 2: Elenco dei le presenti nella cartella Annotations le cui righe corrispondono alle proteine e le colonne alle feature associate alla proteine. L'elenco dei le presenti nella cartella è inserita nella Tabella 3. Il formato del le è il seguente: Nella prima riga sono indicati i nomi delle varie feature. Dalla seconda riga alla ne del le ogni riga rappresenta una proteina e le sue feature separate da uno spazio. Ogni riga presenta quindi l'identi- catore Swissprot della proteina seguito da una serie di valori booleani. In modo simile alla prima riga i vari dati presenti nella riga vengono separati da uno spazio. Se la proteina possiede la feature della colonna corrispondente il suo valore sarà 1, in caso contrario sarà 0. 2.4 Nets In questa directory sono memorizzate le reti costruite a partire dai proli (vedi sezione 2.3) tramite l'uso di opportune misure di similarità 5 e successivi ltraggi degli archi. Le otto reti sono poi state integrate tramite l'utilizzo della semplice media non pesata [2]. I le contenuti nella directory sono in formato testuale. A causa della grandezza di tali le essi sono compressi in formato zip per occupare meno spazio possibile. Ogni singolo le di testo rappresenta una matrice pesata M di adiacenza di un grafo non diretto in modo tale che la entry M [i, j ] rappresenta la similarità funzionale fra le proteine i e j. L'elenco dei le presenti nella cartella è inserita nella Tabella 4. Il formato del le è il seguente: Nella prima riga sono indicati tutti gli identicatori Swissprot delle proteine. Dalla seconda riga alla ne del le ogni riga rappresenta una proteina e le sue similarità funzionali con tutte le restanti proteine annotazioni. Ogni riga presenta quindi l'identicatore Swissprot della proteina seguito dai valori delle similarità funzionali tra la proteina della riga e la proteina della colonna corrispondente. 5 Tali misure sono ottenute tramite l'indice o coeciente di similarità di Jaccard, un indice statistico utilizzato per confrontare la similarità e la diversità di insiemi campionari. 4

Proles at.eggnog.rda at.eggnog.zip at.interpro.rda at.interpro.zip at.keywords.rda at.keywords.zip at.pfam.rda at.pfam.zip at.prints.rda at.prints.zip at.prosite.rda at.prosite.zip at.smart.rda at.smart.zip at.supfam.rda at.supfam.zip do.les.r do.zip.r hs.eggnog.rda hs.eggnog.zip hs.interpro.rda hs.interpro.zip hs.keywords.rda hs.keywords.zip hs.pfam.rda hs.pfam.zip hs.prints.rda hs.prints.zip hs.prosite.rda hs.prosite.zip hs.smart.rda hs.smart.zip hs.supfam.rda hs.supfam.zip Tabella 3: Elenco dei le presenti nella cartella Proles Nets at.ua.net.zip hs.ua.net.zip Tabella 4: Elenco dei le presenti nella cartella Nets 5

Riferimenti bibliograci [1] Arabidopsis Genome Initiative, Analysis of the genome sequence of the owering plant Arabidopsis thaliana, 2000 [2] G. Valentini, A. Paccanaro, H. Caniza, A.E. Romero, M. Rea, An extensive analysis of disease-gene associations using network integration and fast kernel-based gene prioritization methods, 2014 6