Formati di scambio dati

Documenti analoghi

Basi di dati biologici

Basi di dati biologici. GenBank. lezione 09 1

Laboratorio di Metodologie e Tecnologie Genetiche ESERCITAZIONE DI BIOINFORMATICA

Emanuele Pascariello

METODOLOGIE BIOCHIMICHE ESERCITAZIONE DI BIOINFORMATICA

La ricerca bibliografica in ambito infermieristico

Informatica e biotecnologie I parte

DATABASE DI GENETICA E BIOLOGIA MOLECOLARE

Basi di dati. Alberto Policriti. Dipartimento di Matematica e Informatica Istituto di Genomica Applicata. 15 Maggio, 2018

II LEZIONE. Database di interesse per la genetica e la biologia molecolare. Portali per l'accesso a database e servizi bioinformatici

4. Ricerca di sequenze in banche dati e allineamento multiplo

METODOLOGIE BIOCHIMICHE ESERCITAZIONE DI BIOINFORMATICA

BIOINFORMATICA: Cosa è?

Corso di Elementi di Bioinformatica

Basi di dati. Alberto Policriti. Dpt. of Mathematics and Informatics, University of Udine. Applied Genomics Institute.

Laboratorio di Bioinformatica I. Parte 1. Dott. Sergio Marin Vargas (2014 / 2015)

SRS (Sequence Retrieval System) della EBI che mette a disposizione anche dello spazio sul server per memorizzare le richerche.

Bellini Lara matricola: Tesina di Biologia Molecolare 2

strutture di Proteine

Capitolo 4 Pianificazione e Sviluppo di Web Part

Universita` di Verona Laura Specialistica in Biotecnologie Agro-Industriali Corso di Bioinformatica A.A

Banche Dati. Docente: Dr. Antinisca DI MARCO

Basi di dati. Corso di Laurea in Ingegneria Informatica Canale di Ingegneria delle Reti e dei Sistemi Informatici - Polo di Rieti

CONTENT MANAGEMENT SYSTEM

Organizzazione degli archivi

Informatica e biotecnologie I parte. Informatica e biotecnologie. Banche dati biologiche: sommario. Strumenti per

Progetto Cluster. Sottoprogetto Bioinformatica

BASE DI DATI: introduzione. Informatica 5BSA Febbraio 2015

DataBase Biologici 1

e-science Bioinformatics

Guida all uso del web service SDMX

Lezione V. Aula Multimediale - sabato 29/03/2008

Reti di Calcolatori. Il Livello delle Applicazioni

1. Le banche dati biologiche

Database biologici (banche di dati biologici)

Per siti più strutturati le informazioni sono mantenute mediante particolari organizzazioni di dati: human-powered directories

AtoZ IL CATALOGO DI BIBLIOTECA VIRTUALE

Laboratorio di Elementi di Bioinformatica

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

Esercizi di JavaScript

UNIVERSITA DEGLI STUDI DI BRESCIA Facoltà di Ingegneria

Al giorno d oggi, i sistemi per la gestione di database

Informatica Generale Andrea Corradini Sistemi di Gestione delle Basi di Dati

Introduzione al corso di bioinformatica e analisi dei genomi AA Docente: Silvia Fuselli fss@unife.it

Corso: Sistemi di elaborazione delle informazioni 2. Anno Accademico: 2007/2008. Docente: Mauro Giacomini

Il linguaggio SQL. è di fatto lo standard tra i linguaggi per la gestione di data base relazionali.

DECIBEL Calcoli di rumore

EXPLOit Content Management Data Base per documenti SGML/XML

Office 2007 Lezione 02. Le operazioni più

GENE ONTOLOGY. Classificare la materia vivente e comprenderla. fcordero@di.unito.it

DDL, VINCOLI D INTEGRITÁ, AGGIORNAMENTI E VISTE. SQL è più di un semplice linguaggio di interrogazione

Caratteristiche principali. Contesti di utilizzo

Base Dati Introduzione

Utilizzo della Intranet, forum privati Soci e Staff

Lezione 1. Introduzione e Modellazione Concettuale

Sistemi Operativi. Interfaccia del File System FILE SYSTEM : INTERFACCIA. Concetto di File. Metodi di Accesso. Struttura delle Directory

GUIDA ALL USO DELLA BANCA DATI FSTA (FOOD SCIENCE AND TECHNOLOGY ABSTRACTS)

Metodi di ricerca bibliografica

Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci

Il modello di ottimizzazione SAM

Database genomici primari

Uso delle basi di dati DBMS. Cos è un database. DataBase. Esempi di database

Introduzione ai database relazionali

Sistemi per la produzione, gestione e conservazione di contenuti digitali CMS. L12 - Comunicazione e archiviazione digitale A.A

Capitolo 7. Esercizio 7.1

Database. Francesco Tapparo Informatica e Bioinformatica /16

Comprendere cosa è Internet e sapere quali sono i suoi principali impieghi. 25/09/2011 prof. Antonio Santoro

AGGIORNAMENTO DELLA PIATTAFORMA CLEXi

UN PROGRAMMA APPLICATIVO: ACCESS Access è un programma del pacchetto Office che permette di realizzare database

Genetica. Mendel e la genetica

Esercitazioni Informatiche e Telematiche

GUIDA PER IL DOCENTE ALL UTILIZZO DELL APPLICATIVO ONLINE E PORTFOLIO

GNred Ver1.5 Manuale utenti

Corso di Sistemi di Elaborazione delle informazioni

Corso di Amministrazione di Reti A.A. 2002/2003

3. Confronto tra due sequenze

Informatica e Bioinformatica A. A

Implementing a new ADT based on the HL7 version 3 RIM. Esempio

PATENTS. December 12, 2011

MDAC. Attualmente la versione disponibile di MDAC è la 2.8 ma faremo riferimento alla 2.6. ADO Active Data Objects ADO OLE DB ODBC

DATABASE RELAZIONALI

Active Directory. Installatore LAN. Progetto per le classi V del corso di Informatica

La Skills Card relativa alle certificazioni Nuova ECDL è svincolata dalla singola certificazione.

Corso sul linguaggio SQL

Con il termine Sistema operativo si fa riferimento all insieme dei moduli software di un sistema di elaborazione dati dedicati alla sua gestione.

Percorsi di ricerca di prove di efficacia nella letteratura scientifica e grigia

L'efficienza non è solo energetica!

La sintassi di un DTD si basa principalmente sulla presenza di quattro dichiarazioni:

Metodi per la ricerca bibliografica e gestione della bibliografia BIOINGEGNERIA ED INFORMATICA MEDICA

COMMERCE: FORME DI TUTELA. Andrea L Episcopo Convitto Nazionale Mario Cutelli

DATABASE. A cura di Massimiliano Buschi

Il Corso sarà tenuto nei giorni di Lunedì, Mercoledì e Venerdì dalle ore 17 alle ore 19.

Editing e gestione delle views per il modulo Landing Page Espositore

I. introduzione. II. ricerche. III. salvataggio dei risultati e delle ricerche. giovanna.bruscolini@uniurb.it - Biblioteca Scientifica Uniurb

Il DNA e la cellula. Versione 2.3. Versione italiana. ELLS European Learning Laboratory for the Life Sciences

/XML ALBERTO BELUSSI ANNO ACCADEMICO 2009/2010 XML

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi

UTILIZZO DEL SOFTWARE MONITOR

Basi di Dati e Microsoft Access

Transcript:

Formati di scambio dati

Genbank È il genetic sequence DataBase del NIH (National Institute of Health) Contiene sequenze (primarie) annotate di nucleotidi e di proteine I files sono ragguppati in divisioni (caratterizzate da come sono stati ottenuti i dati) cresce per effetto della sottomissione dei dati diretta da parte dei ricercatori (lavoro su base volontaria)

Collaborazione GenBank National Center for Biotechnology Information NIH-Bethesda, Maryland DNA Database of Japan DDBJ Mishima, Japan EMBL (European Molecular Biology Laboratory) database European Bioinformatics Institute, Hinxton, England

Collaborazione Si decide di collaborare per poter distribuire l'informazione Bisogna decidere: scelte di fondo comuni scelta di data model comuni aggiornamento reciproco dei dati

The Landscape of Biological Data Sources PRINTS Patent USPTO BLOCKS PFAMB PIR PFAMA Patent PCT GENEPEPT PROSITEDOC LOCUS LINK DOMO NRL3D Patent JPO SWISSFAM TFCLASS PROSITE TREEMBL Medline TFMATRIX PRODOM UNIGENE EMBL TFSITE DSSP DDBJ DBSTS TFCELL GSDB TIGR SWISSPROT Entrez TAXONOMY EBI PDB Celera RHDB GENBANK HUGO GENETICCODE GDB Microbial Genomes STKE SNP WIT OMIM Fly Base KEGG ENZYME Clinical DB dbsnp Contact FASTA C. Elegans SSEARCH BLAST dbsnp Population CLUSTALW SNP Consortium

Coordinamento bisogna fare in modo che le differenze di format siano eliminate (ognuno riallinea i record nei propri formati) bisogna evitare che gli update di uno non vengano registrati dagli altri (ognuno e responsabile dei record che inserisce) per GenBank si intende DDBJ/EMBL/GenBank GenBank e parte di una serie di servizi http://www.ncbi.nlm.nih.gov/sitemap/index.html

Entrez Global Query Cross- Database Search System E un portale che permette la ricerca in diversi database dell'ncbi permette l'accesso a tutti i database tramite una singola interfaccia e un solo linguaggio di query può recuperare sequenze, strutture e referenze permette la visione di geni, sequenze proteiche e mappe cromosomiche permette l'accesso anche ad alcuni textbooks

Database di Entrez PubMed: biomedical literature citations and abstracts, including Medline PubMed Central: free, full text journal articles Site Search: NCBI web and FTP web sites Books: online books OMIM: online Mendelian Inheritance in Man OMIA: online Mendelian Inheritance in Animals Nucleotide: sequence database (GenBank) Protein: sequence database Genome: whole genome sequences and Mapping

Database di Entrez (2) Structure: three-dimensional macromolecular structures Taxonomy: organisms in GenBank Taxonomy SNP: single nucleotide polymorphism Gene: gene-centered information HomoloGene: eukaryotic homology groups PubChem Compound: unique small molecule chemical structures PubChem Substance: deposited chemical substance records

Database di Entrez (3) Genome Project: genome project information UniGene: gene-oriented clusters of transcript sequences CDD: conserved protein domain database 3D Domains: domains from Entrez Structure UniSTS: markers and mapping data PopSet: population study data sets (epidemiology) GEO Profiles: expression and molecular abundance profiles GEO DataSets: experimental sets of GEO data

Database di Entrez (4) Cancer Chromosomes: cytogenetic databases PubChem BioAssay: bioactivity screens of chemical substances GENSAT: gene expression atlas of mouse central nervous system Probe: sequence-specific reagents NLM Catalog: NLM bibliographic data for over 1.2 million journals, books, audiovisuals, computer software, electronic resources, and other materials resident in LocatorPlus

Entrez query

Risultato

Sequenza nucleotidica

Sequenza

Articolo

Dominio proteico

Cromosoma

Ensemble È un progetto congiunto di European Bioinformatics Institute (EBI) e Wellcome Trust Sanger Institute (WTSI) per sviluppare un sistema per produrre e mantenere annotazioni automatiche analisi automatica e accurata di genomi analisi e annotatizione sui dati presentazione dei dati via WEB distribuzione dei dati

Ensemble

Zoom

Zoom (2)

Che tipo di formato dati? discuteremo il GenBank flat file (GBFF) format umani e computer hanno diverse esigenze a volte (spesso) un formato e mantenuto esclusivamente per ragioni storiche GBFF è semplice e questo... paga (molti tools lo usano) il formato completo dei dati di NCBI e rappresentato in modo preciso mediante un linguaggio formale, ASN.1

Formato di testo Vantaggi: Human readable Usato molto spesso e quindi molto conosciuto Può essere analizzato tramite linguaggi di programmazione come PERL Svantaggi: Può essere difficilmente interpretabile Relazione rispetto ad altri dati non sono espliciti Non ci sono tool standard ma ogni programma deve avere le routine per analizzarli

Formato di testo (2) LOCUS AC105318 110811 bp DNA linear HTG 30-DEC-2001 DEFINITION Oryza sativa chromosome 5 clone OJ1058F05, *** SEQUENCING IN PROGRESS ***, 3 ordered pieces. ACCESSION AC105318 VERSION AC105318.1 GI:17998701 KEYWORDS HTG; HTGS_PHASE2. SOURCE Oryza sativa. ORGANISM Oryza sativa Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; Liliopsida; Poales; Poaceae; Ehrhartoideae; Oryzeae; Oryza. REFERENCE 1 (bases 1 to 110811) AUTHORS Chow,T.-Y., Hsing,Y.-I.C., Chen,C.-S., Chen,H.-H., Wu,H.-P., Liu,S.-M., Chao,Y.-T., Chang,S.-J., Chen,T.-R., Chen,Y.-L., Chow,M.-H.J., Hong,Y.-C., Hsiung,J.-N., Hsu,C.-H., Huang,J.-J., Kau,P.-I., Lee,M.-C., Leu,H.-L., Lin,S.-J., Wu,L.-F. and Shaw,J.-F. TITLE Oryza sativa BAC OJ1058F05 genomic sequence JOURNAL Unpublished BASE COUNT 29791 a 26081 c 24560 g 30258 t 121 others ORIGIN 1 gtttctcctc aacatcaaga gacgctatca acccctcaac ggagtattcc tatctcttgt 61 gtttgagtgc agtaccgaaa cctctccaag atggaggtaa tttcacaata atgcacctag 121 ccacaaattt gttgggtaag acacacttaa ggagttcgag ttcctcagcc atggtttgta

Formato FASTA Vantaggi: Human readable Semplice Conosciuto Svantaggi: Incompleto: non include tutti i dati Relazione rispetto ad altri dati non sono espliciti Non ci sono tool standard ma ogni programma deve avere le routine per analizzarli

Formato FASTA (2) >gi 532319 pir TVFV2E TVFV2E envelope protein ELRLRYCAPAGFALLKCNDADYDGFKTNCSNVSVVHCTNLMNTTVTTGLLLNGSYSENRT QIWQKHRTSNDSALILLNKHYNLTVTCKRPGNKTVLPVTIMAGLVFHSQKYNLRLRQAWC HFPSNWKGAWKEVKEEIVNLPKERYRGTNDPKRIFFQRQWGDPETANLWFNCHGEFFYCK MDWFLNYLNNLTVDADHNECKNTSGTKSGNKRAPGPCVQRTYVACHIRSVIIWLETISKK TYAPPREGHLECTSTVTGMTVELNYIPKNRTNVTLSPQIESIWAAELDRYKLVEITPIGF APTEVRRYTGGHERQKRVPFVXXXXXXXXXXXXXXXXXXXXXXVQSQHLLAGILQQQKL LAAVEAQQQMLKLTIWGVK

ASN.1 Abstract Syntax Notation One (ASN.1) è uno standard per una notazione per la descrizione e la condivisione di strutture dati È costituito da un insieme di regole formali per descrivere la struttura di oggetti È un formato machine-indipendent Non vi sono ambiguità era stato progettato per l'industria delle telecomunicazioni è uno standard ISO

ASN.1 Tipi predefiniti: integers booleans character strings... Permette di definire delle strutture complesse: structures (SEQUENCE), lists (SEQUENCE OF), scelte fra tipi (CHOICE),...

ASN.1 Usa una struttura gerarchica (struttura ad alberi) Bisogna specificare uno schema (modulo) I moduli sono definiti usando la sintassi Bacchus-Naur Form (BNF), molto comune per descrivere la sintassi dei linguaggi per computer

Modulo NCBI NCBI-Sequence DEFINITIONS ::= BEGIN Bioseq ::= SEQUENCE { id SET OF Seq-id, descr Seq-descr OPTIONAL, inst Seq-inst, annot SET OF Seq-annot OPTIONAL } -- equivalent identifiers -- descriptors -- the sequence data Seq-descr ::= SET OF Seqdesc Seqdesc ::= CHOICE { mol-type GIBB-mol, modif SET OF GIBB-mod, method GIBB-method, name VisibleString, } END -- type of molecule -- modifiers -- sequencing method -- a name for this sequence

PDB Protein Data Bank database di modelli 3d di proteine note elenco di tutti gli atomi presenti nella struttura (e coordinate in 3 dimensioni) si può vedere il modello in 3 dimensioni usa un suo formato pdb per la condivisione dell'informazione

Esempio