Formati di scambio dati
Genbank È il genetic sequence DataBase del NIH (National Institute of Health) Contiene sequenze (primarie) annotate di nucleotidi e di proteine I files sono ragguppati in divisioni (caratterizzate da come sono stati ottenuti i dati) cresce per effetto della sottomissione dei dati diretta da parte dei ricercatori (lavoro su base volontaria)
Collaborazione GenBank National Center for Biotechnology Information NIH-Bethesda, Maryland DNA Database of Japan DDBJ Mishima, Japan EMBL (European Molecular Biology Laboratory) database European Bioinformatics Institute, Hinxton, England
Collaborazione Si decide di collaborare per poter distribuire l'informazione Bisogna decidere: scelte di fondo comuni scelta di data model comuni aggiornamento reciproco dei dati
The Landscape of Biological Data Sources PRINTS Patent USPTO BLOCKS PFAMB PIR PFAMA Patent PCT GENEPEPT PROSITEDOC LOCUS LINK DOMO NRL3D Patent JPO SWISSFAM TFCLASS PROSITE TREEMBL Medline TFMATRIX PRODOM UNIGENE EMBL TFSITE DSSP DDBJ DBSTS TFCELL GSDB TIGR SWISSPROT Entrez TAXONOMY EBI PDB Celera RHDB GENBANK HUGO GENETICCODE GDB Microbial Genomes STKE SNP WIT OMIM Fly Base KEGG ENZYME Clinical DB dbsnp Contact FASTA C. Elegans SSEARCH BLAST dbsnp Population CLUSTALW SNP Consortium
Coordinamento bisogna fare in modo che le differenze di format siano eliminate (ognuno riallinea i record nei propri formati) bisogna evitare che gli update di uno non vengano registrati dagli altri (ognuno e responsabile dei record che inserisce) per GenBank si intende DDBJ/EMBL/GenBank GenBank e parte di una serie di servizi http://www.ncbi.nlm.nih.gov/sitemap/index.html
Entrez Global Query Cross- Database Search System E un portale che permette la ricerca in diversi database dell'ncbi permette l'accesso a tutti i database tramite una singola interfaccia e un solo linguaggio di query può recuperare sequenze, strutture e referenze permette la visione di geni, sequenze proteiche e mappe cromosomiche permette l'accesso anche ad alcuni textbooks
Database di Entrez PubMed: biomedical literature citations and abstracts, including Medline PubMed Central: free, full text journal articles Site Search: NCBI web and FTP web sites Books: online books OMIM: online Mendelian Inheritance in Man OMIA: online Mendelian Inheritance in Animals Nucleotide: sequence database (GenBank) Protein: sequence database Genome: whole genome sequences and Mapping
Database di Entrez (2) Structure: three-dimensional macromolecular structures Taxonomy: organisms in GenBank Taxonomy SNP: single nucleotide polymorphism Gene: gene-centered information HomoloGene: eukaryotic homology groups PubChem Compound: unique small molecule chemical structures PubChem Substance: deposited chemical substance records
Database di Entrez (3) Genome Project: genome project information UniGene: gene-oriented clusters of transcript sequences CDD: conserved protein domain database 3D Domains: domains from Entrez Structure UniSTS: markers and mapping data PopSet: population study data sets (epidemiology) GEO Profiles: expression and molecular abundance profiles GEO DataSets: experimental sets of GEO data
Database di Entrez (4) Cancer Chromosomes: cytogenetic databases PubChem BioAssay: bioactivity screens of chemical substances GENSAT: gene expression atlas of mouse central nervous system Probe: sequence-specific reagents NLM Catalog: NLM bibliographic data for over 1.2 million journals, books, audiovisuals, computer software, electronic resources, and other materials resident in LocatorPlus
Entrez query
Risultato
Sequenza nucleotidica
Sequenza
Articolo
Dominio proteico
Cromosoma
Ensemble È un progetto congiunto di European Bioinformatics Institute (EBI) e Wellcome Trust Sanger Institute (WTSI) per sviluppare un sistema per produrre e mantenere annotazioni automatiche analisi automatica e accurata di genomi analisi e annotatizione sui dati presentazione dei dati via WEB distribuzione dei dati
Ensemble
Zoom
Zoom (2)
Che tipo di formato dati? discuteremo il GenBank flat file (GBFF) format umani e computer hanno diverse esigenze a volte (spesso) un formato e mantenuto esclusivamente per ragioni storiche GBFF è semplice e questo... paga (molti tools lo usano) il formato completo dei dati di NCBI e rappresentato in modo preciso mediante un linguaggio formale, ASN.1
Formato di testo Vantaggi: Human readable Usato molto spesso e quindi molto conosciuto Può essere analizzato tramite linguaggi di programmazione come PERL Svantaggi: Può essere difficilmente interpretabile Relazione rispetto ad altri dati non sono espliciti Non ci sono tool standard ma ogni programma deve avere le routine per analizzarli
Formato di testo (2) LOCUS AC105318 110811 bp DNA linear HTG 30-DEC-2001 DEFINITION Oryza sativa chromosome 5 clone OJ1058F05, *** SEQUENCING IN PROGRESS ***, 3 ordered pieces. ACCESSION AC105318 VERSION AC105318.1 GI:17998701 KEYWORDS HTG; HTGS_PHASE2. SOURCE Oryza sativa. ORGANISM Oryza sativa Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; Liliopsida; Poales; Poaceae; Ehrhartoideae; Oryzeae; Oryza. REFERENCE 1 (bases 1 to 110811) AUTHORS Chow,T.-Y., Hsing,Y.-I.C., Chen,C.-S., Chen,H.-H., Wu,H.-P., Liu,S.-M., Chao,Y.-T., Chang,S.-J., Chen,T.-R., Chen,Y.-L., Chow,M.-H.J., Hong,Y.-C., Hsiung,J.-N., Hsu,C.-H., Huang,J.-J., Kau,P.-I., Lee,M.-C., Leu,H.-L., Lin,S.-J., Wu,L.-F. and Shaw,J.-F. TITLE Oryza sativa BAC OJ1058F05 genomic sequence JOURNAL Unpublished BASE COUNT 29791 a 26081 c 24560 g 30258 t 121 others ORIGIN 1 gtttctcctc aacatcaaga gacgctatca acccctcaac ggagtattcc tatctcttgt 61 gtttgagtgc agtaccgaaa cctctccaag atggaggtaa tttcacaata atgcacctag 121 ccacaaattt gttgggtaag acacacttaa ggagttcgag ttcctcagcc atggtttgta
Formato FASTA Vantaggi: Human readable Semplice Conosciuto Svantaggi: Incompleto: non include tutti i dati Relazione rispetto ad altri dati non sono espliciti Non ci sono tool standard ma ogni programma deve avere le routine per analizzarli
Formato FASTA (2) >gi 532319 pir TVFV2E TVFV2E envelope protein ELRLRYCAPAGFALLKCNDADYDGFKTNCSNVSVVHCTNLMNTTVTTGLLLNGSYSENRT QIWQKHRTSNDSALILLNKHYNLTVTCKRPGNKTVLPVTIMAGLVFHSQKYNLRLRQAWC HFPSNWKGAWKEVKEEIVNLPKERYRGTNDPKRIFFQRQWGDPETANLWFNCHGEFFYCK MDWFLNYLNNLTVDADHNECKNTSGTKSGNKRAPGPCVQRTYVACHIRSVIIWLETISKK TYAPPREGHLECTSTVTGMTVELNYIPKNRTNVTLSPQIESIWAAELDRYKLVEITPIGF APTEVRRYTGGHERQKRVPFVXXXXXXXXXXXXXXXXXXXXXXVQSQHLLAGILQQQKL LAAVEAQQQMLKLTIWGVK
ASN.1 Abstract Syntax Notation One (ASN.1) è uno standard per una notazione per la descrizione e la condivisione di strutture dati È costituito da un insieme di regole formali per descrivere la struttura di oggetti È un formato machine-indipendent Non vi sono ambiguità era stato progettato per l'industria delle telecomunicazioni è uno standard ISO
ASN.1 Tipi predefiniti: integers booleans character strings... Permette di definire delle strutture complesse: structures (SEQUENCE), lists (SEQUENCE OF), scelte fra tipi (CHOICE),...
ASN.1 Usa una struttura gerarchica (struttura ad alberi) Bisogna specificare uno schema (modulo) I moduli sono definiti usando la sintassi Bacchus-Naur Form (BNF), molto comune per descrivere la sintassi dei linguaggi per computer
Modulo NCBI NCBI-Sequence DEFINITIONS ::= BEGIN Bioseq ::= SEQUENCE { id SET OF Seq-id, descr Seq-descr OPTIONAL, inst Seq-inst, annot SET OF Seq-annot OPTIONAL } -- equivalent identifiers -- descriptors -- the sequence data Seq-descr ::= SET OF Seqdesc Seqdesc ::= CHOICE { mol-type GIBB-mol, modif SET OF GIBB-mod, method GIBB-method, name VisibleString, } END -- type of molecule -- modifiers -- sequencing method -- a name for this sequence
PDB Protein Data Bank database di modelli 3d di proteine note elenco di tutti gli atomi presenti nella struttura (e coordinate in 3 dimensioni) si può vedere il modello in 3 dimensioni usa un suo formato pdb per la condivisione dell'informazione
Esempio