Basi di dati biologici Materiale da: The GenBank Sequence Database, A. D. Baxevanis. In Bioinformatics A practical Guide to the Analysis of Genes and Proteins Wiley-Liss 1998 Introduzione alla Bioinformatica (capitolo 2), G. Valle et al.. Zanichelli 2003 lezione 09 1
Esempio: GenBank Che cos e GenBank http://www.ncbi.nlm.nih.gov/ (NCBI HomePage.htm) n e il genetic sequence DataBase del NIH (National Institute of Health) n contiene sequenze (primarie) annotate di nucleotidi e di proteine n i files sono ragguppati in divisioni (caratterizzate da come sono stati ottenuti i dati) n cresce per effetto della sottomissione dei dati diretta da parte dei ricercatori (lavoro su base volontaria) lezione 09 2
International Nucleotide Sequence Database Collaboration GenBank National Center for Biotechnology Information NIH-Bethesda, Maryland DNA Database of Japan DDBJ Mishima, Japan EMBL (European Molecular Biology Laboratory) database European Bioinformatics Institute, Hinxton, England
Un po di storia (dal sito http://www.ncbi.nlm.nih.gov/education/blastinfo/milestones.html) 1962 Pauling's theory of molecular evolution 1965 Margaret Dayhoff's Atlas of Protein Sequences 1970 Needleman-Wunsch algorithm 1977 DNA sequencing and software to analyze it (Staden) 1981 Smith-Waterman algorithm developed 1981 The concept of a sequence motif (Doolittle) 1982 GenBank Release 3 made public 1982 Phage lambda genome sequenced 1983 Sequence database searching algorithm (Wilbur-Lipman) 1985 FASTP/FASTN: fast sequence similarity searching 1988 National Center for Biotechnology Information (NCBI) created at NIH/NLM 1988 EMBnet network for database distribution 1990 BLAST: fast sequence similarity searching 1991 EST: expressed sequence tag sequencing 1993 Sanger Centre, Hinxton, UK 1994 EMBL European Bioinformatics Institute, Hinxton, UK 1995 First bacterial genomes completely sequenced 1996 Yeast genome completely sequenced 1997 PSI-BLAST 1998 Worm (multicellular) genome completely sequenced 1999 Fly genome completely sequenced lezione 09 4
Come collaborano i DB? n scelte di fondo comuni n scelta di data model comuni n scambio di informazioni giornaliero n aggiornamento reciproco dei dati... e uno standard: molti utenti garantiscono buone informazioni lezione 09 5
The Landscape of Biological Data Sources PRINTS Patent USPTO BLOCKS PFAMB PIR PFAMA Patent PCT GENEPEPT PROSITEDOC LOCUS LINK DOMO NRL3D Patent JPO SWISSFAM TFCLASS PROSITE TREEMBL Medline TFMATRIX PRODOM UNIGENE EMBL TFSITE DSSP DDBJ DBSTS TFCELL GSDB TIGR SWISSPROT Entrez TAXONOMY EBI PDB Celera RHDB GENBANK HUGO GENETICCODE GDB Microbial Genomes STKE SNP WIT OMIM Fly Base KEGG ENZYME Clinical DB dbsnp Contact FASTA C. Elegans SSEARCH BLAST dbsnp Population CLUSTALW SNP Consortium
Coordinamento e servizi offerti n bisogna fare in modo che le differenze di format siano eliminate (ognuno riallinea i record nei propri formati) n bisogna evitare che gli update di uno non vengano registrati dagli altri (ognuno e responsabile dei record che inserisce) n per GenBank si intende DDBJ/EMBL/GenBank (ed e anche parte di una estesa comunita di DB) n GenBank e parte di una serie di servizi http://www.ncbi.nlm.nih.gov/sitemap/index.html lezione 09 7
Primary and secondary databases n primary (archival) secondary (curated) databases n primary database record: sequenza sperimentalmente determinata n primary database record: non rappresenta una consensus sequence La regola fondamentale e che i dati sperimentali sono importanti e tutto il resto e pericoloso (features) lezione 09 8
Che tipo di formato? n ora discutiamo il GenBank flat file (GBFF) format, il modello dei dati di NCBI verra discusso in seguito n il formato completo dei dati di NCBI e rappresentato in modo preciso mediante un linguaggio formale, ASN.1... ci sono molti formati, variamente discutibili. lezione 09 9
I formati n umani e computer hanno diverse esigenze n a volte (spesso) un formato e mantenuto esclusivamente per ragioni storiche n GBFF e semplice e questo... paga (molti tools lo usano) lezione 09 10
Formato testo Advantages: Human readable Very commonly used and understood Can be parsed using simple tools such as Perl. Disadvantages: May be difficult to unambiguously parse. Relationships between data items (neighboring, hard links) are not directly expressed. Tools are generally ad hoc; there are no standard parsing tools. lezione 09 11
Formato testo LOCUS AC105318 110811 bp DNA linear HTG 30-DEC-2001 DEFINITION Oryza sativa chromosome 5 clone OJ1058F05, *** SEQUENCING IN PROGRESS ***, 3 ordered pieces. ACCESSION AC105318 VERSION AC105318.1 GI:17998701 KEYWORDS HTG; HTGS_PHASE2. SOURCE Oryza sativa. ORGANISM Oryza sativa Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; Liliopsida; Poales; Poaceae; Ehrhartoideae; Oryzeae; Oryza. REFERENCE 1 (bases 1 to 110811) AUTHORS Chow,T.-Y., Hsing,Y.-I.C., Chen,C.-S., Chen,H.-H., Wu,H.-P., Liu,S.-M., Chao,Y.-T., Chang,S.-J., Chen,T.-R., Chen,Y.-L., Chow,M.-H.J., Hong,Y.-C., Hsiung,J.-N., Hsu,C.-H., Huang,J.-J., Kau,P.-I., Lee,M.-C., Leu,H.-L., Lin,S.-J., Wu,L.-F. and Shaw,J.-F. TITLE Oryza sativa BAC OJ1058F05 genomic sequence JOURNAL Unpublished BASE COUNT 29791 a 26081 c 24560 g 30258 t 121 others ORIGIN 1 gtttctcctc aacatcaaga gacgctatca acccctcaac ggagtattcc tatctcttgt 61 gtttgagtgc agtaccgaaa cctctccaag atggaggtaa tttcacaata atgcacctag 121 ccacaaattt gttgggtaag acacacttaa ggagttcgag ttcctcagcc atggtttgta
Formato Fasta Advantages: Human readable Simple format Understood by available searching tools Disadvantages: Incomplete; does not include all data Relationships between data items (neighboring, hard links) are not directly expressed. Tools are generally ad-hoc; there are no standard parsing tools. lezione 09 13
Formato FASTA >gi 532319 pir TVFV2E TVFV2E envelope protein ELRLRYCAPAGFALLKCNDADYDGFKTNCSNVSVVHCTNLMNTTVTTGLLLNGSYSENRT QIWQKHRTSNDSALILLNKHYNLTVTCKRPGNKTVLPVTIMAGLVFHSQKYNLRLRQAWC HFPSNWKGAWKEVKEEIVNLPKERYRGTNDPKRIFFQRQWGDPETANLWFNCHGEFFYCK MDWFLNYLNNLTVDADHNECKNTSGTKSGNKRAPGPCVQRTYVACHIRSVIIWLETISKK TYAPPREGHLECTSTVTGMTVELNYIPKNRTNVTLSPQIESIWAAELDRYKLVEITPIGF APTEVRRYTGGHERQKRVPFVXXXXXXXXXXXXXXXXXXXXXXVQSQHLLAGILQQQKL LAAVEAQQQMLKLTIWGVK
I componenti n il carattere che identifica la linea di commento > n l identificatore (GenBank accession number) n LOCUS name e DEFINITION dal GenBank record... esistono tools per la conversione (e.g. asn2ff) lezione 09 15
vedi http://www.ncbi.nlm.nih.gov/blast/fasta.html FASTA format description lezione 09 16
GBFF format n e il formato di scambio tra DDBJ EMBL GB n e organizzato mediante line type prefixes n il formato rappresenta alcune delle info relative al formato ASN.1 lezione 09 17
ASN.1 Abstract Syntax Notation One (ASN.1) is a formal language for abstractly describing messages to be exchanged among different computer systems and programs. ASN.1 was originally developed by the telecommunications industry as a data exchange format. ASN.1 is now an ISO standard. See http://asn1.elibel.tm.fr/ lezione 09 18
ASN.1 supports binary data formats and can describe information in any form (audio, video, text, etc.) ASN.1 uses a hierarchical (i.e., tree structured) data model. ASN.1 schemas are called modules. Modules are defined using a notation called Bacchus-Naur Form (BNF) that is commonly used to describe the syntax of computer languages. lezione 09 19
NCBI-Sequence DEFINITIONS ::= BEGIN Bioseq ::= SEQUENCE { id SET OF Seq-id, descr Seq-descr OPTIONAL, inst Seq-inst, annot SET OF Seq-annot OPTIONAL } -- equivalent identifiers -- descriptors -- the sequence data Seq-descr ::= SET OF Seqdesc Seqdesc ::= CHOICE { mol-type GIBB-mol, modif SET OF GIBB-mod, method GIBB-method, name VisibleString, } END -- type of molecule -- modifiers -- sequencing method -- a name for this sequence
Key Location/Qualifiers n fig. 2.5a n fig. 2.5b lezione 09 21
The GenBank database is divided into 17 divisions: 1. PRI - primate sequences 2. ROD - rodent sequences 3. MAM - other mammalian sequences 4. VRT - other vertebrate sequences 5. INV - invertebrate sequences 6. PLN - plant, fungal, and algal sequences 7. BCT - bacterial sequences 8. VRL - viral sequences 9. PHG - bacteriophage sequences 10. SYN - synthetic sequences 11. UNA - unannotated sequences 12. EST - EST sequences (expressed sequence tags) 13. PAT - patent sequences 14. STS - STS sequences (sequence tagged sites) 15. GSS - GSS sequences (genome survey sequences) 16. HTG - HTGS sequences (high throughput genomic sequences) 17. HTC - unfinished high-throughput cdna sequencing lezione 09 22