Basi di dati biologici



Documenti analoghi
Basi di dati biologici. GenBank. lezione 09 1

Laboratorio di Metodologie e Tecnologie Genetiche ESERCITAZIONE DI BIOINFORMATICA

Decode NGS data: search for genetic features

BIOINFORMATICA: Cosa è?

Introduzione al corso di bioinformatica e analisi dei genomi AA Docente: Silvia Fuselli fss@unife.it

Informatica e biotecnologie I parte

II LEZIONE. Database di interesse per la genetica e la biologia molecolare. Portali per l'accesso a database e servizi bioinformatici

SRS (Sequence Retrieval System) della EBI che mette a disposizione anche dello spazio sul server per memorizzare le richerche.

4. Ricerca di sequenze in banche dati e allineamento multiplo

Biologia Molecolare. CDLM in CTF L analisi del genoma

DATABASE DI GENETICA E BIOLOGIA MOLECOLARE

Ogni tipo ha il suo alfabeto di riferimento, e metodi specifici, nonché metodi per la conversione da un tipo all altro (trascrizione, traduzione)

Progetto Cluster. Sottoprogetto Bioinformatica

Guida all uso del web service SDMX

Drupal. E vai con un po' di Drupal for Dummies... :D. Copyright by hachreak

Web Service medra per la gestione DOI

Lezione 8. DNA sequencing informatics

2. Guida all uso del software IrfanView

Laboratorio di Bioinformatica I. Parte 1. Dott. Sergio Marin Vargas (2014 / 2015)

La gestione dei risultati: ZOTERO, un programma gratuito

Esistono Open Tools di Microsoft per migliorare le attività di ricerca scientifica

Come ordinare Geni sintetici Online

Il linguaggio SQL. è di fatto lo standard tra i linguaggi per la gestione di data base relazionali.

Esercizi di JavaScript

WEB OF SCIENCE. COVERAGE: multidisciplinary TIME RANGE: DOCUMENT TYPES: articles, proceedings papers, books

Whole genome SNPs comparison: SNPtree, NDtree, CSI Phylogeny and kmer-based analysis

FTP NAV - Guida tecnica FTP NAV - Technical Guide

Come usare TwinSpace. Benvenuti in TwinSpace!

Configuration Management

La ricerca bibliografica in ambito infermieristico

Bioinformatica (1) Introduzione. Dott. Alessandro Laganà

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

Guida all uso di. a cura dell Area Economia Applicata (AEA) - IPI

Emanuele Pascariello

Resources and Tools for Bibliographic Research. Search & Find Using Library Catalogues

Banche Dati Secondarie. geni trascritti proteine profili strutture

BANDO SCAMBI DI CLASSE PER LA CITTADINANZA EUROPEA

Esercitazioni di Genomica

Esercitazioni di Genomica

GUIDA RAPIDA PER LA REGISTRAZIONE DELLE INFORMAZIONI EDITORIALI E PER L INSERIMENTO E LA GESTIONE DEI PRODOTTI

Infrastruttura computazionale per l archiviazione e l analisi dei dati da microarray

Introduzione. Dicom in Oracle 11g: gestione e vantaggi

I geni marker sono necessari per l'isolamento di piante transgeniche (efficienza di trasf. non ottimale), ma poi non servono più.

Stored Procedures. Massimo Mecella Dipartimento di Ingegneria informatica automatica e gestionale Antonio Ruberti Sapienza Università di Roma

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

Informatica Generale Andrea Corradini Sistemi di Gestione delle Basi di Dati

Moodle 2. comandi avanzati. manuale per il docente. Albano Squizzato Paolo Macchi

Preparazione. Introduzione a MySQL: costruzione di una base di dati e gestione degli accessi. Accesso all area condivisa. Avvio Server MySQL

Utilizzo del plugin ApSIC Xbench per SDL Trados Studio 2014

Manuali.net. Nevio Martini

Access. P a r t e p r i m a

KON 3. Knowledge ON ONcology through ONtology

DNA sequencing. Reading Genomes. Giovanni Bacci

Manuale Knowledge Base

26. Bioinformatica. contiene materiale protetto da copyright, ad esclusivo uso personale; non è consentita diffusione ed utilizzo di tipo commerciale

Sequenziamento e analisi di genomi completi

Bioinformatica (modulo bioinf. dei genomi moderni )

ALBO PRETORIO WEB MANUALE DELLA PROCEDURA SOMMARIO. Uso del manuale. Informazioni generali. Interfaccia grafica. Guida di riferimento

e-science Bioinformatics

LEXIS-NEXIS PATENTS SEARCH FORM

REGISTRATION GUIDE TO RESHELL SOFTWARE

Introduzione al corso di bioinformatica e analisi dei genomi AA Docente: Silvia Fuselli fss@unife.it

Debtags. Dare un senso a pacchetti. 16 settembre slides Enrico Zini enrico@debian.org

API e socket per lo sviluppo di applicazioni Web Based

Il genoma umano. Cosa significa genoma? Ditelo con parole vostre

Architettura del. Sintesi dei livelli di rete. Livelli di trasporto e inferiori (Livelli 1-4)

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

Database. Francesco Tapparo Informatica e Bioinformatica /16

Bioinformatica. Marin Vargas, Sergio Paul

Guida alla procedura informatica di presentazione dei progetti di Ristrutturazione degli Enti. Versione 1.0

Bioinformatica ed applicazioni di bioinformatica strutturale!

Progettaz. e sviluppo Data Base

CONFIGURATION MANUAL

Zotero è un estensione di Firefox che consente di raccogliere e gestire risorse bibliografiche e accademiche

Transcript:

Basi di dati biologici Materiale da: The GenBank Sequence Database, A. D. Baxevanis. In Bioinformatics A practical Guide to the Analysis of Genes and Proteins Wiley-Liss 1998 Introduzione alla Bioinformatica (capitolo 2), G. Valle et al.. Zanichelli 2003 lezione 09 1

Esempio: GenBank Che cos e GenBank http://www.ncbi.nlm.nih.gov/ (NCBI HomePage.htm) n e il genetic sequence DataBase del NIH (National Institute of Health) n contiene sequenze (primarie) annotate di nucleotidi e di proteine n i files sono ragguppati in divisioni (caratterizzate da come sono stati ottenuti i dati) n cresce per effetto della sottomissione dei dati diretta da parte dei ricercatori (lavoro su base volontaria) lezione 09 2

International Nucleotide Sequence Database Collaboration GenBank National Center for Biotechnology Information NIH-Bethesda, Maryland DNA Database of Japan DDBJ Mishima, Japan EMBL (European Molecular Biology Laboratory) database European Bioinformatics Institute, Hinxton, England

Un po di storia (dal sito http://www.ncbi.nlm.nih.gov/education/blastinfo/milestones.html) 1962 Pauling's theory of molecular evolution 1965 Margaret Dayhoff's Atlas of Protein Sequences 1970 Needleman-Wunsch algorithm 1977 DNA sequencing and software to analyze it (Staden) 1981 Smith-Waterman algorithm developed 1981 The concept of a sequence motif (Doolittle) 1982 GenBank Release 3 made public 1982 Phage lambda genome sequenced 1983 Sequence database searching algorithm (Wilbur-Lipman) 1985 FASTP/FASTN: fast sequence similarity searching 1988 National Center for Biotechnology Information (NCBI) created at NIH/NLM 1988 EMBnet network for database distribution 1990 BLAST: fast sequence similarity searching 1991 EST: expressed sequence tag sequencing 1993 Sanger Centre, Hinxton, UK 1994 EMBL European Bioinformatics Institute, Hinxton, UK 1995 First bacterial genomes completely sequenced 1996 Yeast genome completely sequenced 1997 PSI-BLAST 1998 Worm (multicellular) genome completely sequenced 1999 Fly genome completely sequenced lezione 09 4

Come collaborano i DB? n scelte di fondo comuni n scelta di data model comuni n scambio di informazioni giornaliero n aggiornamento reciproco dei dati... e uno standard: molti utenti garantiscono buone informazioni lezione 09 5

The Landscape of Biological Data Sources PRINTS Patent USPTO BLOCKS PFAMB PIR PFAMA Patent PCT GENEPEPT PROSITEDOC LOCUS LINK DOMO NRL3D Patent JPO SWISSFAM TFCLASS PROSITE TREEMBL Medline TFMATRIX PRODOM UNIGENE EMBL TFSITE DSSP DDBJ DBSTS TFCELL GSDB TIGR SWISSPROT Entrez TAXONOMY EBI PDB Celera RHDB GENBANK HUGO GENETICCODE GDB Microbial Genomes STKE SNP WIT OMIM Fly Base KEGG ENZYME Clinical DB dbsnp Contact FASTA C. Elegans SSEARCH BLAST dbsnp Population CLUSTALW SNP Consortium

Coordinamento e servizi offerti n bisogna fare in modo che le differenze di format siano eliminate (ognuno riallinea i record nei propri formati) n bisogna evitare che gli update di uno non vengano registrati dagli altri (ognuno e responsabile dei record che inserisce) n per GenBank si intende DDBJ/EMBL/GenBank (ed e anche parte di una estesa comunita di DB) n GenBank e parte di una serie di servizi http://www.ncbi.nlm.nih.gov/sitemap/index.html lezione 09 7

Primary and secondary databases n primary (archival) secondary (curated) databases n primary database record: sequenza sperimentalmente determinata n primary database record: non rappresenta una consensus sequence La regola fondamentale e che i dati sperimentali sono importanti e tutto il resto e pericoloso (features) lezione 09 8

Che tipo di formato? n ora discutiamo il GenBank flat file (GBFF) format, il modello dei dati di NCBI verra discusso in seguito n il formato completo dei dati di NCBI e rappresentato in modo preciso mediante un linguaggio formale, ASN.1... ci sono molti formati, variamente discutibili. lezione 09 9

I formati n umani e computer hanno diverse esigenze n a volte (spesso) un formato e mantenuto esclusivamente per ragioni storiche n GBFF e semplice e questo... paga (molti tools lo usano) lezione 09 10

Formato testo Advantages: Human readable Very commonly used and understood Can be parsed using simple tools such as Perl. Disadvantages: May be difficult to unambiguously parse. Relationships between data items (neighboring, hard links) are not directly expressed. Tools are generally ad hoc; there are no standard parsing tools. lezione 09 11

Formato testo LOCUS AC105318 110811 bp DNA linear HTG 30-DEC-2001 DEFINITION Oryza sativa chromosome 5 clone OJ1058F05, *** SEQUENCING IN PROGRESS ***, 3 ordered pieces. ACCESSION AC105318 VERSION AC105318.1 GI:17998701 KEYWORDS HTG; HTGS_PHASE2. SOURCE Oryza sativa. ORGANISM Oryza sativa Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; Liliopsida; Poales; Poaceae; Ehrhartoideae; Oryzeae; Oryza. REFERENCE 1 (bases 1 to 110811) AUTHORS Chow,T.-Y., Hsing,Y.-I.C., Chen,C.-S., Chen,H.-H., Wu,H.-P., Liu,S.-M., Chao,Y.-T., Chang,S.-J., Chen,T.-R., Chen,Y.-L., Chow,M.-H.J., Hong,Y.-C., Hsiung,J.-N., Hsu,C.-H., Huang,J.-J., Kau,P.-I., Lee,M.-C., Leu,H.-L., Lin,S.-J., Wu,L.-F. and Shaw,J.-F. TITLE Oryza sativa BAC OJ1058F05 genomic sequence JOURNAL Unpublished BASE COUNT 29791 a 26081 c 24560 g 30258 t 121 others ORIGIN 1 gtttctcctc aacatcaaga gacgctatca acccctcaac ggagtattcc tatctcttgt 61 gtttgagtgc agtaccgaaa cctctccaag atggaggtaa tttcacaata atgcacctag 121 ccacaaattt gttgggtaag acacacttaa ggagttcgag ttcctcagcc atggtttgta

Formato Fasta Advantages: Human readable Simple format Understood by available searching tools Disadvantages: Incomplete; does not include all data Relationships between data items (neighboring, hard links) are not directly expressed. Tools are generally ad-hoc; there are no standard parsing tools. lezione 09 13

Formato FASTA >gi 532319 pir TVFV2E TVFV2E envelope protein ELRLRYCAPAGFALLKCNDADYDGFKTNCSNVSVVHCTNLMNTTVTTGLLLNGSYSENRT QIWQKHRTSNDSALILLNKHYNLTVTCKRPGNKTVLPVTIMAGLVFHSQKYNLRLRQAWC HFPSNWKGAWKEVKEEIVNLPKERYRGTNDPKRIFFQRQWGDPETANLWFNCHGEFFYCK MDWFLNYLNNLTVDADHNECKNTSGTKSGNKRAPGPCVQRTYVACHIRSVIIWLETISKK TYAPPREGHLECTSTVTGMTVELNYIPKNRTNVTLSPQIESIWAAELDRYKLVEITPIGF APTEVRRYTGGHERQKRVPFVXXXXXXXXXXXXXXXXXXXXXXVQSQHLLAGILQQQKL LAAVEAQQQMLKLTIWGVK

I componenti n il carattere che identifica la linea di commento > n l identificatore (GenBank accession number) n LOCUS name e DEFINITION dal GenBank record... esistono tools per la conversione (e.g. asn2ff) lezione 09 15

vedi http://www.ncbi.nlm.nih.gov/blast/fasta.html FASTA format description lezione 09 16

GBFF format n e il formato di scambio tra DDBJ EMBL GB n e organizzato mediante line type prefixes n il formato rappresenta alcune delle info relative al formato ASN.1 lezione 09 17

ASN.1 Abstract Syntax Notation One (ASN.1) is a formal language for abstractly describing messages to be exchanged among different computer systems and programs. ASN.1 was originally developed by the telecommunications industry as a data exchange format. ASN.1 is now an ISO standard. See http://asn1.elibel.tm.fr/ lezione 09 18

ASN.1 supports binary data formats and can describe information in any form (audio, video, text, etc.) ASN.1 uses a hierarchical (i.e., tree structured) data model. ASN.1 schemas are called modules. Modules are defined using a notation called Bacchus-Naur Form (BNF) that is commonly used to describe the syntax of computer languages. lezione 09 19

NCBI-Sequence DEFINITIONS ::= BEGIN Bioseq ::= SEQUENCE { id SET OF Seq-id, descr Seq-descr OPTIONAL, inst Seq-inst, annot SET OF Seq-annot OPTIONAL } -- equivalent identifiers -- descriptors -- the sequence data Seq-descr ::= SET OF Seqdesc Seqdesc ::= CHOICE { mol-type GIBB-mol, modif SET OF GIBB-mod, method GIBB-method, name VisibleString, } END -- type of molecule -- modifiers -- sequencing method -- a name for this sequence

Key Location/Qualifiers n fig. 2.5a n fig. 2.5b lezione 09 21

The GenBank database is divided into 17 divisions: 1. PRI - primate sequences 2. ROD - rodent sequences 3. MAM - other mammalian sequences 4. VRT - other vertebrate sequences 5. INV - invertebrate sequences 6. PLN - plant, fungal, and algal sequences 7. BCT - bacterial sequences 8. VRL - viral sequences 9. PHG - bacteriophage sequences 10. SYN - synthetic sequences 11. UNA - unannotated sequences 12. EST - EST sequences (expressed sequence tags) 13. PAT - patent sequences 14. STS - STS sequences (sequence tagged sites) 15. GSS - GSS sequences (genome survey sequences) 16. HTG - HTGS sequences (high throughput genomic sequences) 17. HTC - unfinished high-throughput cdna sequencing lezione 09 22