- PDF Free Download

Transcript

1

2 Banche dati di sequenze biologiche: Organizzazione e Interrogazione

3 Raccolte di dati biologici Libri Margaret Dayhoff, sequenze di proteine (NBRF) Floppy disk PDB Strutture di macromolecole Cd-rom EMBL (Heidelberg) acidi nucleici 1982 GenBank (NCBI) acidi nucleici EST (Expressed Sequence Tags) Internet WWW Genomi Trascrittomi. Oggi: migliaia di collezioni: funzioni, famiglie di proteine, motivi, vie metaboliche...

4 Utilità Utilità delle delle banche banche dati dati biologiche biologiche Sequenze geniche e genomiche Varianti geniche Espressione genica Varianti di splicing Sequenze di proteine Localizzazione di proteine Modificazioni post-traduzionali Struttura tridimensionale di molecole Network di geni/proteine Network metabolici Malattie genetiche Letteratura scientifica

5 Una Una rivista rivista scientifica scientifica dedicata dedicata alle alle banche banche dati dati biologiche biologiche

6 Definizione di banca dati :una collezione di informazioni organizzata in modo che un programma al computer possa velocemente accedere a determinate porzioni di dati Data bank (Banca dati) Collezione di dati Database (Base di dati) Collezione di dati + software per accedervi

7 Struttura Struttura delle delle banche banche dati dati Diagramma della struttura di un database. Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi).

8 Banche dati biologiche Primarie Informazione acquisita direttamente Acidi nucleici Sequenze espresse (EST) Proteine Strutture Secondarie Organizzano informazioni presenti in altre banche dati Famiglie di proteine Famiglie di strutture Promotori

9 Banche dati primarie: acidi nucleici Tre consorzi che scambiano informazioni (International Nucleotide Sequence Database Collaboration): GenBank (americana) EMBL (europea) DDBJ (giapponese)

10 Acidi nucleici: Release e aggiornamenti Una Release in cui la banca dati viene congelata ad una certa data Genetic Sequence Data Bank October NCBI-GenBank Flat File Release Distribution Release Notes 132,067,413,372 bases, 144,458,648 reported sequences + Aggiornamenti quotidiani: Es: GenBank_new, EMBL_new

11 Acidi nucleici: raccolta informazioni Inizialmente informazioni prese dalla letteratura Ora sottomesse direttamente dagli autori. La sottomissione della sequenza alle banche dati è condizione essenziale per pubblicare sulle principali riviste. I dati sono di solito segretati fino alla pubblicazione (entries hold until published) L autore ha il controllo completo della sequenza sottomessa, di conseguenza: solo l autore può modificare l informazione del proprio record, altri non possono correggere l informazione presente anche se questa è chiaramente errata la possibilità di trovare informazioni dipende da quanto accuratamente è stata descritta dall autore

12 Incremento dei dati di sequenza Vs diminuizione dei costi Sequencing costs have dropped several orders of magnitude, from $10 per finished base in 1990 to today's cost, which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence. The Scientist 17, 2003

13 Acidi nucleici: quantità di informazione 1012 basi (tera) (whole genome sequences)

14 Acidi nucleici: organismi più rappresentati Entries Bases Species Homo sapiens Mus musculus Drosophila melanogaster Rattus norvegicus Oryza sativa Arabidopsis thaliana Caenorhabditis elegans Tetraodon nigroviridis Bos taurus Glycine max Danio rerio Lycopersicon esculentum Medicago truncatula Entamoeba histolytica Xenopus laevis Chlamydomonas reinhardtii Zea mays Strongylocentrotus pur. Sus scrofa Trypanosoma brucei

15 Banche dati primarie: EST Una banca dati di sequenze espresse: dbest (Expressed sequence Tag) Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mrna, ottenute per sequenziamento parziale di un clone a cdna. il sequenziamento automatico e a singolo passo utilizza primers sul vettore contenente l'inserto. Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5' e 3' terminali del gene.

16 EST: quantità di informazione dbest release Summary by Organism - October 1, Number of public entries: 70,937,429 Homo sapiens (human) Mus musculus (mouse) Zea mays (maize) Sus scrofa (pig) Bos taurus (cattle) Arabidopsis thaliana Danio rerio (zebrafish) Glycine max (soybean) Xenopus tropicalis (clawed frog) Oryza sativa (rice) Ciona intestinalis Rattus norvegicus (rat) Triticum aestivum (wheat) Drosophila melanogaster Panicum virgatum (switchgrass) Xenopus laevis (African frog) 8,315,272 4,853,562 2,019,114 1,624,046 1,559,494 1,529,700 1,488,275 1,461,624 1,271,375 1,252,989 1,205,674 1,162,136 1,073, , , ,806 Poco più del 50% dei geni umani sequenziati dal genoma ha un corrispondente nelle EST. Le EST rappresentano principalmente il 3' (65%) o il 5' (26%). dei trascritti. Solo nell'11% dei casi le EST 'unite' costituiscono la sequenza completa di un trascritto. Molte EST sono prodotte da company biotech e disponibili a pagamento. Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze.

17 EST: I.M.A.G.E consortium The Integrated Molecular Analysis of Genomes and their Expression (IMAGE) Consortium's primary goal is to create arrayed cdna libraries and associated bioinformatics tools, and make them publicly available to the research community FEATURES source Location/Qualifiers /organism="homo sapiens" /db_xref="taxon:9606" /clone="image:69864" Se il clone da cui deriva la EST appartiene al consorzio I.M.A.G.E è possibile ottenerlo ~ gratuitamente da vari distributori

18 Banche dati primarie: proteine Consorzio (Uniprot) SwissProt (europea) PIR (americana) Sequenze di proteine determinate per sequenziamento diretto (degradazione di Edman) Sequenze ricavate dalla traduzione di sequenze codificanti di DNA, di solito annotate e commentate dai curatori della banca Altre banche dati di proteine derivano dalla traduzione automatica di GenBank e EMBL GenPep (GenBank) TREMBL(EMBL) Sono peggio annotate di SwissProt e Pir, ma più complete e aggiornate

19 Proteine: quantità di informazione ~1010 amino acidi Frequency Species Homo sapiens (Human) Mus musculus (Mouse) 9454 Arabidopsis thaliana (Mouse-ear cress) 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae (Baker's yeast) 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe (Fission yeast) 4429 Escherichia coli (strain K12) 4254 Bacillus subtilis 4253 Dictyostelium discoideum (Slime mold) 3306 Caenorhabditis elegans 3273 Xenopus laevis (African clawed frog) 3090 Drosophila melanogaster (Fruit fly) 2683 Danio rerio (Zebrafish) (Brachydanio rerio) 2547 Oryza sativa subsp. japonica (Rice) 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)

20 Formato del record: Flat File format Chiave del campo Valore del campo header : testo con le informazioni ( annotazioni ) sulla sequenza Sequenza, memorizzata dal 5 al 3

21 GenBank/DDBJ entry LOCUS DEFINITION ACCESSION VERSION KEYWORDS ORGANISM NM_ bp mrna linear PRI 15 MAR 2015 Homo sapiens insulin (INS), transcript variant 1, mrna. NM_ NM_ GI: RefSeq. Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 469) AUTHORS Geloneze B, de Oliveira Mda S, Vasques AC, Novaes FS, Pareja JC and Tambascia MA. TITLE Impaired incretin secretion and pancreatic dysfunction with older age and diabetes JOURNAL Metab. Clin. Exp. 63 (7), (2014) FEATURES Location/Qualifiers CDS /gene="ins" /translation="malwmrllpllallalwgpdpaaafvnqhlcgshlvealylvcg ERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSL YQLENYCN".. ORIGIN 1 agccctccag gacaggctgc atcagaagag gccatcaagc agatcactgt ccttctgcca 61 tggccctgtg gatgcgcctc ctgcccctgc tggcgctgct ggccctctgg ggacctgacc 121 cagccgcagc ctttgtgaac caacacctgt gcggctcaca cctggtggaa gctctctacc 181 tagtgtgcgg ggaacgaggc ttcttctaca cacccaagac ccgccgggag gcagaggacc..

22 EMBL entry ID AC DT DE KW OS OC OC.. XX SQ // DQ778082; SV 1; linear; mrna; HTC; HUM; 297 BP. DQ778082; 08 JUL 2007 (Rel. 92, Created) Homo sapiens clone BFC06103 insulin mrna, complete cds. HTC. Homo sapiens (human) Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; CDS /codon_start=1 /product="insulin" /note="ins" /translation="malwmrllpllallalwgpdpaaafvnqhlcgshlvealylvcge RGFFYTPKTRREAEDLQGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN" Sequence 297 BP; 54 A; 99 C; 88 G; 56 T; 0 other; atggccctgt ggatgcgcct cctgcccctg ctggcgctgc tggccctctg ccagccgcag cctttgtgaa ccaacacctg tgcggctcac acctggtgga ctagtgtgcg gggaacgagg cttcttctac acacccaaga cccgccggga ctgcagggca gcctgcagcc cttggccctg gaggggtccc tgcagaagcg gaacaatgct gtaccagcat ctgctccctc taccagctgg agaactactg gggacctgac agctctctac ggcagaggac tggcattgtg caactag

23 DDBJ/EMBL/GenBank Feature table

24 SwissProt/Uniprot entry ID AC DT DT DT DE GN OS OC OC OX RN RP RX RA RA RT RT RL RP RC CC CC CC CC CC CC CC CC CC CC CC CC RASK_HUMAN STANDARD; PRT; 189 AA. P01116; 21-JUL-1986 (Rel. 01, Created) 21-JUL-1986 (Rel. 01, Last sequence update) 10-OCT-2003 (Rel. 42, Last annotation update) Transforming protein p21a (K-Ras 2A) (Ki-Ras) (c-k-ras). KRAS2 OR RASK2. Homo sapiens (Human). Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. NCBI_TaxID=9606; [1] SEQUENCE FROM N.A. MEDLINE= ; PubMed= ; [NCBI, ExPASy, EBI, Israel, Japan] McGrath J.P., Capon D.J., Smith D.H., Chen E.Y., Seeburg P.H., Goeddel D.V., Levinson A.D.; "Structure and organization of the human Ki-ras proto-oncogene and a related processed pseudogene."; Nature 304: (1983). SEQUENCE FROM N.A. TISSUE=Colon carcinoma, and Lung; -!- ALTERNATIVE PRODUCTS: Event=Alternative splicing; Named isoforms=2; Comment=Isoforms differ in the C-terminal region which is encoded by two alternative exons (IVA and IVB); Name=2A; IsoId=P ; Sequence=Displayed; Name=2B; IsoId=P ; Sequence=External; -!- DISEASE: KRAS2 mutations are involved in tumor formation. -!- MISCELLANEOUS: The mammalian ras gene family consists of the Harvey and Kirsten ras genes (c-hras1 and c-kras2), an inactive Riccardo pseudogene of each (c-hras2 and Percudani c-kras1) and the N-ras gene.

25 SwissProt/Uniprot entry (continua) DR DR DR DR DR DR DR KW KW SQ // BLOCKS; P ProtoNet; P ProtoMap; P PRESAGE; P DIP; P ModBase; P SWISS-2DPAGE; GET REGION ON 2D PAGE. Proto-oncogene; GTP-binding; Prenylation; Palmitate; Lipoprotein; Alternative splicing; Disease mutation. NP_BIND GTP. NP_BIND GTP. NP_BIND GTP. DOMAIN Effector region. DOMAIN HYPERVARIABLE REGION. LIPID S-palmitoyl cysteine. LIPID S-farnesyl cysteine. VARIANT G -> C (in lung carcinoma). /Id=VAR_ VARIANT G -> V (in colon carcinoma). /Id=VAR_ VARIANT Q -> H (in lung carcinoma PR310 and pancreas T3M-4). /Id=VAR_ MUTAGEN R->A: LOSS OF GTP-BINDING ACTIVITY. SEQUENCE 189 AA; MW; B2E11C2C81 CRC64; MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

26 EST entry LOCUS H bp mrna EST 24-NOV-1995 DEFINITION PL_16 Root, Angelo Bolchi Zea mays cdna clone PL_16, mrna sequence. ACCESSION H89388 VERSION H GI: KEYWORDS EST. SOURCE Zea mays. REFERENCE 1 (bases 1 to 338) AUTHORS Ottonello,S. TITLE cdnas from maize JOURNAL Unpublished (1995) COMMENT Contact: Simone Ottonello simone@irisbioc.bio.unipr.it. FEATURES Location/Qualifiers source /organism="zea mays" /db_xref="taxon:4577" /clone="pl_16" /clone_lib="root, Angelo Bolchi" /note="vector: pmosblue; Site_1: EcoRV; mrna was purified from the root of sulfate deprived maize seedlings. cdna was constructed using anchored oligo(dt) primers, and PCR amplified in the presence of the same anchored oligo(dt) primer and random primer (Science 257: ). Amplified cdna fragments were ligated into the pmosblue vector (Amersham)." BASE COUNT 91 a 70 c 64 g 113 t ORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata //

27 Interrogazione delle banche dati Interrogare una banca dati significa fare una ricerca testuale nella porzione header dei record, contenente le informazioni di testo sulla sequenza. Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare più banche dati con una sola interfaccia Sistemi per l interrogazione: Entrez (NCBI) SRS (Sequence Retrieval System) E importante usare questi sistemi propriamente perché ottenere esattamente l informazione che si cerca interrogando le banche dati di sequenze è difficile.

28 #1 L ago nel pagliaio Si cerca di solito una sequenza specifica Il numero delle sequenze nella banca dati cresce in modo esponenziale Il numero delle sequenze indesiderate è, in modo crescente, >> delle sequenze desiderate Risultato: trovare quello che si cerca è sempre più difficile

29 #2 Nomenclatura non standard Quando si cercano informazioni in banca dati si dipende dal modo in cui l autore ha deciso di descrivere l informazione. Il modo per designare anche i geni più noti (come il 16s RNA) non è uniforme

30 #3 Errori e stranezze transciption, 72 sequenze

31 transcription

32 Porzioni ordinate di GenBank Unigene: Sequenze di Est e di mrna organizzate in cluster che rappersentano un unico trascritto. RefSeq: Sequenza di riferimento, definita da annotatori, per una data porzione genomica, mrna o proteina GENE: Loci genetici con informazioni curate da annotatori, relative a funzioni e fenotipi associati

33

34 Sistemi di interrogazione: Entrez Entrez è un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti all NCBI (National Center for Biotechnology Information) e all NLM (National Library of Medicine). Dove effettuare la ricerca limita la ricerca a particolari campi Combina le ricerche con operatori logici Le banche dati includono sequenze nucleotidiche e proteiche, strutture molecolari, genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE). Il client per l interrogazione può essere il browser o un programma a linea di comando in UNIX (Clever)

35 Banche dati genomiche

36 Banche dati genomiche

37 Museo del genoma (Valencia, Spagna) Museo de las Ciencias Príncipe Felipe - Ciudad de las Artes