|
|
- Armando Roberti
- 5 anni fa
- Visualizzazioni
Transcript
1
2 Banche dati di sequenze biologiche: Organizzazione e Interrogazione
3 Raccolte di dati biologici Libri Margaret Dayhoff, sequenze di proteine (NBRF) Floppy disk PDB Strutture di macromolecole Cd-rom EMBL (Heidelberg) acidi nucleici 1982 GenBank (NCBI) acidi nucleici EST (Expressed Sequence Tags) Internet WWW Genomi Trascrittomi. Oggi: migliaia di collezioni: funzioni, famiglie di proteine, motivi, vie metaboliche...
4 Utilità Utilità delle delle banche banche dati dati biologiche biologiche Sequenze geniche e genomiche Varianti geniche Espressione genica Varianti di splicing Sequenze di proteine Localizzazione di proteine Modificazioni post-traduzionali Struttura tridimensionale di molecole Network di geni/proteine Network metabolici Malattie genetiche Letteratura scientifica
5 Una Una rivista rivista scientifica scientifica dedicata dedicata alle alle banche banche dati dati biologiche biologiche
6 Definizione di banca dati :una collezione di informazioni organizzata in modo che un programma al computer possa velocemente accedere a determinate porzioni di dati Data bank (Banca dati) Collezione di dati Database (Base di dati) Collezione di dati + software per accedervi
7 Struttura Struttura delle delle banche banche dati dati Diagramma della struttura di un database. Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi).
8 Banche dati biologiche Primarie Informazione acquisita direttamente Acidi nucleici Sequenze espresse (EST) Proteine Strutture Secondarie Organizzano informazioni presenti in altre banche dati Famiglie di proteine Famiglie di strutture Promotori
9 Banche dati primarie: acidi nucleici Tre consorzi che scambiano informazioni (International Nucleotide Sequence Database Collaboration): GenBank (americana) EMBL (europea) DDBJ (giapponese)
10 Acidi nucleici: Release e aggiornamenti Una Release in cui la banca dati viene congelata ad una certa data Genetic Sequence Data Bank October NCBI-GenBank Flat File Release Distribution Release Notes 132,067,413,372 bases, 144,458,648 reported sequences + Aggiornamenti quotidiani: Es: GenBank_new, EMBL_new
11 Acidi nucleici: raccolta informazioni Inizialmente informazioni prese dalla letteratura Ora sottomesse direttamente dagli autori. La sottomissione della sequenza alle banche dati è condizione essenziale per pubblicare sulle principali riviste. I dati sono di solito segretati fino alla pubblicazione (entries hold until published) L autore ha il controllo completo della sequenza sottomessa, di conseguenza: solo l autore può modificare l informazione del proprio record, altri non possono correggere l informazione presente anche se questa è chiaramente errata la possibilità di trovare informazioni dipende da quanto accuratamente è stata descritta dall autore
12 Incremento dei dati di sequenza Vs diminuizione dei costi Sequencing costs have dropped several orders of magnitude, from $10 per finished base in 1990 to today's cost, which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence. The Scientist 17, 2003
13 Acidi nucleici: quantità di informazione 1012 basi (tera) (whole genome sequences)
14 Acidi nucleici: organismi più rappresentati Entries Bases Species Homo sapiens Mus musculus Drosophila melanogaster Rattus norvegicus Oryza sativa Arabidopsis thaliana Caenorhabditis elegans Tetraodon nigroviridis Bos taurus Glycine max Danio rerio Lycopersicon esculentum Medicago truncatula Entamoeba histolytica Xenopus laevis Chlamydomonas reinhardtii Zea mays Strongylocentrotus pur. Sus scrofa Trypanosoma brucei
15 Banche dati primarie: EST Una banca dati di sequenze espresse: dbest (Expressed sequence Tag) Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mrna, ottenute per sequenziamento parziale di un clone a cdna. il sequenziamento automatico e a singolo passo utilizza primers sul vettore contenente l'inserto. Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5' e 3' terminali del gene.
16 EST: quantità di informazione dbest release Summary by Organism - October 1, Number of public entries: 70,937,429 Homo sapiens (human) Mus musculus (mouse) Zea mays (maize) Sus scrofa (pig) Bos taurus (cattle) Arabidopsis thaliana Danio rerio (zebrafish) Glycine max (soybean) Xenopus tropicalis (clawed frog) Oryza sativa (rice) Ciona intestinalis Rattus norvegicus (rat) Triticum aestivum (wheat) Drosophila melanogaster Panicum virgatum (switchgrass) Xenopus laevis (African frog) 8,315,272 4,853,562 2,019,114 1,624,046 1,559,494 1,529,700 1,488,275 1,461,624 1,271,375 1,252,989 1,205,674 1,162,136 1,073, , , ,806 Poco più del 50% dei geni umani sequenziati dal genoma ha un corrispondente nelle EST. Le EST rappresentano principalmente il 3' (65%) o il 5' (26%). dei trascritti. Solo nell'11% dei casi le EST 'unite' costituiscono la sequenza completa di un trascritto. Molte EST sono prodotte da company biotech e disponibili a pagamento. Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze.
17 EST: I.M.A.G.E consortium The Integrated Molecular Analysis of Genomes and their Expression (IMAGE) Consortium's primary goal is to create arrayed cdna libraries and associated bioinformatics tools, and make them publicly available to the research community FEATURES source Location/Qualifiers /organism="homo sapiens" /db_xref="taxon:9606" /clone="image:69864" Se il clone da cui deriva la EST appartiene al consorzio I.M.A.G.E è possibile ottenerlo ~ gratuitamente da vari distributori
18 Banche dati primarie: proteine Consorzio (Uniprot) SwissProt (europea) PIR (americana) Sequenze di proteine determinate per sequenziamento diretto (degradazione di Edman) Sequenze ricavate dalla traduzione di sequenze codificanti di DNA, di solito annotate e commentate dai curatori della banca Altre banche dati di proteine derivano dalla traduzione automatica di GenBank e EMBL GenPep (GenBank) TREMBL(EMBL) Sono peggio annotate di SwissProt e Pir, ma più complete e aggiornate
19 Proteine: quantità di informazione ~1010 amino acidi Frequency Species Homo sapiens (Human) Mus musculus (Mouse) 9454 Arabidopsis thaliana (Mouse-ear cress) 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae (Baker's yeast) 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe (Fission yeast) 4429 Escherichia coli (strain K12) 4254 Bacillus subtilis 4253 Dictyostelium discoideum (Slime mold) 3306 Caenorhabditis elegans 3273 Xenopus laevis (African clawed frog) 3090 Drosophila melanogaster (Fruit fly) 2683 Danio rerio (Zebrafish) (Brachydanio rerio) 2547 Oryza sativa subsp. japonica (Rice) 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)
20 Formato del record: Flat File format Chiave del campo Valore del campo header : testo con le informazioni ( annotazioni ) sulla sequenza Sequenza, memorizzata dal 5 al 3
21 GenBank/DDBJ entry LOCUS DEFINITION ACCESSION VERSION KEYWORDS ORGANISM NM_ bp mrna linear PRI 15 MAR 2015 Homo sapiens insulin (INS), transcript variant 1, mrna. NM_ NM_ GI: RefSeq. Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 469) AUTHORS Geloneze B, de Oliveira Mda S, Vasques AC, Novaes FS, Pareja JC and Tambascia MA. TITLE Impaired incretin secretion and pancreatic dysfunction with older age and diabetes JOURNAL Metab. Clin. Exp. 63 (7), (2014) FEATURES Location/Qualifiers CDS /gene="ins" /translation="malwmrllpllallalwgpdpaaafvnqhlcgshlvealylvcg ERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSL YQLENYCN".. ORIGIN 1 agccctccag gacaggctgc atcagaagag gccatcaagc agatcactgt ccttctgcca 61 tggccctgtg gatgcgcctc ctgcccctgc tggcgctgct ggccctctgg ggacctgacc 121 cagccgcagc ctttgtgaac caacacctgt gcggctcaca cctggtggaa gctctctacc 181 tagtgtgcgg ggaacgaggc ttcttctaca cacccaagac ccgccgggag gcagaggacc..
22 EMBL entry ID AC DT DE KW OS OC OC.. XX SQ // DQ778082; SV 1; linear; mrna; HTC; HUM; 297 BP. DQ778082; 08 JUL 2007 (Rel. 92, Created) Homo sapiens clone BFC06103 insulin mrna, complete cds. HTC. Homo sapiens (human) Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; CDS /codon_start=1 /product="insulin" /note="ins" /translation="malwmrllpllallalwgpdpaaafvnqhlcgshlvealylvcge RGFFYTPKTRREAEDLQGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN" Sequence 297 BP; 54 A; 99 C; 88 G; 56 T; 0 other; atggccctgt ggatgcgcct cctgcccctg ctggcgctgc tggccctctg ccagccgcag cctttgtgaa ccaacacctg tgcggctcac acctggtgga ctagtgtgcg gggaacgagg cttcttctac acacccaaga cccgccggga ctgcagggca gcctgcagcc cttggccctg gaggggtccc tgcagaagcg gaacaatgct gtaccagcat ctgctccctc taccagctgg agaactactg gggacctgac agctctctac ggcagaggac tggcattgtg caactag
23 DDBJ/EMBL/GenBank Feature table
24 SwissProt/Uniprot entry ID AC DT DT DT DE GN OS OC OC OX RN RP RX RA RA RT RT RL RP RC CC CC CC CC CC CC CC CC CC CC CC CC RASK_HUMAN STANDARD; PRT; 189 AA. P01116; 21-JUL-1986 (Rel. 01, Created) 21-JUL-1986 (Rel. 01, Last sequence update) 10-OCT-2003 (Rel. 42, Last annotation update) Transforming protein p21a (K-Ras 2A) (Ki-Ras) (c-k-ras). KRAS2 OR RASK2. Homo sapiens (Human). Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. NCBI_TaxID=9606; [1] SEQUENCE FROM N.A. MEDLINE= ; PubMed= ; [NCBI, ExPASy, EBI, Israel, Japan] McGrath J.P., Capon D.J., Smith D.H., Chen E.Y., Seeburg P.H., Goeddel D.V., Levinson A.D.; "Structure and organization of the human Ki-ras proto-oncogene and a related processed pseudogene."; Nature 304: (1983). SEQUENCE FROM N.A. TISSUE=Colon carcinoma, and Lung; -!- ALTERNATIVE PRODUCTS: Event=Alternative splicing; Named isoforms=2; Comment=Isoforms differ in the C-terminal region which is encoded by two alternative exons (IVA and IVB); Name=2A; IsoId=P ; Sequence=Displayed; Name=2B; IsoId=P ; Sequence=External; -!- DISEASE: KRAS2 mutations are involved in tumor formation. -!- MISCELLANEOUS: The mammalian ras gene family consists of the Harvey and Kirsten ras genes (c-hras1 and c-kras2), an inactive Riccardo pseudogene of each (c-hras2 and Percudani c-kras1) and the N-ras gene.
25 SwissProt/Uniprot entry (continua) DR DR DR DR DR DR DR KW KW SQ // BLOCKS; P ProtoNet; P ProtoMap; P PRESAGE; P DIP; P ModBase; P SWISS-2DPAGE; GET REGION ON 2D PAGE. Proto-oncogene; GTP-binding; Prenylation; Palmitate; Lipoprotein; Alternative splicing; Disease mutation. NP_BIND GTP. NP_BIND GTP. NP_BIND GTP. DOMAIN Effector region. DOMAIN HYPERVARIABLE REGION. LIPID S-palmitoyl cysteine. LIPID S-farnesyl cysteine. VARIANT G -> C (in lung carcinoma). /Id=VAR_ VARIANT G -> V (in colon carcinoma). /Id=VAR_ VARIANT Q -> H (in lung carcinoma PR310 and pancreas T3M-4). /Id=VAR_ MUTAGEN R->A: LOSS OF GTP-BINDING ACTIVITY. SEQUENCE 189 AA; MW; B2E11C2C81 CRC64; MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
26 EST entry LOCUS H bp mrna EST 24-NOV-1995 DEFINITION PL_16 Root, Angelo Bolchi Zea mays cdna clone PL_16, mrna sequence. ACCESSION H89388 VERSION H GI: KEYWORDS EST. SOURCE Zea mays. REFERENCE 1 (bases 1 to 338) AUTHORS Ottonello,S. TITLE cdnas from maize JOURNAL Unpublished (1995) COMMENT Contact: Simone Ottonello simone@irisbioc.bio.unipr.it. FEATURES Location/Qualifiers source /organism="zea mays" /db_xref="taxon:4577" /clone="pl_16" /clone_lib="root, Angelo Bolchi" /note="vector: pmosblue; Site_1: EcoRV; mrna was purified from the root of sulfate deprived maize seedlings. cdna was constructed using anchored oligo(dt) primers, and PCR amplified in the presence of the same anchored oligo(dt) primer and random primer (Science 257: ). Amplified cdna fragments were ligated into the pmosblue vector (Amersham)." BASE COUNT 91 a 70 c 64 g 113 t ORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata //
27 Interrogazione delle banche dati Interrogare una banca dati significa fare una ricerca testuale nella porzione header dei record, contenente le informazioni di testo sulla sequenza. Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare più banche dati con una sola interfaccia Sistemi per l interrogazione: Entrez (NCBI) SRS (Sequence Retrieval System) E importante usare questi sistemi propriamente perché ottenere esattamente l informazione che si cerca interrogando le banche dati di sequenze è difficile.
28 #1 L ago nel pagliaio Si cerca di solito una sequenza specifica Il numero delle sequenze nella banca dati cresce in modo esponenziale Il numero delle sequenze indesiderate è, in modo crescente, >> delle sequenze desiderate Risultato: trovare quello che si cerca è sempre più difficile
29 #2 Nomenclatura non standard Quando si cercano informazioni in banca dati si dipende dal modo in cui l autore ha deciso di descrivere l informazione. Il modo per designare anche i geni più noti (come il 16s RNA) non è uniforme
30 #3 Errori e stranezze transciption, 72 sequenze
31 transcription
32 Porzioni ordinate di GenBank Unigene: Sequenze di Est e di mrna organizzate in cluster che rappersentano un unico trascritto. RefSeq: Sequenza di riferimento, definita da annotatori, per una data porzione genomica, mrna o proteina GENE: Loci genetici con informazioni curate da annotatori, relative a funzioni e fenotipi associati
33
34 Sistemi di interrogazione: Entrez Entrez è un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti all NCBI (National Center for Biotechnology Information) e all NLM (National Library of Medicine). Dove effettuare la ricerca limita la ricerca a particolari campi Combina le ricerche con operatori logici Le banche dati includono sequenze nucleotidiche e proteiche, strutture molecolari, genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE). Il client per l interrogazione può essere il browser o un programma a linea di comando in UNIX (Clever)
35 Banche dati genomiche
36 Banche dati genomiche
37 Museo del genoma (Valencia, Spagna) Museo de las Ciencias Príncipe Felipe - Ciudad de las Artes
Banche dati di sequenze biologiche: interrogazione e ricerca di omologia
Banche dati di sequenze biologiche: interrogazione e ricerca di omologia Raccolte di dati biologici Libri - 1960 Margaret Dayhoff, collezione di proteine (NBRF) Floppy disk - 1977 PDB Strutture di macromolecole
DettagliBanche dati di sequenze biologiche: Organizzazione e Interrogazione
Banche dati di sequenze biologiche: Organizzazione e Interrogazione Raccolte di dati biologici Libri - 1960 Margaret Dayhoff, collezione di proteine (NBRF) Floppy disk Cd rom - 1977 PDB Strutture di macromolecole
DettagliBanche Dati Primarie di Biosequenze
Descrizione Ie banche dati primarie delle sequenze nucleotidiche EMBL, GenBank e DDBJ sono una collezione di sequenze di DNA e RNA che provengono dalla letteratura scientifica e dalle sequenze brevettate.
DettagliBioinformatica. :studio dei problemi biologici attraverso le metodologie dell'informatica
Bioinformatica :studio dei problemi biologici attraverso le metodologie dell'informatica Sinomimi: biochimica computazionale, biologia molecolare computazionale Viceversa: Biocomputazione, algoritmi genetici,
DettagliDatabase genomici primari
Esercitazione di laboratorio di bioinformatica Seconda parte: I principali database genomici e proteomici Slide ricavate dal corso di Laboratorio Integrato di Biologia Computazionale Francesca Cordero
DettagliInformatica e biotecnologie I parte. Informatica e biotecnologie. Banche dati biologiche: sommario. Strumenti per
Informatica e biotecnologie I parte Banche dati biologiche e analisi di sequenze CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC CGAAATCGCATCAGCATACGATCGCATGC Informatica e biotecnologie Strumenti
DettagliBanche Dati. Docente: Dr. Antinisca DI MARCO
Docente: Dr. Antinisca DI MARCO Email: antinisca.dimarco@di.univaq.it La biologia molecolare produce una grande mole di dati che può essere memorizzata in database general-purpose o specialized (es. immunological):
DettagliCorso di Elementi di Bioinformatica
Corso di Elementi di Bioinformatica Laurea Triennale in Informatica I dati e le banche dati in Bioinformatica Anno Accademico 2015-2016 Docente del laboratorio: Raffaella Rizzi 1 Il DNA (oggetto biologico)
DettagliBanche Dati proteiche
Banche Dati proteiche Un altro grande database è UniProt, The Universal Protein Resource (http://www.uniprot.org/) nel quale sono radunate le sequenze proteiche, e le annotazione delle stesse, ottenute
DettagliLaboratorio di Metodologie e Tecnologie Genetiche ESERCITAZIONE DI BIOINFORMATICA
Laboratorio di Metodologie e Tecnologie Genetiche ESERCITAZIONE DI BIOINFORMATICA Bioinformatica - Scienza interdisciplinare coinvolgente la biologia, l informatica, la matematica e la statistica per l
DettagliLaboratorio di Bioinformatica I. Parte 2. Dott. Sergio Marin Vargas (2014 / 2015)
Laboratorio di Bioinformatica I Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015) Google Scholar https://scholar.google.it/ E un motore di ricerca di Google, specializzato nella ricerca di articoli
DettagliDatabase biologici (banche di dati biologici)
1 Lo sviluppo di tecnologie strumentali sempre più sofisticate ha portato ad una enorme produzione di dati biologici. Per la gestione di questi dati è quindi necessario disporre di potenti sistemi di archiviazione
DettagliLaboratorio di Elementi di Bioinformatica
Laboratorio di Elementi di Bioinformatica Laurea Triennale in Informatica (codice: E3101Q116) AA 2015/2016 Parsing di un file in formato EMBL (parte I) Docente del laboratorio: Raffaella Rizzi 1 Esercizio
DettagliLaboratorio di Elementi di Bioinformatica
Laboratorio di Elementi di Bioinformatica Laurea Triennale in Informatica (codice: E3101Q116) AA 2016/2017 I dati in Bioinformatica Docente del laboratorio: Raffaella Rizzi 1 Il DNA (oggetto biologico)
DettagliBellini Lara matricola: Tesina di Biologia Molecolare 2
Bellini Lara matricola: 594736 Tesina di Biologia Molecolare 2 Argomento: Scegli una proteina di Drosophila e trovala in Uniprot.Descrivi le informazioni presenti nel record ed i collegamenti a risorse
DettagliOgni tipo ha il suo alfabeto di riferimento, e metodi specifici, nonché metodi per la conversione da un tipo all altro (trascrizione, traduzione)
BioPython Descrizione Il progetto BioPython è un associazione di sviluppatori di codice Python liberamente disponibile per bioinformatica La homepage del progetto è http://www.biopython.org Il codice viene
DettagliInformatica e Bioinformatica A. A
GQuery (http://www.ncbi.nlm.nih.gov/gquery/) è il punto di partenza per eseguire query su tutti o parte dei database dell NCBI: si basa sul sistema di interrogazione ENTREZ Informatica e Bioinformatica
DettagliLaboratorio di Bioinformatica I. Parte 1. Dott. Sergio Marin Vargas (2014 / 2015)
Laboratorio di Bioinformatica I Banche dati Parte 1 Dott. Sergio Marin Vargas (2014 / 2015) Introduzione a NCBI National Center for Biotechnology Information (NCBI) http://www.ncbi.nlm.nih.gov/ NCBI Databases
DettagliDataBase Biologici 1
DataBase Biologici 1 Lo sviluppo di tecnologie strumentali sempre più sofisticate ha portato ad una enorme produzione di dati biologici. Per la gestione di questi dati è quindi necessario disporre di potenti
DettagliPrincipali Database biologici
Principali Database biologici Acidi nucleici: -Sequenze DNA genomico -Sequenze di trascritti (mrna) La maggior quantità di dati biologici presenti nei database è rappresentata da sequenze di acidi nucleici
DettagliTesina di Biologia Molecolare II
MELATO GIULIA 595033 Tesina di Biologia Molecolare II Mostra un albero filogenetico con la relazione tra Uomo, Topo e Ratto. Che banca dati è disponibile per quest'ultimo organismo? Descrivi alcune caratteristiche
DettagliIl progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.
Il progetto Genoma Umano è iniziato nel 1990. E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Progetto internazionale finanziato da vari paesi, affidato
DettagliMETODOLOGIE BIOCHIMICHE ESERCITAZIONE DI BIOINFORMATICA
METODOLOGIE BIOCHIMICHE ESERCITAZIONE DI BIOINFORMATICA Scopo di questa esercitazione è apprendere l utilizzo di internet per: STUDIO DELLA STRUTTURA E DELLA FUNZIONE DELLE PROTEINE Conoscere i database
DettagliStruttura dei genomi delle piante
Struttura dei genomi delle piante Genomi sequenziati Caratteristiche dei genomi delle piante Classi di geni e funzioni Trasposoni e dimensioni dei genomi Sintenia e colinearità Livelli di organizzazione
DettagliMETODOLOGIE BIOCHIMICHE ESERCITAZIONE DI BIOINFORMATICA
METODOLOGIE BIOCHIMICHE ESERCITAZIONE DI BIOINFORMATICA Scopo di questa esercitazione è apprendere l utilizzo di internet per: STUDIO DELLA STRUTTURA E DELLA FUNZIONE DELLE PROTEINE Conoscere i database
DettagliProvate rispondere alle domande, se ci riuscirete, sarete pronti a superare l esame per quanto riguarda la parte di bioinformatica.
Per aiutarvi ho elaborato (frettolosamente) questi quesiti che dovrebbero aiutarvi ad individuare gli argomenti importanti del corso ed a darvi un idea delle domande che potrebbero esservi poste all esame.
DettagliPrincipali Database biologici
Principali Database biologici Acidi nucleici: -Sequenze DNA genomico -Sequenze di trascritti (mrna) La maggior quantità di dati biologici presenti nei database è rappresentata da sequenze di acidi nucleici
DettagliDescrizione generale dell esame
Descrizione generale dell esame Ci saranno 15 domande a risposta multipla: le risposte corrette aggiungono punti le risposte sbagliate tolgono punti Ciascuna domanda avrà 2 risposte corrette e due sbagliate
DettagliGenomica, proteomica, genomica strutturale, banche dati.
Genomica, proteomica, genomica strutturale, banche dati. Alcune pietre miliari della biologia anno risultato 1866 Mendel scopre i geni 1944 il DNA è il materiale genetico 1951 prima sequenza di una proteina
DettagliBanche dati molti dati sulle proteine derivano dalle banche dati primarie
Banche dati Banche dati Si possono raggruppare in varie categorie in base al tipo di dato biologico che raccolgono e organizzano, ma ce ne sono alcune che sono da considerarsi fondamentali: - banche dati
DettagliRELAZIONE di BIOLOGIA MOLECOLARE
NOME: Marini Selena MATRICOLA: 592330 RELAZIONE di BIOLOGIA MOLECOLARE CHE ORGANISMO MODELLO È DICTYOSTELIUM? CHE RISORSE BIOINFORMATICHE AGEVOLANO I RICERCATORI CHE LO STUDIANO? Dictyostelium è un genere
DettagliGENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi
GENOMA EVOLUZIONE CONTENUTO FUNZIONE STRUTTURA Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine Progetti genoma in centinaia di organismi Importante la sintenia tra i genomi The
DettagliEsercitazioni Informatiche e Telematiche
Esercitazioni Informatiche e Telematiche Scuola di Farmacia e Nutraceutica Università Magna Graecia di Catanzaro I Anno, I Semestre, A.A. 2015/2016 Ing. Alessia Sarica 2 Informazioni Docente Ing. Alessia
DettagliBanche dati biologiche
Banche dati biologiche Tipi di basi di dati Acidi nucleici GenBank, EMBL Data Library, DNA Data Bank of Japan Sequenze proteiche PIR, Swiss-Prot, TrEMBL, UniProt Strutture Protein Data Bank Pubblicazioni
DettagliPrincipi di biologia
Principi di biologia Prof.ssa Flavia Frabetti Tecnici di lab. 2009-10 BIOLOGIA è la scienza della vita, che indaga le caratteristiche dei sistemi viventi biologia animale biologia cellulare biologia molecolare
DettagliBioinformatica ed applicazioni di bioinformatica strutturale!
Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica! Le banche dati! Programmi per estrarre ed analizzare i dati! I numeri! Cellule nell uomo! Geni nell uomo! Genoma umano Il dogma
DettagliDatabase di sequenze. Dati di sequenza. Caratteristiche dei dati della biologia molecolare. I dati ed i problemi della bioinformatica
I dati ed i problemi della bioinformatica Giorgio Valentini DSI Università degli Studi di Milano 1 Caratteristiche dei dati della biologia molecolare Diverse tipologie di dati bio-molecolari Per ogni tipo
DettagliIl Corso sarà tenuto nei giorni di Lunedì, Mercoledì e Venerdì dalle ore 17 alle ore 19.
Docente: Prof. Alfredo Ferro Il Corso sarà tenuto nei giorni di Lunedì, Mercoledì e Venerdì dalle ore 17 alle ore 19. Programma del Corso DATA ARGOMENTO 09/03/2011 Introduzione al corso. Slides Panoramica
DettagliII LEZIONE. Database di interesse per la genetica e la biologia molecolare. Portali per l'accesso a database e servizi bioinformatici
II LEZIONE Database di interesse per la genetica e la biologia molecolare Portali per l'accesso a database e servizi bioinformatici DATABASE DI GENETICA E BIOLOGIA MOLECOLARE OMIM Online Mendelian Inheritance
DettagliEvoluzione del genoma. Silvia Fuselli, 29 novembre 2011
Evoluzione del genoma Silvia Fuselli, fss@unife.it 29 novembre 2011 In questa lezione parleremo di Meccanismi di evoluzione del genoma Formazione di nuovi geni Dimensioni del genoma e complessità degli
DettagliModulo Laboratorio A.A. 2014/2015
Biochimica - Laboratorio di Bioinformatica I (CdL. Bioinformatica) Bioinformatica e banche dati biologiche (CdL. Biotecnologie) Modulo Laboratorio A.A. 2014/2015 Docente: Dr. Sergio Marin Vargas Mail:
DettagliIn molecular terms, a gene commonly is defined as the entire nucleic acid sequence that is necessary for the synthesis of a functional polypeptide.
In molecular terms, a gene commonly is defined as the entire nucleic acid sequence that is necessary for the synthesis of a functional polypeptide. Lodish et al. Molecular Cell Biology In molecular terms,
Dettagli50 kb 4-5 milioni milioni 100 milioni 165 milioni Fago E. Coli S. cerevisiae C. elegans D. melanogaster. Human 3 miliardi
Genomi GENOMI 50 kb 4-5 milioni 12-13 milioni 100 milioni 165 milioni Fago E. Coli S. cerevisiae C. elegans D. melanogaster Human 3 miliardi Problematiche etiche, privacy, scelte lavorative, rapporto
DettagliDimensioni dei Genomi Eucariotici
Dimensioni dei Genomi Eucariotici plasmids viruses bacteria fungi plants algae insects mollusks bony fish amphibians Il Genoma umano è costituito da circa 3 miliardi di bp e contiene un numero di geni
DettagliLA BIOLOGIA MOLECOLARE E UNA BRANCA DELLA BIOLOGIA CHE STUDIA LE BASI MOLECOLARI DELLE FUNZIONI BIOLOGICHE, PONENDO UNA PARTICOLARE ATTENZIONE A QUEI
CONCETTI DI BASE LA BIOLOGIA MOLECOLARE E UNA BRANCA DELLA BIOLOGIA CHE STUDIA LE BASI MOLECOLARI DELLE FUNZIONI BIOLOGICHE, PONENDO UNA PARTICOLARE ATTENZIONE A QUEI PROCESSI CHE COINVOLGONO GLI ACIDI
DettagliL organizzazione del genoma. Prof. Savino; dispense di Biologia Molecolare, Corso di Laurea in Biotecnologie
L organizzazione del genoma L organizzazione del genoma Fino ad ora abiamo studiato la regolazione dell espressione genica prendendo come esempio singoli geni dei batteri. Ma quanti geni ci sono in un
DettagliInformatica e biotecnologie I parte
Informatica e biotecnologie I parte Banche dati biologiche Bioinformatica La Bioinformatica è una disciplina che affronta con metodiche proprie delle Scienze dell'informazione problemi propri della Biologia.
DettagliBasi di dati biologiche
Basi di dati biologiche Seminario per il corso di Basi di Dati II Luana Rinaldi luana.rinaldi@gmail.com AGENDA: Introduzione alla bioinformatica; Concetti Biologici; Banche dati biologiche; Collaborazioni
DettagliIntroduzione alla Genomica
Laboratorio di Bioinformatica I Introduzione alla Genomica Dott. Sergio Marin Vargas (2014 / 2015) Il Genoma umano Gene codificanti proteine Gene non codificanti proteine Geni codificanti proteine 3 Il
DettagliInternet web: >8,000,000,000 pagine
Internet web: >8,000,000,000 pagine Merck Index: >10.000 monografie su composti chimici Uric Acid Ammonia is a universal participant in amino acid synthesis and degradation, but its accumulation has toxic
DettagliIndice. Prefazione MODULO A DALLA SCOPERTA DEL DNA AL CODICE GENETICO E STRUTTURA DEGLI ACIDI NUCLEICI 1
Indice Prefazione V MODULO A DALLA SCOPERTA DEL DNA AL CODICE GENETICO E STRUTTURA DEGLI ACIDI NUCLEICI 1 Capitolo 1 Introduzione alla Biologia Molecolare 3 1.1 Che cos è la Biologia Molecolare? 3 1.2
DettagliBasi Teoriche e Applicazioni delle Nuove Tecnologie Genomiche
Corsi di laurea magistrale in: Biotecnologie agrarie e ambientali (LM-7) Biologia cellulare e molecolare (LM-6) Sicurezza e qualitàagroalimentare (LM-69 & LM-70) insegnamento di Basi Teoriche e Applicazioni
DettagliOttimizzazione del protocollo bioinformatico per l annotazione di geni codificanti proteine in genomi complessi. Marin Vargas, Sergio Paul
Ottimizzazione del protocollo bioinformatico per l annotazione di geni codificanti proteine in genomi complessi Marin Vargas, Sergio Paul 2012 Con l avvento del sequenziamento NGS a costi sempre più contenuti,
Dettagli26. Bioinformatica. contiene materiale protetto da copyright, ad esclusivo uso personale; non è consentita diffusione ed utilizzo di tipo commerciale
26. Bioinformatica contiene materiale protetto da copyright, ad esclusivo uso personale; non è consentita diffusione ed utilizzo di tipo commerciale Lo sviluppo delle Biotecnologie ha consentito di elevare
DettagliStrategie di annotazione di geni e genomi
Strategie di annotazione di geni e genomi Dr. Giovanni Emiliani giovanni.emiliani@unifi.it Bioinformatica A.A. 2011-1012 Concetti generali Le nuove tecnologie consentono l ottenimento di una grande mole
DettagliBioinformatica. Analisi del genoma
Bioinformatica Analisi del genoma GABRIELLA TRUCCO CREMA, 5 APRILE 2017 Cosa è il genoma? Insieme delle informazioni biologiche, depositate nella sequenza di DNA, necessarie alla costruzione e mantenimento
DettagliTecnologia del DNA ricombinante
Tecnologia del DNA ricombinante Scoperte rivoluzionarie che hanno permesso lo studio del genoma e della funzione dei singoli geni Implicazioni enormi nel progresso della medicina: comprensione malattie
DettagliDATABASE DI GENETICA E BIOLOGIA MOLECOLARE
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE OMIM Online Mendelian Inheritance in Man EntrezGene curated sequence and descriptive information about genetic loci GenCards HGMD dbsnp database of human genes,
Dettagli= ca. 1,7 mt. 3*10 9 (devono rientrare in uno
CROMATINA E CROMOSOMI UNA SCALA DI GRANDEZZE (E. coli) RNA + proteine Histon-like + DNA 4,64 Mb UNA SCALA DI GRANDEZZE (H. sapiens) TTCAGGAAATGACCCCTTTGCCCCGTCTGAAGGTAGTGCAGAGGCTGCACCTGAGCTGGACCTCTTTGCAATGAAGCCACCT
DettagliSommario. Presentazione dell opera Ringraziamenti
Sommario Presentazione dell opera Ringraziamenti XI XII Capitolo 1 Introduzione alla bioinformatica 1 1.1 Cenni introduttivi 1 1.2 Pietre miliari della bioinformatica 2 1.3 Infrastrutture bioinformatiche
DettagliREGOLAZIONE DELL ESPRESSIONE GENICA. Controllo trascrizionale in E. coli. Esempio: Lac operon
REGOLAZIONE DELL ESPRESSIONE GENICA Controllo trascrizionale in E. coli Esempio: Lac operon Nel genoma di un batterio ci sono circa 4000 geni Nel genoma umano ci sono circa 25000 geni. Espressione costitutiva:
DettagliBioinformatica. Marin Vargas, Sergio Paul
Bioinformatica Marin Vargas, Sergio Paul 2014 Wikipedia: La bioinformatica è una disciplina scientifica dedicata alla risoluzione di problemi biologici a livello molecolare con metodi informatici. La bioinformatica
DettagliYou created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)
CROMATINA E CROMOSOMI UNA SCALA DI GRANDEZZE (E. coli) RNA + proteine Histon-like + DNA 4,64 Mb UNA SCALA DI GRANDEZZE (H. sapiens) TTCAGGAAATGACCCCTTTGCCCCGTCTGAAGGTAGTGCAGAGGCTGCACCTGAGCTGGACCTCTTTGCAATGAAGCCACCT
DettagliLezione 2. Genomi: struttura, contenuto, organizzazione
Lezione 2 Genomi: struttura, contenuto, organizzazione Dimensioni e organizzazione dei genomi Origine della vita sulla terra: 3,5 miliardi di anni fa..ecucarioti 2 miliaridi di anni dopo La genomica comparata
DettagliBasi di dati. Alberto Policriti. Dipartimento di Matematica e Informatica Istituto di Genomica Applicata. 15 Maggio, 2018
Basi di dati Alberto Policriti Dipartimento di Matematica e Informatica Istituto di Genomica Applicata 15 Maggio, 2018 A. Policriti Basi di dati 1/41 Informazioni A. Policriti Basi di dati 2/41 Attività
DettagliInterazioni proteina-dna
Interazioni proteina-dna 1) Proteine che legano la doppia elica del DNA in maniera non sequenza-specifica: histone-like proteins (HU protein) 2) Proteine che legano strutture particolari del DNA: - single
DettagliL Era Genomica. Da: Binnewies et et al. (Funct. Integr. Genomics 6: , 2006)
L Era Genomica Il 1995, data della pubblicazione del primo genoma procariotico (Haemophilus influenzae) segna l inizio dell era genomica. A partire da quella data molti altri genomi procariotici ed eucariotici
Dettaglimicrorna Struttura e Funzione
microrna Struttura e Funzione Cinzia Di Pietro Università degli Studi di Catania Dipartimento di Scienze Biomediche e Biotecnologiche Sezione di Biologia e Genetica G. Sichel I MicroRNAs (mirnas) sono
DettagliApplicazione della biologia molecolare nella valutazione del benessere del cavallo
UNIVERSITA DEGLI STUDI DI PERUGIA FACOLTA DI MEDICINA VETERINARIA Centro di Studio del Cavallo Sportivo Applicazione della biologia molecolare nella valutazione del benessere del cavallo Andrea Verini
DettagliAnno Accademico 2018/2019
Anno Accademico 2018/2019 BIOINFORMATICA Anno immatricolazione 2017/2018 Anno offerta 2018/2019 Normativa SSD Dipartimento Corso di studio Curriculum DM270 ING-INF/06 (BIOINGEGNERIA ELETTRONICA E INFORMATICA)
DettagliBasi di dati. Alberto Policriti. Dpt. of Mathematics and Informatics, University of Udine. Applied Genomics Institute.
Basi di dati Alberto Policriti Dpt. of Mathematics and Informatics, University of Udine. Applied Genomics Institute 17 gennaio 2010 Informazioni Attività di un organizzazione Raccolta delle informazioni
DettagliBioinformatica (3) Banche dati biologiche. Dott. Alessandro Laganà
Bioinformatica (3) Banche dati biologiche Dott. Alessandro Laganà Banche dati biologiche Organismi e sequenze biologiche Rappresentazione digitale dei dati biologici e formati Banche dati generiche: NCBI,
DettagliGenomi vegetali Da 7x10 7 bp per genoma aploide (130Mbp diploide, 5 cromosomi) di Arabidopsis thaliana alle 1,5x10 11 bp ( Mbp=150Gbp) di una
Genomi vegetali Da 7x10 7 bp per genoma aploide (130Mbp diploide, 5 cromosomi) di Arabidopsis thaliana alle 1,5x10 11 bp (150.000Mbp=150Gbp) di una Liliacea. Tra le graminacee il frumento ha un genoma
DettagliDecode NGS data: search for genetic features
Decode NGS data: search for genetic features Valeria Michelacci NGS course, June 2015 Blast searches What we are used to: online querying NCBI database for the presence of a sequence of interest ONE SEQUENCE
DettagliInformatica e Bioinformatica
Corso di studi in Biologia A.A. 2013-2014 Informatica e Bioinformatica Alessandro Vezzi, PhD Dipartimento di Biologia III piano sud Lab n 15 Telefono 049 827 6243 E-mail: alessandro.vezzi@unipd.it Informatica
DettagliDal Genoma all Epigenoma..
Dal Genoma all Epigenoma.. Nel 2001 sono stati pubblicati i risultati della mappatura del genoma umano (progetto genoma umano) che hanno mostrato la sequenze delle basi che formano il nostro materiale
DettagliSRS (Sequence Retrieval System) della EBI che mette a disposizione anche dello spazio sul server per memorizzare le richerche.
I due centri maggiori, EBI e NCBI hanno sviluppato sistemi dedicati di RETRIEVAL allo scopo di ottenere il massimo delle informazioni con il minimo sforzo da parte dell utente SRS (Sequence Retrieval System)
DettagliCome facciamo ad isolare un gene da un organismo? Utilizziamo una libreria ovvero una collezione dei geni del genoma del cromosoma di un organismo
Come facciamo ad isolare un gene da un organismo? Utilizziamo una libreria ovvero una collezione dei geni del genoma del cromosoma di un organismo GENOMA di alcuni organismi viventi raffigurato come libri
DettagliMappe fisiche. Si basano sulla localizzazione fisica delle molecole di DNA
Mappe fisiche Si basano sulla localizzazione fisica delle molecole di DNA Costruzione di una mappa fisica diversi metodi - Mappe a bassa risoluzione - Mappe ad alta risoluzione Risoluzione= distanza a
DettagliLaboratorio di Informatica
Corso di laurea in Scienze Biologiche A.A. 2012/13 Laboratorio di Informatica Gruppi 1 e 4 Modulo 1 - browsing RICERCA IN INTERNET Liberamente rielaborato a partire da Lanzarotti Quali strumenti per quali
DettagliVai al sito: Incolla nel box vuoto la sequenza nucleotidica
Identificare il gene a cui appartiene la sequenza (sonda) e la sua posizione sul cromosoma. Per raggiungere l obiettivo della prima parte dell attività devi usare il software BLAT (BLAST- Like Alignment
DettagliCorso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli. Esercizi ricerche in banche dati
Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli Esercizi ricerche in banche dati 1) Nel romanzo fantasy Jurassic Park di Michael Crichton sulla possibilità di clonare i dinosauri,
DettagliSperimenta il BioLab Attività di Bioinformatica Navigare tra i genomi umano e murino
Sperimenta il BioLab Attività di Bioinformatica Navigare tra i genomi umano e murino Università degli Studi di Milano Settore Didattico, via Celoria 20, Milano Laboratorio 105 INTRODUZIONE In questa attività
DettagliBiologia Molecolare e Bioinformatica
Biologia Molecolare e Bioinformatica Molecular Biology and Bioinformatics CFU 12 SSD BIO/11 a.a. 2018-2019 Corso di laurea in Biotecnologie Agro-Ambientali e Alimentari Docente: Maria Luisa Chiusano Tel.
DettagliBIOINFORMATICA: Cosa è?
BIOINFORMATICA: Cosa è? THE DEFINITIONS OF BIOINFORMATICS Bioinformatics is an integration of mathematical, statistical and computer methods to analyse biological, biochemical and biophysical data (Georgia
DettagliEsistono Open Tools di Microsoft per migliorare le attività di ricerca scientifica
CL3 - Biotecnologie Esistono Open Tools di Microsoft per migliorare le attività di ricerca scientifica Le informazioni necessarie al progresso scientifico sono spesso difficili da trovare, sommerse nelle
DettagliGli rrnas sono gli RNAs più abbondanti nelle cellule. Nelle cellule in attiva proliferazione rappresentano l 80% dell RNA totale
Gli rrnas sono gli RNAs più abbondanti nelle cellule. Nelle cellule in attiva proliferazione rappresentano l 80% dell RNA totale I geni che codificano gli rrna sono presenti in copia multipla nel genoma
DettagliLaboratorio di Elementi di Bioinformatica
Laboratorio di Elementi di Bioinformatica Laurea Triennale in Informatica (codice: E30Q6) AA 205/206 Esempio di workflow Docente del laboratorio: Raffaella Rizzi Scopo del workflow Scopo: dato un insieme
DettagliTRE PAROLE CHIAVE DELLA GENETICA
TRE PAROLE CHIAVE DELLA GENETICA Questo documento è pubblicato sotto licenza Creative Commons Attribuzione Non commerciale Condividi allo stesso modo http://creativecommons.org/licenses/by-nc-sa/2.5/deed.it
DettagliOsservando la Genoma con Ensembl. Dr. Giulietta Spudich Ensembl User Support
Osservando la Genoma con Ensembl Dr. Giulietta Spudich Ensembl User Support Introduzione Un Worked Example Parte Pratica Ordine del Giorno Polaris, Febbraio 2007 Lettura del Programma BioMart Esercizi
DettagliLaboratorio di Elementi di Bioinformatica
Laboratorio di Elementi di Bioinformatica Laurea Triennale in Informatica (codice: E3101Q116) AA 2016/2017 Formato GTF per annotare un gene Docente del laboratorio: Raffaella Rizzi 1 GTF (Gene Transfer
DettagliInformatica e Bioinformatica: Basi di Dati
Informatica e Bioinformatica: Date TBD Bioinformatica I costi di sequenziamento e di hardware descrescono vertiginosamente si hanno a disposizione sempre più dati e hardware sempre più potente e meno costoso...
DettagliIntroduzione a. Aggiornamento gennaio Biblioteca medica Vincenzo Pinali Polo di Medicina 1
Introduzione a Aggiornamento gennaio 2015 Biblioteca medica Vincenzo Pinali Polo di Medicina 1 Cos è Pubmed - 1 Banca dati bibliografica, cioè archivio di citazioni, curato dal National Center of Biotechnology
DettagliEsempio di utilizzo del programma BLAST disponibile all NCBI Form di Nucleotide BLAST
Esempio di utilizzo del programma BLAST disponibile all NCBI www.ncbi.nlm.nih.gov/blast Form di Nucleotide BLAST Per un uso più avanzato, si possono impostare parametri particolari (es. cost to open gap,
DettagliAllineamenti a coppie
Laboratorio di Bioinformatica I Allineamenti a coppie Dott. Sergio Marin Vargas (2014 / 2015) ExPASy Bioinformatics Resource Portal (SIB) http://www.expasy.org/ Il sito http://myhits.isb-sib.ch/cgi-bin/dotlet
DettagliSpettrometria di Massa applicata alla PROTEOMICA
Spettrometria di Massa applicata alla PROTEOMICA 1. MALDI-TOF: Determinazione di mappe peptidiche mediante digestione in gel di spot separati su E-2D E da estratti proteici totali Identificazione rapida
DettagliIndice. Stabilità della doppia elica di DNA in soluzione 23 Strutture alternative e strutture superiori degli acidi nucleici 25
Indice DALLA SCOPERTA DEL DNA AL CODICE GENETICO E STRUTTURA DEGLI ACIDI NUCLEICI A Capitolo 1 Introduzione alla Biologia Molecolare 3 1.1 Che cos è la Biologia Molecolare? 3 1.2 Il gruppo del fago e la
DettagliLe biotecnologie. Sadava et al. Biologia La scienza della vita Zanichelli editore 2010
Le biotecnologie 1 Cosa sono le biotecnologie? Le biotecnologie sono tutte quelle tecniche utilizzate (fin dall antichità) per produrre sostanze specifiche a partire da organismi viventi o da loro derivati.
DettagliStruttura della cromatina
Struttura della cromatina Il DNA nel nucleo è protetto dall azione delle nucleasi Se la cromatina viene trattata con nucleasi aspecifiche la maggior parte del DNA viene frammentata in frammenti di 200
DettagliFormati di scambio dati
Formati di scambio dati Genbank È il genetic sequence DataBase del NIH (National Institute of Health) Contiene sequenze (primarie) annotate di nucleotidi e di proteine I files sono ragguppati in divisioni
Dettagli