Principali Database biologici

Principali Database biologici Acidi nucleici: -Sequenze DNA genomico -Sequenze di trascritti (mrna) La maggior quantità di dati biologici presenti nei database è rappresentata da sequenze di acidi nucleici -Sequenze EST (corte sequenze di trascritti) Proteine: -Sequenze delle proteine ottenute in modo diretto (degradazione di Edman) -Sequenze proteiche ricavate dalle sequenze nucleotidiche (traduzione) -Studi di espressione proteica (gel bidimensionale e spettrometria di massa) -Cristallografia e determinazione delle strutture secondarie e terziarie Noi ci occuperemo soprattutto delle sequenze nucleotidiche ed in parte delle sequenze proteiche 1

Sequenze di acidi nucleici Alla fine degli anni 70 Maxam-Gilbert e Sanger hanno ideato due differenti tecniche per il sequenziamento del DNA basato sulla sintesi del DNA in vitro in presenza di opportuni terminatori marcati. Le sequenze che si ricavano hanno la direzione 5 3 (domanda: lo stampo per la sintesi di queste sequenze che direzione avrà?) Oggi sono disponibili delle nuovissime tecniche con le quali è possibile ottenere più di mezzo milione di sequenze in un singolo esperimento (queste nuove tecniche produrranno una nuova rivoluzione nella ricerca genomica) ATTENZIONE: Con le attuali tecniche di sequenziamento si ottengono solo corte sequenze (inferiori a 1000 bp): all aumentare della lunghezza si perde in risoluzione ed in qualità. Le basi non risolte vengono indicate con n 2

Esempio: Le sequenze lunghe hanno una scarsa qualità al 3 >CF5530xx.0 Ggagcccggacgtccaagagatgtcttctgggagccactgggcaattgccagggctccaggaagggctctggctcaggt Tgcagacagctgagaaaagatggccctgtcagccaccctctctcagtctgaaacatccaacatccccagaaggcttagc -----------------ecc. ecc. ---------------------Tgaagtagaggggccttcaaactactttatactagtgatagtttgagttaggtaagcatnttaaagctgnntggtgat Aaagaaggcagcttangattctgtggttgggaaacaagtgtagtccgcttccccttttttangaaagccctgttaaaa tangctnatttgnnaacat Frammenti di un cromatogramma (output del sequenziamento ottenuto col metodo Sanger) Se si vogliono conoscere lunghe sequenze di DNA, è necessario sequenziare frammenti del DNA e poi assemblare le corte sequenze in modo che si sovrappongano tra loro Sequenze parziali Sequenza assemblata 3

Come si ottengono le sequenze di DNA Il DNA viene frammentato e poi amplificato con tecniche di biologia molecolare (es. inserimento dei frammenti all interno di cloni batterici che replicandosi riproducono anche il DNA esogeno). I differenti frammenti vengono poi sequenziati. Solo con l assemblaggio delle sequenze ottenute da questi frammenti si ottengono le lunghe sequenze di DNA presenti nei database. (Ricordate che, se nei DB trovate record contenenti lunghi sequenze (maggiori di un migliaio di basi), queste sicuramente sono il frutto di un assemblaggio di corte sequenze.) Come si ottengono le sequenze di mrna L mrna (meno stabile del DNA) deve essere preventivamente trasformato in cdna (da una molecola di mrna si ottiene prima una copia complementare di DNA (per questo si chiama cdna) a singolo filamento che poi viene resa a doppia elica. Si procede poi come per il DNA Nota: l insieme dei batteri contenenti gli inserti di DNA esogeno viene detto libreria di DNA (o libreria di cdna) 4

Perché si sequenzia anche l mrna (non è sufficiente conoscere solo le sequenze di DNA)? Risposte: - Per conoscere le sequenze codificanti (negli eucarioti superiori, solo il 3% del genoma è codificante). Si possono così individuare le sequenze geniche e distinguere gli esoni dagli introni. - Per conoscere le sequenze che fiancheggiano le regioni codificanti e quindi le regolazioni della trascrizione dei geni. - Per conoscere la sequenza proteica (traducendo la sequenza nucleotidica) e studiare quindi la relativa proteina. - Per conoscere varianti (splicing alternativi) dello stesso gene e quindi probabili funzioni differenti - Sequenziando mrna in tessuti differenti o momenti differenti si può conoscere l espressione genica: determinare quando (sviluppo o momento particolare) e dove (quale tessuto) un particolare gene viene espresso L insieme degli mrna (RNA messaggeri o trascritti) espressi in un organismo viene definito trascrittoma 5

Importanze delle Sequenze EST (Expressed Sequence Tag) Per individuare un trascritto non serve conoscere tutta la sua sequenza, ma è sufficiente identificarne una parte. Da questo presupposto sono stati sviluppati progetti di sequenziamento di corte sequenze di cdna chiamate EST (Expressed Sequence Tag) che hanno permesso di tracciare numerosi profili trascrizionali (espressione genica di un particolare tessuto o in un particolare momento o in presenza di una particolare malattia genetica). Attualmente nei database esistono più di 30 milioni di sequenze di EST di cui circa 8 milioni relative a Homo sapiens (human) e più di 4 milioni relative a topo 3 UTR Seq. codificante 5 UTR ATG EST 5 TAA polya AAAAAAAAA EST 3 6

I database primari Cosa sono i database primari? Sono i contenitori di tutte le sequenze prodotte nel mondo e rese disponibili alla comunità scientifica. Memorizzano essenzialmente le sequenze e poche altra informazioni generiche correlate (laboratorio dove è avvenuto il sequenziamento, data, specie, descrizione ) EMBL datalibrary GenBank DDBJ Europa USA Giappone I tre database si aggiornano quotidianamente scambiandosi i dati ricevuti durante la giornata, in modo che sia sufficiente interrogare solo uno dei tre. 7

EBI European Bioinformatics Institute (Hinxton Cambridge, UK) http://www.ebi.ac.uk/embl/ 8

NCBI http://www.ncbi.nih.gov/genbank/index.html 9

DDBJ http://www.ddbj.nig.ac.jp/ 10

Banche Dati derivate Le banche dati primarie contengono tutte le sequenze conosciute, di tutti gli organismi, genomiche di mrna ecc., per rendere organica la ricerca sono state costruite delle banche dati derivate che raggruppano solo dati relativi a specifici argomenti. Esempi: - Database sequenze genomiche: GDB (uomo), MGI (topo), SGD (lievito) - Database di geni e trascritti: UniGene, LocusLink, dbest, ecc. - Inoltre database dei fattori di trascrizione, dbsnp (di polimorfismi) e molti altri. Esistono poi dei database integrati che raggruppano i dati provenienti da differenti database fornendo informazioni particolareggiate di argomenti specifici Allegato alla prima esercitazione troverete un elenco (non completo) di questi database 11

Sistemi di interrogazione alle banche dati (sistemi di "retrieval ) Esistono dei sistemi integrati che permettono di interrogare, attraverso il web, in modo semplice ed intuitivo le banche dati biologiche. I tre sistemi principali sono: ENTREZ associato a GENBANK SRS associato a EMBL DBGET associato a DDBJ I sistemi integrati forniscono una interfaccia WEB omogenea a tutti i database gestiti dal sistema. FORM DI QUERY 1 2 SISTEMA INTEGRATO PAGINA DI RISPOSTA 5 PC UTENTE RETE 4 DB1 3 DBn COMPUTER SERVER REMOTO 12

SRS è un sistema aperto, può essere installato su calcolatori differenti (server) e può integrare banche dati strutturate su altri server SRS o altre banche dati previa strutturazione o indicizzazione nel sistema SRS. http://srs.ebi.ac.uk/ Come SRS, anche ENTREZ è un sistema disponibile via web per la ricerca e l estrazione dei dati da banche dati di sequenze nucleotidiche, proteiche, dalla banca dati bibliografica MEDLINE, dalla banca dati delle malattie mendeliane OMIM, e da ogni banca dati sviluppata dall NCBI. E un sistema chiuso e non è possibile ottenere il software che gestisce il sistema. http://www.ncbi.nlm.nih.gov/entrez/index.html 13

Esistono molti tipi di siti e/o database biologici, in questo corso ci soffermeremo solo su alcuni Qui sono riportati i link di Entrez (NCBI), all EBI esistono siti corrispondenti 14

Qui invece sono riportati i link presenti all ABI con EB-eye la semplice interfaccia grafica All EBI è comunque possibile accedere direttamente al sistema SRS per formulare query complesse 15

NUCLEOTIDE http://www.ncbi.nlm.nih.gov/nucleotide/ (versione 2012) Da qui si possono scaricare interi database di sequenze in formato flat-file testuale (via FTP) Osservate che le query, sono molto simili a quelle di PubMed. In generale, l NCBI sta adottando uno stesso metodo di immissioni dati per le ricerche nei propri database 16

Advanced Search (versione 2012) Operatori Multirighe Help menù (dal 2012) (dal 2012) 17

Vedere Sample GenBank Record per un esempio completo di record nucleotidico (file allegato alle lezioni Sample GenBamk Record.pdf oppure al sito http://www.ncbi.nlm.nih.gov/sitemap/samplerecord.html ) Attenzione che il nome dei campi dei record ottenuti dall EMBL possono essere rappresentati in modo differente. (vedi esempio qui sotto) 19

In questo corso ci limiteremo ad approfondire i contenuti solo di particolari campi dei alcuni database biologici. Fra parentesi gli headers (a due caratteri) dei corrispondenti campi utilizzati dall EMBL ACCESSION (AC): codice identificativo del record. SOURCE (OS): abbreviazione del nome dell organismo (specificato poi meglio qui sotto). -ORGANISM (OC): The formal scientific name for the source organism (genus and species, where appropriate) and its lineage, based on the phylogenetic classification scheme used in the NCBI Taxonomy Database. REFERENCE (RN): riferimenti bibliografici (nei relativi sottocampi). FEATURES (FT): Regioni o siti della sequenza considerati interessanti. Descritti in più sottocampi. I più importanti: - source: in un record, può essere riportata una lunga sequenza. E possibile scrivere delle annotazioni a parti specifiche della sequenza facendo riferimento alla localizzazione seguita da una o più righe che iniziano con / - gene: dati del relativo gene (se esiste ed è conosciuto): inizio e fine della sequenza, poi negli altri sottocampi, nome del gene ed eventuali link (db_xref). - 5 UTR: la sequenza 5 UTR (inizio e fine). - CDS: la sequenza codificante (inizio e fine) e poi negli altri sottocampi link al DB (protein_id) (ad altri DB (db_xref), da ricordare link ad OMIM: /db_xref= MIM xx, traduzione (se conosciuta), - 3 UTR: la sequenza 3 UTR (inizio e fine). ORIGIN (SQ) : la sequenza scritta come stringa di caratteri. 20

LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL PUBMED REFERENCE AUTHORS TITLE JOURNAL PUBMED REFERENCE AUTHORS TITLE JOURNAL MMAJ3854 949 bp mrna linear ROD 19-MAR-2001 Mus musculus telethonin complete cdna. AJ223854 AJ223854.1 GI:3115294 telethonin. Mus musculus (house mouse) Mus musculus Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Glires; Rodentia; Sciurognathi; Muroidea; Muridae; Murinae; Mus. 1 Valle,G., Faulkner,G., De Antoni,A., Pacchioni,B., Pallavicini,A., Pandolfo,D., Tiso,N., Toppo,S., Trevisan,S. and Lanfranchi,G. Telethonin, a novel sarcomeric protein of heart and skeletal muscle FEBS Lett. 415 (2), 163-168 (1997) 9350988 2 Moreira,E.S., Wiltshire,T.J., Faulkner,G., Nilforoushan,A., Vainzof,M., Suzuki,O.T., Valle,G., Reeves,R., Zatz,M., Passos-Bueno,M.R. and Jenne,D.E. Limb-girdle muscular dystrophy type 2G is caused by mutations in the gene encoding the sarcomeric protein telethonin Nat. Genet. 24 (2), 163-166 (2000) 10655062 3 (bases 1 to 949) Ievolella,C. Direct Submission Submitted (10-FEB-1998) Ievolella C., CRIBI Biotechnology Centre, Universita' di Padova, viale G.Colombo 3, 35121, ITALY 21

Cross-Ref. Traduzione Struttura delle FEATURES o FT (Feature Table) (Regioni o siti della sequenza considerati interessanti): I campi cerchiati sono importanti; necessario ricordare il loro significato Per questo, vedere nelle px diapositive Possono essere riportate più regioni particolari. Ognuna è caratterizzata dalla definizione (es. source, gene, 5 UTR ecc.) seguita dalla localizzazione (location) punto di inizio e di fine della regione, seguite da una o più righe che iniziano con / e che riportano note caratteristiche di tale regione (Qualifiers). 22

Se nella sequenza esistono regioni geniche, allora vengono riportati anche i dati relativi al gene, alle regioni codificanti (CDS) e alla sequenza proteica La regione della sequenza identificata come gene (inizio- fine) (in questo caso corrisponde alla sequenza completa) CDS (coding sequence): la sequenza codificante inizia in 15 e finisce in 518 GO (GENE ONTOLOGY) http://www.geneontology.org/ Link al DB delle proteine Link ad OMIM (database di malattie genetiche Sequenza Proteina 23

Altri dettagli delle Features Source: in un record può essere riportata una lunga sequenza. E possibile scrivere delle annotazioni a parti specifiche della sequenza facendo riferimento alla localizzazione seguita da una o più righe che iniziano con / con riportate particolari annotazioni specifiche. 5 UTR: Qui è riporta (se si conosce) la localizzazione della sequenza NON codificante posta a monte dell mrna. In questo caso 1-36 CDS (coding sequence): la sequenza codificante inizia in 37e finisce in 540 3 UTR: Qui è riporta (se si conosce) la localizzazione della sequenza NON codificante posta a valle dell mrna 24

IL FORMATO FASTA Spesso i programmi che effettuano analisi bioinformatiche sulle sequenze richiedono che esse vengano date come input in questo formato particolare: FASTA è un formato per la descrizione di una sequenza grezza. Consiste essenzialmente in una parte iniziale di intestazione, di solito limitata a una linea di testo, e da una o più linee che riportano una sequenza di DNA o di amminoacidi usando l alfabeto standard. Ecco un esempio: Riga di intestazione Interruzione di riga >37463.f1 g83244 telethonin ecc. ACGTGACTGCTACGTACGGGCGTTACGACTGCTACGACGCATGCTATGTC GTAGCAGCCGTGTACACGTGTTTATTCGTAGGGCTTCTA > Simbolo d inizio della riga di intestazione Sequenza L intestazione (la prima riga del file precedente) `e riconoscibile perchè ha inizio con il simbolo >. Il testo che segue tale simbolo nella stessa riga può essere strutturato liberamente: di solito, la prima cosa che si trova scritta `e un accession number, ossia l identificatore della sequenza che ne permette il reperimento 25

SEQUENZA Per recuperare la sequenza nucleotidica in formato FASTA 26

Database NON RIDONDANTI : RefSeq, UniGene, Gene Come già detto: nei database primari sono inserite tutte le sequenze conosciute ottenute sperimentalmente e/o ricostruite. La stessa regione genomica o lo stesso trascritto possono essere stati sequenziati più volte. Quindi ci aspettiamo, in molti casi, che la stessa sequenza sia presente più volte. Per evitare problemi di ridondanza sono stati creati dei database semplificati senza ripetizioni di informazioni. In particolare: In RefSeq sono rappresentate, in modo non ridondante, tutte le sequenze genomiche, sequenze di mrna e di proteine. In UniGene Sono rappresentate in modo non ridondante, le sequenze ottenute dal sequenziamento dei trascritti (mrna) Gene: è un sottoinsieme di RefSeq con rappresentate solo le sequenze geniche. Domanda: che differenza c è tra una sequenza genica ed una sequenza di un trascritto? 27

http://www.ncbi.nlm.nih.gov/refseq/ The Reference Sequence (RefSeq) collection aims to provide a comprehensive, integrated, non-redundant set of sequences, including genomic DNA, transcript (RNA), and protein products. RefSeq is a baseline for medical, functional, and diversity studies; they provide a stable reference for genome annotation, gene identification and characterization, mutation and polymorphism analysis, expression studies, and comparative analyses RefSeq are derived from GenBank records but differ in that each RefSeq is a synthesis of information, not an archived unit of primary research data. Similar to a review article in the literature, a RefSeq represents the consolidation of information by a particular group at a particular time. http://www.ncbi.nlm.nih.gov/unigene UniGene: An Organized View of the Transcriptome. Each UniGene entry is a set of transcript sequences that appear to come from the same transcription locus (gene or expressed pseudogene), together with information on protein similarities, gene expression, cdna clone reagents, and genomic location. 28

Gene (http://www.ncbi.nlm.nih.gov/sites/entrez?db=gene oppure http://www.ncbi.nlm.nih.gov/gene) Entrez Gene is NCBI's database for gene-specific information. It does not include all known or predicted genes; instead Entrez Gene focuses on the genomes that have been completely sequenced, that have an active research community to contribute gene-specific information, or that are scheduled for intense sequence analysis. The content of Entrez Gene represents the result of curation and automated integration of data from NCBI's Reference Sequence project (RefSeq) Continua 29

Si aprono 4 paragrafi: - Summary - Genomic context - Genomic regions, transripts and product - Bibliography Continua record NCBI-Gene 30

Continua record NCBI-Gene Importante: le frecce indicano il senso della trascrizione Per questa parte, vedere px diapositiva 31

Vengono riportate 6 isoforme (varianti dello stesso gene), dovute a splicing alternativo dello stesso gene Osservate gli introni e gli esoni, le regioni codificanti e le regioni UTR Esoni: sono rappresentati dalle linee più spesse Introni: sono rappresentati dalle linee più sottili Le regioni UTR sono di colore più chiaro Importante osservare il senso della trascrizione: un gene può essere codificato dal filamento senso (detto anche + o forward ) o dal filamento antisenso (detto anche - o reverse) Possibili domande: Quanti introni, quanti esoni sono rappresentati? Il gene è codificato dal filamento + (forwars) oppure dal filamento - (reverse)? Qual è il senso della trascrizione? Quante isoforme sono visibili? Le diverse isoforme sono dovute a splicing alternativo? 32

Banche Dati proteiche Un secondo grande aggregato di banche dati è quello relativo alle proteine. Esistono Database di strutture come PDB, che è la Banca dati di riferimento per i dati strutturali 3D di proteine ottenuti, ad esempio, mediante analisi cristallografiche ai raggi X e/o NMR (risonanza magnetica). In questo corso, però, ci interesseremo solo di database di sequenze proteiche, in particolare a) NCBI-Protein e b) UniProtKB. Tenere presente che, le sequenze proteiche possono essere ottenute tramite: -Sequenziamento diretto della proteina -Traduzione da sequenze nucleotidiche per le quali sia stata individuata o predetta la regione codificante (CDS) di un gene a) NCBI-Protein: The Protein database is a collection of sequences from several sources, including translations from annotated coding regions in GenBank, RefSeq and TPA (Third Party Annotation), as well as records from SwissProt, PIR, PRF, and PDB. Il sito, da dove si possono effettuare ricerche, è simile a quello degli altri database dell NCBI. Anche la struttura dei record è molto simile a quelli già visti per i DB di sequenze nucleotidiche. Durante un esercitazione, proveremo a fare una interrogazione a questa banca dati. 33

http://www.isb-sib.ch/index.php In questo sito, oltre al database UniProtKB, esistono anche altri interessanti DB e utili tool per analizzare proteine b) UniProtKB (http://www.uniprot.org/ ) banca dati di riferimento (protein knowledgebase) sviluppata a Ginevra. Si divide in due sezioni: SWISS-PROT Contiene informazioni accuratamente annotate, spesso a mano. ( In maggio 2011 esistevano 528.048 entries) TrEMBL (TRanslated EMBL) risultato della traduzione automatica in aminoacidi di tutte le sequenze annotate nella banca dati EMBL come codificanti proteine; supplemento a SWISS-PROT. (In maggio 2011 esistevano 15.062.837 entries) The mission of UniProt is to provide the scientific community with a comprehensive, highquality and freely accessible resource of protein sequence and functional information. Questo Database è molto interessante perché, oltre che riportare le principali caratteristiche delle proteine (sequenze, strutture, ecc.), vengono riportati anche altri dati come: -Descrizione dettagliata della funzione della proteina -Eventuali domini funzionali -Interazioni con altre proteine -Localizzazione subcellulare -Espressione tissutale (in quali tipi di cellule/tessuti viene espressa la proteina) -Eventuali variazioni/mutazioni con riferimenti bibliografici -Eventuali coinvolgimenti in malattie genetiche -Similarità con altre proteine 34

Alcuni paragrafi riportati in un foglio html, ottenuto da UniProtKB Continua record Swiss-Prot 35

Continua record Swiss-Prot >sp O15273 TELT_HUMAN Telethonin OS=Homo sapiens GN=TCAP PE=1 SV=1 MATSELSCEVSEENCERREAFWAEWKDLTLSTRPEEGCSLHEEDTQRHETYHQQGQCQVL VQRSPWLMMRMGILGRGLQEYQLPYQRVLPLPIFTPAKMGATKEEREDTPIQLQELLALE TALGGQCVDRQEVAEITKQLPPVVPVSKPGALRRSLSRSMSQEAQRG 36

Domini proteici Molte proteine, specialmente quelle di grandi dimensioni, sono formate da più parti funzionali organizzate in strutture tridimensionali distinte che vengono chiamate domini proteici. E una sottostruttura di una catena polipeptidica che si ripiega in una struttura compatta e stabile, in grado di esercitare una particolare funzione. Esempio: l emoglobina è formata da 4 domini legati covalentemente tra loro. La Mioglobina, invece, è formata da un solo dominio (simile a quelli dell emoglobina) Esempio: alcuni fattori di trascrizione hanno due domini, uno in grado legarsi con una particolare sequenza di DNA, l altro in grado di attivare la trascrizione. Fattore di trascrizione activation domain Complesso della trascrizione DNA binding domain DNA Seq. DNA promotore 37

Altri esempi di domini proteici Src Tyrosine Kinase SH3 Attività di regolazione SH2 Attività di regolazione Kinase: dominio chinasico con attività catalitica Altro esempio: Proteine (Zasp, ALP, CLP, ecc.) contenenti domini PDZ e LIM. Questi domini possono interagire e legare altre proteine Proteine formate da più di un dominio si sono probabilmente evolute per fusione di geni che contenevano tali domini e questo è stato un fattore importante nell evoluzione. nell evoluzione 38

Esempi: Domini LIM associati ad altri domini (Sono riportate solo alcune strutture proteiche contenenti il LIM domain) PFAM: http://pfam.sanger.ac.uk, PROSITE: http://www.expasy.org/prosite, SMART: http://smart.embl.de/, InterPro: http://www.ebi.ac.uk/interpro/ sono database contenenti domini funzionali delle proteine 39

Pfam The Pfam database is a large collection of protein families. Proteins are generally composed of one or more functional regions, commonly termed domains. Different combinations of domains give rise to the diverse range of proteins found in nature. The identification of domains that occur within proteins can therefore provide insights into their function. Esempio: voglio ricerca i domini presenti nella proteina ZASP Continua 40

Continua da scelta PDZ Domain Possono essere visualizzati le principali architetture proteiche che possiedono domini PDZ 41

Mutazioni (alterazioni della sequenza nucleotidica di un gene) possono riflettersi in alterazioni della funzionalità della proteina da esso codificata. Questo mutazioni possono causare le cosiddette malattie genetiche. Esempio: una mutazione a carico del gene della β globina fa sì che una particolare base del gene venga sostituita con un altra, ciò altera il codone e nella proteina ciò si riflette nella sostituzione di un glutamato con una valina e in una ridotta funzionalità della proteina che causa una malattia genetica detta anemia a cellule falciformi (anemia falciforme). Il database OMIM cataloga le malattie genetiche, fornisce descrizioni particolareggiate delle malattie e delle possibili cause (mutazioni). In laboratorio approfondiremo ed utilizzeremo questo DB 42

Database di malattie genetiche (umane) Anche qui possiamo fare ricerche complesse Esempio di una query (telethonin): da notare l estensiva descrizione di quanto noto sulla/e malattia/e determinate da mutazioni a carico del gene in esame 43

Purtroppo non esiste un modo univoco per indicare un gene (esempio potete trovare scritto subunit 4 o subunit iv (nella prima esercitazione affronterete questo problema)), anche i geni che io ho chiamato telethonin o zasp possono essere scritti in modi differenti (tcap, LDB3). Questo crea confusione e non facilita la ricerca informatica The Human Genome Organisation (HUGO) (è una organizzazione scientifica internazionale che promuove e sostiene le collaborazioni internazionali nella genetica umana) ha istituito un comitato allo scopo di dare un unico nome significativo a tutti i geni umani. Con questo intento è stato costruito il database HGNC (HUGO Gene Nomenclature Committee) 44

Oltre che esistere differenti nomi per lo stesso gene/proteina, possono esistere o essere adottati anche differenti modi per descrivere le loro funzioni e le loro localizzazioni. A volte è corretto assegnare differenti funzioni ad una molecola biologica (spesso una proteina svolge più di una funzione), per non generare confusioni è però necessario usare una terminologia univoca per ogni funzione. Per questo motivo è stato fondato il database GeneOntology che fornisce una definizione precisa del ruolo svolto dalle singole proteine tramite un vocabolario (delle ontologie) che consenta di definire in modo corretto e non arbitrario il o i processi biologici cui una proteina partecipa, la/e sue funzioni molecolari e la/e sue localizzazioni cellulare. Troverete spesso link con la sigla GO questi rimandano al database della gene ontology 45