Strategie di annotazione di geni e genomi Dr. Giovanni Emiliani giovanni.emiliani@unifi.it Bioinformatica A.A. 2011-1012
Concetti generali Le nuove tecnologie consentono l ottenimento di una grande mole di dati ad esempio: dati di espressione genica per 10 3-10 4 geni (microarray, RNAseq) dati genomici, migliaia di geni identificati in un genoma Come ottenere informazioni di significato biologico da questa mole di dati?
Concetti generali Esempio 1: in un esperimento di espressione genica, poniamo individuo sano vs individuo malato, sono risultati differenzialmente espressi 1000 geni; Per quali proteine codificano? A quale/i via/e metabolica/he appartengono? Esempio 2: genomica comparativa di 2 o più organismi; Per quali caratteristiche funzionali si differenziano?
Concetti generali È necessario dunque procedere ad una annotazione funzionale dei geni. Nel caso di neo-sequenziamenti di genomi annotazione può significare anche l identificazione di geni all interno del genoma (ORF finding) L annotazione si effettua attraverso software (dati in numero elevato, difficilmente gestibili manualmente ) che si basano sulla disponibilità di banche dati costruite ed aggiornate continuamente sulla base di dati sperimentali
Concetti generali L approccio generale di analisi si basa inizialmente sulla ricerca di similarità di sequenza (BLAST) tra il dataset sperimentale e le banche dati Una volta trovata una corrispondenza in banca dati (se esistente) si possono avere in automatico tutte le informazioni disponibili riguardo al dato gene/proteina
Problemi È ormai più facile sequenziare un genoma che descrivere nel dettaglio una reazione metabolica Si stanno perciò accumulando moltissimi dati che si basano sulla similarità di sequenza rispetto a dati già presenti Ciò significa che spesso troviamo proteine senza annotazione perché non è stata chiarita la sua funzione
Database generali e specifici Esistono database specifici (legati ad esempio ad un particolare organismo) o database generali su cui effettuare le analisi
Database generali Gene Ontology (http://www.geneontology.org/) Contiene informazioni multi-organismo sulla funzione delle proteine. È organizzato in maniera gerarchica (scatole cinesi) dal processo generale a quello più specifico È diviso in tre settori principali: Biological process Molecular function Cellular component
Gene Ontology
Gene Ontology
Gene Ontology Un analisi lanciata contro il database restituisce tutti GO terms associati a quella proteina
Gene Ontology Questo è un approccio pigro sensato solo se si hanno una o poche proteine da annotare
Esempio Esempio di file di output di un esperimento microarray
Gene Ontology Si possono però inserire le sequenze ed effettuare analisi batch
KEGG KEGG: Kyoto Encyclopedia of Genes and Genomes http://www.genome.jp/kegg/ Contiene informazioni multi-organismo È particolarmente utile perché fornisce mappe metaboliche dei processi biologici
KEGG
KEGG
KEGG
KEGG
KEGG
KEGG
KEGG
KEGG KEGG può essere interrogato con una proteina oppure effettuare analisi batch fornendo un file multi-fasta al tool di analisi KAAS (Kegg Automatic Annotaion Server) KAAS effettua un analisi BLAST e recupera le informazioni relative raggruppando le queries in via/ mappe metaboliche
KEGG
KEGG
KEGG
KEGG
KEGG
KEGG
COG COG: Clusters of Orthologous Groups http://www.ncbi.nlm.nih.gov/cog/
COG
COG
InterPro Cerca domini funzionali nelle proteine
InterPro
InterPro
InterPro
Tools Blast2GO di analisi BLAST2GO A partire da sequenze consente l annotazione complessiva delle proteine (GO + KEGG + Interpro)
Tools Blast2GO di analisi Blast2GO Blast2GO effettua dei Blast in banche dati, poi automaticamente ottiene da altri databases (GO, KEGG, ecc) tutte le informazioni connesse.
Tools Blast2GO di analisi BLAST2GO A partire da sequenze consente l annotazione complessiva delle proteine (GO + KEGG + Interpro)
Tools Blast2GO di analisi BLAST2GO
Tools Blast2GO di analisi BLAST2GO
Tools Blast2GO di analisi BLAST2GO