Strategie di annotazione di geni e genomi

Documenti analoghi

Bioinformatica. Analisi del genoma

RELAZIONE di BIOLOGIA MOLECOLARE

Analisi dei dati di espressione genica in esperimenti realizzati mediante microarray. Erika Melissari

Tesina di Biologia Molecolare II

GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi

Indice generale. Nozioni fondamentali. Prefazione XIII

Bioinformatica. Marin Vargas, Sergio Paul

La mappatura dei geni umani. SCOPO conoscere la localizzazione dei geni per identificarne la struttura e la funzione

HI-TECH IN SANITA'. MINI-INVASIVITA' 2.0: nuove tecnologie al servizio dell'appropriatezza e della bioetica professionale

Laboratorio di Bioinformatica I. Parte 2. Dott. Sergio Marin Vargas (2014 / 2015)

Dal Genotipo al Fenotipo

Genomica, proteomica, genomica strutturale, banche dati.

Biologia Molecolare e Bioinformatica

BIOTECNOLOGIE PER IL MIGLIORAMENTO GENETICO A.A

Le biotecnologie. Sadava et al. Biologia La scienza della vita Zanichelli editore 2010

L organizzazione del genoma. Prof. Savino; dispense di Biologia Molecolare, Corso di Laurea in Biotecnologie

Relazione sequenza-struttura e funzione

10/30/16. non modificato CAP al 5 e poly-a al 3. RNA messaggero: soggetto a splicing

Laboratorio di Elementi di Bioinformatica

Patologie da analizzare

La metagenomica al servizio dell agricoltura

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini)

VERIFICA MATRICOLE e STAMPA CERTIFICATO INTEGRATIVO DI GARANZIA

Decode NGS data: search for genetic features

SOLUZIONE AL TEMA DI INFORMATICA (PROGETTO ABACUS)

I database. Introduzione alla teoria delle basi di dati

Corso di Laurea triennale in BIOLOGIA MOLECOLARE AA

Compito A. Esercizio 1 (13 punti) Minimizzare l automa descritto dalla seguente tabella degli stati

ESERCITAZIONE MICROECONOMIA (CORSO B) ESEMPI DI ESERCIZI DI TEORIA DEI GIOCHI

Dal Genoma all Epigenoma..

Legami chimici. Covalente. Legami deboli

PROCEDURA DI INSTALLAZIONE E ATTIVAZIONE DI DARWEB PRO versione 1.0

SINTESI DELLE PROTEINE

Corso di BIOINFORMATICA. Pietro BUFFA. Applicazioni BIO-Mediche. - Livelli di complessità delle proteine e visualizzazione computazionale

David Sadava, H. Craig Heller, Gordon H. Orians, William K. Purves, David M. Hillis. Biologia La scienza della vita

Marcatori molecolari per l analisi genica, genetica e genomica

Perché considerare la struttura 3D di una proteina

18. LA CROMATINA E IL CONTROLLO TRASCRIZIONALE DELLA ESPRESSIONE GENICA! DR. GIUSEPPE LUPO!

Il Centro Tematico Biomolecolare - Strumenti e Servizi Molecolari - Monica Santamaria & Bachir Balech IBBE-CNR, Bari

Manuale Utente. La Tavola B invece riporta il dettaglio dei vincoli presenti e consente di sapere quali vincoli operano in una determinata locazione.

La struttura covalente delle proteine (la sequenza amminoacidica)

Introduzione all analisi di arrays: clustering.

ArcGIS - ArcView ArcCatalog

Indice. Ricerca richiesta d offerta. Risultati della ricerca Navigazione Stati

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random

ESPERIMENTO DEL LANCIO DEI DADI

07/01/2015. Come si ferma una macchina in corsa? Il terminatore. Terminazione intrinseca (rho-indipendente)

Transcript:

Strategie di annotazione di geni e genomi Dr. Giovanni Emiliani giovanni.emiliani@unifi.it Bioinformatica A.A. 2011-1012

Concetti generali Le nuove tecnologie consentono l ottenimento di una grande mole di dati ad esempio: dati di espressione genica per 10 3-10 4 geni (microarray, RNAseq) dati genomici, migliaia di geni identificati in un genoma Come ottenere informazioni di significato biologico da questa mole di dati?

Concetti generali Esempio 1: in un esperimento di espressione genica, poniamo individuo sano vs individuo malato, sono risultati differenzialmente espressi 1000 geni; Per quali proteine codificano? A quale/i via/e metabolica/he appartengono? Esempio 2: genomica comparativa di 2 o più organismi; Per quali caratteristiche funzionali si differenziano?

Concetti generali È necessario dunque procedere ad una annotazione funzionale dei geni. Nel caso di neo-sequenziamenti di genomi annotazione può significare anche l identificazione di geni all interno del genoma (ORF finding) L annotazione si effettua attraverso software (dati in numero elevato, difficilmente gestibili manualmente ) che si basano sulla disponibilità di banche dati costruite ed aggiornate continuamente sulla base di dati sperimentali

Concetti generali L approccio generale di analisi si basa inizialmente sulla ricerca di similarità di sequenza (BLAST) tra il dataset sperimentale e le banche dati Una volta trovata una corrispondenza in banca dati (se esistente) si possono avere in automatico tutte le informazioni disponibili riguardo al dato gene/proteina

Problemi È ormai più facile sequenziare un genoma che descrivere nel dettaglio una reazione metabolica Si stanno perciò accumulando moltissimi dati che si basano sulla similarità di sequenza rispetto a dati già presenti Ciò significa che spesso troviamo proteine senza annotazione perché non è stata chiarita la sua funzione

Database generali e specifici Esistono database specifici (legati ad esempio ad un particolare organismo) o database generali su cui effettuare le analisi

Database generali Gene Ontology (http://www.geneontology.org/) Contiene informazioni multi-organismo sulla funzione delle proteine. È organizzato in maniera gerarchica (scatole cinesi) dal processo generale a quello più specifico È diviso in tre settori principali: Biological process Molecular function Cellular component

Gene Ontology

Gene Ontology

Gene Ontology Un analisi lanciata contro il database restituisce tutti GO terms associati a quella proteina

Gene Ontology Questo è un approccio pigro sensato solo se si hanno una o poche proteine da annotare

Esempio Esempio di file di output di un esperimento microarray

Gene Ontology Si possono però inserire le sequenze ed effettuare analisi batch

KEGG KEGG: Kyoto Encyclopedia of Genes and Genomes http://www.genome.jp/kegg/ Contiene informazioni multi-organismo È particolarmente utile perché fornisce mappe metaboliche dei processi biologici

KEGG

KEGG

KEGG

KEGG

KEGG

KEGG

KEGG

KEGG KEGG può essere interrogato con una proteina oppure effettuare analisi batch fornendo un file multi-fasta al tool di analisi KAAS (Kegg Automatic Annotaion Server) KAAS effettua un analisi BLAST e recupera le informazioni relative raggruppando le queries in via/ mappe metaboliche

KEGG

KEGG

KEGG

KEGG

KEGG

KEGG

COG COG: Clusters of Orthologous Groups http://www.ncbi.nlm.nih.gov/cog/

COG

COG

InterPro Cerca domini funzionali nelle proteine

InterPro

InterPro

InterPro

Tools Blast2GO di analisi BLAST2GO A partire da sequenze consente l annotazione complessiva delle proteine (GO + KEGG + Interpro)

Tools Blast2GO di analisi Blast2GO Blast2GO effettua dei Blast in banche dati, poi automaticamente ottiene da altri databases (GO, KEGG, ecc) tutte le informazioni connesse.

Tools Blast2GO di analisi BLAST2GO A partire da sequenze consente l annotazione complessiva delle proteine (GO + KEGG + Interpro)

Tools Blast2GO di analisi BLAST2GO

Tools Blast2GO di analisi BLAST2GO

Tools Blast2GO di analisi BLAST2GO