Bioinformatica. Marin Vargas, Sergio Paul



Documenti analoghi
Bioinformatica. Marin Vargas, Sergio Paul

Bioinformatica (1) Introduzione. Dott. Alessandro Laganà

Sequenziamento ed analisi dell esoma intero (All Exon)

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY.

Dal DNA alle proteine: La trascrizione e la traduzione

scaricato da LA TECNOLOGIA DEI MICROARRAYS

DNA - RNA. Nucleotide = Gruppo Fosforico + Zucchero Pentoso + Base Azotata. Le unità fondamentali costituenti il DNA e l RNA sono i Nucleotidi.

strutture di Proteine

La possibilita di conoscere i geni deriva dalla capacita di manipolarli:

ANALISI POST-GENOMICHE TRASCRITTOMA: CONTENUTO DI RNA DI UNA CELLULA.

Next-generation sequencing, annotazione, ed espressione genica. Giulio Pavesi Dip. Bioscienze Università di Milano

Corso di Biologia Molecolare

RNA non codificanti ed RNA regolatori

Introduzione alla Genomica

Struttura e funzione dei geni. Paolo Edomi - Genetica

Una proteina nella rete: Introduzione alla bioinformatica

Sistemi di tracciabilità per un attestato di identità molecolare. FEM 2 - Ambiente S.r.l. Spin-off dell Università degli Studi di Milano-Bicocca

COME VIENE REALIZZATA UNA RICERCA SPERIMENTALE IN BIOLOGIA MOLECOLARE?

Dal DNA all RNA. La trascrizione nei procarioti e negli eucarioti

I marcatori molecolari. Dipartimento di Scienze Agronomiche e Genetica Vegetale Agraria Corso di Genetica Agraria Giovanna Attene

Il genoma dinamico: gli elementi trasponibili

Polimorfismi LEZIONE 6. By NA 1

PCR. PCR o reazione di polimerizzazione a catena. Amplificazione esponenziale di DNA. Puo amplificare un tratto di DNA per piu di 1 milione di volte

SAGE: Serial Analysis of Gene Expression

Organizzazione del genoma umano III

SEQUENZIAMENTO DEL DNA

Le fattispecie di riuso

Access. P a r t e p r i m a

Sequenziamento e analisi di genomi completi

Fibrillina Sindrome di Marfan sindrome di Marfan sindrome di Marfan Sindrome di Marfan Fibrillina 1

Applicazioni biotecnologiche in systems biology

DNA non codificante ncdna

CHIUSURE di MAGAZZINO di FINE ANNO

REPORT FINALE DEL PROGETTO III Controllo di qualità nazionale per la valutazione delle mutazioni di RAS nel carcinoma del colon-retto -2014

Sperimenta il BioLab Attività di Bioinformatica Caccia al gene

Genoma umano: illusioni, realtà, prospettive

GUARDA OLTRE L'ARRAY

12. Evoluzione del Software

11. Evoluzione del Software

Quotidiano.

Bioinformatica (modulo bioinf. dei genomi moderni )

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

La riforma del servizio di distribuzione del

RNA polimerasi operone. L operatore è il tratto

VALORE DELLE MERCI SEQUESTRATE

Il flusso dell informazione genetica. DNA -->RNA-->Proteine

Incident Management. Obiettivi. Definizioni. Responsabilità. Attività. Input

Organizzazione del genoma umano II

Cos è ND Rifiuti 2008?

Il DNA e la cellula. Versione 2.3. Versione italiana. ELLS European Learning Laboratory for the Life Sciences

DSCube. L analisi dei dati come strumento per i processi decisionali

Generazione Automatica di Asserzioni da Modelli di Specifica

Alcuni aspetti legati al calcolo bioinformatico su CRESCO. Giuseppe Aprea UTMEA-CAL

IoBirro. Birra fatta in casa con SIMATIC. Siemens AG All Rights Reserved. Industry Sector

Avanzamento dei sistemi di sequenziamento

GENOMA. c varia da pochi kb nei virus a milioni di kb in piante e animali

PRINCIPALI TIPI DI PCR a) PRINCIPALI TIPI DI PCR b)

Banche Dati Secondarie. geni trascritti proteine profili strutture

ACS DATA SYSTEMS DIGITAL SIGNAGE & TICKETING

A cura di Giorgio Mezzasalma

PowerSchedo. Un sistema di supporto alla decisione nel settore dell'oil&gas. For further information:

Tesi di Laurea Specialistica. Elaborazione di dati bioinformatici attraverso l uso di Particle Swarm Optimization

Regolazione dell espressione genica EUCARIOTI

I WEBQUEST SCIENZE DELLA FORMAZIONE PRIMARIA UNIVERSITÀ DEGLI STUDI DI PALERMO. Palermo 9 novembre 2011

LA DIAGNOSTICA MOLECOLARE E I TUMORI DEL SANGUE

Gestione ed analisi di base dati nell epidemiologia. delle malattie infettive

A cosa serve al clinico e alla famiglia conoscere il difetto di base? Correlazione genotipo fenotipo

SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO

Report di valutazione Fiona Clark_Live

Automazione Industriale (scheduling+mms) scheduling+mms.

LA METODOLOGIA DI CALCOLO DEL FULL COSTING

Interazioni biomolecolari che coinvolgono proteine

SOFTWARE A SUPPORTO DELLA GESTIONE AMMINISTRATIVA DELLO SPORTELLO UNICO SPECIFICA DEI REQUISITI UTENTE

SINTESI DELL RNA. Replicazione. Trascrizione. Traduzione

Istruzioni per l uso dei programmi MomCad, TraveCon, TraveFon

Aggiornamenti in ambito genetico

Appendice III. Competenza e definizione della competenza

L adattamento dei batteri. Strategie di adattamento

COMUNE DI SOLBIATE ARNO

Report tecnico sull esecuzione di RT-PCR per rilevazione contaminanti pro-infiammatori. Committente: Titanmed srl

DNA sequencing. Reading Genomes. Giovanni Bacci

REGOLAZIONE DELL'ESPRESSIONE GENICA

2.0 Gli archivi. 2.1 Inserire gli archivi. 2.2 Archivio Clienti, Fornitori, Materiali, Noleggi ed Altri Costi. Impresa Edile Guida all uso

Guida Informativa. LAVORI DI FINE ANNO ebridge Linea Azienda. Chiusura e riapertura esercizio di magazzino, fatturazione, ordini e agenti.

Proposta di implementaziome del sistema qualità in cardiologia. Dott. A. Gandolfo

Il campionamento. La digitalizzazione. Teoria e pratica. La rappresentazione digitale delle immagini. La rappresentazione digitale delle immagini

LE COMPETENZE CHE VALGONO UN LAVORO LE INDICAZIONI FORNITE DALLE IMPRESE ATTRAVERSO IL SISTEMA INFORMATIVO EXCELSIOR

GENI GENOMI e GENOMICA

I DATABASE Database relazionale

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

La regolazione genica nei eucarioti

MANUALE RAPIDO INSERIMENTO CHIAMATE ASSISTENZA PORTALE SELF-SERVICE (IWEB)

Tecnologia dei filtri a nanofibre

Progetto. Portale Turistico Regionale. Andrea Polini, Oliviero Riganelli, Massimo Troiani. Ingegneria del Software Corso di Laurea in Informatica

Transcript:

Bioinformatica Marin Vargas, Sergio Paul 2013

Wikipedia: La bioinformatica è una disciplina scientifica dedicata alla risoluzione di problemi biologici a livello molecolare con metodi informatici.

La bioinformatica è la disciplina scientifica che cerca di risolvere problemi biologici mediante l elaborazione informatica dell informazione proveniente diretta o indirettamente da essere viventi. Tipi di informazione: Sequenze genomiche (DNA genomico: genomi, esomi o alcune regioni particolari del genoma). Sequenze proteiche (cdna cioè DNA retrotrascritto a partire da un mrna). Strutture 3D di proteine (NMR, Cristallografia), biologia strutturale. Immagini(RX,TAC,MRI,US,ecc). Concentrazioni di particelle nel sangue. Informazione di interazione tra molecole(systems biology). Informazione evoluzionistica. Pulsazioni, respiri, battiti cardiaci, ecc...

La genomica è una branca della biologia molecolare che si occupa dello studio del genoma degli organismi viventi. In particolare si occupa della struttura, contenuto, funzione ed evoluzione del genoma. È una scienza che si basa sulla bioinformatica per l'elaborazione e la visualizzazione dell'enorme quantità di dati che produce.

Estrazione e/o cattura di DNA da essere viventi. Sequenziamento del DNA con tecniche all avanguardia come NGS (Next Generation Sequencing). AssemblaggiodigenomiapartiredamilionidiframmentidiDNA. Ri-sequenziamento di genomi. Allineamento di frammenti di DNA a un genoma di riferimento. Annotazione di genomi. Annotazione funzionale di geni all interno di un genoma. Analisi di espressione genica mediante sequenziamento dei trascritti(rna-seq). GWAS (Genome Wide Association Studies). Analisi di varianti tra genomi (Variant calling o Chiamata delle varianti).

Ottimizzazione del protocollo bioinformatico per l annotazione di geni codificanti proteine in genomi complessi Marin Vargas, Sergio Paul 2012

Con l avvento del sequenziamento NGS a costi sempre più contenuti, il numero di genomi sequenziati si sta incrementando considerevolmente. Lo scopo di conoscere la sequenza genomica è principalmente indirizzato a capire la funzionalità dei geni. In passato l annotazione di un genoma era molto dispendiosa. Oggi con le nuove tecnologie, è diventata alla portata di un singolo laboratorio. Rimane comunque un compito molto impegnativo.

Annotare un genoma significa conoscere la localizzazione, la struttura e la funzionalità di tutti gli elementi che compongono l intero genoma: Geni codificanti proteine Geni non codificanti proteine Elementi regolatori Elementi ripetuti Pseudogeni Altri elementi

L annotazione dei geni codificanti proteine, viene suddivisa in: Annotazione funzionale, consiste nel caratterizzare ogni singolo gene, assegnando una funzione biologica a ogni proteina codificata dal gene stesso. Annotazione genica o semplicemente annotazione, consiste nel definire all interno del genoma: La localizzazione di ciascun gene. La struttura di ciascun gene (esoni, CDS, UTR). Gli eventuali trascritti alternativi.

Cap 5 mrna maturo 3 Poly-A AAAAAA UTR CDS UTR 5 3 Esone 1 Esone 2 Esone 3 3 ATG DNA STOP! 5

Un gene codificante proteine è composto da diversi elementi: Esone: regione che viene mantenuta dopo la maturazione. Introne: regione che viene eliminata durante la maturazione. mrna: RNA maturo, composto da esoni. CDS: regione codificante dell mrna. UTR: regione non tradotta dell mrna.

Metodi basati sull allineamento delle evidenze sperimentali. Metodi basati sulla predizione genica ab initio. Metodi basati sulla predizione genica ab initio guidata da evidenze sperimentali. Metodi basati sul confronto tra genomi. 5

Si possono utilizzare diverse evidenze sperimentali, che opportunamente elaborate e allineate al genoma permettono di identificare le regioni codificanti proteine: cdna full-length: sequenze di RNA maturi (mrna) retrotrascritti a cdna, quindi completo di UTR e CDS. EST (Expressed Sequence Tags): brevi frammenti parziali, tra 400-800 bp, di mrna retrotrascritti a cdna. Proteine omologhe: sequenze aminoacidiche corrispondenti a proteine omologhe di organismi evolutivamente vicini. Tiling arrays: microarray con sonde equamente spaziate su tutto il genoma, permettono l identificazione di regione espresse mediante l ibridazione di campione marcati. MPSS: Massively Parallel Signature Sequencing, piattaforma che analizza il livello di espressione e identifica una regione di 17-20 bp degli mrna tramite sequenziamento. RNA-seq: frammenti di cdna di lunghezza tra 50-150 bp che derivano dal sequenziamento shotgun di un intero trascrittoma.

Sono dei brevi frammenti di lunghezza tra 400-800 bp di cdna ottenuto dalla retrotrascrizione di un frammento di RNA maturo.

Dalla sequenza proteica delle proteine si può risalire alla sequenza nucleotidica e quindi alla zona codificante (CDS) del gene che l ha codificata.

Sono sequenze di lughezza tra 50-150 bp che derivano dal sequenziamento shotgun di un intero trascrittoma, cioè dalla retro-trascrizione di tutto l RNA in cdna di un particolare momento cellulare, poi spezzato e sequenziato con tecnologie NGS.

Predittore Predizione ab initio Predizione di geni eucarioti Training in locale per nuovi genomi Utilizzo di EST e Proteine per la predizione Utilizzo di RNA-Seq per la predizione Predizione degli UTR Predizione dei trascritti alternativi Augustus SI SI SI SI SI SI SI Snap SI SI SI NO NO NO NO GeneMark-ES SI SI NO NO NO NO NO GeneID SI SI SI SI SI SI SI FGenesh SI SI SI NO NO NO NO Genescan SI SI NO SI SI SI NO MZEF SI SI NO NO NO NO NO mgene.ngs SI SI SI SI SI SI NO Contrast SI SI SI SI NO SI NO GrailExp SI SI NO SI NO SI NO TwinScan/N-Scan SI SI SI SI NO NO SI

Predizione genica ab initio: utilizza dati di training che potrebbero non essere rappresentativi di tutti i geni del genoma. Evidenze sperimentali: non coprono mai tutto il genoma, quindi non permettono l annotazione completa di tutti i geni codificanti proteine. I migliori metodi di predizione genica utilizzano una metodologia ibrida tra predizione genica ab initio e l utilizzo degli allineamenti delle evidenze sperimentali: cdna EST Proteine RNA-Seq

Creazione di un consensus utilizzando le evidenze sperimentali e le predizioni geniche. Ciascuna evidenza viene pesata dando un peso maggiore ai dati sperimentali rispetto alle predizioni. Principali programmi di integrazione: Evidence Modeller JIGSAW GAZE

Basate su automazione di programmi di predizione e allineamento esistenti. Vantaggio: relativamente semplici da utilizzare. Svantaggio: consentono un controllo limitato dei passaggi intermedi dell annotazione. Pipeline di annotazione più utilizzate: PASA MAKER

L ottimizzazione del protocollo bioinformatico per l annotazione dei geni codificanti proteine in genomi complessi. A questo scopo non verrà utilizzata una pipeline automatica di annotazione ma, attraverso la scelta di metriche adeguate, verrà valutato ogni singolo passaggio intermedio dell annotazione in modo da fornire una procedura ottimizzata sulla base delle evidenze sperimentali a disposizione.

Genoma dell organismo eucariote Vitis vinifera, versione V1 PN40024 12X del consorzio French-Italian Public Consortium for Grapevine Genome, con una dimensione di 487 Mb. Motivi di questa scelta: Il genoma è disponibile. Ci sono dati sperimentali disponibili (EST, 454, RNA-Seq, cdna full-length).

16.054 contig di cdna full-length prodotte dal consorzio French- Italian Public Consortium for Grapevine Genome 3752 cdna non ridondanti. Rimozione delle sequenze con ORF non completa 3.436 sequenze. Le 3.436 sequenze sono state suddivise in due gruppi in maniera del tutto casuale: 936 sequenze di cdna full-length training. 2.500 sequenze di cdna full-length test.

EST: 2.713.343 sequenze EST pubbliche (NCBI, Sequenziamento 454 + banca dati del consorzio). Allineamento e generazione modelli genici con Gmap. 1.649.082 trascritti putativi ridondati (56.630 non ridondanti). Proteine omologhe: Allineamento al genoma delle sequenze proteiche di tutto il database SWISSPROT utilizzando Blat, Blast e Genewise. 22.355 trascritti putativi ridondanti (5.808 non ridondanti). RNA-seq: 114.726.580 reads RNA-seq sequenziati dal laboratorio di genomica dell Università di Verona (pool di 45 campioni provenienti da 15 tessuti e organi a diversi stadi di sviluppo). Allineamento e generazione modelli genici con suite Bowtie + Tophat + Cufflinks. 40.324 trascritti putativi ridondanti (17.444 non ridondanti).

Statistiche generali degli allineamenti delle evidenze sperimentali Statistiche generali EST Proteine omologhe RNA-seq Numero di modelli genici allineati 56.630 5.808 17.444 Numero di modelli genici multi esonici 19.485 3.175 17.366 Media della lunghezza dei modelli genici 1.034,12 874,42 2.236,89 N50 della lunghezza dei modelli genici 2.257 1.563 2.751 Media del numero di esoni per modello genico 3,30 4,39 6,75 Distribuzione della percentuale di sovrapposizione di nucleotidi tra allineamenti e riferimento

Ho scelto i seguenti programmi di predizione genica, nei quali è stato realizzato il training con dati sperimentali di Vitis vinifera: Augustus: supporta suggerimenti da evidenze sperimentali. GeneID: supporta suggerimenti da evidenze sperimentali. SNAP: realizza solo predizione ab initio. Sono state realizzate le seguenti predizioni: Augustus ab initio GeneID ab initio SNAP ab initio Augustus con suggerimenti RNA-seq GeneID con suggerimenti RNA-seq I risultati delle predizioni sono state filtrati secondo: Eliminazione di tutte le predizioni di geni monoesonici (predizioni meno affidabili rispetto alle predizioni di geni multiesonici). Eliminazione di tutte le predizioni di geni con lunghezza della regione esonica inferiore a 200 basi.

Statistiche generali delle predizioni ab initio Statistiche generali Augustus ab initio GeneID ab initio SNAP ab initio Numero di geni predetti 30.510 48.751 64.431 Media della lunghezza dei geni 1.122,73 977,81 1.020,27 N50 della lunghezza dei geni 1.455 1.386 1.563 Media del numero di esoni per gene 4,44 4,34 6,14 Distribuzione della percentuale di sovrapposizione tra predizioni e riferimento

Statistiche generali delle predizioni guidate da evidenze sperimentali Statistiche generali Augustus con RNA-seq GeneID con RNA-seq Numero di geni predetti 26.694 52.245 Media della lunghezza dei geni 1.134,61 1.060,43 N50 della lunghezza dei geni 1.437 1.536 Media del numero di esoni per gene 4,74 4,30 Distribuzione della percentuale di sovrapposizione di nucleotidi tra predizioni e riferimento

Le statistiche generali da sole non consentono di valutare adeguatamente le differenze tra le predizioni, si rende quindi necessario fare una valutazione quantitativa dell accuratezza. Sensibilità(SN) ed Specificità(SP): Sensibilità misura quanto il predittore è in grado di fare predizioni. Specificità misura quanto il predittore predice in modo corretto. Accuratezza(AC): AC = (SN + SP) / 2

Tre livelli d indagine: Locus genico: misura la capacità dirilevarelapresenzadiunlocus. Regioni esoniche, misura la capacità di distinguere tra esoni e introni. Giunzioni esone-introne, misura la capacità di predire in maniera corretta la struttura dei geni.

Confronto degli allineamenti e delle predizioni contro il dataset di riferimento (loci genici) Evidenze EST 0,5680 0,6428 0,6054 Sensibilità Specificità Accuratezza Proteine omologhe 0,1872 0,6047 0,3960 RNA-seq 0,6140 0,7362 0,6751 Augustus ab initio 0,4612 0,5644 0,5128 GeneID ab initio 0,4852 0,4632 0,4742 SNAP ab initio 0,5640 0,4297 0,4969 Augustus con suggerimenti RNA-seq 0,5656 0,6727 0,6192 GeneID con suggerimenti RNA-seq 0,4884 0,4639 0,4762

Confronto degli allineamenti e delle predizioni contro il dataset di riferimento (r. esoniche) Evidenze Sensibilità Specificità Accuratezza EST 0,9342 0,6054 0,7698 Proteine omologhe 0,1732 0,9203 0,5468 RNA-seq 0,7334 0,6413 0,6874 Augustus ab initio 0,4489 0,8022 0,6256 GeneID ab initio 0,5245 0,7744 0,6495 SNAP ab initio 0,5459 0,6688 0,6074 Augustus con suggerimenti RNA-seq 0,5078 0,8502 0,6790 GeneID con suggerimenti RNA-seq 0,5296 0,7413 0,6355

Confronto degli allineamenti e delle predizioni contro il dataset di riferimento (giunzioni) Evidenze Sensibilità Specificità Accuratezza EST 0,5566 0,4747 0,5157 Proteine omologhe 0,2493 0,8794 0,5644 RNA-seq 0,8723 0,9507 0,9115 Augustus ab initio 0,6260 0,8347 0,7304 GeneID ab initio 0,6881 0,7536 0,7209 SNAP ab initio 0,5840 0,4538 0,5189 Augustus con suggerimenti RNA-seq 0,7875 0,9112 0,8494 GeneID con suggerimenti RNA-seq 0,6943 0,7521 0,7232

Annotazione finale realizzata con Evidence Modeller, che permette di combinare i risultati delle predizioni e delle evidenze sperimentali in un unica annotazione finale mediante l assegnazione di pesi. Livelli d indagine Pesi EVM assegnati Annotazione 1 Annotazione 2 Annotazione 3 EST 3 3 3 Proteine 5 5 5 RNA-seq 3 0 0 Augustus ab initio 1 0 0 GeneID ab initio 1 1 0 SNAP ab initio 1 1 0 Augustus con suggerimenti RNA-seq 0 2 2 GeneID con suggerimenti RNA-seq 0 0 0 Statistiche generali Annotazione 1 Annotazione 2 Annotazione 3 Numero di geni 26.814 26.243 26.211 Media della lunghezza dei geni 1.119,90 1.145,90 1.130,56 N50 della lunghezza dei geni 1.452 1.446 1.434 Media dei numero di esoni per gene 4,34 4,77 4,72 Annotazione 1 Annotazione 2 Annotazione 3 Sensibilità Specificità Accuratezza Sensibilità Specificità Accuratezza Sensibilità Specificità Accuratezza Identificare i loci genici 0,4396 0,6276 0,5336 0,5620 0,6768 0,6194 0,5600 0,6760 0,6180 Identificare le regione esoniche 0,4119 0,8110 0,6115 0,5012 0,8492 0,6752 0,5008 0,8544 0,6776 Identificare le giunzioni esone-introne 0,5698 0,8383 0,7041 0,7768 0,9093 0,8431 0,7769 0,9132 0,8451

Le statistiche generali non sono sufficienti a valutare le differenze tra le diverse predizioni, è necessario valutarne l accuratezza. È importate definire metriche adeguate per valutare l accuratezza di una predizione sotto diversi aspetti. Predittori con accuratezza simile per alcuni aspetti, mostrano un grado di accuratezza completamente diverso per altri. Utilizzare RNA-Seq, che sono ottenibili a costi ridotti e in tempi brevi, come suggerimento per i predittori può migliorare sostanzialmente la predizione a seconda del software utilizzato. È possibile realizzare un annotazione finale con poche predizioni accurate, consentendo un significativo risparmio di tempo computazionale. Valutare ogni singolo passaggio del protocollo di annotazione permette di avere un annotazione finale ottimizzata.