Next-generation sequencing, annotazione, ed espressione genica. Giulio Pavesi Dip. Bioscienze Università di Milano giulio.pavesi@unimi.

Documenti analoghi
Dal DNA alle proteine: La trascrizione e la traduzione

Struttura e funzione dei geni. Paolo Edomi - Genetica

DNA - RNA. Nucleotide = Gruppo Fosforico + Zucchero Pentoso + Base Azotata. Le unità fondamentali costituenti il DNA e l RNA sono i Nucleotidi.

Dal DNA all RNA. La trascrizione nei procarioti e negli eucarioti

TRASCRIZIONE

RNA non codificanti ed RNA regolatori

SINTESI DELL RNA. Replicazione. Trascrizione. Traduzione

Come funzionano gli oligo Antisenso? RNA WORLD. mrna. Regolare l espressione genica tramite molecole di RNA. Come funzionano gli oligo antisenso?

La regolazione genica nei eucarioti

LA GENETICA: DNA e RNA LA GENETICA. DNA e RNA. Prof. Daniele Verri

RNA polimerasi operone. L operatore è il tratto

REGOLAZIONE DELL'ESPRESSIONE GENICA

Genoma umano: illusioni, realtà, prospettive

Corso di Biologia Molecolare

L enigma del XXI secolo: decifrare il codice della vita

Bioinformatica. Marin Vargas, Sergio Paul

Il metabolismo dell RNA. Prof. Savino; dispense di Biologia Molecolare, Corso di Laurea in Biotecnologie

LE MOLECOLE INFORMAZIONALI. Lezioni d'autore Treccani

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY.

GENOMA. c varia da pochi kb nei virus a milioni di kb in piante e animali

La possibilita di conoscere i geni deriva dalla capacita di manipolarli:

Prof.ssa Gamba Sabrina. Lezione 7: IL DNA. Duplicazione e sintesi delle proteine

Organizzazione del genoma umano II

Controllo post-trascrizionale dell espressione genica

Organizzazione del genoma umano III

DNA non codificante ncdna

Il genoma dinamico: gli elementi trasponibili

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

20 febbraio Muore Renato Dulbecco

Bioinformatica (1) Introduzione. Dott. Alessandro Laganà

GENETICA seconda parte

Biologia Molecolare. CDLM in CTF La modificazione dell RNA e la traduzione

Il flusso dell informazione genetica. DNA -->RNA-->Proteine

Il nobel per l interferenza dell RNA

ncdna Per ncdna si intende il DNA intronico, intergenico e altre zone non codificanti del genoma.

ESPRESSIONE DEL GENOMA CORSO DI BIOLOGIA, PER OSTETRICIA

Dal macroscopico al microscopico. L interpretazione molecolare Giuseppe Macino La Sapienza Roma

eucarioti Cellula umana contiene circa geni

Strutturazione logica dei dati: i file

REPLICAZIONE DEL DNA

Perché abbiamo deciso di sequenziare il genoma umano

DOMANDA FREQUENTE: QUALE E LA FUNZIONE DI UNA CERTA PROTEINA? SI AUMENTA O SI DIMINUISCE L ESPRESSIONE DELLA PROTEINA

ISTITUTO COMPRENSIVO BARBERINO MUGELLO

Elementi di Psicometria con Laboratorio di SPSS 1

ANALISI POST-GENOMICHE TRASCRITTOMA: CONTENUTO DI RNA DI UNA CELLULA.

Dott.ssa Renata Tisi. Dip. Biotecnologie e Bioscienze Ed. U4 Tel renata.tisi@unimib.it

Regolazione dell espressione genica EUCARIOTI

Downloaded from Riarrangiamento dei geni per le Immunoglobuline e sviluppo dei linfociti B

CORSO DI AGGIORNAMENTO PER GLI INSEGNANTI DELLE SCUOLE MEDIE SUPERIORI INGEGNERIA GENETICA E SUE APPLICAZIONI

Progettaz. e sviluppo Data Base

I marcatori molecolari. Dipartimento di Scienze Agronomiche e Genetica Vegetale Agraria Corso di Genetica Agraria Giovanna Attene

Esempi di algoritmi. Lezione III

La traduzione: dall mrna alle proteine

Statistica. Lezione 6

I NUMERI DECIMALI. che cosa sono, come si rappresentano

Antonella Martinucci, Rossana Nencini, 2013 IL PESO. classe quarta

L EFFICACIA DELLE MISURE DI POLITICA ATTIVA DEL LAVORO REALIZZATE IN PROVINCIA DI TORINO NEL

SEQUENZIAMENTO DEL DNA

Indice dell'opera. Prefazione. Capitolo 1 Introduzione alla genetica Genetica classica e moderna Genetisti e ricerca genetica Sommario

SISTEMI DI NUMERAZIONE E CODICI

Funzioni in C. Violetta Lonati

Lezioni di Matematica 1 - I modulo

V. TRASCRIZIONE E TRADUZIONE DEL DNA

PRINCIPALI TIPI DI PCR a) PRINCIPALI TIPI DI PCR b)

SAGE: Serial Analysis of Gene Expression

RNA interference. La tecnologia dell RNAi è basata su un processo di inattivazione genica post-trascrizionale, altamente specifico

STUDI SU MATERIALE GENETICO

Laboratorio di Elementi di Bioinformatica

da 2 a 5 giocatori, dai 10 anni in su, durata 30 minuti

MODELLISTICA DI IMPIANTI E SISTEMI 2

Sperimenta il BioLab Attività di Bioinformatica Caccia al gene

GENI GENOMI e GENOMICA

Lo sviluppo del cancro è un processo complesso che coinvolge parecchi cambiamenti nella stessa cellula staminale. Poiché tutte le cellule staminali

SINTESI PROTEICA. Replicazione. Trascrizione. Traduzione

Alcuni aspetti legati al calcolo bioinformatico su CRESCO. Giuseppe Aprea UTMEA-CAL

Il DNA e la cellula. Versione 2.3. Versione italiana. ELLS European Learning Laboratory for the Life Sciences

Nuovi ruoli dei telomeri e della telomerasi

SISTEMI INFORMATIVI AVANZATI -2010/ Introduzione

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

Polimorfismi LEZIONE 6. By NA 1

A cosa serve al clinico e alla famiglia conoscere il difetto di base? Correlazione genotipo fenotipo

Biomarkers per la diagnosi precoce di tumori

Seguiamo con un pennarello la strada del filo..ogni bambino sceglie il colore per evidenziare la strada del suo filo..

Viene lanciata una moneta. Se esce testa vinco 100 euro, se esce croce non vinco niente. Quale è il valore della mia vincita?

Intorni Fissato un punto sull' asse reale, si definisce intorno del punto, un intervallo aperto contenente e tutto contenuto in

Piccoli RNA non codificanti RNA regolatore microrna RNAi e sirna

Aggiornamenti in ambito genetico

Tratto dal libro Come vivere 150 anni Dr. Dimitris Tsoukalas

Incontro con bioinformatici

Sistema theremino Collegare celle di carico ai Pin di tipo ADC

DIFFERENZIAMENTO E COMUNICAZIONE TRA CELLULE - LE CELLULE STAMINALI.

Vettori di espressione

COME VIENE REALIZZATA UNA RICERCA SPERIMENTALE IN BIOLOGIA MOLECOLARE?

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale

Una proteina nella rete: Introduzione alla bioinformatica

Laboratorio di Tecniche Microscopiche AA Lezione 12 Marzo 2008 Ore 15-16

S- magari si potrebbe dire la prima riga, la seconda riga UNITÀ DIDATTICA: TESTO POETICO. Obiettivi

De-constructing and Reconstructing. Life. (smontare e costruire oggetti biologici)

ATASSIA SPINOCEREBELLARE 17 (SCA17) (OMIM #607136)

Transcript:

Next-generation sequencing, annotazione, ed espressione genica Giulio Pavesi Dip. Bioscienze Università di Milano giulio.pavesi@unimi.it

Il primo passo... Abbiamo la sequenza completa del DNA di un organismo: Quanti geni contiene in tutto? Dove sono localizzati i geni? A cosa serve ciascun gene (ovvero, qual è la funzione della proteina codificata, ammesso che effettivamente codifichi per una proteina)? A quale livello è espresso ciascun gene nelle diverse condizioni?

Che cosa è un gene? Definizione genetica: Unità ereditaria degli organismi viventi Definizione molecolare: regione di sequenza genomica, corrispondente a un unità ereditaria

Il Dogma dei Geni (Eucariotici)

Start End DNA La sequenza dell RNA è idencca a uno dei due filamenc di DNA Dopo lo splicing, l mrna maturo esce dal nucleo della cellula ed entra nel citoplasma UTR Trascrizione SPLICING mrna (cdna) CDS UTR UTR : Regioni non trado/e: 5 UTR e 3 UTR CDS : CoDing Sequence (trado/a) RNA I gialli (introni) se ne vanno Rimangono i rossi (esoni) Traduzione in proteina

La trascrizione L RNA polimerasi, scorre lungo uno dei due filamenti (in direzione 3 5 ), costruendo una sequenza di RNA complementare al filamento su cui sta scorrendo In pratica, la polimerasi realizza una copia di uno dei due filamenti del DNA Per definizione, sul DNA il gene è annotato sul filamento UGUALE all RNA prodotto (nell esempio, sul filamento nero)

La struttura dell mrna (maturo) 5 3 AAAAAA Cap Coda di poly- A Codone di start (ATG) Codone di stop (UGA, ecc.) Regione non trado<a (5 UTR) Regione codificante (coding sequence - CDS) Regione non trado<a (3 UTR)

Leggere le sequenze E possibile determinare anche la sequenza di un trascritto (RNA) Quindi, se conosco la sequenza di un RNA, posso localizzare lungo la sequenza genomica la regione che lo produce (che è - a tratti - uguale al trascritto!) Se conosco anche la sequenza dell eventuale proteina codificata, allora ho completato l annotazione del gene

Dall mrna (maturo) al DNA 5 3 AAAAAA L mrna (maturo) è cosctuito dalla giunzione degli esoni. Quindi, mappando l RNA sul DNA corrispondente si trovano delle interruzioni 5 3 3 5 Nota: non necessariamente la sequenza dell RNA è al 100% idencca a quella genomica trascri/a. Come mai?

Struttura del gene Gli esoni sono regioni di un gene che vanno a costituire il trascritto maturo (risultante dallo splicing) Gli introni sono le regioni di un gene che vengono trascritte, ma che successivamente vengono rimosse dal trascritto primario (pre-mrna) e non vanno a costituire il trascritto maturo (mrna) Le regioni non tradotte (UTR) sono le regioni del trascritto maturo (mrna) che non sono tradotte, a monte del codone ATG (5 UTR) e a valle del codone di stop (3 UTR)

Dall mrna (maturo) al DNA 5 3 AAAAAA In questo caso, dove vanno a cadere codone di start, di stop, CDS e UTR? 5 3 Esone1 Esone2 Esone3 3 5

Dall mrna (maturo) al DNA 5 3 AAAAAA In questo caso, dove vanno a cadere codone di start, di stop, CDS e UTR? 5 3 3 5 ATG STOP!

Dall mrna (maturo) al DNA 5 3 AAAAAA Cosa succede se il trascri/o, invece di essere copia del filamento superiore (senso, o posicvo ) è copia del filamento inferiore (ancsenso, o negacvo )? 5 3 3 5

Dall mrna (maturo) al DNA 3 5 AAAAAA 5 3 Esone3 Esone2 Esone1 3 Basta... girarlo!!!!!!!!!!!!! Trascri/o e gene e numeri degli esoni devono essere sempre lew nello stesso senso, da 5 a 3! 5

Un gene umano semplice

Un gene umano più complicato... In questo caso, lo stesso gene produce 3 trascriw alternacvi

Un gene umano MOLTO complicato

Quanti geni (regioni trascritte che codificano per una proteina)? Osservando il risultato della mappatura dei trascritti sul genoma, è possibile contare in quanti geni si suddividono, nelle diverse specie: E.coli (4,7 milioni pb) 4.300 geni S.cerevisiae (12 milioni pb) 6.700 geni D.melanogaster (169 milioni pb) 13.900 geni C.elegans (97 milioni pb) 19.000 geni Uomo (3,2 miliardi pb) 23.000 geni Topo (2,9 miliardi pb) 23.000 geni D.rerio (zebrafish, 1,5 miliardi pb) 26.000 geni A. thaliana (pianta, 120 milioni pb) 30.000 geni Riso (488 milioni pb) 57.000 geni

Geni e sequenziamento Genoma Sequenziamento Trascrittoma e RNA-Seq Proteoma

Annotazione old-generation Mentre sequenziare un intero genoma è (relacvamente) semplice, lo è molto di meno sequenziare un intero trascri/oma, ovvero il corredo di tuw i trascriw sinteczzac dal genoma di una data specie L espressione (e in primo luogo, la trascrizione) dei geni dipende da diversi fa/ori, quali: Stadio di sviluppo o tessuto Risposta a scmoli Patologie Fa/ori diversi individuo- specifici Difficile o/enere ragionevole certezza di avere raggiunto un livello di copertura del trascri/oma adeguato, ovvero, di avere effewvamente sequenziato la quasi totalità dei possibili trascriw

Annotazione old-generation La completezza o meno di un annotazione dipende dalla disponibilità di trascriw Fino a pochi anni fa, le annotazioni venivano compiute a parcre dalle sequenze disponibili (es. database GenBank - NucleoCde NCBI) prodo/e da laboratori di tu/o il mondo Campionamento del trascri/oma biased, ovvero per i geni più studiac (es. TP53, DMD in uomo) erano disponibili molc più trascriw rispe/o a geni poco studiac o poco cara/erizzac Campionamento del trascri/oma biased a seconda della tecnica uclizzata per estrarre/isolare gli RNA (es. poly- A), Cpicamente isolac/sequenziac trascriw che codificano per una proteina (mrna) Campionamento del trascri/oma biased dai cosc necessari al sequenziamento (un trascri/o per gene può bastare?)

Annotazione next-generation Con l introduzione delle tecniche di sequenziamento de/e next- generacon sequencing la possibilità di sequenziare - a cosc relacvamente contenuc - interi genomi o trascri/omi è diventata accessibile anche a laboratori di dimensione/disponibilità economica piccolo/media Con RNA- Seq si intende l applicazione di un metodo di sequenziamento next- generacon al sequenziamento di un campione di RNA

RNA (cdna) > 1000 bp Sanger sequencing (700 bp)

RNA (cdna) > 1000 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp 50 bp

RNA-Seq: single end e paired end Frammento RNA (cdna) Single end: viene sequenziata una delle due estremità (scelta a caso) Paired end: vengono sequenziate entrambe le estremità Direzionale: viene specificato quale dei due filamenti era l RNA originale, ovvero se è stato sequenziato l RNA o il suo complemento

RNA-Seq Retrotrascrizione in cdna Frammentazione Sequenziamento frammenc ( read ) Mappatura dei frammenc sulla sequenza genomica

mrna e RNA-Seq

Campione di RNA Sequenziamento (RNA-Seq) Assemblaggio trascritti originali Confronto con annotazione genica già disponibile

Esone incluso RNA-Seq Esone NON incluso 5 3 5 3

RNA-Seq confronto con annotazione Esone NON incluso 5 3 In rosso: frammenti che mappati sul genoma si spezzano in due 5 3 Esone incluso

RNA-Seq: identificare nuovi trascritti alternativi confrontando con annotazione Mappando i read si sequenza sul genoma vanno a cadere in un introne tra due esoni già annotati E possibile si tratti di un esone che nessuno ha ancora visto A 5 3?? D A- D

RNA-Seq: identificare nuovi trascritti alternativi Mappando i read si sequenza sul genoma vanno a cadere in un introne tra due esoni già annotati E possibile si tratti di un esone che nessuno ha ancora visto 5 3 A GT AG GT AG

RNA-Seq: sequenze PAIRED- END 200 bp 5 3 5 3

RNA-Seq: sequenze PAIRED- END Più facile individuare nuovi esoni dal confronto con annotazioni già esistenti 5???? Novel exon 3

RNA-Seq: sequenze PAIRED- END 5???? 3

RNA-Seq e genomi Wang et. al., Nature 456(2008):470-476 10 tessuti umani 5 linee cellulari tumorali Trascritti cdna divisi in frammenti di 30 bp 12-29 milioni di frammenti per tipo di cellula Circa 500 milioni di frammenti in tutto Scopo: verificare innanzitutto se si è perso qualche gene, e per I geni già annotati quanto e come è diffuso lo splicing alternativo

Asse x: numero di sequenze per gene Asse y: frazione di geni in cui è idencficato almeno un trascri/o alternacvo Frazione di geni con una isoforma minore (y) che appare nell (x)% dei trascritti del gene

La stessa cosa dimostrata 6 mesi prima.. usando sequenze di EST invece di sequenze RNA- Seq

Pervasive tissue-specific regulation of alternative mrna isoforms.

Morale... Il dogma iniziale: UN GENE UN TRASCRITTO UNA PROTEINA... è ora diventato.. UN GENE TANTI TRASCRITTI (POTENZIALMENTE) TANTE PROTEINE Potenzialmente, perché... non è assolutamente detto che tutti i trascritti prodotti da un gene siano necessariamente codificanti Lo splicing alternativo deve essere considerato una caratteristica normale dei geni eucariotici, piuttosto che un eccezione

Morale... (2) In origine gli RNA erano o Codificanti (mrna) e uno per gene Non codificanti, e coinvolti nella traduzione dei mrna (trna, rrna) In realtà, esistono centinaia di RNA non codificanti prodotti da un genoma (mirna, snorna, smallrna, lncrna) e così via, con svariate funzioni

Progetto ENCODE (ENCyclopedia of Dna Elements) 62% of the human genome is transcribed into sequences >200 bp long 5.5% of this is exon 31% is intergenic no annotated gene Remaining: intronic CAGE-seq: 62,403 TSS 44% within 100bp of the 5 end of a GENCODE gene Others: exons and 3 UTRs, significance unknown Lots of short ncrnas: trna, mirna, snrna etc.

ENCODE: quanti geni? GENCODE human reference gene set 20,687 Protein-coding 6.3 alternatively spliced transcripts on average (*= 3.9 protein isoforms on average Protein-coding exons: 1.22% of the genome Still more to come: unidentified peptides in massspec ci sono geni che mancano?!?!? 18,441 ncrna genes 8801 short ncrna (es. microrna) 9640 long nc RNA ( simili a mrna, ma non codificanti) 11,224 pseudogenes 863 transcribed

Espressione genica

Espressione genica Con il termine espressione genica si intende il processo attraverso cui l'informazione contenuta in un gene (costituita di DNA) viene convertita in una macromolecola funzionale (tipicamente una proteina) Sequenziando i trascritti possiamo sapere se/quando un gene viene trascritto E possibile quantificare il livello di espressione (o meglio, di trascritto ) di un gene?

RNA-Seq ed espressione genica Il pool di RNA (cdna) viene frammentato I frammenti da sequenziare vengono scelti a caso con probabilità uniforme (sono un sottoinsieme di tutti i frammenti) Più alto sarà il livello di un dato RNA nel pool, più alto sarà il numero di frammenti che produce, più alta sarà la probabilità di sequenziarlo!

RNA Sample Fragmented RNA Sample Sequenced reads

RNA-Seq: riassumendo Con poche migliaia di euro e un po di manodopera bioinformatica è possibile Sequenziare un trascrittoma completo eucariotico, mrna, RNA non coding, piccoli RNA Annotare i geni sul rispettivo genoma, e/o integrare le annotazioni già esistenti Stimare il livello di trascritto di ciascun gene, separatamente per ogni trascritto alternativo Confrontare le variazioni di espressione (trascrizione) in condizioni diverse Applicate al sequenziamento di trascritti le tecnologie NGS hanno portato ad avanzamenti di enorme portata sia dal punto di vista della ricerca di base (come funziona un genoma?) sia da quello applicativo (cosa funziona diversamente, in caso di patologie come i tumori?)