Genomics Session Predizione di geni
Valutazione dei vari metodi A livello di nucleotide: TN FN TP FP TN FN TP FN TN Realtà Predizione Realtà TP nc FP Sensitività Sn = TP / (TP + FN) Specificità nc Predizione c c FN TN Sp = TP / (TP + FP)
Valutazione dei vari metodi A livello di esone: Esone sbagliato Esone corretto Esone mancante Realtà Predizione Sensitività Sn = Numero di esoni correttamente predetti Numero di esoni nel dataset Numero di esoni correttamente predetti Specificità Sp = Numero di esoni predetti
Valutazione dei vari metodi A livello di gene: Si considera una predizione corretta a livello di gene se tutti i suoi esoni sono stati correttamente predetti. Sensitività Sn = numero di geni correttamente predetti numbero di geni nel dataset numero di geni correttamente predetti Specificità Sp = numero di geni predetti
Valutazione dei vari metodi
Valutazione dei vari metodi Brent, Nature Reviews Genetics 2008
Strategia per l'annotazione di un genoma Brent, Nature Reviews Genetics 2008 2 Genomica Computazionale, Laurea Magistrale 2010/2011 Laurea Magistrale A.A. 2010/2011 Genomica A.A. Computazionale,
Limiti degli algoritmi per identificazione di geni Non possono identificare: Geni sovrapposti; Geni annidati; Frame-shifts o errori di sequenziamento; Codoni di inizio e stop alternativi; Giunzioni di splicing non canoniche; Splicing alternativo; Salto del codone di stop (TGA) causato da selenocisteine; Sono in genere organismo-specifici; Identificano bene geni simili a qualcosa visto in precedenza; Sono disegnati per identificare solo geni codificanti per proteine.
Genomics Session Splicing alternativo
Splicing alternativo Processo mediante il quale il trascritto di un gene può essere riarrangiato dando luogo a mrna diversi; Importante meccanismo regolatorio per la modulazione delle funzioni e caratteristiche dei prodotti proteici dei geni eucariotici; Studi genomici su larga scala suggeriscono che fra il 70-80% dei geni umani può dar luogo ad almeno due diversi mrna (isoforme) mediante splicing alternativo; Possibile spiegazione del paradosso del ridotto numero di geni negli organismi superiori
Processamento dei pre-mrna
Processamento dei pre-mrna Il processamento di un pre-mrna è cotrascrizionale
Scoperta dello splicing alternativo - Inizialmente predetto da Walter Gilbert nel 1978; - Dimostrato per la prima volta peril gene per la catena pesante delle immunoglobuline nel 1980 (Edmund Choi, Michael Kuehl & Randolph Wall, Nature 286, 776 779) - Lo splicing produce due isoforme della proteina con diversa regione C-terminale: Una forma più corta, che è secreta Una più lunga che rimane ancorata alla membrana plasmatica S - signal peptide V - variable region C - constant region Red untranslated region Green membrane anchor Yellow end of coding reg. for secreted form
Splicing alternativo Il pre-mrna della troponina T può dar luogo a 64 diverse isoforme della proteina nel muscolo Constitutively spliced exons (exons 1-3, 9-15, and 18) Mutually exclusive exons (exons 16 and 17) Alternatively spliced exons (exons 4-8) Gli esoni 4-8 sono spliceati in ogni possibile combinazione dando luogo a 32 combinazioni diverse Gli esoni 16 e 17, che sono mutualmente esclusivi, raddoppiano le possibilità, quindi in totale si possono avere 64 isoforme
Splicing alternativo Gene DSCAM (Down syndrome cell adhesion molecule) di Drosophila > 38000 isoforme di splicing [Graveley et al., 2001]
Splicing alternativo Gene 5 mrna1 mrna2 mrna3 mrna4 mrna5 exon 1 exon 2 exon 3 exon 1 exon 2 exon 3 exon 2 exon 3 exon 1 exon 1 exon 1 exon 1 exon 1 3 exon 3 exon 2 exon 2 exon 3 exon 3
Tipi di splicing alternativo
Splicing alternativo Effetti dello splicing alternativo: - Inclusione/esclusione di domini funzionali in proteine; - Cambiamenti della struttura terziaria; - Cambiamenti nelle UTR, influenzando la stabilità del mrna e l'efficienza della traduzione. Alterazione delle capacità di legare partner, es. recettore/ligando Alterazione della localizzazione subcellulare, es. inserzione in membrana Alterazione della localizzazione extracellulare, es. secrezione Alterazione delle attività enzimatiche o di signaling Alterazione della stabilità della proteina, es. inclusione di siti di taglio Inserzione di regioni modificabili post-trascrizionalmente
Modello di un gene Si definiscono 4 tipi di esoni in funzione della posizione relativa: Esoni iniziali, dal codone di inizio al primo sito donatore; Esoni interni, da un sito accettore al sito donatore successivo; Esoni terminali, dall'ultimo sito accettore al codone di stop; Esoni singoli, dal codone di inizio al codone di stop (in geni senza introni).
Modello di un gene Si definiscono 4 tipi di esoni in funzione dello splicing: Esoni costitutivi, condivisi da tutte le isoforme; Esoni specifici, propri di una sola isoforma; Esoni alternativi, condivisi da un sottoinsieme di tutte le isoforme; Esoni overlappanti, possono avere regioni costituive, alternative o specifiche.
Modello di un gene [Leoni et al., 2010]
Dimensioni esoni/introni Species Yeast Nematode Fruit fly Chicken Mammals Average exon No. 1 4 4 9 7 Average intron No. 0 3 3 8 6 Average length(kb) 1.6 4.0 11.3 13.9 16.6 Average kb mrna 1.6 3.0 2.7 2.4 2.2 % exon per gene 100 75 24 17 13
Giunzioni di splicing
Meccanismo dello splicing
Meccanismo dello splicing Legame dgli snrnp U1 e U2 Riarrangiamento delle interazioni fra snrnps, rilascio di U1 e U4 Legame degli snrnp U4, U5 e U6
Meccanismo dello splicing Il core catalitico, formato da U2 e U6, catalizza la prima reazione di transesterificazione Ulteriori riarrangiamenti fra U2, U6 e U5 portano alla seconda reazione di transesterificazione
Meccanismo dello splicing L'ipotesi di definizione degli esoni Fattori diversi interagiscono con esoni e introni
Controllo dello splicing alternativo
Controllo dello splicing alternativo [Maniatis & Tasic, 2002]
Controllo dello splicing alternativo Lo splicing degli esoni è modulato da: Proteine proteine SR e hnrnps Elementi cis in introni ed esoni splicing enhancers e silencers ESE - Exonic Splicing Enhancer ESS - Exonic Splicing Silencer ISE - Intronic Splicing Enhancer ISS - Intronic Splicing Silencer Differenze nelle attività e/o quantità dei fattori di splicing generali e/o in quelli specifici in particolari condizioni (ad es durante lo sviluppo, in tessuti diversi, in risposta a stimoli) può causare splicing alternativo
Identificazione di casi di splicing alternativo Analisi dello Splicing Alternativo: Due obiettivi principali: Identificare casi di splicing alternativo Identificare come lo splicing alternativo è regolato Quali sono le diverse isoforme di un gene? Quali sono i motivi di sequenza che controllano lo splicing, e che determinano quali isoforme sono espresse in un determinato momento
Identificazione di casi di splicing alternativo Dati: sequenze di cdna, EST, proteine Confrontare i dati di sequenza con l'assemblaggio genomico Confrontare i dati di sequenza fra di loro
Identificazione di isoforme mediante microarrays Exon junction arrays Exon arrays [Blencowe, 2006]
Identificazione dello splicing alternativo Confronto diretto di cdna Confronto di cdna mappati sul genoma Confronto di dati di espressione da microarray [Florea, 2006]
Identificazione dello splicing alternativo I metodi descritti si basano sulla conoscenza della sequenza completa dei trascritti di un gene La sequenza completa è usata per mappare sul genoma, per confrontare coppie, o per disegnare probes per microarrays Le EST invece forniscono sequenze incomplete Date tutte le osservazioni di sequenze per un dato gene, inclusi full length cdnas, ESTs e arrays di espressione, lo scopo e' di inferire il set piu' verosimile di isoforme full-length che spiegano I dati osservati. Si tratta di assemblare varie sequenze full length da una mistura di sequenze frammentarie.
Librerie di ESTs EST = Expressed Sequence Tag Partial cdna sequences created from expressed mrna (200-400 bp in length) [Brent, Nature Reviews Genetics 2008]
Librerie di ESTs A B A C C A B A B Gene A : suffisso di A C : prefisso di C D : prefisso di D B B D D A EST C D C
Librerie di ESTs Gruppi di EST i cui allineamenti locali sul genoma finiscono o iniziano nello stesso posto identificano giunzioni esone/introne A B A A C D C D Gene B EST B A B A B C D C splice junction
Librerie di ESTs [Modrek & Lee, 2002]
Librerie di ESTs Le EST derivano da tutti i mrna del campione, quindi vanno raggruppati insieme secondo il mrna di provenienza per poterne ricostruire la sequenza Dati di EST contengono molti errori: Spesso incompleti Inaccurati Campionamento non uniforme Contaminazioni Il mrna potrebbe non essere maturo La grande mole di dati di EST le rende comunque molto utili Sono disponibili anche per organismi per i quali la sequenza del genoma non è nota o è incompleta
Librerie di ESTs Un EST è una sequenza parziale di un trascritto; per ricostruire il trascritto: Confrontare tutte le sequenze delle EST una contro l'altra; Identificare overlap significativi; Raggruppare sequenze con overlap compatibili in gruppi (clusters); Assemblare le sequenze di ogni cluster. UniGene (NCBI) è una banca dati di clusters di EST predetti provenire dallo stesso gene, ottenuti con varianti di algoritmi di assemblaggio Problemi: - Overclustering: I geni paraloghi potrebbero essere raggruppati insieme in un unico cluster - Underclustering: il numero di EST potrebbe essere insufficiente - Computazionalmente Intensivo
Librerie di ESTs Obiettivo: dato un cluster di EST, identificare tutti i trascritti da cui hanno origine GenBank (dbest), EMBL, DDBJ Cluster di EST Assemblaggio Banca dati primaria Consenso EST
Librerie di ESTs Obiettivo: dato un cluster di EST, identificare tutti i trascritti da cui hanno origine GenBank (dbest), EMBL, DDBJ Banca dati primaria Consenso 1 Cluster di EST Consenso 2 Trascritti putativi
Librerie di ESTs Lo splicing alternativo può causare assemblaggi di EST spesso sbagliati, tronchi o ambigui se fatto con tecniche convenzionali sbagliato troncato troncato EST cluster corretto troncato
Splicing graphs (Heber, 2002) (adenylosuccinate lyase) [Heber et al., 2002]
Rappresentazione dello splicing
Identificazione dello splicing alternativo Confronto di clusters di EST Splicing graphs [Florea, 2006]
Splicing graphs (Heber, 2002) Il problema di assemblare sequenze consenso può essere ricondotto a un problema di ricostruzione di un grafo: Dato un cluster di EST, tovare il grafo ottimale (splicing graph) che rappresenti tutti i trascritti come percorsi nel grafo
Splicing graphs (Heber, 2002) Se è nota le sequenza del genoma di riferimento: - Mappare gli EST/cDNA sul genome - Verificare l'allineamento (siti di splicing, qualità) - Connettere le posizioni consecutive transcript 1 genomic seq. transcript 2 splicing graph Si possono generare combinatorialmente tutti i possibili trascritti alternativi Ovviamente non tutti saranno veri trascritti Bisogna dare un punteggio ai candidati trascritti, per differenziare quelli veri dai falsi
Splicing graphs (Heber, 2002) Nodi: Esoni Archi: Introni Gene: directed acyclic graph Ogni percorso nel DAG descrive un trascritto alternativo Per DAG complessi, ci saranno moltissimi possibili percorsi Gli archi devono essere pesati (numero di EST che unisce due esoni, dati di espressione)
Splicing graphs (Heber, 2002) Set di mrna S={s1,s2..sn} Vi = Set di coordinate (o genomiche, o relative al cluster) per ogni nucleotide si Splicing graph G Vertici di G = unione di Vi = tutte le basi Se le basi v e w sono consecutive in un transcritto/est, sono unite da un arco Ogni transcritto si = percorso nel grafo
Splicing graphs (Heber, 2002) Se non è nota le sequenza del genoma di riferimento: - Si deve ricostruire il grafo dalle sequenze degli EST - Si divide la seuenza dell'est in k-meri (20-meri). - Si costruisce il grafo usando i k-meri come vertici, connettendoli se occorrono consecutivamente nella sequenza Esempio (3-meri): Sequenze: CTCGATGAC, CTCGGAC Vertici: {CTC, TCG, CGA, GAT, ATG, TGA, GAC, CGG, GGA} CGG GGA CTC TCG CGA GAT ATG TGA GAC CTCG AT GAC splicing graph semplificato
Splicing graphs (Heber, 2002)
Splicing graphs Una volta stabilito un sistema per dare un punteggio ad un percorso nel grafo, si devono ricercare i trascritti migliori: - in maniera esaustiva (Heber) - Expectation maximization - dynamic programming
Plausibilità strutturale di varianti di splicing [Romero et al., 2006]
Plausibilità strutturale di varianti di splicing Protein Structure Modeling Ab initio modeling Threading & Fold Recognition Homology Modeling MNIFEMLRID HLLTKSPSLN DEAEKLFNQD LDAVRRCALI LQQKRWDEAA TTFRTGTWDA EGLRLKIYKD AAKSELDKAI VDAAVRGILR NMVFQMGETG VNLAKSRWYN YKNL TEGYYTIGIG GRNCNGVITK NAKLKPVYDS VAGFTNSLRM QTPNRAKRVI?
Plausibilità strutturale di varianti di splicing Modelli per omologia di proteine soggette a splicing alternativo; La parte viola indica regioni rimosse da eventi di splicing in alcune isoforme Hemoglobin delta-subunit SET domain-containing protein 3 Mitochondrial cysteine desulfurase Initiation factor 6 [Tress et al., 2007]
Genomics Session Geni per RNA non codificanti
RNA non codificante Di tutto l'rna trascritto negli eucarioti superiori, il 98% non è mai tradotto in proteine; Di questo 98%, circa il 50-70% è costituito da introni; Il resto origina da geni non codificanti proteine, fra cui geni per rrna, trna e una vasta serie di altri geni per RNA non codificante (non-coding RNA, ncrnas); Anche alcuni introni sono stati visti contenere ncrnas, ad exsempio gli snorna; Il numero di ncrna diversi nei genomi di mammifero è sconosciuto (alcuni dicono fino a 10000);
Tipi di ncrna Gli ncrna si possono genericamente classificare in due gruppi in base alla loro funzione: NcRNA housekeeping, i quali sono espressi sempre e sono necessari per le funzioni normali e la sopravvivenza della cellula; NcRNA regolatori, i quali sono espressi per rispondere a particolari esigenze; NcRNA regolatori possono influire sull'espressione di altri geni modulando la loro trascrizione o traduzione
Tipi di ncrna Esempi di ncrna housekeeping: Apparato per la sintesi proteica: Transfer RNA (trna); RNA Ribosomiale (rrna); snrna: RNA dello spliceosoma; snorna (small nucleolar RNA) : ruolo accessorio agli rrna; tmrna (trna like mrna): degradazione delle proteine; grna: editing dell'rna; RNA della telomerasi: primer per la sintesi del DNA dei telomeri;
Tipi di ncrna L'RNA 4.5S e l'rna 7S fanno parte della signal recognition particle (SRP); Questi RNA tengono insieme le subunità proteiche della SRP e aiutano il legame al ribosoma; La SRP riconosce sequenze aminoacidiche segnale all'estremità N-terminale della catena polipeptidica nascente; Il riconoscimento del segnale induce l'attacco del ribosoma al reticolo endoplasmatico, nel quale la proteina nascente si avvia verso la secrezione.
Tipi di ncrna Esempi di ncrna regolatori: Micro RNA (mirna): regolatori della traduzione; Small interfering RNAs (sirna): silenziamento di geni; Riboswitch RNA: controllo dell'espressione genica; ncrna modulatori delle funzioni di proteine; ncrna regolatori della localizzazione di RNA e proteine.
Tipi di ncrna Ribozimi: Sono molecole di RNA capaci di attività catalitica; In natura sono stati osservati prevalentemente associati ad introni capaci di self-splicing e in RNA codificato nel genoma di parassiti intracellulari (viroidi); Anche il ribosoma è considerato da alcuni un ribozima, dato che la formazione del legame peptidico è catalizzata da RNA; Questi ribozimi osservati in natura sono in grado di catalizzare reazioni implicate nel taglio e unione di molecole di RNA, e spesso agiscono su loro stessi; Several synthetic ribozymes are cabaple of performing other reactions than RNA cleavage and ligation
RNA world Proteine: diversità e catalisi DNA: stabilità e immagazzinamento RNA: diversità, immagazzinamento e catalisi
RNA world Nell'ipotesi di un mondo in cui le uniche molecole biologiche erano basate su RNA, è necessario immaginare una molecola di RNA capace di sintetizzare RNA, cioè una RNA polimerasi fatta di RNA; Anche se nessuna molecola di questo tipo è nota, un RNA capace di replicare altro RNA è stato selezionato in vitro da librerie di sequenze di RNA casuali; Questa ribopolimerasi è lunga 165 nt; Capace di copiare 14 nucleotidi in 24 ore, con precisione del 97%; Altre attività enzimatiche selezionate in vitro: RNA ligasi, fosforilazione di RNA, taglio di RNA, formazione di legami peptidici, formazione di legami aminici.
RNA world Un ipotetico mini ribo-organismo [Bartel & Unrau, 1999]
Tipi di ncrna
Geni per ncrna Diverse caratteristiche: Possono essere espressi come parte di un gene codificante per proteine; Possono far parte di un unico trascritto precursore da cui sono estratti diversi ncrna; Possono essere molto corti, o molto lunghi; Possono avere introni, e subire splicing; Possono essere espressi da pseudogeni di geni codificanti proteine; Possono essere trascritti dalla RNA polimerasi II o dalla III; Possono essere poliadenilati.
Geni per ncrna Non sono generalmente identificabili con metodi per geni codificanti proteine Segnali Caratteristiche composizionali comuni ATG TAA, TGA, TAG GT..AG c Lunghezza degli esoni Lunghezza degli introni Codon bias Altre caratteristiche genomiche?? Omologia (allineamento in cis)
Geni per ncrna Svolgono la loro funzione: In maniera sequenza-specifica (es. per appaiamento di basi con un target); In maniera struttura-specifica (es. per interazione con ligandi proteici); In maniera sia sequenza- che struttura-specifica.