Analisi bioinformatica di esperimenti di Esoma Intero in trio

Documenti analoghi
Sequenziamento ed analisi dell esoma intero (All Exon)

Patologie da analizzare

Introduzione alla Genomica

GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi

I gameti prodotti saranno:

La mappatura dei geni umani. SCOPO conoscere la localizzazione dei geni per identificarne la struttura e la funzione

Marcatori molecolari per l analisi genica, genetica e genomica

3 modulo didattico - Le

HI-TECH IN SANITA'. MINI-INVASIVITA' 2.0: nuove tecnologie al servizio dell'appropriatezza e della bioetica professionale

Non è possibile che l analisi escluda in assoluto la probabilità di essere un portatore per le

Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli. Esercizi ricerche in banche dati

BIOTECNOLOGIE ANIMALI: LINKAGE E MARCATORI

CONVEGNO EMOFILIA A NEL CANE TRASMISSIONE GENETICA E PREVENZIONE DELL EMOFILIA A DEL CANE PIANO DELLA PRESENTAZIONE

ANALISI MOLECOLARE DEL GENOMA

STRATEGIE di CLONAGGIO

Lezione 1. Le molecole di base che costituiscono la vita

Regione del Veneto - POR FESR BANDO PER IL SOSTEGNO A PROGETTI DI RICERCA CHE PREVEDONO L IMPIEGO DI RICERCATORI

Ottimizzazione del protocollo bioinformatico per l annotazione di geni codificanti proteine in genomi complessi. Marin Vargas, Sergio Paul

STRUTTURA GENOMICA DEL GENE MUTAZIONI GENICHE

Bioinformatica e Biostatistica / Lezione7. Lezione 7: Allineamento delle reads ad un genoma di riferimento

PCR allele-specifica Ibridazione con sonde allele-specifiche (ASO) PCR Real-time con sonde TaqMan Saggio OLA (Oligo Ligation Assay)

N.B. Queste sono solo alcune delle possibili domande d esame.

LE LEGGI DI MENDEL SPIEGANO LA TRASMISSIONE DEI CARATTERI MONOFATTORIALI!!

CORSO INTEGRATO DI GENETICA. a.a /12/2010 Lezioni n Esercizi. Dott.ssa Elisabetta Trabetti

Studio di correlazione genotipo-fenotipo su 240 pazienti affetti da esostosi multiple ereditarie (HME)

Identificazione di geni e fattori di suscettibilità delle malattie umane. Prof. Gabriella De Vita

LE MUTAZIONI. MUTAZIONE: MODIFICAZIONE DEL MESSAGGIO GENETICO, cambiamento raro, casuale, permanente ed EREDITABILE del DNA RIMESCOLAMENTO!!

Bioinformatica e Biostatistica. Esercitazione di laboratorio: allineamento di reads ad un genoma di riferimento

Diagnostica molecolare dei disordini genomici

STRUTTURA GENOMICA DEL GENE MUTAZIONI GENICHE

FEBBRE MEDITERRANEA FAMILIARE: CENNI DI GENETICA

LA GENETICA E L EREDITARIETA

Costruzione di un albero genealogico

Sequenziamento ed analisi con il sistema ION TORRENT

Alberi Genelogici. Le malattie genetiche autosomiche recessive. Mendeliana. Trasmissione ereditaria di un singolo gene. monofattoriale) (eredità

Polimorfismi LEZIONE 3. By NA 1

La superficie del globulo rosso è ricca di complesse strutture aventi caratteristiche antigeniche

del libro (non sono dispense) i Power Point delle lezioni e fotocopie/pdf per integrare By NA 1

Imprinting I. Lezione 16. By NA 1

POPOLAZIONE. Gruppo di individui della stessa specie che occupa una particolare area geografica nella quale essi possono accoppiarsi liberamente

Genetica della trasmissione dei caratteri. Genetica molecolare. Genetica di popolazione

La GENETICA DELLE POPOLAZIONI. studia con modelli matematici, a livello di gruppi di individui, variabilità genetica

Utilizzo di marcatori molecolari in evoluzione e conservazione

1 modulo didattico - Impatto clinico delle malattie genetiche e

RELAZIONE DI CONSULENZA TECNICA MEDICO-LEGALE EXTRAGIUDIZIALE IN TEMA DI RAPPORTO DI FILIAZIONE

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

6) Una cellula con 10 coppie di cromosomi entra in mitosi. Quanti cromosomi avrà ognuna delle due cellule figlie? a) 5 b) 20 coppie e) 20 d) 10

La variabilità genetica: tipi e metodi per studiarla e misurarla

SECONDA LEGGE DI MENDEL

Laboratorio di Elementi di Bioinformatica

GENETICA DELLE MALATTIE COMPLESSE. Dr. Giovanni Malerba Biologia e Genetica, UniVR

EPI-GENETICA: EREDITARIETA E AMBIENTE

Mendel e l ereditarietà. Anna Onofri

Genetica, genomica ed innovazione varietale UO9, Parco Tecnologico Padano Pietro Piffanelli, Pamela Abbruscato, barbara Menin

Lezione 2. costituiscono la vita

Sommario. Diversità genetica a livello di sequenza Trovare gli SNP Genotipizzare gli SNP Principali applicazioni

Program ma Testi consigliati:

Il Polimorfismo. Equilibrio di Hardy-Weinberg

Equilibrio di Hardy-Weinberg

Metodo dell albero ramificato

Mutazioni genetiche 2

Corso di Genetica -Lezione 4- Cenci

Lezione 2. Le molecole di base che costituiscono la vita

Progetto Tandem Biologia saperi minimi Anno accademico Marzo 2012 COGNOME...

Controllo Esterno di Qualità dei test genetici Schema Fibrosi Cistica Scheda campioni: IX Turno

FREQUENZE GENOTIPICHE E GENICHE

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2.

Varianti del genoma umano

Problemi di Genetica. Mendel, due loci. 1) La progenie di un testcross è la seguente:

Unità Operativa di PEDIATRIA

Cromosomi sessuali. cromosomi del sesso o eterosomi (cosiddetti perché hanno forma

Modello computazionale per la predizione di siti di legame per fattori di trascrizione

8. La genetica studia la trasmissione dei caratteri ereditari

Problemi sui caratteri mendeliani. Corso di Genetica per la Facoltà di Medicina e Chirurgia dell Università di Torino Alberto Piazza

Risultati RISULTATI 70

ready to use - caratteristiche principali

Dipartimento di Scienze Agrarie, Alimentari ed Ambientali

CRITERI DI STUDIO IN FARMACOGENETICA:

Espressione allelica del gene MYH in pazienti con poliposi, APC negativi

GENETICA. Modulo di 6 CFU. Esame integrato di BIOCHIMICA&GENETICA Secondo anno del corso di laurea triennale in SCIENZE AMBIENTALI

Corso di Genetica -Lezione 8- Cenci

Diventare genitori è sempre un avventura, e una

Nel codice genetico, una tripletta di nucleotidi codifica per un aminoacido

Il legame genetico di una popolazione di n individui con la generazione precedente è rappresentato dai 2n gameti che hanno dato loro origine.

Genetica quantitativa Evoluzione dei caratteri fenotipici

w arg w arg w arg w arg w + w + w arg w + + arg + + w arg arg + arg w arg w + w + + arg + arg

GENETICA E LA SCIENZA CHE STUDIA:

A simulated annealing approach to define the genetic structure of populations

C. I. di Genetica e Biol. Mol. GENETICA

Corso di Genetica -Lezione 12- Cenci

MENDEL E LE SUE LEGGI

CAPITOLO 7 MUTAZIONI ED ELEMENTI GENETICI MOBILI LIGUORI EDITORE

Genetica: Lo studio dell eredità

Bioinformatica. Marin Vargas, Sergio Paul

PROJECT SRL DISTRIBUZIONE DI DISPOSITIVI MEDICI E TEST RAPIDI IN VITRO

LEZIONE n. 2. ü Variabilita genetica. ü Le leggi di Mendel. ü Il concetto di locus genico e di allele

Sequenziamento dell Intero Genoma vs Sequenziamento Target per NIPT

I ESERCITAZIONE GENETICA

Rispondere alle domande Vero/Falso e alle Domande a scelta multipla apponendo una crocetta sulla risposta giusta.

CORSO INTEGRATO DI GENETICA AA 2011/2012 ESERCIZI

Transcript:

Analisi bioinformatica di esperimenti di Esoma Intero in trio L analisi dell esoma intero applicata ai trio (genitori e figlio/figlia affetto) è un approccio molto potente al fine di identificare mutazioni de novo potenzialmente patogeniche nei probandi in esame. Sequenziando il paziente e i suoi genitori, le varianti possono essere filtrate in base alla consistenza o inconsistenza calcolata sulla base delle leggi dell eredità Mendeliana ed a parametri tecnici come il coverage di sequenza; il valore di qualità dell allineamento; il rapporto numerico tra le read corrispondenti al genoma di riferimento e quelle corrispondenti alla variante. Il numero globale iniziale di varianti identificabili in un esperimento di esoma intero in trio (padre, madre, figlio/figlia affetto) è di circa 90.000 (circa 30.000 varianti di singolo nucleotide e 3.000 piccole inserzioni/delezioni per individuo). Le varianti di potenziale rilevanza patologica alla fine di questa procedura sono tuttavia dell ordine delle decine o delle unità, semplificando quindi molto il lavoro di validazione. L analisi di esomi in trio parte dall analisi dell esoma e procede con una procedura analitica sviluppata ad hoc. (1) Analisi dell esoma L analisi bioinformatica dei risultati degli esperimenti di Esoma applicata ai trio si compone di due fasi consequenziali: mappaggio sul genoma di riferimento ed analisi delle variazioni con le relative statistiche. 1.1) Mappaggio sul genoma di riferimento Questa attività parte dalla correzione ab initio degli errori di sequenza (ove il sequenziamento non sia stato svolto con la chimica ECC, che rende superflua questa procedura), che è possibile solo nel formato nativo (c.d. Color Space ) dei dati di sequenza SOLiD. Con questo filtro preliminare vengono ridotte al minimo le possibilità di SNV o Indel artificiali (c.d. falsi positivi) dovute a fattori esclusivamente tecnici come la variabilità del valore di qualità delle sequenze. L analisi prosegue con il mappaggio delle sequenze corrette sul genoma di riferimento nella versione più recente. Il parametro per la selezione dei risultati accettati in questa procedura è il valore di qualità dell allineamento (QV), che prende in considerazione fattori come il valore di qualità originale delle read, la massima lunghezza possibile dell allineamento, i numeri di mismatch rilevati e il numero finale di allineamenti ad alta qualità per ogni read sul genoma. Un valore QV di 20 (la soglia adottata in questa parte della procedura Genomnia) corrisponde alla probabilità del 99% che l allineamento sia corretto. Le statistiche riassuntive sui risultati globali del mappaggio e dell arricchimento dell esoma sono messe a disposizione del cliente nel report finale. Vengono forniti gli allineamenti nei formati standard binario.bam (con i relativi indici.bai) al fine di consentire la visualizzazione diretta degli allineamenti delle read sul genoma di riferimento con il programma Integrated Genome Viewer (files.bam ed indici.bai: http://www.broadinstitute.org/igv/). Viene anche generata in questa fase dell analisi una tabella per campione in formato testo con le metriche di copertura di sequenza (coverage) di minimo, massimo e medio per ogni target di cattura identificato dalle coordinate genomiche e dal relativo gene ID (HUGO e RefSeq). 1.2) Analisi delle variazioni e statistiche relative La seconda parte dell analisi parte dall identificazione analitica ( call ) dei polimorfismi di sequenza e delle piccole inserzioni e delezioni (minori o uguali di 20 nt), sempre rispetto al genoma di riferimento e in relazione alle zone effettivamente incluse negli esoni compresi nel kit di arricchimento utilizzato. Questa selezione garantisce l identificazione di mutazioni nelle zone del genoma trascritte che sono catturate dalle sonde del kit di arricchimento. Ambedue questi risultati vengono successivamente confrontati con il contenuto di dbsnp nella sua ultima versione disponibile, per assicurare la coordinazione con le annotazioni genomiche di UCSC ed ENSeMBL. L algoritmo analitico usato in questo passaggio è la versione proprietaria Lifetech dell approccio DiBayes. Le variazioni identificate in questo passaggio, sia SNP che INDEL, vengono riportate per ogni campione in un file di risultati non annotati nel formato standard.vcf, che vengono forniti al cliente e possono essere analizzati autonomamente con diversi strumenti analitici, anche basati su web. Vengono inoltre restituiti al cliente files in formato Excel contenenti l annotazione delle varianti (separatamente SNV ed INDEL) per tutti i campioni considerati.

Queste annotazioni comprendono la profondità del sequenziamento (coverage totale di sequenza) nell intorno della posizione in esame; la classificazione in omo- o etero- zigote; il gene coinvolto e la sua localizzazione nel genoma; le conte delle read comprendenti il nucleotide corrispondente alla variante e quelle corrispondenti alla referenza genomica; i relativi valori di qualità. Le varianti vengono classificate come nuove (NEW) o note (KNOWN) rispetto al contenuto di dbsnp. Se la variante è nota vengono incluse le annotazioni relative come la Frequenza dell Allele Minore per l allele di riferimento e la frequenza allelica. L analisi di inserzioni e delezioni (INDEL) entro i 20 nucleotidi rappresenta una risorsa addizionale molto interessante e poco esplorata di identificazione di variazioni potenzialmente causative. Il sistema analitico associato ai dati in Color Space SOLiD genera con alta confidenza l analisi delle Indel. Le tabelle dei risultati di queste variazioni riportano anche le call degli alleli, la sequenza nel contesto della inserzione o delezione e la valutazione di omozogosità/eterozigosità/emizigosità delle varianti identificate. (2) Analisi del trio ed identificazione delle putative varianti patogeniche I punti principali che possono guidare nella prioritizzazione delle varianti, e quindi nella loro riduzione numerica, nell analisi di esomi in trio sono: La struttura della famiglia (il pedigree viene sempre considerato nell analisi). Il criterio di selezionare principalmente varianti (nell affetto) che abbiano un effetto funzionale sulla proteina codificata dal gene bersaglio della mutazione. Evidenze come mutazioni nel promotore e nei segnali di splicing non sono prioritizzate in prima istanza. L utilizzo intensivo di criteri di controllo della qualità del dato come la qualità di allineamento, la copertura di sequenza per base e la profondità di chiamata del genotipo. L esoma in trio ha il grande vantaggio di poter ricostruire facilmente la fase delle varianti utilizzando le informazioni del pedigree. I tre tipi di mutazioni che sono interessanti come potenzialmente patogeniche nel probando (quindi nel figlio o figlia affetti dei soggetti in esame) sono: Varianti De Novo; Varianti Eterozigoti Composte; Varianti Omozigoti Recessive. 2.1 Le varianti De Novo (neomutazioni) sono varianti non condivise con nessuno dei due genitori. Di seguito le caratteristiche tipiche di questo tipo di mutazioni: Corrispondono ad un c.d. Errore Mendeliano, cioè non rispettano la dinamica di base delle variazioni monogeniche, non essendo ereditate Possono essere originate da errori di replicazione del DNA, lesioni genetiche spontanee, elementi genetici trasponibili etc Intervengono in fasi precoci dello sviluppo Possono essere uniche per ogni paziente Sono varianti rare, con MAF < 1% rispetto ai dati relativi agli esomi del Progetto di Sequenziamento 1000 Genomes (http:// http://www.1000genomes.org/); Alterano la sequenza aminoacidica della proteina; Il probando (figlio/figlia) è generalmente eterozigote; Le misure di qualità che si possono utilizzare per la selezione/prioritizzazione sono la profondità allelica per l allele di riferimento ed alternativo (numero alleli WT/numero alleli ALT); la profondità di sequenziamento per quel particolare sito polimorfico; alti valori di qualità delle sequenze. 2.2 La seconda classe di polimorfismi considerati in questa analisi è quella di eterozigote composto del probando. I filtri da utilizzare in questo caso sono: I genitori sono eterozigoti per polimorfismi differenti nello stesso gene; Il probando (figlio/figlia) è eterozigote per (almeno) due SNP nello stesso gene, una da ognuno dei due genitori; Il polimorfismo altera la sequenza aminoacidica del ;

Sono varianti rare, con MAF < 1% rispetto ai dati del Progetto di Sequenziamento Esomi del progetto 1000 Genomes contenuti in dbsnp; Si utilizzano criteri di filtraggio sulla profondità di chiamata del genotipo, sul punteggio di qualità, sull indice di eterozigosità dell allele alternativo. 2.3 La terza classe di polimorfismi considerati in questa analisi sono varianti recessive rare in omozigosi. I criteri per i filtri di questa condizione sono: I genitori devono essere eterozigoti per lo stesso polimorfismo; Il probando deve essere omozigote; Sono varianti rare, con MAF < 1% rispetto ai dati del Progetto di Sequenziamento Esomi dell 1000 Genome Project; Il polimorfismo altera la sequenza aminoacidica del ; Si utilizzano criteri di filtraggio sulla profondità di chiamata del genotipo, sul punteggio di qualità, sull indice di eterozigosità dell allele alternativo. Nella Figura 1 vengono riassunte le caratteristiche rilevanti di queste tre categorie di mutazioni Mutazioni de novo Probando eterozigote Variante assente nei genitori Variante con effetto Eterozigosi composta Probando eterozigote in più posizioni dello stesso gene Genitori in configurazione diversa rispetto al probando Varianti con effetto Omozigosi per varianti recessive Probando omozigote (o emizigote) Genitori eterozigoti Varianti con effetto Figura 1 categorie di mutazioni identificabili con un analisi in trio Le tavole di varianti (SNP ed INDEL separatamente) prodotte dalla prima parte della procedura di analisi Full Exome vengono quindi sottoposte ad una serie di comparazioni e filtri specifici, tramite una serie di script realizzati ad hoc, per l identificazione delle mutazioni de novo; delle varianti in eterozigosi composta; delle varianti recessive in omozigosi secondo lo schema concettuale illustrato. I risultati vengono riassunti in una singola tabella, e vengono fornite anche le liste globali di tutte le variazioni identificate. I filtri adottati possono essere comuni a tutti e tre i dataset di varianti che specifici per uno dei soggetti, a seconda della categoria di mutazioni che si va ad investigare. Nella Figura 2 viene riportata come esempio la procedura attualemente in uso per l identificazione delle mutazioni de novo.

Figura 2 esempio di workflow di selezione per l identificazione di varianti de novo (nel caso di Mendelian Violation) da esperimenti di Full Exome in Trio in Genomnia I risultati della procedura completa vengono riportati in una singola tabella riassuntiva unica per SNV ed Indel, con una divisione dei risultati (cioè delle varianti rimaste dal processo di selezione) nelle tre categorie: De Novo; Eterozigote composto; Omozigote recessivo. L analisi funzionale delle variazioni eseguita con il software Variant Effect Predictor (VEP, http://www.ensembl.org/info/vep.html) viene poi utilizzata per classificare e selezionare queste varianti residue, per esempio come missenso o non senso. VEP utilizza algoritmi come SIFT e Polyphen per la predizione delle conseguenze funzionali della variante in funzione del trascritto considerato di volta in volta. Questa predizione si applica solo alle varianti di sequenza e non alle inserzioni o delezioni. Le informazioni sulla predizione dell impatto funzionale della variante e del suo effetto sul sono incluse nella stessa tabella finale, che comprende quindi le seguenti informazioni: - Tipo di variazione (SNV/Indel) - Categoria (De Novo; Eterozigote Composto; Omozigote Recessivo) - Nome della variante (le coordinate cromosomiche o una sintesi della notazione Indel se e una variante nuova; l identificativo dbsnp se è una SNP nota) - L allele variante e le read assegnate all allele variante ed all allele di riferimento; - L ID ed il nome del gene; - Nel caso di progetti di interesse oncologico, il numero di campioni del database COSMIC in cui si ritrovano variazioni nello stesso gene; - L identificativo del trascritto; - Le conseguenze sul della variante: posizione nel cdna, nella CDS, nella proteina; gli aminoacidi di riferimento e varianti con i relativi codoni; - Le predizioni funzionali prodotte da SIFT e Polyphen; - Lo status del probando, della madre e del padre per la variazione in esame (Omozigote; Eterozigote; Corrispondente al Genoma di Riferimento).

Informazioni per gli ordini Prodotto Analisi Bioinformatica (identificazione, classificazione ed annotazione delle varianti) di Full Exome in trio Numero di catalogo FEX-BF02 All Exon TRIO Rev. 1 02/2016