Analisi bioinformatica di esperimenti di Esoma Intero in trio

Analisi bioinformatica di esperimenti di Esoma Intero in trio L analisi dell esoma intero applicata ai trio (genitori e figlio/figlia affetto) è un approccio molto potente al fine di identificare mutazioni de novo potenzialmente patogeniche nei probandi in esame. Sequenziando il paziente e i suoi genitori, le varianti possono essere filtrate in base alla consistenza o inconsistenza calcolata sulla base delle leggi dell eredità Mendeliana ed a parametri tecnici come il coverage di sequenza; il valore di qualità dell allineamento; il rapporto numerico tra le read corrispondenti al genoma di riferimento e quelle corrispondenti alla variante. Il numero globale iniziale di varianti identificabili in un esperimento di esoma intero in trio (padre, madre, figlio/figlia affetto) è di circa 90.000 (circa 30.000 varianti di singolo nucleotide e 3.000 piccole inserzioni/delezioni per individuo). Le varianti di potenziale rilevanza patologica alla fine di questa procedura sono tuttavia dell ordine delle decine o delle unità, semplificando quindi molto il lavoro di validazione. L analisi di esomi in trio parte dall analisi dell esoma e procede con una procedura analitica sviluppata ad hoc. (1) Analisi dell esoma L analisi bioinformatica dei risultati degli esperimenti di Esoma applicata ai trio si compone di due fasi consequenziali: mappaggio sul genoma di riferimento ed analisi delle variazioni con le relative statistiche. 1.1) Mappaggio sul genoma di riferimento Questa attività parte dalla correzione ab initio degli errori di sequenza (ove il sequenziamento non sia stato svolto con la chimica ECC, che rende superflua questa procedura), che è possibile solo nel formato nativo (c.d. Color Space ) dei dati di sequenza SOLiD. Con questo filtro preliminare vengono ridotte al minimo le possibilità di SNV o Indel artificiali (c.d. falsi positivi) dovute a fattori esclusivamente tecnici come la variabilità del valore di qualità delle sequenze. L analisi prosegue con il mappaggio delle sequenze corrette sul genoma di riferimento nella versione più recente. Il parametro per la selezione dei risultati accettati in questa procedura è il valore di qualità dell allineamento (QV), che prende in considerazione fattori come il valore di qualità originale delle read, la massima lunghezza possibile dell allineamento, i numeri di mismatch rilevati e il numero finale di allineamenti ad alta qualità per ogni read sul genoma. Un valore QV di 20 (la soglia adottata in questa parte della procedura Genomnia) corrisponde alla probabilità del 99% che l allineamento sia corretto. Le statistiche riassuntive sui risultati globali del mappaggio e dell arricchimento dell esoma sono messe a disposizione del cliente nel report finale. Vengono forniti gli allineamenti nei formati standard binario.bam (con i relativi indici.bai) al fine di consentire la visualizzazione diretta degli allineamenti delle read sul genoma di riferimento con il programma Integrated Genome Viewer (files.bam ed indici.bai: http://www.broadinstitute.org/igv/). Viene anche generata in questa fase dell analisi una tabella per campione in formato testo con le metriche di copertura di sequenza (coverage) di minimo, massimo e medio per ogni target di cattura identificato dalle coordinate genomiche e dal relativo gene ID (HUGO e RefSeq). 1.2) Analisi delle variazioni e statistiche relative La seconda parte dell analisi parte dall identificazione analitica ( call ) dei polimorfismi di sequenza e delle piccole inserzioni e delezioni (minori o uguali di 20 nt), sempre rispetto al genoma di riferimento e in relazione alle zone effettivamente incluse negli esoni compresi nel kit di arricchimento utilizzato. Questa selezione garantisce l identificazione di mutazioni nelle zone del genoma trascritte che sono catturate dalle sonde del kit di arricchimento. Ambedue questi risultati vengono successivamente confrontati con il contenuto di dbsnp nella sua ultima versione disponibile, per assicurare la coordinazione con le annotazioni genomiche di UCSC ed ENSeMBL. L algoritmo analitico usato in questo passaggio è la versione proprietaria Lifetech dell approccio DiBayes. Le variazioni identificate in questo passaggio, sia SNP che INDEL, vengono riportate per ogni campione in un file di risultati non annotati nel formato standard.vcf, che vengono forniti al cliente e possono essere analizzati autonomamente con diversi strumenti analitici, anche basati su web. Vengono inoltre restituiti al cliente files in formato Excel contenenti l annotazione delle varianti (separatamente SNV ed INDEL) per tutti i campioni considerati.

Queste annotazioni comprendono la profondità del sequenziamento (coverage totale di sequenza) nell intorno della posizione in esame; la classificazione in omo- o eterozigote; il gene coinvolto e la sua localizzazione nel genoma; le conte delle read comprendenti il nucleotide corrispondente alla variante e quelle corrispondenti alla referenza genomica; i relativi valori di qualità. Le varianti vengono classificate come nuove (NEW) o note (KNOWN) rispetto al contenuto di dbsnp. Se la variante è nota vengono incluse le annotazioni relative come la Frequenza dell Allele Minore per l allele di riferimento e la frequenza allelica. L analisi di inserzioni e delezioni (INDEL) entro i 20 nucleotidi rappresenta una risorsa addizionale molto interessante e poco esplorata di identificazione di variazioni potenzialmente causative. Il sistema analitico associato ai dati in Color Space SOLiD genera con alta confidenza l analisi delle Indel. Le tabelle dei risultati di queste variazioni riportano anche le call degli alleli, la sequenza nel contesto della inserzione o delezione e la valutazione di omozogosità/eterozigosità/emizigosità delle varianti identificate. (2) Analisi del trio ed identificazione delle putative varianti patogeniche I punti principali che possono guidare nella prioritizzazione delle varianti, e quindi nella loro riduzione numerica, nell analisi di esomi in trio sono: La struttura della famiglia (il pedigree viene sempre considerato nell analisi). Il criterio di selezionare principalmente varianti (nell affetto) che abbiano un effetto funzionale sulla proteina codificata dal gene bersaglio della mutazione. Evidenze come mutazioni nel promotore e nei segnali di splicing non sono prioritizzate in prima istanza. L utilizzo intensivo di criteri di controllo della qualità del dato come la qualità di allineamento, la copertura di sequenza per base e la profondità di chiamata del genotipo. L esoma in trio ha il grande vantaggio di poter ricostruire facilmente la fase delle varianti utilizzando le informazioni del pedigree. I tre tipi di mutazioni che sono interessanti come potenzialmente patogeniche nel probando (quindi nel figlio o figlia affetti dei soggetti in esame) sono: Varianti De Novo; Varianti Eterozigoti Composte; Varianti Omozigoti Recessive. 2.1 Le varianti De Novo (neomutazioni) sono varianti non condivise con nessuno dei due genitori. Di seguito le caratteristiche tipiche di questo tipo di mutazioni: Corrispondono ad un c.d. Errore Mendeliano, cioè non rispettano la dinamica di base delle variazioni monogeniche, non essendo ereditate Possono essere originate da errori di replicazione del DNA, lesioni genetiche spontanee, elementi genetici trasponibili etc Intervengono in fasi precoci dello sviluppo Possono essere uniche per ogni paziente Sono varianti rare, con MAF < 1% rispetto ai dati relativi agli esomi del Progetto di Sequenziamento 1000 Genomes (http:// http://www.1000genomes.org/); Alterano la sequenza aminoacidica della proteina; Il probando (figlio/figlia) è generalmente eterozigote; Le misure di qualità che si possono utilizzare per la selezione/prioritizzazione sono la profondità allelica per l allele di riferimento ed alternativo (numero alleli WT/numero alleli ALT); la profondità di sequenziamento per quel particolare sito polimorfico; alti valori di qualità delle sequenze. 2.2 La seconda classe di polimorfismi considerati in questa analisi è quella di eterozigote composto del probando. I filtri da utilizzare in questo caso sono: I genitori sono eterozigoti per polimorfismi differenti nello stesso gene; Il probando (figlio/figlia) è eterozigote per (almeno) due SNP nello stesso gene, una da ognuno dei due genitori; Il polimorfismo altera la sequenza aminoacidica del ;

Sono varianti rare, con MAF < 1% rispetto ai dati del Progetto di Sequenziamento Esomi del progetto 1000 Genomes contenuti in dbsnp; Si utilizzano criteri di filtraggio sulla profondità di chiamata del genotipo, sul punteggio di qualità, sull indice di eterozigosità dell allele alternativo. 2.3 La terza classe di polimorfismi considerati in questa analisi sono varianti recessive rare in omozigosi. I criteri per i filtri di questa condizione sono: I genitori devono essere eterozigoti per lo stesso polimorfismo; Il probando deve essere omozigote; Sono varianti rare, con MAF < 1% rispetto ai dati del Progetto di Sequenziamento Esomi dell 1000 Genome Project; Il polimorfismo altera la sequenza aminoacidica del ; Si utilizzano criteri di filtraggio sulla profondità di chiamata del genotipo, sul punteggio di qualità, sull indice di eterozigosità dell allele alternativo. Nella Figura 1 vengono riassunte le caratteristiche rilevanti di queste tre categorie di mutazioni Mutazioni de novo Probando eterozigote Variante assente nei genitori Variante con effetto Eterozigosi composta Probando eterozigote in più posizioni dello stesso gene Genitori in configurazione diversa rispetto al probando Varianti con effetto Omozigosi per varianti recessive Probando omozigote (o emizigote) Genitori eterozigoti Varianti con effetto Figura 1 categorie di mutazioni identificabili con un analisi in trio Le tavole di varianti (SNP ed INDEL separatamente) prodotte dalla prima parte della procedura di analisi Full Exome vengono quindi sottoposte ad una serie di comparazioni e filtri specifici, tramite una serie di script realizzati ad hoc, per l identificazione delle mutazioni de novo; delle varianti in eterozigosi composta; delle varianti recessive in omozigosi secondo lo schema concettuale illustrato. I risultati vengono riassunti in una singola tabella, e vengono fornite anche le liste globali di tutte le variazioni identificate. I filtri adottati possono essere comuni a tutti e tre i dataset di varianti che specifici per uno dei soggetti, a seconda della categoria di mutazioni che si va ad investigare. Nella Figura 2 viene riportata come esempio la procedura attualemente in uso per l identificazione delle mutazioni de novo.

Figura 2 esempio di workflow di selezione per l identificazione di varianti de novo (nel caso di Mendelian Violation) da esperimenti di Full Exome in Trio in Genomnia I risultati della procedura completa vengono riportati in una singola tabella riassuntiva unica per SNV ed Indel, con una divisione dei risultati (cioè delle varianti rimaste dal processo di selezione) nelle tre categorie: De Novo; Eterozigote composto; Omozigote recessivo. L analisi funzionale delle variazioni eseguita con il software Variant Effect Predictor (VEP, http://www.ensembl.org/info/vep.html) viene poi utilizzata per classificare e selezionare queste varianti residue, per esempio come missenso o non senso. VEP utilizza algoritmi come SIFT e Polyphen per la predizione delle conseguenze funzionali della variante in funzione del trascritto considerato di volta in volta. Questa predizione si applica solo alle varianti di sequenza e non alle inserzioni o delezioni. Le informazioni sulla predizione dell impatto funzionale della variante e del suo effetto sul sono incluse nella stessa tabella finale, che comprende quindi le seguenti informazioni: - Tipo di variazione (SNV/Indel) - Categoria (De Novo; Eterozigote Composto; Omozigote Recessivo) - Nome della variante (le coordinate cromosomiche o una sintesi della notazione Indel se e una variante nuova; l identificativo dbsnp se è una SNP nota) - L allele variante e le read assegnate all allele variante ed all allele di riferimento; - L ID ed il nome del gene; - Nel caso di progetti di interesse oncologico, il numero di campioni del database COSMIC in cui si ritrovano variazioni nello stesso gene; - L identificativo del trascritto; - Le conseguenze sul della variante: posizione nel cdna, nella CDS, nella proteina; gli aminoacidi di riferimento e varianti con i relativi codoni; - Le predizioni funzionali prodotte da SIFT e Polyphen; - Lo status del probando, della madre e del padre per la variazione in esame (Omozigote; Eterozigote; Corrispondente al Genoma di Riferimento).

Informazioni per gli ordini Prodotto Analisi Bioinformatica (identificazione, classificazione ed annotazione delle varianti) di Full Exome in trio Numero di catalogo FEX-BF02 All Exon TRIO Rev. 1 02/2016