Lezione 8. DNA sequencing informatics



Documenti analoghi
Esercitazioni di Genomica

DNA sequencing. Reading Genomes. Giovanni Bacci

Alcuni aspetti legati al calcolo bioinformatico su CRESCO. Giuseppe Aprea UTMEA-CAL

Avanzamento dei sistemi di sequenziamento

Esercitazioni di Genomica

Genomica Servizio Sequenziamento DNA

Decode NGS data: search for genetic features

Bioinformatica (modulo bioinf. dei genomi moderni )

Corso di Sistemi di Elaborazione delle informazioni

Compilatore risorse display grafico LCD serie IEC-line

Manuale Knowledge Base

Laboratorio di Elementi di Bioinformatica

Analisi dei dati MLPA con il nuovo Coffalyser.NET. MRC-Holland

Corso di Elementi di Bionformatica

Bookenberg non è un softwere ma una piattaforma online, quindi:

GIUSEPPE DI GRANDE CORSO DI FORMAZIONE SU BIBLOS

Capitolo Quarto...2 Le direttive di assemblaggio di ASM Premessa Program Location Counter e direttiva ORG

Modulo. Programmiamo in Pascal. Unità didattiche COSA IMPAREREMO...

Il web server Apache Lezione n. 3. Introduzione

Esercitazione 05. Sommario. Packet Filtering [ ICMP ] Esercitazione Descrizione generale. Angelo Di Iorio (Paolo Marinelli)

Manuale di Aggiornamento BOLLETTINO. Rel H4. DATALOG Soluzioni Integrate a 32 Bit

Punto Print Il programma per stampare. Documentazione Tecnica

LINGUAGGI DI PROGRAMMAZIONE

Elementi di Bioinformatica per lʼanalisi di dati NGS

WINDOWS: Istruzioni per l uso

La Stampa Unione. Individuare la lista indirizzi per la Stampa Unione

Il sistema di pubblicazione di informazioni didattiche sul sito di Ateneo: guida e regole d uso per i docenti.

Data Base. Master "Bio Info" Reti e Basi di Dati Lezione 6

DBMS. Esempi di database. DataBase. Alcuni esempi di DBMS DBMS. (DataBase Management System)

Uso delle basi di dati DBMS. Cos è un database. DataBase. Esempi di database

Utilizzare Event Viewer

Whole genome SNPs comparison: SNPtree, NDtree, CSI Phylogeny and kmer-based analysis

Epson Italia Spa FP81 Gestione loghi FP REV: A FISCAL PRINTER FP90. Gestione loghi Loghi FP81. FP81GestioneLogoRevA.

Informazione analogica e digitale

GUIDA ALLA CONFIGURAZIONE E ALL UTILIZZO

Plate Locator Riconoscimento Automatico di Targhe

ALBO PRETORIO WEB MANUALE DELLA PROCEDURA SOMMARIO. Uso del manuale. Informazioni generali. Interfaccia grafica. Guida di riferimento

Fotografia corso base. Educazione Permanente Treviso. Specifiche digitali. Federico Covre.

Appunti sugli Elaboratori di Testo. Introduzione. D. Gubiani. 19 Luglio 2005

ELENCO CLIENTI FORNITORI Patch1

Introduzione al Linguaggio C

La Videosorveglianza Criteri per il dimensionamento dello storage

Versione 2.0. Biblioteca Centralizzata Clinica A cura di Claudia Cavicchi

Manuale Operativo per l utilizzo della piattaforma E-Learning@AQ. Versione 1.1

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza

Esercitazione n. 10: HTML e primo sito web

PowerDIP Software gestione presenze del personale aziendale. - Guida rapida all inserimento dei nominativi e delle timbrature -

Bioinformatica: DNA e Algoritmi

MANUALE PARCELLA FACILE PLUS INDICE

GUIDA RAPIDA PER LA REGISTRAZIONE DELLE INFORMAZIONI EDITORIALI E PER L INSERIMENTO E LA GESTIONE DEI PRODOTTI

FITS UPLOAD. Software di upload automatico file di immagini astronomiche Versione 1.2

Sequenziamento ed analisi dell esoma intero (All Exon)

Mac Application Manager 1.3 (SOLO PER TIGER)

Protocollo. Outlook Documenti

Word processor funzione Stampa Unione

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini.

Realizzazione di Web Service per l estrazione di informazioni da siti web enciclopedici

Capitolo 4 Pianificazione e Sviluppo di Web Part

Mon Ami 3000 Multimagazzino Gestione di più magazzini fisici e/o logici

Breve guida alla ricerca bibliografica on-line. A cura di Tilde Tocci

Next Generation Sequencers: from the bacterial culture to raw data. Valeria Michelacci NGS course, June 2015

IBM SPSS Statistics - Essentials for R- Istruzioni di installazione per Mac OS

ShellExcel. Una domanda contiene i riferimenti (#A, #B, #C) alle celle che contengono i dati numerici del

Registratori di Cassa

Manuale di Aggiornamento BOLLETTINO. Rel H2. DATALOG Soluzioni Integrate a 32 Bit

Carichiamo il segnale contenuto nel file ecg_es_ mat

INFORMAZIONI IMPORTANTI e MOLTO UTILI

Elementi di Psicometria con Laboratorio di SPSS 1

SOMMARIO... 3 INTRODUZIONE...

Corso Drupal «Project management»

Silca Software GLOSSARIO. February 2013 Copyright Silca S.p.A. V.2.0

Database Lezione 1. Sommario. - Introduzione - Tabelle e chiave primaria - Query - Calcoli ed alias - Ordinamento

Installazione ed attivazione della "SUITE OFFIS" versione CLIENT

Corso di Informatica (Programmazione) Lezione 6 (31 ottobre 2008)

NUOVO SISTEMA AGGIORNAMENTO DA FYO

Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica. Rcmdr

WoWords. Guida all uso: creare ed utilizzare le frasi. In questa guida è descritto come creare ed utilizzare le frasi nel software WoWords.

Capitolo 1 GESTIONE DEL SOFTWARE APPLICATIVO:

visual composer soluzione integrata per la produzione automatica di documentazione tecnica Product sheet

PROGETTO EM.MA PRESIDIO

Introduzione al corso di bioinformatica e analisi dei genomi AA Docente: Silvia Fuselli fss@unife.it

MFP LA GESTIONE DELLE PRESTAZIONI

Guida informativa Sharpdesk

Outlook Plugin per VTECRM

19. LA PROGRAMMAZIONE LATO SERVER

Il sistema di pubblicazione di informazioni didattiche sul sito di Ateneo: guida e regole d uso per i docenti.

Linguaggi di programmazione

Elementi di Psicometria con Laboratorio di SPSS 1

Come si misura la memoria di un calcolatore?

Iniziamo la panoramica sul funzionamento dell'svn sulla suite S.A.

IBM SPSS Statistics - Essentials for R - Istruzioni diinstallazione per Mac OS

Architettura del. Sintesi dei livelli di rete. Livelli di trasporto e inferiori (Livelli 1-4)

Pro e contro delle RNA

I comandi del linguaggio DDL (Data Definition Language): CREATE E ALTER

Giornale di Cassa e regolarizzazione dei sospesi

Transcript:

Lezione 8 DNA sequencing informatics

Il materiale di questa lezione è contenuto nel libro Next-generation DNA sequencing informatics Edited by Stuart M Brown Disponibile in biblioteca (CHIOSTRO 572.8633 NEXGDS)

History of sequencing informatics Algorithms for sequencing alignment Needleman and Wunsch (1970) Smith-Waterman (1981) Database searching FASTA, BLAST Tools to work with sanger sequencing STADEN package, DNA sequence assembly programs (ex. Sequencer, Mac vector, PC/Gene..) Phred/Phrap

Phred/Phrap cross_match, consed Sanger sequences from ABI With funding from the Human Genome Project (HGP) the University of Washington (Seattle) developed a set of bioinformatics tools for processing raw sanger sequences collected by ABI sequencing machines and for assembling overlapping reads into larger contigs Released ad a C source code suitable for compilation by skilled users on unix-based computers

Sanger sequences from ABI PHRED SCORE q = -10 Log 10 p PHRED Base calling + quality score Dove p è la probabilità di errore associata ad ogni base Quale sarà il Phred Score di una base chiamata con una probabilità di errore di 1/100 (accuratezza del 99%)? E di una con una p di 1/1000? q = 20 nel primo caso -> minimo considerato accettabile q = 30 nel secondo -> da 30 in su la qualità si considera alta

Sanger sequences from ABI PHRED Frammenti assemblati in contigs (Smith-Waterman algorithm+ some concepts from FASTA and BLAST) Base calling + quality score PHRAP CONSED GRAPHICAL EDITOR

Sanger sequences from ABI

Cosa è rimasto di tutto questo nelle analisi di dati prodotti da sequenziamenti NGS?

Analisi di dati NGS: Analytic flow 1. Produzione dei dati grezzi (raw data, reads) dal sequenziatore 2. Allineamento delle reads con un riferimento o tra loro (de novo) 3. Visualizzazione degli allineamenti e identificazione dei polimorfismi (se previsto dal progetto) 4. Interpretazione sulla base delle ipotesi e delle domande biologiche di partenza

De novo

1. Raw sequence Imaging (Illumina, 454, solid) or Ion detection (Ion torrent, Proton) I dati contengono 3 informazioni fondamentali: ID (identificatore individuale del campione) Sequenza Stima della qualità per ogni base chiamata Formato: FASTQ

FASTQ format formato di testo che include sia la sequenza (in genere nucleotidica) che la qualità di ogni base (score). Line 1: inizia con il carattere '@' seguito da un identificatore e da una descrizione opzionale (come la linea del titolo nel formato FASTA). Line 2: raw sequence letters. Line 3: inizia col carattere '+' che può essere seguito da una descrizione (opzionale). Line 4: codifica la qualità della sequenza (PHRED SCORE) nella Line 2, deve contenere un numero di simboli pari al numero di lettere in sequenza. @HS2:612:C5A6YACXX:3:2310:11800:31609 2:N:0:GCTGAGA GTTCATCTTGGCAGCTGGTTCCCGTATTTACTGAAGAGTATGTAGCACTTGCGTCGCTCGTGATTGAAAACAGATGGCAGCACGACACGGGCACGGTGCG +?;?DADDBD?D??CFEG@F?<?FE28?EEGDGGBDD9?*?BDGAAFFI>FFBBFFFFBEE=A=@BDBDDCACCC;AA??@@B@===BB79B<B?>@2<9<

2. Allineamento In generale la parte più impegnativa dell analisi dei dati NGS La scelta dell algoritmo dipende da che tipo di dato abbiamo: de novo o con sequenza di riferimento? La sequenza di riferimento è vicina evolutivamente? Etc..

Alcuni programmi di allineamento per dati NGS Burrows Wheeler Transformation (BWT) based aligners: BWA, Bowtie, SOAP2 Allineamento di corte sequenze (tipico prodotto di NGS) ad un riferimento BWA produce un allineamento in SAM format, non chiama i siti polimorfici

Formato output di allineamento: SAM sequence alignment/map format De novo I file SAM sono molto grandi (comunemente decine di Gigabytes) -> si usa comprimerli per salvare spazio Contiene un titolo (opzionale) e una linea per ogni read con con 11 campi obbligatori

http://samtools.github.io/hts-specs/samv1.pdf

SAM files sono human-readable text files, i BAM files sono il loro equivalente binario, compresso e più adatto ad essere utilizzato dai programmi di analisi che operano i passaggi successivi.

De novo alignment Non c è una sequenza di riferimento Si usano comunemente approcci basati su de Brujin digraphs (capitolo 4 NGS DNA sequencing informatics) Ci sono diversi softwares, riprenderemo il problema durante la parte pratica http://en.wikibooks.org/wiki/next_generation_sequencing_%28ngs%29/de_novo_assembly#genome_assembly

3. Visualizzazione degli allineamenti ed eventuale variant calling/genotyping Spesso per fare queste analisi esistono dei PACCHETTI di programmi che permettono di effettuare molti passaggi come visualizzazione, identificazione delle varianti, esclusione di artefatti Di seguito vedremo degli esempi, ma l elenco è ancora lungo

SAMtools Insieme di strumenti per interagire con ed effettuare il post processing di allineamenti di corte sequenze di DNA in formati SAM, BAM e CRAM. Questi files sono generati come output di allineatori di corte reads come BWA. Include sia strumenti semplici che complessi (variant calling, alignment viewing, sorting, indexing, data extraction, format conversion) Variant calling: Finding sequence variation within and between samples (SNPs, InDel..)

GATK (Genome Analysis Toolkit) Software package sviluppato al Broad Institute per analizzare dati di sequenza high-throughput. Il toolkit offre una vasta gamma di strumenti, principalmete focalizzati sulla scoperta di varianti e sulla genotipizzazione, con grande enfasi alla garanzia della qualità del dato.

http://varscan.sourceforge.net/ Lo useremo nelle esercitazioni pratiche

http://www.broadinstitute.org/software/igv/home Java-based stand-alone desktop software del Broad Institute che può visualizzare dati NGs in una varietà di formati (FASTA, FASTQ, SAM, BAM) Facile da installare (c è una versione anche per ipad!) I genomi di riferimento e le relative annotazioni devono essere installate manualmente

Robinson et al. Nature Biotechnology 29, 24 26 (2011) Coverage plot and alignments from paired-end reads for a matched tumor/normal pair. Sequencing was performed on an Illumina GA2 platform and aligned with Maq (http://maq.sourceforge.net/). Alignments are represented as gray polygons with reads mismatching the reference indicated by color. Loci with a large percentage of mismatches relative to the reference are flagged in the coverage plot as color-coded bars. Alignments with unexpected inferred insert sizes are indicated by color. There is evidence for a ~10-kb deletion (removing two exons of AIDA) in the tumor sample not present in the normal.

BWA SAM tools GATK https://www.broadinstitute.org/gatk/