DNA sequencing. Reading Genomes. Giovanni Bacci



Похожие документы
Applicazioni biotecnologiche in systems biology

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi

Officina Meccanica. Analisi, progetto e sviluppo

ESAME DI STATO DI LICEO SCIENTIFICO CORSO SPERIMENTALE P.N.I. 2004

SEQUENZIAMENTO DEL DNA

Un ripasso di aritmetica: Rappresentazione binaria - operazioni. riporti

Determinare la grandezza della sottorete

MODELLO PER LO SVILUPPO DEL PRODOTTO

CAPITOLO 11 Innovazione cam i amen o

STRATEGIA DI TRADING. Turning Points

DIFFERENZIARE LE CAMPAGNE DI MARKETING La scelta del canale adeguato

OSSERVAZIONI TEORICHE Lezione n. 4

Usando il pendolo reversibile di Kater

SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO

SISTEMI DI NUMERAZIONE E CODICI

EasyPLAST. Siamo riusciti a trasferire in EasyPLAST tutte le informazioni e le procedure che prima erano gestite con fogli excel

Dispositivi di rete. Ripetitori. Hub

Funzioni in C. Violetta Lonati

Scheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux

GUIDA AL CALCOLO DEI COSTI DELLE ATTIVITA DI RICERCA DOCUMENTALE

P od o u d z u io i n o e n e d e d l e l l a l a c o c r o ren e t n e e a l a t l er e na n t a a alternatori. gruppi elettrogeni

Stile carattere: permette di selezionare il carattere da usare per la riga fra quelli disponibili.

Ibpm è lo strumento per la gestione dei processi, dalla modellazione, all esecuzione, al monitoraggio.

Informazioni demografiche e socio-economiche sugli Enti Locali

LA CORRENTE ELETTRICA CONTINUA

WG-TRANSLATE Manuale Utente WG TRANSLATE. Pagina 1 di 15

2.0 Gli archivi. 2.1 Inserire gli archivi. 2.2 Archivio Clienti, Fornitori, Materiali, Noleggi ed Altri Costi. Impresa Edile Guida all uso

Excel avanzato. I nomi. Gli indirizzi e le formule possono essere sostituiti da nomi. Si creano tramite Inserisci Nome Definisci

Le fattispecie di riuso

Algoritmi e strutture dati. Codici di Huffman

FUNZIONI DI IMPAGINAZIONE DI WORD

gestione e modifica di immagini fotografiche digitali

Introduzione all analisi dei segnali digitali.

Tutorial 3DRoom. 3DRoom

Attualmente esistono sul mercato videoendoscopi sempre più sofisticati con una buona risoluzione di immagine ed estremamente portatili.

manifatturiera e per i servizi

Workflow grafico. Daniele Fortarel La stampa digitale Materiale tratto da: brochure tecniche (Xerox Docucolor 7002/8002) TAGA doc 12 - Stampa digitale

La comunicazione degli eventi

Indice. pagina 2 di 10

Che cosa e come valutano le prove di matematica e con quali risultati. nell A.S

I TUTORI. I tutori vanno creati la prima volta seguendo esclusivamente le procedure sotto descritte.

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

Mercati finanziari e valore degli investimenti

ZFIDELITY - ZSE Software & Engineering Pag.1 / 11

IL PREVENTIVATORE UNICO RC AUTO

Gestione del workflow

Avanzamento dei sistemi di sequenziamento

WLINK. Ecco le principali ed innovative caratteristiche di un sistema wireless WLINK:

Più processori uguale più velocità?

Protocollo. Outlook Documenti

ARCHITETTURA DI RETE FOLEGNANI ANDREA

RIDURRE I COSTI ENERGETICI!

Sequenziamento a minimo costo di commutazione in macchine o celle con costo lineare e posizione home (In generale il metodo di ottimizzazione

Un ripasso di aritmetica: Conversione dalla base 10 alla base 16

UN NUOVO MODELLO DI PRODUZIONE

L evoluzione del mosaico digitale

ISTITUTO COMPRENSIVO BARBERINO MUGELLO

la scienza della rappresentazione e della elaborazione dell informazione

LA PREVENZIONE E L IMPORTANZA DELLA FORMAZIONE ANTINCENDIO. Milano 26 Ottobre 2011 Relatori: Diego Ragni

Generatore radiologico

Corso di Elementi di Bionformatica

Esercizi di dimensionamento dei sistemi di commutazione telefonica

MODULO MAGAZZINO ARCHIVI DI MAGAZZINO ANAGRAFICA ARTICOLI

ELENCO CLIENTI FORNITORI Patch1

La dispersione dei prezzi al consumo. I risultati di un indagine empirica sui prodotti alimentari.

Alcuni consigli per un uso di base delle serie di dati automatiche in Microsoft Excel

IL RISCHIO D IMPRESA ED IL RISCHIO FINANZIARIO. LA RELAZIONE RISCHIO-RENDIMENTO ED IL COSTO DEL CAPITALE.

MODULO 5 Appunti ACCESS - Basi di dati

Project Management. Modulo: Introduzione. prof. ing. Guido Guizzi

Valutazione delle Prestazioni. Valutazione delle Prestazioni. Architetture dei Calcolatori (Lettere. Tempo di risposta e throughput

BOX FREE. La gestione avanzata della cartotecnica

Linguaggi di programmazione

Oggi finalmente la tecnologia ci permette di realizzare impianti, che consentono di non doversi più preoccupare del rischio di incendio.

Guida Rapida all uso del License Manager di ROCKEY4Smart (V )

Macchina. Futura. Macchina essiccazione legno Futura è sotto la protezione di brevetti nazionali in tutto il mondo.

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

EVOLUZIONE DELLE INIZIATIVE PER LA QUALITA : L APPROCCIO SIX SIGMA

Software per Helpdesk

Università degli Studi di L Aquila. Facoltà di Ingegneria. Corso di Laurea in Ingegneria Elettronica Corso di Sistemi Informativi

IL MARKETING E QUELLA FUNZIONE D IMPRESA CHE:

Capitolo II. La forma del valore. 7. La duplice forma in cui si presenta la merce: naturale e di valore.

ESERCIZI DI PROBLEM SOLVING E COMPOSIZIONE DEI DIAGRAMMI DI FLUSSO per le classi terza

Aris TimeSheet. che guardano oltre. enti e aziende. Soluzioni per

VISUALFLEET Software Overview

REGOLAMENTO (UE) N. 1235/2011 DELLA COMMISSIONE

Una sperimentazione. Probabilità. Una previsione. Calcolo delle probabilità. Nonostante ciò, è possibile dire qualcosa.

(Esercizi Tratti da Temi d esame degli ordinamenti precedenti)

Digital Signal Processing: Introduzione

Introduzione alla Virtualizzazione

CP Customer Portal. Sistema di gestione ticket unificato

LA CORRENTE ELETTRICA

Mon Ami 3000 Produzione base Produzione articoli con distinta base e calcolo dei fabbisogni

Prof. Giuseppe Chiumeo. Avete già studiato che qualsiasi algoritmo appropriato può essere scritto utilizzando soltanto tre strutture di base:

EMISSIONE E ASSORBIMENTO DI LUCE DA PARTE DELLA MATERIA

Транскрипт:

Reading Genomes Giovanni Bacci

Evoluzione del sequenziamento 1977 Frederick Sanger Prima tecnica di sequenziamento 1987 Applyed Biosystems Prima macchina automatica per il sequenziamento del DNA 1998 Phil Green and Brent Ewing Viene pubblicato il softwere Phred per l analisi di sequenze di DNA 1986 Leeroy E.Hoods Prima macchina semiautomatica per il sequenziamento del DNA 1996 Pål Nyrén Nascita del pyrosequencing 2000 Lynx Therapeutics Lancio sul mercato del MPSS e inizio del sequenziamento di nuova generazione (NGS)

Evoluzione del sequenziamento 1977 Frederick Sanger Prima tecnica di sequenziamento 1987 Applyed Biosystems Prima macchina automatica per il sequenziamento del DNA Quantità di dati nell unità di tempo 1998 Phil Green and Brent Ewing Viene pubblicato il softwere Phred per l analisi di sequenze di DNA 1986 Leeroy E.Hoods Prima macchina semiautomatica per il sequenziamento del DNA Qualità e controllo dei dati ottenuti 1996 Pål Nyrén Nascita del pyrosequencing 2000 Lynx Therapeutics Lancio sul mercato del MPSS e inizio del sequenziamento di nuova generazione (NGS)

Evoluzione del sequenziamento?

Evoluzione del sequenziamento

Evoluzione del sequenziamento NGS 4 reazioni distinte che producono 4 «tracce», attraverso le quali è possibile risalire alla sequenza di DNA 1 reazione unica che produce 4 «tracce» con diverse lunghezze d onda, ognuna caratteristica di una determinata base (Cromatogramma)

Qualità dei sequenziamenti Sequence:??????????????????????????????????

Qualità dei sequenziamenti Come è possibile risalire alla sequenza di DNA sequenziata? Necessità di trovare un modo univoco per l interpretazione dei cromatogrammi. E possibile ripetere il processo per milioni di volte? Necessità di sviluppare algoritmi in grado di assegnare ad ogni picco una determinata base in modo automatico.

Qualità dei sequenziamenti

Qualità dei sequenziamenti G

Qualità dei sequenziamenti G C

Qualità dei sequenziamenti G C A

Qualità dei sequenziamenti G C A G

Qualità dei sequenziamenti G C A G C G A Durante il sequenziamento non tutti i filamenti di DNA verranno elongati nello stesso istante Man mano che il sequenziamento procede verso la fine del segmento di DNA, la qualità andrà a diminuire Una bassa qualità può significare una sequenza diversa da quella reale

Base-calling algorithm Algoritmo che, data una serie di picchi cromatografici, sia in grado di risalire alla corretta sequenza di DNA che li ha generati ed assegnare ad ogni base una certa «qualità» Phred E l algoritmo più utilizzato. Ad oggi la qualità delle sequenze di DNA viene espressa utilizzando il suo score

Base-calling algorithm Vengono presi in considerazione i principali parametri relativi alla forma ed all ampiezza dei picchi; in base a questi viene calcolato un certo valore di qualità relativo ad ogni base.

Base-calling algorithm Vengono presi in considerazione i principali parametri relativi alla forma ed all ampiezza dei picchi; in base a questi viene calcolato un certo valore di qualità relativo ad ogni base. La qualità così ottenuta è strettamente legata alla probabilità di ottenere quella determinata base in quel punto del cromatogramma Base A C Quality 40 30

Qualità e Probabilità Q = Qualità (Phred Score) P = Probabilità di errore Q = -10log 10 (P) P = 10 -Q/10

Qualità e Probabilità Q = Qualità (Phred Score) P = Probabilità di errore Q = -10log 10 (P) P = 10 -Q/10 Ad esempio: una qualità pari a 20 si traduce in una probabilità di errore dell 1%, mentre una qualità pari a 30 si traduce in una probabilità dello 0.1% BASES A C T G ERROR 1% 0.1% 0.01% 0.001% QUALITY 20 30 40 50

Qualità e Probabilità Q = Qualità (Phred Score) P = Probabilità di errore Q = -10log 10 (P) P = 10 -Q/10 Ad esempio: una qualità pari a 20 si traduce in una probabilità di errore dell 1%, mentre una qualità pari a 30 si traduce in una probabilità dello 0.1% BASES A C T G ERROR 1% 0.1% 0.01% 0.001% QUALITY 20 30 40 50

Qualità e Probabilità Q = Qualità (Phred Score) P = Probabilità di errore Q = -10log 10 (P) P = 10 -Q/10 Ad esempio: una qualità pari a 20 si traduce in una probabilità di errore dell 1%, mentre una qualità pari a 30 si traduce in una probabilità dello 0.1% Come è possibile mantenere le basi e la loro qualità corrispondente allineate all interno di un file di sequenze? Ogni qualità assegnata viene espressa come un carattere ASCII il cui valore decimale può essere riconvertito in qualità attraverso l applicazione di un opportuna formula di conversione

FASTQ file format @FCC0H3RACXX:8:1101:2380:2249#ACTGTTCC/1 TTACCGCGGCTGCTGGCACGGAGTTAGCCGGGGCTTCTTCTCCGGCTACCGTCATTATC + bbbeeeeegggggiiiiiiiihighiiiiiiiigggeeedeedacccccccacacdddc «@» Precede l id univoco della sequenza «+» Separa la sequenza nucleotidica dalla qualità b = 98 e = 101 g = 103 i = 105 h = 104 c = 99 a = 97 d = 100

FASTQ file format @FCC0H3RACXX:8:1101:2380:2249#ACTGTTCC/1 TTACCGCGGCTGCTGGCACGGAGTTAGCCGGGGCTTCTTCTCCGGCTACCGTCATTATC + bbbeeeeegggggiiiiiiiihighiiiiiiiigggeeedeedacccccccacacdddc «@» Precede l id univoco della sequenza «+» Separa la sequenza nucleotidica dalla qualità b = 98 e = 101 g = 103 i = 105 h = 104 c = 99 a = 97 d = 100 @FCC0H3RACXX:8:1101:2380:2249#ACTGTTCC/1 TTACCGCGGCTGCTGGCACGGAGTTAGCCGGGGCTTCTTCTCCGGCTACCGTCATTATC + 98989810110110110110110310310310310310510510510510510510510 51041051031041051051051051051051051051031031031011011011001 0110110097999999999999999799979910010010099

FASTQ file format! 33 0 48? 63 N 78 ] 93 l 108 { 123 " 34 1 49 @ 64 O 79 ^ 94 m 109 124 # 35 2 50 A 65 P 80 _ 95 n 110 } 125 $ 36 3 51 B 66 Q 81 ` 96 o 111 ~ 126 % 37 4 52 C 67 R 82 a 97 p 112 & 38 5 53 D 68 S 83 b 98 q 113 ' 39 6 54 E 69 T 84 c 99 r 114 ( 40 7 55 F 70 U 85 d 100 s 115 ) 41 8 56 G 71 V 86 e 101 t 116 ASCII -> 33 126 QUALITY -> 0 40 * 42 9 57 H 72 W 87 f 102 u 117 + 43 : 58 I 73 X 88 g 103 v 118, 44 ; 59 J 74 Y 89 h 104 w 119-45 < 60 K 75 Z 90 i 105 x 120 OFFSET. 46 = 61 L 76 [ 91 j 106 y 121 / 47 > 62 M 77 \ 92 k 107 z 122

FASTQ offset Le varie ditte produttrici di macchine per il sequenziamento NGS, non hanno (ancora?) concordato un offset Di fatto, ogni tipologia di reads deve essere trattata utilizzando parametri di conversione propri dello strumento che l ha generata SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS......XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX......IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII......JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ... LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL...!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijk 33 59 64 73 104

FASTQ offset Le varie ditte produttrici di macchine per il sequenziamento NGS, non hanno (ancora?) concordato uno standard comune di qualità Di fatto, ogni tipologia di reads deve essere trattata utilizzando parametri di conversione propri dello strumento che l ha generata SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS......XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX......IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII......JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ... LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL...!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijk 33 59 64 73 104 Illumina: Q @ = (ASCII value - 64) = 0 Sanger: Q @ = (ASCII value - 33) = 31

Tecnologia del sequenziamento

Tecnologia del sequenziamento Viene commercializzata la prima macchina automatica per il pirosequenziamento Prima pubblicazione sul pirosequenziamento Primo sequenziamento automatico Primo sequenziamento semi-automatico (Sanger dye-terminator)

Tecnologia del sequenziamento 454 pyrosequencing Viene commercializzata la prima macchina automatica per il pirosequenziamento Illumina (Solexa) Prima pubblicazione sul pirosequenziamento Primo sequenziamento automatico Primo sequenziamento semi-automatico (Sanger dye-terminator) SOLiD Ion semiconductor DNA nanoball Helioscope SMRT/RNAP

Tecnologia del sequenziamento 454 pyrosequencing Viene commercializzata la prima macchina automatica per il pirosequenziamento Illumina (Solexa) Prima pubblicazione sul pirosequenziamento Primo sequenziamento automatico Primo sequenziamento semi-automatico (Sanger dye-terminator) SOLiD Ion semiconductor DNA nanoball Helioscope SMRT/RNAP

Illumina reads Da 50 a 200 basi per read 10 milioni di reads per spot Ridotti costi di sequenziamento Profondità di sequenziamento elevata Video

454 Reads Da 100 a 500 basi per read 400-600 megabasi ogni 10 ore Costi medio alti Impossibilità di sequenziare correttamente più di 8 basi identiche consecutive

SOLiD Reads Reads di 150 bp massimo Tecnica estremamente flessibile Massima accuratezza Vengono utilizzati sonde con due basi Ogni base della sequenza viene «letta» due volte Costi bassi

SOLiD Reads Video

Reads Overview

Reads Overview Non esiste una tecnologia perfetta La scelta della tipologia di sequenziamento deve essere fatta in relazione al tipo di studio che si intende portare a termine

Nanopore Nanopore MinION

Nanopore Nanopore MinION Tecnologia in studio dal 1995 Ancora non raggiunge una risoluzione adeguata (il filamento di DNA scorre troppo rapidamente all interno del poro) In sviluppo l idea di utilizzare un esonucleasi in modo da rallentare il passaggio del filamento di DNA Video