Reading Genomes Giovanni Bacci
Evoluzione del sequenziamento 1977 Frederick Sanger Prima tecnica di sequenziamento 1987 Applyed Biosystems Prima macchina automatica per il sequenziamento del DNA 1998 Phil Green and Brent Ewing Viene pubblicato il softwere Phred per l analisi di sequenze di DNA 1986 Leeroy E.Hoods Prima macchina semiautomatica per il sequenziamento del DNA 1996 Pål Nyrén Nascita del pyrosequencing 2000 Lynx Therapeutics Lancio sul mercato del MPSS e inizio del sequenziamento di nuova generazione (NGS)
Evoluzione del sequenziamento 1977 Frederick Sanger Prima tecnica di sequenziamento 1987 Applyed Biosystems Prima macchina automatica per il sequenziamento del DNA Quantità di dati nell unità di tempo 1998 Phil Green and Brent Ewing Viene pubblicato il softwere Phred per l analisi di sequenze di DNA 1986 Leeroy E.Hoods Prima macchina semiautomatica per il sequenziamento del DNA Qualità e controllo dei dati ottenuti 1996 Pål Nyrén Nascita del pyrosequencing 2000 Lynx Therapeutics Lancio sul mercato del MPSS e inizio del sequenziamento di nuova generazione (NGS)
Evoluzione del sequenziamento?
Evoluzione del sequenziamento
Evoluzione del sequenziamento NGS 4 reazioni distinte che producono 4 «tracce», attraverso le quali è possibile risalire alla sequenza di DNA 1 reazione unica che produce 4 «tracce» con diverse lunghezze d onda, ognuna caratteristica di una determinata base (Cromatogramma)
Qualità dei sequenziamenti Sequence:??????????????????????????????????
Qualità dei sequenziamenti Come è possibile risalire alla sequenza di DNA sequenziata? Necessità di trovare un modo univoco per l interpretazione dei cromatogrammi. E possibile ripetere il processo per milioni di volte? Necessità di sviluppare algoritmi in grado di assegnare ad ogni picco una determinata base in modo automatico.
Qualità dei sequenziamenti
Qualità dei sequenziamenti G
Qualità dei sequenziamenti G C
Qualità dei sequenziamenti G C A
Qualità dei sequenziamenti G C A G
Qualità dei sequenziamenti G C A G C G A Durante il sequenziamento non tutti i filamenti di DNA verranno elongati nello stesso istante Man mano che il sequenziamento procede verso la fine del segmento di DNA, la qualità andrà a diminuire Una bassa qualità può significare una sequenza diversa da quella reale
Base-calling algorithm Algoritmo che, data una serie di picchi cromatografici, sia in grado di risalire alla corretta sequenza di DNA che li ha generati ed assegnare ad ogni base una certa «qualità» Phred E l algoritmo più utilizzato. Ad oggi la qualità delle sequenze di DNA viene espressa utilizzando il suo score
Base-calling algorithm Vengono presi in considerazione i principali parametri relativi alla forma ed all ampiezza dei picchi; in base a questi viene calcolato un certo valore di qualità relativo ad ogni base.
Base-calling algorithm Vengono presi in considerazione i principali parametri relativi alla forma ed all ampiezza dei picchi; in base a questi viene calcolato un certo valore di qualità relativo ad ogni base. La qualità così ottenuta è strettamente legata alla probabilità di ottenere quella determinata base in quel punto del cromatogramma Base A C Quality 40 30
Qualità e Probabilità Q = Qualità (Phred Score) P = Probabilità di errore Q = -10log 10 (P) P = 10 -Q/10
Qualità e Probabilità Q = Qualità (Phred Score) P = Probabilità di errore Q = -10log 10 (P) P = 10 -Q/10 Ad esempio: una qualità pari a 20 si traduce in una probabilità di errore dell 1%, mentre una qualità pari a 30 si traduce in una probabilità dello 0.1% BASES A C T G ERROR 1% 0.1% 0.01% 0.001% QUALITY 20 30 40 50
Qualità e Probabilità Q = Qualità (Phred Score) P = Probabilità di errore Q = -10log 10 (P) P = 10 -Q/10 Ad esempio: una qualità pari a 20 si traduce in una probabilità di errore dell 1%, mentre una qualità pari a 30 si traduce in una probabilità dello 0.1% BASES A C T G ERROR 1% 0.1% 0.01% 0.001% QUALITY 20 30 40 50
Qualità e Probabilità Q = Qualità (Phred Score) P = Probabilità di errore Q = -10log 10 (P) P = 10 -Q/10 Ad esempio: una qualità pari a 20 si traduce in una probabilità di errore dell 1%, mentre una qualità pari a 30 si traduce in una probabilità dello 0.1% Come è possibile mantenere le basi e la loro qualità corrispondente allineate all interno di un file di sequenze? Ogni qualità assegnata viene espressa come un carattere ASCII il cui valore decimale può essere riconvertito in qualità attraverso l applicazione di un opportuna formula di conversione
FASTQ file format @FCC0H3RACXX:8:1101:2380:2249#ACTGTTCC/1 TTACCGCGGCTGCTGGCACGGAGTTAGCCGGGGCTTCTTCTCCGGCTACCGTCATTATC + bbbeeeeegggggiiiiiiiihighiiiiiiiigggeeedeedacccccccacacdddc «@» Precede l id univoco della sequenza «+» Separa la sequenza nucleotidica dalla qualità b = 98 e = 101 g = 103 i = 105 h = 104 c = 99 a = 97 d = 100
FASTQ file format @FCC0H3RACXX:8:1101:2380:2249#ACTGTTCC/1 TTACCGCGGCTGCTGGCACGGAGTTAGCCGGGGCTTCTTCTCCGGCTACCGTCATTATC + bbbeeeeegggggiiiiiiiihighiiiiiiiigggeeedeedacccccccacacdddc «@» Precede l id univoco della sequenza «+» Separa la sequenza nucleotidica dalla qualità b = 98 e = 101 g = 103 i = 105 h = 104 c = 99 a = 97 d = 100 @FCC0H3RACXX:8:1101:2380:2249#ACTGTTCC/1 TTACCGCGGCTGCTGGCACGGAGTTAGCCGGGGCTTCTTCTCCGGCTACCGTCATTATC + 98989810110110110110110310310310310310510510510510510510510 51041051031041051051051051051051051051031031031011011011001 0110110097999999999999999799979910010010099
FASTQ file format! 33 0 48? 63 N 78 ] 93 l 108 { 123 " 34 1 49 @ 64 O 79 ^ 94 m 109 124 # 35 2 50 A 65 P 80 _ 95 n 110 } 125 $ 36 3 51 B 66 Q 81 ` 96 o 111 ~ 126 % 37 4 52 C 67 R 82 a 97 p 112 & 38 5 53 D 68 S 83 b 98 q 113 ' 39 6 54 E 69 T 84 c 99 r 114 ( 40 7 55 F 70 U 85 d 100 s 115 ) 41 8 56 G 71 V 86 e 101 t 116 ASCII -> 33 126 QUALITY -> 0 40 * 42 9 57 H 72 W 87 f 102 u 117 + 43 : 58 I 73 X 88 g 103 v 118, 44 ; 59 J 74 Y 89 h 104 w 119-45 < 60 K 75 Z 90 i 105 x 120 OFFSET. 46 = 61 L 76 [ 91 j 106 y 121 / 47 > 62 M 77 \ 92 k 107 z 122
FASTQ offset Le varie ditte produttrici di macchine per il sequenziamento NGS, non hanno (ancora?) concordato un offset Di fatto, ogni tipologia di reads deve essere trattata utilizzando parametri di conversione propri dello strumento che l ha generata SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS......XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX......IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII......JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ... LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL...!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijk 33 59 64 73 104
FASTQ offset Le varie ditte produttrici di macchine per il sequenziamento NGS, non hanno (ancora?) concordato uno standard comune di qualità Di fatto, ogni tipologia di reads deve essere trattata utilizzando parametri di conversione propri dello strumento che l ha generata SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS......XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX......IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII......JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ... LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL...!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijk 33 59 64 73 104 Illumina: Q @ = (ASCII value - 64) = 0 Sanger: Q @ = (ASCII value - 33) = 31
Tecnologia del sequenziamento
Tecnologia del sequenziamento Viene commercializzata la prima macchina automatica per il pirosequenziamento Prima pubblicazione sul pirosequenziamento Primo sequenziamento automatico Primo sequenziamento semi-automatico (Sanger dye-terminator)
Tecnologia del sequenziamento 454 pyrosequencing Viene commercializzata la prima macchina automatica per il pirosequenziamento Illumina (Solexa) Prima pubblicazione sul pirosequenziamento Primo sequenziamento automatico Primo sequenziamento semi-automatico (Sanger dye-terminator) SOLiD Ion semiconductor DNA nanoball Helioscope SMRT/RNAP
Tecnologia del sequenziamento 454 pyrosequencing Viene commercializzata la prima macchina automatica per il pirosequenziamento Illumina (Solexa) Prima pubblicazione sul pirosequenziamento Primo sequenziamento automatico Primo sequenziamento semi-automatico (Sanger dye-terminator) SOLiD Ion semiconductor DNA nanoball Helioscope SMRT/RNAP
Illumina reads Da 50 a 200 basi per read 10 milioni di reads per spot Ridotti costi di sequenziamento Profondità di sequenziamento elevata Video
454 Reads Da 100 a 500 basi per read 400-600 megabasi ogni 10 ore Costi medio alti Impossibilità di sequenziare correttamente più di 8 basi identiche consecutive
SOLiD Reads Reads di 150 bp massimo Tecnica estremamente flessibile Massima accuratezza Vengono utilizzati sonde con due basi Ogni base della sequenza viene «letta» due volte Costi bassi
SOLiD Reads Video
Reads Overview
Reads Overview Non esiste una tecnologia perfetta La scelta della tipologia di sequenziamento deve essere fatta in relazione al tipo di studio che si intende portare a termine
Nanopore Nanopore MinION
Nanopore Nanopore MinION Tecnologia in studio dal 1995 Ancora non raggiunge una risoluzione adeguata (il filamento di DNA scorre troppo rapidamente all interno del poro) In sviluppo l idea di utilizzare un esonucleasi in modo da rallentare il passaggio del filamento di DNA Video