Corso di Elementi di Bionformatica

Транскрипт

1 Corso di Elementi di Bionformatica Laurea Triennale in Informatica Il formato FASTQ per la qualità delle sequenze Anno Accademico Docente del laboratorio: Raffaella Rizzi 1

2 La qualità delle sequenze L aspetto legato alla qualità delle sequenze è attualmente importantissimo: ü le nuove tecnologie di sequenziamento (Next- Generation Sequencing, NGS) producono reads (sequenze) corti per i quali la conoscenza della qualità risulta di fondamentale importanza ü i software tools che processano sequenze NGS devono tenere conto della qualiltà della sequenza Ad ogni base di un read viene dunque associato un indice di qualità.

3 La qualità delle sequenze L aspetto legato alla qualità delle sequenze è attualmente importantissimo: ü le nuove tecnologie di sequenziamento (Next- Generation Sequencing, NGS) producono reads (sequenze) corti per i quali la conoscenza della qualità risulta di fondamentale importanza ü i software tools che processano sequenze NGS devono tenere conto della qualiltà della sequenza Ad ogni base di un read viene dunque associato un indice Repository di qualità. di NGS data: Sequence Read Archive (SRA):

4 Il formato FASTQ FASTQ: ü è un formato di puro testo facilmente leggibile ü è pensato (da Wellcome Trust Sanger Institute) per associare ad una sequenza la qualità di ogni sua singola base ü è un formato standard per l output di strumenti di sequenziamento NGS ü ha estensione: *.fq oppure *.fastq

5 Il formato FASTQ FASTQ: ü è un formato di puro testo facilmente leggibile ü è pensato (da Wellcome Trust Sanger Institute) per associare ad una sequenza la qualità di ogni sua singola base ü è un formato FASTQ standard = FASTA per + qualità l output di strumenti di sequenziamento NGS ü ha estensione: *.fq oppure *.fastq

6 Sanger VS Next-Generation Sequencing (NGS) Metodo Sanger ð Piuttosto costoso (centinaia di milioni di dollari per Human Genome Project) ð Processa pochissimi reads in un run (copertura relativamente bassa) ð Lunghezza dei reads fino a 1000 bp ð Qualità elevata Metodi NGS ð Poco costoso (attorno al milione di dollari per sequenziare il genoma umano) ð Processa tanti reads in un run (milioni) (copertura da 10 a 100 volte superiore quella Sanger) ð Reads relativamente corti ð Qualità relativamente bassa

7 Sanger VS Next-Generation Sequencing (NGS) Metodo Sanger ð Piuttosto costoso (centinaia di milioni di dollari per Human Genome Project) ð Processa pochissimi reads in un run (copertura relativamente bassa) ð Lunghezza dei reads fino a 1000 bp ð Qualità elevata Metodi NGS ð Poco costoso (attorno al milione di dollari per sequenziare il genoma umano) ð Processa tanti reads in un run (milioni) (copertura da 10 a 100 volte superiore quella Sanger) ð Reads relativamente corti ð Qualità relativamente bassa

8 Sanger VS Next-Generation Sequencing (NGS) Metodo Sanger ð Piuttosto costoso (centinaia di milioni di dollari per FASTA Human Genome Project) ð Processa pochissimi reads in un run (copertura relativamente bassa) ð Lunghezza dei reads fino a 1000 bp ð Qualità elevata Metodi NGS ð Poco costoso (attorno al milione di dollari per sequenziare il genoma umano) ð Processa tanti reads in un run (milioni) (copertura da 10 a 100 volte FASTQ superiore quella Sanger) ð Reads relativamente corti ð Qualità relativamente bassa

9 Base calling Un esperimento di sequenziamento produce in generale un cromatogramma da cui si deriva la sequenza delle base tramite il cosiddetto processo di base calling

10 Base calling Un esperimento di sequenziamento produce in generale un cromatogramma da cui si deriva la sequenza delle base tramite il cosiddetto processo di base calling

11 Base calling La lettura di un cromatogramma permette l associazione di un indice di qualità ad ogni base chiamata. Oltre alla sequenza di basi, si ottiene dunque anche la corrispondente sequenza di indici di qualità.

12 Base calling La lettura di un cromatogramma permette l associazione di un indice di qualità ad ogni base chiamata. Oltre alla sequenza di basi, si ottiene dunque anche la corrispondente sequenza di indici di qualità. L indice di qualità più usato attualmente è il Phred Quality Score

13 Phred Quality Score Phred Quality Score è stato sviluppato all interno del software Phred base-calling nei primi anni Novanta dal gruppo di Phil Green (Washington University). La qualità q, relativa ad una certa base b nella sequenza, è: q = -10 log 10 (p) dove p è la probabilità che la base b sia errata. (Il valore calcolato viene arrotondato all intero più vicino)

14 Phred Quality Score Esercizio 1. Calcolare il phred value q di una base che ha una probabilità dell 1% di essere errata (cioè una probabilità del 99% di essere corretta).

15 Phred Quality Score Esercizio 1. Calcolare il phred value q di una base che ha una probabilità dell 1% di essere errata (cioè una probabilità del 99% di essere corretta). q = - 10 log 10 (0.01) = 20

16 Phred Quality Score Esercizio 2. Calcolare il phred value q di una base che ha una probabilità del 100% di essere errata (cioè una probabilità dello 0% di essere corretta).

17 Phred Quality Score Esercizio 2. Calcolare il phred value q di una base che ha una probabilità del 100% di essere errata (cioè una probabilità dello 0% di essere corretta). q = - 10 log 10 (1.0) = 0

18 Phred Quality Score Esercizio 3. Calcolare il phred value q di una base che ha una probabilità dello 0% di essere errata (cioè una probabilità del 100% di essere corretta).

19 Phred Quality Score Esercizio 3. Calcolare il phred value q di una base che ha una probabilità dello 0% di essere errata (cioè una probabilità del 100% di essere corretta). q = - 10 log 10 (0.0) = +infinito

20 Phred Quality Score Esercizio 3. Calcolare il phred value q di una base che ha una probabilità dello 0% di essere errata (cioè una probabilità del 100% di essere corretta). q = - 10 log 10 (0.0) = +infinito Una base con q maggiore o uguale a 50 è considerata praticamente corretta.

21 Phred Quality Score Esercizio 3. Calcolare il phred value q di una base che ha una probabilità dello 0% di essere errata (cioè una probabilità del 100% di essere corretta). q = - 10 log 10 (0.0) = +infinito Una base con q maggiore o uguale a 30 (e inferiore a 50) è considerata buona.

22 Phred Quality Score Esercizio 4. Calcolare la probabilità di errore di una base con phred value pari a 50.

23 Phred Quality Score Esercizio 4. Calcolare la probabilità di errore di una base con phred value pari a 50. p = 10 ^(q/-10) = 10 ^ (-5) =

24 Phred Quality Score Esercizio 4. Calcolare la probabilità di errore di una base con phred value pari a 50. p = 10 ^(q/-10) = 10 ^ (-5) = Una base con phred value pari a 50, ha una probabilità dello 0.001% di essere sbagliata.

25 Phred Quality Score Esercizio 4. Calcolare la probabilità di errore di una base con phred value pari a 50. p = 10 ^(q/-10) = 10 ^ (-5) = Le basi che hanno una probabilità inferiore allo 0.001% di essere sbagliate sono considerate corrette

26 Phred Quality Score Esercizio 5. Calcolare il phred value q di una base che ha una probabilità del 75% di essere corretta.

27 Phred Quality Score Esercizio 5. Calcolare il phred value q di una base che ha una probabilità del 75% di essere corretta. q = - 10 log 10 (1-0.75) = 6

28 Phred Quality Score Esercizio 6. Data una base, avente phred value q pari a 10, calcolare la probabilità p c che la base sia stata chiamata correttamente.

29 Phred Quality Score Esercizio 6. Data una base, avente phred value q pari a 10, calcolare la probabilità p c che la base sia stata chiamata correttamente. p = 10 ^(q/-10) = 10 ^ (-1) = 0.1 p c = 1 - p = = 0.9

30 Formato FASTQ Il formato FASTQ è composto da quattro righe:

31 Formato FASTQ Il formato FASTQ è composto da quattro righe: 1. Header della sequenza contenente l identificatore del read simbolo

32 Formato FASTQ Il formato FASTQ è composto da quattro righe: 1. Header della sequenza contenente l identificatore del read simbolo 2. Sequenza delle basi del read

33 Formato FASTQ Il formato FASTQ è composto da quattro righe: 1. Header della sequenza contenente l identificatore del read simbolo 2. Sequenza delle basi del read 3. Header della sequenza dei phred values simbolo iniziale: +

34 Formato FASTQ Il formato FASTQ è composto da quattro righe: 1. Header della sequenza contenente l identificatore del read simbolo 2. Sequenza delle basi del read 3. Header della sequenza dei phred values simbolo iniziale: + 4. Sequenza dei phred values corrispondenti alle basi del read (codificata in caratteri stampabili)

35 Formato FASTQ TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC +HWUSI-EAS522:8:5:662:692#0/1 aaaaàaàa`] àa`_u[_a`^\\utwz`x^qx

36 Formato FASTQ TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC +HWUSI-EAS522:8:5:662:692#0/1 aaaaàaàa`] àa`_u[_a`^\\utwz`x^qx Header della sequenza: dopo il c è l ID del read

37 Formato FASTQ TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC +HWUSI-EAS522:8:5:662:692#0/1 aaaaàaàa`] àa`_u[_a`^\\utwz`x^qx Sequenza delle basi del read

38 Formato FASTQ TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC +HWUSI-EAS522:8:5:662:692#0/1 aaaaàaàa`] àa`_u[_a`^\\utwz`x^qx Header della sequenza dei phred values: dopo il simbolo + c è l ID (opzionale) del read

39 Formato FASTQ TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC +HWUSI-EAS522:8:5:662:692#0/1 aaaaàaàa`] àa`_u[_a`^\\utwz`x^qx Header della sequenza dei phred values: dopo il simbolo + c è l ID (opzionale) del read

40 Formato FASTQ TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC +HWUSI-EAS522:8:5:662:692#0/1 aaaaàaàa`] àa`_u[_a`^\\utwz`x^qx Sequenza dei phred values: il carattere i-esimo codifica Il phred value q della i-esima base del read

41 Conversione di q in carattere Ogni phred value q viene convertito in un carattere stampabile su file Ogni sequenziatore NGS ha una propria funzione f che specifica la conversione da phred value q a carattere c: c = f(q)

42 Conversione di q in carattere Una tipica conversione è la seguente: cioé: c = ASCII(min(q,93)+33) 1. se q è maggiore di 93, si pone q=93 2. si aggiunge a q il valore si converte in ASCII l intero ottenuto al punto 2

43 Conversione di q in carattere Una tipica conversione è la seguente: cioé: c = ASCII(min(q,93)+33) 1. se q è maggiore di 93, si pone q=93 2. si aggiunge a q il valore si converte Il codice in ASCII l intero è una tabella ottenuto che al punto fa 2 corrispondere a un intero in [0, 127] un carattere

44

45 Rappresentazione in base 10

48 Ad esempio, all intero 50 corrisponde il carattere 2

49 I caratteri stampabili corrispondono agli interi nell intervallo [32, 127]

50 Conversione di q in carattere Una tipica conversione è la seguente: c = ASCII(min(q,93)+33) Esercizio 7: trovare il carattere che corrisponde a un valore q = 32 secondo la conversione riportata sopra.

51 Conversione di q in carattere Una tipica conversione è la seguente: c = ASCII(min(q,93)+33) Esercizio 7: trovare il carattere che corrisponde a un valore q = 32 secondo la conversione riportata sopra. q=32 à A

52 Conversione di q in carattere Una tipica conversione è la seguente: c = ASCII(min(q,93)+33) Esercizio 8: trovare il valore di q che corrisponde al carattere a secondo la conversione riportata sopra.

53 Conversione di q in carattere Una tipica conversione è la seguente: c = ASCII(min(q,93)+33) Esercizio 8: trovare il valore di q che corrisponde al carattere a secondo la conversione riportata sopra. a à q=64 (probabilità di errore dello %)

54 Conversione di q in carattere Una tipica conversione: c = ASCII(min(q,93)+33) Esercizio 9: trovare la probabilità che la dodicesima base del read (riportato nell esempio precedente) sia corretta.

55 Conversione di q in carattere Una tipica conversione: c = ASCII(min(q,93)+33) Esercizio 9: trovare la probabilità p c che la dodicesima base del read (riportato nell esempio precedente) sia corretta. ] à 93 (dalla tabella ASCII) q = = 60 q = 60 à p = 0, p c = 1 p = 0,999999

56 Trimming dei reads La conoscenza della qualità dei reads consente di effettuare il trimming delle sequenze prima di qualsiasi processamento. Il trimming consiste in: 1. eliminare (eventualmente) un prefisso e/o un suffisso di bassa qualità (al di sotto di una prefissata soglia) 2. eliminare un read che risulti troppo corto dopo avere effettuato il trimming

57 Trimming dei TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC +HWUSI-EAS522:8:5:662:692#0/1 aaaaàaàa`] àa`_u[_a`^\\utwz`x^qx Si supponga di volere tenere solo le basi che hanno un phred value q maggiore o uguale a una soglia prefissata q*, ad esempio q*=58.

58 Trimming dei TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC +HWUSI-EAS522:8:5:662:692#0/1 aaaaàaàa`] àa`_u[_a`^\\utwz`x^qx Considero il carattere c* che corrisponde al valore q*=58: c* =

59 Trimming dei TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC +HWUSI-EAS522:8:5:662:692#0/1 aaaaàaàa`] àa`_u[_a`^\\utwz`x^qx Considero il carattere c* che corrisponde al valore q*=58: c* = [

60 Trimming dei TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC +HWUSI-EAS522:8:5:662:692#0/1 aaaaàaàa`] àa`_u[_a`^\\utwz`x^qx Una strategia è quella di trovare la più lunga parte della sequenza dei phred values che non contenga caratteri il cui valore intero (nella tabella ASCII) sia minore o uguale a quello del carattere [.

61 Trimming dei TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC +HWUSI-EAS522:8:5:662:692#0/1 aaaaàaàa`] àa`_u[_a`^\\utwz`x^qx Una strategia è quella di trovare la più lunga parte della sequenza dei phred values che non contenga caratteri il cui valore intero (nella tabella ASCII) sia minore o uguale a quello del carattere [.

62 Trimming dei TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC +HWUSI-EAS522:8:5:662:692#0/1 aaaaàaàa`] àa`_u[_a`^\\utwz`x^qx Una strategia è quella di trovare la più lunga parte della sequenza dei phred values che non contenga caratteri il cui valore intero (nella tabella ASCII) sia minore o uguale a quello del carattere [. Significa cioè trovare la più lunga parte del read la cui qualità non vada al di sotto della soglia q*=58.

63 Trimming dei TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC +HWUSI-EAS522:8:5:662:692#0/1 aaaaàaàa`] àa`_u[_a`^\\utwz`x^qx Se tale parte è troppo corta, allora elimino il read

64 Esercizio Scrivere un programma che prenda in input un file in formato FASTQ, una soglia Q di qualità e un valore T compreso tra 0 e 1, e produca in output un file FASTQ contenente le sole sequenze in cui la percentuale di basi con qualità >= Q è pari ad almeno T.

65 TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC +HWUSI-EAS522:8:5:662:692#0/1 aaaaàaàa`] TCTGCCAACTTCTTATGGAGGCCTGTATTCACAGGT +HWUSI-EAS522:8:5:662:693#0/1 Aaaaàaàa`] TCTGCCAGAGGCCTGTATTCACAGGTACTTCTTATG +HWUSI-EAS522:8:5:662:694#0/1 aaaaàaàa`] TCGCCTGTATTCACAGGTTGCCAACTTCTTATGGAG +HWUSI-EAS522:8:5:662:695#0/1 AaaAàaàa`] `:A`_U;_A`^\\UTWZ`X^QX example.fq Con Q=58 e T=0.7 vengono tenuti solo Il primo e il terzo read

66 TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC +HWUSI-EAS522:8:5:662:692#0/1 aaaaàaàa`] TCTGCCAACTTCTTATGGAGGCCTGTATTCACAGGT +HWUSI-EAS522:8:5:662:693#0/1 Aaaaàaàa`] TCTGCCAGAGGCCTGTATTCACAGGTACTTCTTATG +HWUSI-EAS522:8:5:662:694#0/1 aaaaàaàa`] TCGCCTGTATTCACAGGTTGCCAACTTCTTATGGAG +HWUSI-EAS522:8:5:662:695#0/1 AaaAàaàa`] `:A`_U;_A`^\\UTWZ`X^QX example.fq Con Q=58 e T=0.7 vengono tenuti solo Il primo e il terzo read