Laboratorio di Elementi di Bioinformatica Laurea Triennale in Informatica (codice: E30Q6) AA 205/206 Esempio di workflow Docente del laboratorio: Raffaella Rizzi
Scopo del workflow Scopo: dato un insieme R di reads genomici (ottenuti con tecnologia NGS) e i locus genici del cromosoma, stimare, per ogni gene, il numero di reads che hanno origine dal suo locus.
Scopo del workflow Ogni gene è fornito come locus Scopo: dato un insieme [start, R end] di reads sul DNA genomici genomico (ottenuti con tecnologia NGS) e à i locus file genes-chr.csv genici del cromosoma, stimare, per ogni gene, il numero di reads che hanno origine dal suo locus. 5 G G2 G3 3 start end chr
Scopo del workflow Scopo: dato un insieme R di reads genomici (ottenuti con tecnologia NGS) e i locus genici del cromosoma, stimare, per ogni gene, il numero di reads che hanno origine dal suo locus. 5 G G2 G3 3 chr Set R
Scopo del workflow Scopo: dato un insieme R di reads genomici (ottenuti con tecnologia NGS) e i locus genici del cromosoma, stimare, per ogni gene, il numero di reads che hanno origine dal suo locus. 5 G G2 G3 3 chr Set R
Scopo del workflow Scopo: dato un insieme R di reads genomici (ottenuti con tecnologia NGS) e i locus genici del cromosoma, stimare, per ogni gene, il numero di reads che hanno origine dal suo locus. 5 G G2 G3 3 In G hanno origine 2 reads. In G2 hanno origine 0 reads. In G3 ha origine reads chr
Recuperare un file di NGS reads in formato FASTQ da SRA (Sequence Read Archive)
2 Recuperare un file di NGS reads in formato FASTQ da SRA (Sequence Read Archive) Allineare i read al genoma
2 3 Recuperare un file di NGS reads in formato FASTQ da SRA (Sequence Read Archive) Allineare i read al genoma Scrivere un programma Ruby: INPUT: allineamenti prodotti allo step 2 (in formato SAM), il file genes-chr.csv dei geni sul cromosoma e una soglia di qualità Q. OUTPUT: una tabella che descrive per ognuno dei geni del cromosoma il numero di allineamenti di reads, con qualità media al di sopra di Q, che cadono all interno del locus del gene.
2 3 Recuperare un file di NGS reads in formato FASTQ da SRA (Sequence Read Archive) Allineare i read al genoma Scrivere un programma Ruby: INPUT: allineamenti prodotti allo step 2 (in formato SAM), il file genes-chr.csv dei geni sul cromosoma e una soglia di qualità Q. OUTPUT: una tabella che descrive per ognuno dei geni NB: del dato cromosoma il locus [start, end] il numero di un gene di diciamo allineamenti di reads, con qualità media al di sopra di Q, che cadono del campo all interno POS nel file del SAM locus è compreso del gene. in [start, end] l allineamento di un read cade all interno del gene se il valore
2 3 Recuperare un file di NGS reads in formato FASTQ da SRA (Sequence Read Archive) Allineare i read al genoma Scrivere un programma Ruby: INPUT: allineamenti Galaxy à https://usegalaxy.org/ prodotti allo step 2 (in formato SAM), il file genes-chr.csv https://orione.crs4.it/ dei geni sul cromosoma e una soglia di qualità Q. OUTPUT: una tabella che descrive per ognuno dei geni del cromosoma il numero di allineamenti di reads, con qualità media al di sopra di Q, che cadono all interno del locus del gene.
Recuperare un file di input (di NGS reads) in formato FASTQ da SRA (Sequence Read Archive) Tool Galaxy: Get Data à EBI SRA ENA SRA ID del set di NGS read: SRR57298
Recuperare un file di input (di NGS reads) in formato FASTQ da SRA (Sequence Read Archive) Tool Galaxy: Get Data à EBI SRA ENA SRA ID del set di NGS read: SRR57298 In alternativa, scaricare il set SRR57298 direttamente all indirizzo http://www.ebi.ac.uk/ena e caricare poi il file in Galaxy Tool Galaxy: Get Data à Upload File from your computer
Recuperare un file di input (di NGS reads) in formato FASTQ da SRA (Sequence Read Archive) Tool Galaxy: Get Data à EBI SRA ENA SRA ID del set di NGS read: SRR57298 In alternativa, scaricare il set SRR57298 direttamente all indirizzo http://www.ebi.ac.uk/ena e caricare poi il file in Galaxy Tool Galaxy: Get Data à Upload File from your computer Convertire in formato Sanger FASTQ il file dei reads Tool Galaxy: NGS: QC and manipulation à FASTQ Groomer convert between various FASTQ quality formats Tipo di input: Illumina.3.7
2 Allineare il set di reads al genoma usando BWA (Burrows-Wheeler Aligner) Tool Galaxy: NGS: mapping à BWA - map short reads (< 00 bp) against reference genome Genoma: Human (Homo Sapiens) (b38): hg38
2 3 Allineare il set di reads al genoma usando BWA (Burrows-Wheeler Aligner) Tool Galaxy: NGS: mapping à BWA - map short reads (< 00 bp) against reference genome Genoma: Human (Homo Sapiens) (b38): hg38 Scrivere il programma Ruby