Laboratorio di Elementi di Bioinformatica

Похожие документы
Laboratorio di Elementi di Bioinformatica

Laboratorio di Elementi di Bioinformatica

LA TRASCRIZIONE NEGLI EUCARIOTI

Laboratorio di Bioinformatica I. Parte 1. Dott. Sergio Marin Vargas (2014 / 2015)

FORMAZIONE DEL LEGAME PEPTIDICO

Fondamenti di Informatica T-1

Corso di Elementi di Bionformatica

Codice Genetico (segue)

Nel codice genetico, una tripletta di nucleotidi codifica per un aminoacido

A.A. 2018/2019. Esercitazione 5 [Per Casa] Modellazione e Risoluzione di Problemi mediante MATLAB FONDAMENTI DI INFORMATICA E PROGRAMMAZIONE

07/01/2015. Come si ferma una macchina in corsa? Il terminatore. Terminazione intrinseca (rho-indipendente)

Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli. Esercizi ricerche in banche dati

Vai al sito: Incolla nel box vuoto la sequenza nucleotidica

TRASCRIZIONE DEL DNA. Formazione mrna

RNA. Uracile al posto della Timina RNA MESSAGGERO. Sempre a SINGOLO FILAMENTO

IL MESSAGGERO ORATINESE. Novembre - Dicembre n Anno 2012

Corso di Genetica -Lezione 12- Cenci

IPOTESI UN GENE-UN ENZIMA

Problema: calcolare il massimo tra K numeri

Allineamenti a coppie

Jay Phelan, Maria Cristina Pignocchino. Scopriamo la biologia

Traccia 1. Nome Cognome Matricola Firma. Spazio Riservato alla Commissione. Esercizio 1 Esercizio 2 Esercizio 3 Esercizio 4 Esercizio 5 Totale

LA SINTESI PROTEICA LE MOLECOLE CHE INTERVENGONO IN TALE PROCESSO SONO:

Sperimenta il BioLab Attività di Bioinformatica Caccia al gene

Le proprietà elettive della cellula: Espressione della informazione genetica e differenziamento II Trascrizione- Codice genetico- Traduzione

Informatica ALGORITMI E LINGUAGGI DI PROGRAMMAZIONE. Francesco Tura. F. Tura

Appello di Fondamenti di Informatica 12/09/2017

Dal Genoma all Epigenoma..

Laboratorio di Bioinformatica I. Parte 2. Dott. Sergio Marin Vargas (2014 / 2015)

Laboratorio di Architettura degli Elaboratori A.A. 2014/15 Programmazione Assembly

Variabili e Istruzioni

LA BIOLOGIA MOLECOLARE E UNA BRANCA DELLA BIOLOGIA CHE STUDIA LE BASI MOLECOLARI DELLE FUNZIONI BIOLOGICHE, PONENDO UNA PARTICOLARE ATTENZIONE A QUEI

GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi

Metodologie citogenetiche. Metodologie molecolari. Formulare la domanda Utilizzare la metodica appropriata

MATLAB I/O. Informatica B - A.A. 2012/2013 ACQUISIZIONE DI INPUT DA TASTIERA

Genomi dei procarioti

Università Ca Foscari Dipartimento di informatica. Programmazione part-time. Esame Ocaml

Le biotecnologie. Sadava et al. Biologia La scienza della vita Zanichelli editore 2010

Транскрипт:

Laboratorio di Elementi di Bioinformatica Laurea Triennale in Informatica (codice: E3101Q116) AA 2015/2016 Parsing di un file in formato EMBL (parte I) Docente del laboratorio: Raffaella Rizzi 1

Esercizio Scrivere un programma che prenda in input un file in formato EMBL e che produca in standard output: l accession number (AC) e la lunghezza della sequenza la descrizione della sequenza l organismo a cui appartiene la sequenza lo start e l end della (eventuale) sequenza codificante (CDS), che esiste solo se la sequenza contenuta nel file è un mrna (RNA messaggero), cioé è un trascritto espresso da un gene il nome del (eventuale) gene che esprime la CDS la sequenza nucleotidica Una volta ottenuta la sequenza nucleotidica, determinare la sequenza codificante (CDS) e verificare che inizia con i tre caratteri atg e termina con una delle seguenti triplette {tag, taa, tga}

Esercizio Scrivere un programma che prenda in input un file in formato EMBL e che produca in standard output: l accession number (AC) e la lunghezza della sequenza la descrizione della sequenza La CDS è la sottostringa di mrna l organismo a cui appartiene la sequenza che viene tradotta in proteina lo start e l end della (eventuale) sequenza codificante (CDS), che esiste solo se la sequenza contenuta nel file è un mrna (RNA messaggero), cioé è un trascritto espresso da un gene il nome del (eventuale) gene che esprime la CDS la sequenza nucleotidica Una volta ottenuta la sequenza nucleotidica, determinare la sequenza codificante (CDS) e verificare che inizia con i tre caratteri atg e termina con una delle seguenti triplette {tag, taa, tga}

EMBL è un formato di puro testo composto da record identificati da un codice a due caratteri maiuscoli nelle prime due posizioni (e seguiti da tre spazi): l accession number (AC) e la lunghezza della sequenza Il record ID contiene una serie di campi separati da punto e virgola, di cui il primo è l accession number AC e l ultimo riporta la lunghezza della sequenza: ID M10051; SV 1; linear; mrna; STD; HUM; 4723 BP. la descrizione della sequenza Il record DE contiene la descrizione della sequenza DE Human insulin receptor mrna, complete cds. l organismo a cui appartiene la sequenza Il record OS contiene l organismo OS Homo sapiens (human)

EMBL è un formato di puro testo composto da record identificati da un codice a due caratteri maiuscoli nelle prime due posizioni (e seguiti da tre spazi): lo start e l end della (eventuale) sequenza codificante (CDS) Il record FT, seguito da spazi e dalla stringa CDS, contiene lo start e l end della CDS sulla sequenza: FT CDS 139..4287 il nome del (eventuale) gene che esprime la CDS Il record FT, seguito da spazi e dalla stringa /gene=, contiene il nome del gene FT /gene="insr la sequenza nucleotidica La sequenza nucleotidica è contenuta nella parte di file che inizia con il record SQ e termina con // (che segnala la fine del file)

Accession number: M10051 Lunghezza: 4723

Accession number: M10051 Lunghezza: 4723 row = leggi riga da file row =~ /^ID\s/

Accession number: M10051 Lunghezza: 4723 row = leggi riga da file row =~ /^ID\s+(\w+);.+?(\d+)\s+(BP bp)/ puts $1 puts $2

L accession number è anche presente nel record AC

Descrizione: Human insulin receptor mrna, complete cds.

Descrizione: Human insulin receptor mrna, complete cds. row = leggi riga da file row =~ /^DE\s+(.+)/ puts $1

Organismo: Homo sapiens (human).

Organismo: Homo sapiens (human). row = leggi riga da file row =~ /^OS\s+(.+)/ puts $1

CDS: sottostringa della sequenza nucleotidica che va dal carattere in posizione 139 al carattere in posizione 4287

row = leggi riga da file row =~ /^FT\s+CDS\s+(\d+)\.\.(\d+)/ puts $1 puts $2 CDS: sottostringa della sequenza nucleotidica che va dal carattere in posizione 139 al carattere in posizione 4287

Gene: INSR

row = leggi riga da file row =~ /^FT\s+\/gene= (\w+) )/ puts $1 Gene: INSR

Sequenza nucleotidica: ggggggctgcgcggccgggtcggtgcgcacacgagaaggacgcgcggccc