Laboratorio di Elementi di Bioinformatica
|
|
|
- Lucia Grasso
- 9 anni fa
- Просмотров:
Транскрипт
1 Laboratorio di Elementi di Bioinformatica Laurea Triennale in Informatica (codice: E3101Q116) AA 2015/2016 Parsing di un file in formato EMBL (parte I) Docente del laboratorio: Raffaella Rizzi 1
2 Esercizio Scrivere un programma che prenda in input un file in formato EMBL e che produca in standard output: l accession number (AC) e la lunghezza della sequenza la descrizione della sequenza l organismo a cui appartiene la sequenza lo start e l end della (eventuale) sequenza codificante (CDS), che esiste solo se la sequenza contenuta nel file è un mrna (RNA messaggero), cioé è un trascritto espresso da un gene il nome del (eventuale) gene che esprime la CDS la sequenza nucleotidica Una volta ottenuta la sequenza nucleotidica, determinare la sequenza codificante (CDS) e verificare che inizia con i tre caratteri atg e termina con una delle seguenti triplette {tag, taa, tga}
3 Esercizio Scrivere un programma che prenda in input un file in formato EMBL e che produca in standard output: l accession number (AC) e la lunghezza della sequenza la descrizione della sequenza La CDS è la sottostringa di mrna l organismo a cui appartiene la sequenza che viene tradotta in proteina lo start e l end della (eventuale) sequenza codificante (CDS), che esiste solo se la sequenza contenuta nel file è un mrna (RNA messaggero), cioé è un trascritto espresso da un gene il nome del (eventuale) gene che esprime la CDS la sequenza nucleotidica Una volta ottenuta la sequenza nucleotidica, determinare la sequenza codificante (CDS) e verificare che inizia con i tre caratteri atg e termina con una delle seguenti triplette {tag, taa, tga}
4 EMBL è un formato di puro testo composto da record identificati da un codice a due caratteri maiuscoli nelle prime due posizioni (e seguiti da tre spazi): l accession number (AC) e la lunghezza della sequenza Il record ID contiene una serie di campi separati da punto e virgola, di cui il primo è l accession number AC e l ultimo riporta la lunghezza della sequenza: ID M10051; SV 1; linear; mrna; STD; HUM; 4723 BP. la descrizione della sequenza Il record DE contiene la descrizione della sequenza DE Human insulin receptor mrna, complete cds. l organismo a cui appartiene la sequenza Il record OS contiene l organismo OS Homo sapiens (human)
5 EMBL è un formato di puro testo composto da record identificati da un codice a due caratteri maiuscoli nelle prime due posizioni (e seguiti da tre spazi): lo start e l end della (eventuale) sequenza codificante (CDS) Il record FT, seguito da spazi e dalla stringa CDS, contiene lo start e l end della CDS sulla sequenza: FT CDS il nome del (eventuale) gene che esprime la CDS Il record FT, seguito da spazi e dalla stringa /gene=, contiene il nome del gene FT /gene="insr la sequenza nucleotidica La sequenza nucleotidica è contenuta nella parte di file che inizia con il record SQ e termina con // (che segnala la fine del file)
6 Accession number: M10051 Lunghezza: 4723
7 Accession number: M10051 Lunghezza: 4723 row = leggi riga da file row =~ /^ID\s/
8 Accession number: M10051 Lunghezza: 4723 row = leggi riga da file row =~ /^ID\s+(\w+);.+?(\d+)\s+(BP bp)/ puts $1 puts $2
9 L accession number è anche presente nel record AC
10 Descrizione: Human insulin receptor mrna, complete cds.
11 Descrizione: Human insulin receptor mrna, complete cds. row = leggi riga da file row =~ /^DE\s+(.+)/ puts $1
12 Organismo: Homo sapiens (human).
13 Organismo: Homo sapiens (human). row = leggi riga da file row =~ /^OS\s+(.+)/ puts $1
14 CDS: sottostringa della sequenza nucleotidica che va dal carattere in posizione 139 al carattere in posizione 4287
15 row = leggi riga da file row =~ /^FT\s+CDS\s+(\d+)\.\.(\d+)/ puts $1 puts $2 CDS: sottostringa della sequenza nucleotidica che va dal carattere in posizione 139 al carattere in posizione 4287
16 Gene: INSR
17 row = leggi riga da file row =~ /^FT\s+\/gene= (\w+) )/ puts $1 Gene: INSR
18 Sequenza nucleotidica: ggggggctgcgcggccgggtcggtgcgcacacgagaaggacgcgcggccc
Laboratorio di Elementi di Bioinformatica
Laboratorio di Elementi di Bioinformatica Laurea Triennale in Informatica (codice: E30Q6) AA 205/206 Esempio di workflow Docente del laboratorio: Raffaella Rizzi Scopo del workflow Scopo: dato un insieme
Laboratorio di Elementi di Bioinformatica
Laboratorio di Elementi di Bioinformatica Laurea Triennale in Informatica (codice: E3101Q116) AA 2015/2016 I/O su file Docente del laboratorio: Raffaella Rizzi 1 Standard input e output gets: legge una
LA TRASCRIZIONE NEGLI EUCARIOTI
LA TRASCRIZIONE NEGLI EUCARIOTI NEGLI EUCARIOTI TRASCRIZIONE E TRADUZIONE SONO DUE EVENTI SEPARATI CHE AVVENGONO IN DUE DIVERSI COMPARTIMENTI CELLULARI: NUCLEO E CITOPLASMA. INOLTRE, A DIFFERENZA DEI
Laboratorio di Bioinformatica I. Parte 1. Dott. Sergio Marin Vargas (2014 / 2015)
Laboratorio di Bioinformatica I Banche dati Parte 1 Dott. Sergio Marin Vargas (2014 / 2015) Introduzione a NCBI National Center for Biotechnology Information (NCBI) http://www.ncbi.nlm.nih.gov/ NCBI Databases
FORMAZIONE DEL LEGAME PEPTIDICO
AMINOACIDI FORMAZIONE DEL LEGAME PEPTIDICO SEQUENZA AMINOACIDICA DELL INSULINA STRUTTURA SECONDARIA DELLE PROTEINE STRUTTURA TERZIARIA DELLE PROTEINE STRUTTURA QUATERNARIA DELLE PROTEINE Definizione Processi
Fondamenti di Informatica T-1
Fondamenti di Informatica T-1 Stringhe Tutor: Allegra De Filippo [email protected] a.a. 2015/2016 Fondamenti di Informatica T-1 Allegra De Filippo 1 / 13 STRINGHE: Definizione e creazione Stringa
Corso di Elementi di Bionformatica
Corso di Elementi di Bionformatica Laurea Triennale in Informatica Il formato FASTQ per la qualità delle sequenze Anno Accademico 2015-2016 Docente del laboratorio: Raffaella Rizzi 1 La qualità delle sequenze
Codice Genetico (segue)
CODICE GENETICO Nucleotidi, acidi nucleici CODICE GENETICO Codice mediante il quale la sequenza nucleotidica di una molecola di DNA o di RNA specifica la sequenza amminoacidica di un polipeptide. Consiste
Nel codice genetico, una tripletta di nucleotidi codifica per un aminoacido
Il codice genetico: Come triplette dei quattro nucleotidi specificano 20 aminoacidi, rendendo possibile la traduzione dell informazione da catena nucleotidica a sequenza di aminoacidi. Come le mutazioni
A.A. 2018/2019. Esercitazione 5 [Per Casa] Modellazione e Risoluzione di Problemi mediante MATLAB FONDAMENTI DI INFORMATICA E PROGRAMMAZIONE
A.A. 2018/2019 Esercitazione 5 [Per Casa] Modellazione e Risoluzione di Problemi mediante MALAB Docente Prof. Raffaele Pizzolante ONDAMENI DI INORMAICA E PROGRAMMAZIONE per axi 1 (indice 1) 1.99 5 20 axi
07/01/2015. Come si ferma una macchina in corsa? Il terminatore. Terminazione intrinseca (rho-indipendente)
Come si ferma una macchina in corsa? Il terminatore Terminazione intrinseca (rho-indipendente) Terminazione dipendente dal fattore Rho (r) 1 Operoni: gruppi di geni parte di una unica unità trascrizionale
Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli. Esercizi ricerche in banche dati
Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli Esercizi ricerche in banche dati 1) Nel romanzo fantasy Jurassic Park di Michael Crichton sulla possibilità di clonare i dinosauri,
Vai al sito: Incolla nel box vuoto la sequenza nucleotidica
Identificare il gene a cui appartiene la sequenza (sonda) e la sua posizione sul cromosoma. Per raggiungere l obiettivo della prima parte dell attività devi usare il software BLAT (BLAST- Like Alignment
TRASCRIZIONE DEL DNA. Formazione mrna
TRASCRIZIONE DEL DNA Formazione mrna Trascrizione Processo mediante il quale l informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall enzima RNA polimerasi
RNA. Uracile al posto della Timina RNA MESSAGGERO. Sempre a SINGOLO FILAMENTO
DNA 1 RNA Uracile al posto della Timina Sempre a SINGOLO FILAMENTO RNA MESSAGGERO Filamento lineare di sequenze nucleotidiche: copia l informazione presente sul DNA e porta il messaggio a livello dei ribosomi
IL MESSAGGERO ORATINESE. Novembre - Dicembre n. 211 - Anno 2012
IL MESSAGGERO ORATINESE Novembre - Dicembre n. 211 - Anno 2012 2 Il Messaggero Oratinese Novembre - Dicembre - n. 211 Novembre - Dicembre - n. 211 Il Messaggero Oratinese 3 4 Il Messaggero Oratinese Novembre
Corso di Genetica -Lezione 12- Cenci
Corso di Genetica -Lezione 12- Cenci Il codice genetico: Come triplette dei quattro nucleotidi specificano 20 aminoacidi, rendendo possibile la traduzione dell informazione da catena nucleotidica a sequenza
IPOTESI UN GENE-UN ENZIMA
IPOTESI UN GENE-UN ENZIMA DNA: contiene tutte le informazioni per definire lo sviluppo e la fisiologia della cellula: ma come svolge questa funzione? Beadle e Tatum (1941): studiando mutanti della comune
Problema: calcolare il massimo tra K numeri
Problema: calcolare il massimo tra K numeri Scrivere un algoritmo che fornisca in input ad un programma un numero K e K interi positivi. L algoritmo deve restituire il valore massimo tra quelli introdotti
Allineamenti a coppie
Laboratorio di Bioinformatica I Allineamenti a coppie Dott. Sergio Marin Vargas (2014 / 2015) ExPASy Bioinformatics Resource Portal (SIB) http://www.expasy.org/ Il sito http://myhits.isb-sib.ch/cgi-bin/dotlet
Jay Phelan, Maria Cristina Pignocchino. Scopriamo la biologia
Jay Phelan, Maria Cristina Pignocchino Scopriamo la biologia Capitolo 6 Il DNA in azione 3 1. Il DNA è il materiale genetico Il DNA è composto da una sequenza di nucleotidi. Ogni nucleotide comprende:
Traccia 1. Nome Cognome Matricola Firma. Spazio Riservato alla Commissione. Esercizio 1 Esercizio 2 Esercizio 3 Esercizio 4 Esercizio 5 Totale
Nome Cognome Matricola Firma Traccia 1 Spazio Riservato alla Commissione Esercizio 1 Esercizio 2 Esercizio 3 Esercizio 4 Esercizio 5 Totale Appello di Fondamenti di Informatica 12/09/2017 POSSIBILI SOLUZIONI
LA SINTESI PROTEICA LE MOLECOLE CHE INTERVENGONO IN TALE PROCESSO SONO:
LA SINTESI PROTEICA La sintesi proteica è il processo che porta alla formazione delle proteine utilizzando le informazioni contenute nel DNA. Nelle sue linee fondamentali questo processo è identico in
Sperimenta il BioLab Attività di Bioinformatica Caccia al gene
Sperimenta il BioLab Attività di Bioinformatica Caccia al gene Università degli Studi di Milano Settore Didattico, via Celoria 20, Milano Laboratorio 105 INTRODUZIONE Questa attività pratica ha come scopo
Le proprietà elettive della cellula: Espressione della informazione genetica e differenziamento II Trascrizione- Codice genetico- Traduzione
Le proprietà elettive della cellula: Espressione della informazione genetica e differenziamento II Trascrizione- odice genetico- Traduzione dl Infermieristica aa. 2011/12 Prof.ssa Frabetti ESPRESSIONE
Informatica ALGORITMI E LINGUAGGI DI PROGRAMMAZIONE. Francesco Tura. F. Tura
Informatica ALGORITMI E LINGUAGGI DI PROGRAMMAZIONE Francesco Tura [email protected] 1 Lo strumento dell informatico: ELABORATORE ELETTRONICO [= calcolatore = computer] Macchina multifunzionale Macchina
Appello di Fondamenti di Informatica 12/09/2017
Nome ognome Matricola Firma Traccia 1 Spazio Riservato alla ommissione Esercizio 1 Esercizio 2 Esercizio 3 Esercizio 4 Esercizio 5 Totale Appello di Fondamenti di Informatica 12/09/2017 Ingegneria Meccanica
Dal Genoma all Epigenoma..
Dal Genoma all Epigenoma.. Nel 2001 sono stati pubblicati i risultati della mappatura del genoma umano (progetto genoma umano) che hanno mostrato la sequenze delle basi che formano il nostro materiale
Laboratorio di Bioinformatica I. Parte 2. Dott. Sergio Marin Vargas (2014 / 2015)
Laboratorio di Bioinformatica I Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015) Google Scholar https://scholar.google.it/ E un motore di ricerca di Google, specializzato nella ricerca di articoli
Laboratorio di Architettura degli Elaboratori A.A. 2014/15 Programmazione Assembly
Laboratorio di Architettura degli Elaboratori A.A. 2014/15 Programmazione Assembly Scrivere il codice ARM che implementi le specifiche richieste e quindi verificarne il comportamento usando il simulatore
Variabili e Istruzioni
Exit Menù Variabili e Istruzioni 1 Le Variabili Una VARIABILE è un oggetto identificato da un NOME e da uno STATO, detto CONTENUTO o VALORE. Possiamo immaginarla come una scatola contenuto Pippo 11 nome
LA BIOLOGIA MOLECOLARE E UNA BRANCA DELLA BIOLOGIA CHE STUDIA LE BASI MOLECOLARI DELLE FUNZIONI BIOLOGICHE, PONENDO UNA PARTICOLARE ATTENZIONE A QUEI
CONCETTI DI BASE LA BIOLOGIA MOLECOLARE E UNA BRANCA DELLA BIOLOGIA CHE STUDIA LE BASI MOLECOLARI DELLE FUNZIONI BIOLOGICHE, PONENDO UNA PARTICOLARE ATTENZIONE A QUEI PROCESSI CHE COINVOLGONO GLI ACIDI
GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi
GENOMA EVOLUZIONE CONTENUTO FUNZIONE STRUTTURA Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine Progetti genoma in centinaia di organismi Importante la sintenia tra i genomi The
Metodologie citogenetiche. Metodologie molecolari. Formulare la domanda Utilizzare la metodica appropriata
In base al potere di risoluzione della tecnica Metodologie citogenetiche Metodologie molecolari Formulare la domanda Utilizzare la metodica appropriata 1 DNA RNA PROTEINE DNA Cromosomi (cariotipo, FISH,
MATLAB I/O. Informatica B - A.A. 2012/2013 ACQUISIZIONE DI INPUT DA TASTIERA
MATLAB I/O Informatica B - A.A. 2012/2013 ACQUISIZIONE DI INPUT DA TASTIERA Funzione input valore = input( inserisci un valore ); Matlab stampa a video la stringa inserisci un valore ed aspetta di ricevere
Genomi dei procarioti
Genomi dei procarioti Una molecola circolare di DNA E.coli circa 4 x 10 6 coppie di basi Il genoma è quasi tutto codificante Viene trascritto in mrna policistronici Il genoma eucariotico Il genoma eucariotico
Università Ca Foscari Dipartimento di informatica. Programmazione part-time. Esame Ocaml
Soluzione Università Ca Foscari Dipartimento di informatica Programmazione part-time Esame Ocaml Nome: Matricola: Samuel Rota Bulò, a.a. 2009/2010 Programmazione part-time a.a. 2009/2010 Esame Ocaml Nome:
Le biotecnologie. Sadava et al. Biologia La scienza della vita Zanichelli editore 2010
Le biotecnologie 1 Cosa sono le biotecnologie? Le biotecnologie sono tutte quelle tecniche utilizzate (fin dall antichità) per produrre sostanze specifiche a partire da organismi viventi o da loro derivati.
