Corso di Bioinformatica - Esercitazione
|
|
- Modesto Conti
- 5 anni fa
- Visualizzazioni
Transcript
1 Corso di Bioinformatica - Esercitazione Yuri Pirola 19 dicembre 2007 L esercitazione si compone di due parti: la prima è relativa all interrogazione di banche dati genomiche mentre la seconda è relativa all uso di un software per la ricostruzione di filogenesi. Durante l esercitazione verranno posti alcuni quesiti. Le risposte a questi quesiti devono essere riportate in un file di testo semplice in cui compaiano anche i nomi e le matricole dei componenti del gruppo. Questo file e i file aggiuntivi che verranno prodotti durante l esercitazione devono essere compressi in un archivio e consegnati via posta elettronica all indirizzo yuri.pirola@disco.unimib.it. 1 Interrogazione di Banche dati In questa parte dell esercitazione si ricercheranno un insieme di informazioni all interno della banca dati dell NCBI tramite la sua interfaccia Entrez raggiungibile all indirizzo Si scelga casualmente un componente del gruppo e se ne prenda l iniziale del cognome. Sia n la posizione della lettera nell alfabeto (ad es. A=1, B=2, ecc.). Si cerchino in NCBI i dati relativi al cromosoma n dell uomo (reference assembly) in modo da rispondere alle seguenti domande (suggerimento utilizzare la banca dati Genome e una query chromosome n ). 1. Qual è il numero del cromosoma? 2. Qual è la versione di riferimento? 3. Qual è l accession number? 4. Di quante basi è composto? 1
2 5. Quanti cluster UniGene sono presenti sul cromosoma n? 6. Quanti geni sono conosciuti sul cromosoma n? 7. Che nome ha l ultimo gene del cromosoma n? 8. Quanto è lunga la sequenza di riferimento di questo gene? 9. In che posizione si trova (coordinate genomiche)? 10. Qual è la base in posizione (=10M)? 11. La posizione 10M si trova all interno di un gene conosciuto? Se sì, quale? 2 Ricostruzione di Filogenesi I processo di ricostruzione di filogenesi è volto ad inferire la storia evolutiva di un insieme di specie basandosi su dati molecolari. I dati genetici in input possono prendere diversa forma: ad esempio possono essere delle sequenze genomiche relative a geni ortologhi nelle diverse specie, sequenze amminoacidiche, enzimi di restrizione caratteri continui e caratteri discreti. In particolare, in questa esercitazione ci baseremo sui dati provenienti da sequenze nucleotidiche di geni ortologhi. Prodotto della ricostruzione di filogenesi è un albero filogenetico che mostra le relazioni intercorrenti fra gruppi tassonomici (cioè specie) differenti. Le specie vanno ad etichettare le foglie dell albero filogenetico mentre i nodi interni rappresentano delle unità tassonomiche intermedie tra le specie prese in considerazione. Nel caso in cui l albero ricostruito sia radicato allora i nodi interni possono essere considerati come una sorta di antenati comuni (non necessariamente realmente esistenti), altrimenti mostrano unicamente le relazioni di parentela tra le specie. Si noti che stabilire la radice dell albero filogenetico è un operazione abbastanza complessa, proprio per la lettura che, in questo caso, si da ai nodi interni. 2.1 Metodi di ricostruzione di filogenesi I metodi di ricostruzione di filogenesi che si utilizzeranno durante l esercitazione possono essere suddivisi in tre tipologie: - metodi basati sulla distanza; - metodo di massima verosimiglianza; - metodo di massima parsimonia. Nei prossimi paragrafi delineeremo le caratteristiche di queste tre tipologie. 2
3 2.1.1 Metodi basati sulla distanza I metodi basati sulla distanza sono metodi composti da due fasi distinte. La prima fase prende in input l allineamento multiplo di un insieme di sequenze genetiche (ciascuna relativa a una specie presa in esame) e, sulla base dell allineamento fornito, calcola una matrice della distanza evolutiva tra tutte le coppie di specie considerate. Nella seconda fase, invece, viene costruito un albero filogenetico pesato che rispetti la matrice delle distanze ottenuta precedentemente, ovvero per il quale la somma dei pesi degli archi del cammino che congiunge ciascuna coppia di specie sia approssimativamente uguale alla distanza evolutiva della coppia stessa. Calcolo della distanza evolutiva. La distanza evolutiva è una misura quantitativa della differenza fra le sequenze genetiche relative alle due specie rispetto all allineamento fornito e viene interpretata come una stima del tempo di divergenza tra le due specie. Per poter essere così interpretata, la distanza evolutiva è calcolata basandosi sulla stima della probabilità che si verifichi l insieme delle mutazioni che distinguono le sequenze sotto l assunzione di un preciso modello biologico di riferimento. Attualmente, i modelli più importanti e utilizzati in letteratura sono quattro seguenti. 1. Il modello di Jukes Cantor. In questo modello si assume che la probabilità che una base azotata muti in una delle altre tre è uniforme fra tutte le basi. 2. Il modello di Kimura. Questo modello si basa sull osservazione che la struttura chimica di adenina e guanina (che sono due purine) è profondamente differente da quella di citosina e timina (che sono due pirimidine). Di conseguenza, nel modello di Kimura si assume che la probabilità che avvenga una transizione, cioè una mutazione da una purina a una pirimidina (o viceversa), sia differente dalla probabilità che avvenga una transversione, cioè una mutazione da una purina a un altra purina o da una pirimidina a un altra pirimidina. Per questo motivo è anche chiamato modello a 2 parametri. Generalmente le transizioni sono considerate più probabili delle transversioni con un rapporto di 2/1. Naturalmente il modello di Kimura è una generalizzazione del modello di Jukes Cantor. 3. Il modello F84. Questo modello è un arricchimento del modello di Kimura in cui le 4 basi azotate non sono considerate equiprobabili e, in base alle frequenze con cui si presentano nelle sequenze (o a informazioni a priori), vengono derivate le probabilità di mutazione. 4. Il modello Log Det. Questo modello si differenzia dai precedenti e si basa sulla stima della probabilità congiunta con cui si presentano le basi nelle due sequenze. Risulta essere particolarmente adatto quando la frequenza delle basi varia notevolmente di sequenza in sequenza. In questi casi, infatti, i primi tre modelli non forniscono risultati validi. 3
4 Tutti questi modelli, inoltre, prendono in considerazione ulteriori parametri, come la variazione del tasso di mutazione in funzione della posizione all interno della sequenza 1, per meglio approssimare la realtà biologica per come è ad oggi conosciuta. Costruzione dell albero. Una volta ottenuta una matrice delle distanze evolutive fra le specie 2 si può procedere alla costruzione dell albero che rispetta le distanze date. In letteratura sono stati proposti diversi algoritmi per risolvere questo problema. Tra di essi ricordiamo l algoritmo UPGMA, neighbour joining e Fitch Margoliash. I primi due algoritmi si basano sulla fusione iterativa dei due cluster di specie che, ad ogni passo, minimizzano una funzione della distanza mentre il terzo algoritmo ricerca l albero che minimizza l errore fra distanza predetta sull albero e distanza evolutiva specificata in input. La correttezza dei primi due algoritmi è garantita solo se la matrice delle distanze soddisfa una determinata ipotesi (ultrametricità per UPGMA e addittività per NJ) che, sfortunatamente, non è verificata in pratica. Il terzo metodo, invece, è più generale ma molto più lento dei precedenti e, se la matrice delle distanze è quasi ultrametrica (o quasi addittiva), non fornisce risultati troppo dissimili dai precedenti Metodo di massima verosimiglianza (ML) Questo metodo ha natura statistica e mira a ricostruire l albero che più verosimilmente ha portato alla generazione dell allineamento in input ricostruendo la storia evolutiva di ogni singolo sito (cioè ogni singola base) delle diverse sequenze. In questo metodo si assume che ciascun sito si sia evoluto, quindi sia mutato, indipendentemente dagli altri e, parallelamente, che ogni linea evolutiva sia indipendente dalle altre. Risulta essere essenziale fornire al metodo le sequenze complete di tutte le basi e non solo le parti che differiscono tra le diverse specie altrimenti le stime del tasso di evoluzione, e quindi gli stessi output, risultano essere fortemente compromessi. Il metodo di ML è un metodo iterativo potenzialmente molto lento e, in linea generale, non è in grado di trovare l albero filogenetico ottimo. Per questo motivo è spesso buona norma confrontare gli alberi risultanti da diverse ricostruzioni a partire dalle stesse sequenze ma considerate con ordini differenti. Qualora la ricostruzione risentisse fortemente dell ordine delle sequenze, i risultati ottenuti avrebbero scarsa significatività. 1 Questo parametro è particolarmente utile per sequenze composte da esoni e introni, dove gli introni, che non sono codificanti, hanno generalmente un numero più elevato di mutazioni 2 Si noti che nel nostro caso la matrice delle distanze è stata ottenuta dall allineamento multiplo di sequenze nucleotidiche. Gli algoritmi di costruzione dell albero, comunque, potrebbero essere impiegati anche per matrici delle distanze ottenute a partire da altri dati o, al limite, derivate dalla conoscenza del biologo. 4
5 Il metodo di massima verosimiglianza fornisce alberi filogenetici non radicati perché è in grado unicamente di stabilire delle relazioni fra le specie, e fra gruppi di specie, ma non riesce a stabilire una relazione di parentela fra i nodi interni (e, quindi, non riesce a determinare la radice dell albero). Sotto l assunzione che valga l ipotesi dell orologio molecolare, però, si è però in grado di stimare il tempo in cui due specie si sono distinte e, di conseguenza, le relazioni di parentela fra i nodi interni. Purtroppo la validità dei risultati ottenuti sotto questa assunzione è piuttosto discussa e, in alcuni casi, decisamente ridotta Metodo di massima parsimonia Il criterio di parsimonia è un criterio usato trasversalmente in bioinformatica perché formalizza il principio conosciuto con il nome di rasoio di Occam generalmente ritenuto valido in biologia (e anche in altre discipline). Secondo il rasoio di Occam, se più soluzioni a un problema sono possibili allora quella giusta è (molto probabilmente) quella più semplice. Nel caso della ricostruzione di filogenesi secondo il metodo di massima parsimonia, quindi, si ricerca l albero che induce il numero minimo di mutazioni tra i vari nodi dell albero, sia interni che foglia. Anche in questo caso, lo spazio delle soluzioni, ovvero di tutti gli alberi filogenetici pesati, in cui trovare l albero ottimo è potenzialmente molto grande (varia esponenzialmente con il numero di sequenze). Per questo motivo, anche il metodo di massima parsimonia richiede un considerevole sforzo computazionale per trovare la soluzione ottima (se si utilizza un algoritmo esatto) oppure fornisce una soluzione buona in tempi ragionevoli (utilizzando un algoritmo euristico). 2.2 PHYLIP - Un software per la ricostruzione di filogenesi PHYLIP è una collezione di programmi liberamente disponibili che implementano un largo numero di metodi per la ricostruzione e lo studio di filogenesi. L home page del progetto è raggiungibile all indirizzo html. Tramite il sito è possibile scaricare i programmi precompilati per le piattaforme più diffuse e la relativa documentazione (molte distribuzioni Linux hanno PHYLIP nel loro repository dei pacchetti). Tutti i metodi (nonché numerosi altri) che sono stati riassunti nella sezione precedente sono disponibili in PHYLIP come singoli programmi con interfaccia testuale a menù. La scelta progettuale di suddividere in più programmi tutte le funzionalità offerte ha comportato una semplificazione nello sviluppo dei singoli programmi, una maggior pulizia dell interfaccia di ciascun programma e consente una maggior flessibilità di utilizzo. Per 5
6 contro esso richiede all utente di conoscere i vari programmi compresi nella collezione e le funzionalità offerte da ciascuno di essi. L utilizzo di PHYLIP avviene, di solito, in flussi di lavoro in cui il file in output di un programma viene poi utilizzato come input di un altro e così via. In genere i singoli programmi rispettano la convenzione di utilizzare il file infile come file in input e i file outfile e outtree come file in output. Se il file infile non viene trovato all avvio del programma, viene richiesto all utente di specificare da console il file in input da utilizzare. Una volta avviato il programma (ed eventualmente specificato il file in input), l utente può modificare le impostazioni rispetto al loro valore di default mediante il menù presentato a schermo. Finita la personalizzazione è possibile, in genere con la funzione Y, lanciare l esecuzione del metodo vero e proprio. Qui di seguito vengono presentati i programmi che si utilizzeranno durante l esercitazione. - Programmi di ricostruzione di filogenesi Metodi basati sulla distanza dnadist, calcolo delle matrici di distanza (tutti i modelli) neighbor, costruzione di alberi mediante UPGMA e NJ fitch, costruzione di alberi mediante Fitch Margoliash kitch, costruzione di alberi mediante Fitch Margoliash sotto l ipotesi dell orologio molecolare Metodo di massima verosimiglianza dnaml, metodo di massima verosimiglianza dnamlk, metodo di massima verosimiglianza sotto l ipotesi dell orologio molecolare Metodo di massima parsimonia dnapars, algoritmo euristico per il metodo di massima parsimonia dnapenny, algoritmo esatto per il metodo di massima parsimonia - Programmi di visualizzazione e manipolazione di alberi filogenetici drawgram, visualizzazione grafica di alberi filogenetici radicati drawtree, visualizzazione grafica di alberi filogenetici non radicati consense, calcolo dell albero di consenso fra diversi alberi filogenetici treedist, calcolo di misure per quantificare la differenza fra alberi filogenetici retree, manipolazione interattiva di alberi filogenetici Un altro programma di estrema utilità è seqboot che consente, tra tutte le funzionalità che offre, di estrarre un campione casuale di sequenze dalle sequenze fornite in input. 6
7 Questo programma è impiegato per validare la significatività dell albero di filogenesi che viene ottenuto. Infatti, un flusso di lavoro tipico prevede: (1) la generazione del campione di n insiemi di sequenze a partire dall allineamento in input, (2) la ricostruzione di n alberi filogenetici a partire da ciascun insieme del campione e (3) la costruzione di un albero di consenso (con il programma consense) che riassume la struttura degli n alberi generati. Quasi tutti i programmi indicati supportano direttamente la gestione del campione generato tramite seqboot utilizzando l opzione di dataset multipli (opzione M) Utilizzo di PHYLIP In questa sezione verrà richiesto di utilizzare PHYLIP per ricostruire la filogenesi delle specie Human, Chimp, Gorilla, Orang, Macaque e Night Monkey sulla base delle sequenze nucleotidiche che codificano un gene ortologo alle specie. Queste sequenze sono memorizzate nel file sequenze_6.txt nella cartella c:\temp\esercitazione su Windows e /tmp/esercitazione su Linux. L invocazione dei programmi deve essere fatta a linea di comando in una finestra di console (Prompt dei Comandi). Le modalità di invocazione variano a seconda del sistema operativo utilizzato: in Windows si deve invocare direttamente il nome del programma, mentre in Linux si deve invocare il programma phylip passandogli come unico parametro il nome del programma desiderato. I file in output dei vari programmi (file out*) devono essere rinominati con un nome indicativo del contenuto in modo da poter tenere traccia del lavoro svolto ed evitare di sovrascrivere i risultati delle invocazioni precedenti. Il tutto deve poi essere compresso in un archivio e inviato per posta elettronica come indicato nelle istruzioni generali. Esercizio 1 Calcolare le matrici delle distanze evolutive tra le specie considerate secondo i modelli di Jukes Cantor, Kimura e F84 (con i parametri di default) salvandole in file separati. Le 3 matrici sono differenti? Esercizio 2 Ricostruire gli alberi filogenetici a partire dalle matrici delle distanze ottenute nell esercizio 1 con i vari metodi disponibili (NJ, UPGMA, Fitch Margoliash e Fitch Margoliash con orologio molecolare). Si dovrebbero ottenere 12 alberi filogenetici. Sono differenti? 7
8 Esercizio 3 Rappresentare graficamente (in un file PostScript) gli alberi ottenuti mediante Kimura + NJ e F84 + Fitch Margoliash con orologio molecolare. Sono differenti? Che programmi sono stati usati per rappresentarli? Perché? Esercizio 4 Ricostruire l albero filogenetico con il metodo di NJ a partire dalla matrice delle distanze ottenuta con Kimura applicando una randomizzazione dell ordine delle sequenze in input (opzione J del programma) e confrontare i risultati ottenuti con l albero generato precedentemente con Kimura + NJ. I due alberi sono differenti? Se sì, come? Cosa se ne deduce? Esercizio 5 Applicare il metodo di massima parsimonia alle sequenze in input sia nella versione euristica che nella versione esatta. Quale dei due programmi impiega più tempo? I risultati differiscono? Cosa se ne deduce? Esercizio 6 Applicare il metodo di massima verosimiglianza alle sequenze in input senza e con orologio molecolare. In cosa differiscono i due metodi? I risultati sono differenti? Secondo ML con orologio molecolare qual è la specie più imparentata con l uomo? Esercizio 7 Applicare il metodo di massima verosimiglianza con orologio molecolare randomizzando l ordine delle sequenze in input (opzione J del menù). Il risultato cambia notevolmente rispetto a quello ottenuto senza randomizzare l ordine? Utilizzate il programma treedist per calcolare la Branch Score Distance. Quanto è la distanza? Attenzione: i due alberi sono radicati, attivate l opzione opportuna di treedist. Esercizio 8 Utilizzare il programma seqboot per generare un campione casuale a partire dalle sequenze in input e effettuare la ricostruzione dell albero filogenetico con il metodo del ML con orologio molecolare. Attenzione: attivare l opzione di analisi di data set multipli in dnamlk. Costruire l albero di consenso e rappresentarlo graficamente. Il risultato differisce significativamente da quello ottenuto precedentemente? Cosa se ne deduce? 8
Alberi filogenetici. File: alberi_filogenetici.odp. Riccardo Percudani 02/03/04
Alberi filogenetici The tree of life Albero filogenetico costruito con le sequenze della subunità piccola dell RNA ribosomale. Tutte le forme viventi condividono un comune ancestore (LCA, last common ancestor
DettagliFilogenesi molecolare
Filogenesi molecolare Geni ortologhi e geni paraloghi Geni ortologhi: geni simili riscontrabili in organismi correlati tra loro. Il fenomeno della speciazione porta alla divergenza dei geni e quindi delle
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Filogenesi Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Introduzione alla
DettagliAlgoritmi di Allineamento
Algoritmi di Allineamento CORSO DI BIOINFORMATICA Corso di Laurea in Biotecnologie Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento di Coppie di Sequenze Allineamento
DettagliBioinformatica. Analisi del genoma
Bioinformatica Analisi del genoma GABRIELLA TRUCCO CREMA, 5 APRILE 2017 Cosa è il genoma? Insieme delle informazioni biologiche, depositate nella sequenza di DNA, necessarie alla costruzione e mantenimento
DettagliSAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing
SAGA: sequence alignment by genetic algorithm ALESSANDRO PIETRELLI Soft Computing Bologna, 25 Maggio 2007 Multi Allineamento di Sequenze (MSAs) Cosa sono? A cosa servono? Come vengono calcolati Multi Allineamento
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering: introduzione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Una definizione
DettagliCorso di Bioinformatica. Docente: Dr. Antinisca DI MARCO
Corso di Bioinformatica Docente: Dr. Antinisca DI MARCO Email: antinisca.dimarco@univaq.it Analisi Filogenetica Gene Ancestrale duplicazione genica La filogenesi è lo studio delle relazioni evolutive tra
DettagliScheda 1 Gra e alberi
Scheda 1 Gra e alberi 1.1) Un grafo è una struttura matematica costituita da punti (detti anche nodi) e archi (detti anche spigoli), i cui estremi sono punti del graco. Nelle seguenti gure, i nodi sono
DettagliFilogenesi molecolare
Filogenesi molecolare Evoluzione dei geni Gene ancestrale Gene duplicazione genica Gene speciazione Gene 1 Gene 1 ortologhi paraloghi ortologhi Gene 2 Gene 2 Specie 1 Specie 2 Proteine o acidi nucleici?
DettagliModello computazionale per la predizione di siti di legame per fattori di trascrizione
Modello computazionale per la predizione di siti di legame per fattori di trascrizione Attività di tirocinio svolto presso il Telethon Institute of Genetics and Medicine Relatori Prof. Giuseppe Trautteur
DettagliEsercizio 1: Filtro. Si progetti ed implementi un componente software che realizza un filtro.
Esercizio 1: Filtro Si progetti ed implementi un componente software che realizza un filtro. Il componente prende due argomenti da linea di comando. Il primo argomento è il nome del file di testo di ingresso,
DettagliLezione 5. Cambiamenti evolutivi nelle sequenze nucleotidiche
Lezione 5 Cambiamenti evolutivi nelle sequenze nucleotidiche materiale Graur and Li ch 3 Graur Lectures 16 17 Sostituzioni nucleotidiche Processo base nell evoluzione molecolare Essenziale per comprendere
DettagliUlteriori conoscenze di informatica Elementi di statistica Esercitazione3
Ulteriori conoscenze di informatica Elementi di statistica Esercitazione3 Sui PC a disposizione sono istallati diversi sistemi operativi. All accensione scegliere Windows. Immettere Nome utente b## (##
DettagliMetodi di Distanza. G.Allegrucci riproduzione vietata
Metodi di Distanza La misura più semplice della distanza tra due sequenze nucleotidiche è contare il numero di siti nucleotidici che differiscono tra le due sequenze Quando confrontiamo siti omologhi in
DettagliTeoria dell informazione
Corso di Laurea a Distanza in Ingegneria Elettrica Corso di Comunicazioni Elettriche Teoria dell informazione A.A. 2008-09 Alberto Perotti DELEN-DAUIN Modello di sistema di comunicazione Il modello di
DettagliDescrizione generale dell esame
Descrizione generale dell esame Ci saranno 15 domande a risposta multipla: le risposte corrette aggiungono punti le risposte sbagliate tolgono punti Ciascuna domanda avrà 2 risposte corrette e due sbagliate
DettagliRELAZIONE DI BIOLOGIA MOLECOLARE
RELAZIONE DI BIOLOGIA MOLECOLARE 2 BRUNO FRANCESCA mat.576193 Analisi di proteine. Descrivi un database di interazioni proteiche e mostra con quali proteine interagisce la proteina KEN di Drosophila. Uno
DettagliEsempio di utilizzo del programma BLAST disponibile all NCBI Form di Nucleotide BLAST
Esempio di utilizzo del programma BLAST disponibile all NCBI www.ncbi.nlm.nih.gov/blast Form di Nucleotide BLAST Per un uso più avanzato, si possono impostare parametri particolari (es. cost to open gap,
DettagliMODELLI MATEMATICI PER I SISTEMI DI INFORMAZIONE ALL UTENZA: introduzione ai modelli dell ingegneria dei trasporti
Corso di TRASPORTI E TERRITORIO e TEORIA E TECNICA DELLA CIRCOLAZIONE MODELLI MATEMATICI PER I SISTEMI DI INFORMAZIONE ALL UTENZA: introduzione ai modelli dell ingegneria dei trasporti DOCENTI Agostino
DettagliLaboratorio di Bioinformatica I. Filogenesi. Dott. Sergio Marin Vargas (2014 / 2015)
Laboratorio di Bioinformatica I Filogenesi Dott. Sergio Marin Vargas (2014 / 2015) Evoluzione Selezione Naturale Selezione Artificiale Variazione casuale Risultato Variazioni Casuali Mutazioni favorite
DettagliMetodi di Geometria Algebrica per la ricostruzione statistica degli alberi filogenetici Luigi Biondi
Metodi di Geometria Algebrica per la ricostruzione statistica degli alberi filogenetici Luigi Biondi 20 Luglio 2011 Specie 1: ACGTACTACTGCAGTCCTAGCTGATCGT... Specie 2: ACTGTCGATCATGCTAATCGATGCATCG... Specie
DettagliEsame di Sistemi ad Eventi Discreti
Esame di Sistemi ad Eventi Discreti - 16.12.2008 Esercizio 1 (esame completo/recupero prima parte) Un macchinario è programmato per task. Ciascun task è composto da subtask, che possono essere di tipo
DettagliSommario. Presentazione dell opera Ringraziamenti
Sommario Presentazione dell opera Ringraziamenti XI XII Capitolo 1 Introduzione alla bioinformatica 1 1.1 Cenni introduttivi 1 1.2 Pietre miliari della bioinformatica 2 1.3 Infrastrutture bioinformatiche
DettagliProgettazione di Algoritmi
Corso di laurea in Informatica Prova scritta del: Progettazione di Algoritmi 06/07/2016 Prof. De Prisco Inserire i propri dati nell apposito spazio. Non voltare la finché non sarà dato il via. Dal via
DettagliIntroduzione all analisi di arrays: clustering.
Statistica per la Ricerca Sperimentale Introduzione all analisi di arrays: clustering. Lezione 2-14 Marzo 2006 Stefano Moretti Dipartimento di Matematica, Università di Genova e Unità di Epidemiologia
DettagliBLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i
BLAND-ALTMAN PLOT Il metodo di J. M. Bland e D. G. Altman è finalizzato alla verifica se due tecniche di misura sono comparabili. Resta da comprendere cosa si intenda con il termine metodi comparabili
DettagliAnalisi degli Errori
Analisi degli Errori Luca Gemignani lucagemignani@unipiit 1 marzo 2018 Indice Lezione 1: Errori nel Calcolo di una Funzione Razionale 1 Lezione 2: Tecniche per l Analisi degli Errori 3 Lezione 3: Cenni
DettagliLaboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona
Laboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Algoritmo a ed Analisi del DNA : sequenze di basi di particolare interesse
DettagliProgettazione di Algoritmi
Corso di laurea in Informatica Prova scritta del: Progettazione di Algoritmi 0/06/06 Prof. De Prisco Inserire i propri dati nell apposito spazio. Non voltare la finché non sarà dato il via. Dal via avrai
DettagliMisura della performance di ciascun modello: tasso di errore sul test set
Confronto fra modelli di apprendimento supervisionato Dati due modelli supervisionati M 1 e M costruiti con lo stesso training set Misura della performance di ciascun modello: tasso di errore sul test
DettagliUNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I UPGMA
Docente: Matteo Re UNIVERSITÀ DEGLI STUDI DI MILANO C.d.l. Informatica Bioinformatica A.A. 2013-2014 semestre I p4 UPGMA Clustering gerarchico in PERL Implementazione di un algoritmo di clustering Utilizzo
DettagliUtilizzo di Fiery WebSpooler
20 Utilizzo di Fiery WebSpooler Fiery WebSpooler duplica molte delle funzioni e delle caratteristiche di Command WorkStation. WebSpooler consente di controllare e gestire i lavori da più piattaforme su
DettagliProgettazione di Algoritmi
Corso di laurea in Informatica Prova scritta del: Progettazione di Algoritmi 29/01/2016 Prof. De Prisco Inserire i propri dati nell apposito spazio. Non voltare la finché non sarà dato il via. Dal via
DettagliLa mappatura dei geni umani. SCOPO conoscere la localizzazione dei geni per identificarne la struttura e la funzione
La mappatura dei geni umani SCOPO conoscere la localizzazione dei geni per identificarne la struttura e la funzione Un grande impulso alla costruzione di mappe genetiche è stato dato da le tecniche della
DettagliLezione 5. Cambiamenti evolutivi nelle sequenze nucleotidiche Distanze
Lezione 5 Cambiamenti evolutivi nelle sequenze nucleotidiche Distanze Graur and Li ch 3 materiale La lezione 5 ci permetterà di capire 1. come possa evolvere una sequenza di nucleotidi 2. quanto due sequenze
Dettagli5. Analisi dei dati di input
Anno accademico 2007/08 Analisi e scelta dei dati di input Per l esecuzione di una simulazione è necessario disporre di dati di input che siano una adeguata rappresentazione di ciò che accadrà in realtà
Dettagli7 Disegni sperimentali ad un solo fattore. Giulio Vidotto Raffaele Cioffi
7 Disegni sperimentali ad un solo fattore Giulio Vidotto Raffaele Cioffi Indice: 7.1 Veri esperimenti 7.2 Fattori livelli condizioni e trattamenti 7.3 Alcuni disegni sperimentali da evitare 7.4 Elementi
DettagliStatistica. Capitolo 10. Verifica di Ipotesi su una Singola Popolazione. Cap. 10-1
Statistica Capitolo 1 Verifica di Ipotesi su una Singola Popolazione Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Formulare ipotesi nulla ed ipotesi alternativa
DettagliProgetto Lars-Biotec
Unità didattiche: prima fase: Progetto Lars-Biotec Laboratorio di Ricerca sperimentale nel settore delle Biotecnologie Bioinformatica: vengono scelti e analizzati geni appartenente al genoma umano conosciuti
DettagliLaboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2.
Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti patti@di.unito.it Esercitazione 7 1 Info&Bio Bio@Lab Allineamento di sequenze Esercitazione 7 2 1 Es2: Allineamento
DettagliOn the Origin of Species by Means of Natural Selection, 1859
On the Origin of Species by Means of Natural Selection, 1859 Darwin Reperti fossili Biogeografia Distribuzione geografica delle specie Es: marsupiali in Australia Anatomia comparata Omologia Analogia Embriologia
DettagliManuale utente Volta Control
Manuale utente Volta Control www.satellitevolta.com 1 Sommario 1 Volta Control... 3 2 Licenza Volta Control... 3 3 Prerequisiti di sistema... 3 4 Utilizzo di Volta Control... 3 5 Manuale utente... 4 5.1
DettagliAllineamento multiplo di sequenze
Allineamento multiplo di sequenze Bioinformatica a.a. 2008/2009 Letterio Galletta Università di Pisa 22 Maggio 2009 Letterio Galletta (Università di Pisa) Allineamento multiplo di sequenze 22 Maggio 2009
DettagliMaximum Likelihood. Giuliana Allegrucci - Riproduzione vietata
Maximum Likelihood Potrebbe essere chiamato massima probabilità. E il metodo più nuovo E stato reso popolare da Joseph Felsenstein, Seattle, Washington. Il suo lento apparire nella comunità scientifica
DettagliUNIVERSITA' DEGLI STUDI DI PERUGIA FACOLTA' DI SCIENZE MATEMATICHE, FISICHE E NATURALI
UNIVERSITA' DEGLI STUDI DI PERUGIA FACOLTA' DI SCIENZE MATEMATICHE, FISICHE E NATURALI CORSO DI LAUREA IN INFORMATICA APPLICAZIONE DELL'ANSWER SET PROGRAMMING NELLA SISTEMATICA FILOGENETICA RELATORE: ANDREA
DettagliRiconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego
Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione
DettagliAlgoritmi di classificazione supervisionati
Corso di Bioinformatica Algoritmi di classificazione supervisionati Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di apprendimento supervisionato per problemi di biologia computazionale
DettagliGenomica Evoluzione e cambiamenti dei genomi. Dott.ssa Inga Prokopenko
Genomica Evoluzione e cambiamenti dei genomi Dott.ssa Inga Prokopenko Sistematica in biologia La varietà degli organismi viventi richiede organizzaione delle nostre osservazioni Tassonomia in biologia
DettagliDESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.
Corso di Laurea Specialistica in Biologia Sanitaria, Universita' di Padova C.I. di Metodi statistici per la Biologia, Informatica e Laboratorio di Informatica (Mod. B) Docente: Dr. Stefania Bortoluzzi
DettagliStrutture di popolazione nei batteri fitopatogeni
Strutture di popolazione nei batteri fitopatogeni Modellamento delle strutture di popolazione B) Selezione molecolare (la maggior parte delle mutazioni sono dannose) : - Modello selezionista: selezione
DettagliLe sequenze consenso
Le sequenze consenso Si definisce sequenza consenso una sequenza derivata da un multiallineamento che presenta solo i residui più conservati per ogni posizione riassume un multiallineamento. non è identica
DettagliCampionamento. Una grandezza fisica e' distribuita secondo una certa PDF
Campionamento Una grandezza fisica e' distribuita secondo una certa PDF La pdf e' caratterizzata da determinati parametri Non abbiamo una conoscenza diretta della pdf Possiamo determinare una distribuzione
DettagliUML Introduzione a UML Linguaggio di Modellazione Unificato. Corso di Ingegneria del Software Anno Accademico 2012/13
UML Introduzione a UML Linguaggio di Modellazione Unificato Corso di Ingegneria del Software Anno Accademico 2012/13 1 Che cosa è UML? UML (Unified Modeling Language) è un linguaggio grafico per: specificare
DettagliEvoluzione delle molecole biologiche
Evoluzione delle molecole biologiche Un video (in inglese): clic Evoluzione delle emoglobine (I) Un esempio classico di evoluzione delle macromolecole biologiche è dato dall emoglobina(hb), la molecola
Dettagli3 CENNI DI TEORIA DELLA COMPLESSITA COMPUTAZIONALE. E. Amaldi Fondamenti di R.O. Politecnico di Milano 1
3 CENNI DI TEORIA DELLA COMPLESSITA COMPUTAZIONALE E. Amaldi Fondamenti di R.O. Politecnico di Milano 1 Scopo: Stimare l onere computazionale per risolvere problemi di ottimizzazione e di altra natura
DettagliNEURON. Riccardo Fontanini
NEURON Riccardo Fontanini Consegna Hebbian evolution of a single neuron for OR/AND computation Rete neurale Una rete neurale artificiale è un modello matematico composto di "neuroni" artificiali, ispirato
DettagliAlgoritmi e Strutture Dati
Cognome................................ Nome................................... Matricola............................... Algoritmi e Strutture Dati Prova scritta del 4 luglio 207 TEMPO DISPONIBILE: 2 ore
DettagliRicevimento Studenti: Lunedì previa prenotazione. Cenci lab
Cenci lab Giovanni Cenci Dip.to Biologia e Biotecnologie C. Darwin Sezione Genetica Piano 2 -Citofono 3/4 0649912-655 (office) 0649912-843 (lab) giovanni.cenci@uniroma1.it Ricevimento Studenti: Lunedì
DettagliFilogenesi Molecolare
Filogenesi Molecolare Schema della lezione Introduzione a evoluzione e filogenesi Nomenclatura degli alberi Le cinque fasi della filogenesi molecolare: 1) la selezione delle sequenze 2) allineamento multiplo
DettagliProgetti Algoritmi e Strutture Dati A.A Si intende realizzare una coda di priorità mediante un max-heap.
Progetti Algoritmi e Strutture Dati A.A. 2017-2018 Esercizio 1 Si intende realizzare una coda di priorità mediante un max-heap. Ogni singolo elemento della struttura è rappresentato da una coppia < categoria,
DettagliEsercitazione corso di Biodiversità Animale e Genetica Molecolare
Esercitazione corso di Biodiversità Animale e Genetica Molecolare Archiviazione dei dati genotipici: I genotipi di ciascun individuo ai loci analizzati possono essere salvati in un foglio excel come si
DettagliQuarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST
Quarta lezione 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Ricerca di omologhe in banche dati Proteina vs. proteine Gene (traduzione in aa) vs. proteine Gene vs. geni
DettagliUDA MATEMATICA. Progettazione per unità di apprendimento. Percorso di istruzione di primo livello primo periodo didattica PROF:...
UDA MATEMATICA Progettazione per unità di apprendimento Percorso di istruzione di primo livello primo periodo didattica PROF:... B1 5MAT 01 Numeri e calcoli (ore in presenza: 18; ore a distanza: 0 ) COMPETENZA/E
DettagliCOME È FATTO? Ogni filamento corrisponde ad una catena di nucleotidi
Il DNA Il DNA è una sostanza che si trova in ogni cellula e contiene tutte le informazioni sulla forma e sulle funzioni di ogni essere vivente: eppure è una molecola incredibilmente semplice. COME È FATTO?
DettagliCorso di Perfezionamento in BIOINFORMATICA APPLICATA ALL EVOLUZIONE MOLECOLARE E FILOGENESI DEGLI AGENTI INFETTIVI
Corso di Perfezionamento in BIOINFORMATICA APPLICATA ALL EVOLUZIONE MOLECOLARE E FILOGENESI DEGLI AGENTI INFETTIVI Coordinatore: Prof. Gianguglielmo Zehender Milano, 19-23 Giugno 2017 Dipartimento di Scienze
DettagliNella vita quotidiana esistono innumerevoli esempi di database. Un agenda telefonica, un vocabolario o un catalogo di viaggi, sono tutti esempi di
1 Nella vita quotidiana esistono innumerevoli esempi di database. Un agenda telefonica, un vocabolario o un catalogo di viaggi, sono tutti esempi di archivi di dati. Il prelievo da un bancomat o il noleggio
DettagliAnalisi Numerica. Debora Botturi ALTAIR. Debora Botturi. Laboratorio di Sistemi e Segnali
Analisi Numerica ALTAIR http://metropolis.sci.univr.it Argomenti Argomenti Argomenti Rappresentazione di sistemi con variabili di stato; Tecniche di integrazione numerica Obiettivo: risolvere sistemi di
DettagliSistemi di Elaborazione dell Informazione 170. Caso Non Separabile
Sistemi di Elaborazione dell Informazione 170 Caso Non Separabile La soluzione vista in precedenza per esempi non-linearmente separabili non garantisce usualmente buone prestazioni perchè un iperpiano
DettagliBiologia Molecolare Computazionale
Biologia Molecolare Computazionale Paolo Provero - paolo.provero@unito.it 2008-2009 Argomenti Allineamento di sequenze Ricostruzione di alberi filogenetici Gene prediction Allineamento Allineamento di
DettagliE n 1 n. n i. n 2. n 2 ( n
Lezione n. 7 7.1 Ancora sulle proprietà degli stimatori Esempio 7.1 [continua dall Esempio 6.1] Studiare varianza e MSE dei due stimatori e verificare se T n raggiunge il limite di Cramer- Rao. Soluzione.
DettagliPROGRAMMAZIONE DINAMICA. Prof. Reho Gabriella Olimpiadi di Informatica
PROGRAMMAZIONE DINAMICA Quando si usa P.D.? La programmazione dinamica si usa nei casi in cui esista una definizione ricorsiva del problema, ma la trasformazione diretta di tale definizione in un algoritmo
DettagliComputazione per l interazione naturale: Modelli dinamici
Computazione per l interazione naturale: Modelli dinamici Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it
DettagliL A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010
L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi
DettagliGestione della configurazione Input/Output PLC Cosa c'è di nuovo?
Gestione della configurazione Input/Output PLC Cosa c'è di nuovo? Indice I. Avviare il Configuration Manager... 3 II. Nuova interfaccia dell'utente... 3 III. Importazione di nuovi formati di configurazione...
DettagliCapitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"
Levine, Krehbiel, Berenson Statistica Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari" Unità Integrata Organizzativa
DettagliCapitolo 12 La regressione lineare semplice
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università
DettagliEsercitazione 3. Osserviamo che, dato un grafo con pesi distinti, questo ammette un unico MST.
Esercitazione 3 Problema 6: Sia G = (V, E) un grafo con pesi distinti sugli archi ed e E un arco di G. Progettare un algoritmo lineare in grado di determinare se esiste un MST di G che contiene l arco
DettagliIndice generale. Nozioni fondamentali. Prefazione XIII
Prefazione XIII A Nozioni fondamentali CAPITOLO 1 La biologia essenziale 3 1.1 Genomi, genomica e avvento della Bioinformatica 3 1.2 Genoma dei procarioti 5 1.2.1 Struttura e dimensioni 5 1.2.2 Proprietà
DettagliBanche Dati proteiche
Banche Dati proteiche Un altro grande database è UniProt, The Universal Protein Resource (http://www.uniprot.org/) nel quale sono radunate le sequenze proteiche, e le annotazione delle stesse, ottenute
DettagliFILE E INDICI Architettura DBMS
FILE E INDICI Architettura DBMS Giorgio Giacinto 2010 Database 2 Dati su dispositivi di memorizzazione esterni! Dischi! si può leggere qualunque pagina a costo medio fisso! Nastri! si possono leggere le
DettagliFogli Elettronici: MS Excel
Fogli Elettronici: MS Excel Foglio Elettronico Un foglio elettronico (o spreadsheet) è un software applicativo nato dall esigenza di: organizzare insiemi di dati tramite tabelle, schemi, grafici, etc.
DettagliProblemi di ottimizzazione combinatoria ed algoritmi per il physical mapping del DNA
Università Degli Studi Roma Tre Facoltà Di Scienze M.F.N. Corso Di Laurea In Matematica Tesi di Laurea in Matematica di Irene Olivieri Problemi di ottimizzazione combinatoria ed algoritmi per il physical
DettagliProbabilità e Statistica
Probabilità e Statistica - 12.01.2016 Cognome e Nome............................................................................... C. d. L.:................................................Anno di Corso:
DettagliRELAZIONE di BIOLOGIA MOLECOLARE
NOME: Marini Selena MATRICOLA: 592330 RELAZIONE di BIOLOGIA MOLECOLARE CHE ORGANISMO MODELLO È DICTYOSTELIUM? CHE RISORSE BIOINFORMATICHE AGEVOLANO I RICERCATORI CHE LO STUDIANO? Dictyostelium è un genere
DettagliIl programma è distribuito tramite il file compresso TRASFO.zip contenente i file di programma strutturati in 4 cartelle:
TRASFO V 1.0 Stefano Caldera stefano@geomatica.como.polimi.it M. Grazia Visconti grazia@geomatica.como.polimi.it Il programma è distribuito tramite il file compresso TRASFO.zip contenente i file di programma
DettagliLaboratorio di Algoritmi e Strutture Dati
Laboratorio di Algoritmi e Strutture Dati Roberto Radicioni Progetto Scuola di tango Consegna entro il 21 Settembre 2009 - ore 12.00 Il problema La scuola di tango Insubria Dancing ha aperto le iscrizioni
DettagliModello di sistema di comunicazione
Corso di Laurea a Distanza in Ingegneria Elettrica Corso di Comunicazioni Elettriche Teoria dell informazione A.A. 2006-07 Alberto Perotti DELEN-DAUIN Modello di sistema di comunicazione Il modello di
DettagliGenerazione di Numeri Casuali- Parte 2
Esercitazione con generatori di numeri casuali Seconda parte Sommario Trasformazioni di Variabili Aleatorie Trasformazione non lineare: numeri casuali di tipo Lognormale Trasformazioni affini Numeri casuali
DettagliVisualizzazione ed elaborazione dei risultati in ALOORA
Visualizzazione ed elaborazione dei risultati in ALOORA AGROLAB GROUP 05-2018 1 / 15 Sommario Capitolo 1: le due finestre di visualizzazione di risultati... 3 Risultati per ordine... 3 Risultati per campione...
Dettagli2. Modellazione dei casi d uso
2. Modellazione dei casi d uso Andrea Polini Laboratorio di Ingegneria del Software Corso di Laurea in Informatica (Laboratorio di Ingegneria del Software) 2. Modellazione dei casi d uso 1 / 20 Sommario
DettagliESAME. 9 Gennaio 2017 COMPITO B
ESAME 9 Gennaio 2017 COMPITO B Cognome Nome Numero di matricola 1) Approssimare tutti i calcoli alla quarta cifra decimale. 2) Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto
DettagliIdentificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale
Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale Il presente lavoro, facente segiuto a quanto scritto precedentemente ha il fine di descrivere il codice di calcolo
DettagliVerifica parte IV. Rif. Ghezzi et al
Verifica parte IV Rif. Ghezzi et al. 6.8-6.9 Debugging Individuazione e correzione degli errori Conseguente a un fallimento Attività non banale: Quale errore ha causato il fallimento? Come correggere l
Dettagli