Informatica e biotecnologie

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Informatica e biotecnologie"

Transcript

1 Informatica e biotecnologie Ricerca di informazioni e analisi di sequenze CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC CGAAATCGCATCAGCATACGATCGCATGC Informatica e biotecnologie Strumenti per raccogliere e organizzare le informazioni sui dati biologici ricerca delle informazioni visualizzazione analisi... 1

2 Banche dati biologiche Banca dati biologica: raccoglie informazioni e dati su dati biologici. L informazione proviene da Letteratura specializzata sull argomento Analisi effettuate in laboratorio (in vitro e in vivo) Analisi bioinformatiche (in silico) NCBI National Center for Biotechnology Information: centro di raccolta di risorse di vario tipo accesso alla National Library of Medicine e al National Institutes of Health accesso a vari database attraverso Entrez PubMed (data base della letteratura biomedica) GenBank accesso a software per riconoscimento e allineamento di sequenze 2

3 NCBI Banche dati biologiche Quali dati? Sequenze di caratteri (nucleotidi del DNA, amminoacidi delle proteine) GenBank Banca del genoma dell NIH accessibile da ncbi sequenze di DNA in GenBank nel 1992, ora le dimensioni raddoppiano ogni 6-8 mesi formato ANS.1 standard per dati di sequenze per DB relazionali (Abstract Syntax Notation One) Humane Genome Project genomi completi o parziali di 900 specie 3

4 GenBank Entry Ogni banca dati è caratterizzata da un elemento biologico centrale (entry): es: banche dati di sequenze di acidi nucleici elemento centrale: sequenza nucleotidica di DNA o RNA fatta la query (interrogata la banca dati), vengono associate le annotazioni che classificano quell elemento: nome della specie, funzione, referenze bibliografiche -> attributi dell elemento centrale 4

5 Banche dati distribuite Problema dell accesso a banche dati distribuite su diversi siti e con strutture eterogenee cross referencing rilascio della banca dati in formato XML: oltre ai dati viene fornita sia la struttura logica che la struttura fisica della banca dati Ricerca dei dati Modalità di ricerca dei dati attraverso motori di ricerca su banche dati biologiche campo text search o form per l immissione del dato cercato (query semplice) Specifica di criteri di ricerca mediante operatori booleani: AND, OR, BUT NOT (specializzazione della query) History: combino più query già fatte 5

6 Diversi formati usati Formato dei dati sia per visualizzare, dare in output i dati risultato di ricerca, sia per l'inserimento dati quando si vuole intraprendere una ricerca o un'analisi certi software di analisi per dati biologici chiederanno in input la (le) sequenze in un determinato formato -> sono in grado di decodificare l'informazione biologica e di elaborarla quando è presentata in quel formato quali formati abbiamo a disposizione quando andiamo a prenderci un dato biologico in una banca dati, su cui magari poi vogliamo fare delle analisi? Banche dati biologiche Esempio di elemento di GenBank Dalla ricerca in categoria Nucleotide (sequenze di acidi nucleici) parola chiave Arabidopsis thaliana formato di visualizzazione Seleziono una entry salva il risultato 6

7 Entry GenBank Nome dell'organismo codice di identificazione all'interno della base di dati riferimenti alla letteratura scientifica cross references -> link a informazioni presenti in altre banche dati sequenza Banche dati biologiche Esempio di file di GenBank Formati: Formato ASN.1 adatto allo scambio via sw Formato XML per manipolazione e presentazione sul Web Formato FASTA semplice sequenza 7

8 ASN.1 FASTA 8

9 XML Banche dati biologiche Formato dei dati in NCBI FASTA leggibile da vari programmi per l analisi delle sequenze contiene poche informazioni collegate GenBank formato legacy in disuso ASN.1 (Abstract Syntax Notation.One) specifica generica dei dati, usata in tutti i DB di NCBI Formati usati sia per dati risultato di ricerca sia per l'inserimento dati 9

10 Banche dati biologiche Una banca dati può supportare oltre ai formati standard (FASTA, ANS.1) dei formati di dati particolari, che possono essere usati da software per l'analisi del tipo dato trattato dalla banca dati Esempio: Protein Data Bank formato legacy di PDB usato comunemente dai software per l'analisi di proteine mmcif: solo il nuovo software per l'analisi delle strutture usa questo formato Banche dati biologiche Letteratura: PubMed: Sequenze di acidi nucleici: GenBank: SRS: Seq. del genoma: GenBank: Swiss-Prot: Struttura delle proteine: Protein Data Bank: Risorse Web: EBI Biocatalog: IUBio Archive: 10

11 Sequenze Rappresentazione dei dati biologici L uso di sequenze è la forma di gran lunga più diffusa per rappresentare dati biologici di varia natura: Ad esempio: DNA genomico Proteine cdna mrna... si trovano sotto forma di sequenze nel DB GenBank del NCBI Sequenze Hanno un formato puramente testuale: sono stringhe di lettere di un certo alfabeto Esempi di sequenze biologiche: Sequenze DNA -> formate da 4 tipi di lettere: A (adenina), C (citosina), G (guanina), T (timina) esempio: ATGCCGTAA, TAG, TTT, Sequenze RNA -> formate da 4 tipi di lettere: A (adenina), C (citosina), G (guanina),u (uracile) esempio: AUCGCUAA, AUUCG, Sequenze proteiche: formate da 20 lettere corrispondenti agli amminoacidi: A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y esempio: MPIVDTGSVAPLSAAEK 11

12 Sequenze DNA La rappresentazione di una molecola di DNA come sequenza di simboli {A,T,C,G} è ovviamente un'astrazione di una struttura chimica 3D Tuttavia se lo scopo è quello di usare le tecniche per l analisi di sequenze, possiamo temporaneamente ignorare tale struttura Analogo vale per molecole di RNA Sequenze di proteine La rappresentazione di proteine come sequenze di simboli {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y} è anche detta struttura primaria A causa della maggiore complessità chimica degli amminoacidi rispetto agli acidi nucleici è più difficile tenere separato il contenuto informativo delle sequenze dalle proprietà degli amminoacidi componenti 12

13 Sequenze Vantaggi possibilità di analisi mediante tecniche consolidate: pattern matching, pattern recognition portabilità tra vari sistemi operativi compatibilità tra diverse applicazioni trasferibilità tra computer remoti Svantaggi soprattutto per le proteine, il tipo di informazione sequenziale ha un contenuto informativo parziale Confronti fra sequenze I confronti fra sequenze costituiscono la tecnica di analisi fondamentale per applicazioni biotecnologiche: individuazione delle proprietà caratterizzanti famiglie di proteine, e delle funzionalità dei geni definizione di alberi evolutivi definizione di modelli di omologia strumento base per ricerche in DB attraverso query basate su sequenze 13

14 Tipi di analisi sulle sequenze 1. Allineamento di sequenze A coppie (usato ad es. per ricerche in DB a sequenze) Multiplo (usato ad es. per inferenze filogenetiche) Osservazione: l allineamento di sequenze a coppie è la tecnica di analisi più usata Principale metodo per l associazione di funzioni biologiche al genoma e per il trasferimento di tali informazioni fra genomi di organismi diversi 2. Analisi/caratterizzazione di singole sequenze 3. Traduzione DNA -> proteina Software di supporto all'analisi Esistono diversi tool specializzati che automatizzano l analisi di sequenze: GENSCAN : individuazione di zone di codifica in sequenze genomiche BLAST (integrato in GenBank), FASTA : ricerca di zone di omologia locali in coppie di sequenze; individuazione di pattern corrispondenti per ricerche in DB ALIGN : ricerca del miglior allineamento globale (intera lunghezza) fra due sequenze Protein Machine Server (presso European Institute for Biotechnology): conversione DNA -> Proteine e viceversa 14

15 Software di supporto all'analisi Molti di questi programmi sono integrati in web-server; alcuni possono anche essere installati ed eseguiti localmente (spesso in ambiente Linux e con interazione a linea di comando) Tecniche di analisi di sequenze Le stesse tecniche di analisi possono essere applicate a sequenze di nucleotidi (DNA, RNA) e di amminoacidi (proteine), anche se con scopi diversi 15

16 Allineamento di sequenze Uno dei problemi di base nell analisi di sequenze (di nucleotidi o di amminoacidi) consiste nel determinare se due sequenze sono correlate, ossia se è plausibile che derivino da un comune antenato attraverso un processo di mutazione e selezione. I processi di mutazione considerati comprendono sostituzioni, aggiunte e cancellazioni (delezioni) di elementi nella sequenza. Il tipo di mutazione è influenzato dal meccanismo di selezione naturale, cosicché alcuni cambiamenti possono essere più frequenti di altri. Allineamento di sequenze Es: DNA: Per quanto riguarda il DNA uno degli scopi primari è la comprensione del meccanismo delle mutazioni, attraverso lo studio comparativo di sequenze Mutazioni puntuali: sostituzioni di singoli nucleotidi (significative se all interno di zone particolari, es. zone di codifica) Mutazioni segmentali (più significative): sostituzioni di più nucleotidi adiacenti in punti arbitrari, inserimento o eliminazione di nuovi nucleotidi, etc. 16

17 Allineamento di sequenze Il problema viene affrontato cercando di individuare similarità fra sequenze: una delle tecniche fondamentali in Bioinformatica Concetto base: trovare l allineamento ottimale (globale o locale) di due sequenze Allineamento ottimale Il criterio di ottimalità si basa sull attribuzione di un punteggio (score) tanto più elevato quanto maggiore è la similarità delle due sequenze -> modello probabilistico per valutare tali punteggi (scoring model ). 17

18 Allineamento semplice L allineamento semplice si ottiene facendo scorrere una sequenza sull altra un nucleotide/amminoacido alla volta CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC CGAAATCGCATCAGCATACGATCGCATGC cerco il massimo numero di corrispondenze Allineamento di sequenze: gap La possibilità di avere aggiunte e cancellazioni fa sì che nell allineamento vi possano essere dei vuoti (gap). A meno che le sequenze non coincidano perfettamente è molto spesso necessario introdurre gap per trovare un più alto numero di corrispondenze La figura mostra un possibile allineamento di due catene polipeptidiche. Legenda: la linea centrale indica con lettere i residui identici e con un segno + i residui simili (rispetto alle proprietà chimico-fisiche) Un segno - denota i gap 18

19 Allineamento di sequenze Approccio: Passo1: confrontare le sequenze (inizialmente in modo arbitrario) Passo2: assegnare un punteggio sulla base di criteri fissati Passo3: ripetere l operazione, muovendo in tutti i modi possibili una sequenza rispetto all altra il punteggio massimo corrisponde all allineamento ottimale Approccio facilmente automatizzabile Allineamento di sequenze Perché sia biologicamente attendibile bisogna risolvere alcune questioni: come stabilire il punteggio per l allineamento? es. +1 per posizioni uguali, -1 per discrepanze possono essere inseriti dei buchi (gap) nelle sequenze per trovare corrispondenze altrove? come valutare i gap? Quale algoritmo usare per l allineamento ottimale? Esistono alcune differenze fra allineamenti di sequenze DNA e allineamenti di sequenze proteiche 19

20 Allineamento: terminologia Identità: occorrenza dello stesso elemento (base o aminoacido) nella stessa posizione delle 2 sequenze allineate Similarità (proteine): occorrenza di amminoacidi chimicamente simili (reciprocamente sostituibili) nella stessa posizione Esempio: acido glutammico e acido aspartico sono simili Omologia: concetto più astratto, che indica un legame di tipo evolutivo fra 2 sequenze Esempio: allineamento di sequenze di proteine e DNA proteine DNA 20

21 Matrici di valutazione: proteine matrici di valutazione: scoring matrix Abbiamo detto che occorre assegnare un punteggio all'allineamento sulla base di criteri fissati strumento per valutare con un punteggio un allineamento (è significativo? Se sì, quanto?): matrici di valutazione Cosa sono? Sono tabelle di valori che indicano la probabilità che una coppia di amminoacidi sia allineata Valori: parti intere di log( P{a,b}/ P{a_r}), dove P{a,b} : probabilità di allineamento (non casuale) della coppia di amminoacidi a e b, determinata in base a statistiche tratte da allineamenti noti come validi P{a_r} : probabilità di occorrenza random dell'aminoacido a in una sequenza Esempio: matrice di valutazione BLOSUM45 (proteine) 21

22 Matrici di valutazione (proteine) Un valore in tabella è positivo se P{a,b}è maggiore di P{a_r}: è più probabile che l allineamento dei due amminoacidi corrispondenti sia il risultato di un evento evolutivo Se il valore è < = a zero: è più probabile che l allineamento dei due amminoacidi corrispondenti sia casuale Idea per assegnare un punteggio all'allineamento: i singoli valori delle matrici di valutazioni possono essere sommati, per assegnare un punteggio all intero allineamento Matrici di valutazione (proteine) Valori sulla diagonale: indicano l ordine di casualità nell allineamento di due amminoacidi nelle 2 sequenze dipendono dalla frequenza di occorrenza dell aminoacido (più raro è l aminoacido, più grande la probabilità che l allineamento dello stesso aminoacido nelle 2 sequenze non sia casuale) Nota: le matrici di valutazione sono matrici triangolari 22

23 Struttura diagonale Matrici di valutazione: acidi nucleici Sono molto più semplici di quelle usate per le proteine non si tiene conto della natura chimica (similarità) non si tiene conto della frequenza delle basi esempio BLAST: punteggio (standard) positivo per le identità, negativo per le discrepanze 23

24 Gap Le sequenze di DNA possono mutare sia per sostituzioni puntuali che per inserimento o eliminazione di intere sottosequenze di nucleotidi E spesso necessario inserire dei buchi (gap) nelle sequenze da allineare per avere allineamenti significativi Tale operazione va fatta con discrezione: si assegnano penalità (punteggi negativi) per l'inserimento di gap Valutazione dei gap La penalità assegnata a gap singoli è molto più grande di quella assegnata a blocchi di gap consecutivi: E' più probabile che si verifichi una sola mutazione che coinvolge più nucleotidi adiacenti, piuttosto che si verifichino numerose mutazioni isolate che coinvolgono un unico nucleotide Esempio: -11 per gap singoli, -1 per gap consecutivi 24

25 Algoritmi di allineamento (cenni) Sono delle specializzazioni di algoritmi per la risoluzione di problemi di ottimizzazione: vi è un numero elevato di soluzioni possibili, ma solo un sottoinsieme ristretto è ottimale il problema originale è decomposto in sottoproblemi più semplici (di dimensioni più piccole) esiste una sequenzialità nella risoluzione dei sottoproblemi (si risolvono prima i sottoproblemi di dimensioni minori, poi quelli di dimensioni maggiori) Algoritmi di allineamento (cenni) Nel caso di allineamento di due sequenze di dati biologici l'obiettivo è: massimizzare il numero di coppie di elementi allineati con un punteggio positivo minimizzare il numero di gap e allineamenti con punteggio negativo Il problema è decomposto nell allineare in modo ottimale prima coppie di singoli elementi (sottoproblema di dimensione minore) e poi sottosequenze via via più grandi (sottoproblemi di dimensioni maggiori) 25

26 Algoritmi di allineamento (cenni) Allineamento di coppie di elementi di due sequenze: 3 decisioni possibili 1. Tenere allineati i due elementi 2. Inserire un gap nella sequenza I 3. Inserire un gap nella sequenza II La decisione 1 ha un punteggio che (sulla base della scoring matrix usata) può essere negativo o positivo; 2 e 3 hanno un punteggio negativo Si sceglie la decisione col punteggio più alto...and so on -> non ci addentriamo nei dettagli di come funziona l'algoritmo Esempio di allineamento locale L allineamento locale (fra spezzoni di sequenze) ottimale si ottiene partendo dalla 5 a posizione di Seq I, ed inserendo un gap sempre in Seq I 26

27 Matrice di allineamento di seq.i e II Allineamento globale esistono diversi tipo di allineamento globale o locale Allineamento globale: Le sequenze sono allineate secondo la loro intera lunghezza (inserimento di gap se hanno lunghezze diverse) Si riempie la matrice M partendo dall angolo superiore sinistro fino a quello inferiore destro -> Viene tracciato solo il cammino che corrisponde all allineamento ottimale algoritmo Needleman-Wunsch 27

28 EMBOSS- Needle: Allineamento globale Needleman- Wunsch global alignment from EBI - European Bioinf. Inst. specifica dei parametri: - allineamento globale/locale - scoring matrix - proteine/dna - gap penalties... ALIGN Utility del pacchetto sw FASTA per l allineamento globale di coppie di sequenze E' integrato in applicazioni WEB, es. SDSC Biology Workbench Se scaricate il programma è eseguibile ambiente Linux (va compilato); interfaccia a linea di comando Accetta sequenze memorizzate in formato FASTA (lo standard più semplice) 28

29 ALIGN: esempio di allineamento di 2 sequenze protiche Allinemento locale Locale (vedi esempio diapositive precedenti) E di gran lunga il più usato Non sempre le 2 sequenze da allineare sono note: ad esempio quando si usano query a sequenze per ricerche in basi di dati Spesso si cercano analogie fra spezzoni di sequenze 29

30 Allineamento locale Non richiede che il confronto di due sequenze sia svolto per la loro intera lunghezza Variante dell algoritmo per l allineamento globale: algoritmo Smith-Waterman In caso di punteggio parziale negativo, l allineamento corrente può essere abbandonato L allineamento può terminare in qualsiasi punto della matrice Tools: SSEARCH, LALIGN (utilities FASTA); BLAST Query basate su sequenze L allineamento viene usato per cercare sequenze similari in DB biologici Problema di efficienza sequenza di query = stringa lunga fino a qualche migliaio di caratteri nel DB migliaia di sequenze di dimensioni analoghe Cercare allineamenti ottimali è in genere impraticabile Soluzione: Si usano tecniche euristiche per velocizzare le ricerche, senza garantire allineamenti ottimali -> si guadagna in efficienza ma si può sbagliare 30

31 BLAST Basic Local Alignment Search Tool: è il programma ad oggi più diffuso per ricerche basate su sequenze Usato da molti server di ricerca Integrato in GenBank (NCBI) Molto veloce (migliaia di confronti/min): versione efficiente dell algoritmo di allineamento locale Cerca zone di similarità locali BLAST 31

32 BLAST Implementazioni: NCBI BLAST, WU-BLAST (funzionalità aggiuntive per ricerche nelle sequenze Genoma) Integrati entrambi in applicazioni WEB Disponibili anche come pacchetti sw free (scaricabili anche solo gli eseguibili) Ambiente Linux Informazioni: sito del NCBI oppure BLAST Programmi disponibili blastall (ricerche di tipo generali; modalità: blastp, blastn, blastx, tblastn) blastpgp (allineamenti multipli) bl2seq (allineamenti locali di due sequenze)... 32

33 BLAST: modi di funzionamento Diverse modalità di funzionamento (espresse come opzioni di blastall) blastp: query di sequenze proteine (PS) a base dati PS blastn: query di sequenze acido nucleiche (NS) a base dati NS blastx: query NS tradotta nei 6 possibili frame PS a base dati PS tblastn: query PS a base dati NS tradotta nei 6 possibili frame 33

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2.

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2. Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti patti@di.unito.it Esercitazione 7 1 Info&Bio Bio@Lab Allineamento di sequenze Esercitazione 7 2 1 Es2: Allineamento

Dettagli

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche InfoBioLab I ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche Esercizio 1 - obiettivi: Ricerca di 2 proteine in ENTREZ Salva i flat file che descrivono le 2 proteine in formato testo Importa

Dettagli

Informatica e biotecnologie II parte

Informatica e biotecnologie II parte Informatica e biotecnologie II parte Analisi di sequenze: allineamenti CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC CGAAATCGCATCAGCATACGATCGCATGC Bioinformatica La Bioinformatica è una disciplina

Dettagli

BLAST. W = word size T = threshold X = elongation S = HSP threshold

BLAST. W = word size T = threshold X = elongation S = HSP threshold BLAST Blast (Basic Local Aligment Search Tool) è un programma che cerca similarità locali utilizzando l algoritmo di Altschul et al. Anche Blast, come FASTA, funziona: 1. scomponendo la sequenza query

Dettagli

Algoritmi di Allineamento

Algoritmi di Allineamento Algoritmi di Allineamento CORSO DI BIOINFORMATICA Corso di Laurea in Biotecnologie Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento di Coppie di Sequenze Allineamento

Dettagli

Informatica e biotecnologie I parte

Informatica e biotecnologie I parte Informatica e biotecnologie I parte Banche dati biologiche Bioinformatica La Bioinformatica è una disciplina che affronta con metodiche proprie delle Scienze dell'informazione problemi propri della Biologia.

Dettagli

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Quarta lezione 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Ricerca di omologhe in banche dati Proteina vs. proteine Gene (traduzione in aa) vs. proteine Gene vs. geni

Dettagli

Bioinformatica ed applicazioni di bioinformatica strutturale!

Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica! Le banche dati! Programmi per estrarre ed analizzare i dati! I numeri! Cellule nell uomo! Geni nell uomo! Genoma umano Il dogma

Dettagli

Bioinformatica. Analisi del genoma

Bioinformatica. Analisi del genoma Bioinformatica Analisi del genoma GABRIELLA TRUCCO CREMA, 5 APRILE 2017 Cosa è il genoma? Insieme delle informazioni biologiche, depositate nella sequenza di DNA, necessarie alla costruzione e mantenimento

Dettagli

Database biologici (banche di dati biologici)

Database biologici (banche di dati biologici) 1 Lo sviluppo di tecnologie strumentali sempre più sofisticate ha portato ad una enorme produzione di dati biologici. Per la gestione di questi dati è quindi necessario disporre di potenti sistemi di archiviazione

Dettagli

Il Corso sarà tenuto nei giorni di Lunedì, Mercoledì e Venerdì dalle ore 17 alle ore 19.

Il Corso sarà tenuto nei giorni di Lunedì, Mercoledì e Venerdì dalle ore 17 alle ore 19. Docente: Prof. Alfredo Ferro Il Corso sarà tenuto nei giorni di Lunedì, Mercoledì e Venerdì dalle ore 17 alle ore 19. Programma del Corso DATA ARGOMENTO 09/03/2011 Introduzione al corso. Slides Panoramica

Dettagli

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

Pairwise Sequence Alignment BIOINFORMATICA. Corso di Laurea in Ingegneria Informatica e Biomedica. Università Magna Graecia Catanzaro

Pairwise Sequence Alignment BIOINFORMATICA. Corso di Laurea in Ingegneria Informatica e Biomedica. Università Magna Graecia Catanzaro Pairwise Sequence Alignment BIOINFORMATICA Corso di Laurea in Ingegneria Informatica e Biomedica Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento Esatto di Coppie

Dettagli

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento Algoritmi EURISTICI di allineamento Sono nati insieme alle banche dati, con lo scopo di permettere una ricerca per similarità rapida anche se meno accurata contro le migliaia di sequenze depositate. Attualmente

Dettagli

Allineamenti a coppie

Allineamenti a coppie Laboratorio di Bioinformatica I Allineamenti a coppie Dott. Sergio Marin Vargas (2014 / 2015) ExPASy Bioinformatics Resource Portal (SIB) http://www.expasy.org/ Il sito http://myhits.isb-sib.ch/cgi-bin/dotlet

Dettagli

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random Z-score lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random è una misura di quanto il valore di opt si discosta dalla deviazione standard media. indica di quante dev.

Dettagli

Informatica e Bioinformatica: Basi di Dati

Informatica e Bioinformatica: Basi di Dati Informatica e Bioinformatica: Date TBD Bioinformatica I costi di sequenziamento e di hardware descrescono vertiginosamente si hanno a disposizione sempre più dati e hardware sempre più potente e meno costoso...

Dettagli

FASTA. Lezione del

FASTA. Lezione del FASTA Lezione del 10.03.2016 Omologia vs Similarità Quando si confrontano due sequenze o strutture si usano spesso indifferentemente i termini somiglianza o omologia per indicare che esiste un rapporto

Dettagli

Modello computazionale per la predizione di siti di legame per fattori di trascrizione

Modello computazionale per la predizione di siti di legame per fattori di trascrizione Modello computazionale per la predizione di siti di legame per fattori di trascrizione Attività di tirocinio svolto presso il Telethon Institute of Genetics and Medicine Relatori Prof. Giuseppe Trautteur

Dettagli

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing SAGA: sequence alignment by genetic algorithm ALESSANDRO PIETRELLI Soft Computing Bologna, 25 Maggio 2007 Multi Allineamento di Sequenze (MSAs) Cosa sono? A cosa servono? Come vengono calcolati Multi Allineamento

Dettagli

ALLINEAMENTO DI SEQUENZE

ALLINEAMENTO DI SEQUENZE ALLINEAMENTO DI SEQUENZE Procedura per comparare due o piu sequenze, volta a stabilire un insieme di relazioni biunivoche tra coppie di residui delle sequenze considerate che massimizzino la similarita

Dettagli

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Il progetto Genoma Umano è iniziato nel 1990. E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Progetto internazionale finanziato da vari paesi, affidato

Dettagli

Università degli studi di Pisa

Università degli studi di Pisa Università degli studi di Pisa Nicola Guido PATTERNHUNTER: Faster and More Sensitive. Homology Search Seminario: Bioinformatica a.a. 2008/2009 Contenuto della presentazione Introduzione Scenario PatternHunter

Dettagli

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche)

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche) Docente: Matteo Re UNIVERSITÀ DEGLI STUDI DI MILANO C.d.l. Informatica Bioinformatica A.A. 2013-2014 semestre I 3 Allineamento veloce (euristiche) Banche dati primarie e secondarie Esistono due categorie

Dettagli

DataBase Biologici 1

DataBase Biologici 1 DataBase Biologici 1 Lo sviluppo di tecnologie strumentali sempre più sofisticate ha portato ad una enorme produzione di dati biologici. Per la gestione di questi dati è quindi necessario disporre di potenti

Dettagli

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 6 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

MODELLO SCHEDA INSEGNAMENTO. II II Luigi Cerulo

MODELLO SCHEDA INSEGNAMENTO. II II Luigi Cerulo Corso di L/LM/LMCU Denominazione insegnamento: MODELLO SCHEDA INSEGNAMENTO Numero di Crediti: 6 Anno: Semestre: Docente Titolare: Scienze e Tecnologie Genetiche Bioinformatica II II Luigi Cerulo Dottorandi/assegnisti

Dettagli

Ricerche con BLAST (Laboratorio)

Ricerche con BLAST (Laboratorio) Laboratorio di Bioinformatica I Ricerche con BLAST (Laboratorio) Dott. Sergio Marin Vargas (2014 / 2015) NCBI BLAST BLAST: Basic Local Alignment Search Tool http://blast.ncbi.nlm.nih.gov/blast.cgi NCBI

Dettagli

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 6 2.

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 6 2. Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti patti@di.unito.it Esercitazione 6 1 Info&Bio Bio@Lab Banche dati biologiche Esercitazione 6 2 1 Es1. Ricerca

Dettagli

Database di sequenze. Dati di sequenza. Caratteristiche dei dati della biologia molecolare. I dati ed i problemi della bioinformatica

Database di sequenze. Dati di sequenza. Caratteristiche dei dati della biologia molecolare. I dati ed i problemi della bioinformatica I dati ed i problemi della bioinformatica Giorgio Valentini DSI Università degli Studi di Milano 1 Caratteristiche dei dati della biologia molecolare Diverse tipologie di dati bio-molecolari Per ogni tipo

Dettagli

Laboratorio di Bioinformatica I. Parte 2. Dott. Sergio Marin Vargas (2014 / 2015)

Laboratorio di Bioinformatica I. Parte 2. Dott. Sergio Marin Vargas (2014 / 2015) Laboratorio di Bioinformatica I Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015) Google Scholar https://scholar.google.it/ E un motore di ricerca di Google, specializzato nella ricerca di articoli

Dettagli

Esercitazioni Informatiche e Telematiche

Esercitazioni Informatiche e Telematiche Esercitazioni Informatiche e Telematiche Scuola di Farmacia e Nutraceutica Università Magna Graecia di Catanzaro I Anno, I Semestre, A.A. 2015/2016 Ing. Alessia Sarica 2 Informazioni Docente Ing. Alessia

Dettagli

Ricerca di omologia di sequenza

Ricerca di omologia di sequenza Ricerca di omologia di sequenza RICERCA DI OMOLOGIA DI SEQUENZA := Data una sequenza (query), una banca dati, un sistema per il confronto e una soglia statistica trovare le sequenze della banca più somiglianti

Dettagli

Sommario. Presentazione dell opera Ringraziamenti

Sommario. Presentazione dell opera Ringraziamenti Sommario Presentazione dell opera Ringraziamenti XI XII Capitolo 1 Introduzione alla bioinformatica 1 1.1 Cenni introduttivi 1 1.2 Pietre miliari della bioinformatica 2 1.3 Infrastrutture bioinformatiche

Dettagli

Laboratorio di Informatica

Laboratorio di Informatica Laboratorio di Informatica Corso di Laurea Interfacoltà in Biotecnologie Lezione 4: Ricerca di (Internet e altre Risorse) Lucido 1 Introduzione Informatica e biotecnologie. Strumenti per la: raccolta e

Dettagli

Le sequenze consenso

Le sequenze consenso Le sequenze consenso Si definisce sequenza consenso una sequenza derivata da un multiallineamento che presenta solo i residui più conservati per ogni posizione riassume un multiallineamento. non è identica

Dettagli

LA SINTESI PROTEICA LE MOLECOLE CHE INTERVENGONO IN TALE PROCESSO SONO:

LA SINTESI PROTEICA LE MOLECOLE CHE INTERVENGONO IN TALE PROCESSO SONO: LA SINTESI PROTEICA La sintesi proteica è il processo che porta alla formazione delle proteine utilizzando le informazioni contenute nel DNA. Nelle sue linee fondamentali questo processo è identico in

Dettagli

Perché considerare la struttura 3D di una proteina

Perché considerare la struttura 3D di una proteina Modelling Perché considerare la struttura 3D di una proteina Implicazioni in vari campi : biologia, evoluzione, biotecnologie, medicina, chimica farmaceutica... Metodi di studio della struttura di una

Dettagli

Banche Dati proteiche

Banche Dati proteiche Banche Dati proteiche Un altro grande database è UniProt, The Universal Protein Resource (http://www.uniprot.org/) nel quale sono radunate le sequenze proteiche, e le annotazione delle stesse, ottenute

Dettagli

Allineamento e similarità di sequenze

Allineamento e similarità di sequenze Allineamento e similarità di sequenze Allineamento di Sequenze L allineamento tra due o più sequenza può aiutare a trovare regioni simili per le quali si può supporre svolgano la stessa funzione; La similarità

Dettagli

Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli. Esercizi ricerche in banche dati

Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli. Esercizi ricerche in banche dati Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli Esercizi ricerche in banche dati 1) Nel romanzo fantasy Jurassic Park di Michael Crichton sulla possibilità di clonare i dinosauri,

Dettagli

Corso di Elementi di Bioinformatica

Corso di Elementi di Bioinformatica Corso di Elementi di Bioinformatica Laurea Triennale in Informatica I dati e le banche dati in Bioinformatica Anno Accademico 2015-2016 Docente del laboratorio: Raffaella Rizzi 1 Il DNA (oggetto biologico)

Dettagli

Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni:

Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni: Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni: antonella.meloni@ifc.cnr.it Sequenza A= stringa formata da N simboli, dove i simboli apparterranno ad un certo alfabeto. A

Dettagli

Informatica e Bioinformatica A. A

Informatica e Bioinformatica A. A Purtroppo non esiste un modo univoco per indicare un gene. Ad esempio abbiamo visto che il gene tcap a seconda del record è riportato come titin-cap protein o telethonin. Questo crea confusione e non facilita

Dettagli

Bioinformatics more basic notions

Bioinformatics more basic notions Bioinformatics more basic notions Alcune slides provengono dal materiale rilasciato da: Dr Sergio Marin Vargas - Verona Prof. Riccardo Percudari - Parma Bioinformatics Bio-inspired Computer science Gli

Dettagli

Allineamenti di sequenze: concetti e algoritmi

Allineamenti di sequenze: concetti e algoritmi Allineamenti di sequenze: concetti e algoritmi 1 globine: a- b- mioglobina Precoce esempio di allineamento di sequenza: globine (1961) H.C. Watson and J.C. Kendrew, Comparison Between the Amino-Acid Sequences

Dettagli

Metodi euristici di allineamento

Metodi euristici di allineamento Metodi euristici di allineamento Algoritmi euristici di allineamento Sono nati insieme alle banche dati, con lo scopo di permettere una ricerca rapida, anche se meno accurata, utilizzando la similarità

Dettagli

COME È FATTO? Ogni filamento corrisponde ad una catena di nucleotidi

COME È FATTO? Ogni filamento corrisponde ad una catena di nucleotidi Il DNA Il DNA è una sostanza che si trova in ogni cellula e contiene tutte le informazioni sulla forma e sulle funzioni di ogni essere vivente: eppure è una molecola incredibilmente semplice. COME È FATTO?

Dettagli

RELAZIONE DI BIOLOGIA MOLECOLARE

RELAZIONE DI BIOLOGIA MOLECOLARE RELAZIONE DI BIOLOGIA MOLECOLARE 2 BRUNO FRANCESCA mat.576193 Analisi di proteine. Descrivi un database di interazioni proteiche e mostra con quali proteine interagisce la proteina KEN di Drosophila. Uno

Dettagli

Allineamento multiplo di sequenze

Allineamento multiplo di sequenze Allineamento multiplo di sequenze Bioinformatica a.a. 2008/2009 Letterio Galletta Università di Pisa 22 Maggio 2009 Letterio Galletta (Università di Pisa) Allineamento multiplo di sequenze 22 Maggio 2009

Dettagli

La ricerca di similarità: i metodi

La ricerca di similarità: i metodi La ricerca di similarità: i metodi Pairwise alignment allineamenti a coppie 1. Analisi della matrice a punti (dot matrix) 2. Programmazione dinamica (dynamic programming) allineamenti locale e globale.

Dettagli

Laboratorio di Elementi di Bioinformatica

Laboratorio di Elementi di Bioinformatica Laboratorio di Elementi di Bioinformatica Laurea Triennale in Informatica (codice: E3101Q116) AA 2016/2017 I dati in Bioinformatica Docente del laboratorio: Raffaella Rizzi 1 Il DNA (oggetto biologico)

Dettagli

GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi

GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi GENOMA EVOLUZIONE CONTENUTO FUNZIONE STRUTTURA Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine Progetti genoma in centinaia di organismi Importante la sintenia tra i genomi The

Dettagli

UTILIZZO DI BLAST PER ALCUNE SEMPLICI APPLICAZIONI IN STUDI GENOMICI

UTILIZZO DI BLAST PER ALCUNE SEMPLICI APPLICAZIONI IN STUDI GENOMICI UTILIZZO DI BLAST PER ALCUNE SEMPLICI APPLICAZIONI IN STUDI GENOMICI Come prima cosa diamo un occhiata alla nostra sequenza di interesse, chiamata «unknown sequence» Con un doppio click possiamo visualizzarla

Dettagli

Lezione 6. Lo string matching

Lezione 6. Lo string matching Lezione 6 Lo string matching String matching Date due stringhe (sequenze di caratteri) vogliamo stabilire se sono uguali Nel caso dello string matching, due stringhe sono uguali se... sono uguali ( DNA

Dettagli

Introduzione alla programmazione Algoritmi e diagrammi di flusso. Sviluppo del software

Introduzione alla programmazione Algoritmi e diagrammi di flusso. Sviluppo del software Introduzione alla programmazione Algoritmi e diagrammi di flusso F. Corno, A. Lioy, M. Rebaudengo Sviluppo del software problema idea (soluzione) algoritmo (soluzione formale) programma (traduzione dell

Dettagli

Bellini Lara matricola: Tesina di Biologia Molecolare 2

Bellini Lara matricola: Tesina di Biologia Molecolare 2 Bellini Lara matricola: 594736 Tesina di Biologia Molecolare 2 Argomento: Scegli una proteina di Drosophila e trovala in Uniprot.Descrivi le informazioni presenti nel record ed i collegamenti a risorse

Dettagli

Lezione 6. Analisi di sequenze biologiche e ricerche in database

Lezione 6. Analisi di sequenze biologiche e ricerche in database Lezione 6 Analisi di sequenze biologiche e ricerche in database Schema della lezione Allinemento: definizioni Allineamento di due sequenze Ricerca di singola sequenza in banche dati (Alignment-based database

Dettagli

Sommario Obiettivo della programmazione e ciclo di sviluppo di programmi. Programmi. Ciclo di sviluppo di programmi. Obiettivo

Sommario Obiettivo della programmazione e ciclo di sviluppo di programmi. Programmi. Ciclo di sviluppo di programmi. Obiettivo Sommario Obiettivo della programmazione e ciclo di sviluppo di programmi Istruzioni variabili e tipi Sottoprogrammi Strutture di controllo Ricorsione 1 2 Obiettivo Ciclo di sviluppo di programmi Risoluzione

Dettagli

Da cosa dipendono le nostre caratteristiche? Come si trasmettono? Perché siamo simili o diversi?

Da cosa dipendono le nostre caratteristiche? Come si trasmettono? Perché siamo simili o diversi? Da cosa dipendono le nostre caratteristiche? Come si trasmettono? Perché siamo simili o diversi? La genetica, è la Scienza che studia i geni, l ereditarietà e la variabilità genetica degli organismi Il

Dettagli

Lezione 7. Allineamento di sequenze biologiche

Lezione 7. Allineamento di sequenze biologiche Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra

Dettagli

SISTEMI INFORMATIVI E DATABASE

SISTEMI INFORMATIVI E DATABASE SISTEMI INFORMATIVI E DATABASE SISTEMA INFORMATIVO AZIENDALE (S.I.) In una realtà aziendale si distingue: DATO elemento di conoscenza privo di qualsiasi elaborazione; insieme di simboli e caratteri. (274,

Dettagli

Modulo Laboratorio A.A. 2014/2015

Modulo Laboratorio A.A. 2014/2015 Biochimica - Laboratorio di Bioinformatica I (CdL. Bioinformatica) Bioinformatica e banche dati biologiche (CdL. Biotecnologie) Modulo Laboratorio A.A. 2014/2015 Docente: Dr. Sergio Marin Vargas Mail:

Dettagli

Microsoft Access. Nozioni di base. Contatti: Dott.ssa Silvia Bonfanti

Microsoft Access. Nozioni di base. Contatti: Dott.ssa Silvia Bonfanti Microsoft Access Nozioni di base Contatti: Dott.ssa Silvia Bonfanti silvia.bonfanti@unibg.it Introduzione In questa lezione vedremo lo strumento Microsoft Access ed impareremo come realizzare con esso

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: introduzione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Una definizione

Dettagli

Bioinformatica. Marin Vargas, Sergio Paul

Bioinformatica. Marin Vargas, Sergio Paul Bioinformatica Marin Vargas, Sergio Paul 2014 Wikipedia: La bioinformatica è una disciplina scientifica dedicata alla risoluzione di problemi biologici a livello molecolare con metodi informatici. La bioinformatica

Dettagli

Fabrizio Civetta. Fonte dati: ESRI Italia

Fabrizio Civetta. Fonte dati: ESRI Italia I SISTEMI GIS Fabrizio Civetta Fonte dati: ESRI Italia Geodatabase: un GIS è un database spaziale, contenente dataset che comprendono l'informazione geografica. Geovisualizzazione: un GIS consente di costruire

Dettagli

Informatica 3. LEZIONE 16: Heap - Codifica di Huffmann. Modulo 1: Heap e code di priorità Modulo 2: Esempio applicativo: codifica di Huffmann

Informatica 3. LEZIONE 16: Heap - Codifica di Huffmann. Modulo 1: Heap e code di priorità Modulo 2: Esempio applicativo: codifica di Huffmann Informatica 3 LEZIONE 16: Heap - Codifica di Huffmann Modulo 1: Heap e code di priorità Modulo 2: Esempio applicativo: codifica di Huffmann Informatica 3 Lezione 16 - Modulo 1 Heap e code di priorità Introduzione

Dettagli

Analisi della struttura primaria delle proteine

Analisi della struttura primaria delle proteine Analisi della struttura primaria delle proteine Strumenti on-line La maggior parte degli strumenti per l analisi della struttura primaria si trovano on-line all indirizzo www.expasy.org Ottenere la sequenza

Dettagli

Laboratorio di Bioinformatica I. Parte 1. Dott. Sergio Marin Vargas (2014 / 2015)

Laboratorio di Bioinformatica I. Parte 1. Dott. Sergio Marin Vargas (2014 / 2015) Laboratorio di Bioinformatica I Banche dati Parte 1 Dott. Sergio Marin Vargas (2014 / 2015) Introduzione a NCBI National Center for Biotechnology Information (NCBI) http://www.ncbi.nlm.nih.gov/ NCBI Databases

Dettagli

A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I

A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I COME CALCOLARE IL PUNTEIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi che, però, sono le due facce di una stessa medaglia al

Dettagli

Linguaggi, Traduttori e le Basi della Programmazione

Linguaggi, Traduttori e le Basi della Programmazione Corso di Laurea in Ingegneria Civile Politecnico di Bari Sede di Foggia Fondamenti di Informatica Anno Accademico 2011/2012 docente: Prof. Ing. Michele Salvemini Sommario Il Linguaggio I Linguaggi di Linguaggi

Dettagli

BLAST: Basic Local Alignment Search Tool

BLAST: Basic Local Alignment Search Tool BLAST: Basic Local Alignment Search Tool 1 Outline della lezione di oggi BLAST Uso pratico Algoritmo Strategie Trovare proteine lontanamente legate: PSI-BLAST 2 Problema con gli algoritmi dinamici Gli

Dettagli

I DATI E LA LORO INTEGRAZIONE 63 4/001.0

I DATI E LA LORO INTEGRAZIONE 63 4/001.0 I DATI E LA LORO INTEGRAZIONE 63 4/001.0 L INTEGRAZIONE DEI DATI INTEGRAZIONE DEI DATI SIGNIFICA LA CONDIVISIONE DEGLI ARCHIVI DA PARTE DI PIÙ AREE FUNZIONALI, PROCESSI E PROCEDURE AUTOMATIZZATE NELL AMBITO

Dettagli

Corso di Bioinformatica

Corso di Bioinformatica Corso di Bioinformatica Cortona - Novembre 2002 Metodi Computazionali per l'analisi delle sequenze Dr. Sabino Liuni Istituto di Tecnologie Biomediche- CNR Sezione di Bioinformatica e Genomica - Bari Sabino@area.ba

Dettagli

Programmazione in Perl Programmazione ad Oggetti

Programmazione in Perl Programmazione ad Oggetti Master in Bioinformatica Programmazione in Perl Programmazione ad Oggetti Andrea Sterbini sterbini@di.uniroma1.it A che vi servono BioPerl e la programmazione a oggetti? BioPerl è una libreria formata

Dettagli

Il file system. Le caratteristiche di file, direttorio e partizione sono del tutto indipendenti dalla natura e dal tipo di dispositivo utilizzato.

Il file system. Le caratteristiche di file, direttorio e partizione sono del tutto indipendenti dalla natura e dal tipo di dispositivo utilizzato. Il File System 1 Il file system È quella parte del Sistema Operativo che fornisce i meccanismi di accesso e memorizzazione delle informazioni (programmi e dati) allocate in memoria di massa. Realizza i

Dettagli

BIOLOGIA MOLECOLARE CON ELEMENTI DI BIOINFORMATICA

BIOLOGIA MOLECOLARE CON ELEMENTI DI BIOINFORMATICA DIPARTIMENTO DI SCIENZE BIOLOGICHE, GEOLOGICHE E AMBIENTALI Corso di laurea magistrale in Biologia sanitaria e cellularemolecolare Anno accademico 2017/2018-1 anno - Curriculum Biologia cellulare e molecolare

Dettagli

Metodi di Distanza. G.Allegrucci riproduzione vietata

Metodi di Distanza. G.Allegrucci riproduzione vietata Metodi di Distanza La misura più semplice della distanza tra due sequenze nucleotidiche è contare il numero di siti nucleotidici che differiscono tra le due sequenze Quando confrontiamo siti omologhi in

Dettagli

Provate rispondere alle domande, se ci riuscirete, sarete pronti a superare l esame per quanto riguarda la parte di bioinformatica.

Provate rispondere alle domande, se ci riuscirete, sarete pronti a superare l esame per quanto riguarda la parte di bioinformatica. Per aiutarvi ho elaborato (frettolosamente) questi quesiti che dovrebbero aiutarvi ad individuare gli argomenti importanti del corso ed a darvi un idea delle domande che potrebbero esservi poste all esame.

Dettagli

Il file system. Le caratteristiche di file, direttorio e partizione sono del tutto indipendenti dalla natura e dal tipo di dispositivo utilizzato.

Il file system. Le caratteristiche di file, direttorio e partizione sono del tutto indipendenti dalla natura e dal tipo di dispositivo utilizzato. Il File System Il file system È quella parte del Sistema Operativo che fornisce i meccanismi di accesso e memorizzazione delle informazioni (programmi e dati) allocate in memoria di massa. Realizza i concetti

Dettagli

La chimica della vita

La chimica della vita La chimica della vita Ogni organismo vivente è una macchina sofisticata, risultato di un complesso insieme di reazioni chimiche. La costruzione e il funzionamento di questa macchina si devono all'esistenza

Dettagli

ESERCITAZIONE 3. OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST

ESERCITAZIONE 3. OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST ESERCITAZIONE 3 OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST L'esercitazione prevede l'utilizzo di risorse web per effettuare ricerche di similarità con la proteina GRB2 (growth factor

Dettagli

Il file È un insieme di informazioni: programmi. Il File System. Il file system

Il file È un insieme di informazioni: programmi. Il File System. Il file system Il File System Il file È un insieme di informazioni: programmi d a t i testi rappresentati come insieme di record logici (bit, byte, linee, record, etc.) Ogni file è individuato da (almeno) un nome simbolico

Dettagli

Lezione 7. Allineamento di sequenze biologiche

Lezione 7. Allineamento di sequenze biologiche Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra

Dettagli

L ELABORATORE ELETTRONICO

L ELABORATORE ELETTRONICO L ELABORATORE ELETTRONICO Il calcolatore elettronico è uno strumento in grado di eseguire insiemi di azioni ( mosse ) elementari le azioni vengono eseguite su dati in ingresso (input) per produrre uno

Dettagli

Modelli di recupero. Modello di recupero booleano

Modelli di recupero. Modello di recupero booleano Modelli di recupero L obiettivo è recuperare i documenti che sono verosimilmente rilevanti all interrogazione. Vi sono vari modelli di recupero, che possono essere suddivisi in due grandi famiglie: exact

Dettagli

FILE E INDICI Architettura DBMS

FILE E INDICI Architettura DBMS FILE E INDICI Architettura DBMS Giorgio Giacinto 2010 Database 2 Dati su dispositivi di memorizzazione esterni! Dischi! si può leggere qualunque pagina a costo medio fisso! Nastri! si possono leggere le

Dettagli

Rappresentazione dell' informazione. Cenni, necessari per capire le caratteristiche dei tipi di dato e delle limitazioni dell'aritmetica del computer

Rappresentazione dell' informazione. Cenni, necessari per capire le caratteristiche dei tipi di dato e delle limitazioni dell'aritmetica del computer Rappresentazione dell' informazione Cenni, necessari per capire le caratteristiche dei tipi di dato e delle limitazioni dell'aritmetica del computer Cos'è l'informazione? Tutto quello che viene manipolato

Dettagli

Strategie di annotazione di geni e genomi

Strategie di annotazione di geni e genomi Strategie di annotazione di geni e genomi Dr. Giovanni Emiliani giovanni.emiliani@unifi.it Bioinformatica A.A. 2011-1012 Concetti generali Le nuove tecnologie consentono l ottenimento di una grande mole

Dettagli

Risolvere un problema significa individuare un procedimento che permetta di arrivare al risultato partendo dai dati Termine algoritmo da:

Risolvere un problema significa individuare un procedimento che permetta di arrivare al risultato partendo dai dati Termine algoritmo da: Algoritmi Algoritmi Risolvere un problema significa individuare un procedimento che permetta di arrivare al risultato partendo dai dati Termine algoritmo da: http://it.wikipedia.org/wiki/al-khwarizmi Un

Dettagli

Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini)

Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini) Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini) Collegatevi al sito www.ncbi.nlm.nih.gov/blast. Apparirà una pagina nella quale le versioni

Dettagli

Il file system. Il File System. Il file È un insieme di informazioni: programmi dati testi

Il file system. Il File System. Il file È un insieme di informazioni: programmi dati testi Il file system È quella parte del Sistema Operativo che fornisce i meccanismi di accesso e memorizzazione delle informazioni (programmi e dati) allocate in memoria di massa. Il File System Realizza i concetti

Dettagli

Prova d Esame Compito A

Prova d Esame Compito A DOMANDA1 Si analizzi il codice seguente e si scriva l output prodotto dai metodi main public class General { protected int value; public static boolean flag = false; public General() { value = 1; public

Dettagli

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0;

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0; Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p1 p6 p i >0; 6! i=1 p i =1 Sequenza di dna/proteine x con probabilita q x Probabilita dell intera sequenza n " i!1 q xi Massima verosimiglianza

Dettagli

Indici multilivello dinamici (B-alberi e B + -alberi) Alberi di ricerca - 1. Un esempio. Alberi di ricerca - 3. Alberi di ricerca - 2

Indici multilivello dinamici (B-alberi e B + -alberi) Alberi di ricerca - 1. Un esempio. Alberi di ricerca - 3. Alberi di ricerca - 2 INDICI MULTILIVELLO DINAMICI Indici multilivello dinamici (B-alberi e B + -alberi) Gli indici multilivello dinamici (B-alberi e B + -alberi) sono casi speciali di strutture ad albero. Un albero è formato

Dettagli

Encryption and compression for collections of text files* Dott. Ferdinando Montecuollo Università degli Studi della Campania «Luigi Vanvitelli»

Encryption and compression for collections of text files* Dott. Ferdinando Montecuollo Università degli Studi della Campania «Luigi Vanvitelli» Encryption and compression for collections of text files* Dott. Ferdinando Montecuollo Università degli Studi della Campania «Luigi Vanvitelli» *F. Montecuollo, G. Schmid and R. Tagliaferri, E 2 FM: an

Dettagli