Informatica e biotecnologie I parte



Documenti analoghi
Informatica e biotecnologie I parte. Informatica e biotecnologie. Banche dati biologiche: sommario. Strumenti per

SRS (Sequence Retrieval System) della EBI che mette a disposizione anche dello spazio sul server per memorizzare le richerche.

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY.

Motori di ricerca. Motori di ricerca. funzione: permettono di districarsi nel deposito caotico di dati presenti nella rete;

Cosa sono i due pulsanti nell header?

Modulo 1: Motori di ricerca

Basi di dati. Basi di dati = database. Basi di dati

Uso delle basi di dati DBMS. Cos è un database. DataBase. Esempi di database

Access. P a r t e p r i m a

MODULO 5 Appunti ACCESS - Basi di dati

Strutturazione logica dei dati: i file

Database. Francesco Tapparo Informatica e Bioinformatica /16

Spazio Commerciale. Le tue vendite, il nostro successo. Manuale Operativo. Guida inserimento articoli tramite Area di amministrazione.

1. BASI DI DATI: GENERALITÀ

Cercare documenti Web

La rubrica degli indirizzi di posta elettronica associati al dominio scuole.piemonte.it

DBMS. Esempi di database. DataBase. Alcuni esempi di DBMS DBMS. (DataBase Management System)

Università degli Studi di Ferrara - A.A. 2014/15 Dott. Valerio Muzzioli ORDINAMENTO DEI DATI

Fogli Elettronici: MS Excel utilizzo avanzato

Progettaz. e sviluppo Data Base

GUIDA OPAC SEBINA Come utilizzare il catalogo della Biblioteca Medica. Modalità di ricerca e servizi al lettore

SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO

Introduzione all Information Retrieval

LA GENETICA: DNA e RNA LA GENETICA. DNA e RNA. Prof. Daniele Verri

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

Le query. Lezione 6 a cura di Maria Novella Mosciatti

Introduzione ai database relazionali

I database relazionali (Access)

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

A destra è delimitata dalla barra di scorrimento verticale, mentre in basso troviamo una riga complessa.

Facoltà di Farmacia - Corso di Informatica

EXCEL PER WINDOWS95. sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area di lavoro, detta foglio di lavoro,

Database 1 biblioteca universitaria. Testo del quesito

LUdeS Informatica 2 EXCEL. Seconda parte AA 2013/2014

Excel. A cura di Luigi Labonia. luigi.lab@libero.it

Raggruppamenti Conti Movimenti

1 CARICAMENTO LOTTI ED ESISTENZE AD INIZIO ESERCIZIO

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati

LE CARATTERISTICHE DEI PRODOTTI MULTIVARIANTE

Come modificare la propria Home Page e gli elementi correlati

La ricerca delle informazioni nei siti web di Ateneo con Google Search Appliance Progetto, implementazione e sviluppi

STAMPA UNIONE DI WORD

Esercizio data base "Biblioteca"

Informazione analogica e digitale

Corso di Informatica

STAMPA DI UNA PAGINA SEMPLICE

Gestione ed analisi di base dati nell epidemiologia. delle malattie infettive

Inserimento dei dati

Cosa è un foglio elettronico

Che cos'è un modulo? pulsanti di opzione caselle di controllo caselle di riepilogo

MANUALE EDICOLA 04.05

Progettazione di un Database

Dispensa di database Access

NUOVO SISTEMA AGGIORNAMENTO DA FYO

ISTITUTO TECNICO ECONOMICO MOSSOTTI

Abilità Informatiche A.A. 2010/2011 Lezione 9: Query Maschere Report. Facoltà di Lingue e Letterature Straniere

Corso di Archivistica

Introduzione alla teoria dei database relazionali. Come progettare un database

Registratori di Cassa

Il sistema C.R.M. / E.R.M.

Olga Scotti. Basi di Informatica. Excel

Dispense di Informatica per l ITG Valadier

PROGRAMMA SVOLTO NELLA SESSIONE N.

Archiviazione ottica documentale

Database. Si ringrazia Marco Bertini per le slides

Per visualizzare e immettere i dati in una tabella è possibile utilizzare le maschere;

Indice dei contenuti

Corso di Sistemi di Elaborazione delle informazioni

DATABASE. A cura di Massimiliano Buschi

Il linguaggio SQL. è di fatto lo standard tra i linguaggi per la gestione di data base relazionali.

Esercizio sui data base "Gestione conti correnti"

Utilizzo della Intranet, forum privati Soci e Staff

Utilizzo dei Cookie Cosa sono i cookie? A cosa servono i cookie? cookie tecnici cookie, detti analitici cookie di profilazione

Manuale Knowledge Base

connessioni tra i singoli elementi Hanno caratteristiche diverse e sono presentati con modalità diverse Tali relazioni vengono rappresentate QUINDI

LA GESTIONE DELLE VISITE CLIENTI VIA WEB

MODULO 4: FOGLIO ELETTRONICO (EXCEL)

Una proteina nella rete: Introduzione alla bioinformatica

GOOGLE VALUTAZIONE DI UN SITO INTERNET GOOGLE SCHOLAR

Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci

Breve guida alla ricerca bibliografica on-line. A cura di Tilde Tocci

Corso di PHP. Prerequisiti. 1 - Introduzione

Guida alla registrazione on-line di un DataLogger

I MODULI Q.A.T. PANORAMICA. La soluzione modulare di gestione del Sistema Qualità Aziendale

PIATTAFORMA DOCUMENTALE CRG

Sistema Gestionale FIPRO. Dott. Enea Belloni Ing. Andrea Montagnani

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Guida all uso di. a cura dell Area Economia Applicata (AEA) - IPI

Come utilizzare il sistema per ricavare e scaricare un elenco iscritti per la propria gara

Progetto ittorario Anno scol

Nuova funzione di ricerca del sito WIKA.

Organizzazione degli archivi

4 3 4 = 4 x x x 10 0 aaa

Progetto: ARPA Fonte Dati. ARPA Fonte Dati. Regione Toscana. Manuale Amministratore

. A primi passi con microsoft a.ccepss SommarIo: i S 1. aprire e chiudere microsoft access Start (o avvio) l i b tutti i pro- grammi

Riconoscibilità dei siti pubblici: i domini della Pa e le regole di.gov.it

DATA BASE ON LINE (BANCA DATI MODULI SPERIMENTALI)

Al giorno d oggi, i sistemi per la gestione di database

5.3 TABELLE RECORD Inserire, eliminare record in una tabella Aggiungere record Eliminare record

ARCHIVI E DATABASE (prof. Ivaldi Giuliano)

Transcript:

Informatica e biotecnologie I parte Banche dati biologiche Bioinformatica La Bioinformatica è una disciplina che affronta con metodiche proprie delle Scienze dell'informazione problemi propri della Biologia. Settore in rapida espansione: c'è un enorme mole di dati che la moderna ricerca biologica produce grazie al progresso tecnologico recente; questo impone di affrontare problemi come: archiviazione di enormi moli di dati dati: occorre creare, gestire e mantenere banche dati specializzate recupero di informazione in modo automatico dalle banche dati analisi automatica dei dati (deduzioni) 1

Archiviare enormi moli di dati Pensate a un progetto come quello del Genoma Umano Le molecole di DNA sono molecole lineari che, astraendo dalla struttura chimica 3D possono essere rappresentate come sequenze di caratteri dell'alfabeto {a,t,c,g} che rappresentano le 4 basi da un punto di vista informatico per memorizzare 1 carattere (ossia 1 base) abbiamo bisogno di 1 byte (codifica ASCII esteso) approssimativamente il genoma umano è lungo 3,2 * 10 9 caratteri (basi) ossia 3,2 G caratteri per memorizzarlo occorrono 3,2 * 10 9 byte. Siamo nell'ordine dei giga per 1 sequenza! le banche dati contengono migliaia sequenze Esercizio Approssimativamente il genoma umano è lungo 3,2 * 10 9 caratteri (basi) ossia 3,2 GB per memorizzarlo occorrono 3,2 * 10 9 byte. Siamo nell'ordine dei giga per 1 sequenza! 1. Quanti floppy disk servirebbero per memorizzare l'intero genoma umano (1,4MB) 2. Quanti CD? (700MB) 3. Quanti DVD? (4,7GB) 1. circa duemila 2. 5 3. 1 2

Recupero dell'informazione una banca dati priva di modalità di accesso efficienti è una "tomba di dati" servono tecniche per garantire un accesso ottimale; solitamente nascoste agli utilizzatori, hanno molto a che fare con l'organizzazione logica dei dati interfacce per permettere agli utenti di leggere e estrarre informazioni correlazione fra informazioni contenute in banche dati separate servono tecniche per ricercare un'informazione simultaneamente in diversi archivi di dati distribuiti su diversi computer Analisi Analizzando e confrontando queste enormi moli di dati archiviati si aprono diversi scenari: possibilità di ricostruire le tappe evolutive delle varie specie, incluso l'uomo possibilità di ricavare caratteristiche per le varie biomolecole utili nella progettazione di nuove molecole e farmaci in settori diversi, dall'agroalimentare a quello farmaceutico 3

Informatica e biotecnologie ci sono aree dell'informatica che studiano proprio struttura dei dati e ricerca delle informazioni (database, motori di ricerca su Web, database distribuiti) -> queste conoscenze possono essere utilizzate per risolvere il problema: "come strutturare e organizzare le informazioni sui dati biologici in modo da ottenere una risposta efficiente alle interrogazioni su questi dati?" analisi di algoritmi = specifica di metodi adatti a risolvere problemi diverse analisi dei dati, diversi problemi da risolvere, diversi algoritmi più o meno efficienti: Esempio: conoscenze su algoritmi per i confronto di sequenze di caratteri (string matching) possono essere utilizzate per risolvere il problema confrontare 2 sequenze di nucleotidi per scoprire se sono simili Banche dati biologiche: sommario Focus su banche dati primarie (non specializzate) di dati biologici rappresentati come sequenze (sequenze di amminoacidi; sequenze di acidi nucleici) Banche dati di strutture di proteine (solo cenni) Analisi di 3 fasi di interazione con una banca dati Recupero dell'informazione in una banca dati sistemi di interrogazioni via Web -> Entrez interrogazioni semplici per parola chiave strumenti per interrogazioni più raffinate Scelta del formato dei dati estratti da una banca dati Scaricare un dato biologico estratto nel formato scelto in locale -> Entrez In Lab esercizio su come realizzare praticamente queste fasi 4

Banche dati biologiche Banca dati biologica comprende 1. un archivio di dati biologici 2. un'organizzazione logica di queste informazioni 3. strumenti per accedere alle informazioni L informazione proviene da Letteratura specializzata sull argomento Analisi effettuate in laboratorio (in vitro e in vivo) Analisi bioinformatiche (in silico) Istituzioni: NCBI e EBI NCBI (National Center for Biotechnology Information): centro di raccolta di risorse di vario tipo http://www.ncbi.nlm.nih.gov/ accesso alla National Library of Medicine e al National Institutes of Health accesso a vari database attraverso Entrez GenBank Swissprot PubMed (database della letteratura biomedica) accesso a software per riconoscimento e allineamento di sequenze EBI (European Bioinformatics Institute): stessa funzione http://www.ebi.ac.uk/ 5

NCBI - Entrez http://www.ncbi.nlm.nih.gov/entrez/ ENTREZ: sistema di interrogazione di banche dati biologiche disponibile via web. Mette a disposizione un ambiente integrato per la ricerca e l'estrazione da diverse banche dati (GeneBank, Swissprot) di sequenze nucleotidiche o proteiche. La presenza di un ambiente integrato permette di fare ricerche usando la stessa sintassi su diverse banche dati I dati Quali dati? Sequenze di caratteri (nucleotidi del DNA, amminoacidi delle proteine) o strutture Rappresentazione dei dati biologici come sequenze: l uso di sequenze è la forma di gran lunga più diffusa per rappresentare dati biologici di varia natura Ad esempio: DNA genomico Proteine cdna mrna si trovano sotto forma di sequenze nelle banche dati biologiche consultabili da Enterz di NCBI come GenBank o SWISSPROT 6

Sequenze Hanno un formato puramente testuale: sono stringhe di caratteri di un certo alfabeto sequenze di nucleotidi sequenze DNA -> formate da 4 tipi di lettere: a (adenina), c (citosina), g (guanina), t (timina) esempio: atggtacat..., tag, ttt, convenzione lettere minuscole Sequenze RNA -> formate da 4 tipi di lettere: a (adenina), c (citosina), g (guanina),u (uracile) esempio: aucgcuaa, auucg, Sequenze proteiche -> formate da 20 lettere corrispondenti agli amminoacidi: A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y esempio: MPIVDTGSVAPLSAAEK, TAG,... convenzione lettere maiuscole Sequenze DNA La rappresentazione di una molecola di DNA come sequenza di simboli {a,t,c,g} è ovviamente un'astrazione di una struttura chimica 3D Tuttavia se lo scopo è quello di usare le tecniche per l analisi di sequenze, possiamo temporaneamente ignorare tale struttura Analogo vale per molecole di RNA 7

Sequenze di proteine La rappresentazione di proteine come sequenze di simboli {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y} è anche detta struttura primaria Osservazione: a causa della maggiore complessità chimica degli amminoacidi rispetto agli acidi nucleici è più difficile fare delle analisi significative tenendo separato il contenuto informativo delle sequenze dalle proprietà degli amminoacidi componenti Es. GenBank http://www.ncbi.nlm.nih.gov Banca del genoma dell NIH accessibile da NCBI 78000 sequenze di DNA in GenBank nel 1992, ora le dimensioni raddoppiano ogni 6-8 mesi Formato ANS.1 standard per dati di sequenze per DB relazionali (Abstract Syntax Notation One) Humane Genome Project Genomi completi o parziali di 900 specie 8

GenBank Accesso: entry e interrogazioni Ogni banca dati è caratterizzata da un elemento biologico centrale, che chiamiamo entry: es: banche dati di sequenze di acidi nucleici elemento centrale: sequenza nucleotidica di DNA o RNA le interrogazioni alla banca dati (queries) mirano a estrarre un insieme di elementi (entries) questi elementi sono un sottoinsieme dei record che costituiscono la banca dati e sono descritti mediante una serie di attributi gli attributi associati a una entry (una sequenza biologica) sono annotazioni tecniche (identificativo della entry nella base di dati) annotazioni generiche che classificano quell elemento (nome della specie, funzione, referenze bibliografiche) o annotazioni scientifiche (es. regioni codificanti di una sequenza di DNA). 9

Accesso: esempi di interrogazioni specifico mediante parole chiave le caratteristiche di una sequenza che voglio recuperare horse (inglese, latino): il software di ricerca fornisce un elenco di entry della banca dati contenente quel termine "Le banche dati di sequenze proteiche contengono la α-catena emoglobinica del cavallo" analogie con la ricerca per keyword nei motori di ricerca sul www -> tecniche simili specifico una sequenza campione e voglio recuperare le sequenze "simili" archiviate "Ho determinato una nuova sequenza. Le banche dati contengono qualcosa di simile" Accesso: ricerca dei dati e interrogazioni Modalità di ricerca dei dati attraverso motori di ricerca" su banche dati biologiche Interrogazione/query: campo text search o form per l immissione del dato cercato (query semplice per parola chiave = keyword) o del codice che identifica la sequenza se lo si conosce Problema della ricerca per semplice parola chiave: molto spesso si ottengono troppe risposte (sovraccarico informativo): molte più sequenze di quelle di interesse contengono in qualche linea la parola chiave cercata 10

Ricerca per parola chiave Esempio di query in GenBank Dalla ricerca in categoria Nucleotide (sequenze di acidi nucleici) -> ottengo una lista di record parola chiave Arabidopsis thaliana formato di visualizzazione Seleziono una entry salva il risultato Accesso: ricerca dei dati e interrogazioni Per diminuire il numero di risposte si deve specializzare ulteriormente la domanda -> strumenti per raffinare la ricerca Specifica di criteri di ricerca avanzati mediante operatori booleani: AND, OR, BUT NOT (specializzazione della query) Entrez: funzione Limits Strumenti per procedere per ricerche successive cumulative Entrez: funzione History: combino più query già fatte 11

Operatori booleani: AND Restringe il campo di ricerca, inserendo ad esempio la stringa: equus caballus AND hemoglobin alpha La banca dati ci mostrerà una lista di sequenze proteiche i cui campi di descrizione contengono entrambe le parole -> per. es. le sequenze proteiche del cavallo che non contengono nella descrizione la parola hemoglobin non vengono selezionate Operatori booleani: OR Estende il campo di ricerca, digitando ad esempio: homo sapiens OR mus musculus Otterremo una lista di sequenze i cui campi contengono la parola homo sapiens o la parola mus musculus. L'immagine sotto evidenzia come l'operatore abbia allargato l'insieme delle sequenze che incontrano le nostre esigenze. 12

Operatori booleani: BUT NOT Restringe il campo di ricerca, inserendo: homo sapiens BUT NOT hemoglobin Richiederemo sequenze i cui campi contengono la parola homo sapiens ma non la parola hemoglobin. Operatori booleani: combinazioni Naturalmente gli operatori booleani consentono di effettuare ricerche con più di due parole chiave, creando così interrogazioni che possono diventare molto complesse. La costruzione di queste espressioni -> esercizio di teoria degli insiemi 13

Entrez: Limits Per ottimizzare la ricerca Entrez prevede l'uso della funzione Limits: consente di limitare la ricerca a solo alcuni criteri (campi del database) o sottoinsiemi di dati es. scegli campo organism Entrez: Limits Esempio: è stata limitata la ricerca a sequenze del DB contenenti la parola mouse nel campo organism 14

Entrez: History Per rendere più efficiente la ricerca e procedere per raffinamenti successivi Entrez prevede l'opzione History: combino più query già fatte 3 query: combino in AND #1 e #2 2 query -> etichetta #2 1 query -> etichetta #1 Formato dei dati Oltre alla visualizzazione di default il dato può essere reso disponibile in diversi formati standard o specifici per l'uso di determinati tipi di software In generale esistono diversi formati sia per visualizzare i dati risultato di ricerca, sia per l'inserimento dati quando si vuole intraprendere una ricerca o un'analisi Formato dei dati e software di analisi: certi software di analisi per dati biologici chiederanno in input la (le) sequenze memorizzate su file dove l'informazione è codificata in un determinato formato -> sono in grado di decodificare l'informazione biologica e di elaborarla SOLO quando è presentata in quel formato Quali formati abbiamo a disposizione quando andiamo a prenderci un dato biologico in una banca dati, su cui magari poi vogliamo fare delle analisi? 15

Visualizzazione di entry in formato flat file (FF) Visualizzazione di default nel caso di GeneBank: + DATO SEQUENZA Sequenza di caratteri + HEADER di linee informative: Locus: codice di identificazione della sequenza Accession number: codice di accesso all'elemento all'interno della base di dati Source/Organism: organismo da cui è stata isolata la sequenza Riferimenti alla letteratura scientifica Cross references -> riferimenti incrociati -> link a informazioni presenti in altre banche dati + FEATURES: Informatica annotazioni di base - 29 tecniche novembre su parte della sequenza Visualizzazione di entry Swissprot come FF Le annotazioni possono essere un po' diverse da banca dati a banca dati campo DBSOURCE: Banca dati sorgente: SWISSPROT 16

Banche dati biologiche: formati Formato dei dati in NCBI in generale FASTA semplice sequenza di caratteri alfabetici leggibile da vari programmi per l analisi delle sequenze contiene poche informazioni collegate (annotazioni) GenBank formato legacy (usato da vecchi sistemi in disuso) ASN.1 (Abstract Syntax Notation.One) specifica generica dei dati, usata in tutti i DB di NCBI portabilità su diversi sistemi operativi diversi -> adatto allo scambio via software Formati usati sia per dati risultato di ricerca sia per l'inserimento dati Banche dati biologiche: formati Esempio di file di GenBank Formati: Formato ASN.1 Formato XML per manipolazione e presentazione sul Web Formato FASTA Esempi di diverse visualizzazioni dello stesso file nei diversi formati, nelle pagine successive 17

ASN.1 FASTA Una sequenza in formato FASTA comincia con una singola riga di descrizione il cui primo carattere è "<", seguita da righe contenenti la sequenza vera e propria 18

Accesso: banche dati distribuite Problema dell accesso a banche dati distribuite su diversi siti e con strutture eterogenee Cross referencing Rilascio della banca dati in formato XML: oltre ai dati viene fornita sia la struttura logica che la struttura fisica della banca dati XML 19

Banche dati biologiche: formati formati standard versus formati legacy Una banca dati può supportare oltre ai formati standard (FASTA, ANS.1) dei formati di dati particolari, che possono essere usati da software per l'analisi del tipo di dato trattato dalla banca dati Esempio: la banca dati di strutture di proteine Protein Data Bank (PDB) formato legacy di PDB usato comunemente dai software per l'analisi di proteine mmcif: solo il nuovo software per l'analisi delle strutture usa questo formato Formati: PDB http://www.rcsb.org/pdb/ Attenzione: per potere utilizzare le informazioni di questa banca dati è necessario avere un programma di visualizzazione molecolare -> che supporti il formato in cui ho scaricato le informazioni 20

Entrez: salva il dato Una volta trovato il dato di interesse e scelto il formato di visulaizzazione, da Entrez è possibile scaricare in locale il dato; salvo il dato in un file nel formato che mi interessa -> Lab Entrez: taxonomy Da Entrez è possibile esplorare la classificazione degli organismi come riportata in Taxonomy 21

Banche dati biologiche: una lista Letteratura (pubblicazioni scientifiche): PubMed: http://www.ncbi.nlm.nih.gov/pubmed Sequenze di acidi nucleici: GenBank: da http://www.ncbi.nlm.nih.gov SRS: http://srs.ebi.ac.uk Human genome resources: http://www.ncbi.nlm.nih.gov/genome/guide/human/ Sequenze proteiche: Swiss-Prot: http://www.expasy.ch/swissprot Struttura delle proteine: Protein Data Bank: http://www.rcsb.org/pdb/ Risorse Web: EBI Biocatalog: http://www.ebi.ac.uk/biocat/ IUBio Archive: http://iubio.bio.indiana.edu 22