Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Documenti analoghi
Allineamento locale: BLAST

Riconoscimento e recupero dell informazione per bioinformatica

Lezione 2: Allineamento di sequenze. BLAST e CLUSTALW

ESERCITAZIONE 3. OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST


Strategie di annotazione di geni e genomi

Informatica e biotecnologie II parte

Sperimenta il BioLab Attività di Bioinformatica Caccia al gene

A Descrizione: ruota effetti opzionale con supporto/ optional effects wheel with support/ iprofile FLEX MODIFICHE. Codice assemblato:

Traduzione dello schema E-R in modello logico relazionale

Allineamento di sequenze di DNA e proteine: possibilità, limiti ed interpretazione

La mappatura dei geni umani. SCOPO conoscere la localizzazione dei geni per identificarne la struttura e la funzione

Decode NGS data: search for genetic features

Schedulazione delle attività di un progetto in presenza di multi-calendari

Economia e Organizzazione Aziendale Facoltà di Ingegneria dell Informazione Corso di Laurea in Ingegneria Matematica

4. Ricerca di sequenze in banche dati e allineamento multiplo

Metodi di Distanza. G.Allegrucci riproduzione vietata

Riconoscimento e Recupero dell'informazione per Bioinformatica

Introduzione al corso di bioinformatica e analisi dei genomi AA Docente: Silvia Fuselli fss@unife.it

CdL FARMACIA, UniTS IDONEITA' INFORMATICA PRATICA A.A. 2013/2014

Elementi di Informatica e Programmazione

Il Manuale di KXSLDbg. Keith Isdale Traduzione del documento: Samuele Kaplun Traduzione del documento: Simone Solinas

e dei genotipi tossici

DATABASE PER IL WEB. Programmazione Web 1

ISTITUTO ISTRUZIONE SUPERIORE "L. EINAUDI" - ALBA (CN) ANNO SCOLASTICO 2014/2015

Metodi Molecolari per la Ricerca, Identificazione e tipizzazione di Francisella tularensis

Sistemi Operativi. Gianluca Della Vedova. Sistemi Operativi. Gianluca Della Vedova. Sistemi Operativi. Gianluca Della Vedova.

Bioinformatica (1) Introduzione. Dott. Alessandro Laganà

10. Previsione della struttura tridimensionale di una proteina

Controllo di sistemi e data-base per IBM Power i

Sistemi Web per il turismo - lezione 3 -

INTRODUZIONE ALLE BASI DATI RELAZIONALI

UNIVERSITA' CATTOLICA DEL SACRO CUORE. Valutazione della soddisfazione degli studenti a.a Riepilogo delle valutazioni fornite

Sviluppo Applicativi personalizzati per automatizzare le Analisi SPC

Caratteristiche principali. Contesti di utilizzo

GUIDA RAPIDA PER LA GESTIONE DELLE ADOZIONI LIBRI DI TESTO 2016/2017

Abilità Informatiche A.A. 2010/2011 Lezione 9: Query Maschere Report. Facoltà di Lingue e Letterature Straniere

TECNOLOGIE INFORMATICHE DELLA COMUNICAZIONE ORE SETTIMANALI 2 TIPO DI PROVA PER GIUDIZIO SOSPESO PROVA DI LABORATORIO

Laboratorio di Informatica I

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY.

La disposizione estetica della lettera commerciale

3. Confronto tra due sequenze

DBMS (Data Base Management System)

Manuale Utente per la Gestione dei Revisori degli Enti Locali

Esercitazione 01: DDL e DML di base

GESTIONALE PER PUNTI VENDITA.

Come cercare in Google

Bioinformatica e Biologia Computazionale per la Medicina Molecolare

Giuseppe Pigola Dipartimento di Matematica e Informatica Università di Catania Italy

DESCRIZIONE CREAZIONE APP Si suddivide in 4 fasi di lavoro: 1. PIANIFICAZIONE; 2. PROGETTAZIONE; 3. SVILUPPO; 4. DISTRIBUZIONE.

PSICOMETRIA. Esercitazione n.1. C.d.L. Comunicazione e Psicologia a.a. 2012/13

Caso d Uso: AcquistoAbbonamentoStudentiSettimanaleGiornaliero Breve descrizione. Procedura per la registrazione al servizio CicloPi.

PROGRAMMA DI INFORMATICA CLASSE TERZA SEZ. A. CORSO Amministrazione Finanza e Marketing. DOCENTE: Noto Giancarlo

Materiale didattico. Sommario

Esercizi per il corso di Algoritmi e Strutture Dati

Genomica Servizio Sequenziamento DNA

Costruzione di Sit Web con PHP e MySQL. Lezione 7 - Esercitazione - Introduzione a MySQL: le tabelle, i tpi di dato, le query

Corso di Informatica (Basi di Dati)

Caccia al gene della Fibrosi Cistica

L applicazione del SISTEMA di GESTIONE per la QUALITA ISO 9001:2000 nella Provincia di Forlì-Cesena

OPK Suite. Menci Software. Caratteristiche generali. febbraio 2015

SwanMosaic. Guida Rapida. (C) Ct Software. Via del Monte, Cesena (FO) Tel Fax

Gestione Orario Lezioni: Schema del Database

Moduli Bluetooth 03 - connessione seriale via BT

INTRODUZIONE A EXCEL ESERCITAZIONE I

Determinare la sequenza del DNA

BCAN Modulo Batteria Intelligente

Prof. Giuseppe Chiumeo. Avete già studiato che qualsiasi algoritmo appropriato può essere scritto utilizzando soltanto tre strutture di base:

DATASET GUIDA ALL USO

Unità B3 Strutture di controllo

Banchi ortogonali Casi importanti

Innovare. i vostri bisogni. la soluzione. i vantaggi

Bioinformatica (3) Banche dati biologiche. Dott. Alessandro Laganà

Events: Track your favorite artists

SQL Server Architettura Client-Server. SQL Server Introduzione all uso di SQL Server Dutto Riccardo.

THEO-GIS-v.01. U.O. Rischi Industriali

AA LA RICORSIONE

Appunti del corso di Informatica 1 (IN110 Fondamenti) 3 Modelli di calcolo

Tesi di Laurea di Mauro Baluda matr

Sistemi Informativi e Basi di Dati

Lezione V. Aula Multimediale - sabato 29/03/2008

Programma svolto di Informatica Anno scolastico 2014/2015

Sequence Alignment Algorithms

Simulazione di guasto

GUIDA ALLA NAVIGAZIONE DELL'AREA RISERVATA INTEGRATA NEL PORTALE COMUNALE

Principi e Metodologie della Progettazione Meccanica

L area pubblica è costituita da un portale informativo attraverso il quale è possibile effettuare la diffusione dell informazione.

Due algoritmi di ordinamento. basati sulla tecnica Divide et Impera: Mergesort e Quicksort

Corso di REVISIONE AZIENDALE

Esercitazione query in SQL L esercitazione viene effettuata sul database viaggi e vacanze che prevede il seguente modello E/R:

IL FITOFOR: UNO STRUMENTO PER LA GESTIONE DELLE INFORMAZIONI FITOSANITARIE. Marino Vignoli, Elisa Moneti, M. Miozzo DREAM - Italia

Architettura di storage

Software. Engineering

puntatori Lab. Calc. AA 2007/08 1

Laboratorio di Metodologie e Tecnologie Genetiche ESERCITAZIONE DI BIOINFORMATICA

Laboratorio di Progettazione di Sistemi Software Progetto: modellazione di un dominio e sue attività

Alla scoperta del Data Mining. Paolo Pinceti, Micaela Caserza Magro Università di Genova - Dipartimento DITEN

Banche Dati Secondarie. geni trascritti proteine profili strutture

LICEO SCIENTIFICO "LEONARDO DA VINCI" - RC PROGRAMMA DI INFORMATICA A.S. 2014/15 - CLASSE: I Q - Indirizzo Scienze applicate Prof Miritello Rita

SRS (Sequence Retrieval System) della EBI che mette a disposizione anche dello spazio sul server per memorizzare le richerche.

Transcript:

Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST

BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere ancora più veloci le ricerche nelle banche dati rispetto a FASTA, senza perdere in sensibilità e selettività Metodo euristico per allineamenti locali Pensato specificamente per ricerche in database Basato sulle stesse assunzioni di FASTA: un buon allineamento contiene corti frammenti di match esatti

BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Input: Query sequence Q (la vostra sequenza!) Database of sequences DB Minimal score S Output: Sequenze presenti nel DB (Seq), per le quali Q e Seq abbiano uno score > S

https://www.youtube.com/watch?v=mvjhymgjdtq

BLAST Word Matching MEAAVKEEISVEDEAVDKNI MEA EAA AAV AVK VKE KEE EEI EIS ISV... Break query into words: Break database sequences into words:

L algoritmo deve identificare le sequenze omologhe e non omologhe separate da un valore soglia Ricerche in database Query (sequenza sonda) ricerca Sequenze nelle banche dati FP: falsi positivi Caso 1: buon lavoro dell algoritmo Sequenze non omologhe Sequenze omologhe VP: veri positivi FN: falsi negativi VN: veri negativi Caso 2: c è una zona in cui non è possibile discriminare omologhe e non VN Regione di sovrapposizione FN FP VP Punteggio soglia

Attesa (Expectation) di trovare PER CASO uno Score come quello osservato

E value: significatività statistica Non si interpretano come p values dove p < 0.05 sono generalmente considerati significativi Regola generale E values < 10-6 sono molto probabilmente significativi. 10-6 < E values < 10-3 meritano una seconda occhiata. E values < 10-3 andrebbero scartati (ci aspettiamo di trovare 0.001 sequenze non correlate alla nostra-falsi positivi- che ottengono un punteggio superiore a quell S).

Six-frame translation 13

Ricordiamo che l efficienza della ricerca aumenta se limitiamo il database che interroghiamo

Threshold = soglia (vedi diapositiva 5)

Verranno presentate tutte le hits (sequenze trovate) sotto questa soglia di E values (cioè con E < 10) https://www.youtube.com/watch?v=no0wjgzrzjs Ricordiamo che l E risponde alla domanda: quante sequenze mi aspetto che abbiano per caso uno score maggiore o uguale a quello che ho osservato (falsi positivi!)

Questo filtro è importante: permette di effettuare ricerche escludendo regioni con molte ripetizioni come omopolimeri

Scegliere il tipo di ricerca sulla base delle nostre esigenze

Dopo aver deciso se cerchiamo nucleotidi contro nucleotidi, proteine contro proteine etc, possiamo anche decidere in che specifico db cercare, ad esempio Refseq

E possibile limitare la ricerca ad uno specifico gruppo tassonomico o ad uno specifico organismo E possibile definire specifici parametri per la ricerca

Verranno presentate tutte le hits (sequenze trovate) sotto questa soglia di E values (cioè con E < 10) https://www.youtube.com/watch?v=no0wjgzrzjs Ricordiamo che l E risponde alla domanda: quante sequenze mi aspetto che abbiano per caso uno score maggiore o uguale a quello che ho osservato (falsi positivi!)

Numero di residui con cui si inizia la ricerca Ricordiamo che l E risponde alla domanda: quante sequenze mi aspetto che abbiano per caso uno score maggiore o uguale a quello che ho osservato (falsi positivi!)

Vedi lezioni precedenti per matrice e gap Questa terza voce permette di controllare per la composizione AA delle sequenze analizzate Questo filtro è importante: permette di effettuare ricerche escludendo regioni con molte ripetizioni come omopolimeri

Esercizi con BLAST Proviamo ad effettuare una ricerca con le sequenze disponibili nel file BLAST