Ricerche con BLAST (Laboratorio)

Похожие документы
BLAST. W = word size T = threshold X = elongation S = HSP threshold

Laboratorio di Bioinformatica I. Parte 2. Dott. Sergio Marin Vargas (2014 / 2015)

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random

Bioinformatica ed applicazioni di bioinformatica strutturale!

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento

Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini)

Allineamenti a coppie

BLAST: Basic Local Alignment Search Tool

Le sequenze consenso

Ricerca di omologia di sequenza

ESERCITAZIONE 3. OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST

Allineamento e similarità di sequenze

Laboratorio di Bioinformatica I. Parte 1. Dott. Sergio Marin Vargas (2014 / 2015)

Bioinformatica. Analisi del genoma

Predizione di Struttura Secondaria di Proteine

Algoritmi di Allineamento

Vai al sito: Incolla nel box vuoto la sequenza nucleotidica

Allineamenti Multipli di Sequenze

Allineamento locale: BLAST

Uso di BLAST. Premessa

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

Telerilevamento. Esercitazione 5. Classificazione non supervisionata. Apriamo l immagine multi spettrale relativa alla zona di Feltre che si trova in:

RELAZIONE di BIOLOGIA MOLECOLARE

4. Ricerca di sequenze in banche dati e allineamento multiplo

Sperimenta il BioLab Attività di Bioinformatica Caccia al gene

Informatica e biotecnologie II parte

Allineamenti di sequenze: concetti e algoritmi

Lezione 2: Allineamento di sequenze. BLAST e CLUSTALW

Lezione 6. Lo string matching

Introduzione alla Genomica

Manuale telecamere IP

Database Modulo 4 RELAZIONI TRA TABELLE

Avviate Specifi dall icona presente sul vostro Desktop.

Esercitazione 2 GUIDA

Bioinformatica II. Esercitazione 2 GUIDA

Usare i forum. Il forum: la struttura del forum Rispondere a un messaggio e aggiungere un nuovo argomento di discussione Sottoscrivere un forum

PRINCIPI DI INFORMATICA CORSO DI LAUREA IN SCIENZE BIOLOGICHE

Packet Tracer: simulare utility PING

Lezione 7. Allineamento di sequenze biologiche

Utilizzo delle Maschere in Microsoft Access

Un grafico utilizza i valori contenuti in un foglio di lavoro per creare una rappresentazione grafica delle relazioni esistenti tra loro;

GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi

Mod DS A LBT 8563 SOFTWARE DI PROGRAMMAZIONE PER MODULO DI CHIAMATA E CENTRALINO 2VOICE

Perché considerare la struttura 3D di una proteina

Features Operating Frequency: 860 to 960 MHz (software. Benefits Small size & Low cost Short Range UHF Controller

Lezione 6. Analisi di sequenze biologiche e ricerche in database

Dieta Chetogenica Classica Pro

Guida rapida. Indice: Creare un progetto Gestire e modificare un progetto Visualizzare i risultati di un progetto o una valutazione

Sommario. 1. Internet subito Le FAQ di Internet 13. Sommario vii

CREAZIONE DI UNA VIDEOTECA

Turnitin. Manuale per lo studente (Student) Login. Creare un Profilo utente. Primo accesso e modifica password

1 LibreOffice Base GESTIONE BIBLIOTECA

Tesina di Biologia Molecolare II

Database Modulo 6 CREAZIONE DI MASCHERE

Filtri. Microsoft Access. Filtri. Filtri

Microsoft Word (parte I) Mirko Gombia Università di Bologna

Infor LN [GUIDA INFOR LN] [GUIDA INFOR LN] Baltur S.p.A. Rev /2013. Guida all utilizzo del Gestionale Infor LN per le Agenzie Baltur

DMX LIGHTPLAYER Introduzione...2 Libreria DMX...3 Programmazione dei canali...7 Creazione di uno show...11

03FYZ TECNICHE DI PROGRAMMAZIONE Esercitazione di Laboratorio 03 es.1 23 Marzo 2016

INTRODUZIONE ALLE BASI DATI RELAZIONALI

Un grafico utilizza i valori contenuti in un foglio di lavoro per creare una rappresentazione grafica delle relazioni esistenti tra loro;

Access 2007 Colonna di ricerca

Avviate Specifi dall icona presente sul vostro Desktop.

Le due principali tipologie di sorgenti di rumore nei circuiti elettronici sono il rumore termico e il rumore flicker.

Parte 1 - Installazione e avvio

Avviate Specifi dall icona presente sul vostro Desktop.

Lezione 7. Allineamento di sequenze biologiche

Strategie di annotazione di geni e genomi

Video Scrittura (MS Word) Lezione 3 Formattazione e Stampa documenti

ACCESS. Database: archivio elettronico, dotato di un programma di interfaccia che facilita la registrazione e la ricerca dei dati.

Utilizzo del Database informatico 556 per Cold Treatment. Parte II. Navi

3. Confronto tra due sequenze

Raccolta e memorizzazione dei dati immessi nei moduli dai visitatori

SurvCE: tracciamento, offset, Pregeo e altre funzioni di rilievo

ESEMPIO GUIDATO 6. Verifica di una copertura in legno

CAMPUS RGS LINEE GUIDA PROGRESSIONI ECONOMICHE 2016

Транскрипт:

Laboratorio di Bioinformatica I Ricerche con BLAST (Laboratorio) Dott. Sergio Marin Vargas (2014 / 2015)

NCBI BLAST BLAST: Basic Local Alignment Search Tool http://blast.ncbi.nlm.nih.gov/blast.cgi

NCBI Nucleotide BLAST (blastn) http://blast.ncbi.nlm.nih.gov/blast.cgi?program=blastn&page_type=blastsearch&link_loc=blasthome Reset page Sequenza Databases Organismo Optimizzazione: Modifiche all algoritmo per ricercare sequenze nucleotidiche

Esercizio 1: Jurassic blastn Michael Crichton scrisse su dinosauri e clonazione. Nel libro Jurassic Park (poi film Lost World ), ha usato una sequenza di incompleta di DNA di dinosauro, completata da alcuni esperti presso NCBI. È possibile recuperare tale sequenza dal sito di NCBI: ftp.ncbi.nih.gov/pub/fieldguide/lostworld.txt Usare BLASTN sul database Nucleotide collection (nr/nt) per identificare le fonti per il completamento della sequenza utilizzata. Resettare la pagina prima di impostare i parametri. Incollare la sequenza nella finestra di BLASTN, selezionando Somewhat similar sequences (blastn) nella sezione Program Selection. Indicare i due principali organismi che sono stati usati per creare la sequenza di dinosauro? Cliccare su Taxonomy reports per un quadro più completo (in particolare: cliccare su Organism report )

Esercizio 1: Jurassic Blastn

Esercizio 2: Ricerca di sequenza sconosciuta con blastn Vi viene sottoposta una sequenza dal significato sconosciuto: http://molsim.sci.univr.it/bioinfo/web/index.php?option=com_wrapper&view=wrapper&itemid=83 unknown_dna.fasta Vogliamo sapere se corrisponde a geni noti: Resettare la pagina! Utilizzare il database refseq_rna Optimizzare per Somewhat similar sequences (blastn) Scegliere l opzione Show results in a new window. Con quale organismo è correlata la sequenza? Quanti esoni dovrebbero esserci nella nostra sequenza? Con riferimento alla prima sequenza con codice refseq verificato (sono quelli che cominciano con NM, i codici XM sono predetti), quali sono le posizioni (i range) a cui corrisponde l allineamento?

Esercizio 2: Ricerca di sequenza sconosciuta con Blastn Esoni Drosophila Primo allineamento con sequenza verificata

NCBI Protein BLAST (blastp) http://blast.ncbi.nlm.nih.gov/blast.cgi?program=blastp&page_type=blastsearch&blast_spec=&link_loc=blasttab&last_page=blastn# Reset page Sequenza Databases Organismo Esclussione Modelli Algoritmi: Diversi algoritmi per ricercare sequenze proteiche

Esercizio 3: Sequenza corta con blastp Utilizzando Blastp di NCBI eseguire una ricerca della la seguente sequenza di 12 aminoacidi: PNLHGLFGRKTG Resettare l interfaccia Mettere la sequenza in formato FASTA. Dopo che eseguite la ricerca i parametri saranno automaticamente adattati per sequenze corte. Attivare l opzione Show results in a new window per poter confrontare con i parametri di default. Osservare la sezione search summary : Qual è il valore di cut-off dell e-value (Expect threshold)? Come è cambiata la word size? Qual è la matrice di punteggio? Cambia la penalità per i gap? Perché sono variati i parametri rispetto al default?

Esercizio 4: Compositional adjustment di blastp Ricercare con BLASTP la sequenza human insulin (NP_000198.1). Realizzare la ricerca sul database refseq_protein e sull organismo Caenorhabditis elegans, utilizzando la matrice BLOSUM 45 e con queste 5 opzioni del Compositional adjustments (rettifiche di composizione): 1. Conditional compositional score matrix adjustment (Default settings) 2. Aggiungere il filtro low complexity regions 3. No adjustment (con Filter low complexity regions) 4. No adjustment (senza Filter low complexity regions) 5. Composition-based statistics 6. Universal compositional score matrix adjustment Cercare di spiegare il motivo delle differenze osservabili nei risultati (numero di risultati o hit, scores, copertura, ecc.)

NCBI Protein BLAST (PSI-BLAST) http://blast.ncbi.nlm.nih.gov/blast.cgi?program=blastn&page_type=blastsearch&link_loc=blasthome Proteinprotein PSI-BLAST PHI-BLAST DELTA-BLAST

Esercizio 5: BlastP e PSI-BLAST Ci sono globine nei funghi? Eseguire una ricerca con BlastP utilizzando la globina umana beta (NP_000509.1) come sequenza di query e i seguenti parametri: Nel database nr Limitando l output a sequenze di fungi (taxid: 4751) Qual è la gamma di lunghezze approssimativa delle proteine fungine che hanno domini globinici? Eseguire nuovamente la ricerca con gli stessi parametri e la stessa sequenza, ma questo volta modificare l algoritmo a PSI-BLAST e confrontare i due risultati. Ci sono differenze? Perche ci sono o non ci sono differenze?

Esercizio 5: BlastP e PSI-BLAST PSI-BLAST BlastP

Esercizio 6: BlastP e PSI-BLAST Ripetere l esercizio precedente con PSI-BLAST, quindi eseguire una ricerca utilizzando la globina umana beta (NP_000509.1) come sequenza di query e i seguenti parametri: Nel database nr Limitando l output a sequenze di fungi (taxid: 4751) Lanciare più iterazioni di PSI-BLAST (almeno 3) e segnarsi i numeri di hits (risultati) approssimativamente. Che domini non-globina sono spesso presenti nelle globine fungine? Quanti risultati (con i valori di E sotto la soglia 0,005) ci sono dopo la prima iterazione? E dopo le diverse iterazioni?

Esercizio 7: PSI-BLAST su proteina sconosciuta Un campione biologico della specie Danio Rerio (zebrafish) ha rivelato la presenza della sequenza proteica di origine sconosciuta riportata in: http://molsim.sci.univr.it/bioinfo/web/index.php?option=com_wrapper&view=wrapper&itemid=83 unknown_protein.fasta Utilizzare PSI-BLAST con i seguenti parametri: RefSeq come database, escludendo i modelli dagli output, limitandosi all organismo da dove è stato prelavato il campione, utilizzare PAM30 come matrice di score. Di che tipo di proteina si tratta? (Guardare se ci sono domini conservati!) Quanti hits aprossimativamente ci sono alla prima iterazione? Qual è l hit con score più basso? Segnarsi i codici RefSeq. Quanti hits hanno score >200? Alla seconda iterazione. Qual è l hit con score minore? Confrontarlo con quello più basso dell iterazione precedente? Quanti hits hanno score >200? Quante nuove hit compaiono alla terza iterazione? A quale iterazione non vengono più aggiunti hits?

Esercizio 8: PSI-BLAST e malaria Il parassita della malaria Plasmodium vivax ha una famiglia multigenica chiamata vir che è specifica per tale organismo. Esistono tra 600-1000 copie di questi geni, e possono avere un ruolo nel causare infezioni croniche attraverso variazioni antigeniche. Selezionare vir1 (XP_001612479.1) ed effettuare una ricerca BLASTP nella banca dati nr (non ridondante). Quanti hits aprossimativamente si trovano e con quale punteggio? Poi, per trovare le altre centinaia di sequenze, eseguire una PSI-BLAST di ricerca con la stessa id. Nella prima ricerca, quale è il numero approssimativo di proteine che hanno un valore E inferiore a 0,002, e quanti hanno un punteggio superiore a 0,002? Qual è il punteggio della migliore nuova sequenza che viene aggiunto tra la prima iterazione e la seconda iterazione di PSI-BLAST?

NCBI BlastX http://blast.ncbi.nlm.nih.gov/blast.cgi?program=blastx&page_type=blastsearch&link_loc=blasthome Sequenza Codice Genetico Databases Confronta una sequenza nucleotidica (traducendola in tutti 6 possibili frame di lettura) ad un database di proteine.

Esercizio 9: BLASTX Entrare in BLASTX di NCBI e copiare la sequenza di dinosauro "Lost World come input. ftp.ncbi.nih.gov/pub/fieldguide/lostworld.txt Assicuratevi di includere l'intera sequenza. Ricercare sul database nr. Escludere i modelli (XM/XP). Di quale proteina forma parte questa sequenza nucleotidica? Nella pagina dei risultati, guardare i risultati degli allineamenti. La pagina risultante mostrerà la sequenza query scritta come proteina (utilizzando le 20 lettere corrispondenti agli amminoacidi). Il Dr. Mark Boguski che ha creato la sequenza ha lasciato un messaggio nascosto nella sequenza query in posizioni corrispondenti ai 4 gap della sequenza allineata. Qual è il suo messaggio?

Esercizio 9: BLASTX