Informatica e biotecnologie II parte



Похожие документы
Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Strutturazione logica dei dati: i file

( x) ( x) 0. Equazioni irrazionali

Comparatori. Comparatori di uguaglianza

3. Confronto tra due sequenze

13. Campi vettoriali

1. PRIME PROPRIETÀ 2

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e

LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1

e-dva - eni-depth Velocity Analysis

risulta (x) = 1 se x < 0.

Un gioco con tre dadi

Scopo della lezione. Informatica. Informatica - def. 1. Informatica

Algoritmi e strutture dati. Codici di Huffman

Lezione 2: Allineamento di sequenze. BLAST e CLUSTALW

Programmazione dinamica

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

Esercizio 1: trading on-line

Cluster. Vicino alla temperatura critica gli spin formano grandi gruppi (cluster)

Bioinformatica (1) Introduzione. Dott. Alessandro Laganà

Capitolo 25: Lo scambio nel mercato delle assicurazioni

9. Urti e conservazione della quantità di moto.

ESEMPIO 1: eseguire il complemento a 10 di 765

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo

Informatica. Rappresentazione dei numeri Numerazione binaria

Plate Locator Riconoscimento Automatico di Targhe

Codifica binaria dei numeri relativi

Logica Numerica Approfondimento 1. Minimo Comune Multiplo e Massimo Comun Divisore. Il concetto di multiplo e di divisore. Il Minimo Comune Multiplo

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

Teoria dei Giochi. Anna Torre

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

Elementi di Psicometria con Laboratorio di SPSS 1

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile

Capitolo 25: Lo scambio nel mercato delle assicurazioni

Calcolo del Valore Attuale Netto (VAN)

4. Ricerca di sequenze in banche dati e allineamento multiplo

Probabilità discreta

Appunti sulla Macchina di Turing. Macchina di Turing

Informatica 3. LEZIONE 21: Ricerca su liste e tecniche di hashing. Modulo 1: Algoritmi sequenziali e basati su liste Modulo 2: Hashing

MATEMATICA DEL DISCRETO elementi di teoria dei grafi. anno acc. 2009/2010

4. Operazioni aritmetiche con i numeri binari

Introduzione all Information Retrieval

Pro e contro delle RNA

Esponenziali elogaritmi

Corrispondenze e funzioni

Modulo 4 Il pannello amministrativo dell'hosting e il database per Wordpress

MANUALE PARCELLA FACILE PLUS INDICE

Il sofware è inoltre completato da una funzione di calendario che consente di impostare in modo semplice ed intuitivo i vari appuntamenti.

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

Si sa che la via più breve tra due punti è la linea retta. Ma vi siete mai chiesti, Qual è la via più breve tra tre punti? o tra quattro punti?

Elementi di informatica

Software per Helpdesk

Excel. A cura di Luigi Labonia. luigi.lab@libero.it

Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A Pietro Frasca.

Correttezza. Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1. Dispensa 10. A. Miola Novembre 2007

Database. Si ringrazia Marco Bertini per le slides

Funzioni in C. Violetta Lonati

Dispense di Informatica per l ITG Valadier

Mon Ami 3000 Varianti articolo Gestione di varianti articoli

MODELLISTICA DI IMPIANTI E SISTEMI 2

LE FUNZIONI A DUE VARIABILI

Soluzione dell esercizio del 2 Febbraio 2004

Che cosa è un VIRUS?

EasyPrint v4.15. Gadget e calendari. Manuale Utente

Gestione della memoria centrale

4 3 4 = 4 x x x 10 0 aaa

POLIAGE GUIDA RAPIDA

LE MEDIE MOBILI CENTRATE

Introduzione alla teoria dei database relazionali. Come progettare un database

GHPPEditor è un software realizzato per produrre in modo rapido e guidato un part program per controlli numerici Heidenhain.

Ottimizzazione Multi Obiettivo

Gestione Turni. Introduzione

Corso di Calcolo Numerico

Definire all'interno del codice un vettore di interi di dimensione DIM, es. int array[] = {1, 5, 2, 4, 8, 1, 1, 9, 11, 4, 12};

MAGAZZINO FISCALE (agg. alla rel )

GESTIONE DEI BENI USATI

IN COLLABORAZIONE CON OPTA SRL

Rappresentazione dei numeri in un calcolatore

Sistema operativo: Gestione della memoria

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

LA SOLUZIONE. EVOLUTION, con la E LA TECNOLOGIA TRASPARENTE IL SOFTWARE INVISIBILE INVISIBILE ANCHE NEL PREZZO R.O.I. IMMEDIATO OFFERTA IN PROVA

I MODULI Q.A.T. PANORAMICA. La soluzione modulare di gestione del Sistema Qualità Aziendale

Sistemi di Numerazione Binaria NB.1

HORIZON SQL PREVENTIVO

Codici a barre. Marco Dell Oro. January 4, 2014

Valutazione delle Prestazioni. Valutazione delle Prestazioni. Architetture dei Calcolatori (Lettere. Tempo di risposta e throughput

OSSERVAZIONI TEORICHE Lezione n. 4

STAMPA UNIONE DI WORD

Fasi di creazione di un programma

Con il termine Sistema operativo si fa riferimento all insieme dei moduli software di un sistema di elaborazione dati dedicati alla sua gestione.

Veneto Lavoro via Ca' Marcello 67/b, Venezia-Mestre tel.: 041/

La distribuzione Normale. La distribuzione Normale

Транскрипт:

Informatica e biotecnologie II parte Analisi di sequenze: allineamenti CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC CGAAATCGCATCAGCATACGATCGCATGC Bioinformatica La Bioinformatica è una disciplina che affronta con metodiche proprie delle Scienze dell'informazione problemi propri della Biologia. Settore in rapida espansione: c'è un enorme mole di dati che la moderna ricerca biologica produce grazie al progresso tecnologico recente; questo impone di affrontare problemi come: archiviazione di enormi moli di dati dati: occorre creare, gestire e mantenere banche dati specializzate -> banche dati biologiche (databases/reti...) recupero di informazione in modo automatico dalle banche dati -> banche dati biologiche (databases/reti...) analisi automatica dei dati per riuscire a inferire nuove informazioni a partire dai dati che abbiamo 1

Tipi di analisi sulle sequenze 1. Allineamento di sequenze: date due o più sequenze, le confronto per misurarne il grado di similarità A coppie: confronto due sequenze Osservazione: l allineamento di sequenze a coppie è una delle tecniche di analisi più usate per ricerche in DB a sequenze per l associazione di funzioni biologiche al genoma Multiplo: confronto N sequenze usato ad es. per inferenze filogenetiche 2. Analisi/caratterizzazione di singole sequenze 3. Traduzione DNA -> proteina Allineamento di sequenze: perché Uno dei problemi di base nell analisi di sequenze (nucleotidiche o amminoacidiche) consiste nel chiedersi se è plausibile che derivino da un comune antenato attraverso un processo di mutazione e selezione. I processi di mutazione considerati comprendono sostituzioni, inserzioni e cancellazioni (delezioni) di elementi nella sequenza. Il tipo di mutazione è influenzato dal meccanismo di selezione naturale, cosicché alcuni cambiamenti possono essere più frequenti di altri. 2

Allineamento di sequenze: perché Esempio: DNA Per quanto riguarda l'analisi del DNA uno degli scopi primari è la comprensione del meccanismo delle mutazioni Mutazioni puntuali: sostituzioni di singoli nucleotidi (significative se all interno di zone particolari, es. zone di codifica) Mutazioni segmentali (più significative): sostituzioni di più nucleotidi adiacenti in punti arbitrari, inserimento o eliminazione di nuovi nucleotidi, etc. Il problema viene affrontato, tipicamente proprio attraverso lo studio comparativo di sequenze cercando di individuare similarità uso di tecniche di allineamento di sequenze: locale o globale, a seconda che si sia interessati a verificare la similarità di due sequenze secondo la loro intera lunghezza o in certe zone particolari Allineamento di sequenze Il problema viene affrontato cercando di individuare similarità fra sequenze: L'allineamento di sequenze è una tecnica di analisi che mi consente di definire una misura quantitativa del grado di similarità fra sequenze In generale allineare 2 sequenze significa stabilire corrispondenze fra due sequenze residuo per residuo, conservando l'ordine dei residui all'interno delle sequenze 3

Allineamento ottimale Concetto base: trovare l allineamento ottimale (globale o locale) di due sequenze, ossia l'allineamento migliore fra tutti i possibili allineamenti Allineamento ottimale Vogliamo definire una misura quantitativa del grado di similarita'. Algoritmi in cui il criterio di ottimalità si basa sull attribuzione di un punteggio (score) a ogni possibili allineamento il punteggio riflette la qualità dell'allineamento il punteggio sarà tanto più elevato quanto maggiore è la similarità delle due sequenze -> è possibile identificare l'allinemento (o gli allineamenti) migliore 4

Allineamento di sequenze Approccio: Passo1: confrontare le sequenze (inizialmente in modo arbitrario) Passo2: assegnare un punteggio all'allineamento sulla base di criteri fissati per la similarità Passo3: ripetere l operazione, muovendo in tutti i modi possibili una sequenza rispetto all altra il punteggio massimo corrisponde all allineamento ottimale Approccio facilmente automatizzabile Allineamento di sequenze Un algoritmo semplice potrebbe essere quello di ciclicamente Fare scorrere una sequenza sull'altra, spostando ad ogni ciclo di una posizione e verificando quante posizioni hanno un'identità. Per ogni ciclo dovremo riverificare tutte le posizioni, quindi alla fine dovremo fare un numero di verifiche pari al numero di cicli per numero di posizioni: più o meno dell'ordine del prodotto delle lunghezze delle due sequenze. 5

Software di supporto all'analisi Esistono diversi tool specializzati che automatizzano l allineamento di sequenze, alcuni dei quali disponibili in rete: BLAST (integrato in GenBank), FASTA : ricerca di zone di omologia locali (legami di tipo evolutivo) in coppie di sequenze; individuazione di pattern corrispondenti per ricerche in DB ALIGN: ricerca del miglior allineamento globale (intera lunghezza) fra due sequenze... Software di supporto all'analisi Molti di questi programmi sono integrati in web-server; alcuni possono anche essere installati ed eseguiti localmente (spesso in ambiente Linux e con interazione a linea di comando) 6

Software di supporto all'analisi In genere le stesse tecniche di allineamento possono essere applicate a sequenze di nucleotidi (DNA, RNA) e di amminoacidi (proteine). Esistono cmq alcune differenze fra allineamenti di sequenze DNA e allineamenti di sequenze proteiche e gli scopi possono essere diversi Allineamento di sequenze Perché sia biologicamente attendibile bisogna risolvere alcune questioni: 1. Criteri di similarità 2. Possono essere inseriti dei buchi (gap) nelle sequenze per trovare corrispondenze altrove? 3. Come stabilire il punteggio per l allineamento? -> deve dare una misura della significatività dei singoli allineamenti? es. +1 per posizioni uguali, -1 per discrepanze 4. Come valutare i gap? -> "sforacchiando troppo" magari influenzerei eccessivamente l'esito del confronto -> punteggio 5. Quale algoritmo usare per la scelta dell allineamento ottimale/più significativo? 7

1. Criteri di similarità Un allineamento semplice si ottiene facendo scorrere una sequenza sull altra un nucleotide/amminoacido alla volta CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC CGAAATCGCATCAGCATACGATCGCATGC l'idea più semplice: considerare ottimo l'allineamento in cui è massimizzato il numero di identità 1. Criteri di similarità Ma a volte è più opportuno considerare dei valori di similarità (specialmente nel caso degli amminoacidi), piuttosto che la semplice presenza o assenza di identità. solo identità identità e sostituzioni conservative 8

1. Criteri di similarità Dato un singolo allineamento Identità: occorrenza dello stesso elemento (base o amminoacido) nella stessa posizione delle 2 sequenze allineate Similarità (proteine): occorrenza di amminoacidi chimicamente simili (probabile sostituzione) nella stessa posizione identità e sostituzioni conservative 1. Criteri di similarità: terminologia Dato un singolo allineamento Identità: occorrenza dello stesso elemento (base o amminoacido) nella stessa posizione delle 2 sequenze allineate Similarità (proteine): occorrenza di amminoacidi chimicamente simili (probabile sostituzione) nella stessa posizione Esempio: acido glutammico e acido aspartico sono simili Discrepanza: occorrenza di due basi o amminoacidi diversi e non valutati simili nella stessa posizione Omologia vs similarità: concetto più astratto, che indica un legame di tipo evolutivo fra 2 sequenze 9

2. Allineamento di sequenze con gap A meno che le sequenze non coincidano perfettamente è molto spesso necessario introdurre gap per trovare un più alto numero di corrispondenze Due possibili allineamenti di due catene polipeptidiche (su: senza gap; giù: con gap). Un segno - denota i gap Da un punto di vista biologico questo corrisponde alla possibilità di avere inserzioni o cancellazioni -> in genere vogliamo che un programma di allineamento abbia la possibilità di inserire gap nelle sequenze Esempio: allineamento di sequenze di proteine e DNA proteine DNA 10

3. Assegnazione del punteggio Abbiamo detto che occorre assegnare un punteggio all'allineamento sulla base di criteri fissati Strumento per valutare con un punteggio un allineamento (è significativo? Se sì, quanto?): matrici di valutazione o di punteggio (scoring matrix) Cosa sono? Sono matrici di valori che danno un punteggio alla corrispondenza di due basi o due amminoacidi in un allineamento. Sulla base di queste matrici viene calcolato un punteggio per l'allineamento. Abbiamo criteri (e quindi matrici) diverse per l'assegnamento di punteggio a sequenze di acidi nucleici e sequenze di amminoacidi 3. Matrici di punteggio (acidi nucleici) Sono molto più semplici di quelle usate per le proteine non occorre della natura chimica (similarità) non si tiene conto della frequenza delle basi Esempio BLAST: punteggio (standard) positivo per le identità, -1 per le discrepanze a c g t a +1-1 -1-1 c -1 +1-1 -1 g -1-1 +1-1 t -1-1 -1 +1 11

3. Matrici di punteggio (proteine) Anche per le proteine potremmo applicare lo stesso schema ma le cose sono più complicate perché occorre tener conto della similarità L'alternativa a questo schema semplice è imparare da dalle proteine stesse uno schema di punteggio approccio statistico (Dayhoff): raccolgo statistiche sulle frequenze di sostituzione in sequenze di proteine conosciute come correlate (omologhe) A un cambiamento frequente assegno un punteggio maggiore che a uno raro Da queste analisi statistiche "derivo" la mia matrice di punteggio Famiglie di matrici costruite con questa filosofia PAM; BLOSUM (derivate a partire da una quantità molto maggiore di dati) 3. Matrici di punteggio (proteine) Un po' più tecnicamente... Sono matrici di valori che indicano la probabilità che una coppia di amminoacidi sia allineata Valori: parti intere di log( P{a,b}/ P{a_r}), dove P{a,b} : probabilità di allineamento (non casuale) della coppia di amminoacidi a e b, determinata in base a statistiche tratte da allineamenti noti come validi P{a_r} : probabilità di occorrenza random (casuale) dell'aminoacido a in una sequenza 12

Esempio: matrice di valutazione BLOSUM45 proteine 3. Matrici di valutazione (proteine) Un valore in matrice è positivo se P{a,b} è maggiore di P{a_r}: è più probabile che l allineamento dei due amminoacidi corrispondenti sia il risultato di un evento evolutivo piuttosto che sia casuale Se il valore è < = a zero: è più probabile che l allineamento dei due amminoacidi corrispondenti sia casuale Idea per assegnare un punteggio all'allineamento: i singoli valori della matrice di valutazioni possono essere sommati, per assegnare un punteggio all intero allineamento 13

3. Matrici di valutazione (proteine) Valori sulla diagonale: indicano l ordine di casualità nell allineamento di due amminoacidi identici nelle 2 sequenze dipendono dalla frequenza di occorrenza dell amminoacido (più raro è l amminoacido, più grande la probabilità che l allineamento dello stesso amminoacido nelle 2 sequenze non sia casuale) Nota: le matrici di valutazione sono matrici triangolari Esempio: BLOSUM62 14

Struttura diagonale di BLOSUM45 4. Assegnazione di un punteggio ai gap E spesso necessario inserire dei buchi (gap) nelle sequenze da allineare per avere allineamenti significativi Per allestire uno schema di punteggio completo abbiamo bisogno, in aggiunta alla matrice di punteggio di un sistema per attribuire punteggio ai gap (che rappresentano la possibilità che siano avvenute inserzioni o delezioni) Si assegnano penalità (punteggi negativi) per l'inserimento di gap 15

4. Assegnazione di un punteggio ai gap La penalità assegnata a gap singoli è molto più grande di quella assegnata a blocchi di gap consecutivi: Perchè? Le sequenze di DNA possono mutare sia per sostituzioni puntuali che per inserimento o eliminazione di intere sottosequenze di nucleotidi E' più probabile che si verifichi una sola mutazione che coinvolge più nucleotidi adiacenti, piuttosto che si verifichino numerose mutazioni isolate che coinvolgono un unico nucleotide Esempio: -11 per gap singoli, -1 per gap consecutivi 5: Algoritmi di allineamento (cenni) Supponiamo di volere allineare due sequenze stabilendo il punteggio di un "match" e la penalità dovuta all'inserimento di un gap. Supponiamo di volere trovare in termini assoluti l'allineamento migliore tra le due sequenze, allora dovremo usare dei criteri esatti che trovino tra tutti gli allineamenti possibili, con e senza gap, quello con il punteggio più alto. 16

5: Algoritmi di allineamento (cenni) Sono delle specializzazioni per il problema dell'allineamento in bioinformatica di algoritmi generici per la risoluzione di problemi di ottimizzazione: vi è un numero elevato di soluzioni possibili, ma solo un sottoinsieme ristretto è ottimale il problema originale è decomposto in sottoproblemi più semplici (di dimensioni più piccole) esiste una sequenzialità nella risoluzione dei sottoproblemi (si risolvono prima i sottoproblemi di dimensioni minori, poi quelli di dimensioni maggiori) 5: Algoritmi di allineamento (cenni) Nel caso di allineamento di due sequenze di dati biologici l'obiettivo è: Massimizzare il numero di coppie di elementi allineati con un punteggio positivo Minimizzare il numero di gap e allineamenti con punteggio negativo Il problema è decomposto nell allineare in modo ottimale prima coppie di singoli elementi (sottoproblema di dimensione minore) e poi sottosequenze via via più grandi (sottoproblemi di dimensioni maggiori) 17

5: Algoritmi di allineamento (cenni) Allineamento di coppie di elementi di due sequenze: 3 decisioni possibili 1. Tenere allineati i due elementi 2. Inserire un gap nella sequenza I 3. Inserire un gap nella sequenza II La decisione 1 ha un punteggio che (sulla base della scoring matrix usata) può essere negativo o positivo; 2 e 3 hanno un punteggio negativo Si sceglie la decisione col punteggio più alto...and so on -> non ci addentriamo nei dettagli di come funziona l'algoritmo 5. Algoritmi di allineamento Esistono diversi tipi di allineamento globale o locale Allineamento globale: corrisponde all'allineamento con il massimo numero di elementi (aminoaciidi o nucleotidi) allineati tra le due sequenze, favorendo così gli allineamenti estesi a tutta la sequenza (cioè similarità globali). Le sequenze sono allineate secondo la loro intera lunghezza (inserimento di gap se hanno lunghezze diverse) (algoritmo di) Needelman & Wunsch (1970). A general method applicable to the search for similarity in the amino acid sequences of two proteins. J. Mol. Biol. 48: 444-453. 18

5. Algoritmi di allineamento Allineamento locale: Considera anche l'estensione della regione simile. In questo caso, se abbiamo un dato numero di aminoacidi uguali, daremo un punteggio tanto maggiore quanto più concentrata sarà la regione in cui si estende la similarità. Così, molto spesso, si favoriscono similarità non estese a tutta la sequenza, ma localizzate in regioni circoscritte (similarità locali). (algoritmo di) Smith & Waterman (1981). Identification of common molecular subsequences. J. Mol. Biol. 147: 195-197. (variante dell algoritmo per l allineamento globale) Esempio di allineamento locale L allineamento locale (fra spezzoni di sequenze) ottimale si ottiene partendo dalla 5 a posizione di Seq I, ed inserendo un gap sempre in Seq I score Osserva: penalità per il gap = -7; gli altri punteggi sono assegnati in base a una certa scoring matrix 19

Matrice di allineamento Il modo in cui viene costruito l'allineamento ottimale da un generico algoritmo di allineamento può essere letto come il problema di costruire una matrice di allineamento In base alla scoring matrix e alla penalità da assegnare ai gap, viene costruita una matrice di allineamento Ciascun elemento di questa matrice rappresenta il valore massimo di punteggio che possiamo ottenere per l'allineamento delle sequenze dall'inizio fino a quel punto Nella costruzione della matrice si cerca il percorso che massimizza il punteggio finale Matrice di allineamento di seq.i e II Si riempie la matrice M di allineamento partendo dall angolo superiore sinistro fino a quello inferiore destro -> Viene tracciato solo il cammino che corrisponde all allineamento ottimale 20

Tools: Allineamento globale - EMBOSS- Needle http://www.ebi.ac.uk/emboss/align/: Needleman- Wunsch global alignment from EBI - European Bioinf. Inst. -> accetta sequenze memorizzate in formato FASTA specifica dei parametri: - allineamento globale/locale - scoring matrix - proteine/dna - gap penalties... ALIGN Utility del pacchetto software FASTA per l allineamento globale di coppie di sequenze E' integrato in applicazioni WEB, es. SDSC Biology Workbench http://workbench.sdsc.edu/index.html http://fasta.bioch.virginia.edu/fasta/align.htm Se scaricate il programma è eseguibile ambiente Linux (va compilato); interfaccia a linea di comando Accetta sequenze memorizzate in formato FASTA (lo standard più semplice) 21

ALIGN: esempio di allineamento di 2 sequenze proteiche Tools: Allineamento locale - EMBOSS - water http://www.ebi.ac.uk/emboss/align/: Smith- Waterman local alignment from EBI - European Bioinf. Inst. -> accetta sequenze memorizzate in formato FASTA Altri Tools: SSEARCH, LALIGN (utilities FASTA); BLAST specifica dei parametri: - allineamento globale/locale - scoring matrix -proteine/dna - gap penalties... 22

Metodi euristici Allineamento Locale E di gran lunga il più usato Spesso si cercano similarità fra spezzoni di sequenze Non sempre le 2 sequenze da allineare sono note: ad esempio quando si usano query a sequenze per ricerche in basi di dati metodi esatti versus metodi euristici metodi euristici: portano a risultati approssimati, ma sono molto veloci e per questo molto usati. Esempi di programmi che usano criteri euristici sono FASTA e BLAST i più comuni programma esatto sono quelli che implementano l'algoritmo di Smith e Waterman... Query basate su sequenze L allineamento viene usato per cercare sequenze similari in DB biologici Input: 1 sequenza s = sequenza di query Il sistema ricerca in un grosso DB le sequenze simili a s e le restituisce in output Problema di efficienza sequenza di query = stringa lunga fino a qualche migliaio di caratteri nel DB migliaia di sequenze di dimensioni analoghe Cercare allineamenti ottimali è in genere impraticabile Soluzione: Si usano tecniche euristiche per velocizzare le ricerche, senza garantire allineamenti ottimali -> si guadagna in efficienza ma si può sbagliare 23

BLAST Basic Local Alignment Search Tool: è il programma ad oggi più diffuso per ricerche su DB basate su sequenze Usato da molti server di ricerca Integrato in GenBank (NCBI) Molto veloce (migliaia di confronti/min): versione efficiente dell algoritmo di allineamento locale Cerca zone di similarità locali http://www.ncbi.nlm.nih.gov/blast/ BLAST 24

BLAST Implementazioni: NCBI BLAST, WU-BLAST (funzionalità aggiuntive per ricerche nelle sequenze Genoma) Integrati entrambi in applicazioni WEB Disponibili anche come pacchetti software free (scaricabili anche solo gli eseguibili) Ambiente Linux Informazioni: sito del NCBI oppure http://blast.wustl.edu BLAST Programmi disponibili blastall (ricerche di tipo generali; modalità: blastp, blastn, blastx, tblastn) blastpgp (allineamenti multipli) bl2seq (allineamenti locali di due sequenze)... 25

BLAST: modi di funzionamento Diverse modalità di funzionamento (espresse come opzioni di blastall) blastp: query di sequenze proteine (PS) a base dati PS blastn: query di sequenze acido nucleiche (NS) a base dati NS blastx: query NS tradotta nei 6 possibili frame PS a base dati PS tblastn: query PS a base dati NS tradotta nei 6 possibili frame Applicazioni biotecnologiche - Proteine Non sono sicuro che la proteina che ho scoperto sia proprio una nuova proteina. Esiste già? La proteina che ho scoperto è proprio una nuova proteina. Ma assomiglia a qualche proteina nota? Nella proteina che sto studiando (che non è simile a nessun'altra proteina) esistono porzioni simili a proteine note, o domini funzionali noti? 26

Applicazioni biotecnologiche - Acidi nucleici Ho scoperto un nuovo gene e voglio vedere se Il gene è già presente nelle banche dati di acidi nucleici (EMBL/Genebank), anche parzialmente. Il gene è simile ad altri geni presenti nelle banche dati Il gene è simile ad una sequenza particolare 27