Allineamento multiplo

Documenti analoghi
Allineamento multiplo

Allineamento multiplo

Le sequenze consenso

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing

Algoritmi di Allineamento

Allineamenti Multipli di Sequenze

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2.

ALLINEAMENTI MULTIPLI

Allineamento multiplo di sequenze

Allineamenti multipli

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

FASTA. Lezione del

Allineamenti multipli

Perché considerare la struttura 3D di una proteina

BLAST. W = word size T = threshold X = elongation S = HSP threshold

Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini)

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0;

Computazione per l interazione naturale: Modelli dinamici

ALLINEAMENTO DI SEQUENZE

Allineamenti Multipli

Come si sceglie l algoritmo di allineamento? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione?

Alberi filogenetici. File: alberi_filogenetici.odp. Riccardo Percudani 02/03/04

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento

Ricerca di omologia di sequenza

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni:

Banche Dati proteiche

Bioinformatica ed applicazioni di bioinformatica strutturale!

Omologia di sequenze: allineamento e ricerca

A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I

Teoria dell informazione

Corso di Intelligenza Artificiale A.A. 2016/2017

Pairwise Sequence Alignment BIOINFORMATICA. Corso di Laurea in Ingegneria Informatica e Biomedica. Università Magna Graecia Catanzaro

Allineamenti a coppie

La distribuzione dei veri e falsi positivi la ricerca della giusta soglia

1) Codici convoluzionali. 2) Circuito codificatore. 3) Diagramma a stati e a traliccio. 4) Distanza libera. 5) Algoritmo di Viterbi

Problemi, istanze, soluzioni

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST

Allineamento multiplo di sequenze

Metodi di Distanza. G.Allegrucci riproduzione vietata

Relazione sequenza-struttura e funzione

Laboratorio di Algoritmi e Strutture Dati

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche)

Analisi della struttura primaria delle proteine

ALLINEAMENTI MULTIPLI

Modello di sistema di comunicazione

Bioinformatics more basic notions

La struttura terziaria delle proteine

MODELLO SCHEDA INSEGNAMENTO. II II Luigi Cerulo

Allineamenti di sequenze: concetti e algoritmi

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random

sono le unità monomeriche che costituiscono le proteine hanno tutti una struttura comune

Luigi Santoro. Hyperphar Group S.p.A., MIlano

Allineamento e similarità di sequenze

Programmazione dinamica

Probabilità congiunta

Riconoscimento e recupero dell informazione per bioinformatica

Laboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona

Video Analysis (cenni) Annalisa Franco

Esercizi per il corso di Algoritmi, anno accademico 2011/12

Statistica multivariata 27/09/2016. D.Rodi, 2016

TEORIA DELL INFORMAZIONE ED ENTROPIA FEDERICO MARINI

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

SISTEMI CASUALI DINAMICI (PROCESSI) ESEMPIO: I GUASTI (Ipotesi Markoviana) Frequenza dei guasti: N Guasti = N/T X X X X X X X

Luigi Piroddi

Generalità. Strumenti per l Elaborazione di Dati. Generalità. Generalità. I dati: I dati: I dati:

Sistemi a Regole. Fabio Sartori 3 dicembre L algoritmo RETE Forward e Backward Chaining

Ricerche con BLAST (Laboratorio)

Markov Chains and Markov Chain Monte Carlo (MCMC)

Modelli Probabilistici per la Computazione Affettiva: Learning/Inferenza parametri

VETTORI NELLO SPAZIO ORDINARIO ,

Introduzione alla programmazione

Lezione 7. Allineamento di sequenze biologiche

Casi di prova. Il problema dell ordinamento. Casi di prova. Casi di prova. Casi di prova

Problema. Equazioni non lineari. Metodo grafico. Teorema. Cercare la soluzione di

Le proteine sono polimeri lineari costituiti da unità base formate da oltre 40 amminoacidi. Possono assumere forme diverse a seconda della funzione

E il server più utilizzato, permette di tracciare tutte le operazioni che svolge e di impostare alcuni parametri importanti per il risultato finale.

Computazione per l interazione naturale: modelli a variabili latenti (clustering e riduzione di dimensionalità)

Intelligenza Artificiale

INFORMAZIONE E COMPLESSITA

COME CALCOLARE IL PUNTEGGIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi

Regole associative Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

. iii) Cosa si può dire di esatto (non approssimato) su P X 1

BLAST: Basic Local Alignment Search Tool

UML Introduzione a UML Linguaggio di Modellazione Unificato. Corso di Ingegneria del Software Anno Accademico 2012/13

Risoluzione di problemi ingegneristici con Excel

Metodi e modelli per le decisioni

I.4 Rappresentazione dell informazione

ALLINEAMENTO DI SEQUENZE BIOLOGICHE TRAMITE MODELLI DI MARKOV NASCOSTI

Bioinformatica. Analisi del genoma

AUTOMA A STATI FINITI

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

Cosa è l Informatica?

Cenni di apprendimento in Reti Bayesiane

Transcript:

Allineamento multiplo

Allineamenti multipli Vs. allineamenti a coppie A 1: 2: 3: 4: 5: 6: B 1: 2: 3: 4: 5: 6:

Significato biologico dell allineamento multiplo L allineamento multiplo riassume La storia evolutiva di una famiglia di proteine Quindi, si possono ricavare informazioni su: - La conservazione dei residui dipendente dalla funzione - La conservazione dei residui dipendente dalla struttura

Significato funzionale della conservazione Conservazione degli amino acidi catalitici in alcuni membri della famiglia della tripsina

Propensità catalitica dei gruppi funzionali delle proteine hydrophilic hydrophilic/hydrophobic hydrophobic

Significato strutturale dell allineamento multiplo 1 G C L W YC Sequenze divergenti del dominio costante delle immunoglobuline allineate manualmente sulla base dell informazione della struttura di uno dei membri della famiglia (PDB 1tlk). Si noti la presenza di inserzioni o delezioni soprattutto in regioni corrispondenti a loop. Due residui di cisteina che formano un ponte disolfuro nel core idrofobico della proteina sono conservati in tutti i componenti della famiglia.

Informazioni Informazioni derivate derivate da da un un allineamento allineamento multiplo multiplo Negli enzimi, le regioni maggiormente conservate corrispondono probabilmente al sito attivo La conservazione di residui idrofilici ha spesso un significato funzionale (catalisi). La conservazione di residui idrofobici ha spesso un significato strutturale Regioni ricche di inserzioni/delezioni corrispondono a loops. Glicine o proline conservate corrispondono spesso a turn Un pattern conservato di residui idrofobici alternati a residui idrofilici suggerisce un filamento beta superficiale. Un pattern conservato di residui idrofobici ogni 4 residui suggerisce l'esistenza di un alfa elica. Coppie di cisteine invarianti possono formare ponti disolfuro (in particolare nelle proteine secrete).

Difficoltà dell allineamento multiplo Funzione oggettiva di punteggio - Peso da assegnare alle varie sequenze Complessità del problema - Tempo di elaborazione

Complessità di calcolo dell allineamento multiplo Sulla superficie del cubo si hanno le matrici di confronto a coppie tra le sequenze A-B, B-C e A-C. L allineamento ottimale di tre sequenze (A-B-C) richiede il riempimento del cubo e la valutazione di tutte le possibili mosse all interno del cubo. La complessità di questo algoritmo è O(LN), dove L è la lunghezza e N il numero delle sequenze. Per tre sequenze di 300 amino acidi il numero di confronti è 2.7 x 107. Un algoritmo completo di programmazione dinamica è utilizzabile solo nel caso di tre sequenze.

Metodi per l allineamento multiplo Allineamento ottimale Programmazione dinamica (MSA) Allineamento euristico Progressivo globale (CLUSTALW,Pileup) locale (PIMA) Iterativo globale (PRRP) locale (DIALIGN)

Allineamento progressivo Allineamento di tre sequenze A, B, C per passi successivi Allineamento della coppia A-B Aggiunta della coppia C al precedente allineamento Allineamento multiplo DGEKFGPPQRSGQRSG.. DGERFGP-QRSGNRSG consenso + SeqB DHEKFGSSQRSGQRSG DGEKFGPPQRSGQRSG.. DGERFGP-QRSGNRSG.... DHEKFGSSQRSGQRSG SeqA SeqC SeqA SeqB SeqC

Allineamento progressivo L'ordine di aggiunta delle sequenze è molto importante Il primo passo di un allineamento consiste nella scelta dell'ordine di aggiunta delle sequenze. Per questo vengono fatti tutti i possibili confronti a coppie (N*(N-1)/2) e viene costruito un albero per rappresentare le somiglianze. L'albero stabilisce l'ordine di aggiunta delle sequenze

Clustal: Clustal: schema schema N(N-1)/2

Clustal: Clustal: allinamento allinamento progressivo progressivo

Clustal Higgins & Sharp 1988 ClustalW (improved) Thompson et al 1994

Punteggio pesato nell allineamento multiplo Seq1 Seq2 Seq3 Seq4 Seq1 G Seq2 G A A A A G G G A A A A G A A C C Seq1 G Seq3 A G G A Seq3 Seq4 Somma delle coppie (non pesata) Seq4 G Seq2 Punteggio pesato in base alla relazione filogenetica delle sequenze Viene usato il metodo della somma pesata delle coppie in ogni colonna per determinare il punteggio totale dell allineamento. Questo metodo assegna un peso alle sequenze in modo da aumentare il punteggio in confronti tra sequenze evolutivamente distanti e diminuirlo in confronti tra sequenze vicine.

CLUSTALW improvement Thompson et al 1994 Le sequenze filogeneticamente più distanti ricevono un peso (weigth) proporzionalmente più alto nell allineamento Le sequenze più distanti ricevono un peso (weigth) maggiore nel punteggio

CLUSTALW improvement Thompson et al 1994 La penalità da assegnare ai gap dipende dal tipo di residui (Pascarella & Argos) come osservato in sequenze a struttura nota La penalità dipende anche dalla posizione. Se ci sono gap nelle vicinanze la penalità aumenta

CLUSTALW e CLUSTALX CLUSTALX. Stesso algoritmo di CLUSTALW con interfaccia grafica

Allineamento iterativo STOP IF CONVERGED W Il primo allineamento multiplo viene usato per predire un nuovo albero, nuovi pesi e nuovi allineamenti fino a che non si ha un miglioramento nel punteggio dell allineamento. Implementato in PRRP, DIALIGN

Comparazione dei metodi di allineamento multiplo Thompson et al 1999 Set di riferimento BAliBASE Una bancadati di proteine allineate strutturalmente e suddivisa in set che rappresentano problemi tipici che si hanno in allineamenti multipli: - estensioni terminali - inserzioni - famiglia rispetto ad orfani

Colonne correttamente allineate Comparazione dei metodi di allineamento multiplo V3= >35% id. V2= 20-40% id. Large family V1= <20% id. Small family Sequenze di lunghezza simile Orfani allineati ad una famiglia Sequenze con estensioni terminali Conclusioni: 1) per sequenze di lunghezza comparabile i sistemi globali e iterativi funzionano meglio; 2) per allineare una sequenza orfana ad una famiglia conviene usare molti membri della famiglia 3) se le sequenze presentano diverse estensioni alle estremità N e C terminali conviene utilizzare sistemi di allineamento locale

Visualizzare ed editare allineamenti: GeneDoc

Rappresentazioni dell allineamento multiplo: conservazione

Rappresentazioni dell allineamento multiplo: sostituzioni

Decorazione di allineamenti con elementi strutturali: ESPRIPT Legame con in metallo Catalisi

Applicazioni dell allineamento multiplo Inferenze struturali Definizione di famiglie Inferenze funzionali Alberi filogenetici Primers per PCR Consensi, motivi Profili, modelli markoviani, logos

Rappresentazioni probabilistiche della conservazione dei residui in un A.M. Profili Modelli markoviani (profili HMM) Sequence logos

Sequence logos Rappresentazione grafica del grado di conservazione delle colonne dell allineamento. Nella forma più comune, la conservazione dell'allineamento è espressa in bits (log2). La misura deriva dalla teoria dell informazione di Shannon: Massima incertezza di osservare uno su M simboli con probabilità P: H = log2(m) = - log2(p) Quando i simboli non sono equiprobabili si utilizza la formula generale di Shannon M H Pi log 2 ( Pi ) i 1

Nucleotide and protein sequence logos Nel grafico è rappresentata in ordinata la conservazione come diminuzione di incertezza. Per i nucleotidi Per i gli aminoacidi log2(4) - H. log2(20) - H La massima conservazione in bits è quindi 2 per i nucleotidi e 4.32 per gli amino acidi.

Profili Gribskov et al 1987 ALLINEAMENTO MULTIPLO HBA_HUMAN HBB_HUMAN MYG_PHYCA GLB3_CHITP GLB5_PETMA LGB2_LUPLU GLB1_GLYDI...vga--hagey......v----nvdev......vea--dvag-......vkg------d......vys--tyets......fna--nipkh......iagadngagv... PROFILI: Rappresentano un allineamento multiplo assegnando a ciascuna posizione dell'allinamento un punteggio per l'occorrenza di uno tra i possibili simboli.

Costruzione di un profilo Gribskov et al 1987 ALLINEAMENTO MULTIPLO HBA_HUMAN HBB_HUMAN MYG_PHYCA GLB3_CHITP GLB5_PETMA LGB2_LUPLU GLB1_GLYDI...vga--hagey......v----nvdev......vea--dvag-......vkg------d......vys--tyets......fna--nipkh......iagadngagv... Le colonne dell'allinemento corrispondono alle righe della matrice PROFILO DELL'ALLINAMENTO MULTIPLO Cons V A A A D N V A E V A 0.7 3.3 8.7 2.1 0.4 1.7 3.1 6.7 3.1 1.0 C 0.0 2.7 0.4-0.7-1.9 3.0-0.3-1.7 2.0 D -3.1 3.3 3.3 0.4 2.1 5.6-0.3 5.4 5.3 1.7 E -2.6 3.7 3.0 0.4 1.4 4.4-0.4 5.3 6.4 1.0 F 4.4-2.1-4.3-0.7-1.4-4.1 1.7-5.4-4.7 0.4 G 0.1 3.3 7.7 0.9 0.9 2.9 2.3 5.9 6.1 1.1 H -2.7 1.4-1.3-0.1 0.6 4.7-1.3 0.9 0.6 2.0 I 10.9-1.3-1.0 0.0-0.3-1.7 5.0-1.3-1.4 2.4 K -2.6 2.1 0.0 0.0 0.4 2.6-1.9 0.9 3.0-0.6 L 8.6-1.9-2.4-0.1-0.7-2.9 3.0-2.6-2.9 1.1 M 5.9-1.0-1.3 0.0-0.6-2.3 2.0 - -1.1 0.1 N -3.3 4.1 2.4 0.3 0.9 8.3-0.6 2.7 3.4 1.0 P -0.4 0.3 3.6 0.7 0.1 0.9 0.0 4.3 1.7 0.1 Q -3.0 1.7 1.3 0.3 0.9 3.3-1.3 3.0 2.7 0.1 R -3.3-0.4-2.0-0.4 0.0 1.0-3.0-0.9 0.1-0.9 S -1.3 1.9 5.6 0.6 0.3 1.7 0.4 3.1 3.0 1.3 T 1.3 3.3 0.6 0.3 3.1 2.7 4.1 0.7 V 12.6-0.6 1.3 0.3-0.3-1.7 6.3 0.4 0.0 3.3 W -4.7-2.9-5.9-1.1 - -3.9-4.0-8.0-6.7-2.0 Y Gap 1.3 4.6-0.9 2.1-3.6 2.1-0.4-0.7-1.1 0.7-4.3-4.4 1.0 4.6 Len 4.6 2.1 2.1 4.6

Costruzione di un profilo Gribskov et al 1987 ALLINEAMENTO MULTIPLO HBA_HUMAN HBB_HUMAN MYG_PHYCA GLB3_CHITP GLB5_PETMA LGB2_LUPLU GLB1_GLYDI...vga--hagey......v----nvdev......vea--dvag-......vkg------d......vys--tyets......fna--nipkh......iagadngagv... Score associati alla presenza dei simboli nelle colonne dell'allineamento Penalità allungamento gap Penalità apertura gap Cons V A A A D N V A E V A 0.7 3.3 8.7 2.1 0.4 1.7 3.1 6.7 3.1 1.0 C 0.0 2.7 0.4-0.7-1.9 3.0-0.3-1.7 2.0 D -3.1 3.3 3.3 0.4 2.1 5.6-0.3 5.4 5.3 1.7 E -2.6 3.7 3.0 0.4 1.4 4.4-0.4 5.3 6.4 1.0 F 4.4-2.1-4.3-0.7-1.4-4.1 1.7-5.4-4.7 0.4 G 0.1 3.3 7.7 0.9 0.9 2.9 2.3 5.9 6.1 1.1 H -2.7 1.4-1.3-0.1 0.6 4.7-1.3 0.9 0.6 2.0 I 10.9-1.3-1.0 0.0-0.3-1.7 5.0-1.3-1.4 2.4 K -2.6 2.1 0.0 0.0 0.4 2.6-1.9 0.9 3.0-0.6 L 8.6-1.9-2.4-0.1-0.7-2.9 3.0-2.6-2.9 1.1 M 5.9-1.0-1.3 0.0-0.6-2.3 2.0 - -1.1 0.1 N -3.3 4.1 2.4 0.3 0.9 8.3-0.6 2.7 3.4 1.0 P -0.4 0.3 3.6 0.7 0.1 0.9 0.0 4.3 1.7 0.1 Q -3.0 1.7 1.3 0.3 0.9 3.3-1.3 3.0 2.7 0.1 R -3.3-0.4-2.0-0.4 0.0 1.0-3.0-0.9 0.1-0.9 S -1.3 1.9 5.6 0.6 0.3 1.7 0.4 3.1 3.0 1.3 T 1.3 3.3 0.6 0.3 3.1 2.7 4.1 0.7 V 12.6-0.6 1.3 0.3-0.3-1.7 6.3 0.4 0.0 3.3 W -4.7-2.9-5.9-1.1 - -3.9-4.0-8.0-6.7-2.0 Y Gap 1.3 4.6-0.9 2.1-3.6 2.1-0.4-0.7-1.1 0.7-4.3-4.4 1.0 4.6 Len 4.6 2.1 2.1 4.6

Calcolo dei punteggi nei profili ALLINEAMENTO MULTIPLO HBA_HUMAN HBB_HUMAN MYG_PHYCA GLB3_CHITP GLB5_PETMA LGB2_LUPLU GLB1_GLYDI...vga--hagey......v----nvdev......vea--dvag-......vkg------d......vys--tyets......fna--nipkh......iagadngagv... Punteggio di un aminoacido X per la prima colonna: 5 1 1 s (V, X ) s ( F, X ) s ( I, X ) 7 7 7 Dove s(y,x) è il punteggio della sostituzione dell aminoacido Y in X nelle matrici PAM o BLOSUM.

PSI-Blast Position-Specific Iterated Blast

Schema Schema di di funzionamento funzionamento di di PSIPSIBLAST BLAST La ricerca utilizza una singola sequenza sonda per la prima iterazione e, per le iterazioni successive una matrice di punteggio specifica per posizione (PSSM, Position Specific Scoring Matrix) costruita a partire da un allineamento multiplo. I passaggi utilizzati da PSI-BLAST sono i seguenti Ricerca BLAST con una singola sequenza sonda (1 iterazione); Le sequenze significativamente simili (secondo una soglia di E, modificabile) sono utilizzate per un allineamento multiplo.l allineamento multiplo è utilizzato per calcolare una PSSM La PSSM viene utilizzata per una seconda ricerca (2 iterazione); La 2 iterazione può trovare nuove sequenze significative che possono essere utilizzate per costruire una nuova PSSM. La ricerca può essere iterata fino a quando vengono trovate nuove sequenze

PSI-Blast Iterazione n 2 Risultato della ricerca e valori di significatività basati sulla matrice posizione specifica

Hidden Markov Models (HMM) transizioni Krog, Haussler Eddy, Durbin stato Gli Hidden Markov Models (HMM) sono una classe di modelli probabilistici che si applicano a serie temporali o sequenze lineari. Un modello è caratterizzato da una determinata architettura composta da stati e da transizioni di stato. Ciascuno stato ha una data probabilità di emettere simboli o di effettuare una transizione. Il modello in figura rappresenta sequenze composte da due lettere (a,b) generate da due stati, ciascuno con una diversa probabilità di emissione. Partendo dalla stato 1 il modello ha generato una sequenza (aba) attraverso una successione di stati. Ciò che viene osservata è la sequenza di simboli, mentre la successione degli stati rimane nascosta (hidden). La probabilità combinata P(x, HMM) della sequenza di simboli osservata è il prodotto di tutte le probabilità di emissioni e transizioni.

Profili HMM inserzione match delezione Gli HMM possono essere usati per modellare allineamenti multipli di sequenze di una data famiglia (profili HMM). L architettura del modello prevede tre tipi di stati (m=match, i=inserzione, d=delezione), più uno stato finale (e=end) ed uno stato iniziale (b=begin). L HMM rappresentato in figura modella l allineamento multiplo delle cinque sequenze (tre colonne) sopra visualizzato. La probabilità di emissione dei vari aminoacidi derivano dalle frequenze osservate nell allineamento. Modelli generati con allineamento multipli possono essere impiegati per: 1) allineare nuove sequenze al modello; 2) individuare in un database sequenze aderenti al modello; 3) individuare corrispondenze tra una sequenza e un database di modelli.

Profili HMM: architettura e valori parametri I0 BEGIN I1 tm1i1 m1 tm1m2 m2 m8 END seq1 seq2 seq3 seq4 seq5 seq6 Seq7 123 45678 xxx--xxxxx x----xxxxx xxx--xxxxxxx------x xxx--xxxxx xxx--xxxxx xxxxxxxxxx tm1d2 D1 D2 Gli stati match corrispondono alle colonne in cui i simboli prevalgono sui gap. I parametri iniziali dipendono dal numero di simboli emessi e dal numero di transizioni (frecce che partono da uno stato). In questo modo, prima di leggere un allineamento le probabilità di emissione di ciascun amino acido dello stato m1 saranno em1(x) = 1/20, Le probabilità di transizione dallo stato m1 saranno tm1m2=1/3, tm1d2=1/3, tm1i1 =1/3. I valori dei parametri vengono quindi modificati in base all allineamento in ragione delle occorrenze dei caratteri in una colonna e le occorrenze delle transizioni.

Profili HMM: pseudocounts I1 I0 BEGIN HBA_HUMAN HBB_HUMAN MYG_PHYCA GLB3_CHITP GLB5_PETMA LGB2_LUPLU GLB1_GLYDI m1 m2 D1 D2 m8 vga--hagey v----nvdev vea--dvagvkg------d vys--tyets fna--nipkh iagadngagv END Quando una transizione o l emissione di un particolare simbolo non si osserva è necessario aggiungere finti conti ( pseudocounts ) per evitare valori di probabilità zero. Il sistema più semplice di pseudocounts è la regola di Laplace: aggiungere 1 a tutte le frequenze. Usando questo sistema nella prima colonna occorre aggiungere 17 conti per gli aminoacidi mancanti. Il numero totale sarà quindi (5+1)V+(1+1)F+(1+1)I+(0+17)x = 27. Le probabilità di emissione saranno e m1(v)= 6/27, em1(i)=2/27, em1(f)=2/27, em1(x)=1/27. Analogamente per le probabilità di transizione, in cui osserviamo 6 transizioni allo stato di match, 1 allo stato di delezione e zero allo stato di inserzione: t m1m2=7/10, tm1d2=2/10, tm1i1= 1/10. Questo sistema di pseudocount funziona solo quando il campione di sequenze è sufficientemente numeroso (>50); in altri casi vanno usati sistemi più sofisticati (misture di Dirichlet, misture basate sulle matrici di sostituzione, stime basate sull ancestore).

Profili HMM: weighting I parametri dell HMM vanno stimati assegnando un peso minore all informazione portata da sequenze simili ed un peso maggiore all informazione portata da sequenze più divergenti. Vi sono metodi di weighting basati su alberi filogenetici ed altri indipendenti da questi (Voroni, Maximum discrimination, Maximum Entropy). Tutti i sistemi di weighting soffrono di un problema comune. Se in un modello di una famiglia si inserisce una sequenza errata (non appartenente alla famiglia) questa avrà in proporzione molto peso sul modello finale. V In un intuitivo sistema di weighting si immagina di applicare un voltaggio alla radice dell albero e di pesare le sequenze in proporzione alla corrente che arriva a ciascun nodo.

Profilo HMM: Log odds scores emissioni(m) emissioni(i) transizioni

Questioni legate ai profili HMM Dato un allineamento, quali soni i valori dei parametri di un HMM che descrivono nel modo migliore possibile la conservazione (APPRENDIMENTO)? - costruzione di un HMM Qual è la sequenza ottimale di stati con cui un HMM genera una data sequenza (ALLINEAMENTO)? - allineamento di una sequenza all'hmm (Viterbi algorithm) Qual è la probabilità che una data sequenza sia stata generata da un dato HMM (VEROSIMIGLIANZA)? - appartenenza di una sequenza ad una famiglia descritta con HMM

Hmmer Sean Eddy Hmmer (pronunciato hammer ) è un pacchetto di programmi per creare ed usare modelli markoviani di allineamenti di DNA e proteine. I programmi principali sono: - Hmmbuild: creare un HMM a partire da un allineamento - Hmmalign: allineare sequenze ad un HMM - Hmmsearch: cercare un database di sequenze con un HMM - HMMpFAM: cercare un database di modelli con una sequenza

Protein family PFAM (acronimo di Protein Families) è un database di domini di proteine descritti con modelli markoviani. E diviso in due sezioni: pfam-a contiene allineamenti curati da esperti; pfam-b contiene sequenze che vengono automaticamente raggruppate.

Pfam

Pfam: family description

Ricerca di omologia in Pfam: anatomia delle proteine

Allineamento Allineamento tra tra HMMs HMMs Söding J. Protein homology detection by HMM-HMM comparison. Bioinformatics 21:951-960 (2005).