Confronto di sequenze: allineamento

Documenti analoghi
Omologia di sequenze: allineamento e ricerca

ALLINEAMENTO DI SEQUENZE

Algoritmi di Allineamento

Pairwise Sequence Alignment BIOINFORMATICA. Corso di Laurea in Ingegneria Informatica e Biomedica. Università Magna Graecia Catanzaro

FASTA. Lezione del

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

Programmazione dinamica

Allineamenti a coppie

Ricerca di omologia di sequenza

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0;

BLAST. W = word size T = threshold X = elongation S = HSP threshold

Allineamenti di sequenze: concetti e algoritmi

Le sequenze consenso

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2.

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing

Come si sceglie l algoritmo di allineamento? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione?

Bioinformatica ed applicazioni di bioinformatica strutturale!

A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I

Programmazione dinamica

Bioinformatics more basic notions

Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni:

Lezione 7. Allineamento di sequenze biologiche

Lezione 6. Analisi di sequenze biologiche e ricerche in database

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

La ricerca di similarità in banche dati

Allineamento e similarità di sequenze

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche

Perché considerare la struttura 3D di una proteina

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I 1 INTRODUZIONE

UNIVERSITÀ DEGLI STUDI DI MILANO. Giorgio Valentini. Bioinformatica. A.A semestre I 1 INTRODUZIONE

Lezione 6. Lo string matching

GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi

La ricerca di similarità: i metodi

Corso di Bioinformatica

Bioinformatica e Biologia Computazionale per la Medicina Molecolare

Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna).

Lezione 7. Allineamento di sequenze biologiche

Cerca la tua sequenza ed analizzala. 4-Utilizzando l intera sequenza NM_ quante ORF trovate nella ORF +3?

Metodi di Distanza. G.Allegrucci riproduzione vietata

17. LA DISTRIBUZIONE NORMALE E LA FUNZIONE DI GAUSS

COME CALCOLARE IL PUNTEGGIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi

Codice Genetico (segue)

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1

Edit distance. v intner RIMDMDMMI wri t ers

Metodo della matrice a punti

Dipartimento di Fisica a.a. 2004/2005 Fisica Medica 2 Test di ipotesi 2/5/2005

la edit distance tra X e Y è la distanza relativa all allineamento (o agli allineamenti) che minimizza tale distanza.

Informatica e Bioinformatica A. A

Informatica e biotecnologie

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

Lezione 7. Allineamento di sequenze biologiche

Biologia Molecolare Computazionale

ALLINEAMENTO DI SEQUENZE

Prova scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012

Allineamenti Multipli di Sequenze

Lezione 1. Le molecole di base che costituiscono la vita

Interazioni proteina-dna

Probabilità congiunta

6) Descrivere con un diagramma a blocchi un algoritmo che legga da input due numeri ne calcoli il prodotto in termini di somme ripetute.

Sintenia e colinearità

MODELLO SCHEDA INSEGNAMENTO. II II Luigi Cerulo

Organizzazione del genoma umano

SCHEDA DIDATTICA N 7

27 Marzo (a) Formulare una ipotesi sul modello tempo di vita di questa valvola e sottoporla a verifica.

Genetica dei caratteri quantitativi

HI-TECH IN SANITA'. MINI-INVASIVITA' 2.0: nuove tecnologie al servizio dell'appropriatezza e della bioetica professionale

1. Si scriva una function Matlab che implementa il seguente metodo di punto fisso

Corso di Bioinformatica. Docente: Dr. Antinisca DI MARCO

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

Allineamento multiplo

MODELLI QUANTITATIVI. f x r = c

Analisi della struttura primaria delle proteine

Ulteriori Conoscenze di Informatica e Statistica

Allineamento multiplo di sequenze

IL PALLINOMETRO SCOPO

La distribuzione normale

Progetto Tandem Biologia saperi minimi Anno accademico Marzo 2012 COGNOME...

La mappatura dei geni umani. SCOPO conoscere la localizzazione dei geni per identificarne la struttura e la funzione

LE MUTAZIONI. MUTAZIONE: MODIFICAZIONE DEL MESSAGGIO GENETICO, cambiamento raro, casuale, permanente ed EREDITABILE del DNA RIMESCOLAMENTO!!

La GENETICA DELLE POPOLAZIONI. studia con modelli matematici, a livello di gruppi di individui, variabilità genetica

Laboratorio di Matematica e Informatica 1

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Bioinformatica. Analisi del genoma

Altrimenti, il M.C.D. di a e b è anche divisore di r (e.g. a=15,b=6,r=3 che è il M.C.D.)

FOGLIO ELETTRONICO. Microsoft Office EXCEL. LibreOffice CALC CALC. E' un software che assegna come estensione ai propri file (foglio elettronico).ods.

Parte 1 : Inferenza. Varianza nota test Z. Distribuzioni asintotiche dei test. Varianza ignota test t ad un campione

Allineamento di sequenze proteiche

TASSONOMIA O SISTEMATICA

INFERENZA STATISTICA I (CANALE B)

Calcolo dell n-esimo numero di Fibonacci

L organizzazione del genoma. Prof. Savino; dispense di Biologia Molecolare, Corso di Laurea in Biotecnologie

Metodi statistici per le ricerche di mercato

Relazione sequenza-struttura e funzione

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Transcript:

Confronto di sequenze: allineamento TTCCCCTTCCTC TCCTTT-CT ** * *** ** ***** 1/11/15

Omologia Omologia e e Somiglianza Somiglianza Reeck et al, "Homology" in Proteins and Nucleic cids. Cell (1987) Quando si confrontano due sequenze o strutture si usano spesso indifferentemente i termini somiglianza o omologia per indicare che esiste un rapporto di vicinanza tra gli oggetti del confronto. Tuttavia i due termini si riferiscono ad aspetti diversi del confronto. Somiglianza Omologia L omologia è una proprietà qualitativa del confronto La somiglianza è una proprietà quantitativa del confronto 1/11/15

Errori Errori comuni comuni nel nel confronto confronto di di sequenza sequenza La sequenza X ha l 8% di omologia con la sequenza Y La sequenza X ha una omologia significativa con la sequenza Y La sequenza X ha l 8% di residui identici alla sequenza Y La sequenza X ha 16 residui su 2 identici alla sequenza Y Le sequenze X e Y hanno una somiglianza dell 8% maize gene, encoding a NDPH-binding enzyme highly homologous to Petrucco, S., Percudani, R., and Ottonello, S. Plant Cell, 1996 1/11/15

Le Le sequenze sequenze sono sono confrontate confrontate mediante mediante allineamento allineamento Sequenze allineate Osservazione TTCCCCTTCCTC TCCTTT-CT ** * *** ** ***** Sequenza ancestrale TCCCCTTTCCTC? Ipotesi TTCCCCTTCCTC TCCTTT-CT 1/11/15

Soluzione grafica: dot plots ibbs and McInttyre, 197 Una sequenza nella riga superiore Una sequenza nella colonna sinistra Inserire un pallino (dot) ogni volta che si incontrano due lettere uguali tra righe e colonne Unire le diagonali per identificare le aree di sovrapposizione C T C C T T gaps C T C C C C I gaps sono rappresentati da interruzioni verticali (nella sequenza della riga) o orizzontali (nella sequenza della colonna)

Dot plots: filtraggio Migliora il rapporto segnale/rumore nei dot plots W =1, S = 1 W =11, S = 7 W = 23, S = 15 Una finestra di confronto W Un valore di stringenza S Confrontare due segmenti di lunghezza W tra righe e colonne e inserire un pallino se il numero di match è > di S vanzare di una lettera la finestra W e ripetere il confronto

Dot plots: interpretazioni Self dot-plot, alta stringenza Inserzione o delezione Self dot-plot, bassa stringenza Duplicazione in tandem Due sequenze parzialmente simili Inversione

Self dot plots: identificazione di ripetizioni Il confronto di una sequenza con se stessa può evidenziare la presenza di regioni ripetute. Le ripetizioni sono evidenti come zone di somiglianza esterne alla diagonale principale Ripetizioni complesse danno un pattern a segmenti Ripetizioni semplici (es. poli) danno un pattern a macchie Pattern caratteristico della ripetizione di due motivi complessi nella proteina FIS2 (fattore di trascrizione) di. thaliana. Luo et al 1999. PNS 96: 296 31

Dot plots: Dotter Programma: Dotter (Sonnhammer & Durbin) http://www.cgr.ki.se/cgr/groups/sonnhammer/dotter.html Dotter è un programma per il confronto grafico di sequenze che utilizza una scala di grigio dinamica per la stringenza

enome dot plot: analisi della sintenia Sintenia := conservazione dell'ordine dei geni sul cromosoma Confronto di due ceppi di Escherichia coli Confronto di due specie di Pyrococcus

Limitazioni dei dot plot Si basano sull analisi visiva Non forniscono una misura quantitativa dell allineamento Non permettono di misurare la significatività statistica di un allineamento Per ovviare a queste limitazioni occorre avere una funzione oggettiva per l allineamento

llineamento llineamento di di sequenze sequenze biologiche biologiche DN: alfabeto di 4 lettere + gaps TTC C-T Proteine: alfabeto di 2 lettere + gaps SPRRNQ-CTCC NPR-NQSCCC 1/11/15

Definizione Definizione di di allineamento allineamento : La sovrapposizione ottimale tra le lettere delle due sequenze senza modificarne l ordine DTE 2 sequenze un sistema di punteggio per le sovrapposizioni un sistema di penalità per i gaps OTTENERE Un appaiamento ottimale che conservi l ordine delle lettere ammettendo l'introduzione di elementi vuoti in modo da produrre un punteggio totale più alto 1/11/15

Il Il punteggio punteggio di di un un allineamento allineamento è è la la somma somma del del punteggio punteggio dei dei singoli singoli elementi elementi Sequenze da allineare 1)C 2)C Sequenze allineate Punteggio = 2 C -C Contributi individuali al punteggio C - C +1 +1-1 +1 Trovare la sovrapposizione ottimale tra sequenze equivale a trovare il massimo valore per l'espressione: Punteggio totale= somiglianze penalità gap 1/11/15

Criteri Criteri per per la la somiglianza somiglianza di di nucleotidi nucleotidi e e amninoacidi amninoacidi Nucleotidi: identità CTCCTCTCTCCCT TCT-T-CTCTCCT *** *** ** ******* ** ******** *** minoacidi: identità + somiglianza VLSSDKTNVKWKVHEYELERMFL VLSDKNIKW-KVQDHELERMPL ***:*** *:**** ***: **: ******** * 1/11/15

Come Come quantificare quantificare la la somiglianza somiglianza degli degli aminoacidi? aminoacidi? Venn diagram of the proteinogenic amino acids according to their physicochemical properties Difficile stabilire criteri oggettivi per le somiglianze fisico-chimiche degli amino acidi. Non è possibile sapere a priori quali delle varie caratteristiche fisico-chimiche sono più importanti per le proteine 1/11/15

Matrici Matrici empiriche empiriche di di somiglianza somiglianza Margaret Dayhoff (1978) 1/11/15

Matrici Matrici empiriche empiriche di di somiglianza somiglianza Margaret Dayhoff (1978) Calcolo Calcolodiditutte tuttelelesostituzioni sostituzioniosservate osservatetra traset setdidiproteine proteine altamente altamentesimili simili(identità (identità>85%) >85%) 1/11/15

Matrici Matrici empiriche empiriche di di somiglianza somiglianza Margaret Dayhoff (1978) Calcolo Calcolodiditutte tuttelelesostituzioni sostituzioniosservate osservatetra traset setdidiproteine proteine altamente altamentesimili simili(identità (identità>85%) >85%) Costruzione Costruzionedidiuna unamatrice matricedidisostituzione sostituzione( (i,ji,j))con conleleprobabilità probabilità che cheun unaminoacido aminoacidoj jmuti mutiininun unaminoacido aminoacidoi iininuna unaunità unità evolutiva evolutiva(1(1pm PM)) 1/11/15

Matrici Matrici empiriche empiriche di di somiglianza somiglianza Margaret Dayhoff (1978) Calcolo Calcolodiditutte tuttelelesostituzioni sostituzioniosservate osservatetra traset setdidiproteine proteine altamente altamentesimili simili(identità (identità>85%) >85%) Costruzione Costruzionedidiuna unamatrice matricedidisostituzione sostituzione( (i,ji,j))con conleleprobabilità probabilità che cheun unaminoacido aminoacidoj jmuti mutiininun unaminoacido aminoacidoi iininuna unaunità unità evolutiva evolutiva(1(1pm PM)) Derivazione Derivazionedelle dellematrici matricididisostituzioni sostituzioniper perdiverse diverseintervalli intervalli evolutivi evolutivitramite tramitemoltiplicazione moltiplicazionedella dellamatrice matriceunitaria unitaria 1/11/15

Matrice Matrice PM1 PM1 PM: Una mutazione accettata su 1 residui R N D C..9867.2.9.1.3 R.1.9913.1..1 N.4.1.9822.36. D.6..42.9859. C.1.1...9973. MTRICE. PM 1 Probabilità che un aminoacido di una colonna j sia sostituito da un aminoacido di una riga i in un intervallo evolutivo di una singola mutazione su 1 residui 1/11/15

Matrici Matrici della della serie serie PM PM Tutte le matrici della serie sono derivate per moltiplicazione della matrice unitaria (PM1): PM1 X PM1 = PM2 PM3 = 3 sostituzioni su 1 siti (~ 75% identità) PM12 = 12 sostituzioni su 1 siti (~ 4% identità) PM25 = 25 sostituzioni su 1 siti (~ 2% identità) 1/11/15

Log-odds Log-odds PM25 PM25 Frequenza osservata sostituzione i j Log lo g o d d s s c o r e Frequenza attesa (Fi x Fj) 4 2-2 -4 1 2 3 4 f(o s s e rv a te )/f(a tte s e ) 5 Le matrici PM attualmente usate sono simmetriche e nella forma log odds. I valori esprimono il rapporto tra le probabilità di sostituzione date dall'evoluzione e le probabilità di sostituzione date dal caso. 1/11/15

BLOSUM: BLOSUM: BLOck BLOck SUbstitution SUbstitution Matrix Matrix Henikoff and Henikoff, 1992 Blocchi conservati > 45% identici Blosum45 > 62% identici Blosum62 > 8% identici Blosum8 1/11/15

Log-odds Log-odds Blosum62 Blosum62 1/11/15

Confronto Confronto Blosum Blosum -- PM PM PM Media score idrofilici = 4 Media score idrofobici =8.1 BLOSUM Media score idrofilici = 5 Media score idrofobici =5.2 1/11/15

Matrici per proteine transmembrana 4 L H D P D N M F N Y V P L V P R K N F P T F D S L T Q T Y W I N L D H E S S N F out V L W M YS W W V L T Q F S F V T L S V V L L M T M I M L S W P V I F S L Y F L S L S K II I in R R +3 I N L D N F F P Y L L K F Q S V I S F L I L E C M T W S F R M S S L N 18 D 192 D T F V M III R R +1 V W P L V V L T W I I W F P Y M C H L L V S S P S Y L F T I S M K V L R E N R H Y T H +3 S L S N 25 N M R F V V IV V V F L T W L H N VI H P R F W T T I C M V W I V V L V T P C N S I W L S Y V T L V F S V I C S V V T E R T L E V Y D Y F E L E D D I V K VIII VII L Q D E Y R L Y N P S Y C T IX K L K F V I L I N I E T S D L L Y I S E K I P D 128 W I V H D F I I H L Y F L V V I T 2 W Y Q V L N L D Q S H K Y V N I I F F C F Y S T I L M XI N L F I I P D 2 L V D D L E E E T R L S E X I S D D D T V P K M S S E N N S V E L P E R E K S 12 TbMT1 NH4+ transporter Barbarina et. al

Substitution Matrix for transmembrane proteins Jones et al. 1994 Media score idrofilici (S,T,D,E,Q,H,R,K) = 9.2 Media score idrofobici (M,I,L,V,F,Y,W) = 5.2

Matrice Matrice BLOSUM BLOSUM di di sostituzione sostituzione nucleotidica nucleotidica C T 5-4 -4-4 C T 5-4 -4 5-4 5 Per i nucleotidi sono utilizzati valori arbitrari assegnati sulla base dei valori medi delle matrici aminoacidici. Permette di utilizzare gli stessi valori di penalità per i gaps. 1/11/15

II valori valori nelle nelle matrici matrici di di sostituzione sostituzione determinano determinano il il punteggio punteggio di di un un allineamento allineamento Score allineamento: 15 Seq1 Seq2 V D S V E S L Score 4 2 C Y C Y 4-11 9 7 Blosum62 1/11/15

Scelta Scelta delle delle penalità penalità per per ii gap gap Punteggio totale= somiglianze penalità gap La scelta della penalità risponde alla domanda: Qual'è il guadagno di punteggio necessario per poter inserire un gap? d esempio: se la penalità scelta è di 1 e la matrice usata è la blosum62 un gap sarà inserito vengono sovrapposte: due alanine (punteggio=5) + due proline (punteggio=7) oppure due triptofani (punteggio=11)...wttp......wt-p......wttp......wtp... Penalità gap < 12 Penalità gap > 12 1/11/15

Penalità Penalità per per apertura apertura gap gap e e penalità penalità per per allungamento allungamento gap gap La penalità per i gap è dstinta in due termini. 1) Penalità apertura gap 2) Penalità estensione gap (inferiore) Eventi di delezione/inserzione possono interessare interi segmenti di DN Regioni diverse delle sequenze biologiche hanno tolleranza diversa alle inserzioni/delezioni 1/11/15

Regioni Regioni diverse diverse delle delle sequenze sequenze hanno hanno tolleranza tolleranza diversa diversa alle alle inserzioni/delezioni inserzioni/delezioni Loop: una o più inserzioni/delezioni tollerate lpha eliche: inserzioni/delezioni difficilmente tollerate 1/11/15

Casi Casi critici critici per per la la scelta scelta delle delle penalità penalità per per ii gap gap mrn vs ene: penalità apertura gap alta penalità allungamento ~ mrn ene Frammenti di sequenziamento: penalità apertura gap bassa penalità allungamento alta -C-TTCCCCCTT-TTCCCCCCC-CCTT-CCgCCTTTTTCCCCCCC- 1/11/15

Formula Formula generale generale dello dello score score di di un un allineamento allineamento Score = S somiglianze S penalità gap (Sapertura + Sestensione) 1/11/15

La La ricerca ricerca combinatoriale combinatoriale dell'allineamento dell'allineamento ottimale ottimale non non è è un un strategia strategia efficiente efficiente I programmi di allineamento non esplorano tutte le combinazioni possibili per trovare la sovrapposizione ottimale Combinazioni possibili 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 1 1 = = = = = = = = = = 3 11 51 255 1323 719 3783 25823 1129875 6242571 Il numero di combinazioni possibili per sequenze di n*m lunghezza n e m è proporzionale a 2. [O(2n*m)] Questa soluzione avrebbe tempi di calcolo elevatissimi anche per sequenze di lunghezza modesta 1/11/15

(lgoritmo) dal matematico arabo l Khworismi 75-83 LORITMO := Una completa, non ambigua procedura per risolvere un problema in un definito numero di passi. Un algoritmo non lascia nulla di indefinito e non richiede intuizioni per raggiungere lo scopo Esempi di algoritmi: un programma al computer un protocollo sperimentale una ricetta di cucina

lgoritmo: Diagramma di flusso http://incomaemeglio.blogspot.com/215/1/lalgoritmo che risolve tutti i problemi.html

lgoritmi lgoritmi efficienti efficienti per per la la ricerca ricerca di di allineamenti allineamenti ottimali ottimali Per la ricerca dell'allineamento ottimale si usano algoritmi di programmazione dinamica llineamento globale (Needleman and Wunsch, JMB 197) llineamento locale (Smith and Waterman, JMB 1981) Il numero di calcoli per trovare un allineamento con questi algoritmi è proporzionale a n*m. [ O(n*m)] 1/11/15

IlIl dotplot dotplot contiene contiene implicitamente implicitamente tutti tutti gli gli allineamenti allineamenti possibili possibili C T C C C T C T C - C C T C C C T C T C T C C C T * * * * * * * * * Il miglior percorso nella matrice dotplot costituisce l'allineamento ottimale 1/11/15

L'allineamento L'allineamento può può essere essere scomposto scomposto in in parti parti Seq1 Seq2 W D - F S V Y W E F S L V Y 11 Score Seq1 Seq2 13 1-1 + = 13 W D - F S - V Y W E F S L V Y 11 Score 2-1 6 4 2-1 6 4-1 4 7 13 + 1 = 14 Il punteggio di un allineamento è la somma del punteggio di una parte dell'allineamento + il punteggio della parte rimanente 1/11/15

Calcolo Calcolo del del miglior miglior percorso percorso Milano Roma Napoli Il percorso più breve da a C passando per B è la somma dei percorsi più brevi tra e B e tra B e C 1/11/15

Calcolo Calcolo dell'allineamento dell'allineamento con con algoritmo algoritmo di di programmazione programmazione dinamica dinamica llineamento globale: step 1 Inizializzazione Schema di punteggio : match=1 mismatch= gap = P W H E E H E W H E E 1/11/15

Calcolo Calcolo dell'allineamento dell'allineamento con con algoritmo algoritmo di di programmazione programmazione dinamica dinamica llineamento globale: step 2 Riempimento L'inserimento del valore M(i,j) richiede i valori: M(i 1,j 1) M(i 1,j) M(i,j 1) P W H E E H E W H E E 1/11/15

Calcolo Calcolo dell'allineamento dell'allineamento con con algoritmo algoritmo di di programmazione programmazione dinamica dinamica llineamento globale: step 2 Riempimento H E W H E E P 1 1 1 1 W 1 1 1 2 H E E M(i,j) M(i-1,j-1)+s(xi,yj) = max M(i-1,j) M(i,j-1) s(xi,yj) è il punteggio della coppia di residui i,j Schema di punteggio usato: match=1; mismatch=; gap =; 1/11/15

Calcolo Calcolo dell'allineamento dell'allineamento con con algoritmo algoritmo di di programmazione programmazione dinamica dinamica llineamento globale: step 3 Traceback Il percorso a ritroso definisce l'allineamento HEWHE-E P---W-HEE H E W H E E P 1 1 1 1 1 1 1 1 W 1 1 1 2 2 2 2 2 H 1 1 1 1 1 2 2 3 3 3 E 1 2 2 2 2 2 2 3 4 4 1 2 3 3 3 3 3 3 4 4 E 1 1 3 3 3 3 3 3 4 5 1/11/15

llineamento globale Needleman and Wunsch, JMB 197 Matrice costruita con Blosum62 e penalità per i gap. Ogni movimento in orizzontale o in verticale è penalizzato (penalità = -8). La riga e le colonne aggiunte tengono conto della penalità per i gaps.

Vari tipi di allineamento a coppie lobale Locale Es. proteine o sequenze di DN omologhe Es. proteine che condividono un dominio. Un esone rispetto all intero gene ccavallato Es. frammenti di un sequenziamento Ripetuto Es. una sequenza di un promotore rispetto ad una porzione genomica.

llineamento accavallato llineamento globale che non penalizza i gap terminali. Il massimo per il traceback è identificato nella riga o nella colonna terminali

llineamento locale (SW) Smith & Waterman,JMB 1981 Identifica la miglior sottosequenza in comune tra due sequenze. Il traceback parte dal miglior punteggio (dovunque nella matrice) e si ferma quando si raggiunge lo zero. I valori negativi sono considerati uguali a zero

llineamento ripetuto llineamento locale che considera diversi massimi al di sopra di una determinata soglia (T) e diversi traceback. La matrice è modificata in funzione della soglia fissata (in questo caso 2).

llineamenti llineamenti globali globali e e allineamenti allineamenti locali locali 1) CTCTTCCTT 2) TTTTTT Un algoritmo di allineamento globale costringe le sequenze a sovrapporsi per l'intera estensione indipendentemente dalla somiglianza. Es: CTCTTCCTT TT---TT---TT Un algoritmo di allineamento locale riporta la sovrapposizione solo per la porzione più somigliante. Es: CTT -TT 1/11/15

llineamento globale Vs allineamento locale llineamento locale llineamenti globali possibili

llineamenti llineamenti di di sequenze sequenze nucleotidiche nucleotidiche e e aminoacidiche aminoacidiche a) b) UUC UCU UUU CC ** * ** F F * S T : * Somiglianza (Identità) = 55% Somiglianza = 1% llineamento delle stesse sequenze utilizzando le sequenze nucleotidiche codificanti (a) o la traduzione in amino acidi (b) 1/11/15

Significatività Significatività di di un un allineamento allineamento Sequenze allineate Osservazione TTCCCCTTCCTC TCCTTT-CT ** * *** ** ***** Ipotesi OMOLOI? CSO? P (omologia) + P (caso) = 1 [solo quando P (caso) ] 1/11/15

Significatività Significatività statistica statistica e e omologia omologia Se le probabilità casuali di un punteggio di un allineamento sono molto basse (< 1 5), l'allineamento è significativo llora si accetta l'ipotesi contraria: La somiglianza tra le sequenze deriva da omologia 1/11/15

Calcolo Calcolo della della probabilità probabilità casuale casuale di di un un allineamento allineamento Sequenze originali llineamento Seq1 Seq2 Seq1 Seq2 V D C - C Y V E C L C Y Score 4 (matrice Blosum62, gap= 11) V D C C Y V E C L C Y 2 Score = 2 9-11 9 7 Sequenze randomizzate llineamento Seq1 Seq2 Seq1 Seq2 (matrice Blosum62, gap= 11) Score = 9 Frequenza C D V Y C C V E Y L C Score C D V Y - C C V E Y L C 9-3 -2 7-11 9 Distribuzione score casuali Ripetere (es. 1. volte) salvando tutti i punteggi Score allineamento Score 1/11/15

llineamenti llineamenti significativi significativi e e casuali casuali Human hemoglobin (141 aa). Human myoglobin (153 aa) VLSPDKTNVKWKVHEYELERMFLSFPTTKTYFPHF-DLS-----HSQ ::.. :..::::.:...:.:.: :.:. :.:. :.:.:...:.. LSDEWQLVLNVWKVEDIPHQEVLIRLFKHPETLEKFDKFKHLKSEDEMKSED VKHKKVDLTNVHVDDMPNLSLSDLHHKLRVDPVNFKLLSHCLLVTLHLP.: ::.:.::.........:.. :: :.....:.:...:... : LKKHTVLTLILKKKHHEEIKPLQSHTKHKIPVKYLEFISECIIQVLQSKHP EFTPVHSLDKFLSVSTVLTSKYR-----..:...: :.....:.:. DFDQMNKLELFRKDMSNYKELFQ random score dist. alignment score Punteggio allineamento = 176 Chicken lysozyme (129 aa) Bovine ribonuclease (124 aa) alignment score KVFRCELMKRHLDNYRYSLNWVCKFESNFNTQTNRNTDSTDYILQINS :. ::..:..:..... :...:. :............. KET----KFERQHMDSSTSSSSNYCNQMMKSRNLTKDRCKPVNTFVHESLDVQ RWWCNDRTP--SRNLCNIPCSLLSSDITSVNCKKIVSDDMNWVWRNRCKT :........ :..:...:.....:.....: :.:. V--CSQKNVCKNQTNCYQSYSTMSITDCRET-SSKYPNCYKTTQNKHIIVCEN DVQWIRCRL.... PYVPVHFDSV random score dist. Punteggio allineamento = 3 1/11/15

Statistica Statistica parametrica parametrica degli degli score score casuali casuali Inizialmente la distribuzione dei punteggi casuali veniva approssimata con una curva gaussiana (Dayhoff et al.). In realtà la distribuzione dei punteggi casuali segue una curva detta dei valori estremi (EVD, Extreme value distribution), che è asimmetrica verso i valori più alti (ltschul et al.) Probabilità casuali di un allineamento con score S 1/11/15

Calcolo Calcolo della della significatività significatività secondo secondo la la E.V.D E.V.D E=Kmne S E: Numero di segmenti attesi con un punteggio maggiore di un dato score S Dove n e m sono le lunghezze delle due sequenze e K e sono parametri stimati con fitting da allineamenti di sequenze casuali per una determinata matrice di somiglianza e penalità di gap. Questa statistica è pienamente valida solo per gli allineamenti locali K=.1; =.3; m,n=1 P 1 e E Se E è grande P 1 Se E è piccolo (E<.1) P E significance S i g n i f i c a n c e (Log ( L o g scale) s c a le ) 1 -E X P (-.1 * 1 * 1 * E X P (-.3 * X )) 1 EE 1 P 1 P. 1. 1 2 4 6 S c o re 1/11/15

llineamenti llineamenti lunghi lunghi producono producono somiglianze somiglianze più più significative significative zona sicura zona crepuscolare zona di mezzanotte Significatività dell'allineamento di proteine in base alla identità% e alla lunghezza dell'allineamento. llineamenti lunghi risultano significativi anche in presenza di identità basse. Tuttavia al di sotto del 2% di identità diventa difficile la distinzione tra somiglianze casuali e somiglianze per omologia. dattata da B. Rost, 1999. 1/11/15

Somiglianza Somiglianza in in sequenza sequenza e e in in struttura struttura Relationship between sequence and structural divergence of proteins 1/11/15

Sequenze Sequenze molto molto diverse, diverse, strutture strutture sovrapponibili sovrapponibili benzoylformate decarboxylase (BFD) PDB code: 1bfd Bassa somiglianza di sequenza (2% Id). Strutture altamente somiglianti (<3 Å r.m.s.d.) pyruvate decarboxylase (PDC) PDB code: 1pvd 1/11/15

Strutture Strutture simili, simili, funzioni funzioni molto molto diverse diverse enerale somiglianza di struttura (r.m.s.d 1Å) Differenze al sito attivo HIU idrolase enzima della degradazione delle purine Transtiretina trasportatore dell'ormone tiroideo Cendron et al. JMB, 26 1/11/15

Strutture Strutture (origini) (origini) diverse, diverse, stessa stessa funzione funzione N H H N O 2 O (S ) O N H N H H S - a lla n t o in PuuE DL1 O N H O 4 O - 2 2 1 N H N H N H 3 2 O H a lla n to a t e llantoinasi DL1 (metallo-dipendente) llantoinasi PuuE Ramazzina et al. JBC, 28 1/11/15

Implicazioni Implicazioni della della somiglianza somiglianza Una somiglianza significativa di sequenza omologia - evoluzione convergente delle sequenze inesistente Una somiglianza significativa di struttura (omologia) - evoluzione convergente delle strutture molto rara Una somiglianza di funzione! omologia - evoluzione convergente delle funzioni piuttosto frequente 1/11/15

Implicazioni Implicazioni dell'omologia dell'omologia L'omologia conservazione di struttura (fold). - Sequenze che hanno strutture diverse possono essere considerate non omologhe L'omologia! conservazione di sequenza - Sequenze che non hanno allineamenti significativi possono essere omologhe. L'omologia! conservazione di funzione - Sequenze omologhe possono avere funzioni differenti. 1/11/15