Allineamento multiplo

Dimensione: px

Iniziare la visualizzazioe della pagina:

Download "Allineamento multiplo"

Norberto Gastone Bernasconi
6 anni fa
Visualizzazioni

1 Allineamento multiplo

2 Allineamenti multipli Vs. allineamenti a coppie A B 1: 2: 3: 4: 5: 6: 1: 2: 3: 4: 5: 6:

3 Applicazioni dell allineamento multiplo Assemblaggio dei genomi Primers per PCR Consensi, motivi Profili, modelli markoviani Definizione di famiglie Alberi filgenetici Inferenze strutturali Inferenze funzionali

4 Significato biologico dell allineamento multiplo L allineamento multiplo riassume La storia evolutiva di una famiglia di proteine Quindi, si possono ricavare informazioni su: La conservazione dei residui dipendente dalla funzione La conservazione dei residui dipendente dalla struttura

5 Significato funzionale della conservazione TRYI_DROME : ENTK_PIG/8 : THRB_BOVIN : KLK1_MOUSE : CTRA_BOVIN : CTR1_ANOGA : CTRL_HALRU : IIGGSDQLIRNAPWQVSIQISAR----HECGGVIYSKEIIITAGHCLHER-SVTLMKV-----RVGA---QNHNYGG-TLVPVAAY--KVHEQFDSRFLH--- IVGGNDSREGAWPWVVALYYNG----QLLCGASLVSRDWLVSAAHCVYG----RNLEPSKWKAILG--LHMTSNLTSPQIVTRLIDEIVINPHYNRRRKD--- IVEGQDAEVGLSPWQVMLFRKSPQE--LLCGASLISDRWVLTAAHCLLYPPWDKNFTVDDLLVRIGK-HSRTRYERKVEKISMLDK-IYIHPRYNWKEN---- IVGGFNCEKNSQPWQVAVYRFT----KYQCGGILLNVNWVLTAAHCHND-----KYQV-----WLGK-NNFLEDEPSAQHRLVSK--AIPHPDFNMSLLNEHT IVNGEEAVPGSWPWQVSLQDKTG---FHFCGGSLINENWVVTAAHCGVT----TSDVV-----VAGEFDQGSSSEK-IQKLKIAK--VFKNSKYNSLTIN--- VVGGEVAKNGSAPYQVSLQVPGWG---HNCGGSLLNDRWVLTAAHCLVG-HAPGDLMV-----LVGT---NSLKEGG-ELLKVDK--LLYHSRYNLPRFH--- IVGGSNAAAGEFPWQGSLQVRSGTSWFHICGCVLYTTSKALTAAHCLSN--SASSYRL--G---FGMLR-MNNVDGTEQYSSVTS--YTNHPNYNGNAAG--- : 84 : 90 : 95 : 86 : 85 : 85 : 90 TRYI_DROME : ENTK_PIG/8 : THRB_BOVIN : KLK1_MOUSE : CTRA_BOVIN : CTR1_ANOGA : CTRL_HALRU : YDIAVLRLSTP-LTFGLSTRAINLAS---TSP--SGGTTVTVTGWGH----TDNG---ALSDSLQKAQLQIIDRGECASQKFGYGAD-FVGEETI SDIAMMHLEFK-VNYTDYIQPICLPE---ENQVFPPGRICSIAGWGK---VIYQG---SPADILQEADVPLLSNEKCQQQMP-EYN---ITENMM LDRDIALLKLKRP-IELSDYIHPVCLPDKQTAAKLLHAGFKGRVTGWGNRRETWTTSVAEVQPSVLQVVNLPLVERPVCKAS---TRIR--ITDNMF PQPEDDYSNDLMLLRLKKP-ADITDVVKPIDLPT---EEP--KLGSTCLASGWGS---ITPVKY--EYPDELQCVNLKLLPNEDCAKA---HIEK--VTDDML NDITLLKLSTA-ASFSQTVSAVCLPS---ASDDFAAGTTCVTTGWGL---TRYTNA--NTPDRLQQASLPLLSNTNCKKY---WGTK--IKDAMI NDIGLVRLEQP-VQFSELVQSVEYSE-----KAVPANATVRLTGWGR---TSANG---PSPTLLQSLNVVTLSNEDCNKK---GGDPGYTDVGHL YPNDIAVLRLTSSMDTSSSAVGPSVWLL VERLCRTNMYDQR--MGKTQWRWQHPNNLQKVDMTVLTNSDCSSRWSGISGAT-VNSGHI : 165 : 171 : 186 : 173 : 166 : 165 : 175 TRYI_DROME : ENTK_PIG/8 : THRB_BOVIN : KLK1_MOUSE : CTRA_BOVIN : CTR1_ANOGA : CTRL_HALRU : CAAS----TD-ADACTGDSGGPLVASSQ------LVGIVSWG-YRCADDNYPGVYADVAILRPWI CAGYE--EGG-IDSCQGDSGGPLMCLEN--NRWLLAGVTSFG-YQCALPNRPGVYARVPKFTEWI CAGYKPGEGKRGDACEGDSGGPFVMKSPYNNRWYQMGIVSWG-EGCDRDGKYGFYTHVFRLKKWI CAGDM--DGG-KDTCAGDSGGPLICDGV------LQGITSWGPSPCGKPNVPGIYTRVLNFNTWI CAGA----SG-VSSCMGDSGGPLVCKKN--GAWTLVGIVSWG-SSTCSTSTPGVYARVTALVNWV CTLTK---TG-EGACNGDSGGPLVYEGK------LVGVVNFG-VPCALG-YPDGFARVSYYHDWV CIFE----SG-RSACSGDSGGPLVCGNT------LTGITSWGISSCSGS-YPSVYTRVSSFYNWV : 218 : 230 : 250 : 229 : 223 : 218 : 228 Conservazione degli amino acidi catalitici in alcuni membri della famiglia della tripsina

(PDB 1tlk). Si noti la presenza di inserzioni o delezioni soprattutto in regioni corrispondenti a loop.

6 Significato strutturale dell allineamento multiplo PDBSUM of 1tlk a b c C d e f g Sequenze molto divergenti del domino immunoglobulinico allineate manualmente sulla base dell informazione della struttura di uno dei membri della famiglia (PDB 1tlk). Si noti la presenza di inserzioni o delezioni soprattutto in regioni corrispondenti a loop. Due residui di cisteina che formano un ponte disolfuro nel core idrofobico della proteina sono conservati in tutti i componenti della famiglia.

7 Informazioni strutturali ottenibili da un allineamento multiplo Regioni maggiormente conservate corrispondono probabilmente al sito attivo. Regioni ricche di inserzioni e delezioni corrispondono a loops. Posizioni invarianti con glicine o proline invarianti corrispondono spesso a turn Un pattern conservato di residui idrofobici alternati a residui idrofilici suggerisce un filamento beta superficiale. Un pattern conservato di residui idrofobici ogni 4 residui suggerisce l'esistenza di un alfa elica. Coppie di cisteine invarianti formano spesso ponti disolfuro (in particolare nelle proteine secrete).

8 Significato evolutivo dell allineamento multiplo In linea di principio esiste sempre un allineamento evolutivamente corretto. Tuttavia, non esiste un riferimento indipendente (come nel caso delle strutture cristallografiche), e la storia evolutiva delle sequenze deve anzi essere dedotta dall allineamento

9 Difficoltà dell allineamento multiplo Complessità del problema - Tempo di elaborazione Funzione oggettiva di punteggio - Peso da assegnare alle varie sequenze

10 Complessità dell allineamento multiplo Sulla superficie del cubo si hanno le matrici di confronto a coppie tra le sequenze A-B, B-C e A-C. L allineamento ottimale di tre sequenze (A-B-C) richiede il riempimento del cubo e la valutazione di tutte le possibili mosse all interno del cubo. La complessità di questo algoritmo è O(L N ), dove L è la lunghezza e N il numero delle sequenze. Per tre sequenze di 300 amino acidi il numero di confronti è 2.7 x Un algoritmo completo di programmazione dinamica è utilizzabile solo nel caso di tre sequenze.

11 Metodi per l allineamento multiplo Allineamento ottimale Programmazione dinamica (MSA) Allineamento euristico Progressivo globale (CLUSTALW,Pileup) locale (PIMA) Iterativo globale (PRRP) locale (DIALIGN)

12 Allineamento progressivo Allineamento di tre sequenze A, B, C per passi successivi Allineamento della coppia A-B DGEKFGPPQRSGQRSG.. DGERFGP-QRSGNRSG SeqA SeqB Aggiunta della coppia C al precedente allineamento consenso DHEKFGSSQRSGQRSG SeqC Allineamento multiplo DGEKFGPPQRSGQRSG.. DGERFGP-QRSGNRSG.... DHEKFGSSQRSGQRSG SeqA SeqB SeqC

13 Allineamento progressivo L'ordine di aggiunta delle sequenze è molto importante Il primo passo di un allineamento consiste nella scelta dell'ordine di aggiunta delle sequenze. Per questo vengono fatti tutti i possibili confronti a coppie (N*(N-1)/2) e viene costruito un albero per rappresentare le somiglianze. L'albero stabilisce l'ordine di aggiunta delle sequenze

Allineamento progressivo: CLUSTAL Higgins & Sharp 1988 Matrice di distanza ottenuta con confronti a coppie Albero (dendrogramma) di somiglianze

14 Allineamento progressivo: CLUSTAL Higgins & Sharp 1988 Matrice di distanza ottenuta con confronti a coppie Albero (dendrogramma) di somiglianze costruito dalla matrice Allineamento progressivo delle coppie (sequenzasequenza, sequenzaprofilo, profilo -profilo) utilizzando l albero come guida

15 CLUSTALW e CLUSTALX Allineamento delle globine ottenuto con CLUSTALW CLUSTALX. Stesso algoritmo con interfaccia grafica (PC)

16 Allineamento iterativo Il primo allineamento multiplo viene usato per predire un nuovo albero, nuovi pesi e nuovi allineamenti fino a che non si ha più un miglioramento nel punteggio dell allineamento. Implementato in PRRP,DIALIGN

17 Visualizzare ed editare allineamenti: GeneDoc

18 Rappresentazioni dell allineamento multiplo: conservazione

19 Rappresentazioni dell allineamento multiplo: sostituzioni

20 Misure quantitative della conservazione dei residui in un A.M. Sequence logos Profili Modelli markoviani (profili HMM)

21 Sequence logos Rappresentazione grafica del grado di conservazione delle colonne dell allineamento. Nel grafico è rappresentata in ordinata la conservazione come diminuzione di incertezza (bits). La misura dell'incertezza è proporzionale al logaritmo in base 2 del numero di simboli. La massima conservazione in bits è 2 per i nucleotidi e 4.32 per gli amino acidi.

22 Profili Sequenza di consenso dell allineamento HBA_HUMAN...vga--hagey... HBB_HUMAN...v----nvdev... MYG_PHYCA...vea--dvag-... GLB3_CHITP...vkg------d... GLB5_PETMA...vys--tyets... LGB2_LUPLU...fna--nipkh... GLB1_GLYDI...iagadngagv... Penalità apertura gap Gribskov et al 1987 Penalità allungamento gap Cons A C D E F G H I K L M N P Q R S T V W Y Gap Len V A A A D N V A E V Un profilo rappresenta l informazione di un allineamento multiplo assegnando a ciascuna colonna dell allineamento punteggi specifici per ciascun amino acido e per i gap.

23 Uso dei profili per la ricerca di omologia: PSI-Blast PSI-Blast= Position Specific Iterated Blast 1) Ricerca di omologia con una sequenza 2) Costruzione di un profilo con le sequenze significativamente simili 3) Nuova ricerca di omologia utilizzando il profilo

24 Profili HMM (hidden Markov models) inserzione match delezione I modelli markoviani sono rappresentazioni matematiche di un allineamento. Gli HMM possono essere usati per modellare allineamenti multipli di sequenze di una data famiglia (profili HMM). Forniscono una descrizione più accurata delle probabilità associate ad un allineamento multiplo.

25 Protein family PFAM (acronimo di Protein Families) è un database di domini di proteine descritti con modelli markoviani. E diviso in due sezioni: pfam-a contiene allineamenti curati da esperti; pfam-b contiene sequenze che vengono automaticamente raggruppate.

26 Pfam

27 Pfam: family description

28 Ricerca di omologia in Pfam: anatomia delle proteine

Documenti analoghi

Allineamento multiplo

Allineamento multiplo Allineamenti multipli Vs. allineamenti a coppie A 1: 2: 3: 4: 5: 6: B 1: 2: 3: 4: 5: 6: Significato biologico dell allineamento multiplo L allineamento multiplo riassume La storia