Metodi per il sequenziamento di proteine

Analisi e purificazione di proteine elettroforesi ultracentrifugazione cromatografia frammenti specifici sequenziamento struttura primaria livelli superiori contesto fisiologico funzione

Elettroforesi macromolecole cariche migrano in un campo elettrico in solvente non conducente con velocità u= ZeE η Z: numero di cariche per molecola e: 1.6x10-19 C E: campo elettrico (volt/cm) η: coefficiente di attrito

Mobilità elettroforetica µ = E u Elettroforesi su gel LogM = a bx M: peso molecolare x: distanza percorsa nel gel Log M x gel sopprime le correnti convettive provocate da gradienti di temperatura funziona da setaccio molecolare

Condizioni denaturanti La miscela di proteine viene disciolta in: Sodio Dodecil Solfato (SDS) * + mercaptoetanolo [HS-CH 2 -CH 2 -OH]** 1 SDS / 2 residui amino acidici si legano alla catena principale carica negativa netta massa della proteina carica proteina-sds>>carica proteina nativa *Detergente anionico che spezza i legami non covalenti ** Riduce i ponti disolfuro

Figure 8-17 Molecular Biology of the Cell ( Garland Science 2008)

Figure 8-18a Molecular Biology of the Cell ( Garland Science 2008)

Elettroforesi su gel di poliacrilamide i gel di poliacrilamide sono chimicamente inerti varie dimensioni dei pori setaccio molecolare migliora l efficienza dell elettroforesi

Figure 8-18b Molecular Biology of the Cell ( Garland Science 2008)

colorazione con argento o con blu Coomassie 1 dalton = 1/12 massa del 12 C = 1.66053886 10-27 Kg amu : unità di massa atomica = massa del protone 1 amu = 1.6605402 10-27 Kg

Sensibilità del metodo Blu Coomassie bande contenenti 0.1 µg di proteina argento bande contenenti 0.02 µg di proteina Si possono distinguere proteine che differiscono in massa di circa il 2% A: 40 kd circa 10 residui di differenza B: 41 kd

Focalizzazione isoelettrica pi = punto Isolelettrico = ph a cui la carica netta è zero citocromo C pi = 10.6 albumina pi = 4.8 elettroforesi in gradiente di ph (senza SDS) si possono separare proteine che differiscono tra loro di una sola carica

Massa pi focalizzazione isoelettrica + elettroforesi su gel con SDS gel da focalizzazione isoelettrica 1. orizzontalmente elettroforesi 2. verticalmente su gel con SDS macchie su 2 dimensioni Proteine di E.coli sono state separate > 1000 proteine in un singolo esperimento

Purificazione di proteine nella loro forma nativa (struttura 3D intatta) si sfruttano 1. dimensioni 2. solubilità 3. carica 4. affinità con molecole specifiche test per l attività catalitica test per la purezza (SDS)

1. Separazione mediante dialisi separazione delle proteine da molecole molto più piccole

1. Gel-cromatografia = cromatografia per filtrazione su gel insolubile, ma altamente idratato le molecole più piccole entrano nei granuli e le grandi no le grandi passano più velocemente

raccogliendo in tempi diversi all uscita della colonna si possono separare proteine di dimensioni diverse e con diversa solubilità

3. Cromatografia a scambio ionico ph=7 carica netta positiva attacco a COO - carica netta negativa nessuna interazione

4. Cromatografia di affinità esempio: Concanavalina A alta affinità per il glucosio colonna con glucosio la proteina si attacca il resto scorre aggiunta di glucosio liberazione della proteina colonna G G proteina aggiunta glucosio colonna G G proteina G G

Ultra-centrifugazione refrigerazione campione sedimentato vuoto motore

F 2 ( ) 2 c = m ω r = m 1 v ρ ω r v : volume specifico della proteina ρ : densità della soluzione v = f = Fc f : velocità = coeff. m di ( 1 v ρ ) f frizionale sedimen. ω 2 r della = costante proteina = fattore di galleggiamento s = v coeff. di sediment. = 2 ω r = m ( 1 v ρ ) f [s] = Svedberg (S) 1S = 10-13 sec

Velocità di sedimentazione massa (a parità di forma e densità) (densità della molecola) -1 funzione (complicata) della forma (f ) funzione della densità della soluzione (ρ) vρ < 1 vρ = 1 vρ > 1 galleggiamento immobilità affondamento

Ribonucleasi A (12.4 kd) Emoglobina (68 kd) Fibrinogeno (330 kd) RNA ribosomale (1100 kd) Ribosoma E.coli (2500 kd) Virus mosaico tabacco (4x10 4 kd) Batteri Lisosomi La centrifugazione può essere usata per separare molecole con diversi coefficienti di sedimentazione 1 10 10 2 10 3 10 4 S

Esempio Molecola anticorpale: Ultracentrifuga: Accelerazione centrifuga: PM = 150 kd r = 8 cm, 75000 rivoluzioni/ min (rpm) 4.9 x 10 8 cm/s 2 5 x 10 5 g se v (proteina) = 3.4 x 10-4 cm/s allora s = 7S

Sedimentazione all equilibrio Peso Molecolare (PM) centrifugazione a bassa velocità gradiente di concentrazione (sedimentazione bilanciata dalla diffusione) m = (1 v 2kT ρ ) ω 2 ln c 1 ( r c 2 2 2 2 1 r ) m: massa proteina c i : concentrazioni a distanza r i dall asse di rotazione k: costante di Boltzmann T: temperatura

concentrazione aa Sequenziamento per mezzo della degradazione di Edman i. composizione in a.a. Ala-Gly-Asp-Phe-Arg-Gly scaldando a 110ºC in HCl 6N per 24 ore Asp: atena laterale acida: primo aa ad uscire si può individuare fino a 1 µg di un aa (=quantità presente in un impronta digitale) cromatografia a scambio ionico eluzione in funzione del ph

ii. identificazione del residuo amino terminale (a) marcatura con cloruro di dansile idrolisi può essere usato 1 sola volta (degradazione completa del peptide) (b) degradazione di Edman: rimozione di un a.a. alla volta dall estremità amino-terminale

Passi del sequenziamento a. composizione in a.a. 1Ala, 2Gly, 1Asp, 1Phe, 1Arg b. rimozione alla Edman c. composizione in a.a. 2Gly, 1Asp, 1Phe, 1Arg d. rimozione alla Edman e. composizione in a.a. 1Gly, 1Asp, 1Phe, 1Arg f. e così via a-c Ala c-e Gly e così via

Metodo di Edman Lunghezza massima 50 resisui perdita di attendibilità Tagli specifici con metodi chimici o enzimatici Reagente Taglio chimico Bromuro di cianogeno O-iodobenzoato Idrossilamina 2-Nitro-5-tiocianobenzoato Taglio enzimatico Tripsina Clostripaina Proteasi dello Stafilococco Sito di taglio Lato carbossilico di residui Met Lato carbossilico di residui Trp Legami Asp-Gly Lato aminico di residui di Cis Lato carbossilico di residui Lys e Arg Lato carbossilico di residui Arg Lato carbossilico di residui Asn e Gln

Prima proteina sequenziata Sanger F., Tuppy H. (1951) The amino-acid sequence in the phenylalanyl chain of insulin 2. The investigation of peptides from enzymic hydrolysates. Biochem. J. 49:481-490 Si dimostró che la sequenza era costituita solo da L-aminoacidi uniti tra loro da legami peptidici fra i gruppi α-aminici e i gruppi α-carbossilici metodo costoso ed inefficiente DNA ricombinante

Metodi per l allineamento di proteine

Data una nuova sequenza proteica primo passo ricerca (veloce) di una sequenza omologa nota Dot-Plot, Fasta, Blast secondo passo allineamento (DP: Needleman-Wunsch con matrici di somiglianza

Nuova sequenza possibili risultati della ricerca di omologia nelle Banche Dati Il peggiore: si trova una esatta corrispondenza con una sequenza giá depositata Il migliore: la nuova sequenza é simile a qualcosa di molto interessante (per esempio una proteina oncogena) Buono: la nuova sequenza é simile a qualche proteina nota prosaica (per esempio una ribonucleasi) Pericoloso: la nuova sequenza é marginalmente simile a qualcos altro (ma forse non c ha niente a che fare)

Il piú frequente: la nuova sequenza non assomiglia a nessuna delle sequenze presenti nelle Banche Dati 1. una nuova proteina? 2. l URF non è di una proteina? R.F Doolittle Of URF s and ORF s Questo caso era il piú frequente ai tempi (~1985) in cui scriveva Doolittle, ma probabilmente non oggi. release 09/1986 3,939 sequenze 900,163 a.a. release 10/2001 101,602 sequenze 37,315,215 a.a. release 11/2006 243,975 sequenze 89,639,744 a.a. release 11/2007 289,473 sequenze 106,613,078 a.a. release 11/2008 400771 sequenze 144,646,353 a.a.

Release 54.5 of 13-Nov-07 of UniProtKB/Swiss-Prot contains 289473 sequence entries

2. AMINO ACID COMPOSITION (in percent for the complete database) Ala (A) 7.86 Met (M) 2.39 Gln (Q) 3.98 Trp (W) 1.13 Leu (L) 9.67 Asp (D) 5.33 Ser (S) 6.90 His (H) 2.30 Arg (R) 5.44 Phe (F) 3.94 Glu (E) 6.66 Tyr (Y) 3.00 Lys (K) 5.91 Cys (C) 1.50 Thr (T) 5.39 Ile (I) 5.86 Asn (N) 4.11 Pro (P) 4.86 Gly (G) 6.93 Val (V) 6.72 Asx (B) 0.000 Glx (Z) 0.000 Xaa (X) 0.00 Classification by frequency Leu, Ala, Gly, Ser, Val, Glu, Lys, Ile, Arg, Thr, Asp, Pro, Asn, Gln, Phe, Tyr, Met, His, Cys, Trp

gray = aliphatic, red = acidic, green = small hydroxy, blue = basic, black = aromatic,yellow = sulfur, white = amide

Taxonomic distribution of the sequences Kingdom sequences (% of the database): Archaea 11490 (4%) Bacteria 140143 ( 48%) Eukaryota 126284 ( 44%) Viruses 11556 ( 4%)

Within Eukaryota: Category sequences (% of Eukaryota) (% of the complete database) Human 17659 (14%) (6%) Other Mammalia 39128 (31%) ( 14%) Other Vertebrata 12179 (10%) (4%) Viridiplantae 21558 (17%) ( 7%) Fungi 19530 (15%) ( 7%) Insecta 5211 ( 4%) ( 2%) Nematoda 3617 ( 3%) ( 1%) Other 7402 ( 6%) ( 3%)

Average sequence length : 368 aa. Shortest sequence is GWA_SEPOF (P83570): 2 aa Longest sequence is TITIN_MOUSE (A2ASS6): 35213 aa

SEQUENCE SIZE Repartition of the sequences by size (excluding fragments) 1-50 5608 1001-1100 2433 51-100 20832 1101-1200 1700 101-150 30275 1201-1300 1384 151-200 28514 1301-1400 1228 201-250 29289 1401-1500 948 251-300 25706 1501-1600 493 301-350 25029 1601-1700 366 351-400 22842 1701-1800 314 401-450 18306 1801-1900 305 451-500 15613 1901-2000 240 501-550 11717 2001-2100 146 551-600 8292 2101-2200 214 601-650 6863 2201-2300 203 651-700 4744 2301-2400 131 701-750 4007 2401-2500 98 751-800 3238 >2500 743 801-850 2655 851-900 2748 901-950 2116 951-1000 1682 last release

Tra due sequenze possono esserci vari tipi di relazioni stesso antenato provenienti da duplicazione genica provenienti da convergenza evolutiva 1 provenienti da trasferimento orizzontale di geni (trasposoni) 2 ortologhe paraloghe analoghe xenologhe 1 Es: Stesso sito attivo 2 Nei batteri é comune come, e piú, delle mutazioni

Con la tecnica dell allineamento si possono ottenere informazioni o funzionali sequenze molto simili svolgono probabilmente funzioni analoghe o strutturali o evolutive sequenze molto simili possono avere un antenato comune sequenza A sequenza B x passi y passi Antenato comune (normalmente non noto) Distanza evolutiva = x + y = # di mismatches nell allineamento (gaps esclusi)

Allineamento Confronto fra due (allineamento a coppie) o piú (allineamento multiplo) sequenze con lo scopo di cercare analogie e similaritá Allineamento globale su sequenze simili alla ricerca del maggior numero di corrispondenze (utilizzo di gaps) Allineamento locale tra pezzi di sequenze per il resto dissimili