Studio delle energie di stabilizzazione delle proteine a partire da dati di coevoluzione

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Studio delle energie di stabilizzazione delle proteine a partire da dati di coevoluzione"

Transcript

1 FACOLTÀ DI SCIENZE E TECNOLOGIE Corso di Laurea Magistrale in Fisica Studio delle energie di stabilizzazione delle proteine a partire da dati di coevoluzione Relatore Dott. Guido Tiana Sara Lui Matricola Correlatore Dott. Carlo Camilloni Anno Accademico

2 Indice Introduzione 2 1 Le sequenze proteiche 4 2 Problema di Ising inverso 11 3 Preparazione dell allineamento e trattamento dei dati sperimentali Riduzione dell allineamento Espedienti contro i bias sperimentali Test del metodo La scelta delle sequenze L allineamento Monte Carlo Allineamento senza gap Allineamento con i gap: i metodi di trattamento Allineamenti veri e scelta dell algoritmo Risultati Predizione delle energie di mutazione Frustrazione dello stato nativo Reti di stabilizzazione Conclusioni 42 Bibliografia 44 1

3 Introduzione I recenti progressi tecnologici in campo biologico hanno permesso di ottenere informazioni sempre più precise su diversi aspetti della materia vivente. Sono state ottenute ingenti quantità di dati sperimentali, rendendo necessario l utilizzo di strumenti statistici per la loro analisi e di un approccio matematico per la loro comprensione e modellizzazione. Modelli matematici possono essere applicati ai sistemi biologici per comprenderne meglio determinati comportamenti, che difficilmente potrebbero essere analizzati con approcci sperimentali. Un esempio è la modellizzazione dei sistemi proteici. Un organismo può essere visto come un complesso di sottosistemi interagenti tra loro. Si pensi ad esempio ai diversi tessuti e organi, formati a loro volta da cellule differenziate, e ai processi metabolici che avvengono in ciascuna di esse. Le proteine sono senza dubbio fra i costituenti fondamentali della materia vivente: non solo prendono parte alle strutture degli organismi viventi, ma governano anche tutte le reazioni che in essi avvengono, processi estremamente importanti per il corretto funzionamento di un organismo e per la sua sopravvivenza. Il linguaggio che traduce il materiale genetico di qualunque essere vivente in proteine è universale, un codice genetico formato da poche lettere, comune alle forme di vita più diverse, dai batteri, ai vegetali, fino all uomo. Nonostante questa universalità, il numero di proteine che è possibile creare, e di conseguenza le funzioni che esse possono svolgere, è enorme. La complessità di questi polimeri li rende difficilmente modellizzabili, se non attraverso calcoli molto elaborati. Per questo motivo la meccanica statistica si è interessata sempre più negli ultimi anni allo sviluppo di modelli in grado di descrivere con pochi parametri gli aspetti essenziali di questi costituenti fondamentali. Le biosequenze, quali le proteine, grazie alle loro caratteristiche intrinseche, possono essere assimilate a delle stringhe di caratteri e pertanto analizzate con metodi statistici. Mediante algoritmi di allineamento, è possibile raggruppare le sequenze proteiche in famiglie di proteine isostrutturali e omologhe, e considerare tutti i membri di una medesima famiglia come evolutivamente correlati, ovvero discendenti mutati di un unica proteina ancestrale. Lo studio delle correlazioni nelle mutazio- 2

4 ni delle sequenze allineate di una famiglia, mediante un approccio con un modello statistico, non solo può fornire informazioni sulla prossimità spaziale degli aminoacidi nella struttura tridimensionale, ma anche sulle proprietà energetiche delle sequenze. Il presente lavoro di tesi è stato orientato a sviluppare una strategia per calcolare valori significativi per le energie efficaci fra gli aminoacidi che contribuiscono alla stabilizzazione delle proteine. Ciò è stato fatto anzitutto analizzando alcuni allineamenti di sequenze modello, generate tramite un algoritmo che simula l evoluzione. In questo modo è stato possibile confrontare direttamente le energie calcolate col modello statistico e le energie di interazione utilizzate a priori per la generazione delle sequenze. In secondo luogo, sono sono stati analizzati degli allineamenti di sequenze reali, le cui energie calcolate sono state confrontate con le energie libere sperimentali associate alle mutazioni degli aminoacidi. Validato il metodo, è stato possibile distinguere l intensità dell interazione attrattiva o repulsiva fra gli aminoacidi e quindi conoscere il grado di frustrazione del sistema. Inoltre, facendo uso delle energie efficaci, sono state esaminate le reti di interazioni che stabilizzano la conformazione tridimensionale per alcune proteine ampiamente studiate. Dal confronto di tali reti con quelle costruite a partire da informazioni solamente strutturali, sono emersi comportamenti alquanto diversi. 3

5 Capitolo 1 Le sequenze proteiche Questo capitolo descrive brevemente la struttura degli aminoacidi e delle proteine e gli aspetti biologici essenziali che sono stati tenuti in considerazione per modellizzarle in modo efficace. Aspetti biostrutturali delle proteine Dal punto di vista strutturale le proteine sono catene polimeriche di aminoacidi uniti da particolari legami carbonio-azoto (C-N) detti legami peptidici, che si formano tra il gruppo -OH di un aminoacido e uno degli idrogeni del gruppo amminico di un altro aminoacido. Ogni aminoacido è costituito da uno scheletro comune contenente un gruppo amminico, un gruppo acido e da una catena laterale (o residuo), che differenzia gli aminoacidi tra loro (vedi figura1.1). H H N H C R C H O O Figura 1.1: Struttura di un aminoacido In figura è schematizzata la struttura di un aminoacido, dove gli atomi che compongono lo scheletro sono indicati dai corrispondenti simboli. La lettera R in basso indica il residuo, ovvero la parte variabile che distingue i diversi aminoacidi. In totale gli aminoacidi sono 20 e possono essere catalogati in base alle proprietà chimico-fisiche generate dalla diversa natura dalle catene laterali (massa, idrofobicità, polarità, carica,...). A ciascuna di queste molecole fondamenta- 4

6 Simbolo Nome Simbolo Nome A Alanina M Metionina C Cisteina N Asparagina D Acido Aspartico P Prolina E Acido Glutammico Q Glutammina F Fenilalanina R Arginina G Glicina S Serina H Istidina T Treonina I Isoleucina V Valina K Lisina W Triptofano L Leucina Y Tirosina Tabella 1.1: Nomenclatura degli amminoacidi Tabella con la corrispondenza nomi e simboli dell alfabeto corrispondenti ai venti amminoacidi esistenti. li viene fatta corrispondere tradizionalmente una lettera dell alfabeto e un nome specifico (vd. tabella 1.1). Dal momento che ogni aminoacido può essere identificato con una lettera dell alfabeto che lo rappresenta (A per alanina, G per glicina,...), una sequenza proteica viene generalmente rappresentata con la stringa dei caratteri dei suoi aminoacidi. Una proteina tuttavia non è caratterizzata solo dalla sequenza, ma anche dalla struttura tridimensionale, da cui dipende la sua funzione biologica. Sequenza e struttura sono strettamente collegate, tanto che la sequenza di aminoacidi che compongono una proteina è detta struttura primaria. Gli aminoacidi di una catena proteica possono interagire tra loro in modo attrattivo o repulsivo, a seconda della natura della loro catena laterale, determinando la formazione di particolari strutture tridimensionali dette strutture secondarie (αeliche e β-foglietti), che a loro volta si possono unire a formare superstrutture o domini. La conformazione tridimensionale che una proteina assume nella sua interezza è detta struttura terziaria ed è il risultato delle molteplici interazioni che si realizzano tra gli aminoacidi di una catena polipeptidica, a volte anche lontani tra loro lungo la sequenza. Gli aminoacidi che nella struttura tridimensionale si trovano spazialmente vicini, ma non sono contigui lungo la sequenza, formano un contatto. La conformazione spaziale che caratterizza una proteina in condizioni biologiche è generalmente unica ed è chiamata stato nativo o conformazione nativa. La maggior parte delle proteine svolge la propria funzione biologica nello stato nativo, che è lo stato di equilibrio della proteina, ovvero quello in cui la struttura è più stabile, perché l energia di interazione dei residui che formano contatti è minima. 5

7 Nell analisi di una proteina non è quindi sufficiente conoscere la sequenza aminoacidica per capire la sua conformazione tridimensionale, perché le interazioni che portano allo stato nativo possono essere anche tra aminoacidi molto lontani lungo la sequenza. È ben comprensibile come un architettura di questo tipo sia difficilmente modellizzabile e la creazione di un algoritmo predittivo risulti assai complessa. Queste interazioni e i contatti esistenti tra gli aminoacidi sono fra gli oggetti principali di studio nei modelli di protein folding. Sperimentalmente si è osservato che se due proteine hanno sequenze molto simili, nella maggioranza dei casi hanno la stessa struttura tridimensionale, sono cioè isostrutturali, e generalmente svolgono anche la stessa funzione. La similarità che si riscontra tra due o più sequenze è infatti il criterio principale per ipotizzare una relazione di omologia tra queste proteine 1 : se due sequenze risultano avere un significativo grado di similarità per tutta la loro lunghezza, si può escludere che questo sia dovuto al caso e al contrario concludere che sia una prova della loro relazione evolutiva. Si noti che l ipotesi di tale relazione si basa interamente sul confronto delle sequenze, indipendentemente dall organismo a cui appartengono e dal fatto che siano proteine odierne o fossili. Può anche accadere che la similarità osservata sia il risultato di fenomeni di convergenza adattativa: in questo caso, però, la similarità è generalmente localizzata a limitate regioni della proteina responsabili di particolari proprietà funzionali. Sulla base di questa ipotesi di omologia si possono raggruppare le proteine in famiglie isostrutturali e su di esse creare dei modelli predittivi. Da qui è stata anche ipotizzata la possibilità di creare modelli statistici che, confrontando sequenze di proteine con struttura ignota con sequenze di proteine isostrutturali, permettano di fare delle previsioni sulla struttura e sulla funzione di proteine sconosciute. Gli allineamenti multipli di sequenze Il primo passo per poter effettuare analisi comparative consiste nel selezionare un certo numero di sequenze omologhe e costruirne successivamente un allineamento multiplo, rappresentato sotto forma di una tabella le cui righe corrispondono alle sequenze omologhe considerate, e le colonne corrispondono a ciascun sito dell allineamento. L allineamento multiplo pertanto può essere definito come un ipotesi di omologia posizionale tra aminoacidi, supponendo che tutti i residui presenti in una certa colonna del multiallineamento siano evolutivamente correlati. 1 La similarità e l omologia descrivono qualità diverse, in quanto la prima indica la misura dell identità di sequenza, mentre la seconda è la misura dell identità di sequenza che riflette relazioni evolutive fra le proteine. 6

8 Figura 1.2: Esempio di allineamento multiplo composto da sei sequenze. Si noti la presenza dei gap. L allineamento può essere ottenuto tramite vari tipi di algoritmi, ottimizzati in base al genere di studio che si vuole effettuare. In particolare, esistono due tipi di algoritmi di allineamento: quelli globali, che allineano l intera lunghezza delle sequenze in esame, facendone coincidere per quanto possibile le estremità, e algoritmi di allineamento locale che considerano invece il migliore allineamento possibile ottenuto allineando solo una porzione della proteina, anche se le estremità di una sequenza non coincidono con quelle dell altra. Gli algoritmi di allineamento locale sono ideali per riconoscere domini simili, mentre, analizzando sequenze omologhe, si può pensare che l allineamento globale riesca a massimizzare l identità, in quanto si suppone che i domini di proteine omologhe si trovino nelle medesime posizioni. Pertanto gli allineamenti multipli di sequenze omologhe sono generalmente creati usando l uno o l altro o entrambi i metodi. L allineamento dovrebbe portare all appaiamento delle regioni simili condivise dalle proteine. Il problema principale che si riscontra nell allineare le sequenze omologhe è che esse sono composte in genere da un numero di aminoacidi differente, in quanto nel corso dell evoluzione i processi di inserzione e di delezione possono avere determinato una diversa lunghezza delle proteine. Vengono così inseriti nelle sequenze dei gap (annotati generalmente con un trattino - ) in modo opportuno da massimizzare l allineamento fra di esse. Risulta chiaro che i residui che si vengono a trovare nelle colonne dell allineamento che presentano molti gap sono quelli meno conservati, perché l evoluzione ha spesso preferito fare a meno di loro, e sono quindi quelli che generalmente non hanno un ruolo rilevante per lo sviluppo della conformazione e per la funzione della proteina. Un allineamento si presenta come nella fig Dall allineamento multiplo così rappresentato si possono ricavare le frequenze con cui i vari tipi di residui si presentano nei siti della sequenza. Poiché nel presente lavoro non si è interessati a riconoscere a priori i comportamenti caratteristici dei particolari residui, per semplificare la notazione, il generico aminoacido posto nel sito i della sequenza è stato indicato con σ i. Il numero delle sequenze di un multiallineamento e il numero di aminoacidi di una generica sequenza sono stati rispettivamente annotati con le lettere M e L. Pertanto, una generica sequenza di L aminoacidi viene rappresentata come (σ 1, σ 2,..., σ L ). Il numero di tipi di 7

9 aminoacidi viene indicato con la lettera q: tale fattore potrà assumere come valore 20 o 21 a seconda che si stiano considerando solo gli aminoacidi naturali, oppure si aggiunga a essi anche il gap. In particolare la frequenza con cui il residuo σ compare nel sito i è stata definita come f i (σ) 1 M δ(σ, σ s i M ) (1.1) dove δ è la funzione di Kronecker, s il numero della sequenza e σ s i l aminoacido presente nel sito i della sequenza s. Allo stesso modo la frequenza con cui simultaneamente i residui σ e σ compaiono rispettivamente nei siti i e j, è stata definita come s=1 f i j (σ, σ ) 1 M M s=1 δ(σ, σ s i )δ(σ, σ s j ). (1.2) Esistono diversi database che raggruppano e allineano opportunamente le sequenze omologhe, ovvero quelle delle proteine appartenenti alla stessa famiglia, ed e pertanto possibile ricavare e confrontare le frequenze con cui gli aminoacidi si presentano in un determinato sito. Nel presente lavoro sono stati utilizzati gli allineamenti multipli di sequenze catalogati nel database PFAM [1], che suddivide le sequenze in famiglie di proteine omologhe, secondo degli algoritmi che fanno uso dei modelli di Markov nascosti (Hidden Markov Model - HMM) [2]. L evoluzione e le correlazioni delle mutazioni simultanee Durante l evoluzione, nonostante gli effetti visibili dei cambiamenti si manifestino sugli individui e sulle popolazioni, ciò che si modifica sono i geni e le proteine. Questi infatti evolvono grazie all accumulo di mutazioni, e per altri processi quali grossi eventi di duplicazione, conversione genica e trasposizione. Esistono numerosi tipi di mutazioni. Quelle più comuni sono le mutazioni puntiformi che in alcuni casi possono causare la sostituzione di un aminoacido con un altro. L effetto della mutazione può variare a seconda del sito in cui avviene: a volte la mutazione non determina alcuna variazione nel ripiegamento della proteina e quindi non altera la sua funzione; in altri invece la struttura proteica viene modificata e la proteina può perdere o cambiare la sua funzione. In altri casi ancora possono avvenire mutazioni simultanee, nelle quali la mutazione di un aminoacido è compensata da una seconda mutazione di un aminoacido che interagisce col primo, non andando così ad alterare la funzione della proteina. Questo può essere spiegato col fatto che l aumento di energia libera dovuto alla prima mutazione 8

10 viene compensato dalla diminuzione energetica dovuta alla seconda mutazione, fenomeno che preserva la struttura proteica. L evoluzione di una proteina è un processo fortemente vincolato dalla necessità per la proteina stessa di preservare la propria struttura tridimensionale e quindi la propria funzione. Per questo motivo non tutte le mutazioni si fissano e sono visibili nel cammino evolutivo di una proteina, in quanto le alterazioni strutturali e funzionali nella maggioranza dei casi risultano sfavorevoli e portano alla morte dell individuo in cui si sono manifestate. Pertanto, le mutazioni che possiamo osservare oggi sono solo quelle che sono state fissate dall evoluzione, ovvero quelle favorevoli, o, per lo meno non dannose. La storia evolutiva di una proteina può essere studiata analizzando l allineamento multiplo delle sequenze della famiglia a cui essa appartiene, poiché si suppone che proteine isostrutturali siano discendenti mutate di una stessa proteina ancestrale. Si può quindi pensare che aminoacidi che hanno subito mutazioni simultanee interagiscano fra di loro per determinare la struttura proteica. Analizzando in un multiallineamento le frequenze (1.1) e (1.2) con cui i residui si presentano nei siti è possibile rilevare il grado di correlazione fra i siti stessi e quindi desumere le interazioni fra di essi. Uno dei problemi fondamentali riscontrati in questo approccio è dovuto alla proprietà transitiva delle correlazioni fra siti, che si va ora a descrivere nel caso più semplice. Si consideri una catena peptidica come in fig. 1.3, in cui l aminoacido σ 2 interagisce sia con l aminoacido σ 1, sia con σ 3. Se nell evoluzione della proteina si sono verificate mutazioni simultanee che riguardano le coppie di siti (1, 2) e (2, 3), dall analisi dell allineamento emergeranno non solo le correlazioni fra tali coppie di siti, ma anche una correlazione fra i siti (1, 3), sebbene questi non interagiscano direttamente. È pertanto necessario disaccoppiare l effetto di tali correlazioni spurie, da quello delle correlazioni dirette. Fatto ciò, può emergere la correlazione fra i siti nei quali avvengono mutazioni simultanee, e da queste si può ricavare quali siti interagiscano nella struttura nativa. Questo problema è già stato affrontato da Morcos et al. in [3], i quali introducono un modello statistico tipo Ising inverso, per descrivere le sequenze proteiche in un allineamento. 9

11 Figura 1.3: Rappresentazione schematica di una catena proteica. N e C rappresentano le estremità della proteina. σ 1, σ 2 e σ 3 sono tre aminoacidi che si trovano vicini nella struttura nativa. Le interazioni dirette sono rappresentate da linee rosse, mentre l interazione indiretta, causata dalla proprietà transitiva della correlazione, in arancione. 10

12 Capitolo 2 Problema di Ising inverso Si vuole isolare il contributo dell interazione diretta fra due siti, da tutti i restanti contributi, di natura diversa, costruendo un modello statistico con distribuzione di probabilità p(σ 1, σ 2,..., σ L ) che descrive la sequenza proteica (σ 1, σ 2,..., σ L ). Si vuole inoltre che il modello sia coerente con i dati empirici ottenuti dall allineamento multiplo e in particolare che le probabilità marginali su uno e due siti coincidano con le frequenze empiriche: p i (σ i ) = p(σ 1, σ 2,..., σ L ) = f i (σ i ) (2.1) {σ k ki} p i j (σ i, σ j ) = {σ k ki, j} p(σ 1, σ 2,..., σ L ) = f i j (σ i, σ j ). (2.2) Si noti che si sommano le distribuzioni di probabilità di tutte le possibili sequenze {σ k }, ottenute permutando in ciascun sito k tutti i tipi di aminoacidi, fatta eccezione per aminoacidi e siti vincolati, ovvero l aminoacido σ i nel sito i nella (2.1) e gli aminoacidi σ i nel sito i e σ j nel sito j nella (2.2). Poiché si desidera che il modello sia il più generale possibile, si applica il principio di massima entropia. Si procede pertanto massimizzando la funzione entropia S della sequenza (σ 1, σ 2,..., σ L ), così definita S (σ 1, σ 2,..., σ L ) = p(σ 1, σ 2,..., σ L ) ln p(σ 1, σ 2,..., σ L ), (2.3) {σ k } imponendo come vincoli le condizioni (2.1) e (2.2). La soluzione di questo problema di ottimo è la distribuzione di probabilità congiunta p(σ 1, σ 2,..., σ L ) = 1 Z exp [ U(σ 1, σ 2,..., σ L )], (2.4) 11

13 dove Z è l opportuna funzione di partizione del sistema e U(σ 1, σ 2,..., σ L ) indica l energia 1 della sequenza (σ 1, σ 2,..., σ L ) ed è data da U(σ 1, σ 2,..., σ L ) = e i j (σ i, σ j ) + h i (σ i ). (2.5) i< j I termini e i j (σ i, σ j ) e h i (σ i ) sono i moltiplicatori di Lagrange introdotti nell ottimizzazione di S e hanno il seguente significato: e i j (σ i, σ j ) rappresenta l energia di interazione fra l aminoacido σ i nel sito i e l aminoacido σ j nel sito j, mentre h i (σ i ) è un potenziale a un corpo che può agire sugli aminoacidi. Il modello descritto è denominato modello di Potts [6] ed è la generalizzazione del modello di Ising di spin su reticolo, nel caso in cui si abbiano più di due stati di spin. Nel caso presente gli stati di spin sono q, vale a dire il numero di tipi di residui, mentre i siti del reticolo sono i siti della sequenza proteica. Si noti che l energia di interazione e i j (σ i, σ j ) dipende sia dal tipo di residuo sia dal sito, per cui aminoacidi dello stesso tipo in posizioni diverse interagiscono differentemente. I valori di e i j (σ i, σ j ) e h i (σ i ) devono essere calcolati imponendo i vincoli (2.1) e (2.2) e quindi ricavando le probabilità marginali p i (σ i ) e p i j (σ i, σ j ) da p(σ 1, σ 2,..., σ L ); per questo motivo il problema viene definito problema di Ising inverso. Svolgere questo calcolo in modo esatto, esplorando tutte le possibili sequenze (σ 1, σ 2,..., σ L ), non è operativamente fattibile perché richiede tempi computazionali esponenziali, che crescono con la lunghezza della sequenza come q L (il numero di parametri da stimare) [3]. Vari metodi approssimati sono stati proposti per risolvere questo problema (cfr. [4], [3], [5]). Nel presente lavoro si è scelto di seguire il procedimento adottato da Morcos at al. [3], che fa uso di un approssimazione di campo medio per la funzione di energia libera di Gibbs, ottenuta come trasformata di Legendre dell energia U(σ 1, σ 2,..., σ L ) (2.5). Come risultato di questa approssimazione si ottiene la relazione e i j (σ i, σ j ) = (C 1 ) i j (σ i, σ j ), (2.6) dove C è la funzione di correlazione connessa definita come C i j (σ i, σ j ) = f i j (σ i, σ j ) f i (σ i ) f j (σ j ). (2.7) In questo modo si è trovata una relazione fra le energie di interazione e i j (σ i, σ j ) e le frequenze empiriche f i (σ i ) e f i j (σ i, σ j ) ed è pertanto possibile risolvere il problema di Ising inverso. 2 1 È un enegia libera di Helmholtz, che contiene al suo interno anche il contributo entropico. 2 Operativamente l inversione della funzione di correlazione C, si effettua come inversione di una matrice di dimensioni L L q q. 12 i

14 Da un analisi accurata del numero di parametri liberi e di equazioni indipendenti per il modello, ci si accorge che è possibile riscalare tutte le energie di interazione e tutti i campi locali senza che cambi l energia (2.5). Per rimuovere questi gradi di libertà aggiuntivi, devono essere fissati ( L 2) (2q 1)+q parametri. 3 Una possibile scelta è quella di fissare a zero tutte le energie rispetto a un tipo di residuo, scelto come riferimento: e i j (σ, σ re f ) = e i j (σ re f, σ) = h i (σ re f ) = 0 i, j, σ. (2.8) Le interazioni fra gli aminoacidi di una proteina sono a breve range, pertanto in prima approssimazione si possono considerare solo le interazioni delle coppie di siti che nella struttura nativa formano un contatto. Si può quindi riscrivere l energia (2.5) come funzione anche delle coordinate {r i } degli aminoacidi: U({r i }, {σ i }) = e i j (σ i, σ j ) ( r i r j ) + h i (σ i ), (2.9) i< j+1 dove ( r i r j ) è una funzione di contatto che assume il valore 1 se i siti i e j sono vicini nella struttura nativa 4 e 0 altrimenti. Con questa ipotesi, nella fase di analisi dei risultati sono state considerate solo le energie di contatto. i 3 Per un analisi approfondita sul numero di parametri liberi del sistema si faccia riferimento a [3] e [7]. 4 ovvero se negli aminoacidi di quei siti si trova una coppia di atomi pesanti più vicini di 4 Å. 13

15 Capitolo 3 Preparazione dell allineamento e trattamento dei dati sperimentali Gli allineamenti multipli di sequenze estratti dai database non sono formattati in modo opportuno da essere immediatamente trattati con l algoritmo per il calcolo delle energie di interazione. In particolare, bisogna affrontare due problemi: la presenza dei gap nell allineamento e i possibili bias sperimentali di sequenziamento. In questo capitolo sono descritti gli accorgimenti utilizzati per minimizzare tali questioni e preparare l allineamento al calcolo delle energie. 3.1 Riduzione dell allineamento Da analisi preliminari con il modello di Ising inverso operate sugli allineamenti di sequenze, si è notato che i gap tendono a creare degli artefatti, dal momento che vengono considerati come un tipo di aminoacido in grado di interagire. In particolare è stato verificato che le coppie di siti nei quali si trovano molti gap hanno spesso energie molto basse (quindi interazioni molto forti), indipendentemente dal tipo di residuo che vi si trova. Questo non ha significato fisico, in quanto ci si aspetta che gli aminoacidi posti in siti con tanti gap non siano fondamentali per la stabilizzazione della struttura nativa e quindi abbiano energia di interazione nulla o repulsiva. Per far fronte a questo problema sono state attuate alcune strategie. Si noti anzitutto che ogni analisi di allineamento è compiuta per conoscere le energie di interazione degli aminoacidi di una sola particolare sequenza che si vuole studiare, la sequenza d interesse. Si possono quindi trascurare tutti i siti dell allineamento (ovvero tutte le colonne) che per questa sequenza contengono dei gap, come mostrato nella fig

16 Figura 3.1: Riduzione dell allineamento: si eliminano le colonne (indicate con frecce blu) per le quali nella sequenza d interesse (indicata con la freccia arancione) si trovano dei gap. Un altro accorgimento, da applicare qualora se ne riscontrasse la necessitá, consiste nella rimozione dall allineamento di tutte le sequenze che, già ridotte ai soli siti che contengono aminoacidi nella sequenza d interesse, contengono una percentuale di gap elevata. Questa scelta è stata compiuta in alcuni degli algoritmi utilizzati, che verranno esposti nel capitolo 4, nei quali si è scelto di rimuovere le sequenze che contengono più del 30% di gap. 3.2 Espedienti contro i bias sperimentali La risoluzione del problema di Ising inverso si basa sull ipotesi che il multiallineamento sia uno spazio delle sequenze in cui compaiono tutte quelle che l evoluzione ha generato, e che sia maggiormente popolato dalle sequenze che l evoluzione ha preferito. Ciò si discosta molto dalla realtà degli allineamenti sperimentali con cui si ha a che fare, pertanto bisogna attuare alcuni accorgimenti. Il ripesamento delle sequenze Sperimentalmente vengono in genere sequenziate proteine simili, per cui negli allineamenti si hanno spesso gruppi di sequenze con elevata omologia. Questo è solo marginalmente dovuto a una maggiore densità di queste sequenze nello spazio delle sequenze. La causa principale di tale risultato è, infatti, il bias di campionamento, causato da esigenze sperimentali o di ricerca. Per uniformare le densità nello spazio delle sequenze, e quindi sottostimare la presenza di molte sequenze simili, si è deciso, seguendo quanto fatto in [3], di ripesare le sequenze dell allineamento in base alla loro similarità reciproca. Per ogni sequenza s si è calcolato il numero m s di sequenze a essa omologhe (con identità di sequenza superiore al 70%) e le si è quindi associato un fattore 1/m s che ripesi i conteggi delle frequenze. I conteggi osservati nell allineamento su uno e due residui risultano pertanto defi- 15

17 niti come 1 f i (σ) δ(σ, σ s i m ) (3.1) s s f i j (σ, σ 1 ) δ(σ, σ s i m )δ(σ, σ s j ), (3.2) s s con notazione simile a quella delle frequenze (1.1) e (1.2). La somma di tutti i pesi, indicata con M e f f = s 1/m s, rappresenta il numero di sequenze effettive dell allineamento, dopo il ripesamento. Gli pseudocounts Per assicurarsi una statistica sufficiente, sono stati selezionati per questo lavoro solo allineamenti con almeno 1000 sequenze. Nonostante ciò, la frequenza con cui si osserva un determinato evento (per esempio la frequenza con cui l alanina si presenta nel primo sito f i (σ i = A)) può risultare nulla. Questo è dovuto al fatto che il campione di dati è finito, e non al fatto che l evento sia realmente impossibile. Un metodo comunemente usato in bioinformatica, per far fronte a queste situazioni, è l utilizzo di pseudocounts: conteggi teorici che si vanno ad aggiungere ai conteggi osservati, per rendere non nulla la probabilità degli eventi rari ma non impossibili. Tale procedimento equivale a scegliere un approccio statistico bayesiano sulle frequenze osservate, le quali seguono una distribuzione multinomiale e svolgono nel teorema di Bayes il ruolo di funzione di verosimiglianza L(dati teoria) dei conteggi osservati rispetto a una distribuzione di probabilità a priori (prior) ipotizzata P(teoria). Per il teorema di Bayes, la probabilità di un evento, dopo che si è tenuto conto dell informazione data dalla verosimiglianza, è P(teoria dati) = L(dati teoria)p(teoria), (3.3) P(dati) e avendo scelto opportunamente una distribuzione di Dirichlet come prior, si ottiene una distribuzione a posteriori (posterior) P(teoria dati) che a sua volta è una distribuzione di Dirichlet, ed è data dalla somma rinormalizzata dei conteggi osservati e degli pseudocounts. Il numero di pseudocounts aggiunti rappresenta quindi il peso stimato della conoscenza a priori, rispetto a quella data dalle osservazioni reali. Non sapendo a priori nulla riguardo alle interazioni fra i residui, si è deciso di usare una prior uniforme, ma che tenesse in considerazione le frequenze 16

18 dei residui nell allineamento esaminato. Le espressioni delle frequenze utilizzate nell analisi dell allineamento risultano quindi: 1 f i (σ) = (1 + x + y + z)m f i (σ) + x M e f f f j (σ) + y + z f i (σ) (3.4) e f f q L [ f i j (σ, σ 1 ) = f i j (σ, σ ) + x M e f f + (1 + x + y + z)m e f f q 2 y + f L 2 k (σ) f l (σ ) + z f i (σ) f j (σ ) M e f f M. (3.5) e f f kl dove, oltre ai termini dei conteggi osservati (3.1) e (3.2), compaiono tre termini di pseudocounts: un termine dipendente dalla frazione di tipi di residui, modulato dal parametro x, un termine dipendente dalla frazione di tipi di residui nella famiglia considerata, modulato dal parametro y, un termine dipendente dalla frazione di tipi di residui nella coppia di siti considerata, modulato dal parametro z. I valori dei parametri x, y e z stabiliscono l importanza relativa della prior rispetto ai dati empirici dell allineamento. Nel caso in cui questi ultimi siano particolarmente influenzati da bias sperimentali, si ottengono risultati migliori dando maggior importanza alla prior, ovvero per valori elevati di pseudocounts. Viceversa, nel caso di allineamenti che hanno ben campionato lo spazio delle sequenze è meno necessario il contributo della prior e quindi si possono assegnare valori bassi agli pseudocounts. I parametri x, y e z sono stati pertanto lasciati liberi di variare, per valutare quale importanza dare ai tre possibili comportamenti della prior, nell intento di ottimizzare il risultato del metodo applicato. Si noti che se non si utilizzassero gli pseudocounts, la funzione C non sarebbe invertibile, perché l eventuale assenza di un residuo in un sito della sequenza si tradurrebbe in uno zero nella funzione di correlazione 1. In particolare, è necessario che il termine di prior uniforme sia non nullo (x > 0) e sufficientemente grande da consentire l invertibilità di C. j 1 ovvero in colonne singolari nella corrispondente matrice 4-dimensionale. 17

19 Capitolo 4 Test del metodo La prima parte del presente lavoro è stata dedicata a valutare se il modello di Ising inverso, con approssimazione di campo medio, permetta di calcolare delle energie che possano rappresentare le energie reali con cui i residui interagiscono nella conformazione nativa. Sono state quindi selezionate le sequenze proteiche da studiare e sono stati proposti diversi metodi per il trattamento dei gap. Il presente capitolo descrive i test che sono stati effettuati per ciascun trattamento. Un primo test è stato fatto su allineamenti multipli di sequenze generati artificialmente con un metodo Monte Carlo, e un secondo su allineamenti reali. I risultati sono stati quindi confrontati fra loro per scegliere il metodo migliore e i valori più adatti per gli pseudocounts x, y e z. 4.1 La scelta delle sequenze Per testare il modello sono state scelte quattro sequenze che soddisfacessero precisi requisiti. Per ogni sequenza si è richiesto che: appartenesse a una famiglia di almeno 1000 sequenze omologhe, per avere sufficiente statistica; ne fosse nota la conformazione tridimensionale nello stato nativo, per conoscere quali aminoacidi formano un contatto nativo; ne fossero note le differenze di energia libera G 1 delle mutazioni puntuali di un aminoacido in alanina per almeno una decina di aminoacidi, misurate 1 dove G = G mut G wild = (G mut GN mut ) (G wild GN wild ). G wild e GN wild indicano rispettivamente l energia libera di Gibbs della proteina wild-type nello stato di transizione e nello stato nativo, e G mut e GN mut sono le analoghe energie libere per la proteina con mutazione. 18

20 proteina pdb uniprot ID # amin. fam. PFAM # seq. % gap ACBP 2ABD acbp_bovin 85 PF SH3 1FMK src_human 48 PF PDZ 1GM1 ptn13_mouse 83 PF AZR 5AZU azur_pseae 128 PF Tabella 4.1: Per ogni sequenza sono riportati il codice del Protein Data Bank della corrispondente struttura nativa, il codice UniProt, il numero di aminoacidi, la famiglia di appartenenza nel database PFAM, il numero di sequenze dell allineamento e la percentuale di gap dopo la riduzione dell allineamento ai soli siti della sequenza d interesse, come descritto nel capitolo 3. in un esperimento svolto a ph compreso fra 6 e 8, affinché la proteina fosse nello stato nativo. Le quattro sequenze scelte sono: la ACBP (acyl-coenzyme a binding protein from bovine liver) [8], il dominio SH3 della proteina Src (human tyrosine-protein kinase c-src) [9], il dominio PDZ della proteina Ptp (second PDZ domain of protein tyrosine phosphatase Ptp-BL) [10], la proteina AZR (pseudomonas aeruginosa azurin) [11]. Nella tabella (4.1) sono riportati i dati principali delle proteine e dei rispettivi allineamenti di appartenenza. 4.2 L allineamento Monte Carlo Per evitare che la scelta del metodo dipendesse dagli specifici allineamenti sperimentali selezionati, e per avere contemporaneamente il massimo controllo sui dati dell allineamento, sono stati composti dei multiallineamenti con l algoritmo Monte Carlo descritto in [12]. Tale procedimento è stato adottato in quanto simula l evoluzione, infatti, esplorando lo spazio delle sequenze cercando di minimizzarne l energia, seleziona solo sequenze che ripiegano allo stato nativo. In questo paragrafo si espone brevemente il funzionamento dell algoritmo. Per simulare l evoluzione di una determinata sequenza (che svolge il ruolo di condizione iniziale) sono necessarie una lista di contatti nativi per la sequenza e una matrice di energie di interazione e 0 (σ i, σ j ) fra i 20 aminoacidi naturali 2. Si procede quindi con un algoritmo Monte Carlo del tipo Metropolis, come segue: 1. Si scelgono a caso due siti della sequenza i, j e si propone di scambiare fra loro gli aminoacidi che vi si trovano. Il che significa voler passare dallo 2 Si è fatto uso di una matrice simmetrica con dimensioni 20x20, per un totale di 190 valori diversi, estratti da una distribuzione normale standard. 19

21 stato n dove σ i si trova in i e σ j in j, allo stato m in cui σ j si trova in i e viceversa. 2. Si accetta lo scambio con una probabilità ( { w(n m) = min 1, exp E m E }) n, (4.1) T dove le energie E n ed E m corrispondono rispettivamente alle energie della sequenza prima e dopo l eventuale scambio dei residui. 3 Ciò significa che se l energia della sequenza diminuisce (E m < E n ) lo scambio è sicuramente accettato, se invece aumenta (E m > E n ) lo scambio è accettato con un valore finito di probabilità. Il parametro T è una temperatura evolutiva, vale a dire un valore che esprime la spinta dell evoluzione. Per T E m E n (per valori tipici di E m ed E n ) l algoritmo trova velocemente il minimo di energia per le sequenze, rischiando di incorrere in minimi locali. Viceversa per T E m E n la spinta evolutiva è bassa e la ricerca del minimo di energia richiede tempi più lunghi Si torna al punto 1 e si ripete il procedimento un numero sufficiente di volte per generare tante sequenze diverse quante si desidera. Scegliere la probabilità di transizione w come in formula (4.1) rende questo processo stocastico una catena di Markov 5, per la quale la dinamica del sistema è governata dalla Master Equation: dp n (t) dt = [w(m n)p m (t) w(n m)p n (t)], m dove P i (t) indica la probabilità dello stato i all istante t. Imponendo la condizione di equilibrio dp n(t) = 0 e il principio del bilancio dettagliato w(n m)w(m dt l)w(l n) = w(n l)w(l m)w(m n), si ricava la relazione: w(m n)p m (t) = w(n m)p n (t) Inoltre, quella particolare scelta della probabilità w conduce il sistema verso lo stato di maggiore probabilità. Si ha infatti che P m (t) w(n m) = P n (t) w(m n) = min ( { }) 1, exp E m E n { T min ( 1, exp { }) = exp E m E } n, E n E m T T 3 L energia della sequenza è data dalla somma delle energie di interazione delle coppie di aminoacidi che formano un contatto nativo. 4 Nel presente lavoro di tesi il valore della temperatura è stato fissato a T = 0.5, cosicché fosse paragonabile alle energie della matrice e 0. 5 perché la probabilità della sequenza a un dato step è unicamente determinata dalla sequenza allo step precedente. 20 t.

22 che coincide con il rapporto delle distribuzioni di probabilità di Boltzmann, avendo definito la probabilità di Boltzmann per uno stato a energia E n come P(E n ) = 1 { Z exp E } n. T Poiché la sequenza è spinta verso lo stato di equilibrio termodinamico, con questo algoritmo si ottiene una simulazione di evoluzione. Si possono dunque considerare le sequenze generate, per creare un allineamento multiplo simile a quelli risultanti dall evoluzione delle proteine. Per il presente lavoro sono stati composti diversi allineamenti di 10 5 sequenze ciascuno, selezionando fra le sequenze generate dall algoritmo una sequenza ogni 10 3 scambi. La comodità di analizzare allineamenti Monte Carlo generati con l algoritmo Metropolis consiste nel conoscere a priori le energie di interazione e 0 (σ i, σ j ) fra tutti i residui che formano un contatto. In questo modo è possibile confrontare direttamente le energie dei contatti calcolate col modello di Ising inverso (2.6) e le energie di partenza e 0. Come misura della corrispondenza fra le due energie è stato usato il coefficiente di correlazione di Pearson: r = cov ( e 0, e i j ) var ( e 0) var ( e i j ), (4.2) dove cov ( e 0, e i j ) è la covarianza delle due variabili e var ( e 0) var ( e i j ) è il prodotto delle loro deviazioni standard. 4.3 Allineamento senza gap Volendo circoscrivere il problema del considerare i gap come aminoacidi, esposto nel capitolo 3, le prime analisi sono state svolte su allineamenti Monte Carlo che non contengono gap. Come sequenza di partenza è stata scelta quella della ACBP e sono stati imposti come contatti quelli che la proteina forma nello stato nativo. 6 Nella matrice e 0 (σ i, σ j ) sono state poste a zero tutte le interazione con la glicina, che è stata presa quindi come aminoacido di riferimento σ re f (cfr. (2.8)), e lo stesso è stato fatto durante l analisi col modello di Ising inverso. I parametri x, y e z degli pseudocounts sono stati lasciati liberi di variare in un range fra 0 e 10, 6 Per questa parte di validazione si è definito il contatto fra due aminoacidi quando la distanza fra qualsiasi coppia di atomi che li compongono è inferiore a 4 Å, con la condizione che i due aminoacidi siano separati da almeno tre residui lungo la sequenza. 21

23 per trovarne i valori ottimali che massimizzassero la correlazione r fra le energie di partenza e quelle calcolate. 7 Figura 4.1: Coefficiente di correlazione r model fra le energie del modello e quelle calcolate in assenza di gap, in funzione degli pseudocounts x, y e z, nella zona di valori attorno al punto di massimo. Si desidera che la correlazione r sia una misura della qualità della predizione delle energie. Ma i valori di tali energie dipendono necessariamente dalla sequenza d interesse e pertanto lo stesso vale per la corrispondente correlazione r. Per aggirare questo inconveniente sono state selezionate casualmente 20 sequenze dell allineamento, ciascuna delle quali è stata resa sequenza d interesse per un analisi. Sono stati quindi ricavati i coefficienti di correlazione per ognuna delle 20 sequenze e se n è fatta la media aritmetica, r model. Nella fig. 4.1 è riportato il valore di r model come funzione di x, y e z. Il miglior risultato trovato è r = 0.76 per x = 0.1, y = 0.1 e z = 0. Questo significa che la 7 Si è ritenuto ragionevole non oltrepassare 10 come soglia superiore, affinché la prior non avesse troppa importanza rispetto ai conteggi reali. 22

24 probabilità a priori che tiene conto della frequenza dei tipi di residui in uno specifico sito non migliora la predizione dell energia, mentre si ha un miglioramento usando la prior che tiene conto della frequenza dei tipi di residui nell allineamento considerato. Infatti, il valore di r model ottenuto scegliendo x = 0.7, y = 0 e z = 0 (parametri usati in [13]) è 0.70, mentre l ottimizzazione del solo parametro x permette un miglioramento limitato a r model = 0.73 (cfr. tabella 4.2). Per verificare l eventuale dipendenza dei risultati dalla specifica proteina, sono stati testati anche i casi del dominio SH3 e del dominio PDZ, per i quali sono stati ottenuti r model = 0.71 e r model = 0.79, per x = 0.1, y = 0.1 e z = 0. method x y z r model no gap optimized parameters of ref. [13] optimized with y = z = gaps M2 optimized M3 optimized gaps M1 optimized M1, param. of ref. [13] M2 optimized M2, param of ref. [14] M3 optimized M4 optimized M5 optimized M6 optimized Tabella 4.2: I coefficienti di correlazione fra le energie dei contatti del modello e quelle calcolate coi vari metodi di trattamento dei gap, come descritto nel testo. 4.4 Allineamento con i gap: i metodi di trattamento Come già discusso nei precedenti capitoli, gli allineamenti reali differiscono dagli allineamenti modello descritti nel precedente paragrafo, a causa della presenza dei gap, che rendono conto delle inserzioni e delezioni avvenute nella dinamica evolutiva della famiglia di proteine omologhe. Per ovviare al problema di dover necessariamente considerare il gap come un aminoacido in grado di interagire, sono stati testati diversi algoritmi per il trattamento dei gap: 23

25 M1 Il gap viene considerato come un tipo di residuo, quindi q = 21. Il residuo di riferimento σ re f è uno degli aminoacidi. Questa è la scelta fatta in [13]. M2 Il gap viene considerato come un tipo di residuo, quindi q = 21, ma diversamente da M1, le sequenze con più del 30% di gap vengono eliminate dall allineamento. Questa è la scelta fatta in [14]. M3 Lo stesso di M1, ma scegliendo il gap come tipo di aminoacido di riferimento σ re f. M4 Lo stesso di M2, ma scegliendo il gap come tipo di aminoacido di riferimento σ re f. M5 Per ciascun sito, ogni gap in esso contenuto viene considerato un tipo di residuo diverso, cosicché q dipende dal sito e vale 20+g i, dove g i è il numero di gap nel sito i. Nelle formule (3.4) e (3.5) vengono pertanto modificati solo i termini di pseudocounts modulati da x, ovvero: f i (σ) = 1 [ f i (σ) + x M ] e f f + y... + z... c 20 + g i f i j (σ, σ ) = 1 [ f c i j (σ, σ M e f f ) + x (20 + g i )(20 + g j ) ] + y... + z.... M6 Il gap viene considerato come un tipo di residuo, quindi q = ( 21. Le frequenze empiriche nelle equazioni (3.4) e (3.5) sono pesate da 1 g ) i e da ( M 1 g i + g ) j rispettivamente, per dare più peso ai siti con meno gap. Per 2M compensare questo effetto, si aggiungono le probabilità a priori g i M e f f e M q g i + g j M e f f rispettivamente. I termini con i parametri y e z non vengono 2M q 2 modificati. Complessivamente si ha: f i (σ) = 1 [( 1 g ) ( i f i (σ) + x + g i c M M f i j (σ, σ ) = 1 [( 1 g i + g j c 2M ) Me f f q ( ) f i j (σ, σ ) + 24 ] + y... + z... x + g i + g ) j Me f f 2M q 2 ] + y... + z....

26 Per trovare il migliore fra i metodi proposti, seguendo la via esposta nel precedente paragrafo, sono stati generati degli allineamenti Monte Carlo di sequenze con energie d interazione date da matrice casuale e 0 (σ i, σ j ) e poi sono state predette tali energie col modello di Ising inverso, usando l equazione (2.6). Diversamente però da quanto descritto nella sezione precedente, in questo caso sono stati inseriti i gap nelle sequenze, modellizzandoli come residui della proteina che non interagiscono con gli altri. I coefficienti di correlazione medio fra le energie e 0 (σ i, σ j ) e i rispettivi valori calcolati sono riportati nella tabella 4.2 nel caso di pochi gap (2 gap su 86 siti) e molti gap (41 gap su 86 siti 8 ). Nel caso di pochi gap, usando i metodi M3 e M4, vale a dire scegliendo come σ re f il gap, e ottimizzando x, y e z, si ottengono dei risultati comparabili a quelli ottenuti senza gap. Nel caso più realistico di molti gap, i risultati migliori sono stati ottenuti coi metodi M3, M4 e M6. Nel caso di M3 e M4, la correlazione più alta è stata conseguita senza la prior specifica sui siti (ovvero z = 0), nonostante si abbia che la scelta di z > 0 non peggiori i risultati in modo drammatico (cfr. fig. 4.2), contrariamente al caso senza gap. 4.5 Allineamenti veri e scelta dell algoritmo Per validare ulteriormente l approccio, e per discriminare fra i metodi M3, M4 e M6, si sono volute riprodurre le variazioni nell energia libera della proteina a causa di mutazioni puntuali. Sono state quindi studiate le quattro proteine riportate in tabella 4.1, nelle quali è stata misurata l energia libera di destabilizzazione G exp delle mutazioni di alcuni residui in alanina. Partendo dai rispettivi multiallineamenti estratti da PFAM, per ciascuna di queste proteine sono state calcolate le energie di interazione e i j (σ i, σ j ) per i vari metodi descritti precedentemente. Assumendo, com è d uso fare quando si interpretano i risultati degli esperimenti di mutazione [15], che l energia di interazione nello stato denaturato sia trascurabile, si può calcolare facilmente la differenza di energia dovuta alla mutazione σ i σ i come G calc [e i j (σ i, σ j ) e i j (σ i, σ j )] ( r i r j ), (4.3) j dove la somma si estende su tutti i siti j che formano un contatto nativo col sito i in cui è avvenuta la mutazione. Il valore più alto per il coefficiente di correlazione r mut fra i valori di G calcolati e sperimentali, mediati sulle quattro proteine in studio, è r mut = 0.82, ottenuto con il metodo M4 e la scelta di x = 1, y = 2 e z = 10. Questa è essenzialmente la stessa correlazione media raggiunta con FOLD-X ([16]), un algoritmo 8 percentuale di gap simile a quella degli allineamenti reali. 25

27 Figura 4.2: Coefficiente di correlazione r fra le energie del modello e le energie calcolate per le sequenze dell ACBP con 41 gap, trattate con l algoritmo M4, in funzione degli pseudocounts x, y e z, nella zona di valori attorno al punto di massimo. 26

28 studiato appositamente per calcolare le energie libere di mutazione, basato su un force-field molecolare e sull ottimizzazione della conformazione degli aminoacidi mutati. Per FOLD-X si ha infatti una correlazione r mut = Come mostrato nel grafico di fig. 4.3, questa scelta degli pseudocounts non è particolarmente conveniente, dal punto di vista delle energie calcolate sul modello Monte Carlo discusso precedentemente, la cui correlazione corrisponde a r model = Poiché si è interessati a un algoritmo (vale a dire una scelta del metodo e dei parametri x, y e z) che possa sia calcolare correttamente le energie di interazione del modello, sia riprodurre le energie libere delle mutazioni sperimentali, si è posta l attenzione su quei punti che giacciono nella regione in alto a destra della fig In questo modo si identifica evidentemente il metodo M4 come il compromesso migliore fra le due richieste. La scelta più ragionevole per i parametri sembra essere x = 0.2, y = 0.1 e z = 0.1, ottenendo quindi come risultati r mut = 0.76 e r model = Questo è l algoritmo che è stato usato nelle successive analisi. 27

29 Figura 4.3: Si mostra, per alcuni degli algoritmi testati, il coefficiente di correlazione r model fra il modello e le energie calcolate (in ordinata) e il coefficiente di correlazione r mut tra i valori calcolati e quelli sperimentali di G delle mutazioni (in ascissa). I punti gialli sono associati ai diversi valori di x, y, z per il metodo M1, i punti rossi a M3, i punti verdi a M4 e i punti blu a M6. 28

30 Capitolo 5 Risultati Validato e ottimizzato l algoritmo mediante la scelta di un metodo di trattamento dei gap e dei migliori valori di pseudocounts, è quindi possibile dedicarsi all analisi delle energie ottenute per alcune proteine reali. Nel presente capitolo si illustrano in particolare alcune proprietà rese accessibili dalla conoscenza delle energie di interazione, quali le variazioni di energia in seguito a una mutazione, il grado di frutrazione di una proteina nello stato nativo, la costruzione di reti di interazioni stabilizzanti. 5.1 Predizione delle energie di mutazione In fig. 5.1 sono riportati i risultati per la predizione delle energie di mutazione ottenuti col metodo M4 e per i valori ottimali dei parametri degli pseudocounts, per le quattro proteine di tabella 4.1. I coefficienti di correlazione fra le energie calcolate e quelle sperimentali variano fra 0.65 e Le energie G calc sono state opportunamente normalizzate per poter essere rappresentate nella stessa scala (kcal/mol) delle energie G exp. Dal confronto sono emersi alcuni outlier per le mutazioni: L80A e L15A nell ACBP, W42A nel SH3, M121A nell azurin. Nei primi due casi, le mutazioni riguardano aminoacidi che formano contatti nativi anche nello stato denaturato [17, 18] e ciò non rende più valida l eq. (4.3). Nel caso dell azurin invece non è disponibile una caratterizzazione dello stato denaturato. In ogni caso, il valore di G calc per la mutazione M121A nell azurin 29

Dimensione di uno Spazio vettoriale

Dimensione di uno Spazio vettoriale Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione

Dettagli

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI Indice 1 Le frazioni algebriche 1.1 Il minimo comune multiplo e il Massimo Comun Divisore fra polinomi........ 1. Le frazioni algebriche....................................

Dettagli

Relazioni statistiche: regressione e correlazione

Relazioni statistiche: regressione e correlazione Relazioni statistiche: regressione e correlazione È detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili statistiche o fra una mutabile e una variabile statistica

Dettagli

1. Distribuzioni campionarie

1. Distribuzioni campionarie Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 3 e 6 giugno 2013 - di Massimo Cristallo - 1. Distribuzioni campionarie

Dettagli

STATISTICA IX lezione

STATISTICA IX lezione Anno Accademico 013-014 STATISTICA IX lezione 1 Il problema della verifica di un ipotesi statistica In termini generali, si studia la distribuzione T(X) di un opportuna grandezza X legata ai parametri

Dettagli

Appunti sulla Macchina di Turing. Macchina di Turing

Appunti sulla Macchina di Turing. Macchina di Turing Macchina di Turing Una macchina di Turing è costituita dai seguenti elementi (vedi fig. 1): a) una unità di memoria, detta memoria esterna, consistente in un nastro illimitato in entrambi i sensi e suddiviso

Dettagli

Capitolo 2. Operazione di limite

Capitolo 2. Operazione di limite Capitolo 2 Operazione di ite In questo capitolo vogliamo occuparci dell operazione di ite, strumento indispensabile per scoprire molte proprietà delle funzioni. D ora in avanti riguarderemo i domini A

Dettagli

Le funzioni continue. A. Pisani Liceo Classico Dante Alighieri A.S. 2002-03. A. Pisani, appunti di Matematica 1

Le funzioni continue. A. Pisani Liceo Classico Dante Alighieri A.S. 2002-03. A. Pisani, appunti di Matematica 1 Le funzioni continue A. Pisani Liceo Classico Dante Alighieri A.S. -3 A. Pisani, appunti di Matematica 1 Nota bene Questi appunti sono da intendere come guida allo studio e come riassunto di quanto illustrato

Dettagli

4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0

4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0 Rappresentazione dei numeri I numeri che siamo abituati ad utilizzare sono espressi utilizzando il sistema di numerazione decimale, che si chiama così perché utilizza 0 cifre (0,,2,3,4,5,6,7,8,9). Si dice

Dettagli

Lezioni di Matematica 1 - I modulo

Lezioni di Matematica 1 - I modulo Lezioni di Matematica 1 - I modulo Luciano Battaia 16 ottobre 2008 Luciano Battaia - http://www.batmath.it Matematica 1 - I modulo. Lezione del 16/10/2008 1 / 13 L introduzione dei numeri reali si può

Dettagli

VALORE DELLE MERCI SEQUESTRATE

VALORE DELLE MERCI SEQUESTRATE La contraffazione in cifre: NUOVA METODOLOGIA PER LA STIMA DEL VALORE DELLE MERCI SEQUESTRATE Roma, Giugno 2013 Giugno 2013-1 Il valore economico dei sequestri In questo Focus si approfondiscono alcune

Dettagli

Un gioco con tre dadi

Un gioco con tre dadi Un gioco con tre dadi Livello scolare: biennio Abilità interessate Costruire lo spazio degli eventi in casi semplici e determinarne la cardinalità. Valutare la probabilità in diversi contesti problematici.

Dettagli

Corrispondenze e funzioni

Corrispondenze e funzioni Corrispondenze e funzioni L attività fondamentale della mente umana consiste nello stabilire corrispondenze e relazioni tra oggetti; è anche per questo motivo che il concetto di corrispondenza è uno dei

Dettagli

Il concetto di valore medio in generale

Il concetto di valore medio in generale Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo

Dettagli

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi. Iniziamo con definizione (capiremo fra poco la sua utilità): DEFINIZIONE DI VARIABILE ALEATORIA Una variabile aleatoria (in breve v.a.) X è funzione che ha come dominio Ω e come codominio R. In formule:

Dettagli

ELEMENTI DI DEMOGRAFIA

ELEMENTI DI DEMOGRAFIA ELEMENTI DI DEMOGRAFIA 2. Caratteristiche strutturali della popolazione Posa Donato k posa@economia.unisalento.it Maggio Sabrina k s.maggio@economia.unisalento.it UNIVERSITÀ DEL SALENTO DIP.TO DI SCIENZE

Dettagli

Database. Si ringrazia Marco Bertini per le slides

Database. Si ringrazia Marco Bertini per le slides Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida

Dettagli

Stima per intervalli Nei metodi di stima puntuale è sempre presente un ^ errore θ θ dovuto al fatto che la stima di θ in genere non coincide con il parametro θ. Sorge quindi l esigenza di determinare una

Dettagli

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo Evoluzione In ogni popolazione si verificano delle mutazioni. Intelligenza Artificiale In un ambiente che varia, le mutazioni possono generare individui che meglio si adattano alle nuove condizioni. Questi

Dettagli

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini Dipartimento di Ingegneria della Informazione Via Diotisalvi, 2 56122 PISA ALGORITMI GENETICI (GA) Sono usati per risolvere problemi di ricerca

Dettagli

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr.

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr. Corso di Laurea in Scienze e Tecnologie Biomolecolari Matematica e Statistica II Prova di esame del 18/7/2013 NOME COGNOME N. Matr. Rispondere ai punti degli esercizi nel modo più completo possibile, cercando

Dettagli

Uso di base delle funzioni in Microsoft Excel

Uso di base delle funzioni in Microsoft Excel Uso di base delle funzioni in Microsoft Excel Le funzioni Una funzione è un operatore che applicato a uno o più argomenti (valori, siano essi numeri con virgola, numeri interi, stringhe di caratteri) restituisce

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 12-Il t-test per campioni appaiati vers. 1.2 (7 novembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

La distribuzione Normale. La distribuzione Normale

La distribuzione Normale. La distribuzione Normale La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

come nasce una ricerca

come nasce una ricerca PSICOLOGIA SOCIALE lez. 2 RICERCA SCIENTIFICA O SENSO COMUNE? Paola Magnano paola.magnano@unikore.it ricevimento: martedì ore 10-11 c/o Studio 16, piano -1 PSICOLOGIA SOCIALE COME SCIENZA EMPIRICA le sue

Dettagli

LE FUNZIONI A DUE VARIABILI

LE FUNZIONI A DUE VARIABILI Capitolo I LE FUNZIONI A DUE VARIABILI In questo primo capitolo introduciamo alcune definizioni di base delle funzioni reali a due variabili reali. Nel seguito R denoterà l insieme dei numeri reali mentre

Dettagli

11. Analisi statistica degli eventi idrologici estremi

11. Analisi statistica degli eventi idrologici estremi . Analisi statistica degli eventi idrologici estremi I processi idrologici evolvono, nello spazio e nel tempo, secondo modalità che sono in parte predicibili (deterministiche) ed in parte casuali (stocastiche

Dettagli

1 Applicazioni Lineari tra Spazi Vettoriali

1 Applicazioni Lineari tra Spazi Vettoriali 1 Applicazioni Lineari tra Spazi Vettoriali Definizione 1 (Applicazioni lineari) Si chiama applicazione lineare una applicazione tra uno spazio vettoriale ed uno spazio vettoriale sul campo tale che "!$%!

Dettagli

Statistica. Lezione 6

Statistica. Lezione 6 Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 6 a.a 011-01 Dott.ssa Daniela Ferrante

Dettagli

Scheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux

Scheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux Scheduling della CPU Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux Sistemi multiprocessori Fin qui si sono trattati i problemi di scheduling su singola

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 10-Il test t per un campione e la stima intervallare (vers. 1.1, 25 ottobre 2015) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia,

Dettagli

1. PRIME PROPRIETÀ 2

1. PRIME PROPRIETÀ 2 RELAZIONI 1. Prime proprietà Il significato comune del concetto di relazione è facilmente intuibile: due elementi sono in relazione se c è un legame tra loro descritto da una certa proprietà; ad esempio,

Dettagli

Ing. Simone Giovannetti

Ing. Simone Giovannetti Università degli Studi di Firenze Dipartimento di Elettronica e Telecomunicazioni Ing. Simone Giovannetti Firenze, 29 Maggio 2012 1 Incertezza di Misura (1/3) La necessità di misurare nasce dall esigenza

Dettagli

Capitolo 4 Probabilità

Capitolo 4 Probabilità Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 4 Probabilità Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara Docenti: Dott.

Dettagli

1 Serie di Taylor di una funzione

1 Serie di Taylor di una funzione Analisi Matematica 2 CORSO DI STUDI IN SMID CORSO DI ANALISI MATEMATICA 2 CAPITOLO 7 SERIE E POLINOMI DI TAYLOR Serie di Taylor di una funzione. Definizione di serie di Taylor Sia f(x) una funzione definita

Dettagli

Strutturazione logica dei dati: i file

Strutturazione logica dei dati: i file Strutturazione logica dei dati: i file Informazioni più complesse possono essere composte a partire da informazioni elementari Esempio di una banca: supponiamo di voler mantenere all'interno di un computer

Dettagli

Pro e contro delle RNA

Pro e contro delle RNA Pro e contro delle RNA Pro: - flessibilità: le RNA sono approssimatori universali; - aggiornabilità sequenziale: la stima dei pesi della rete può essere aggiornata man mano che arriva nuova informazione;

Dettagli

e-dva - eni-depth Velocity Analysis

e-dva - eni-depth Velocity Analysis Lo scopo dell Analisi di Velocità di Migrazione (MVA) è quello di ottenere un modello della velocità nel sottosuolo che abbia dei tempi di riflessione compatibili con quelli osservati nei dati. Ciò significa

Dettagli

Guida Compilazione Piani di Studio on-line

Guida Compilazione Piani di Studio on-line Guida Compilazione Piani di Studio on-line SIA (Sistemi Informativi d Ateneo) Visualizzazione e presentazione piani di studio ordinamento 509 e 270 Università della Calabria (Unità organizzativa complessa-

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2014-2015 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it Automazione Industriale (scheduling+mms) scheduling+mms adacher@dia.uniroma3.it Introduzione Sistemi e Modelli Lo studio e l analisi di sistemi tramite una rappresentazione astratta o una sua formalizzazione

Dettagli

Corso di Matematica per la Chimica

Corso di Matematica per la Chimica Dott.ssa Maria Carmela De Bonis a.a. 203-4 I sistemi lineari Generalità sui sistemi lineari Molti problemi dell ingegneria, della fisica, della chimica, dell informatica e dell economia, si modellizzano

Dettagli

Corso di. Dott.ssa Donatella Cocca

Corso di. Dott.ssa Donatella Cocca Corso di Statistica medica e applicata Dott.ssa Donatella Cocca 1 a Lezione Cos'è la statistica? Come in tutta la ricerca scientifica sperimentale, anche nelle scienze mediche e biologiche è indispensabile

Dettagli

Ottimizzazione Multi Obiettivo

Ottimizzazione Multi Obiettivo Ottimizzazione Multi Obiettivo 1 Ottimizzazione Multi Obiettivo I problemi affrontati fino ad ora erano caratterizzati da una unica (e ben definita) funzione obiettivo. I problemi di ottimizzazione reali

Dettagli

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della RELAZIONE TRA VARIABILI QUANTITATIVE Lezione 7 a Accade spesso nella ricerca in campo biomedico, così come in altri campi della scienza, di voler studiare come il variare di una o più variabili (variabili

Dettagli

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: Esempi di domande risposta multipla (Modulo II) 1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: 1) ha un numero di elementi pari a 5; 2) ha un numero di elementi

Dettagli

Corso di Componenti e Impianti Termotecnici LE RETI DI DISTRIBUZIONE PERDITE DI CARICO LOCALIZZATE

Corso di Componenti e Impianti Termotecnici LE RETI DI DISTRIBUZIONE PERDITE DI CARICO LOCALIZZATE LE RETI DI DISTRIBUZIONE PERDITE DI CARICO LOCALIZZATE 1 PERDITE DI CARICO LOCALIZZATE Sono le perdite di carico (o di pressione) che un fluido, in moto attraverso un condotto, subisce a causa delle resistenze

Dettagli

LEZIONE 23. Esempio 23.1.3. Si consideri la matrice (si veda l Esempio 22.2.5) A = 1 2 2 3 3 0

LEZIONE 23. Esempio 23.1.3. Si consideri la matrice (si veda l Esempio 22.2.5) A = 1 2 2 3 3 0 LEZIONE 23 231 Diagonalizzazione di matrici Abbiamo visto nella precedente lezione che, in generale, non è immediato che, data una matrice A k n,n con k = R, C, esista sempre una base costituita da suoi

Dettagli

risulta (x) = 1 se x < 0.

risulta (x) = 1 se x < 0. Questo file si pone come obiettivo quello di mostrarvi come lo studio di una funzione reale di una variabile reale, nella cui espressione compare un qualche valore assoluto, possa essere svolto senza necessariamente

Dettagli

Amplificatori Audio di Potenza

Amplificatori Audio di Potenza Amplificatori Audio di Potenza Un amplificatore, semplificando al massimo, può essere visto come un oggetto in grado di aumentare il livello di un segnale. Ha quindi, generalmente, due porte: un ingresso

Dettagli

Probabilità discreta

Probabilità discreta Probabilità discreta Daniele A. Gewurz 1 Che probabilità c è che succeda...? Una delle applicazioni della combinatoria è nel calcolo di probabilità discrete. Quando abbiamo a che fare con un fenomeno che

Dettagli

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda Premessa Con l analisi di sensitività il perito valutatore elabora un range di valori invece di un dato

Dettagli

Laboratorio di Pedagogia Sperimentale. Indice

Laboratorio di Pedagogia Sperimentale. Indice INSEGNAMENTO DI LABORATORIO DI PEDAGOGIA SPERIMENTALE LEZIONE III INTRODUZIONE ALLA RICERCA SPERIMENTALE (PARTE III) PROF. VINCENZO BONAZZA Indice 1 L ipotesi -----------------------------------------------------------

Dettagli

Rapporto dal Questionari Insegnanti

Rapporto dal Questionari Insegnanti Rapporto dal Questionari Insegnanti SCUOLA CHIC81400N N. Docenti che hanno compilato il questionario: 60 Anno Scolastico 2014/15 Le Aree Indagate Il Questionario Insegnanti ha l obiettivo di rilevare la

Dettagli

Come visto precedentemente l equazione integro differenziale rappresentativa dell equilibrio elettrico di un circuito RLC è la seguente: 1 = (1)

Come visto precedentemente l equazione integro differenziale rappresentativa dell equilibrio elettrico di un circuito RLC è la seguente: 1 = (1) Transitori Analisi nel dominio del tempo Ricordiamo che si definisce transitorio il periodo di tempo che intercorre nel passaggio, di un sistema, da uno stato energetico ad un altro, non è comunque sempre

Dettagli

Barriere assorbenti nelle catene di Markov e una loro applicazione al web

Barriere assorbenti nelle catene di Markov e una loro applicazione al web Università Roma Tre Facoltà di Scienze M.F.N Corso di Laurea in Matematica a.a. 2001/2002 Barriere assorbenti nelle catene di Markov e una loro applicazione al web Giulio Simeone 1 Sommario Descrizione

Dettagli

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi Indice generale OOA Analisi Orientata agli Oggetti Introduzione Analisi Metodi d' analisi Analisi funzionale Analisi del flusso dei dati Analisi delle informazioni Analisi Orientata agli Oggetti (OOA)

Dettagli

L espressione torna invece sempre vera (quindi la soluzione originale) se cambiamo contemporaneamente il verso: 1 < 0.

L espressione torna invece sempre vera (quindi la soluzione originale) se cambiamo contemporaneamente il verso: 1 < 0. EQUAZIONI E DISEQUAZIONI Le uguaglianze fra espressioni numeriche si chiamano equazioni. Cercare le soluzioni dell equazione vuol dire cercare quelle combinazioni delle lettere che vi compaiono che la

Dettagli

( x) ( x) 0. Equazioni irrazionali

( x) ( x) 0. Equazioni irrazionali Equazioni irrazionali Definizione: si definisce equazione irrazionale un equazione in cui compaiono uno o più radicali contenenti l incognita. Esempio 7 Ricordiamo quanto visto sulle condizioni di esistenza

Dettagli

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi Versione 2.0 Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi Corso anno 2011 E. MANUALE UTILIZZO HAZARD MAPPER Il programma Hazard Mapper è stato realizzato per redarre,

Dettagli

Matematica generale CTF

Matematica generale CTF Successioni numeriche 19 agosto 2015 Definizione di successione Monotonìa e limitatezza Forme indeterminate Successioni infinitesime Comportamento asintotico Criterio del rapporto per le successioni Definizione

Dettagli

Soluzione dell esercizio del 2 Febbraio 2004

Soluzione dell esercizio del 2 Febbraio 2004 Soluzione dell esercizio del 2 Febbraio 2004 1. Casi d uso I casi d uso sono riportati in Figura 1. Figura 1: Diagramma dei casi d uso. E evidenziato un sotto caso di uso. 2. Modello concettuale Osserviamo

Dettagli

Capitolo 13: L offerta dell impresa e il surplus del produttore

Capitolo 13: L offerta dell impresa e il surplus del produttore Capitolo 13: L offerta dell impresa e il surplus del produttore 13.1: Introduzione L analisi dei due capitoli precedenti ha fornito tutti i concetti necessari per affrontare l argomento di questo capitolo:

Dettagli

REGOLAZIONE (E TASSAZIONE OTTIMALE) DI UN MONOPOLIO CON PIÙ LINEE DI PRODUZIONE

REGOLAZIONE (E TASSAZIONE OTTIMALE) DI UN MONOPOLIO CON PIÙ LINEE DI PRODUZIONE REGOLAZIONE (E TASSAZIONE OTTIMALE) DI UN MONOPOLIO CON PIÙ LINEE DI PRODUZIONE Nella Sezione 16.5 abbiamo visto come un regolatore che voglia fissare il prezzo del monopolista in modo da minimizzare la

Dettagli

5.2.1 RELAZIONI TRA TABELLE 1. 5.2.4.1 Creare una relazione uno-a-uno, uno-a-molti tra tabelle 9

5.2.1 RELAZIONI TRA TABELLE 1. 5.2.4.1 Creare una relazione uno-a-uno, uno-a-molti tra tabelle 9 5.2.1 RELAZIONI TRA TABELLE 1 5.2.4.1 Creare una relazione uno-a-uno, uno-a-molti tra tabelle 9 Il grado di un verso di un associazione indica quanti record della tabella di partenza si associano ad un

Dettagli

Prova di autovalutazione Prof. Roberta Siciliano

Prova di autovalutazione Prof. Roberta Siciliano Prova di autovalutazione Prof. Roberta Siciliano Esercizio 1 Nella seguente tabella è riportata la distribuzione di frequenza dei prezzi per camera di alcuni agriturismi, situati nella regione Basilicata.

Dettagli

SCENARIO. Personas. 2010 ALICE Lucchin / BENITO Condemi de Felice. All rights reserved.

SCENARIO. Personas. 2010 ALICE Lucchin / BENITO Condemi de Felice. All rights reserved. SCENARIO Personas SCENARIO È una delle tecniche che aiuta il designer a far emergere le esigente dell utente e il contesto d uso. Gli scenari hanno un ambientazione, attori (personas) con degli obiettivi,

Dettagli

MODELLO RELAZIONALE. Introduzione

MODELLO RELAZIONALE. Introduzione MODELLO RELAZIONALE Introduzione E' stato proposto agli inizi degli anni 70 da Codd finalizzato alla realizzazione dell indipendenza dei dati, unisce concetti derivati dalla teoria degli insiemi (relazioni)

Dettagli

SPC e distribuzione normale con Access

SPC e distribuzione normale con Access SPC e distribuzione normale con Access In questo articolo esamineremo una applicazione Access per il calcolo e la rappresentazione grafica della distribuzione normale, collegata con tabelle di Clienti,

Dettagli

Raccomandazione del Parlamento europeo 18/12/2006 CLASSE PRIMA COMPETENZE ABILITÀ CONOSCENZE. Operare con i numeri

Raccomandazione del Parlamento europeo 18/12/2006 CLASSE PRIMA COMPETENZE ABILITÀ CONOSCENZE. Operare con i numeri COMPETENZA CHIAVE MATEMATICA Fonte di legittimazione Raccomandazione del Parlamento europeo 18/12/2006 CLASSE PRIMA COMPETENZE ABILITÀ CONOSCENZE L alunno utilizza il calcolo scritto e mentale con i numeri

Dettagli

Generazione Automatica di Asserzioni da Modelli di Specifica

Generazione Automatica di Asserzioni da Modelli di Specifica UNIVERSITÀ DEGLI STUDI DI MILANO BICOCCA FACOLTÀ DI SCIENZE MATEMATICHE FISICHE E NATURALI Corso di Laurea Magistrale in Informatica Generazione Automatica di Asserzioni da Modelli di Specifica Relatore:

Dettagli

DATI NORMATIVI PER LA SOMMINISTRAZIONE DELLE PROVE PAC-SI A BAMBINI DI INIZIO SCUOLA PRIMARIA 1

DATI NORMATIVI PER LA SOMMINISTRAZIONE DELLE PROVE PAC-SI A BAMBINI DI INIZIO SCUOLA PRIMARIA 1 DATI NORMATIVI PER LA SOMMINISTRAZIONE DELLE PROVE PAC-SI A BAMBINI DI INIZIO SCUOLA PRIMARIA 1 Marta Desimoni**, Daniela Pelagaggi**, Simona Fanini**, Loredana Romano**,Teresa Gloria Scalisi* * Dipartimento

Dettagli

Richiami di teoria della probabilitá e Modelli Grafici

Richiami di teoria della probabilitá e Modelli Grafici Modelli di computazione affettiva e comportamentale Data: 23 Aprile 2010 Richiami di teoria della probabilitá e Modelli Grafici Docente: Prof. Giuseppe Boccignone Scriba: Matteo Battistini 1 Richiami di

Dettagli

Polli e conigli. problemi Piano cartesiano. Numeri e algoritmi Sistemi e loro. geometrica. Relazioni e funzioni Linguaggio naturale e

Polli e conigli. problemi Piano cartesiano. Numeri e algoritmi Sistemi e loro. geometrica. Relazioni e funzioni Linguaggio naturale e Polli e conigli Livello scolare: primo biennio Abilità Interessate Calcolo di base - sistemi Risolvere per via grafica e algebrica problemi che si formalizzano con equazioni. Analizzare semplici testi

Dettagli

Codifiche a lunghezza variabile

Codifiche a lunghezza variabile Sistemi Multimediali Codifiche a lunghezza variabile Marco Gribaudo marcog@di.unito.it, gribaudo@elet.polimi.it Assegnazione del codice Come visto in precedenza, per poter memorizzare o trasmettere un

Dettagli

Fondamenti e didattica di Matematica Finanziaria

Fondamenti e didattica di Matematica Finanziaria Fondamenti e didattica di Matematica Finanziaria Silvana Stefani Piazza dell Ateneo Nuovo 1-20126 MILANO U6-368 silvana.stefani@unimib.it 1 Unità 9 Contenuti della lezione Operazioni finanziarie, criterio

Dettagli

REPLICAZIONE DEL DNA

REPLICAZIONE DEL DNA REPLICAZIONE DEL DNA La replicazione (o anche duplicazione) è il meccanismo molecolare attraverso cui il DNA produce una copia di sé stesso. Ogni volta che una cellula si divide, infatti, l'intero genoma

Dettagli

E naturale chiedersi alcune cose sulla media campionaria x n

E naturale chiedersi alcune cose sulla media campionaria x n Supponiamo che un fabbricante stia introducendo un nuovo tipo di batteria per un automobile elettrica. La durata osservata x i delle i-esima batteria è la realizzazione (valore assunto) di una variabile

Dettagli

Come costruire una distribuzione di frequenze per caratteri quantitativi continui

Come costruire una distribuzione di frequenze per caratteri quantitativi continui Come costruire una distribuzione di frequenze per caratteri quantitativi continui Consideriamo i dati contenuti nel primo foglio di lavoro (quello denominato dati) del file esempio2.xls. I dati si riferiscono

Dettagli

Consideriamo due polinomi

Consideriamo due polinomi Capitolo 3 Il luogo delle radici Consideriamo due polinomi N(z) = (z z 1 )(z z 2 )... (z z m ) D(z) = (z p 1 )(z p 2 )... (z p n ) della variabile complessa z con m < n. Nelle problematiche connesse al

Dettagli

Esponenziali elogaritmi

Esponenziali elogaritmi Esponenziali elogaritmi Potenze ad esponente reale Ricordiamo che per un qualsiasi numero razionale m n prendere n>0) si pone a m n = n a m (in cui si può sempre a patto che a sia un numero reale positivo.

Dettagli

LA PROGETTAZIONE DI UN NUOVO STRUMENTO PER IL WEB

LA PROGETTAZIONE DI UN NUOVO STRUMENTO PER IL WEB UNIVERSITÀ DEGLI STUDI DI PADOVA FACOLTÀ DI LETTERE E FILOSOFIA CORSO DI LAUREA MAGISTRALE IN STRATEGIE DI COMUNICAZIONE LA PROGETTAZIONE DI UN NUOVO STRUMENTO PER IL WEB LA PROPOSTA DI UN MODELLO MIRATO

Dettagli

LA MASSIMIZZAZIONE DEL PROFITTO ATTRAVERSO LA FISSAZIONE DEL PREZZO IN FUNZIONE DELLE QUANTITÀ

LA MASSIMIZZAZIONE DEL PROFITTO ATTRAVERSO LA FISSAZIONE DEL PREZZO IN FUNZIONE DELLE QUANTITÀ LA MASSIMIZZAZIONE DEL PROFITTO ATTRAVERSO LA FISSAZIONE DEL PREZZO IN FUNZIONE DELLE QUANTITÀ In questa Appendice mostreremo come trovare la tariffa in due parti che massimizza i profitti di Clearvoice,

Dettagli

CALCOLO COMBINATORIO

CALCOLO COMBINATORIO CALCOLO COMBINATORIO 1 Modi di formare gruppi di k oggetti presi da n dati 11 disposizioni semplici, permutazioni Dati n oggetti distinti a 1,, a n si chiamano disposizioni semplici di questi oggetti,

Dettagli

Capitolo 2 Distribuzioni di frequenza

Capitolo 2 Distribuzioni di frequenza Edizioni Simone - Vol. 43/1 Compendio di statistica Capitolo 2 Distribuzioni di frequenza Sommario 1. Distribuzioni semplici. - 2. Distribuzioni doppie. - 3. Distribuzioni parziali: condizionate e marginali.

Dettagli

Introduzione al Campionamento e

Introduzione al Campionamento e Introduzione al Campionamento e all analisi analisi in frequenza Presentazione basata sul Cap.V di Introduction of Engineering Experimentation, A.J.Wheeler, A.R.Ganj, Prentice Hall Campionamento L'utilizzo

Dettagli

Calcolo delle probabilità

Calcolo delle probabilità Calcolo delle probabilità Laboratorio di Bioinformatica Corso A aa 2005-2006 Statistica Dai risultati di un esperimento si determinano alcune caratteristiche della popolazione Calcolo delle probabilità

Dettagli

Esercitazione 23 maggio 2016

Esercitazione 23 maggio 2016 Esercitazione 5 maggio 016 Esercitazione 3 maggio 016 In questa esercitazione, nei primi tre esercizi, analizzeremo il problema del moral hazard nel mercato. In questo caso prenderemo in considerazione

Dettagli

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Un po di statistica. Christian Ferrari. Laboratorio di Matematica Un po di statistica Christian Ferrari Laboratorio di Matematica 1 Introduzione La statistica è una parte della matematica applicata che si occupa della raccolta, dell analisi e dell interpretazione di

Dettagli

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a) Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B Eventi indipendenti: un evento non influenza l altro Eventi disgiunti: il verificarsi di un evento esclude l altro Evento prodotto:

Dettagli

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile Problemi connessi all utilizzo di un numero di bit limitato Abbiamo visto quali sono i vantaggi dell utilizzo della rappresentazione in complemento alla base: corrispondenza biunivoca fra rappresentazione

Dettagli

II.f. Altre attività sull euro

II.f. Altre attività sull euro Altre attività sull euro II.f È consigliabile costruire modelli in carta o cartoncino di monete e banconote, e farli usare ai bambini in varie attività di classe fin dal primo o al più dal secondo anno.

Dettagli

Modello Relazionale. Modello Relazionale. Relazioni - Prodotto Cartesiano. Relazione: tre accezioni. Es. Dati gli insiemi

Modello Relazionale. Modello Relazionale. Relazioni - Prodotto Cartesiano. Relazione: tre accezioni. Es. Dati gli insiemi Modello Relazionale Modello Relazionale Proposto agli inizi degli anni 70 da Codd Finalizzato alla realizzazione dell indipendenza dei dati Unisce concetti derivati dalla teoria degli insiemi (relazioni)

Dettagli

03. Il Modello Gestionale per Processi

03. Il Modello Gestionale per Processi 03. Il Modello Gestionale per Processi Gli aspetti strutturali (vale a dire l organigramma e la descrizione delle funzioni, ruoli e responsabilità) da soli non bastano per gestire la performance; l organigramma

Dettagli

2. Leggi finanziarie di capitalizzazione

2. Leggi finanziarie di capitalizzazione 2. Leggi finanziarie di capitalizzazione Si chiama legge finanziaria di capitalizzazione una funzione atta a definire il montante M(t accumulato al tempo generico t da un capitale C: M(t = F(C, t C t M

Dettagli

(Esercizi Tratti da Temi d esame degli ordinamenti precedenti)

(Esercizi Tratti da Temi d esame degli ordinamenti precedenti) (Esercizi Tratti da Temi d esame degli ordinamenti precedenti) Esercizio 1 L'agenzia viaggi GV - Grandi Viaggi vi commissiona l'implementazione della funzione AssegnaVolo. Tale funzione riceve due liste

Dettagli

Principi di analisi causale Lezione 2

Principi di analisi causale Lezione 2 Anno accademico 2007/08 Principi di analisi causale Lezione 2 Docente: prof. Maurizio Pisati Logica della regressione Nella sua semplicità, l espressione precedente racchiude interamente la logica della

Dettagli

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi. Algoritmi 1 Sommario Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi. 2 Informatica Nome Informatica=informazione+automatica. Definizione Scienza che si occupa dell

Dettagli

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE DESCRIZIONE DEI DATI DA ESAMINARE Sono stati raccolti i dati sul peso del polmone di topi normali e affetti da una patologia simile

Dettagli