La regressione. 1 Definizioni e relazioni fondamentali. 1.1 Correlazione e regressione

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "La regressione. 1 Definizioni e relazioni fondamentali. 1.1 Correlazione e regressione"

Transcript

1 1 Definizioni e relazioni fondamentali 1.1 Correlazione e regressione Molto spesso le grandezze idrologiche che si possono rappresentare come variabili casuali risultano legate tra loro da relazioni, non funzionali, ma comunque più o meno evidenti. Tra gli afflussi meteorici annui, o tra i deflussi annui, relativi a due bacini idrografici posti l'uno accanto all'altro, per esempio, deve sussistere una qualche sorta di legame statistico, perché molto verosimilmente, data la vicinanza, gli anni più piovosi (o meno piovosi) per un bacino lo sono anche per l'altro, essendo molto estese le aree interessate dai fenomeni atmosferici che determinano il regime pluviometrico. A maggior ragione, un legame deve sussistere tra gli afflussi meteorici annui e i deflussi annui di uno stesso bacino, dato che i deflussi sono causati proprio dagli afflussi meteorici. E gli esempi si possono moltiplicare. Altre grandezze idrologiche rappresentabili come variabili casuali, ma tra loro legate, sono la portata media giornaliera di un certo giorno dell'anno e quella osservata il giorno precedente, il massimo annuale della portata al colmo osservato in una data sezione di un corso d'acqua e quello osservato in una stazione posta a monte, e così via. Caratteristica comune a tutti gli esempi considerati è che il legame tra le due variabili casuali si può esprimere dicendo che la distribuzione di probabilità di una delle due variabili dipende dal particolare valore assunto dall'altra, e che il legame stesso si può quindi rappresentare per mezzo di distribuzioni condizionate. Per semplicità si è fin qui preso in considerazione soltanto il caso di variabili idrologiche tra loro legate a due a due. E` chiaro però che il legame può interessare anche più di due variabili, come accade, per esempio, nel caso dei totali annui di pioggia osservati in più stazioni meteorologiche tra loro abbastanza vicine. Per descrivere i legami esistenti tra due o più variabili casuali si adopera la loro distribuzione congiunta. Lo studio dell'interdipendenza delle variabili casuali considerate si può svolgere in due modi, il primo più generale del secondo. Consideriamo, per semplicità, il caso in cui le variabili casuali sono soltanto due. Innanzi tutto è possibile che si sia interessati a descrivere il legame statistico tra le due variabili considerandole in modo assolutamente paritetico, senza fare distinzioni particolari e senza assegnare una qualche precedenza logica a nessuna delle due. Consideriamo, per esempio, il caso dell'afflusso meteorico relativo a due bacini idrografici tra loro vicini. Il legame tra le due variabili dipende dall'esistenza di una causa comune (l'andamento del tempo sulla regione in cui i due bacini si trovano) e non c'è, in generale, una particolare ragione per seguire un particolare ordine logico nel prenderle in 1

2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo si indica comunemente come studio della correlazione tra le due variabili. Il problema del legame statistico tra due variabili si può però presentare anche in un modo un po' diverso. Consideriamo, per esempio, l'afflusso meteorico annuo e il deflusso annuo relativi a uno stesso bacino idrografico. Anche in questo caso è prevedibile l'esistenza di una relazione tra i valori corrispondenti delle due variabili, e a maggior ragione che in quello considerato nell'esempio precedente, perché si può addirittura ipotizzare a priori l'esistenza di un rapporto di causalità. Tra l'afflusso meteorico e il deflusso non è però possibile stabilire un vero e proprio legame funzionale, perché per uno stesso valore dell'afflusso meteorico si osservano, in anni diversi, valori diversi del deflusso, così che la corrispondenza tra i valori assunti dalle due variabili risulta irregolare e, almeno entro certi limiti, casuale. Sicuramente comunque esiste una sorta di precedenza logica di una delle due variabili rispetto all'altra, che rispecchia il legame fisico di causa ed effetto: ha senso parlare di dipendenza del deflusso dall'afflusso, ma non di dipendenza dell'afflusso dal deflusso. Lo studio della dipendenza statistica di una variabile da un'altra prende il nome di studio della regressione della variabile dipendente (il deflusso) sulla variabile indipendente (l'afflusso). Lo studio della dipendenza statistica di una variabile dall'altra si può fare, nell'ambito di una distribuzione congiunta, ricavando dalla funzione di probabilità della distribuzione congiunta la funzione di probabilità condizionata della variabile dipendente. A proposito della regressione vale la pena di fare alcune osservazioni. In primo luogo, non è necessario che tra la variabile dipendente e quella indipendente esista una qualche forma di legame causale, come nel caso dell'afflusso meteorico e del deflusso. Se le due variabili sono costituite, per esempio, dai totali annui di precipitazione osservati in due stazioni meteorologiche vicine, si può ancora essere particolarmente interessati a considerare la dipendenza di una variabile dall'altra (per esempio perché si vuole stimare l'altezza di precipitazione, incognita, della prima stazione a partire da quella, nota, della seconda), sebbene il legame tra le due non sia propriamente causale, ma costituito dalla dipendenza di entrambe le variabili da una causa comune (la situazione meteorologica, che interessa in generale una regione abbastanza ampia). In secondo luogo, all'interno dello studio della correlazione tra due variabili casuali si possono prendere in considerazione due diverse regressioni: quella della prima variabile sulla seconda e quella della seconda sulla prima. (Naturalmente, non è detto che entrambe rivestano lo stesso interesse, o addirittura che siano entrambe significative nel contesto del problema considerato.) In terzo luogo, infine, osserviamo - ed è questa un'osservazione particolarmente importante - che per lo studio della regressione non è necessario che entrambe le variabili siano casuali. Negli esempi considerati fin qui entrambe le variabili lo sono, ma non è sempre necessariamente così. Tutte le volte che il valore della variabile indipendente può essere liberamente scelto dall'osservatore (come accade negli esperimenti di laboratorio), 2

3 la casualità rimane confinata al legame tra le due variabili, senza toccare la variabile indipendente, che non ha nulla di casuale. La casualità si può attribuire allora alla sola variabile dipendente, considerandola come una variabile casuale la cui distribuzione di probabilità risulta condizionata dal valore assunto da quella indipendente. Il non doversi necessariamente considerare casuale la variabile indipendente è una caratteristica fondamentale della regressione. Naturalmente i concetti di correlazione e di regressione si estendono immediatamente a più di due variabili. Lo studio della dipendenza statistica di una variabile dipendente da più variabili indipendenti prende il nome di analisi della regressione multipla. 1.2 La regressione e l'errore di regressione Consideriamo un sistema di due variabili casuali x 1 e x 2. Indichiamo con µ(x 1 x 2 ) la media della variabile x 1 condizionata alla variabile x 2, che è espressa dalla relazione + (1) µ(x 1 x 2 ) = x1 p(x 1 x 2 )dx 1. - La media condizionata µ(x 1 x 2 ) è una funzione della variabile x 2, perché a ogni valore della x 2 corrisponde un particolare valore - in generale diverso - di µ(x 1 x 2 ). La curva che rappresenta su un piano cartesiano la funzione rappresentata dalla (1) si chiama curva di regressione della variabile dipendente x 1 sulla variabile indipendente x 2. Osserviamo che, essendo casuale la variabile x 2, anche la media µ(x 1 x 2 ) lo è, in quanto funzione di una variabile casuale. Poiché per ogni valore della x 2 risulta determinato il corrispondente valore della media condizionata µ(x 1 x 2 ), si può associare a ogni coppia di valori x 1 e x 2 quello della nuova variabile (2) z = x 1 - µ(x 1 x 2 ), differenza algebrica tra la variabile casuale x 1 e la sua media condizionata µ(x 1 x 2 ), che prende il nome di errore di regressione. A rigore, l'espressione (2) si dovrebbe scrivere nella forma (2a) z x 2 = x 1 x 2 - µ(x 1 x 2 ), perché sia la distribuzione della variabile dipendente x 1 sia quella dell'errore di regressione z sono in effetti delle distribuzioni condizionate. Per non appesantire in modo 3

4 x 1 z= x 1 -µ(x 1 x 2 ) µ(x 1 x 2 ) x 2 Fig. 1 Curva di regressione della variabile x 1 sulla variabile x 2 x 1 x 2 Fig. 2 Esempio di campione estratto dalla distribuzione congiunta di due variabili, con distribuzione dell'errore di regressione debolmente variabile nel campo in cui ricadono le osservazioni 4

5 eccessivo le notazioni, però, qui e nel seguito, conformemente all'uso comune, si adotterà la forma adoperata nell'espressione (2). Sul piano cartesiano (x 2, x 1 ) la variabile z rappresenta la distanza, misurata parallelamente all'asse delle ordinate, tra il punto di coordinate x 2, x 1 e la curva di regressione della x 1 sulla x 2 (fig. 1). Quanto minore è la variabilità della z, cioè quanto più improbabili sono le coppie di valori rappresentate da punti lontani dalla curva di regressione, tanto più stretto è il legame tra la x 1 e la x 2. Quando il legame tra la x 1 e la x 2 diventa funzionale, cioè a ogni valore della x 2 corrisponde un solo valore della x 1, la z assume il valore costante zero. Il discorso si estende immediatamente alla regressione di una variabile dipendente x 1 su più variabili indipendenti x 2, x 3,..., x p. Alla media µ(x 1 x 2 ) della variabile x 1 condizionata al valore assunto dalla variabile x 2 si sostituisce infatti la media µ(x 1 x 2, x 3,..., x p ) della variabile x 1 condizionata ai valori assunti dalle variabili x 2, x 3,..., x p e l'errore di regressione risulta uguale alla differenza (3) z = x 1 - µ(x 1 x 2, x 3,..., x p ). In questo caso naturalmente non si può più parlare di curva di regressione, perché la media condizionata della x 1 non è più funzione di una sola variabile, ma solo di funzione di regressione (che, incidentalmente, rappresenta una superficie quando le variabili indipendenti sono due). L'errore z è una variabile casuale, la cui distribuzione di probabilità (condizionata) dipende, in generale, dai valori assunti dalle variabili indipendenti x 2, x 3,..., x p. E` anche possibile, però, che la distribuzione condizionata di z non dipenda dal valore assunto dalle variabili indipendenti. L'errore z si dice allora omoscedastico (o omoschedastico). In caso contrario si dice eteroscedastico (o eteroschedastico). (Può valere la pena osservare che, mentre nel caso di errore eteroscedastico la notazione z x 2, x 3,..., x p sarebbe, a rigore, più corretta di quella qui adoperata, nel caso di errore omoscedastico la semplice notazione z risulta del tutto corretta, perché la distribuzione condizionata di z coincide sempre con quella marginale.) Il caso di maggiore interesse pratico, perché dà luogo a un'algebra abbastanza semplice, è senz'altro quello di errore omoscedastico. Per la verità nelle applicazioni idrologiche l'errore di regressione è, a rigore, il più delle volte eteroscedastico. Si pensi, per esempio, alla regressione del deflusso annuo in una data sezione di un fiume sul deflusso in una sezione a monte di quella. Il deflusso nella sezione di valle non è esattamente determinato da quello nella sezione di monte, perché la differenza tra i due, che ovviamente corrisponde all'apporto degli affluenti e delle sorgenti del tratto intermedio, ha il carattere di una variabile casuale. E naturalmente è da attendersi che la variabilità dell'apporto degli affluenti e delle sorgenti sia maggiore in un anno piovoso che non in un anno asciutto, perché in un anno asciutto tutti i deflussi 5

6 assumono valori minori, che quindi necessariamente variano in un campo più ristretto. (In altre parole: se le differenze che si possono osservare tra i deflussi di anni piovosi sono uguali in termini relativi a quelle che si possono osservare tra i deflussi di anni asciutti - e grosso modo ci si può attendere che debba essere così - in termini assoluti debbono essere maggiori negli anni piovosi che non in quelli asciutti.) La differenza di variabilità è però in pratica abbastanza limitata, perché sono limitate le differenze tra anni piovosi e anni asciutti. Si può quindi ragionevolmente assumere che l'errore di regressione sia omoscedastico, anche se in realtà non lo è. Il caso di errore omoscedastico con distribuzione dell'errore di regressione poco variabile nel campo di valori della variabile indipendente che riveste interesse pratico (v. fig. 2) è molto comune nelle applicazioni idrologiche. Dalla formula di definizione dell'errore z discende immediatamente che la sua media condizionata (ai valori assunti dalle variabili indipendenti) è sempre nulla, essendo per definizione l'errore uguale alla differenza tra la variabile dipendente (condizionata) e la sua media (condizionata). Il concetto di regressione è stato introdotto qui con riferimento a un sistema di variabili che sono tutte casuali. In realtà, come è già stato fatto rilevare, non è necessario assumere che le variabili indipendenti siano casuali. Per introdurre il concetto di regressione basta infatti assumere che la x 1 sia una variabile casuale la cui distribuzione varia al variare dei valori assunti dalle variabili x 2, x 3,..., x p, indipendentemente dal fatto che anch'esse siano casuali oppure no. In effetti in molte applicazioni pratiche (per esempio in molti esperimenti) i valori delle variabili indipendenti sono fissati dall'osservatore, nel modo ritenuto più opportuno. 1.3 L'indice di regressione Quando le variabili indipendenti x 2, x 3,..., x p sono variabili casuali, anche la media condizionata µ(x 1 x 2, x 3,..., x p ) deve essere una variabile casuale, in quanto funzione di variabili casuali. Per chiarire meglio il concetto, si può pensare di estrarre dalla distribuzione congiunta delle variabili x 2, x 3,..., x p un campione di N osservazioni (dove quindi ogni osservazione è composta da p elementi), e di far corrispondere a ogni valore osservato della variabile dipendente x 1 il valore della media condizionata µ(x 1 x 2, x 3,..., x p ) individuato dai corrispondenti valori osservati delle p - 1 variabili indipendenti x 2, x 3,..., x p (fig. 3). In questo modo si costruisce un campione di dimensione N che, al tendere di N a infinito, viene a coincidere con la distribuzione congiunta delle due variabili casuali x 1 e µ(x 1 x 2, x 3,..., x p ). In un grafico in cui il valore osservato della variabile dipendente x 1 e quello della media condizionata µ(x 1 x 2, x 3,..., x p ) corrispondente ai valori osservati delle variabili indipendenti sono riportati, rispettivamente, sull'asse delle ascisse e su quello delle 6

7 y = 5.085LOG(x) x 1 x 1 µ(x 1 x 2 ) x 2 Fig. 3 Curva di regressione della x 1 sulla x 2 µ(x 1 x 2 ) x 1 Fig. 4 Confronto tra i valori osservati di x 1 e i corrispondenti valori della media condizionata µ(x 1 x 2 ) 7

8 ordinate, i punti che rappresentano un certo insieme di osservazioni risultano disposti intorno a una retta con coefficiente angolare uguale a uno (fig. 4). Naturalmente, i punti si addensano tanto più intorno alla retta, quanto più stretto è il legame tra la variabile dipendente e quelle indipendenti. La strettezza del legame tra le due variabili x 1 e µ(x 1 x 2, x 3,..., x p ), che come si è appena visto è di tipo lineare, è misurata dal coefficiente di correlazione lineare tra le due variabili (sempre positivo), che prende il nome di indice di regressione. L'indice di regressione, che indichiamo con η, risulta legato alla varianza σ 2 (z) dell'errore di regressione (omoscedastico oppure eteroscedastico) e alla varianza σ 2 (x 1 ) della variabile dipendente dalla relazione (4) η 2 = 1 - σ 2 (z) σ. 2 (x 1 ) L'indice di regressione costituisce una misura del legame tra la variabile dipendente da una parte e l'insieme delle variabili indipendenti dall'altra. Se la variabile dipendente non è legata a quelle indipendenti da alcun legame deterministico - vale a dire se la distribuzione della variabile dipendente non è in alcun modo condizionata dai valori assunti da quelle indipendenti - la varianza dell'errore di regressione risulta uguale a quella della variabile dipendente e l'indice di regressione risulta uguale a zero (naturalmente in questo caso appare del tutto superfluo fare uso della nozione di regressione). Se, al contrario, la variabile dipendente è funzione di quelle indipendenti (e quindi il legame è puramente deterministico), la varianza dell'errore di regressione risulta nulla e l'indice di regressione risulta uguale a uno. Se infine - ed è questo il caso che interessa nelle applicazioni - il legame tra la variabile dipendente e quelle indipendenti è solo in parte deterministico (vale a dire, se la variabile dipendente risulta distribuita, al variare dei valori assunti dalle variabili indipendenti, secondo una distribuzione che dipende dai valori assunti da queste variabili), la varianza dell'errore di regressione risulta minore di quella della variabile dipendente e l'indice di regressione (sempre positivo, perché la media condizionata di x 1 mediamente cresce con x 1 ) risulta minore di uno. La differenza tra la varianza delle variabile dipendente (che prende il nome di varianza totale) e quella dell'errore di regressione rappresenta quella parte della varianza totale che è spiegata dall'esistenza del legame deterministico (perché il legame deterministico fa sì che, a parità di errore di regressione, al cambiamento dei valori osservati delle variabili indipendenti corrisponda in generale un cambiamento del valore osservato della variabile dipendente) e prende quindi il nome di varianza spiegata. La varianza dell'errore di regressione invece rappresenta quella parte della varianza totale che non è spiegata dalla regressione, e prende il nome di varianza residua. L'indice di regressione η si può definire anche quando le variabili indipendenti x 2, x 3,..., x p non sono casuali. Si pone però un problema. Quando la media µ(x 1 x 2, x 3,..., x p ) è una variabile casuale (perché lo sono le variabili indipendenti x 2, x 3,..., x p ), la varianza σ 2 (x 1 ) della distribuzione marginale della 8

9 variabile dipendente si può identificare con la media pesata delle varianze della variabile x 1 condizionate ai diversi valori possibili dell'altra variabile µ(x 1 x 2, x 3,..., x p ), calcolata assumendo come pesi le corrispondenti probabilità di µ(x 1 x 2, x 3,..., x p ). [L'identificazione è immediata se µ(x 1 x 2, x 3,..., x p ) è una variabile discreta.] Quando le variabili indipendenti non sono casuali, la definizione di σ 2 (x 1 ) implica l'assegnazione di un peso a ciascun valore di µ(x 1 x 2, x 3,..., x p ), e quindi a ciascun insieme di valori delle variabili indipendenti x 2, x 3,..., x p. La soluzione più semplice è di attribuire un peso uguale a ciascun insieme. 1.4 La regressione lineare e la regressione lineare multipla Un tipo di regressione particolarmente importante nelle applicazioni è la regressione lineare. Nella regressione lineare la media condizionata della variabile dipendente x 1 è una funzione lineare delle variabili indipendenti x 2, x 3,..., x p. Quando la variabile indipendente è una sola, la media condizionata è rappresentata dalla funzione lineare (5) µ(x 1 x 2 ) = β 1 + β 2 x 2 e di conseguenza la curva di regressione è rappresentata da una retta (v. fig. 3). Quando le variabili indipendenti sono più di una la funzione di regressione è costituita dall'espressione lineare (6) µ(x 1 x 2, x 3,..., x p ) = β 1 + β 2 x 2 + β 3 x β p x p e la regressione prende il nome di regressione lineare multipla. La funzione di regressione è ovviamente individuata dai parametri β 1, β 2,..., β p dell'espressione lineare che fornisce la media µ(x 1 x 2, x 3,..., x p ) della variabile dipendente x 1 condizionata ai valori assunti dalle variabili indipendenti. Il parametro β 1 è il termine noto, β 2, β 3,..., β p sono i coefficienti della regressione lineare. La regressione lineare multipla (di cui la regressione con una sola variabile indipendente costituisce ovviamente un caso particolare) è il tipo di regressione multipla di gran lunga più usato nelle applicazioni. Alla regressione lineare multipla è facile ricondursi, attraverso opportune trasformazioni delle variabili, in molti casi in cui la regressione considerata è di tipo diverso. Un'espressione monomia, per esempio, si trasforma in un'espressione lineare sostituendo alle variabili originarie i loro logaritmi; un'espressione quadratica si trasforma in un'espressione lineare sostituendo al quadrato della variabile indipendente una nuova variabile; e così via. 9

10 Benché, come si è già più volte avuto modo di dire, le variabili indipendenti di una regressione non debbano necessariamente essere delle variabili casuali, consideriamo qui la regressione lineare multipla della variabile dipendente x 1 sulle variabili indipendenti x 2, x 3,..., x p, facendo l'ipotesi che le variabili indipendenti siano variabili casuali e che l'errore di regressione sia omoscedastico. Per rendere la descrizione più semplice e chiara adottiamo l'ordinaria notazione matriciale, modificando un poco i simboli rispetto a quelli usati sin qui. Introduciamo dunque, indicando per una maggiore semplicità di notazione la media µ(x i ) della variabile x i con il simbolo µ i e la covarianza σ(x i, x j ) delle variabili x i e x j con il simbolo σ ij, il vettore (7) x = x 1 x 2 x p delle p variabili casuali, il vettore (8) m = µ 1 µ 2 µ p delle medie e la matrice (9) S = σ 11 σ 12 σ 1p σ 21 σ 22 σ 2p σ p1 σ p2 σ pp delle covarianze (la cui diagonale principale è costituita dalle varianze, che coincidono con le covarianze di ogni variabile con se stessa). Osserviamo incidentalmente che gli elementi del vettore x si possono sempre assumere disposti, come si è fatto qui, in modo che la variabile dipendente sia la prima delle p variabili. 10

11 La definizione della funzione di regressione (lineare) e della varianza dell'errore di regressione z si basa su una partizione preliminare del vettore x delle variabili casuali, del vettore m delle medie e della matrice S delle covarianze della distribuzione originaria delle p variabili. Il vettore x si suddivide nello scalare x 1, che coincide con la variabile dipendente, e nel vettore x 2, i cui elementi coincidono con le variabili indipendenti. Alla partizione in due del vettore x corrispondono una partizione in due del vettore m e una partizione in quattro della matrice S. Gli scalari, i vettori e le matrici prodotti dalle partizioni sono i seguenti: (10) x 1, x 2 = (11) µ 1, m 2 = x 2 x x p µ 2 µ µ p (12) σ 11, S 12 = [ σ 12 σ 13 σ 1p ], S 21 = σ 21 σ 31 σ p1, S 22 =,, σ 22 σ 23 σ 2p σ 32 σ 33 σ 3p σ p2 σ p3 σ pp. Indichiamo ora con x 1.2 la variabile x 1 condizionata al fatto che siano stati assegnati i valori delle variabili che costituiscono il vettore x 2 e con µ 1.2 e σ 11.2 la media e la varianza di x 1.2. Si può dimostrare che la media condizionata µ 1.2 e la varianza condizionata σ 11.2 sono fornite dalle relazioni (13) µ 1.2 = µ 1 + S 12 S 22-1 (x 2 - m 2 ), (14) σ 11.2 = σ 11 - S 12 S 22-1S

12 Osserviamo che il prodotto matriciale S 12 S 22-1 è un vettore riga. Indicando con b il corrispondente vettore colonna (trasposto del vettore riga) (15) b = β 2 β β p (ai cui elementi si assegnano qui indici uguali a quelli dei corrispondenti elementi del vettore differenza x 2 - m 2, per cui il vettore riga b T si moltiplica) risulta (16) µ 1.2 = µ 1 + b T (x 2 - m 2 ) = µ 1 - b T m 2 + b T x 2 = β 1 + b T x 2. Ricordiamo ora che, per definizione, la variabile dipendente condizionata ai valori delle variabili indipendenti, che indichiamo qui con x 1.2, è legata all'errore di regressione dall'espressione (17) x 1.2 = µ z, dove µ 1.2 è, per un insieme assegnato di valori di x 2, x 3,..., x p, una costante. E` quindi immediato riconoscere che la varianza condizionata σ 11.2, che appunto esprime la variabilità di x 1 sotto la condizione che i valori delle variabili del vettore x 2 siano tenuti fissi, coincide con la varianza dell'errore di regressione z. L'espressione (14) mostra che la varianza condizionata σ 11.2 non dipende dagli specifici valori assunti dalle variabili indipendenti. Dal momento che σ 11.2 coincide con σ 2 (z), è necessario che sia così, perché l'errore z è per ipotesi omoscedastico. Ricordando l'espressione del vettore b, si può anche riscrivere la (14) nella forma (18) σ 11.2 = σ 11 - b T S T 12 (dove, ricordiamo, S T 12 è un vettore colonna). Dunque la varianza condizionata della variabile dipendente x 1 - che come si è appena visto coincide con la varianza dell'errore di regressione σ 2 (z) - è uguale alla varianza incondizionata di x 1, diminuita di un termine che è la media pesata delle covarianze della variabile dipendente e di ciascuna di quelle indipendenti, calcolata assumendo come pesi i valori dei rispettivi coefficienti di regressione β 2, β 3,..., β p. Nelle applicazioni è comune assumere che la distribuzione dell'errore z sia normale. La conoscenza della media (sempre nulla) e della varianza di z è allora sufficiente per individuarne completamente la distribuzione. 12

13 1.5 Il coefficiente di correlazione lineare multipla Assumiamo che la regressione della variabile x 1 sulle p - 1 variabili x 2, x 3,..., x p sia lineare, che cioè la media condizionata µ 1.2 della variabile dipendente sia legata ai valori assegnati alle variabili indipendenti dalla relazione lineare (19) µ 1.2 = β 1 + β 2 x 2 + β 3 x β p x p, e che la distribuzione dell'errore di regressione sia omoscedastica. Indicando, al solito, con b T il vettore (20) b T = [ ] β 2 β β p e con S 12 il vettore (21) S 12 = [ σ 12 σ σ 1p ], la varianza dell'errore di regressione σ 2 (z) risulta fornita dall'espressione già vista (22) σ 2 (z) = σ 11 - b T S T 12. L'indice di regressione η - che è definito dalla relazione (23) η 2 = 1 - σ2 (z) σ 11 e coincide, come si è visto nel par. 1.3, con il coefficiente di correlazione lineare tra la variabile dipendente x 1.2 e la sua media condizionata µ prende in questo caso il nome di coefficiente di correlazione lineare multipla e comunemente si indica con il simbolo R. Utilizzando l'espressione (22) della varianza σ 2 (z) si ottiene (24) R 2 = bt S T 12 σ 11. Come si verifica immediatamente, la varianza σ 2 (z) si annulla (e quindi l'errore di regressione risulta sempre nullo) solo se R (che è sempre positivo) è uguale a uno, cioè solo se la variabile x 1 coincide sempre con la propria media condizionata µ 1.2 (in altre parole solo se x 1 è funzione lineare delle variabili x 2, x 3,..., x p ). Il coefficiente di correlazione lineare multipla si può definire, per mezzo della (24), anche quando la regressione non è lineare. In questo caso però l'indice di regressione, fornito dalla (23), e il coefficiente di regressione lineare multipla, fornito dalla (24), risultano diversi tra loro - e tanto più diversi, quanto maggiore è lo scostamento della funzione di regressione dalla linearità. 13

14 2 Stima dei parametri 2.1 Stima del termine noto e dei coefficienti di una regressione lineare Lo studio della regressione lineare multipla, rappresentata dalla relazione (25) µ 1.2 = β 1 + β 2 x 2 + β 3 x β p x p, comporta innanzi tutto la stima dei parametri β 1, β 2,..., β p. Il metodo di stima più largamente diffuso, adottabile indipendentemente dal fatto che le variabili indipendenti siano o non siano delle variabili casuali, è il metodo dei minimi quadrati, che in effetti è praticamente il solo utilizzato per la regressione lineare multipla. Omettendo del tutto la dimostrazione, ci limitiamo qui a riportare i risultati. Adottare il metodo dei minimi quadrati significa imporre che, indicando al solito con x ik il valore osservato della i-esima variabile che corrisponde alla k-esima osservazione del campione, le stime b 1, b 2,..., b p dei coefficienti β 1, β 2,..., β p siano tali da rendere minima la somma dei quadrati degli scarti (26) z k = x 1k - (b 1 + b 2 x 2k + b 3 x 3k b p x pk ). Vale forse la pena di osservare che lo scarto z qui considerato è la differenza - calcolabile per ogni osservazione, a partire dall'intero campione di osservazioni disponibile - tra il valore osservato della variabile dipendente e il valore stimato della sua media condizionata, mentre l'errore di regressione considerato in precedenza è la differenza tra il valore osservato della variabile dipendente e il valore - vero, e in linea di principio non ricavabile dalla conoscenza di un campione, perché relativo all'intera popolazione - della sua media condizionata. Occorre dunque minimizzare la somma dei quadrati degli scarti rappresentati dall'espressione (26). Per risolvere il problema introduciamo il vettore (27) X 1 = [ x 11 x x 1N ] dei valori osservati della variabile dipendente. Introduciamo inoltre la matrice (28) X 2 = x 21 x x 2N x p1 x p x pn 14

15 che contiene i valori osservati delle variabili indipendenti (con l'aggiunta di una riga iniziale di elementi tutti uguali a uno) e il vettore (29) b = b 1 b b p delle stime dei coefficienti di regressione lineare. Minimizzando la somma dei quadrati degli scarti si ottiene il sistema di p equazioni lineari (30) X 2 X T 2 b = X 2 XT 1, che si può riscrivere, ponendo (31) C = X 2 X T 2, (32) B = X 2 X T 1, nella forma (33) C b = B. E` utile esplicitare nei singoli elementi costitutivi la matrice C dei coefficienti e il vettore B dei termini noti. Ponendo (34) Σx i = x ik, N k=1 (35) Σx i x j = x ik x jk, N k=1 la matrice C dei coefficienti e il vettore B dei termini noti risultano composti di somme e di somme di prodotti: (36) C = N Σx Σx p Σx 2 Σx 2 x Σx 2 x p Σx p Σx p x Σx p x p, 15

16 (37) B = Σx 1 Σx 2 x Σx p x 1. Vale la pena di fare un'osservazione. Come si è visto nel par. 1.4, il termine noto β 1 e i coefficienti di regressione β 2, β 3,..., β p di una regressione lineare con errore omoscedastico sono legati alle medie e alle covarianze delle variabili indipendenti dalle relazioni (38) β 1 = µ 1 - S 12 S 22-1m 2, (39) b T = S 12 S Attraverso le relazioni (38) e (39) si può dunque ricondurre la stima dei parametri β 1, β 2,..., β p a una stima di medie e covarianze. E` interessante osservare che le stime di β 1, β 2,..., β p ottenute risolvendo il sistema (40) C b = B coincidono con quelle che si ricavano dalle equazioni lineari (38) e (39), assumendo come stime della media µ i e della covarianza σ ij la media m(x i ) e la covarianza s(x i, x j ) (non corretta contro la distorsione) del campione. Vale infine la pena di sottolineare che la matrice C e la matrice S 22, che in entrambi i casi stanno alla base del calcolo dei coefficienti di regressione, non hanno le stesse dimensioni: C è una matrice quadrata di dimensione p, mentre S 22 è una matrice quadrata di dimensione p - 1. La riga (la prima) e la colonna (la prima) in più della matrice C da una parte forniscono l'equazione in più necessaria per ricavare il coefficiente b 1 (che con l'altro metodo si ricava con un'equazione a parte) e dall'altra servono a tener conto del fatto che nella matrice C e nel vettore B compaiono delle somme di prodotti, mentre nella matrice S 22 e nel vettore S 12 compaiono delle covarianze. Le stime b 1, b 2,..., b p del termine noto e dei coefficienti di regressione lineare si possono ricavare sempre, anche quando la media condizionata della variabile dipendente non è rappresentata da una funzione lineare delle p - 1 variabili x 2, x 3,..., x p. In questo caso le stime b 1, b 2,..., b p non sono le stime dei parametri dell'espressione della media condizionata: sono le stime dei parametri della relazione lineare assunta ad approssimare la relazione vera, che non è lineare e non si conosce. 16

17 2.2 Stima della varianza dell'errore di regressione lineare Consideriamo ancora una regressione lineare multipla con errore omoscedastico. La somma dei quadrati degli scarti (41) z k = x 1k - (b 1 + b 2 x 2k + b 3 x 3k b p x pk ) è fornita dall'espressione matriciale (42) S = (X 1 - b T X 2 )(X 1 - b T X 2 ) T che, tenendo conto della (30), si trasforma nell'espressione matriciale (42a) S = X 1 X T 1 - bt X 2 X T 1. Adottando le notazioni già viste, la (42) si riscrive nella forma (43) S = x 1 x 1 - (b 1 x 1 + b 2 x 1 x b p x 1 x p ). Una stima indistorta della varianza dell'errore di regressione σ 2 (z) è fornita dal rapporto (44) s 2 (z) = S N - p. 2.3 Incertezza nella stima del termine noto e dei coefficienti di regressione lineare Molto spesso i valori osservati delle variabili indipendenti non sono casuali, come si è già avuto modo di dire, ma sono fissati dall'osservatore o comunque non scelti a caso. Invece quelli della variabile dipendente presentano sempre una componente casuale, che è la caratteristica fondamentale della regressione. Consideriamo, come si è fatto fin qui, il caso di regressione lineare con errore omoscedastico, e assumiamo che le stime dei parametri si ottengano con il metodo dei minimi quadrati. Le stime b 1, b 2,..., b p del termine noto β 1 e dei coefficienti β 2,..., β p ottenute per lo stesso insieme di valori osservati di x 2, x 3,..., x p variano generalmente da un campione all'altro (perché varia x 1 ), anche se i valori assunti dalle variabili indipendenti restano gli stessi per tutti i campioni, e sono dunque delle variabili casuali, che hanno una propria distribuzione congiunta. (Incidentalmente osserviamo che, se la distribuzione dell'errore z è normale, sono normali anche le distribuzioni delle stime b 1, b 2,..., b p.) 17

18 Di una stima importano la distorsione e la variabilità. La variabilità di una stima è particolarmente importante, perché è una misura dell'incertezza da cui è gravata, e quindi della sua affidabilità. Per misurare la variabilità della stima b i è naturale fare ricorso al suo scarto quadratico medio σ(b i ). Il confronto tra la media della stima µ(b i ) e lo scarto quadratico medio σ(b i ) deve senza dubbio fornire delle indicazioni utili - anche se non esatte - sulla significatività dell'introduzione della variabile x i (oppure del termine noto) nella regressione. Supponiamo, per esempio, che il coefficiente di regressione β i sia stimato con tale incertezza che lo scarto quadratico medio della stima σ(b i ) risulti uguale o addirittura superiore al suo valor medio µ(b i ) - e supponiamo anche, benché non sia essenziale, che la distribuzione della stima b i sia normale, con media µ(b i ) uguale al valore vero del coefficiente β i. Appare senz'altro evidente che non avrebbe alcun senso, in questo caso, introdurre nella regressione la variabile x i, perché con probabilità troppo grande per poter essere accettata la stima b i non risulterebbe nemmeno di segno concorde con il valore vero β i. Nell'ipotesi di regressione lineare ed errore omoscedastico la distribuzione della generica stima b i ricavata con il metodo dei minimi quadrati per un certo insieme di valori delle variabili indipendenti ha media uguale a β i, e quindi la stima è indistorta. Quanto alla variabilità, si può dimostrare che la matrice delle covarianze delle stime b 1, b 2,..., b p del termine noto β 1 e dei coefficienti di regressione β 2,..., β p ricavate per un certo insieme di valori delle variabili indipendenti è data, sotto la sola condizione che la distribuzione dell'errore di regressione z sia omoscedastica (quindi anche se la regressione non è lineare), dall'espressione (45) V(b) = (X 2 X T 2 )-1 σ 2 (z) = C -1 σ 2 (z). Gli elementi della matrice V(b) che presentano il maggiore interesse sono quelli della diagonale principale, che coincidono con le varianze delle stime b. La varianza della stima b i di un generico parametro β i dipende dunque sia dalla varianza dell'errore di regressione σ 2 (z) sia - attraverso la matrice C -1 - dalla dimensione N del campione adoperato per la stima e dai valori assunti in questo dalle variabili indipendenti. Particolarmente diffuso nelle applicazioni è il caso in cui la variabile indipendente è una sola. Indicando, al solito, con x 1 la variabile dipendente e con x 2 la variabile indipendente, la (45) fornisce per le stime delle varianze del termine noto e del coefficiente di regressione della variabile indipendente le espressioni (45a) V(b 1 ) = 1 N 1 + m2 (x 2 ) s σ 2 (x 2 ) 2 (z), (45b) V(b 2 ) = 1 Ns 2 (x 2 ) σ2 (z), 18

19 nelle quali N è la dimensione del campione ed m(x 2 ), s 2 (x 2 ) sono la media e la varianza (distorta, perché calcolata dividendo la somma dei quadrati degli scostamenti dalla media per la dimensione N del campione) delle osservazioni che costituiscono il campione della variabile indipendente. Vale la pena di sottolineare che nelle espressioni (45a) e (45b) le grandezze m(x 2 ) ed s 2 (x 2 ) sono da considerarsi semplicemente delle funzioni dei valori osservati della variabile x 2, e non delle stime dei parametri della sua distribuzione, perché x 2 non è necessariamente una variabile casuale. Nelle applicazioni il valore della varianza σ 2 (z) è sconosciuto. E` quindi necessario sostituire nell'espressione (45) a σ 2 (z) la sua stima, fornita dalla formula (44), che dipende anch'essa dal campione, e risulta tanto più variabile, e quindi incerta, quanto maggiori sono le varianze delle stime b 1, b 2,..., b p. Vale la pena di fare un'osservazione. Il sistema lineare (40) si può risolvere anche se in realtà la media condizionata della variabile dipendente non è legata alle variabili indipendenti da una relazione lineare. Le varianze delle stime che costituiscono il vettore b così ottenute sono ancora fornite dalla (45). Il risultato espresso dalla (45) presenta però il maggiore interesse quando la media condizionata della variabile dipendente è effettivamente rappresentata da una funzione lineare delle p - 1 variabili x 2, x 3,..., x p. In questo caso b 1, b 2,..., b p sono stime indistorte del termine noto β 1 e dei coefficienti β 2,..., β p, e lo scarto quadratico medio della stima b i è direttamente legato all'errore che si può commettere nell'individuare l'espressione delle medie condizionate. Quando la distribuzione dell'errore z è normale anche le distribuzioni delle stime b 1, b 2,..., b p sono normali. 2.4 Stima del coefficiente di correlazione lineare multipla Come si è visto nel par. 1.5, il coefficiente di correlazione lineare multipla si può esprimere con la formula -1S T 12 (46) R 2 = bt S T 12= S 12 S 22. σ 11 σ 11 Una stima del coefficiente di correlazione lineare multipla R, che indichiamo con R^, si ottiene dalla (46) assumendo come stime delle varianze e delle covarianze (dalle quali dipendono anche gli elementi del vettore b dei coefficienti di regressione) le varianze e le covarianze del campione (non corrette contro la distorsione). Sempre nel par. 1.5 si è visto che il coefficiente di correlazione lineare multipla si può anche esprimere con la formula (47) R 2 = 1 - σ2 (z) σ

20 Assumendo come stime di σ 2 (z) e di σ 11 quelle non corrette contro la distorsione, e quindi in particolare assumendo come stima di σ 2 (z) l'espressione (48) σ 2 (z) = Σx 1 x 1 - (b 1 Σx 1 + b 2 Σx 1 x b p Σx 1 x p ) N si ottiene ovviamente dalla formula (47) la stessa stima R^ fornita dalla formula (46). Se invece si adoperano le stime di σ 2 (z) e di σ 11 corrette contro la distorsione si ottiene un valore di R^ minore di quello ottenuto nell'altro modo, perché la stima del rapporto σ 2 (z)/σ 11 risulta moltiplicata per il rapporto (N - 1)/(N - p), che è sempre maggiore di uno., 2.5 La regressione nella distribuzione multinormale Quando la distribuzione congiunta della variabile dipendente x 1 e delle variabili indipendenti x 2, x 3,..., x p è multinormale, la regressione è lineare e quindi rappresentata dalla solita espressione (49) µ 1.2 = β 1 + β 2 x 2 + β 3 x β p x p, e la distribuzione dell'errore è omoscedastica. Il termine noto β 1 e i coefficienti β 2, β 3,..., β p risultano dunque espressi dalle stesse formule già viste, valide in generale per una regressione lineare multipla con errore omoscedastico. Per la stima dei parametri si può dunque fare ricorso ai metodi che si adoperano per la regressione lineare multipla. In particolare si può fare ricorso al metodo dei minimi quadrati, oppure - che è lo stesso, come si è visto - si possono sostituire nelle espressioni del termine noto β 1 e dei coefficienti β 2, β 3,..., β p le medie e le covarianze del campione (non corrette contro la distorsione). Vale infine la pena di osservare che quando la distribuzione congiunta delle variabili casuali x 2, x 3,..., x p è multinormale le medie e le covarianze (distorte) del campione coincidono con le stime delle medie e delle covarianze ricavate con il metodo della massima verosimiglianza. 3 Controllo delle ipotesi Anche nell'analisi della regressione si incontra il problema del controllo delle ipotesi. Le ipotesi possono riguardare il valore del coefficiente di regressione di una singola variabile indipendente, oppure la correlazione tra una singola variabile indipendente e quella dipendente, oppure ancora la correlazione tra la variabile dipendente e l'intero insieme delle variabili indipendenti. 20

21 3.1 Il test della F parziale Quando lo scarto z di una regressione lineare è distribuito normalmente, anche le stime del termine noto e dei coefficienti di regressione lineare, che compongono il vettore b, sono distribuite normalmente, con varianze uguali agli elementi della diagonale principale della matrice (50) V(b) = (X 2 X T 2 )-1 σ 2 (z) = C -1 σ 2 (z). Come stima della varianza σ 2 (z), che nelle applicazioni di solito è a priori incognita, si assume, come si è visto, l'espressione (51) s 2 (z) = S N - p = Σx 1x 1 - (b 1 Σx 1 + b 2 Σx 1 x b p Σx 1 x p ), N - p nella quale i simboli hanno il significato già visto quando si è illustrato il problema della stima dei coefficienti di regressione lineare con il metodo dei minimi quadrati. Come stima s 2 (b i ) della varianza di b i (a sua volta stima del termine noto o del coefficiente di regressione lineare β i della variabile indipendente x i ) si assume dunque l'i-esimo termine della diagonale principale della matrice (52) (X 2 X T 2 )-1 s 2 (z) = C -1 s 2 (z). Ora, nell'ipotesi che l'errore di regressione z sia distribuito normalmente, la grandezza (53) F = (b i - β i) 2 s 2 (b i ) risulta distribuita come una F di Fisher con uno ed N - p gradi di libertà (la quale coincide con un t 2 con N - p gradi di libertà). Questo permette di istituire un test per provare l'ipotesi che il valore del coefficiente di regressione della variabile indipendente x i, per il quale il campione disponibile fornisce la stima b i, sia uguale a un valore β i assegnato. Indicando con F c il valore della F di Fisher con probabilità di superamento uguale al livello di significatività α prescelto, si definisce come intervallo di accettazione quello per cui il valore di F ricavato dal campione soddisfà alla disuguaglianza (54) F F c. Un'applicazione particolare di questo test si ha nel controllo dell'ipotesi di correlazione nulla tra la variabile dipendente x 1 e una qualunque variabile indipendente x i. Anche quando si sa a priori che l'ipotesi di linearità della regressione è corretta, come 21

22 avviene per esempio quando la distribuzione congiunta è multinormale, rimane infatti il problema di decidere, per ciascuna variabile indipendente, se il valore del corrispondente coefficiente di regressione ricavato dal campione è significativamente diverso da zero oppure no, vale a dire di decidere se la variabile considerata si debba includere nella regressione oppure no. (In pratica la stima b i risulta sempre diversa da zero, anche quando il valore vero β i è nullo, perché l'informazione contenuta nel campione è limitata.) Per provare l'ipotesi che il coefficiente di regressione β i di un'assegnata variabile x i sia nullo (e che quindi la media condizionata della variabile dipendente x 1 non sia in alcun modo influenzata dal valore assunto dalla xi) si può adoperare questo test. Se il valore vero β i è nullo, la grandezza F risulta definita dal rapporto b i 2 (55) F = s 2 (b i ). Indicando con F c il valore della F di Fisher con probabilità di superamento uguale al livello di significatività α prescelto, si può dunque definire come intervallo di accettazione dell'ipotesi di correlazione nulla quello per cui il valore di F (criterio del test) ricavato dal campione soddisfà alla disuguaglianza (56) F F c. Nelle applicazioni pratiche non si dà comunemente il caso di dover confrontare con la stima b i ricavata dal campione un valore del coefficiente di regressione β i assegnato a priori. Comunemente invece interessa controllare l'attendibilità dell'ipotesi (composta) che il valore del coefficiente di regressione sia diverso da zero. Come ipotesi alternativa dell'ipotesi di correlazione non nulla si assume naturalmente quella di correlazione nulla. Ora, la distribuzione del criterio F nel caso in cui l'ipotesi che il valore del coefficiente di regressione sia diverso da zero sia vera non è nota. Un test dell'ipotesi di correlazione non nulla si può comunque istituire, definendo come intervallo di accettazione quello per cui il valore del rapporto b i 2 (57) F = s 2 (b i ) ricavato dal campione supera un valore assegnato F c. La probabilità di superamento che corrisponde a F c nella distribuzione della F di Fisher rappresenta allora la probabilità di accettare l'ipotesi di correlazione non nulla quando è falsa (livello di rischio del test, solitamente indicato con il simbolo β). Il rischio di commettere un errore includendo nella regressione una variabile indipendente x i è dunque misurato dalla probabilità di superamento (nella distribuzione della F di Fisher) del valore del corrispondente rapporto F ricavato dal campione. E` forse opportuno sottolineare che il livello di rischio β è una misura del rischio che si corre per il solo fatto di accettare l'ipotesi che il coefficiente di regressione β i della 22

23 variabile indipendente considerata sia diverso da zero, non una misura del rischio che si corre accettando la particolare stima b i del coefficiente di regressione ricavata dal campione. 3.2 Il test della F di Fisher per l'ipotesi di correlazione multipla nulla in una distribuzione multinormale Consideriamo un insieme di p variabili casuali x 1, x 2,..., x p, con distribuzione congiunta multinormale, e indichiamo con R^ la stima (ottenuta dalle formule di definizione, senza correggere varianza e covarianza contro la distorsione, come indicato nel par. 2.4), del coefficiente di correlazione multipla che caratterizza la regressione di x 1 sulle altre variabili. Nell'ipotesi che il coefficiente di correlazione lineare sia uguale a zero la grandezza ^ (58) F = R R^ 2 N - p p - 1 è distribuita come una F di Fisher con p - 1 ed N - p gradi di libertà. Tenendo conto di questo si può istituire un test per provare l'ipotesi che il coefficiente di correlazione lineare sia nullo. Poiché il valore della grandezza F (che costituisce il criterio del test) cresce al crescere del valore di R^ calcolato, come regione di rigetto dell'ipotesi di coefficiente di correlazione nullo si sceglie quella definita dalla disuguaglianza (59) F > F c, dove F c è il valore della F di Fisher con probabilità di non superamento uguale al complemento a uno del livello di significatività α prescelto. Può essere utile ricordare che, ponendo (60) Σx i = N x ik k=1 (61) Σx i x j = x ik x jk (62) B = N k=1 Σx 1 Σx 2 x Σx p x 1 23

24 e tenendo conto della (47) e della (48) la grandezza F risulta fornita dall'espressione (63) F = bt B - [(Σx 1 ) 2 /N] Σx b T B N - p p - 1. Analogamente a quanto avviene per il test della F parziale, l'ipotesi a cui si è più comunemente interessati è quella che il coefficiente di correlazione lineare multipla sia diverso da zero. In questo caso si assume come regione di accettazione il campo dei valori di F maggiori di F c. La probabilità di superamento che corrisponde a F c nella distribuzione della F di Fisher rappresenta allora la probabilità β di accettare l'ipotesi di correlazione non nulla quando è falsa (livello di rischio del test). Il rischio di commettere un errore ammettendo che il coefficiente di regressione lineare multipla R sia diverso da zero, cioè ammettendo che sia diverso da zero il coefficiente di regressione di almeno una delle variabili indipendenti considerate, è dunque misurato dalla probabilità di superamento (nella distribuzione della F di Fisher) del valore del corrispondente rapporto F ricavato dal campione. Anche in questo caso, come in quello del test della F parziale, è opportuno sottolineare che il livello di rischio β è una misura del rischio che si corre per il solo fatto di accettare l'ipotesi che almeno uno dei coefficienti di regressione delle variabili indipendenti considerate sia diverso da zero, non una misura del rischio che si corre accettando le stime b dei coefficienti di regressione ricavate dal campione. 3.3 Confronto tra valori osservati e valori stimati per mezzo della regressione Nella maggior parte delle applicazioni pratiche lo studio della regressione è finalizzato a individuare una sorta di dipendenza "media" della variabile dipendente da quelle indipendenti, che si assume in qualche modo disturbata dalla presenza dell'errore di regressione. In altre parole, si utilizza la regressione per individuare un legame deterministico, che risulta tanto più stretto, e quindi tanto più attendibile, quanto minore è mediamente l'errore di regressione, e quindi quanto più vicini alle rispettive medie condizionate sono i valori della variabile dipendente. Un modo molto semplice di controllare l'attendibilità del legame individuato attraverso l'analisi della regressione è di confrontare i valori osservati della variabile dipendente con quelli "attesi", o "stimati", che coincidono con le medie condizionate e sono quindi forniti dalla funzione di regressione. Il confronto si può effettuare facendo ricorso all'indice di regressione (par. 1.3), che come si è visto è uguale a uno quando la dipendenza è esclusivamente deterministica, e minore di uno quando è in parte deterministica e in parte casuale. Ma si può anche effettuare in modo visivo e immediato, riportando in un diagramma cartesiano i punti che hanno come ascisse i valori osservati 24

Esercitazioni di statistica

Esercitazioni di statistica Esercitazioni di statistica Misure di associazione: Indipendenza assoluta e in media Stefania Spina Universitá di Napoli Federico II stefania.spina@unina.it 22 ottobre 2014 Stefania Spina Esercitazioni

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Misura dell associazione tra due caratteri Uno store manager è interessato a studiare la relazione

Dettagli

Quadro riassuntivo di geometria analitica

Quadro riassuntivo di geometria analitica Quadro riassuntivo di geometria analitica IL PIANO CARTESIANO (detta ascissa o coordinata x) e y quella dall'asse x (detta ordinata o coordinata y). Le coordinate di un punto P sono: entrambe positive

Dettagli

INDICAZIONI PER LA RICERCA DEGLI ASINTOTI VERTICALI

INDICAZIONI PER LA RICERCA DEGLI ASINTOTI VERTICALI 2.13 ASINTOTI 44 Un "asintoto", per una funzione y = f( ), è una retta alla quale il grafico della funzione "si avvicina indefinitamente", "si avvicina di tanto quanto noi vogliamo", nel senso precisato

Dettagli

LA CIRCONFERENZA La circonferenza è il luogo geometrico dei punti equidistanti da un punto C, detto centro.

LA CIRCONFERENZA La circonferenza è il luogo geometrico dei punti equidistanti da un punto C, detto centro. Geometria Analitica Le coniche Queste curve si chiamano coniche perché sono ottenute tramite l'intersezione di una superficie conica con un piano. Si possono definire tutte come luoghi geometrici e, di

Dettagli

SISTEMI LINEARI MATRICI E SISTEMI 1

SISTEMI LINEARI MATRICI E SISTEMI 1 MATRICI E SISTEMI SISTEMI LINEARI Sistemi lineari e forma matriciale (definizioni e risoluzione). Teorema di Rouché-Capelli. Sistemi lineari parametrici. Esercizio Risolvere il sistema omogeneo la cui

Dettagli

Metodi per la risoluzione di sistemi lineari

Metodi per la risoluzione di sistemi lineari Metodi per la risoluzione di sistemi lineari Sistemi di equazioni lineari. Rango di matrici Come è noto (vedi [] sez.0.8), ad ogni matrice quadrata A è associato un numero reale det(a) detto determinante

Dettagli

Il Teorema di Kakutani

Il Teorema di Kakutani Il Teorema di Kakutani Abbiamo visto, precedentemente, il seguente risultato: 1 Sia X uno spazio di Banach. Se X è separabile, la palla è debolmente compatta. B X = {x X x 1} Il Teorema di Kakutani è un

Dettagli

EQUAZIONI DI PRIMO GRADO

EQUAZIONI DI PRIMO GRADO Cognome... Nome... Equazioni di primo grado EQUAZIONI DI PRIMO GRADO Un'equazione di primo grado e un'uguaglianza tra due espressioni algebriche di primo grado, vera solo per alcuni valori che si attribuiscono

Dettagli

EQUAZIONI CON VALORE ASSOLUTO DISEQUAZIONI CON VALORE ASSOLUTO

EQUAZIONI CON VALORE ASSOLUTO DISEQUAZIONI CON VALORE ASSOLUTO EQUAZIONI CON VALORE AOLUTO DIEQUAZIONI CON VALORE AOLUTO Prima di tutto: che cosa è il valore assoluto di un numero? Il valore assoluto è quella legge che ad un numero (positivo o negativo) associa sempre

Dettagli

La relazione tra altezza di precipitazione e durata Per area piccola importa sopra tutto la dipendenza dalla durata.

La relazione tra altezza di precipitazione e durata Per area piccola importa sopra tutto la dipendenza dalla durata. Relazione tra altezza di pioggia media h m, durata t e area A L'altezza di pioggia media h m dipende dalla durata t e dall'area A. L'intensità di pioggia media i m diminuisce al crescere della durata t

Dettagli

Generazione di Numeri Casuali- Parte 2

Generazione di Numeri Casuali- Parte 2 Esercitazione con generatori di numeri casuali Seconda parte Sommario Trasformazioni di Variabili Aleatorie Trasformazione non lineare: numeri casuali di tipo Lognormale Trasformazioni affini Numeri casuali

Dettagli

Esercizi sulle affinità - aprile 2009

Esercizi sulle affinità - aprile 2009 Esercizi sulle affinità - aprile 009 Ingegneria meccanica 008/009 Esercizio Sono assegnate nel piano le sei rette r : =, s : =, t : =, r : =, s : =, t : = determinare l affinità che trasforma ordinatamente

Dettagli

Derivate delle funzioni di una variabile.

Derivate delle funzioni di una variabile. Derivate delle funzioni di una variabile. Il concetto di derivata di una funzione di una variabile è uno dei più fecondi della matematica ed è quello su cui si basa il calcolo differenziale. I problemi

Dettagli

Il test (o i test) del Chi-quadrato ( 2 )

Il test (o i test) del Chi-quadrato ( 2 ) Il test (o i test) del Chi-quadrato ( ) I dati: numerosità di osservazioni che cadono all interno di determinate categorie Prima di tutto, è un test per confrontare proporzioni Esempio: confronto tra numero

Dettagli

Esercitazioni di Statistica

Esercitazioni di Statistica Esercitazioni di Statistica Indici di posizione e di variabilità Prof. Livia De Giovanni lstatistica@dis.uniroma1.it Esercizio 1 Data la seguente distribuzione unitaria del carattere X: X : 4 2 4 2 6 4

Dettagli

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE 1. Distribuzione congiunta Ci sono situazioni in cui un esperimento casuale non si può modellare con una sola variabile casuale,

Dettagli

valore di a: verso l alto (ordinate crescenti) se a>0, verso il basso (ordinate decrescenti) se a<0;

valore di a: verso l alto (ordinate crescenti) se a>0, verso il basso (ordinate decrescenti) se a<0; La parabola è una particolare conica definita come è una curva aperta, nel senso che non può essere contenuta in alcuna superficie finita del piano; è simmetrica rispetto ad una retta, detta ASSE della

Dettagli

ITCS Erasmo da Rotterdam. Anno Scolastico 2014/2015. CLASSE 4^ M Costruzioni, ambiente e territorio

ITCS Erasmo da Rotterdam. Anno Scolastico 2014/2015. CLASSE 4^ M Costruzioni, ambiente e territorio ITCS Erasmo da Rotterdam Anno Scolastico 014/015 CLASSE 4^ M Costruzioni, ambiente e territorio INDICAZIONI PER IL LAVORO ESTIVO DI MATEMATICA e COMPLEMENTI di MATEMATICA GLI STUDENTI CON IL DEBITO FORMATIVO

Dettagli

Capitolo 11 Test chi-quadro

Capitolo 11 Test chi-quadro Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 11 Test chi-quadro Insegnamento: Statistica Corsi di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara Docenti: Dott.

Dettagli

Prontuario degli argomenti di Algebra

Prontuario degli argomenti di Algebra Prontuario degli argomenti di Algebra NUMERI RELATIVI Un numero relativo è un numero preceduto da un segno + o - indicante la posizione rispetto ad un punto di riferimento a cui si associa il valore 0.

Dettagli

Problemi di scelta ESEMPI

Problemi di scelta ESEMPI ESEMPI Risolvere i seguenti problemi 1. Una ditta deve effettuare delle spedizioni di un certo tipo di merce. Ha la possibilità di scegliere una o l altra delle due tariffe seguenti: a) 2.500 lire al quintale

Dettagli

1 IL LINGUAGGIO MATEMATICO

1 IL LINGUAGGIO MATEMATICO 1 IL LINGUAGGIO MATEMATICO Il linguaggio matematico moderno è basato su due concetti fondamentali: la teoria degli insiemi e la logica delle proposizioni. La teoria degli insiemi ci assicura che gli oggetti

Dettagli

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo 1 La seguente tabella riporta le frequenze relative riguardanti gli studenti di un università e gli esiti dell esame da essi sostenuto. Qual è la percentuale

Dettagli

BILANCIO DEI VINCOLI ED ANALISI CINEMATICA

BILANCIO DEI VINCOLI ED ANALISI CINEMATICA BILANCIO DEI VINCOLI ED ANALISI CINEMATICA ESERCIZIO 1 Data la struttura piana rappresentata in Figura 1, sono richieste: - la classificazione della struttura in base alla condizione di vincolo; - la classificazione

Dettagli

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile A.A. 2009-10 Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain 1 STATISTICHE, DISTRIBUZIONI CAMPIONARIE

Dettagli

Concetti principale della lezione precedente

Concetti principale della lezione precedente Corso di Statistica medica e applicata 9 a Lezione Dott.ssa Donatella Cocca Concetti principale della lezione precedente I concetti principali che sono stati presentati sono: Variabili su scala nominale

Dettagli

Il metodo delle proporzioni crescenti

Il metodo delle proporzioni crescenti Il metodo delle proporzioni crescenti Ulisse Di Corpo Abstract I modelli predittivi, che utilizzano le regressioni multiple, partono dall assunto che le relazioni tra le variabili sono lineari o traducibili

Dettagli

Applicazioni lineari e diagonalizzazione. Esercizi svolti

Applicazioni lineari e diagonalizzazione. Esercizi svolti . Applicazioni lineari Esercizi svolti. Si consideri l applicazione f : K -> K definita da f(x,y) = x + y e si stabilisca se è lineare. Non è lineare. Possibile verifica: f(,) = 4; f(,4) = 6; quindi f(,4)

Dettagli

SISTEMI LINEARI. x 2y 2z = 0. Svolgimento. Procediamo con operazioni elementari di riga sulla matrice del primo sistema: 1 1 1 3 1 2 R 2 R 2 3R 0 4 5.

SISTEMI LINEARI. x 2y 2z = 0. Svolgimento. Procediamo con operazioni elementari di riga sulla matrice del primo sistema: 1 1 1 3 1 2 R 2 R 2 3R 0 4 5. SISTEMI LINEARI Esercizi Esercizio. Risolvere, se possibile, i seguenti sistemi: x y z = 0 x + y + z = 3x + y + z = 0 x y = 4x + z = 0, x y z = 0. Svolgimento. Procediamo con operazioni elementari di riga

Dettagli

p k q n k = p n (k) = n 12 = 1 = 12 1 12 11 10 9 1 0,1208. q = 1 2 e si ha: p 12 (8) = 12 8 4

p k q n k = p n (k) = n 12 = 1 = 12 1 12 11 10 9 1 0,1208. q = 1 2 e si ha: p 12 (8) = 12 8 4 CAPITOLO QUARTO DISTRIBUZIONE BINOMIALE (O DI BERNOULLI) Molti degli esempi che abbiamo presentato nei capitoli precedenti possono essere pensati come casi particolari di uno schema generale di prove ripetute,

Dettagli

Metodologia di applicazione dei modelli di massima verosimiglianza per il trattamento dei dati missing

Metodologia di applicazione dei modelli di massima verosimiglianza per il trattamento dei dati missing Metodologia di applicazione dei modelli di massima verosimiglianza per il trattamento dei dati missing Erminio A. Bonizzoni Congresso nazionale BIAS 9/3 aprile 9 Sesto Fiorentino Firenze Stimatori di Massima

Dettagli

Variabili aleatorie Parte I

Variabili aleatorie Parte I Variabili aleatorie Parte I Variabili aleatorie Scalari - Definizione Funzioni di distribuzione di una VA Funzioni densità di probabilità di una VA Indici di posizione di una distribuzione Indici di dispersione

Dettagli

UNIVERSITA DEGLI STUDI DI PADOVA DIPARTIMENTO DI INGEGNERIA IDRAULICA, MARITTIMA E GEOTECNICA

UNIVERSITA DEGLI STUDI DI PADOVA DIPARTIMENTO DI INGEGNERIA IDRAULICA, MARITTIMA E GEOTECNICA UNIVERSITA DEGLI STUDI DI PADOVA DIPARTIMENTO DI INGEGNERIA IDRAULICA, MARITTIMA E GEOTECNICA CORSO DI COSTRUZIONI IDRAULICHE A.A. 00-0 PROF. LUIGI DA DEPPO ING. NADIA URSINO ESERCITAZIONE N : Progetto

Dettagli

SOTTOSPAZI E OPERAZIONI IN SPAZI DIVERSI DA R n

SOTTOSPAZI E OPERAZIONI IN SPAZI DIVERSI DA R n SPAZI E SOTTOSPAZI 1 SOTTOSPAZI E OPERAZIONI IN SPAZI DIVERSI DA R n Spazi di matrici. Spazi di polinomi. Generatori, dipendenza e indipendenza lineare, basi e dimensione. Intersezione e somma di sottospazi,

Dettagli

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill Statistica - metodologie per le scienze economiche e sociali /e S. Borra A. Di Ciaccio - McGraw Hill s. 9. Soluzione degli esercizi del capitolo 9 In base agli arrotondamenti effettuati nei calcoli si

Dettagli

7 Disegni sperimentali ad un solo fattore. Giulio Vidotto Raffaele Cioffi

7 Disegni sperimentali ad un solo fattore. Giulio Vidotto Raffaele Cioffi 7 Disegni sperimentali ad un solo fattore Giulio Vidotto Raffaele Cioffi Indice: 7.1 Veri esperimenti 7.2 Fattori livelli condizioni e trattamenti 7.3 Alcuni disegni sperimentali da evitare 7.4 Elementi

Dettagli

Somma di numeri floating point. Algoritmi di moltiplicazione e divisione per numeri interi

Somma di numeri floating point. Algoritmi di moltiplicazione e divisione per numeri interi Somma di numeri floating point Algoritmi di moltiplicazione e divisione per numeri interi Standard IEEE754 " Standard IEEE754: Singola precisione (32 bit) si riescono a rappresentare numeri 2.0 10 2-38

Dettagli

1. La funzione f(x) deve avere uno zero in corrispondenza di x=3

1. La funzione f(x) deve avere uno zero in corrispondenza di x=3 PROBLEMA 1: Il porta scarpe da viaggio Un artigiano vuole realizzare contenitori da viaggio per scarpe e ipotizza contenitori con una base piana e un'altezza variabile sagomata che si adatti alla forma

Dettagli

differiticerti.notebook November 25, 2010 nov 6 17.29 nov 6 17.36 nov 6 18.55 Problemi con effetti differiti

differiticerti.notebook November 25, 2010 nov 6 17.29 nov 6 17.36 nov 6 18.55 Problemi con effetti differiti Problemi con effetti differiti sono quelli per i quali tra il momento di sostentamento dei costi ed il momento di realizzo dei ricavi intercorre un certo lasso di tempo. Nei casi in cui il vantaggio è

Dettagli

Definizione Dati due insiemi A e B, contenuti nel campo reale R, si definisce funzione reale di variabile reale una legge f : A

Definizione Dati due insiemi A e B, contenuti nel campo reale R, si definisce funzione reale di variabile reale una legge f : A Scopo centrale, sia della teoria statistica che della economica, è proprio quello di esprimere ed analizzare le relazioni, esistenti tra le variabili statistiche ed economiche, che, in linguaggio matematico,

Dettagli

STATISTICA: esercizi svolti sulla MEDIA ARITMETICA

STATISTICA: esercizi svolti sulla MEDIA ARITMETICA STATISTICA: esercizi svolti sulla MEDIA ARITMETICA 1 1 MEDIA ARITMETICA 2 1 MEDIA ARITMETICA 1. La seguente tabella riporta il numero di persone divise per sesso che si sono presentate durante l anno 1997

Dettagli

Lezione 4. Sommario. L artimetica binaria: I numeri relativi e frazionari. I numeri relativi I numeri frazionari

Lezione 4. Sommario. L artimetica binaria: I numeri relativi e frazionari. I numeri relativi I numeri frazionari Lezione 4 L artimetica binaria: I numeri relativi e frazionari Sommario I numeri relativi I numeri frazionari I numeri in virgola fissa I numeri in virgola mobile 1 Cosa sono inumeri relativi? I numeri

Dettagli

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill Es. Soluzione degli esercizi del capitolo 8 home - indice In base agli arrotondamenti effettuati nei calcoli, si

Dettagli

2. Variabilità mediante il confronto di valori caratteristici della

2. Variabilità mediante il confronto di valori caratteristici della 2. Variabilità mediante il confronto di valori caratteristici della distribuzione Un approccio alternativo, e spesso utile, alla misura della variabilità è quello basato sul confronto di valori caratteristici

Dettagli

Analisi della varianza

Analisi della varianza 1. 2. univariata ad un solo fattore tra i soggetti (between subjects) 3. univariata: disegni fattoriali 4. univariata entro i soggetti (within subjects) 5. : disegni fattoriali «misti» L analisi della

Dettagli

Riconoscere e formalizzare le dipendenze funzionali

Riconoscere e formalizzare le dipendenze funzionali Riconoscere e formalizzare le dipendenze funzionali Giorgio Ghelli 25 ottobre 2007 1 Riconoscere e formalizzare le dipendenze funzionali Non sempre è facile indiduare le dipendenze funzionali espresse

Dettagli

Risoluzione di problemi ingegneristici con Excel

Risoluzione di problemi ingegneristici con Excel Risoluzione di problemi ingegneristici con Excel Problemi Ingegneristici Calcolare per via numerica le radici di un equazione Trovare l equazione che lega un set di dati ottenuti empiricamente (fitting

Dettagli

ˆp(1 ˆp) n 1 +n 2 totale di successi considerando i due gruppi come fossero uno solo e si costruisce z come segue ˆp 1 ˆp 2. n 1

ˆp(1 ˆp) n 1 +n 2 totale di successi considerando i due gruppi come fossero uno solo e si costruisce z come segue ˆp 1 ˆp 2. n 1 . Verifica di ipotesi: parte seconda.. Verifica di ipotesi per due campioni. Quando abbiamo due insiemi di dati possiamo chiederci, a seconda della loro natura, se i campioni sono simili oppure no. Ci

Dettagli

Calibrazione di modelli matematici

Calibrazione di modelli matematici Capitolo 4 Calibrazione di modelli matematici Supponiamo che siano disponibili conteggi o stime di una data popolazione in stagioni successive. Ad esempio, consideriamo i dati per la quantità di piante

Dettagli

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016 Esercitazione 12 maggio 2016 ESERCIZIO 1 Si supponga che in un sondaggio di opinione su un campione di clienti, che utilizzano una carta di credito di tipo standard (Std) o di tipo business (Bsn), si siano

Dettagli

GEOMETRIA ANALITICA. (*) ax+by+c=0 con a,b,c numeri reali che è detta equazione generale della retta.

GEOMETRIA ANALITICA. (*) ax+by+c=0 con a,b,c numeri reali che è detta equazione generale della retta. EQUAZIONE DELLA RETTA Teoria in sintesi GEOMETRIA ANALITICA Dati due punti A e B nel piano, essi individuano (univocamente) una retta. La retta è rappresentata da un equazione di primo grado in due variabili:

Dettagli

Interpolazione Statistica

Interpolazione Statistica Interpolazione Statistica Come determinare una funzione che rappresenti la relazione tra due grandezze x e y a cura di Roberto Rossi novembre 2008 Si parla di INTERPOLAZIONE quando: Note alcune coppie

Dettagli

Sistemi di equazioni lineari

Sistemi di equazioni lineari Sistemi di equazioni lineari A. Bertapelle 25 ottobre 212 Cos è un sistema lineare? Definizione Un sistema di m equazioni lineari (o brevemente sistema lineare) nelle n incognite x 1,..., x n, a coefficienti

Dettagli

MISURA DELLA DISTANZA FOCALE DI UNA LENTE CONVERGENTE

MISURA DELLA DISTANZA FOCALE DI UNA LENTE CONVERGENTE MISURA DELLA DISTANZA FOCALE DI UNA LENTE CONVERGENTE La distanza focale f di una lente convergente sottile è data dalla formula: da cui 1 f = 1 p + 1 q f = pq p + q dove p e q sono, rispettivamente, le

Dettagli

Cosa vuol dire misurare l'area di una figura piana a contorno curvilineo?

Cosa vuol dire misurare l'area di una figura piana a contorno curvilineo? Cosa vuol dire misurare l'area di una figura piana a contorno curvilineo? Idea elementare: 1. fissare un quadratino come unità di misura 2. contare quante volte questo può essere riportato nella figura

Dettagli

Il metodo della regressione

Il metodo della regressione Il metodo della regressione Il matching statistico Il matching statistico si basa sull idea di abbinare a ciascun soggetto trattato un soggetto non trattato tendenzialmenre equivalente, ovvero molto simile

Dettagli

Esercizi sulla conversione tra unità di misura

Esercizi sulla conversione tra unità di misura Esercizi sulla conversione tra unità di misura Autore: Enrico Campanelli Prima stesura: Settembre 2013 Ultima revisione: Settembre 2013 Per segnalare errori o per osservazioni e suggerimenti di qualsiasi

Dettagli

CAPITOLO V. DATABASE: Il modello relazionale

CAPITOLO V. DATABASE: Il modello relazionale CAPITOLO V DATABASE: Il modello relazionale Il modello relazionale offre una rappresentazione matematica dei dati basata sul concetto di relazione normalizzata. I principi del modello relazionale furono

Dettagli

Sistemi di equazioni lineari

Sistemi di equazioni lineari Sistemi di equazioni lineari I sistemi di equazioni si incontrano in natura in molti problemi di vita reale. Per esempio, prendiamo in considerazione una bevanda a base di uova, latte e succo d arancia.

Dettagli

4) 8 g di idrogeno reagiscono esattamente con 64 g di ossigeno secondo la seguente reazione:

4) 8 g di idrogeno reagiscono esattamente con 64 g di ossigeno secondo la seguente reazione: Esercizi Gli esercizi sulla legge di Lavoisier che seguono si risolvono ricordando che la massa iniziale, prima della reazione, deve equivalere a quella finale, dopo la reazione. L uguaglianza vale anche

Dettagli

Statistica Inferenziale

Statistica Inferenziale Statistica Inferenziale Prof. Raffaella Folgieri Email: folgieri@mtcube.com aa 2009/2010 Esercizio 1 (stima puntuale) In un processo di controllo di qualità, siamo interessati al numero mensile di guasti

Dettagli

Elementi di matematica finanziaria

Elementi di matematica finanziaria Elementi di matematica finanziaria 1. Percentuale Si dice percentuale di una somma di denaro o di un altra grandezza, una parte di questa, calcolata in base ad un tanto per cento, che si chiama tasso percentuale.

Dettagli

METODI DI CONVERSIONE FRA MISURE

METODI DI CONVERSIONE FRA MISURE METODI DI CONVERSIONE FRA MISURE Un problema molto frequente e delicato da risolvere è la conversione tra misure, già in parte introdotto a proposito delle conversioni tra multipli e sottomultipli delle

Dettagli

Corso di Laurea in Matematica per l Informatica e la Comunicazione Scientifica

Corso di Laurea in Matematica per l Informatica e la Comunicazione Scientifica Corso di Laurea in Matematica per l Informatica e la Comunicazione Scientifica Soluzione del compito di Matematica Discreta 1 del 25 luglio 200 1. Qual è il numero di applicazioni f : A = {1,..., 5} B

Dettagli

Equazioni di I e II grado

Equazioni di I e II grado Corso di Laurea: Biologia Tutor: Marta Floris, Max Artizzu PRECORSI DI MATEMATICA Equazioni di I e II grado 1 Introduzione ai polinomi Un incognita è un simbolo letterale che sta a simboleggiare un valore

Dettagli

L indagine statistica

L indagine statistica 1 L indagine statistica DEFINIZIONE. La statistica è quella disciplina che si occupa della raccolta di dati quantitativi relativi a diversi fenomeni, della loro elaborazione e del loro utilizzo a fini

Dettagli

Esercitazioni di statistica

Esercitazioni di statistica Esercitazioni di statistica Intervalli di confidenza Stefania Spina Universitá di Napoli Federico II stefania.spina@unina.it 10 Dicembre 2014 Stefania Spina Esercitazioni di statistica 1/43 Stefania Spina

Dettagli

Come utilizzare i riferimenti assoluti e relativi in Microsoft Excel

Come utilizzare i riferimenti assoluti e relativi in Microsoft Excel Come utilizzare i riferimenti assoluti e relativi in Microsoft Excel In un foglio elettronico, le celle sono identificate mediante delle coordinate; in genere, sono utilizzate le lettere per identificare

Dettagli

PowerDIP Software gestione presenze del personale aziendale. - Guida all inserimento e gestione dei turni di lavoro -

PowerDIP Software gestione presenze del personale aziendale. - Guida all inserimento e gestione dei turni di lavoro - PowerDIP Software gestione presenze del personale aziendale - Guida all inserimento e gestione dei turni di lavoro - Informazioni preliminari. E necessario innanzitutto scaricare e installare l ultima

Dettagli

OFFERTA DI LAVORO. p * C = M + w * L

OFFERTA DI LAVORO. p * C = M + w * L 1 OFFERTA DI LAVORO Supponiamo che il consumatore abbia inizialmente un reddito monetario M, sia che lavori o no: potrebbe trattarsi di un reddito da investimenti, di donazioni familiari, o altro. Definiamo

Dettagli

TRIGONOMETRIA E COORDINATE

TRIGONOMETRIA E COORDINATE Y Y () X O (Y Y ) - α X (X X ) 200 c TRIGONOMETRI E OORDINTE ngoli e sistemi di misura angolare Funzioni trigonometriche Risoluzione dei triangoli rettangoli Risoluzione dei poligoni Risoluzione dei triangoli

Dettagli

RIDUZIONE DELLE DISTANZE

RIDUZIONE DELLE DISTANZE RIDUZIONE DELLE DISTANZE Il problema della riduzione delle distanze ad una determinata superficie di riferimento va analizzato nei suoi diversi aspetti in quanto, in relazione allo scopo della misura,

Dettagli

Soluzione dei sistemi lineari con metodo grafico classe 2H

Soluzione dei sistemi lineari con metodo grafico classe 2H Soluzione dei sistemi lineari con metodo grafico classe H (con esempi di utilizzo del software open source multipiattaforma Geogebra e calcolatrice grafica Texas Instruments TI-89) Metodo grafico Il metodo

Dettagli

GRAFICI DI PROBABILITÀ Prof. Antonio Lanzotti

GRAFICI DI PROBABILITÀ Prof. Antonio Lanzotti UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE a.a. 2007/2008 GRAFICI DI PROBABILITÀ Prof. Antonio Lanzotti A cura di: Ing. Giovanna

Dettagli

ANALISI MULTIVARIATA

ANALISI MULTIVARIATA ANALISI MULTIVARIATA Marcella Montico Servizio di epidemiologia e biostatistica... ancora sulla relazione tra due variabili: la regressione lineare semplice VD: quantitativa VI: quantitativa Misura la

Dettagli

Il Metodo Scientifico

Il Metodo Scientifico Unita Naturali Il Metodo Scientifico La Fisica si occupa di descrivere ed interpretare i fenomeni naturali usando il metodo scientifico. Passi del metodo scientifico: Schematizzazione: modello semplificato

Dettagli

-RISULTATI DEL MONITORAGGIO DEL SERVIZIO DI CALL CENTER- Dott. Giovanni Goisis

-RISULTATI DEL MONITORAGGIO DEL SERVIZIO DI CALL CENTER- Dott. Giovanni Goisis -RISULTATI DEL MONITORAGGIO DEL SERVIZIO DI CALL CENTER- Dott. Giovanni Goisis 1 Al fine di migliorare l efficienza delle prestazioni del proprio Ufficio Stranieri, la Questura di Bergamo ha introdotto

Dettagli

GRIGLIA DI CORREZIONE 2013 Matematica Classe I Scuola secondaria di primo grado FASCICOLO 1

GRIGLIA DI CORREZIONE 2013 Matematica Classe I Scuola secondaria di primo grado FASCICOLO 1 GRIGLIA DI CORREZIONE 2013 Matematica Classe I Scuola secondaria di primo grado FASCICOLO 1 LEGENDA AMBITI: NU (Numeri), SF (Spazio e figure), DP (Dati e previsioni) LEGENDA PROCESSI: 1. Conoscere e padroneggiare

Dettagli

Esame di FONDAMENTI DI AUTOMATICA (9 crediti) SOLUZIONE

Esame di FONDAMENTI DI AUTOMATICA (9 crediti) SOLUZIONE Esame di FONDAMENTI DI AUTOMATICA (9 crediti) Prova scritta 16 luglio 2014 SOLUZIONE ESERCIZIO 1. Dato il sistema con: si determinino gli autovalori della forma minima. Per determinare la forma minima

Dettagli

1.5 DIVISIONE TRA DUE POLINOMI

1.5 DIVISIONE TRA DUE POLINOMI Matematica C Algebra. Le basi del calcolo letterale.5 Divisione tra due polinomi..5 DIVISIONE TRA DUE POLINOMI Introduzione Ricordiamo la divisione tra due numeri, per esempio 47:4. Si tratta di trovare

Dettagli

Pro memoria per la ripartizione delle spese

Pro memoria per la ripartizione delle spese Pro memoria per la ripartizione delle spese Documento di lavoro post incontro del 23 e 24 novembre 2009, Roma, ad uso interno del Gruppo di lavoro Istat-Upi per la sperimentazione della contabilità ambientale

Dettagli

Le frazioni algebriche

Le frazioni algebriche Le frazioni algebriche Le frazioni algebriche, a differenza delle frazioni numeriche, sono frazioni che prevedono al denominatore espressioni polinomiali. Le seguenti, ad esempio, sono frazioni algebriche

Dettagli

CONICHE. Esercizi Esercizio 1. Nel piano con riferimento cartesiano ortogonale Oxy sia data la conica C di equazione

CONICHE. Esercizi Esercizio 1. Nel piano con riferimento cartesiano ortogonale Oxy sia data la conica C di equazione CONICHE Esercizi Esercizio 1. Nel piano con riferimento cartesiano ortogonale Oy sia data la conica C di equazione 7 2 + 2 3y + 5y 2 + 32 3 = 0. Calcolare le equazioni di una rototraslazione che riduce

Dettagli

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice Esercitazione 16 Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () 1 / 24 Studio della relazione tra due variabili Commonly Asked Questions Qual è la relazione tra la spesa

Dettagli

0.1 Esercizi calcolo combinatorio

0.1 Esercizi calcolo combinatorio 0.1 Esercizi calcolo combinatorio Esercizio 1. Sia T l insieme dei primi 100 numeri naturali. Calcolare: 1. Il numero di sottoinsiemi A di T che contengono esattamente 8 pari.. Il numero di coppie (A,

Dettagli

1) D0MINIO. Determinare il dominio della funzione f (x) = ln ( x 3 4x 2 3x). Deve essere x 3 4x 2 3x > 0. Ovviamente x 0.

1) D0MINIO. Determinare il dominio della funzione f (x) = ln ( x 3 4x 2 3x). Deve essere x 3 4x 2 3x > 0. Ovviamente x 0. D0MINIO Determinare il dominio della funzione f ln 4 + Deve essere 4 + > 0 Ovviamente 0 Se > 0, 4 + 4 + quindi 0 < < > Se < 0, 4 + 4 4 e, ricordando che < 0, deve essere 4 < 0 dunque 7 < < 0 Il campo di

Dettagli

Si dice parabola il luogo geometrico dei punti del piano, equidistanti da un punto fisso, detto fuoco, e da una retta fissa, detta direttrice.

Si dice parabola il luogo geometrico dei punti del piano, equidistanti da un punto fisso, detto fuoco, e da una retta fissa, detta direttrice. LA PARABOLA Definizione: Si dice parabola il luogo geometrico dei punti del piano, equidistanti da un punto fisso, detto fuoco, e da una retta fissa, detta direttrice. Dimostrazione della parabola con

Dettagli

Calcolo di una Regressione lineare semplice con Excel

Calcolo di una Regressione lineare semplice con Excel Calcolo di una Regressione lineare semplice con Excel Inserire i dati In un tabellone vuoto di Excel, inserire i dati di X e di Y. Ad esempio i dati della Tabella 0.1 dovrebbero essere inseriti in Excel

Dettagli

La codifica. dell informazione

La codifica. dell informazione La codifica dell informazione (continua) Codifica dei numeri Il codice ASCII consente di codificare le cifre decimali da 0 a 9 fornendo in questo modo un metodo per la rappresentazione dei numeri Il numero

Dettagli

Esercizi svolti sui sistemi lineari

Esercizi svolti sui sistemi lineari Francesco Daddi - www.webalice.it/francesco.daddi Esercizi svolti sui sistemi lineari Esercizio 1. Risolvere il seguente sistema lineare al variare del parametro reale t: tx+(t 1)y + z =1 (t 1)y + tz =1

Dettagli

Occupazione e disoccupazione

Occupazione e disoccupazione Lezione 20 1 Occupazione e disoccupazione L occupazione ha una fortissima importanza sociale, e pone molti problemi di rilevazione. In questa lezione vediamo come la definizione di occupazione fa emergere

Dettagli

La Prova Invalsi 2014. per la scuola secondaria di 2 grado

La Prova Invalsi 2014. per la scuola secondaria di 2 grado La Prova Invalsi 2014 MATHES - Sezione di Roma per la scuola secondaria di 2 grado Il test che l Invalsi ha utilizzato nell anno 2014 per la rilevazione degli apprendimenti in matematica conseguiti nelle

Dettagli

Evoluzione del clima in Veneto nell ultimo cinquantennio

Evoluzione del clima in Veneto nell ultimo cinquantennio DIPARTIMENTO PER LA SICUREZZA DEL TERRITORIO Centro Meteorologico di Teolo Evoluzione del clima in Veneto nell ultimo cinquantennio Il Veneto si colloca in una zona di transizione confinante a Nord con

Dettagli

EQUAZIONI E DISEQUAZIONI GONIOMETRICHE

EQUAZIONI E DISEQUAZIONI GONIOMETRICHE EQUAZIONI E DISEQUAZIONI GONIOMETRICHE Prerequisiti Saper risolvere le equazioni algebriche. Conoscere le definizioni delle funzioni goniometriche. Conoscere i valori delle funzioni goniometriche per gli

Dettagli

UNIVERSITÀ DEGLI STUDI DI TRIESTE

UNIVERSITÀ DEGLI STUDI DI TRIESTE UNIVERSITÀ DEGLI STUDI DI TRIESTE Laurea magistrale in ingegneria meccanica Corso di costruzione di macchine e affidabilità PRIMA ESERCITAZIONE Analisi FEM applicata alla ricerca della sezione maggiormente

Dettagli

UNIVERSITÀ di ROMA TOR VERGATA

UNIVERSITÀ di ROMA TOR VERGATA UNIVERSITÀ di ROMA TOR VERGATA Corso di Statistica, anno 00- P.Baldi Lista di esercizi. Corso di Laurea in Biotecnologie Esercizio Si sa che in una schedina del totocalcio i tre simboli, X, compaiono con

Dettagli

ESERCIZI DEL CORSO DI INFORMATICA

ESERCIZI DEL CORSO DI INFORMATICA ESERCIZI DEL CORSO DI INFORMTIC Questa breve raccolta di esercizi vuole mettere in luce alcuni aspetti della prima parte del corso e fornire qualche spunto di riflessione. Il contenuto del materiale seguente

Dettagli

STATISTICA DESCRITTIVA. Elementi di statistica medica GLI INDICI INDICI DI DISPERSIONE STATISTICA DESCRITTIVA

STATISTICA DESCRITTIVA. Elementi di statistica medica GLI INDICI INDICI DI DISPERSIONE STATISTICA DESCRITTIVA STATISTICA DESCRITTIVA Elementi di statistica medica STATISTICA DESCRITTIVA È quella branca della statistica che ha il fine di descrivere un fenomeno. Deve quindi sintetizzare tramite pochi valori(indici

Dettagli

ARROTONDANDO FIGURE CON TRIANGOLI EQUILATERI

ARROTONDANDO FIGURE CON TRIANGOLI EQUILATERI ARROTONDANDO Cosa succede ad accostare figure identiche una all altra? Le figure ottenute che proprietà presentano? Posso trovare un qualche tipo di legge generale? Per rispondere a questa ed altre domande

Dettagli