Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009
Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare
Analisi di regressione Nell ambito dell analisi del mercato immobiliare possiamo essere interessati alla relazione che lega: i prezzi delle case all indice Euribor; l indice della produzione industriale all indice della produzione nelle costruzioni; i prezzi delle case alla superficie riscaldata, alla presenza di balconi/giardini, ecc. Nell ambito del monitoraggio di strutture possiamo essere interessati alla relazione che lega: gli spostamenti alla temperatura, pressione, umidità, ecc. gli spostamenti ad altri fenomeni o altre misurazioni.
Il modello di Regressione Lineare Descrive il legame fra due (o più) grandezze tramite una relazione lineare del tipo per t = 1,, T, dove y t = β 0 + β 1 x t1 + β 2 x t2 + + β p x tp + ε t y t : variabile casuale dipendente; x t1, x t2,..., x tp : regressori (deterministici o stocastici); ε t : componente stocastica di valore atteso nullo e varianza costante, E (ε t ) = 0 e Var (ε t ) = σ 2. Funzione di regressione: E[y t x t ] = β 0 + β 1 x t1 + β 2 x t2 + + β p x tp Per p = 1, si ha il modello di regressione lineare semplice y t = β 0 + β 1 x t1 + ε t
Notazione matriciale dove: y = y 1 è un vettore T 1;. y T 1 x 11... x 1p x =.... 1 x T 1... x Tp β = u = β 0. β p ε 1. ε T y = xβ + u (1) è un vettore (p + 1) 1; è un vettore T 1. è una matrice T (p + 1);
Le ipotesi del modello lineare: 1 la funzione di regressione E(y X) = Xβ è correttamente specificata; 2 u è un vettore di T variabili casuali indipendenti; 3 le componenti di u sono variabili casuali di valore atteso nullo e varianza σ 2 (omoschedastiche); 4 le componenti di u sono variabili casuali normali 5 X è una matrice di costanti note (regressori non stocastici); 6 le colonne di X sono linearmente indipendenti: X X è invertibile.
La stima ai minimi quadrati La stima ai minimi quadrati del vettore β si determina minimizzando la seguente forma quadratica: Q (β) = (y Xβ) (y xβ) Si definisce stima Least Squares (LS) la soluzione dei minimi quadrati: che ha forma esplicita data da ˆβ LS = ˆβ = arg min Q (β). ˆβ LS = (X X) 1 X Y.
L espressione di ˆβ si trova dalle p + 1 condizioni del prim ordine: o, in forma matriciale, Q β j = 2 x ij (y i βx i ) = 0 Q β = 2X (Y Xβ) = 0. Si ha così il sistema detto delle eq ni normali che ha, appunto, soluzione X X ˆβ = X Y ˆβ LS = (X X) 1 X Y.
Esistenza Il modello di Regressione Lineare La condizione det (X X) > 0 è sempre soddisfatta a meno che una o più colonne della matrice X non sia una combinazione lineare delle altre. Supponiamo, per esempio, che l ultima colonna sia una tale combinazione: k 1 x ip = a j x ij j=0 allora l osservazione della corrispondente variabile esplicativa x p non porta informazioni aggiuntive rispetto alle altre per il sistema che si sta studiando e va eliminata dal modello.
Problemi Il modello di Regressione Lineare 1 dato ŷ = xβ + ε, con x R 1 mostrare che ˆβ = xt y t x 2 t 2 ŷ = β 0 + x 1 β 1 calcolare X X. ed (X X) 1. 3 f (x; β) = β 0 + β 1 x +... + β k x k con β = (β 0,..., β k ) : studiare ˆβ.
Esempio Il modello di Regressione Lineare Si vuole trovare una relazione lineare che leghi il valore di vendita (in migliaia di Euro) al valore accertato (in migliaia di Euro), all età della casa (in anni) e alla presenza di almeno un balcone (si o no) Prezzo di vendita Valore accertato Età della casa Balcone 94.1 78.17 2 1 101.9 80.24 5 1 88.65 74.03 17 0 115.5 86.31 12 1 87.5 75.22 15 0 72 65.54 20 0 91.5 72.43 17 1 113.9 85.61 15 1 69.34 60.8 10 0 96.9 81.88 1 0
Consideriamo per ora solo la relazione tra il prezzo di vendita ed il valore accertato. 120 110 prezzo delle case 100 90 80 70 60 60 65 70 75 80 85 90 valore accertato
Le matrici y e X sono, rispettivamente, y = 94.1 101.9 88.65 115.5 87.5 72 91.5 113.9 69.34 96.9 X = 1 78.17 1 80.24 1 74.03 1 86.31 1 75.22 1 65.54 1 72.43 1 85.61 1 60.80 1 81.88
da cui si ricava: ( 10 760 X X = ( 760 58409 ) 0.0931 X y =. 7.1893 ) ( 9.5192 0.1239 ; (X X) 1 = 0.1239 0.0016 ) ; La stima ai minimi quadrati risulta ˆβ = (X X) 1 X y = ( 42.3364 1.7819 ).
Se consideriamo anche la variabile Età delle case, si ha: 1 78.17 2 1 80.24 5 1 74.03 17 1 86.31 12 X = 1 75.22 15 10 760 114 1 65.54 20 ; X X = 760 58409 8496 1 72.43 17 114 8496 1702 1 85.61 15 1 60.80 10 1 81.88 1 12.4964 0.1493 0.0916 (X X) 1 = 0.1493 0.0018 0.0008 ; 0.0916 0.0008 0.0028 X y = 931 71893, da cui risulta 10398 ˆβ = (X X) 1 X y = 50.0742 1.8480 0.2380. ;
Esercizi Il modello di Regressione Lineare 1 Si consideri il database TAV1.1. Si vuole determinare in quale misura ciascun fattore (costo della manodopera, costo materiali e trasporto) influisce sul costo generale delle costruzioni. Stimare un modello di regressione multipla e commentare i risultati. 2 Considerate i dati relativi al monitoraggio del monumento Ara Pacis. Stimare un modello di regressione multipla in cui la variabile risposta è Ch0 e i regressori sono dati dalle temeperature T Ch11 e T Ch12. 3 Considerate i dati relativi al monitoraggio del Ponte di Certosa. Stimare un modello di regressione multipla in cui la variabile risposta è il misuratore di giunti Mg S1 e la variabile esogena è la temperatura T S1.
LS o ML? Il modello di Regressione Lineare Se ε i = y i β x i iid N ( 0, σε 2 ) è facile scrivere la verosimiglianza ( 1 L (β) = exp 1 (2πσ 2 ) n 2 2 e la log-verosimiglianza è ( y i β ) ) 2 x i σ ln L (β) = H + K (Y Xβ) (Y Xβ) = H K (y i β x i ) 2 = H KQ (β) dove H e K > 0 non dipendono da β.
Proprietà della stima LS 1 Non distorsione ( ) E ˆβ = β 2 Matrice di varianze-covarianze ( V ˆβ) = σε 2 (X X) 1 det (X X) = 0 stime scadenti. Posto ( (X ν = diag X ) ) 1 si ha ( ) Var ˆβj = σεν 2 j 3 Normalità Se ε iid N ( 0, σ 2) allora ˆβ è N p+1 ( β, σ 2 ε (X X) 1)
Scomposizione della Varianza dove: Devianza totale Devianza spiegata Devianza residua e D tot = D sp + D res D tot = (y t ȳ) 2 σ 2 χ 2 n 1 D sp = (ŷ t ȳ) 2 = D tot D res σ 2 χ 2 p D res = (y t ŷ t ) 2 σ 2 χ 2 n k 1 s 2 = 1 n p 1 D res. è la stima della varianza residua, ˆσ 2 ε :
Esempio Il modello di Regressione Lineare Si considerino i dati sui prezzi delle case (prezzi delle case, valore accertato ed età delle case). La stima dei parametri di un modello di regressione multipla è ˆβ = (X X) 1 X y = 50.0742 1.8480 0.2380 La matrice di varianza-covarianza è data da 12.4964 0.1493 0.0916 σε 2 (X X) 1 = 12.1383 0.1493 0.0018 0.0008 0.0916 0.0008 0.0028 76.0260 0.9224 0.4794 = 0.9224 0.0114 0.0048. 0.4794 0.0048 0.0106 Quindi Var( ˆβ 0 ) = 76.0260, Var( ˆβ 1 ) = 0.0114 e Var( ˆβ 2 ) = 0.0106..
Adattamento Coefficiente di Determinazione Multipla R 2 = 1 D res D tot sotto H 0 : β = 0, per n grande, nr 2 ha distribuzione approssimata di tipo χ 2 p. Coefficiente corretto di Determinazione Multipla R 2 = 1 N 1 N p 1 (1 R2 ) Tuttavia quando n non è grande si possono avere R 2 alti come solo effetto di interpolazione. Procediamo perciò a formulare dei test per l analisi del modello trovato dai minimi quadrati.
Esempio Il modello di Regressione Lineare Con riferimento all esercizio sui prezzi delle case, il coefficiente di determinazione multipla è R 2 = 1 D res D tot = 1 327.7339 4544.8 = 0.9279 che indica che il modello approssima molto bene i dati; mentre il coefficiente corretto di determinazione multipla è R 2 = 1 9 7 (1 R2 ) = 0.9073
Analisi della Varianza e Test F Il modello è significativo? Interessa valutare la significatività del modello nel suo insieme: H 0 : β 1 =... = β p = 0 A tal fine usiamo la statistica D sp /p F 0 = D res / (n p 1). In ipotesi di normalità, sotto H 0 la statistica F ha distribuzione F di Snedecor con p ed n p 1 gradi di libertà F 0 F p,n p 1 Tabella ANOVA DF SS MS F p-value regressione p D sp MS sp = Dsp p errori n-1-p D res s 2 = Dres n p 1 totale n-1 D tot MS sp s 2 P(F > F 0 H 0 )
Esercizio Il modello di Regressione Lineare Eseguire un test ANOVA sui dati dei prezzi delle case e commentare il risultato ottenuto.
Test t sui coefficienti Interessa valutare la significatività dei singoli coefficienti β j : si usa la statistica t : dove H 0j : β j = 0 t = ˆβ j s ν j ν = diag ((X X) 1) e t ha distribuzione t di Student con n p 1 gradi di libertà.
Esercizio Il modello di Regressione Lineare Eseguire un test sui coefficienti del modello di regressione multipla sui dati dei prezzi delle case e commentare i risultati ottenuti.
Intervalli di Confidenza nella regressione IC sui coefficienti dove t n p 1, α 2 di libertà. ˆβ j t n p 1, α 2 s ν j β j ˆβ j + t n p 1, α 2 s ν j Grandi campioni è il valore critico della t di Student con n p 1 gradi ˆβ j z α 2 s ν j β j ˆβ j + z α 2 s ν j
Esercizio Il modello di Regressione Lineare Determinare gli intervalli di confidenza dei coefficienti del modello di regressione multipla usando i dati dei prezzi delle case e commentare i risultati ottenuti.
IC sulla superficie attesa Interessa l IC per µ y (x) = E (y x) in corrispondenza ad x non osservato. La sua stima LS è ˆµ y (x) = ˆβ x con varianza ( ) Var ˆβ x = σ 2 x (X X) 1 x. Perciò l IC per µ y (x) è dove t n p 1, α 2 di libertà. ˆβ x t n p 1, α 2 s x (X X) 1 x è il valore critico della t di Student con n p 1 gradi
IC sulle previsioni Interessa l IC per y = β x + ε in corrispondenza ad una x non osservata. La sua stima è ŷ = ˆβ x osservando che ˆβ = β + (X X) 1 X ε, si ottiene la varianza della previsione: [ ] Var (y ŷ) = σ 2 1 + x (X X) 1 x Perciò l IC per ŷ è dove t n p 1, α 2 di libertà. ˆβ x t n p 1, α 2 s 1 + x (X X) 1 x è il valore critico della t di Student con n p 1 gradi
Esercizio Il modello di Regressione Lineare Considerate i dati sui prezzi delle case. Utilizzando i risultati del modello di regressione lineare multipla, determinare il valore previsto quando il valore accertato è 85 (in migliaia di eruro) e l età della casa è 10 anni; Calcolare un intervallo di confidenza per tale valore previsto.