Statistica Applicata all edilizia: il modello di regressione

Documenti analoghi
MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

Regressione multipla

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

STATISTICA A K (60 ore)

Esercitazione 5 Sta/s/ca Aziendale

Minimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Esercizi di statistica

Università di Pavia Econometria Esercizi 4 Soluzioni

Regressione lineare semplice

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Test F per la significatività del modello

COGNOME.NOME...MATR..

Statistica 1 A.A. 2015/2016

ANALISI DELLE SERIE STORICHE

Microeconometria Day # 3 L. Cembalo. Regressione con due variabili e metodo dei minimi quadrati

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

Università di Pavia Econometria. Minimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi

Modelli lineari generalizzati

Analisi della varianza

Capitolo 12 La regressione lineare semplice

Università di Siena. Teoria della Stima. Lucidi del corso di. Identificazione e Analisi dei Dati A.A

Esercitazione del

I appello di calcolo delle probabilità e statistica

Regressione Lineare Semplice e Correlazione

Il modello di regressione lineare multivariata

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

Corso di Statistica Industriale

Cognome e Nome:... Corso di laurea:...

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

Statistica. Alfonso Iodice D Enza

9.3 Il metodo dei minimi quadrati in formalismo matriciale

Il modello di regressione lineare multipla con regressori stocastici

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Contenuti: Capitolo 14 del libro di testo

Statistica multivariata Donata Rodi 17/10/2016

Modelli Multilineari e Misure di adeguatezza del modello

Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Destagionalizzazione, detrendizzazione delle serie storiche

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

Transcript:

Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009

Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare

Analisi di regressione Nell ambito dell analisi del mercato immobiliare possiamo essere interessati alla relazione che lega: i prezzi delle case all indice Euribor; l indice della produzione industriale all indice della produzione nelle costruzioni; i prezzi delle case alla superficie riscaldata, alla presenza di balconi/giardini, ecc. Nell ambito del monitoraggio di strutture possiamo essere interessati alla relazione che lega: gli spostamenti alla temperatura, pressione, umidità, ecc. gli spostamenti ad altri fenomeni o altre misurazioni.

Il modello di Regressione Lineare Descrive il legame fra due (o più) grandezze tramite una relazione lineare del tipo per t = 1,, T, dove y t = β 0 + β 1 x t1 + β 2 x t2 + + β p x tp + ε t y t : variabile casuale dipendente; x t1, x t2,..., x tp : regressori (deterministici o stocastici); ε t : componente stocastica di valore atteso nullo e varianza costante, E (ε t ) = 0 e Var (ε t ) = σ 2. Funzione di regressione: E[y t x t ] = β 0 + β 1 x t1 + β 2 x t2 + + β p x tp Per p = 1, si ha il modello di regressione lineare semplice y t = β 0 + β 1 x t1 + ε t

Notazione matriciale dove: y = y 1 è un vettore T 1;. y T 1 x 11... x 1p x =.... 1 x T 1... x Tp β = u = β 0. β p ε 1. ε T y = xβ + u (1) è un vettore (p + 1) 1; è un vettore T 1. è una matrice T (p + 1);

Le ipotesi del modello lineare: 1 la funzione di regressione E(y X) = Xβ è correttamente specificata; 2 u è un vettore di T variabili casuali indipendenti; 3 le componenti di u sono variabili casuali di valore atteso nullo e varianza σ 2 (omoschedastiche); 4 le componenti di u sono variabili casuali normali 5 X è una matrice di costanti note (regressori non stocastici); 6 le colonne di X sono linearmente indipendenti: X X è invertibile.

La stima ai minimi quadrati La stima ai minimi quadrati del vettore β si determina minimizzando la seguente forma quadratica: Q (β) = (y Xβ) (y xβ) Si definisce stima Least Squares (LS) la soluzione dei minimi quadrati: che ha forma esplicita data da ˆβ LS = ˆβ = arg min Q (β). ˆβ LS = (X X) 1 X Y.

L espressione di ˆβ si trova dalle p + 1 condizioni del prim ordine: o, in forma matriciale, Q β j = 2 x ij (y i βx i ) = 0 Q β = 2X (Y Xβ) = 0. Si ha così il sistema detto delle eq ni normali che ha, appunto, soluzione X X ˆβ = X Y ˆβ LS = (X X) 1 X Y.

Esistenza Il modello di Regressione Lineare La condizione det (X X) > 0 è sempre soddisfatta a meno che una o più colonne della matrice X non sia una combinazione lineare delle altre. Supponiamo, per esempio, che l ultima colonna sia una tale combinazione: k 1 x ip = a j x ij j=0 allora l osservazione della corrispondente variabile esplicativa x p non porta informazioni aggiuntive rispetto alle altre per il sistema che si sta studiando e va eliminata dal modello.

Problemi Il modello di Regressione Lineare 1 dato ŷ = xβ + ε, con x R 1 mostrare che ˆβ = xt y t x 2 t 2 ŷ = β 0 + x 1 β 1 calcolare X X. ed (X X) 1. 3 f (x; β) = β 0 + β 1 x +... + β k x k con β = (β 0,..., β k ) : studiare ˆβ.

Esempio Il modello di Regressione Lineare Si vuole trovare una relazione lineare che leghi il valore di vendita (in migliaia di Euro) al valore accertato (in migliaia di Euro), all età della casa (in anni) e alla presenza di almeno un balcone (si o no) Prezzo di vendita Valore accertato Età della casa Balcone 94.1 78.17 2 1 101.9 80.24 5 1 88.65 74.03 17 0 115.5 86.31 12 1 87.5 75.22 15 0 72 65.54 20 0 91.5 72.43 17 1 113.9 85.61 15 1 69.34 60.8 10 0 96.9 81.88 1 0

Consideriamo per ora solo la relazione tra il prezzo di vendita ed il valore accertato. 120 110 prezzo delle case 100 90 80 70 60 60 65 70 75 80 85 90 valore accertato

Le matrici y e X sono, rispettivamente, y = 94.1 101.9 88.65 115.5 87.5 72 91.5 113.9 69.34 96.9 X = 1 78.17 1 80.24 1 74.03 1 86.31 1 75.22 1 65.54 1 72.43 1 85.61 1 60.80 1 81.88

da cui si ricava: ( 10 760 X X = ( 760 58409 ) 0.0931 X y =. 7.1893 ) ( 9.5192 0.1239 ; (X X) 1 = 0.1239 0.0016 ) ; La stima ai minimi quadrati risulta ˆβ = (X X) 1 X y = ( 42.3364 1.7819 ).

Se consideriamo anche la variabile Età delle case, si ha: 1 78.17 2 1 80.24 5 1 74.03 17 1 86.31 12 X = 1 75.22 15 10 760 114 1 65.54 20 ; X X = 760 58409 8496 1 72.43 17 114 8496 1702 1 85.61 15 1 60.80 10 1 81.88 1 12.4964 0.1493 0.0916 (X X) 1 = 0.1493 0.0018 0.0008 ; 0.0916 0.0008 0.0028 X y = 931 71893, da cui risulta 10398 ˆβ = (X X) 1 X y = 50.0742 1.8480 0.2380. ;

Esercizi Il modello di Regressione Lineare 1 Si consideri il database TAV1.1. Si vuole determinare in quale misura ciascun fattore (costo della manodopera, costo materiali e trasporto) influisce sul costo generale delle costruzioni. Stimare un modello di regressione multipla e commentare i risultati. 2 Considerate i dati relativi al monitoraggio del monumento Ara Pacis. Stimare un modello di regressione multipla in cui la variabile risposta è Ch0 e i regressori sono dati dalle temeperature T Ch11 e T Ch12. 3 Considerate i dati relativi al monitoraggio del Ponte di Certosa. Stimare un modello di regressione multipla in cui la variabile risposta è il misuratore di giunti Mg S1 e la variabile esogena è la temperatura T S1.

LS o ML? Il modello di Regressione Lineare Se ε i = y i β x i iid N ( 0, σε 2 ) è facile scrivere la verosimiglianza ( 1 L (β) = exp 1 (2πσ 2 ) n 2 2 e la log-verosimiglianza è ( y i β ) ) 2 x i σ ln L (β) = H + K (Y Xβ) (Y Xβ) = H K (y i β x i ) 2 = H KQ (β) dove H e K > 0 non dipendono da β.

Proprietà della stima LS 1 Non distorsione ( ) E ˆβ = β 2 Matrice di varianze-covarianze ( V ˆβ) = σε 2 (X X) 1 det (X X) = 0 stime scadenti. Posto ( (X ν = diag X ) ) 1 si ha ( ) Var ˆβj = σεν 2 j 3 Normalità Se ε iid N ( 0, σ 2) allora ˆβ è N p+1 ( β, σ 2 ε (X X) 1)

Scomposizione della Varianza dove: Devianza totale Devianza spiegata Devianza residua e D tot = D sp + D res D tot = (y t ȳ) 2 σ 2 χ 2 n 1 D sp = (ŷ t ȳ) 2 = D tot D res σ 2 χ 2 p D res = (y t ŷ t ) 2 σ 2 χ 2 n k 1 s 2 = 1 n p 1 D res. è la stima della varianza residua, ˆσ 2 ε :

Esempio Il modello di Regressione Lineare Si considerino i dati sui prezzi delle case (prezzi delle case, valore accertato ed età delle case). La stima dei parametri di un modello di regressione multipla è ˆβ = (X X) 1 X y = 50.0742 1.8480 0.2380 La matrice di varianza-covarianza è data da 12.4964 0.1493 0.0916 σε 2 (X X) 1 = 12.1383 0.1493 0.0018 0.0008 0.0916 0.0008 0.0028 76.0260 0.9224 0.4794 = 0.9224 0.0114 0.0048. 0.4794 0.0048 0.0106 Quindi Var( ˆβ 0 ) = 76.0260, Var( ˆβ 1 ) = 0.0114 e Var( ˆβ 2 ) = 0.0106..

Adattamento Coefficiente di Determinazione Multipla R 2 = 1 D res D tot sotto H 0 : β = 0, per n grande, nr 2 ha distribuzione approssimata di tipo χ 2 p. Coefficiente corretto di Determinazione Multipla R 2 = 1 N 1 N p 1 (1 R2 ) Tuttavia quando n non è grande si possono avere R 2 alti come solo effetto di interpolazione. Procediamo perciò a formulare dei test per l analisi del modello trovato dai minimi quadrati.

Esempio Il modello di Regressione Lineare Con riferimento all esercizio sui prezzi delle case, il coefficiente di determinazione multipla è R 2 = 1 D res D tot = 1 327.7339 4544.8 = 0.9279 che indica che il modello approssima molto bene i dati; mentre il coefficiente corretto di determinazione multipla è R 2 = 1 9 7 (1 R2 ) = 0.9073

Analisi della Varianza e Test F Il modello è significativo? Interessa valutare la significatività del modello nel suo insieme: H 0 : β 1 =... = β p = 0 A tal fine usiamo la statistica D sp /p F 0 = D res / (n p 1). In ipotesi di normalità, sotto H 0 la statistica F ha distribuzione F di Snedecor con p ed n p 1 gradi di libertà F 0 F p,n p 1 Tabella ANOVA DF SS MS F p-value regressione p D sp MS sp = Dsp p errori n-1-p D res s 2 = Dres n p 1 totale n-1 D tot MS sp s 2 P(F > F 0 H 0 )

Esercizio Il modello di Regressione Lineare Eseguire un test ANOVA sui dati dei prezzi delle case e commentare il risultato ottenuto.

Test t sui coefficienti Interessa valutare la significatività dei singoli coefficienti β j : si usa la statistica t : dove H 0j : β j = 0 t = ˆβ j s ν j ν = diag ((X X) 1) e t ha distribuzione t di Student con n p 1 gradi di libertà.

Esercizio Il modello di Regressione Lineare Eseguire un test sui coefficienti del modello di regressione multipla sui dati dei prezzi delle case e commentare i risultati ottenuti.

Intervalli di Confidenza nella regressione IC sui coefficienti dove t n p 1, α 2 di libertà. ˆβ j t n p 1, α 2 s ν j β j ˆβ j + t n p 1, α 2 s ν j Grandi campioni è il valore critico della t di Student con n p 1 gradi ˆβ j z α 2 s ν j β j ˆβ j + z α 2 s ν j

Esercizio Il modello di Regressione Lineare Determinare gli intervalli di confidenza dei coefficienti del modello di regressione multipla usando i dati dei prezzi delle case e commentare i risultati ottenuti.

IC sulla superficie attesa Interessa l IC per µ y (x) = E (y x) in corrispondenza ad x non osservato. La sua stima LS è ˆµ y (x) = ˆβ x con varianza ( ) Var ˆβ x = σ 2 x (X X) 1 x. Perciò l IC per µ y (x) è dove t n p 1, α 2 di libertà. ˆβ x t n p 1, α 2 s x (X X) 1 x è il valore critico della t di Student con n p 1 gradi

IC sulle previsioni Interessa l IC per y = β x + ε in corrispondenza ad una x non osservata. La sua stima è ŷ = ˆβ x osservando che ˆβ = β + (X X) 1 X ε, si ottiene la varianza della previsione: [ ] Var (y ŷ) = σ 2 1 + x (X X) 1 x Perciò l IC per ŷ è dove t n p 1, α 2 di libertà. ˆβ x t n p 1, α 2 s 1 + x (X X) 1 x è il valore critico della t di Student con n p 1 gradi

Esercizio Il modello di Regressione Lineare Considerate i dati sui prezzi delle case. Utilizzando i risultati del modello di regressione lineare multipla, determinare il valore previsto quando il valore accertato è 85 (in migliaia di eruro) e l età della casa è 10 anni; Calcolare un intervallo di confidenza per tale valore previsto.