BUSINESS STATISTICS: ASSIGNMENT II: EMBA PART TIME 2012 ROMA I ANNO PROF. MOSCONI ESERCIZIO 1: USO DEL MODELLO DI REGRESSIONE PER DETERMINARE IL VALORE DEGLI IMMOBILI. ESERCIZIO 2: PREVISIONE DI VARIABILI ENERGETICHE CONSEGNA: 10 MARZO 2013 GRUPPO: TARTARINO, TRILLO, VENANZI, VERRUSO ESERCIZIO 1 1) Stimate la regressione utilizzando tutte le variabili. Analizzate i risultati in termini di significatività dei parametri (quali variabili dovrebbero essere tenute e quali non danno alcun significativo contributo?), R 2 (quanto della variabilità è spiegata dal modello?) e deviazione standard dei residui. Eliminate la variabili non significative e ristimate la regressione. Il modello migliora? Per svolgere questo esercizio è stato considerato il codice zip 33179 che si trova nella città di Miami in Florida. Abbiamo selezionato nel sito di ricerca di offerte per immobili realtor.com con la sola condizione che fossero case per famiglie escludendo ville a schiera e appartamenti in condomini, palazzi e ovviamente locali commerciali, uffici o terreni agricoli e industriali. Il motore di ricerca ci ha restituito una popolazione di 100 immobili corrispondenti alle specifiche di ricerca (in data 24-02-2013). La nostra riflessione ci ha portato a selezionare 6 variabili indipendenti di seguito elencate: X1 X2 X3 X4 X5 X6 CAMERE LETTO BAGNI LIVING SPACE ANNO GARAGE PISCINA Per living space intendiamo la superficie coperta misurata in [feet 2 ] della villa, per anno l anno di costruzione dell immobile, per garage intendiamo il numero di posti auto al coperto e per la piscina intendiamo la presenza o meno della piscina (variabile dummy), la nostra variabile dipendente Y = prezzo dell immobile. Abbiamo numerato da 1 a 100 le case trovate e abbiamo estratto tramite phstat un campione pari a 59 numeri casuali a cui abbiamo associato la riga corrispondente della nostra popolazione (foglio campione casuale). Su questo campione stimiamo un modello di regressione utilizzando le 6 variabili indipendenti, e otteniamo così un equazione di regressione multipla nella seguente forma: Precisiamo che la curva ottenuta con questo modello di regressione ha validità esclusivamente all interno del range dei prezzi del nostro campione con Y ϵ [70 900; 1 940'000]. Passiamo ad analizzare i risultati dell output fornitoci da excel (foglio regressione a 6 variabile) scomponendo tutte le sue componenti: Statistica della regressione R multiplo 0,891602011 R al quadrato 0,794954146 R al quadrato corretto 0,771295009 Errore standard 179626,1341 Osservazioni 59 Per quanto riguarda R 2 possiamo osservare come il modello di regressione qui presentato sia in grado di legare la variabilità di prezzo del 79,5% degli immobili in vendita ai 6 parametri mostrati. Il valore dello R 2 corretto, che invece considera il numero di parametri considerati, si attesta invece al 77,1%. Passando ora ad analizzare la bontà del nostro modello di regressione attraverso l analisi della varianza e il test F; excel ci restituisce la seguente tabella dell analisi della varianza: ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 6 6,50479E+12 1,08413E+12 33,60030188 3,12317E-16 Residuo 52 1,67781E+12 32265548051 Totale 58 8,1826E+12 Procediamo con la verifica della bontà di adattamento del modello utilizzando il test F. Utilizziamo il seguente sistema di ipotesi nulla H 0 : b1=b2=b3=b4=b5=b6=0; ovvero non c è alcuna relazione lineare tra la variabile dipendente e le variabili 1
Residui indipendenti oppure esistenza di una relazione lineare tra la variabile indipendente e le dipendenti. Verifichiamo così se se Fstat>Fα, per capire se rifiutare o meno l ipotesi nulla dei coefficienti. Le condizioni da rispettare sono le seguenti: Gradi di libertà (n k 1) = 52; Numero variabili ind. k = 6; livello di significatività = 0,05; Facendo riferimento alle tabelle dei valori critici F di Fisher osserviamo come per n=circa 60 e k=6 otteniamo un Fα= 2,25. Dal confronto con Fstat riportato nella tabella osserviamo come 33,6>2,25. Questa verifica ci permette di rifiutare l ipotesi di non corrispondenza lineare e ci permette di affermare che almeno una variabile indipendente sulle 6 osservate è in grado di spiegare l andamento delle vendite. Passiamo ora a valutare se esiste un effetto significativo sulla variabile Y di ogni singola variabile indipendente, verificando la relazione del t stat : Con: S bi = errore standard del coefficiente di regressione b i b i = coefficiente di regressione di Y rispetto alla variabile i rimanendo costanti gli effetti delle altre variabili indipendenti. L ipotesi da verificare è H 0 : β i =0 con i = (1,,6) Per valutare queste ipotesi ci serviamo dei valori elaborati da excel nella colonna Stat t e li confrontiamo con il valore critico della distribuzione t student corrispondente ad un livello di significatività dello 0,05 con 52 gradi di libertà. I valori critici sono ± 2,0066 e quindi adesso passiamo a verificare la nostra ipotesi: X1 T stat = 3,265418158 > 2.0066 Rifiuto l ipotesi di non influenza del parametro X1 su Y X2 T stat = 1.030690049 < 2.0066 Accetto l ipotesi di non influenza del parametro X2 su Y X3 T stat = 2.905970337 > 2.0066 Rifiuto l ipotesi di non influenza del parametro X3 su Y X4 T stat = -1.85605626 < 2.0066 Accetto l ipotesi di non influenza del parametro X4 su Y X5 T stat = 0.292315429 < 2.0066 Accetto l ipotesi di non influenza del parametro X5 su Y X6 T stat = -0.057926889 < 2.0066 Accetto l ipotesi di non influenza del parametro X6 su Y Questo test ci aiuta a capire che la maggior significatività del modello ci è fornita dalle due variabili indipendenti X1 = numero di camere e X3 = superficie della casa. Andiamo ora ad analizzare i residui attraverso il grafico seguente: $ 800.000 $ 400.000 $ - -$ 400.000 $ - $ 400.000 $ 800.000 $ 1.200.000 $ 1.600.000 -$ 400.000 Prezzo stimato Possiamo notare che essi non presentano elementi di omoschedasticità e inoltre, essendo la loro media prossima a zero, possiamo affermare che essi sono casuali e non sistematici (si veda tabella foglio excel regressione a 6 variabili). Notiamo la presenza di alcuni outlier (cerchio rosso in alto a destra). Per queste 2 rilevazioni il modello che abbiamo ipotizzato non spiega quindi un prezzo così elevato. Adesso passiamo a ristimare il modello alla luce della precedente analisi di significatività che ha condotto ad individuare i due soli parametri indipendenti più significativi, ovvero X1 ed X3. L equazione della regressione diventa la seguente: 2
Statistica della regressione R multiplo 0,873341304 R al quadrato 0,762725034 R al quadrato corretto 0,754250928 Errore standard 186199,1291 Osservazioni 59 Notiamo che il valore di R quadro si riduce leggermente rispetto al modello precedente arrivando a spiegare il 76% del prezzo delle abitazioni delle case da noi considerate. Il valore di R quadro corretto si attesta al 75%. Per quanto riguarda l analisi della varianza avremo: ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 2 6,24107E+12 3,12054E+12 90,00654931 3,21406E-18 Residuo 56 1,94153E+12 34670115663 Totale 58 8,1826E+12 Verifichiamo se Fstat>Fα per capire se rifiutare l ipotesi nulla dei coefficienti. Gradi di libertà (n k 1) = 56, Numero variabili ind. k = 2, livello di significatività = 0,05 Facendo riferimento alle tabelle dei valori critici F di Fisher osserviamo come per n=circa 60 e k=2 otteniamo un Fα= 3,15. Dal confronto con Fstat riportato nella tabella excel osserviamo come 90,006 >2,25. Questa verifica ci permette di rifiutare l ipotesi di non corrispondenza lineare e di affermare che almeno una variabile indipendente sulle 2 osservate, è in grado di spiegare l andamento delle vendite. Stimando adesso nuovamente la regressione (vedi tabella regressione 2 variabili indipendenti) otteniamo i seguenti coefficienti di regressione: b 0 =-688408; b 1 = 134094,1; b 3 = 256,8538; Adesso rieffettuiamo il test T con l ipotesi H 0 : b i =0 con i = (1, 2) Confrontiamo i valori nella colonna Stat t con il valore critico della distribuzione t student corrispondente ad un livello di significatività dello 0,05 con 56 gradi di libertà. I valori critici sono ± 2,0032 e quindi adesso passiamo a verificare la nostra ipotesi: X1 T stat = 3,872671 > 2.0032 Rifiuto l ipotesi di non influenza del parametro X1 su Y X3 T stat = 6,851969 > 2.0032 Rifiuto l ipotesi di non influenza del parametro X3 su Y Confrontando i due modelli di studiati notiamo che il secondo modello ha un R 2 pari a 0,76 mentre il primo presenta un valore di 0,79. Possiamo così dire che il secondo modello pur prendendo in considerazione solo 2 variabili indipendenti rispetto alle 6 del primo modello perde solo il 3% della capacità di stimare correttamente il costo delle villette, quindi per il criterio di parsimonia riteniamo il secondo modello preferibile al primo. 2) Cercate di interpretare il segno e la grandezza di ciascun coefficiente. Sono come ve li aspettereste? Passiamo ora ad analizzare l analisi dei coefficienti di regressione considerando sia la prima regressione che la seconda regressione. Prima regressione: il valore dell intercetta b o da considerarsi fuori dal dominio di valutazione dei prezzi perché altrimenti dovremmo pensare che una casa con 0 stanze, 0 bagni e con tutte le altre caratteristiche nulle dovrebbe avere un valore negativo pari a $ 434.617. Per quanto riguarda il parametro b 1 è facile osservare che il prezzo di una casa aumenta di circa $135.637 per ogni stanza in più presente. La stessa considerazione vale per il numero di bagni mentre per la superficie della casa possiamo osservare che il prezzo aumenta di $167,8 per ogni foot 2 aggiuntivo dell immobile. Ci sembra verosimile anche il parametro b 4 relativo all anno di costruzione che (a differenza delle dimore storiche dei centri urbani italiani) indica una diminuzione del prezzo dell immobile di circa $4.166 per ogni anno in più di anzianità della casa. La presenza del garage incrementa il valore dell immobile di circa $11.653 per ogni box auto disponibile. Per ultimo osserviamo il parametro b 6 relativo alla presenza della piscina. Questo coefficiente indica che il prezzo di un immobile scende di circa $3.475 in presenza di una piscina. Questo contraddice le nostre aspettative, ma il modello preso in considerazione, forse a causa del ridotto numero di osservazioni non valorizza la presenza di una piscina. Una possibile spiegazione che possiamo darci è che la presenza di una piscina rappresenti un onere in più in termini di costi di manutenzione. 3
Frequenza Frequenza Residui Seconda regressione: per l intercetta valgono le considerazioni fatte prima. Per quanto riguarda il parametro b 1 è facile osservare che il prezzo di una casa aumenta di circa $134.094,1 per ogni stanza in più presente. Per la superficie della casa possiamo osservare che il prezzo aumenta di $256,85 per ogni foot 2 aggiuntivo dell immobile. 3) Analizzate i residui. Vi pare che siano distribuiti in modo normale? Ci sono valori anomali (outlier)? Passando all analisi dei residui del modello stimato possiamo affermare che i residui si distribuiscono in modo casuale, inoltre notiamo la presenza di alcuni outlier (le stesse osservazioni del modello precedente) che possiamo spiegare con la presenza di qualche altra variabile da noi non considerata che fa crescere il prezzo dell abitazione. $ 800.000 $ 400.000 $ - -$ 400.000 $ - $ 400.000 $ 800.000 $ 1.200.000 $ 1.600.000 -$ 400.000 -$ 800.000 Prezzo stimato Inoltre dal valore dei residui standardizzati (foglio regressione a 2 variabile) vediamo come circa il 95% (93% per l esattezza) di essi assume valore compreso tra -1,96 e +1,96 (che corrisponde al 95% della distribuzione normale standard). Inoltre studiando anche la simmetria della curva notiamo che il valore dell asimmetria è di poco maggiore rispetto a zero (0,16 per la precisione) (tabella foglio regressione 2 variabili). La leggerissima asimmetria positiva (curva leggermente spostata a destra) e il valore del 93% può essere spiegata dalla presenza dei 2 outlier nella distribuzione. Soddisfacendo anche il criterio di simmetria possiamo affermare che i residui si distribuiscono come una normale. Sicuramente ristimando la regressione escludendo i due outlier le condizioni della distribuzione normale sarebbero totalmente soddisfatte. 4) In base alla distribuzione delle variabili indipendenti del vostro campione, definite una casa di lusso, casa ordinaria e casa economica per la vostra zona. Usando le vostre stime, calcolate il prezzo medio con una banda di confidenza al 95%, per ognuna delle tre tipologie di casa. Per definire la segmentazione del nostro campione in case di lusso, case ordinarie e case economiche, considerando solo le 2 variabili del nostro modello finale abbiamo effettuato una distribuzione di frequenza sia di X 1 che di X 3 e abbiamo ottenuto i seguenti istogrammi: 40 Camere da letto 40 Ft square 20 20 0 2 3 4 5 6 0 800 1600 2400 3200 > 3200 e abbiamo deciso la seguente segmentazione (le condizioni da rispettare sono entrambe): case di lusso: X 1 4 e X 3 > 3200 feet 2 case ordinarie: X 1 3 e 1900 X 3 < 3200 feet 2 case economiche: X 1 2 e 0 < X 3 < 1900 feet 2 abbiamo poi stimato la media secondo il test t e abbiamo ottenuto i seguenti valori (fogli stima casa ) casa di lusso casa media casa economica valore inferiore $ 703.804,54 $ 264.460,26 $ 121.023,63 media $ 969.783,33 $ 341.144,00 $ 144.550,00 valore superiore $ 1.235.761,46 $ 417.827,74 $ 168.076,37 4
Esercizio 2. Si tratta di una serie storica su base mensile, l osservazione i-esima puo essere il risultato di più componenti, ovvero: Y i =T i *S i* C i* I i. In questo modo teniamo conto delle componenti di: trend, stagionalità, ciclicità ed irregolarità. Per l analisi e la previsione di dati su base mensile la teoria propone il modello dei minimi quadrati adattato attraverso la stima del trend esponenziale dove: Ўi =b0 Il trend esponenziale è confermato dalle serie delle Medie Mobili (MA n-mesi ) e da quelle con smussamento esponenziale. Con un peso W=0,25 o mediando 4 osservazioni si ha una buona approssimazione della serie, questo indica la presenza di ciclicità di breve periodo e,o, di irregolarità L analisi grafica, il confronto tra gli errori standard delle stime (S xy ), i valori della deviazione media assoluta (MAD), il confronto tra i grafici dei residui (che non indica un modello specifico a parte l espoenziale) e quello delle differenze prime ci portano a procedere con il modello auto regressivo di ordine 2 comparandolo inoltre con il modello dei minimi quadrati adattato. Par/Modello lineare quadratico polinomiale(5) esponenziale Autoregressivo(2) Quadratico adattato Sxy 15,35 5,82 4,39 14,04 4,34 0,09 SIGMA 1787,51 562,33 413,34 628,04 246,31 594,96 MAD 13,34 4,20 3,08 4,69 1,84 4,44 L ordine del modello auto regressivo e stato scelto pari a 2, con un ordine pari a 3 si ottiene per il coefficiente XL 3 : p- value= 0,65 > α=0,05 che ci permette di rifiutare l ipotesi nulla H 0, XL 3 non e significativo nella rappresentazione della serie. Il grafico dei residui mostra una buona casualità. E probabile una cattiva interpretazione della componente ciclica ed una tendenza a perdere l omoschedasticità (varianza non nulla) nella parte finale della serie. Dal grafico riportato a seguire si evince che Il modello scelto interpola bene la serie di dati. 5
Si e introdotta la stima della variabile Biofuel contro la variabile tempo e Biofuel(t-1) ovvero: Ў i = Regressione(t i,y t-1 ). Le statistiche dei due modelli sono comparabili nei valori, la Stima(t,t- 1) segue piu fedelmente gli andamenti della produzione reale ritardati t-1. Si puo utilizzare questo modello per la previsione della produzione tenendo conto dell operatore ritardo introdotto. Non ci sono tuttavia sufficienti motivi per preferire questo modello all Autoregressivo di ordine 2. Si calcolano a seguire i valori stimati per i sei mesi successivi alla fine del campione utilizzando la formula generica: Ў i = a 0 +a n y n con n ordine del modello. Gli intervalli di confidenza sono stati ottenuti con Excel utilizzando PHPStat e la funzione di regressione calcolando l intervallo di confidenza per il valore n-esimo. Osservazione Produzione Stima Aut.(2) Intervallo di conf. Stima (t,t-1) Intervallo di conf. 2011-Febbraio 150,71 169,00 - - 169,84 - - 2011 Marzo 169,85 169,85 - - 152,43 - - 2011 -Aprile - 162,68 149,41 209,76 171,87 159,98 219,69 2011-Maggio - 169,05 158,28 218,90 156,48 142,89 202,00 2011-Giugno - 168,48 157,75 218,34 174,06 164,64 224,46 2011-Luglio - 171,49 161,96 222,68 160,48 148,61 207,85 2011-Agosto - 172,67 163,80 224,57 176,41 168,16 228,01 2011-Settembre - 174,81 166,85 227,71 164,45 159,22 218,77 Autoregressione (2) dati logaritmici R multiplo 0,945922 R al quadrato 0,894769 R al quadrato corretto 0,893175 Errore standard 0,236696 Stima(t.t-1) dati logaritmici R multiplo 0,992776318 R al quadrato 0,985604817 R al quadrato corretto 0,985386708 Errore standard 0,087544422 Trasformando la serie in valori logaritmici si abbattono gli effetti di ciclicità e stagionalità, migliorando la capacità previsionale. La serie viene linearizzata e la Stima(t,t-1) interpola meglio la serie di dati. Questo modello risulta preferibile. Dal grafico dei residui tuttavia si nota una associazione non lineare (vedasi allegato Excel). 6