Statistica economica a.a. 013/14 Dr. Luca Secondi 10.a. Output tipico di un modello di regressione lineare multipla 1
Le analisi basate sul modello di regressione prevedono la stima dei coefficienti associati alle variabili esplicative introdotte nella relazione funzionale specificata, al fine di quantificare l influenza (e la connessa significatività) di ciascun predittore. Partendo dalla disponibilità di un data set - in cui si hanno a disposizione un insieme di variabili si procederà, nell esempio che segue, avendo ottenuto le stime dei parametri di un modello di regressione lineare multipla alla verifica statistica delle stime dei coefficienti e di verifica statistica del modello
ESERCIZIO La società che gestisce gli spettacoli teatrali del Teatro XY intende avviare una campagna promozionale per incentivare i cittadini a partecipare alle rappresentazioni teatrali, anche attraverso inviti personalizzati e/o opportunità per ottenere riduzioni sul biglietto di ingresso. Al fine di comprendere quali siano le variabili che incidono significativamente sulla spesa per fini culturali (ed in particolare per il teatro) viene estratto un campione casuale semplicedi50individui(dietàpariosuperiorea6)residentinella provincia in cui il teatro ha sede, ai quali si richiedono le seguenti informazioni: Importo speso per spettacoli teatrali nell anno 010; Età(in anni compiuti); Numero di componenti in famiglia; 3
Esempio Porzione del data set a disposizione A partire da tali variabili è stato inizialmente specificato un modello di regressione lineare multipla in cui: Variabile dipendente: importo speso (in Euro) per il teatro nell anno 010 Variabili indipendenti (variabili esplicative): numero di componenti della famiglia [Ncomp] età (in anni compiuti) [Eta] 4
L output di riepilogo della stima del modello di regressione, ottenuto avvalendosi della funzionalità«analisi Dati» di Excel, è di seguito riportato: OUTPUT RIEPILOGO Statistica della regressione R multiplo 0,478 R al quadrato 0,9 R al quadrato corretto 0,196 Errore standard 65,990 Osservazioni 50 ANALISI VARIANZA Gdl SQ MQ F Significatività F Regressione 5450,350 1760,175 6,97 0,00 Residuo 47 857867,070 185,491 Totale 49 111387,4 Coefficienti Errore standard Stat t Valore di significatività Inferiore 95% Superiore 95% Intercetta 46,15 19,941,313 0,0 6,799 85,45 Età 1,85 0,86 6,380 0,000 1,61,389 Ncomp -14,506 3,978-3,646 0,000 -,35-6,661 5
Si richiede di: a) Scrivere l equazione di regressione stimata; b) Quali coefficienti possono essere ritenuti statisticamente significativi (α=0,05)? c) Valutare la significatività complessiva dei coefficienti (α=0,05) d) Valutare mediante un indice opportuno la bontà di adattamento del modello stimato e) Fornire una previsione dell importo speso da un individuo di 38 anni i cui componenti del nucleo familiare (compreso il soggetto intervistato) sono 5; a) Scrivere l equazione di regressione stimata; Sulla base dei coefficienti stimati ed indicando con X 1 la variabile «Età» e con X la variabile «Ncomp», l equazione di regressione stimata si può scrivere come: * Y = 46,15 + 1,85 X 14,506X 1 6
Verifica statistica delle stime dei coefficienti Test di significatività L ipotesi nulla più frequentemente sottoposta a verifica è quella in cui si suppone che il valore vero del parametro sia pari a zero, che corrisponde ad affermare che la variabile esplicativa X j non ha nessuna influenza sulla variabile risposta. Si tratta di un test bilaterale in cui l ipotesi alternativa prevede la diversità da zero dello specifico coefficiente b j Per la verifica della significatività di ogni singolo coefficiente stimato b j, la statistica test introdotta è costituita dal rapporto tra la stima ed il suo errore standard, es(b j ): t bj = es( b ) Sotto l ipotesi nulla, la statistica test segue una distribuzione t di Student con n-p-1 gradi di libertà. La statistica test calcolata,t, andrà quindi confrontata con la statistica test teorica (tabulata) t α, ( n k 1 che ) rappresenta il percentile (1-α/) della distribuzione t di Student con n-k-1 gradi di libertà, dove n rappresenta il numero di osservazioni, k il numero di variabili esplicative (non considerando l intercetta), ed α il livello di significatività fissato. Il valore della «t tabulata» viene ricavato dalle tavole della distribuzione t di Student a disposizione. La verifica della validità della seguente disuguaglianza conduce a trarre conclusioni sulla significatività di ogni coefficiente stimato: SI si respinge H 0 :β j =0 Il coefficiente stimato è statisticamente significativo (per α fissato a priori) bj > t si accetta H α, ( n k 1 es( b ) ) 0 :β j =0 j NO j Il coefficiente stimato NON è statisticamente significativo (al livello α fissato a priori) 7
Verifica statistica delle stime dei coefficienti Test di significatività Con riferimento al modello di regressione in esame la verifica della significatività dei coefficienti avviene come segue: Coefficienti Errore standard Stat t Intercetta 46,15 19,941,313 Età 1,85 0,86 6,380 Ncomp -14,506 3,978-3,646 Ipotizzando, come richiesto nel punto b dell esercizio, di voler valutare la significatività dei coefficienti ad un livello α=0.05, tutti i coefficienti stimati sono statisticamente significativi. Nel dettaglio si illustra il procedimento di ragionamento da seguire, con riferimento al coefficiente stimato relativo alla variabile età. In base a quanto specificato nella slide precedente, la verifica della significatività statistica di un coefficiente di regressione stimato parte dalla determinazione della statistica test. In questo caso, avendo a disposizione l output di Excel, la statistica t (Stat t) risulta già calcolata ed è pari a 6,380. Tale valore si ottiene agevolmente come segue: bj 1,85 t = = = 6,380 es( b ) 0,86 Occorre ricavare dalle tavole della distribuzione t di Student il valore della«t tabulata», considerando α=0.05, n=50(dimensione del campione) e k= (numero di variabili indipendenti, esclusa l intercetta). Così facendo la«t tabulata» da considerare avrà 47 gradi di libertà(ovvero pari a n-k- 1): COME LEGGERE LA TAVOLA T DI STUDENT tα t ; ( 1) 0,05;47 =,0117 (vai alla slide 16) n k Il confronto tra la t calcolata e la t tabulata porta al verificarsi della validità della disuguaglianza: j t calcolata > t tabulata, giacché 6,380>,0117 Quindi il valore osservato della t cade nella regione di rifiuto del test di ipotesi e si rifiuta H 0 concludendo che il parametro stimato è statisticamente significativo(α=0,05). 8
Verifica statistica delle stime dei coefficienti Test di significatività Coefficienti Errore standard Stat t Valore di significatività Intercetta 46,15 19,941,313 0,0 Età 1,85 0,86 6,380 0,000 Ncomp -14,506 3,978-3,646 0,000 Un ulteriore modo per evidenziare il risultato del test è quello di riportare il p-value (valore di significatività) dato dalla probabilità di osservare il valore della statistica test uguale o più estremo del valore ottenuto mediante i dati campionari sotto ipotesi nulla. Con riferimento al p-value, il parametro stimato è considerato significativo (cioè si rifiuta l ipotesi H 0 che il valore del parametro sia pari zero, nel caso del test di significatività) quando il corrispondente p-value è inferiore ad un livello di significatività α adeguato (assegnato) al problema. Ad esempio se α è pari a 0,05, il parametro stimato si riterrà significativamente diverso da zero se il p-value osservato è inferiore a 0,05. Nel caso dell esercizio che si sta svolgendo (per rispondere quindi al punto b) e considerando α=0,05 tutti i parametri (età, ncomp e intercetta) possono essere ritenuti statisticamente significativi. Con l uso del p-value si giunge in maniera più immediata alla conclusione di un test di ipotesi, essendo anche più consapevoli del grado di evidenza ottenuto per il rifiuto dell ipotesi nulla 9
Inferenza sui parametri considerati congiuntamente 1/4 Sulla base della scomposizione della devianza, già analizzata per il modello di regressione lineare semplice, si può compilare un particolare quadro sintetico, noto come tavola dell analisi della varianza (ANOVA ANalysis Of VAriance) Essa risulta particolarmente utile nelle procedure inferenziali per la significatività del modello considerato nel suo complesso 10
Inferenza sui parametri considerati congiuntamente /4 La statistica F della tavola ANOVA può essere impiegata per effettuare un test di significatività per l intero modello sottoponendo a verifica l ipotesi che i parametri del modello(eccetto l intercetta) siano congiuntamente uguali a zero: H 0 : β 1 =β = =β k =0 H 1 : almenounβ j 0 Ipotesi nulla nessuna delle variabili esplicative ha un effetto significativo su Y Ipotesi alternativa almeno una delle variabili esplicative influisce su Y Tale sistema di ipotesi fa riferimento ad un confronto tra il modello nel suo complesso e un modello con la sola intercetta, dove quindi le variabili esplicative non apporterebbero nessuna informazione aggiuntiva 11
Inferenza sui parametri considerati congiuntamente 3/4 Si dimostra che sotto H 0 il rapporto delle due quantità ESS e RSS - divise per i rispettivi gradi di libertà - si distribuisce come una variabile F di Fisher con (k) e (n-k-1) gradi di libertà, dove k indica il numero di regressori ed n la numerosità del campione. Per sottoporre a verifica l ipotesi nulla si confronta, ad un determinato livello di significatività α, il valore F assunto dal rapporto con il corrispondente quantile della distribuzione F di Fisher Se tale valore cade sulla coda della distribuzione, come nella seguente espressione F SQR / ( k) = > SQE / ( n k 1) F ( k ) ( n k ) α,, 1 il test è significativo e si respinge l ipotesi nulla. 1
Inferenza sui parametri considerati congiuntamente 4/4 In riferimento all esempio si analizza ora, per rispondere al punto c), l inferenza sui due parametri considerati congiuntamente attraverso l output seguente, fornito dal software Excel: ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 5450,350 1760,175 6,97 0,00 Residuo 47 857867,070 185,491 Totale 49 111387,4 Il risultato del test F produce un valore della statistica F pari a 6,97 al quale corrisponde un p-value (Significatività F) inferiore al livello di significatività α=0.05 specificato: ciò conduce a respingere l ipotesi nulla (parametri tutti pari a zero tranne l intercetta) e concludere che il modello è significativo nel suo complesso ovvero almeno uno dei coefficienti stimati è statisticamente significativo. Alla medesima conclusione circa il test F si può giungere anche attraverso il confronto tra la F calcolata (ricavabile dalla tavola Anova e pari a F=6,97)ela corrispondente F teoricaf α;k;n-k-1 ovveroil (100(1-α)-mo percentile della distribuzionef di Fisher con k e n-k-1 gradi di libertà - ottenibile dalle tavole della distribuzione F di Fisher. Occorrerà quindi trovare sulle tavole il valore critico della F di Fisher avente k= (gradi di libertà del numeratore) e n-k-1=47 (gradi di libertà del denominatore) perα=0,05.dalconfrontofraiduevalorisigiungealrifiutodell ipotesinullah 0. 13
Il coefficiente di determinazione R nella regressione multipla Un difetto dell R già introdotto nel modello di regressione lineare semplice è che all aumentare del numero dei regressori esso non può mai diminuire, anche se le variabili aggiuntive non hanno alcun potere esplicativo. Per risolvere questo problema l approccio più utilizzato è quello di ricorrereall R correttoottenutocome: R 1 N ei ( N K 1) i= 1 n 1 1 1 1 N i= 1 ( R ) = = 1 n k 1 ( yi y) ( N 1) Questa misura di adattamento prevede una penalizzazione per l inclusione di variabili esplicative aggiuntive nel modello e di conseguenza può non aumentare al crescere del numero dei regressori. Così facendo aggiungendo una variabile all insieme dei regressori esso può anche diminuire. Per la risoluzione del punto d) dell esercizio si procede come segue. La valutazione della bontà di adattamento avviene, come già specificato, ricorrendo all indice R corretto, che come si evince dall output di Excel riportato nella slide 6 è pari a 0,196. Ciò sta ad indicare che circa il 0% dellavariabilitàtotaledelfenomenoèspiegatadalmodellodiregressionestimato. IlvalorediR correttosiottieneanaliticamentecomesegue: R 1 1 N ei 857867, 070 ( N K 1) i= 1 (50 1) 185, 491 1 1 1 1 0,804 0,196 N = = = = = 1 1 701, 784 ( y ) 111387, 4 i y ( N 1) (50 1) i= 1 Inalternatival indicer correttopuòessereottenutocome: R N 1 50 1 = 1 ( 1 R ) = 1 ( 1 0, 9) = 1 0,804 = 0,196 N K 1 50 1 14
Al fine di rispondere al punto e) dell esercizio efornire una previsione dell importo speso da un individuo di 38 anni i cui componenti del nucleo familiare (compreso il soggetto intervistato) sono 5 si procede come segue: * ( ) ( ) Y = 46,15 + 1,85 38 14,506 5 = 4,945 Sulla base del modello stimato, l importo che spenderebbe un individuo con le caratteristiche suddette sarebbe pari a 4,945 Euro. 15
LETTURA DELLA TAVOLA della distribuzione T DI STUDENT Gradi di libertà Area della coda destra della distribuzione t di Student 0.5 0.1 0.05 0.05 0.01 0.005 Il valore richiesto dall esercizio si ottiene come segue: α=0.05 α/=0.05 n=50, p= gdl= (n-k-1)=(50--1)=47.0117 16