Statistica economica

Documenti analoghi
Analisi della varianza

Capitolo 11 Test chi-quadro

LEZIONE N. 11 ( a cura di MADDALENA BEI)

Tema d esame del 15/02/12

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

Teorema del limite centrale TCL

a) Usando i seguenti livelli di significatività, procedere alla verifica di ipotesi, usando come ipotesi alternativa un'ipotesi unidirezionale:

Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

Esercitazioni di statistica

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo

Il test (o i test) del Chi-quadrato ( 2 )

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Lezione 4 a - Misure di dispersione o di variabilità

ˆp(1 ˆp) n 1 +n 2 totale di successi considerando i due gruppi come fossero uno solo e si costruisce z come segue ˆp 1 ˆp 2. n 1

Capitolo 6. La distribuzione normale

Disequazioni - ulteriori esercizi proposti 1

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

Esercitazioni di statistica

Econometria. lezione 13. validità interna ed esterna. Econometria. lezione 13. AA Paolo Brunori

ANALISI MULTIVARIATA

Concetti principale della lezione precedente

Incertezza di Misura: Concetti di Base

1 L estrazione di radice

1. riconoscere la risolubilità di equazioni e disequazioni in casi particolari

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

ANOVA: ANALISI DELLA VARIANZA Prof. Antonio Lanzotti

FACOLTA DI SCIENZE STATISTICHE Corso di laurea in Statistica, Imprese e Mercati Statistica economica (Prof. Filippucci) Prova del 19/12/07

Statistica Inferenziale

EQUAZIONI E PROBLEMI: GUIDA D'USO

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI

I procedimenti pluriparametrici di stima

STATISTICA: esercizi svolti sulla MEDIA ARITMETICA

Gli effetti di Basilea II: risultati della simulazione su un campione di imprese

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

pluriparametrici di stima

a.a Esercitazioni di Statistica Medica e Biometria Corsi di Laurea triennali Ostetricia / Infermieristica Pediatrica I anno

REDDITO POVERTA DISUGUAGLIANZA IL CASO ITALIANO

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

TEOREMA DEL RESTO E REGOLA DI RUFFINI

Distribuzioni di probabilità

Metodi statistici per le ricerche di mercato

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 15: Metodi non parametrici

Il confronto fra medie

Metodologie informatiche per la chimica

BILANCIO DEI VINCOLI ED ANALISI CINEMATICA

SCADENZA FASE VALORE ECONOMICO DATA. Scadenza 0 Avviamento Progetto ,00 02/12/2013. Scadenza 1 I SAL ,00 28/02/2014

CORSO ZERO DI MATEMATICA

La regressione lineare multipla

Equazioni, funzioni e algoritmi: il metodo delle secanti

STATISTICHE DESCRITTIVE Parte II

Graficazione qualitativa del luogo delle radici

04 - Numeri Complessi

Figura 2. Box-plot categorizzato dei tempi di attesa complessivi (in secondi) per i diversi valori della variabile intervento

Risoluzione di problemi ingegneristici con Excel

Il modello spazio temporale per la previsione dell'erosione nel breve termine. Note Metodologiche

Istituzioni di Statistica 1 Esercizi su strumenti grafici e funzione di frequenza relativa cumulata

GRAFICI DI PROBABILITÀ Prof. Antonio Lanzotti

Esercitazioni di Statistica

determinare le coordinate di P ricordando la relazione che permette di calcolare le coordinate del punto medio di un segmento si

ESERCIZI SVOLTI SUL CALCOLO INTEGRALE

CAMPIONAMENTO - ALCUNI TERMINI CHIAVE

Le frazioni algebriche

Il contributo degli studenti fuori sede all'economia provinciale Enrico Zaninotto

Esame di Statistica A-Di Prof. M. Romanazzi

Esercizi sulle Disequazioni

Fiscal News La circolare di aggiornamento professionale

Generazione di Numeri Casuali- Parte 2

Domande Frequenti Verifiche Comunicazione delle emissioni 2009

FluNews Rapporto Epidemiologico Settimanale

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

Il metodo delle proporzioni crescenti

Distribuzioni campionarie. Antonello Maruotti

Esercizi sui sistemi di equazioni lineari.

Guida alla compilazione del questionario on-line

QUESTIONARIO PER LO STUDIO DELLA PERCEZIONE DEL CENSIMENTO DELLA POPOLAZIONE

Definizione: Dato un sottoinsieme non vuoti di. Si chiama funzione identica o identità di in sé la funzione tale che.

Campionamento La statistica media campionaria e la sua distribuzione

REGIONE CALABRIA REPUBBLICA ITALIANA FINCALABRA S.P.A. REGIONE CALABRIA DIPARTIMENTO 6 SVILUPPO ECONOMICO, LAVORO, FORMAZIONE E POLITICHE SOCIALI

Variabili aleatorie Parte I

Calcolo di una Regressione lineare semplice con Excel

Centro Diurno Disabili Rugiada del Comune di Calolziocorte

Le coniche: circonferenza, parabola, ellisse e iperbole.

Distribuzioni di Probabilità

CONFRONTI MULTIPLI TEST HSD DI TUKEY

ESERCIZIO 1. Confrontare, analiticamente e graficamente, la forma e la variabilità delle due distribuzioni. Commentare i risultati ottenuti.

Esecuzione Pap test/hpv nella ASL 8 di Cagliari

Semiprimi e fattorizzazione col modulo

Povertà ed esclusione sociale: il quadro pugliese ed il contesto nazionale

Costi fissi, costi variabili, punto di pareggio e diagramma di redditività

STATISTICA DESCRITTIVA. Elementi di statistica medica GLI INDICI INDICI DI DISPERSIONE STATISTICA DESCRITTIVA

STUDIO DI SETTORE VG46U

ALLEGATO 4 LIVELLI DI SERVIZIO E PENALI PER LA CONDUZIONE DELLA RETE DISTRIBUTIVA FISICA

Esercizio. Sia a R non nullo e siano m, n numeri interi non nulli con m n. Allora a m /a n è uguale a. [1] 1/a n m [2] 1/a m n [3] 1/a n m [4] a n m

26.03-ITA. Il metodo Victaulic per tubazioni per accomodare gli sfalsamenti

20/04/2015. Retrospettivi Caso-controllo. Prospettici Per Coorte

STUDI DI SETTORE : GLI ASPETTI DA TENERE IN CONSIDERAZIONE

Bilancio 2011: adempimenti e principali novità

Transcript:

Statistica economica a.a. 013/14 Dr. Luca Secondi 10.a. Output tipico di un modello di regressione lineare multipla 1

Le analisi basate sul modello di regressione prevedono la stima dei coefficienti associati alle variabili esplicative introdotte nella relazione funzionale specificata, al fine di quantificare l influenza (e la connessa significatività) di ciascun predittore. Partendo dalla disponibilità di un data set - in cui si hanno a disposizione un insieme di variabili si procederà, nell esempio che segue, avendo ottenuto le stime dei parametri di un modello di regressione lineare multipla alla verifica statistica delle stime dei coefficienti e di verifica statistica del modello

ESERCIZIO La società che gestisce gli spettacoli teatrali del Teatro XY intende avviare una campagna promozionale per incentivare i cittadini a partecipare alle rappresentazioni teatrali, anche attraverso inviti personalizzati e/o opportunità per ottenere riduzioni sul biglietto di ingresso. Al fine di comprendere quali siano le variabili che incidono significativamente sulla spesa per fini culturali (ed in particolare per il teatro) viene estratto un campione casuale semplicedi50individui(dietàpariosuperiorea6)residentinella provincia in cui il teatro ha sede, ai quali si richiedono le seguenti informazioni: Importo speso per spettacoli teatrali nell anno 010; Età(in anni compiuti); Numero di componenti in famiglia; 3

Esempio Porzione del data set a disposizione A partire da tali variabili è stato inizialmente specificato un modello di regressione lineare multipla in cui: Variabile dipendente: importo speso (in Euro) per il teatro nell anno 010 Variabili indipendenti (variabili esplicative): numero di componenti della famiglia [Ncomp] età (in anni compiuti) [Eta] 4

L output di riepilogo della stima del modello di regressione, ottenuto avvalendosi della funzionalità«analisi Dati» di Excel, è di seguito riportato: OUTPUT RIEPILOGO Statistica della regressione R multiplo 0,478 R al quadrato 0,9 R al quadrato corretto 0,196 Errore standard 65,990 Osservazioni 50 ANALISI VARIANZA Gdl SQ MQ F Significatività F Regressione 5450,350 1760,175 6,97 0,00 Residuo 47 857867,070 185,491 Totale 49 111387,4 Coefficienti Errore standard Stat t Valore di significatività Inferiore 95% Superiore 95% Intercetta 46,15 19,941,313 0,0 6,799 85,45 Età 1,85 0,86 6,380 0,000 1,61,389 Ncomp -14,506 3,978-3,646 0,000 -,35-6,661 5

Si richiede di: a) Scrivere l equazione di regressione stimata; b) Quali coefficienti possono essere ritenuti statisticamente significativi (α=0,05)? c) Valutare la significatività complessiva dei coefficienti (α=0,05) d) Valutare mediante un indice opportuno la bontà di adattamento del modello stimato e) Fornire una previsione dell importo speso da un individuo di 38 anni i cui componenti del nucleo familiare (compreso il soggetto intervistato) sono 5; a) Scrivere l equazione di regressione stimata; Sulla base dei coefficienti stimati ed indicando con X 1 la variabile «Età» e con X la variabile «Ncomp», l equazione di regressione stimata si può scrivere come: * Y = 46,15 + 1,85 X 14,506X 1 6

Verifica statistica delle stime dei coefficienti Test di significatività L ipotesi nulla più frequentemente sottoposta a verifica è quella in cui si suppone che il valore vero del parametro sia pari a zero, che corrisponde ad affermare che la variabile esplicativa X j non ha nessuna influenza sulla variabile risposta. Si tratta di un test bilaterale in cui l ipotesi alternativa prevede la diversità da zero dello specifico coefficiente b j Per la verifica della significatività di ogni singolo coefficiente stimato b j, la statistica test introdotta è costituita dal rapporto tra la stima ed il suo errore standard, es(b j ): t bj = es( b ) Sotto l ipotesi nulla, la statistica test segue una distribuzione t di Student con n-p-1 gradi di libertà. La statistica test calcolata,t, andrà quindi confrontata con la statistica test teorica (tabulata) t α, ( n k 1 che ) rappresenta il percentile (1-α/) della distribuzione t di Student con n-k-1 gradi di libertà, dove n rappresenta il numero di osservazioni, k il numero di variabili esplicative (non considerando l intercetta), ed α il livello di significatività fissato. Il valore della «t tabulata» viene ricavato dalle tavole della distribuzione t di Student a disposizione. La verifica della validità della seguente disuguaglianza conduce a trarre conclusioni sulla significatività di ogni coefficiente stimato: SI si respinge H 0 :β j =0 Il coefficiente stimato è statisticamente significativo (per α fissato a priori) bj > t si accetta H α, ( n k 1 es( b ) ) 0 :β j =0 j NO j Il coefficiente stimato NON è statisticamente significativo (al livello α fissato a priori) 7

Verifica statistica delle stime dei coefficienti Test di significatività Con riferimento al modello di regressione in esame la verifica della significatività dei coefficienti avviene come segue: Coefficienti Errore standard Stat t Intercetta 46,15 19,941,313 Età 1,85 0,86 6,380 Ncomp -14,506 3,978-3,646 Ipotizzando, come richiesto nel punto b dell esercizio, di voler valutare la significatività dei coefficienti ad un livello α=0.05, tutti i coefficienti stimati sono statisticamente significativi. Nel dettaglio si illustra il procedimento di ragionamento da seguire, con riferimento al coefficiente stimato relativo alla variabile età. In base a quanto specificato nella slide precedente, la verifica della significatività statistica di un coefficiente di regressione stimato parte dalla determinazione della statistica test. In questo caso, avendo a disposizione l output di Excel, la statistica t (Stat t) risulta già calcolata ed è pari a 6,380. Tale valore si ottiene agevolmente come segue: bj 1,85 t = = = 6,380 es( b ) 0,86 Occorre ricavare dalle tavole della distribuzione t di Student il valore della«t tabulata», considerando α=0.05, n=50(dimensione del campione) e k= (numero di variabili indipendenti, esclusa l intercetta). Così facendo la«t tabulata» da considerare avrà 47 gradi di libertà(ovvero pari a n-k- 1): COME LEGGERE LA TAVOLA T DI STUDENT tα t ; ( 1) 0,05;47 =,0117 (vai alla slide 16) n k Il confronto tra la t calcolata e la t tabulata porta al verificarsi della validità della disuguaglianza: j t calcolata > t tabulata, giacché 6,380>,0117 Quindi il valore osservato della t cade nella regione di rifiuto del test di ipotesi e si rifiuta H 0 concludendo che il parametro stimato è statisticamente significativo(α=0,05). 8

Verifica statistica delle stime dei coefficienti Test di significatività Coefficienti Errore standard Stat t Valore di significatività Intercetta 46,15 19,941,313 0,0 Età 1,85 0,86 6,380 0,000 Ncomp -14,506 3,978-3,646 0,000 Un ulteriore modo per evidenziare il risultato del test è quello di riportare il p-value (valore di significatività) dato dalla probabilità di osservare il valore della statistica test uguale o più estremo del valore ottenuto mediante i dati campionari sotto ipotesi nulla. Con riferimento al p-value, il parametro stimato è considerato significativo (cioè si rifiuta l ipotesi H 0 che il valore del parametro sia pari zero, nel caso del test di significatività) quando il corrispondente p-value è inferiore ad un livello di significatività α adeguato (assegnato) al problema. Ad esempio se α è pari a 0,05, il parametro stimato si riterrà significativamente diverso da zero se il p-value osservato è inferiore a 0,05. Nel caso dell esercizio che si sta svolgendo (per rispondere quindi al punto b) e considerando α=0,05 tutti i parametri (età, ncomp e intercetta) possono essere ritenuti statisticamente significativi. Con l uso del p-value si giunge in maniera più immediata alla conclusione di un test di ipotesi, essendo anche più consapevoli del grado di evidenza ottenuto per il rifiuto dell ipotesi nulla 9

Inferenza sui parametri considerati congiuntamente 1/4 Sulla base della scomposizione della devianza, già analizzata per il modello di regressione lineare semplice, si può compilare un particolare quadro sintetico, noto come tavola dell analisi della varianza (ANOVA ANalysis Of VAriance) Essa risulta particolarmente utile nelle procedure inferenziali per la significatività del modello considerato nel suo complesso 10

Inferenza sui parametri considerati congiuntamente /4 La statistica F della tavola ANOVA può essere impiegata per effettuare un test di significatività per l intero modello sottoponendo a verifica l ipotesi che i parametri del modello(eccetto l intercetta) siano congiuntamente uguali a zero: H 0 : β 1 =β = =β k =0 H 1 : almenounβ j 0 Ipotesi nulla nessuna delle variabili esplicative ha un effetto significativo su Y Ipotesi alternativa almeno una delle variabili esplicative influisce su Y Tale sistema di ipotesi fa riferimento ad un confronto tra il modello nel suo complesso e un modello con la sola intercetta, dove quindi le variabili esplicative non apporterebbero nessuna informazione aggiuntiva 11

Inferenza sui parametri considerati congiuntamente 3/4 Si dimostra che sotto H 0 il rapporto delle due quantità ESS e RSS - divise per i rispettivi gradi di libertà - si distribuisce come una variabile F di Fisher con (k) e (n-k-1) gradi di libertà, dove k indica il numero di regressori ed n la numerosità del campione. Per sottoporre a verifica l ipotesi nulla si confronta, ad un determinato livello di significatività α, il valore F assunto dal rapporto con il corrispondente quantile della distribuzione F di Fisher Se tale valore cade sulla coda della distribuzione, come nella seguente espressione F SQR / ( k) = > SQE / ( n k 1) F ( k ) ( n k ) α,, 1 il test è significativo e si respinge l ipotesi nulla. 1

Inferenza sui parametri considerati congiuntamente 4/4 In riferimento all esempio si analizza ora, per rispondere al punto c), l inferenza sui due parametri considerati congiuntamente attraverso l output seguente, fornito dal software Excel: ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 5450,350 1760,175 6,97 0,00 Residuo 47 857867,070 185,491 Totale 49 111387,4 Il risultato del test F produce un valore della statistica F pari a 6,97 al quale corrisponde un p-value (Significatività F) inferiore al livello di significatività α=0.05 specificato: ciò conduce a respingere l ipotesi nulla (parametri tutti pari a zero tranne l intercetta) e concludere che il modello è significativo nel suo complesso ovvero almeno uno dei coefficienti stimati è statisticamente significativo. Alla medesima conclusione circa il test F si può giungere anche attraverso il confronto tra la F calcolata (ricavabile dalla tavola Anova e pari a F=6,97)ela corrispondente F teoricaf α;k;n-k-1 ovveroil (100(1-α)-mo percentile della distribuzionef di Fisher con k e n-k-1 gradi di libertà - ottenibile dalle tavole della distribuzione F di Fisher. Occorrerà quindi trovare sulle tavole il valore critico della F di Fisher avente k= (gradi di libertà del numeratore) e n-k-1=47 (gradi di libertà del denominatore) perα=0,05.dalconfrontofraiduevalorisigiungealrifiutodell ipotesinullah 0. 13

Il coefficiente di determinazione R nella regressione multipla Un difetto dell R già introdotto nel modello di regressione lineare semplice è che all aumentare del numero dei regressori esso non può mai diminuire, anche se le variabili aggiuntive non hanno alcun potere esplicativo. Per risolvere questo problema l approccio più utilizzato è quello di ricorrereall R correttoottenutocome: R 1 N ei ( N K 1) i= 1 n 1 1 1 1 N i= 1 ( R ) = = 1 n k 1 ( yi y) ( N 1) Questa misura di adattamento prevede una penalizzazione per l inclusione di variabili esplicative aggiuntive nel modello e di conseguenza può non aumentare al crescere del numero dei regressori. Così facendo aggiungendo una variabile all insieme dei regressori esso può anche diminuire. Per la risoluzione del punto d) dell esercizio si procede come segue. La valutazione della bontà di adattamento avviene, come già specificato, ricorrendo all indice R corretto, che come si evince dall output di Excel riportato nella slide 6 è pari a 0,196. Ciò sta ad indicare che circa il 0% dellavariabilitàtotaledelfenomenoèspiegatadalmodellodiregressionestimato. IlvalorediR correttosiottieneanaliticamentecomesegue: R 1 1 N ei 857867, 070 ( N K 1) i= 1 (50 1) 185, 491 1 1 1 1 0,804 0,196 N = = = = = 1 1 701, 784 ( y ) 111387, 4 i y ( N 1) (50 1) i= 1 Inalternatival indicer correttopuòessereottenutocome: R N 1 50 1 = 1 ( 1 R ) = 1 ( 1 0, 9) = 1 0,804 = 0,196 N K 1 50 1 14

Al fine di rispondere al punto e) dell esercizio efornire una previsione dell importo speso da un individuo di 38 anni i cui componenti del nucleo familiare (compreso il soggetto intervistato) sono 5 si procede come segue: * ( ) ( ) Y = 46,15 + 1,85 38 14,506 5 = 4,945 Sulla base del modello stimato, l importo che spenderebbe un individuo con le caratteristiche suddette sarebbe pari a 4,945 Euro. 15

LETTURA DELLA TAVOLA della distribuzione T DI STUDENT Gradi di libertà Area della coda destra della distribuzione t di Student 0.5 0.1 0.05 0.05 0.01 0.005 Il valore richiesto dall esercizio si ottiene come segue: α=0.05 α/=0.05 n=50, p= gdl= (n-k-1)=(50--1)=47.0117 16