Analisi della regressione multipla

Documenti analoghi
Esercizi di statistica

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Test delle Ipotesi Parte I

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

STATISTICA ESERCITAZIONE 13

Confronto tra due popolazioni Lezione 6

Gli errori nella verifica delle ipotesi

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

STATISTICA A K (60 ore)

Corso di Statistica Esercitazione 1.8

Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

Esercitazione 8 maggio 2014

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

Matematica II: Calcolo delle Probabilità e Statistica Matematica

Analisi della varianza: I contrasti e il metodo di Bonferroni

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Dispensa di Statistica

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Elementi di Psicometria con Laboratorio di SPSS 1

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Approssimazione normale alla distribuzione binomiale

Esercitazione 8 del corso di Statistica 2

Contenuti: Capitolo 14 del libro di testo

Caratterizzazione dei consumi energetici (parte 3)

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

Regressione lineare con un solo regressore

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE. a.a.

Regressione Lineare Semplice e Correlazione

Regressione lineare semplice: inferenza

Statistica Applicata all edilizia: il modello di regressione

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Capitolo 9 Verifica di ipotesi: test basati su un campione

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

Test di ipotesi su due campioni

Esercizi riassuntivi di Inferenza

Analisi della varianza

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Esercitazioni di Statistica Matematica A Esercitatori: Dott. Fabio Zucca - Dott. Maurizio U. Dini Lezioni del 7/1/2003 e del 14/1/2003

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson Apogeo

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson. Casa editrice: Pearson

Il Test di Ipotesi Lezione 5

Regressione multipla

Regressione lineare semplice

Esercitazione del

I appello di calcolo delle probabilità e statistica

Cognome e Nome:... Corso di laurea:...

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

Statistica Inferenziale

Politecnico di Milano - Scuola di Ingegneria Industriale. II Prova in Itinere di Statistica per Ingegneria Energetica 25 luglio 2011

Test per una media - varianza nota

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

L indagine campionaria Lezione 3

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

Strumenti informatici Realizzare un test z, un test t e un test F per campioni indipendenti con Excel e SPSS

Statistica. Lezione 8

Prova Scritta di METODI STATISTICI PER L AMMINISTRAZIONE DELLE IMPRESE (Milano, )

Verifica delle ipotesi: Binomiale

Test F per la significatività del modello

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 5

Questo calcolo richiede che si conoscano media e deviazione standard della popolazione.

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

STATISTICA. Esercizi vari

Esercizi di Probabilità e Statistica

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

Test di ipotesi. Test

Corso di Psicometria Progredito

Quanti soggetti devono essere selezionati?

Intervalli di confidenza

Esercitazione 9 del corso di Statistica (parte seconda)

Minimi quadrati vincolati e test F

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

LABORATORIO DI PROBABILITA E STATISTICA

Statistica Inferenziale

UNIVERSITÀ DEGLI STUDI DI PERUGIA

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

SISTEMI LINEARI. x y + 2t = 0 2x + y + z t = 0 x z t = 0 ; S 3 : ; S 5x 2y z = 1 4x 7y = 3

Transcript:

Analisi della regressione multipla y = β 0 + β 1 x 1 + β 2 x 2 +... β k x k + u 2. Inferenza

Assunzione del Modello Classico di Regressione Lineare (CLM) Sappiamo che, date le assunzioni Gauss- Markov, OLS è BLUE, Per effettuare la verifica delle ipotesi secondo l approccio classico, abbiamo bisogno di un altra assuzione (oltre le assunzioni Gauss-Markov) Bisogna assumere che u è indipendente dalle x 1, x 2,, x k e u è distribuita normalmente con media zero e varianza σ 2 : u ~ Normal(0,σ 2 )

Assunzioni CLM (cont) Se sono valide le assunzioni CLM, OLS è non solo BLUE, ma ha anche la minima varianza tra gli stimatori lineari corretti E possibile sintetizzare le assunzioni CLM nel seguente modo y x ~ Normal(β 0 + β 1 x 1 + + β k x k, σ 2 ) Per il momento assumiamo una distribuzione normale, chiaramente non è sempre questo il caso Nei grandi campioni l assunzione di normalità può essere rilassata

Distribuzione normale omoschedastica con una sola Variabile esplicativa f(y x) y.. E(y x) = β 0 + β 1 x Normal distributions x 1 x 2

Distribuzione campionaria normale Date le assunzioni CLM, condizionati ai valori campionari delle variabili indipendenti ( ˆ β ) j β j j ( ˆ β ) j ( ˆ ) ˆ β ~ Normal j β j, Var β j, tale che sd ( ) ~ Normal 0,1 ˆ β è distribuito normalmente poiché è dato da una combinazione lineare degli errori

Il Test t Date le assunzioni CLM ( ˆ β ) j β j se ( ˆ β ) j ~ n k 1 Notare che si tratta di una " t distribution" (vs normal) dato che dobbiamo stimare I gradi di libertà sono: n k 1 t σ attraverso ˆ σ 2 2

Il t Test (cont) Sapendo che la distribuzione campionaria dello stimatori ci consente di effettuare la verifica delle ipotesi Specificare l ipotesi nulla Per esempio, H 0 : β j =0 Se non rifiutiamo l ipotesi nulla, allora non si rifiuta che x j non ha effetti su y, controllando per le altre x

Il t Test (cont) Per calcolare il test dobbiamo determinare "la statistica t" per ˆ β : j t ˆ β j ˆ β ( ˆ β ) j Utilizzeremo la statistica t insieme alla regola di rifiuto per determinare se rifiutare o non rifiutare l'ipotesi nulla, H 0 j se

t Test: Ipotesi Alternativa ad una coda OItre all ipotesi nulla, H 0, dobbiamo specificare un ipotesi alternativa, H 1, e un livello di significatività H 1 può essere ad una coda o a due code H 1 : β j > 0 e H 1 : β j < 0 è ad una coda H 1 : β j 0 è a due code Se vogliamo una probabilità del 5% di rifiutare H 0 quando è vera, diciamo allora che il livello di significatività è pari al 5%

t Test: Ipotesi Alternativa ad una coda (cont.) Dopo aver fissato il livello di significatività, α, valutiamo il percentile (1 α) th nella distribuzione t con n k 1 df (gradi di libertà) e lo definiamo c, valore critico Si rifiuta l ipotesi nulla se la statistica t è maggiore del valore critico Se la statistica t è minore del valore critico non rifiutiamo l ipotesi nulla

t Test: Ipotesi Alternativa ad una coda (cont.) y i = β 0 + β 1 x i1 + + β k x ik + u i H 0 : β j = 0 H 1 : β j > 0 Non si rifiuta (1 - α) Si rifiuta α 0 c

Ipotesi alternativa ad una coda vs due code Dato che la distribuzione t è simmetrica, risulta semplice testare H 1 : β j < 0. Dobbiamo soffermarci sulla parte negativa della distribuzione e guardare il valore critico negativo Si rifiuta l ipotesi nulla se la statistica t < c, e non si può rifiutare l ipotesi nulla se la statistica t > di c Nel caso di ipotesi alternativa a due code, bisogna stabilire il valore critico basato su α/2 e rifiutare H 1 : β j 0 se il valore assoluto della statistica t > c

Ipotesi alternativa a due code y i = β 0 + β 1 X i1 + + β k X ik + u i H 0 : β j = 0 H 1 : β j > 0 Non rifiuto Rifiuto α/2 (1 - α) Rifiuto α/2 -c 0 c

Sintesi H 0 : β j = 0 Se l ipotesi alternativa non è specificata, si assume essere a due code Se rifiutiamo l ipotesi nulla, si conclude che x j è statisticamente significativa al livello del α % Se non possiamo rifiutare l ipotesi nula, concludiamo che x j è statisticamente non significativa al livello di α %

Test per altre Ipotesi Una formulazione più generica della statistica t ci permette di verificare l ipotesi del tipo H 0 : β j = a j In questo caso, la statistica t appropriata è t a = j ( ˆ β ) j a j se ( ˆ β ) j, dove = 0 nel caso del test consueto

Intervalli di Confidenza Un altro modo per utilizzare l inferenza classica consiste nel costruire gli intervalli di confidenza usando gli stessi valori critici utilizzati nel caso del test a due code Un intervallo di confidenza (1 - α) % è definito: ˆ ( ˆ ) α βj ± c se βj, dove c è il 1- percentile 2 nella distribuzione t n k 1

Calcolo del p-value per il test t Un metodo alternativo all approccio classico discusso consiste nel chiedersi, quale è il valore minore del livello di significatività che comporta il rifiuto dell ipotesi nulla? Quindi, bisogna calcolare la statisitca t, e valutare quali percentili sono nella corretta distribuzione t questo rappresenta il p-value p-value rappresenta la probabilità di osservare la statistica t calcolata, nel caso l ipotesi nulla fosse vera

Software econometrici, p-values, t tests, ecc. La maggior parte dei software econometrici calcolano il p-value assumendo un test a due code Se siete interessati ad un ipotesi alternativa ad una coda, bisogna dividere il p-value per 2 Excel calcola la statistica t, p-value, e l intervallo di confidenza di 95% relativo a H 0 : β j = 0, nelle colonne indicate con t, P > t e [95% Conf. Interval]. Gretl calcola la statistica t, p-value.

Test di Combinazioni Lineari Supporre di voler testare non se β 1 è uguale ad una costante, ma se è uguale ad un altro, cioé H 0 : β 1 = β 2 Si usa la stessa procedura per il calcolo della statistica t t = se ˆ β 1 ˆ β 2 ( ˆ ) β ˆ β 1 2

Test di Combinazioni Lineari (Cont.) Dato se ( β ) ( ) 1 β2 = Var β1 β2 ˆ ˆ ˆ ˆ, allora ( ˆ β ) ( ) ( ) ( ) 1 ˆ β2 = ˆ β ˆ ˆ ˆ 1 + β2 2 β1, β2 Var Var Var Cov { } 1 2 2 2 ( β β ) ( β ) ( β ) se ˆ ˆ = se ˆ + se ˆ 2s 1 2 1 2 12 ( ˆ β ˆ β ) dove s è la stima di Cov, 12 1 2

Test di Combinazioni Lineari (Cont.) Per il calcolo della formula specificata, abbiamo bisogno di s 12, che non viene fornito automaticamente dai sofware econometrici (Gretl, Excel) Alcuni software hanno un opzione che permette il calcolo di s 12 In Gretl, Dopo aver effettuato la regressione y x1 x2 xk bisogna scegliere l opzione test e successivamente restrizioni lineari e scrivere b1 - b2 = 0 (dove b1 e b2 sono i coefficienti di x1 e x2) e si ottiene la statistica t e il p-value del test In generale, si può riscrivere il modello econometrico per testare l ipotesi sulle restrizioni lineari

Esempio: Supporre di essere interessati agli effetti della pubblicità elettorale sui risultati delle elezioni Il modello è votea = β 0 + β 1 log(expenda) + β 2 log(expendb) + β 3 prtystra + u H 0 : β 1 = - β 2, o H 0 : θ 1 = β 1 + β 2 = 0 β 1 = θ 1 β 2, con sostituzioni e riarrangiamenti otteniamo votea = β 0 + θ 1 log(expenda) + β 2 log(expendb - expenda) + β 3 prtystra + u

Esempio (cont): Questo rappresenta lo stesso modello di prima con l unica differenza che ora otteniamo dirretamente come output di regressione del software la deviazione standard per β 1 β 2 = θ 1 Ogni combinazione lineare dei parametri può essere testata in maniera simile Altri esempi di una singola combinazione lineare dei parametri: β 1 = 1 + β 2 ; β 1 = 5β 2 ; β 1 = -1/2β 2 ; ecc

Restrizioni Lineari Multiple Al momento ci siamo limitati a verificare una singola restrizione lineare, (per esempio β 1 = 0 o β 1 = β 2 ) Tuttavia, è possibile che siamo interessati a verificare una serie di ipotesi sui parametri Un tipico esempio consiste nel testare le restrizioni di esclusione ovvero vogliamo sapere se un gruppo di parametri congiuntamente sia uguale a zero

Test delle Restrizioni di Esclusione L ipotesi nulla potrebbe essere del tipo H 0 : β k-q+1 = 0,..., β k = 0 L alternativa semplicemente H 1 : H 0 non vera Non possiamo controllare le statistiche t separatamente per ogni parametro, dato che interessa sapere se q parametri congiuntamente sono significativi ad un dato livello di confidenza può capitare che nessuno invece sia statisticamente significativo individualmente

Test delle Restrizioni di Esclusione (cont.) Per effettuare il test è necessario stimare il modello ristretto che non include le x k-q+1,,, x k, e il modello non ristretto che include tutte le x Intuitivamente, Se la variazione in SSR è grande abbastanza da richiedere l inclusione di x k-q+1,,, x k ( ) q ( ), dove SSR F r SSR ur SSR n k 1 ur r indica ristretto e ur indica non ristretto

La statistica F La statistica F è sempre positiva, dato che il valore di SSR dal modello ristretto non può essere inferiore al valore di SSR dal modello non ristretto Essenzialmente la statistica F misura l aumento relativo in SSR quando si passa da un modello non ristretto a un modello ristretto q = numero di restrizioni, o df r df ur n k 1 = df ur

La statistica F (cont.) Per decidere se l aumento di SSR quando si passa al modello ristretto è abbastanza elevato da rifiutare le restrizione, abbiamo bisogno di conoscere la distribuzione campionaria della statistica F Non sorprendentemente questa è pari a, F ~ F q,n-k-1, dove q si riferisce al numero dei gradi di libertà del numeratore e n k 1 al numero dei gradi di libertà del denominatore

La statistica F (cont.) f(f) Non rifiutare Rifiutare H 0 al livello di significatività di α se F > c (1 - α) 0 c α Rifiutare F

La forma R 2 della statistica F Poiché il valore di SSR potrebbe essere molto grande e poco trattabile si utilizza una formula alternativa Utilizzando l uguaglianza di regressione SSR = SST(1 R 2 ), la sostituiamo per SSR u e SSR ur F ( 2 2 R ) ur Rr q ( 1 R ) ( n k 1) 2, dove nuovamente ur r indica ristretto e ur indica non ristretto

Significatività Complessiva Un caso speciale delle restrizioni di esclusioni è rappresentato da H 0 : β 1 = β 2 = = β k = 0 Dato che R 2 di un modello con solo l intercetta sarà pari a zero, la statistica F è semplicemente F = R 2 k ( ) 1 R 2 ( n k 1)

Restrizioni Lineari La formula di base della statistica F è valida per qualsiasi restrizione lineare Prima bisogna stimare il modello non ristretto e poi quello ristretto Calcolare SSR Imporre le restrizioni potrebbe non essere semplice probabilmente sarà necessario riformulare le variabili

Esempio: Utilizzando il modello di voto come prima Il modello è votea = β 0 + β 1 log(expenda) + β 2 log(expendb) + β 3 prtystra + u l ipotesi nulla H 0 : β 1 = 1, β 3 = 0 Sostituendo le restrizioni nel odello: votea = β 0 + log(expenda) + β 2 log(expendb) + u, so Usare votea - log(expenda) = β 0 + β 2 log(expendb) + u come modello ristretto

Statistica F Sintesi Nello stesso modo della statistica t, p-value può essere calcolato attraverso la percentuale nella appropriata distribuzione F Gretl calcola questo valore utilizzando l opzione restrizioni lineari; fprob(q, n k 1, F), dove I valori appropriati delle distribuzioni F, q,e n k 1 sono utilizzati Nel caso si testa solo una restrizione di sclusione, allora F = t 2, e il valore p-value sarà lo stesso della distribuzione t.