Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo

Documenti analoghi
s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value

Regressione Lineare Semplice e Correlazione

Capitolo 12 La regressione lineare semplice

Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

STATISTICA A K (60 ore)

lezione 4 AA Paolo Brunori

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.

1. variabili dicotomiche: 2 sole categorie A e B

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

Regressione & Correlazione

Statistica Applicata all edilizia: il modello di regressione

Metodi statistici per le ricerche di mercato

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

STATISTICA. Esercitazione 5

Statistica. Alfonso Iodice D Enza

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Esercizi di statistica

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Correlazione e regressione

La regressione lineare. Rappresentazione analitica delle distribuzioni

Metodi statistici per la ricerca sociale Capitolo 12. Confronto fra gruppi: L analisi della varianza. Esercitazione

Test F per la significatività del modello

Esercitazione del

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

Politecnico di Milano - Scuola di Ingegneria Industriale. II Prova in Itinere di Statistica per Ingegneria Energetica 7 Luglio 2011

Statistica. Alfonso Iodice D Enza

Corso di Laurea: Numero di Matricola: Esame del 31 maggio 2018 Tempo consentito: 120 minuti

Fasi del modello di regressione

Contenuti: Capitolo 14 del libro di testo

Rappresentazioni grafiche di distribuzioni doppie

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Statistica economica

La regressione lineare semplice

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

Correlazione tra due variabili

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Corso in Statistica Medica

COGNOME.NOME...MATR..

Analisi di Regressione Multipla

Esercitazione 5 Sta/s/ca Aziendale

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

STATISTICA. Regressione-2

LM 88 SOCIOLOGIA E RICERCA SOCIALE. Metodi Statistici per la Ricerca Sociale. Regressione lineare e correlazione

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

ESAME. 9 Gennaio 2017 COMPITO B

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Statistica descrittiva: analisi di regressione

STATISTICA MULTIVARIATA SSD MAT/06

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

STATISTICA ESERCITAZIONE 13

ECONOMETRIA: Laboratorio I

Statistica 1 A.A. 2015/2016

ESAME. 9 Gennaio 2017 COMPITO A

Indipendenza, Dipendenza e interdipendenza

REGRESSIONE E CORRELAZIONE

Argomenti della lezione:

Statistica multivariata Donata Rodi 17/10/2016

Tipi di variabili. Indici di tendenza centrale e di dispersione

Verifica delle ipotesi

Dispensa di Statistica

Cognome e nome Tempo disponibile: 75 minuti

Statistica. Alfonso Iodice D Enza

Modelli Statistici per l Economia. Regressione lineare con un singolo regressore (terza parte)

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

STIME STATISTICHE. Consideriamo il caso della misura di una grandezza fisica che sia affetta da errori casuali. p. 2/2

STIMA DELLA PIENA INDICE

Analisi della Regressione Lineare

Minimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi

Giorno n. clienti di attesa

Ulteriori Conoscenze di Informatica e Statistica

Contenuto del capitolo

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

LEZIONE N.8 (a cura di Teresa Fanelli) Questa forma risulta importante nel modello di regressione con più variabili.

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio

Esercitazione III Soluzione

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Il Teorema del limite Centrale (TLC)

ANALISI DELLE SERIE STORICHE

Regressione lineare semplice

Indice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Statistica per le ricerche di mercato. 12. Violazione delle ipotesi nel modello di regressione lineare

Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi

lezione 13 AA Paolo Brunori

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Test delle Ipotesi Parte I

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

Transcript:

Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo 1 Controllo di ipotesi sui parametri In questo contesto risulta necessario avvalersi dell assunzione di normalita formulata sui residui. Da essa discende infatti la normalita distributiva dello stimatore dei minimi quadrati e la distribuzione delle devianze di regressione e di dispersione secondo variabili aleatorie χ 2 con m e n m 1 gradi di liberta rispettivamente. 1. Ipotesi di indipendenza lineare di y dagli m regressori (ipotesi di significatività del modello): H 0 : β 1 = β 2 =... = β m = 0 F = s2 reg DevReg(y)/m s 2 = DevDisp(y)/(n m 1) F m,(n m 1) Fissato un livello di significativita α, se F > F α allora il test è significativo al livello α, e H 0 va rifiutata. Ciò significa che: la variabilità di y spiegata dal modello è significativamente più elevata della variabilità residua; ad almeno uno degli m regressori corrisponde in popolazione un coefficiente di regressione significativamente diverso da 0. Se invece F F α allora il test NON è significativo al livello α, e H 0 non viene rifiutata; in tal caso il modello non è adeguato, tra y e gli m regressori non vi è alcuna relazione di dipendenza lineare. Poiché DevReg(y) = R 2 Dev(y) si ha: DevDisp(y) = (1 R 2 )Dev(y) F = R 2 /m (1 R 2 )/(n m 1) 2. Ipotesi di indipendenza lineare di y da x j (dato l effetto degli altri m 1 regressori) H 0 : β j = 0 Poiché b N MV(β, σ 2 (X X) 1 ) si ha bj N (β j, σ 2 c jj ) dove c jj j-esimo elemento della diagonale principale di (X X) 1 ne segue che: è il z = b j β j N (0, 1) (1) σ2 c jj 1

Supponendo che H 0 sia vera e stimando la varianza incognita con la varianza di dispersione si ha: t = b j β j t s 2 (n m 1) e c jj Fissato un livello di significativita α, se t > +t α/2 oppure t < t α/2 allora il test e significativo al livello α, e H 0 va rifiutata; il contributo di x j nel modello in cui vi sono gli altri regressori e significativo. Come emerge dalla (1) il ricorso alla statistica z o, qualora σ 2 sia stimata con la varianza di dispersione, alla corrispondente statistica t, consente il controllo dell ipotesi nulla piu generale H 0 : β j = k dove k è un valore non necessariamente nullo. Un metodo formalmente diverso, ma del tutto equivalente a quello precedentemente illustrato per il controllo dell ipotesi nulla di indipendenza, si basa sull analisi della varianza. Il test dell ipotesi H 0 : β j = 0 si puo infatti pensare come un confronto fra un modello a m regressori in cui il regressore x j e incluso: I) y = β 0 + β 1 x 1 +... + β j x j +... + β m x m + ε e un modello a m 1 regressori da cui il regressore x j è escluso II) y = β 0 + β 1 x 1 +... + β j 1 x j 1 + β j+1 x j+1 +... + β m x m + ε Per la proprietà di R 2 e quindi delle devianze di regressione DevReg(y) I DevReg(y) II. DevReg(y) I DevReg(y) II misura dunque la riduzione nella devianza di regressione conseguente all esclusione del regressore x j. E dunque ancora una devianza di regressione a cui corrispondono m (m 1) = 1 gradi di liberta. L ipotesi nulla H 0 : β j = 0 può dunque essere controllata ricorrendo alla statistica test F = DevReg(y) I DevReg(y) II DevDisp(y) I /(n m 1) (detta test F parziale) che si distribuisce come una F con 1 e (n m 1) gradi di libertà. (La ragione per cui a denominatore si pone la DevDisp(y) del modello che contiene il maggior numero di regressori saranno chiarite nel seguito). E facile verificare come questa statistica test F non sia altro che il quadrato della statistica test t illustrata in precedenza. Il ricorso al test F parziale consente comunque il controllo di ipotesi di indipendenza più complesse relative non solo ad un coefficiente di regressione ma ad insiemi di coefficienti. 2 Intervallo di confidenza per β j A partire dalla (1) e stimando σ 2 con la varianza di dispersione è possibile costruire un intervallo di confidenza per β j a un livello di confidenza dell 1 α. Gli estremi di tale intervallo sono β j ± t α/2,n m 1 s 2 ec jj 2

3 Diagnostica: analisi dei residui Con il termine diagnostica, nell ambito della regressione, ci si riferisce a un insieme di tecniche volte all individuazione di eventuali problemi rispetto al modello o rispetto ai dati. A questo fine particolare rilievo assumono i residui. L analisi dei residui permette di: stabilire se le ipotesi formulate sul termine d errore del modello di regressione sono valide rispetto al fenomeno analizzato; identificare l eventuale presenza di punti di leverage, osservazioni anomale rispetto alle x outlier, ossia osservazioni anomale rispetto alla variabile dipendente y osservazioni influenti, ossia osservazioni la cui esclusione modifica le stime dei minimi quadrati. 3.1 Punti di leverage Come si è mostrato i residui possono essere espressi come e = (I H)y = My. Poiché i residui sono gli scarti tra i valori osservati e quelli stimati dal modello, costituiscono la base per misurare la variabilità di y non spiegata dal modello di regressione. Inoltre, poichè sono le determinazioni campionarie della componente d errore ε del modello, qualunque allontanamento dalle assunzioni formulate su ε si ripercuote sui valori dei residui. La loro somma (media aritmetica) è nulla (per le proprietà dei minimi quadrati), inoltre V ar(e) = (I H)σ 2 (I H) = (I H)σ 2 cioe i residui stimati hanno varianze diverse e sono tra loro correlati. In particolare la varianza dell i-esimo residuo è V (e i ) = σ 2 (1 h ii ) (2) dove h ii è l i-esimo elemento della diagonale principale della matrice H = X(X X) 1 X ed è chiamato valore di leverage: Nel modello di regressione semplice h ii = x i (X X) 1 x i h ii = 1 n + (x i x) 2 n i=1 (x i x) 2 espressione che mostra come h ii sia una misura della distanza dell ascissa dell unità i-esima dal baricentro della x. Inoltre dalla (2) si deduce che unità con h ii elevato avranno valori piccoli per V (e i ). All avvicinarsi di h ii a 1 la varianza dei residui tenderà a 0. Per tali osservazioni, indipendentemente dal valore che l unità assume rispetto alla y si è certi di avere un residuo nullo. Le osservazioni cui corrisponde un h ii 2(m + 1)/n vengono riconosciuti come punti di leverage. Poiché h ii non coinvolge la y non è detto che una unità a cui corrisponde un valore h ii elevato sia un dato anomalo rispetto al modello di regressione. D altra parte, se l obiettivo è l identificazione di dati anomali, l esame dei soli punti di leverage non è sufficiente. 3

3.2 Outliers Per tenere conto congiuntamente dei residui e della loro variabilità è opportuno riscalare i residui dividendoli per una stima del loro scarto quadratico medio Si ottengono così i residui studentizzati internamente e i r i = i = 1,..., n s e (1 hii ) Gli r i sono detti residui studentizzati internamente perche σ è stimato con s e, ossia la radice della varianza di dispersione calcolata su tutte le unita statistiche. La media aritmetica dei residui studentizzati è nulla e la loro varianza è 1, ma sono ancora moderatamente correlati. Una eventuale osservazione anomala influenzerà inevitabilmente la varianza di dispersione e quindi anche i residui studentizzati internamente. Per ovviare a ciò alcuni autori suggeriscono di stimare la varianza del residuo i-esimo omettendo l i-esima unità statistica dal calcolo della varianza di dispersione. Si ottengono cosi i residui studentizzati esternamente: e i t i = i = 1,..., n s e(i) (1 hii ) dove s e(i) indica che, nel calcolo della varianza di dispersione, l i-esima osservazione è stata esclusa. Le osservazioni per cui ti 2 rappresentano potenziali outlier. 3.3 Osservazioni influenti Se un valore di y i è particolarmente inusuale rispetto a tutti gli altri allora la stima del modello di regressione può essere notevolmente influenzata da tale osservazione. Per valutare la presenza di un valore influente si elimina l osservazione i, si stima nuovamente il modello e si indica con ˆβ i la stima OLS di β ottenuta escludento tale osservazione. Si calcola una misura di distanza ˆβ i e β denominata distanza di Cook. Tale procedimento viene ripetuto per una osservazione alla volta e tutte le volte si stima nuovamente il modello. Quelle osservazioni che producono variazioni rilevanti nella stima dei parametri del modello sono dette influenti. Più in dettaglio la distanza di Cook può essere definita come: r i h ii D i = (m + 1) (1 h ii ) i = 1,..., n D i è quindi composta da una componente che misura l adattamento (in quanto funzione dei residui) e da una componente che misura la distanza delle x dal baricentro (essendo una misura del livello di leverage dell i-esima osservazione). Si distribuisce come una F con m + 1 e n m 1 gradi di libertà. Le unità per cui D i > 1 sono potenziali osservazioni influenti. 4 La multicollinearità Vi è multicollinearità nei dati quando si presentano relazioni lineari tra i regressori. Esempi (m = 2): 1. regressori incorrelati e ortogonali X 1 0 X = X X 1 = 0 1 1 0 0 1 det( X X) = 1 4

2. regressori correlati X X = 1 0.9 0.9 1 X X 1 = 5, 26 4.74 4.74 5.26 det( X X) = 0.19 3. regressori correlati X X = 1 0.99 0.99 1 X X 1 = 50 49.5 49.5 50 det( X X) = 0.02 4.1 Effetti della multicollinearità tra i regressori poichè V (b) = σ 2 (X X) 1 le varianze degli stimatori crescono al crescere della multicollinearita; cala la precisione delle stime puntuali; gli intervalli di confidenza si allargano; crescono le covarianze campionarie tra gli stimatori; i test t tendono a segnalare coefficienti non significativi anche con valori elevati di R 2. Inoltre le stime b sono molto sensibili a variazioni anche molto piccole dei valori osservati di y e/o dei regressori. 4.2 Cause della multicollinearità 1. Errata specificazione del modello 2. Multicollinearità inerenti alla popolazione 3. Multicollinearità inerenti al campione 4.2.1 Diagnosi della multicollinearità Sulla base della correlazione esistente fra i regressori è possibile definire diverse misure di multicollinearità. 1. L indice di determinazione lineare Rk0 2 del modello di regressione in cui x k dipende dagli altri m 1 regressori. Rk0 2 > 0.9 segnalano la presenza di possibili relazioni di multicollinearità. 2. I fattori di incremento della varianza V IF k = 1. 1 Rk0 2 V IF k > 10 segnalano la presenza di possibili relazioni di multicollinearità. 3. Tolleranza T k = 1/V IF k = 1 R 2 k0. La correlazione tuttavia è una condizione sufficiente ma non necessaria alla multicollinearità. 5

5 Esempio Si dispone di un data set relativo ad alcuni indicatori economici delle 103 province italiane (Fonte ISTAT, 1999). Le variabili sono: Valore aggiunto totale (milioni di euro) (y) Saldo della bilancia: esportazioni - importazioni (milioni di euro) (x 1 ) Occupati totali (migliaia di persone) (x 2 ) Persone in cerca di occupazione (migliaia di persone) (x 3 ) Spesa per consumi finali delle famiglie (milioni di euro) (x 4 ) Si vuole valutare l influenza delle variabili x 1, x 2, x 3 e x 4 sul valore aggiunto totale y attraverso un modello di regressione lineare multipla. Nella tabella si riportano la media e la deviazione standard delle variabili in esame: Media Varianza y 9938 13952.20 x 1 121.69 2925.94 x 2 200.9 228.72 x 3 25.91 39.95 x 4 6531.8 8204.63 Le stime dei coefficienti, ottenute con R, del modello di regressione: sono riportate nella tabella di seguito E(y x) = β 0 + β 1 x 1 +... + β m x m Coefficienti: Stime St Error t P value Intercetta 966.61 134.42 7.19 1.29e 10 *** x 1 0.42 0.05 8.33 4.93e 13 *** x 2 38.85 4.053 9.58 9.68e 16 *** x 3 38.68 3.02 12.81 < 2e 16 *** x 4 0.64 0.12 5.23 9.64e 07 *** Adattamento: R 2 = 0.996, R 2 = 0.996, F = 6094, g.d.l = 4, 98, pvalue < 2.2e 16 Per prima cosa si deve valutare la bontà di adattamento del modello ai dati. Si può osservare che sia l R 2 che l R 2 sono molto alti ad indicare che l adattamento del modello ai dati è quasi perfetto o, in altre parole, che le variabili esplicative spiegano quasi tutta la variabilità della variabile dipendente valore aggiunto totale. 6

Normal Q Q Plot residui 3000 2000 1000 0 1000 2000 Residui standardizzati 3000 2000 1000 0 1000 2000 ht 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 valori teorici 2 1 0 1 2 Theoretical Quantiles Figura 1: Grafici dei residui Inoltre, guardando il test F con relativo p-value (valore quasi nullo), si rifiuta l ipotesi di indipendenza lineare, ossia vi è almeno un regressore che incide significativamente sulla variabile dipendente. A questo punto si può analizzare la tabella delle stime dei minimi quadrati dei coefficienti per valutare quali sono le variabili che incidono significativamente sulla variabile dipendente e in che misura esse influenzano la variabile dipendente. Dall esame della statistica test t e dei relativi p-value possiamo affermare che tutti i coefficienti sono significativamente diversi da 0. Si può notare, inoltre, che le variabili saldo della bilancia e persone in cerca di occupazione influenzano negativamente il valore aggiunto mentre gli Occupati totali e la Spesa per consumi finali influenzano positivamente il valore aggiunto. Per quel che riguarda l interpretazione dei coefficienti si può commentare, ad esempio, il legame tra la variabile x 3 e y dicendo che, fermo restando tutti gli altri regressori, all aumentare di un migliaio di persone in cerca di occupazione (quindi aumento della disoccupazione) il valore aggiunto totale del paese diminuisce in media di 38.68 milioni di euro. Per determinare la variabile che ha maggior peso nel modello di regressione possiamo calcolare le stime dei coefficienti standardizzate: Coefficienti: Stime St Error t P value x 1 8.906e 02 1.069e 02 8.332 4.93e 13 x 2 6.368e 01 6.644e 02 9.584 9.68e 16 x 3 1.108e 01 8.647e 03 12.808 < 2e 16 x 4 3.741e 01 7.154e 02 5.229 9.64e 07 La variabile che incide di più è evidentemente il saldo della bilancia commerciale. Si vuole ora effettuare un analisi dei residui del modello stimato. Per prima cosa può essere opportuno fare un grafico a dispersione dei valori previsti vs. i residui e un q-q plot (Figura 1). 7

Entrambi i grafici evidenziano una non normalità dei residui. Infatti il grafico a dispersione evidenzia come i residui non si dispongano come una nube sparsa ma siano tutti piuttosto concentrati nell angolo in alto a sinistra del grafico. Inoltre vi sono alcuni punti lontani dal gruppo. Per quel che riguarda il q-q plot, in entrambe le code c e uno scostamento del valori teorici dalla bisettrice. Questi grafici suggeriscono: i) la possibile presenza di valori anomali il cui effetto deve essere indagato piu in dettaglio; ii) possibili problemi nella specificazione del modello. A tale riguardo può essere opportuno calcolare i punti di leverage e i valori della distanza di Cook. Un osservazione cui corrisponde un valore h ii > 2(m+1)/n = 0.12 e identificata come punto di leverage. Su 103 province vi sono 8 punti di leverage poichè presentano valori di h ii superiori a 0.12. Per quanto riguarda l identificazione di osservazioni influenti si conviene di classificare come influente sui parametri del modello un osservazione per cui risulti D i > 1. Nel nostro esempio vi sono province influenti. Può essere opportuno identificarle ed eliminarle dal data set. Potrebbero aver inficiato, infatti, i risultati dell analisi. Si vuole infine diagnosticare la presenza di multicollinearità nei dati. A tale riguardo è opportuno calcolare il VIF associato a ciascun regressore: Dato che il VIF di x 2 e x 4 risulta elevato, può essere opportuno eliminare dall analisi x 1 x 2 x 3 x 4 VIF 2.80 107.53 1.83 125 uno dei due regressori. 8