Multicollinearità. Strumenti quantitativi per la gestione

Multicollinearità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 1/13

Quando non tutto va come dovrebbe Si parla di multi-collinearità (MC) - o collinearità - quando due o più variabili indipendenti sono correlate fra loro (a due a due o a gruppi). I principali problemi causati dalla MC riguardano l interpretazione dei risultati che sono spesso confusi Esempio: una compagnia high-tech vuole misurare l effetto della pubblicità sulle vendite e vuole distinguere tra pubblicità tradizionale (TV e giornali) e pubblicità su internet. I dati a disposizione riguardano le variabili Y : Vendite (in $m) X1: pubblicità TV e giornali (Pubblicità in $m) X2: pubblicità internet (Internet in $m) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 2/13

I dati Vendite Pubblicità Internet 1 5 2.0 1.0 2 7 2.5 2.0 3 7 3.0 2.5 4 5 1.5 1.5 5 9 4.0 3.5 6 11 4.5 4.0 7 12 5.0 5.0 8 13 5.5 6.0 9 15 6.0 6.5 10 17 7.5 8.0 11 18 8.0 8.0 12 19 7.0 7.5 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 3/13

Scatter-plot file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 4/13

Correlazioni Vendite Pubblicità Internet Vendite 1.000 0.983 0.986 Pubblicità 0.983 1.000 0.990 Internet 0.986 0.990 1.000 Ci sono correlazioni elevate non solo tra input e Y (quello che stiamo cercando) ma anche tra X1 e X2 (quello che crea confusione) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 5/13

RLS e RLM RLS Y X1 Estimate Std. Error t value Pr(> t ) (Intercept) 0.8851 0.6958 1.27 0.2321 Pubblicità 2.2545 0.1351 16.69 0.0000 RSE R.squared Adj.R.squared F.statistic p.value 1 0.98 0.97 0.96 278.44 0.00 RLS Y X2 Estimate Std. Error t value Pr(> t ) (Intercept) 2.6245 0.5422 4.84 0.0007 Internet 1.9190 0.1035 18.54 0.0000 RSE R.squared Adj.R.squared F.statistic p.value 1 0.88 0.97 0.97 343.73 0.00 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 6/13

RLM Y + X1 X2 Estimate Std. Error t value Pr(> t ) (Intercept) 1.9921 0.9016 2.21 0.0545 Pubblicità 0.7672 0.8683 0.88 0.3999 Internet 1.2748 0.7367 1.73 0.1176 RSE R.squared Adj.R.squared F.statistic p.value 1 0.89 0.97 0.97 168.48 0.00 Le RLS indicano che i due predittori, presi singolarmente, hanno capacità predittiva per indicato dai t-test e dal test F). Y (come La RLM, in base ai t-test, indica che i due predittori, presi assieme, non sembrano avere capacità predittiva per Y. Il modello nel complesso sembra funzionare, come indicato dal test F. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 7/13

Multicollinearità Si parla di MC quando due o più VI sono correlate tra loro. Se la correlazione tra VI è troppo elevata il metodo dei minimi quadrati incorre in problemi numerici nella determinazione delle soluzioni. Nel caso estremo, se esiste perfetta linearità tra due o più VI, gli OLS non si possono calcolare (in pratica non si può invertire una matrice numerica per la determinazione delle soluzioni) Se le VI sono fortemente correlate tra loro è difficile distinguere il contributo di ciascuna VI su Y. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 8/13

Alti livelli di MC: Inflazionano la varianza delle stime dei coefficienti β (e quindi riducono i valori delle statistiche t che spesso non sono significative) I risultati della regressione risultano fuorvianti e confusi. Nell esempio il problema principale è sull interpretazione: non si distingue l effetto dei due canali pubblicitari Il modello tuttavia funziona il test F è significativo e R 2 a = 0.97 Il modello può essere usato così com è per la previsione file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 9/13

Individuare la MC Sono indicatori di MC: Correlazioni elevate tra coppie di VI (sufficiente ma non necessaria) t-test non significativi (tutti o molti di essi) per i parametri β individuali ma F test per il modello significativo Coefficienti dei parametri stimati di segno opposto a quanto ci si attende Un «Variance Inflation Factor» (VIF) per un parametro β superiore a 10 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 10/13

Variance Inflation Factor Il VIF per la variabile X j è il rapporto tra la varianza di β^j nel del modello completo e la varianza di β^j in un modello di RLS Il valore più piccolo possibile per il VIF è 1, che indica l assenza di MC Di regola un valore del VIF superiore a 10 indica presenza di MC problematica In R i VIF si calcolano con la funzione vif() del pacchetto car: reg3< lm(vendite~pubblicità+internet) library(car) vif(reg3) Pubblicità Internet 49.5409 49.5409 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 11/13

Cosa fare in caso di MC Se la MC è presente ma non eccessiva (no correlazioni elevate, VIF < 10), si può ignorare. Ogni VI fornisce sufficiente informazione per l individuazione del proprio contributo. Se l obbiettivo principale è la previsione (usando le VI a disposizione), si può ignorare la MC senza troppi problemi. Se l obbiettivo principale è l analisi della struttura del fenomeno allora la MC è un problema poiché gli effetti misurati possono essere fuorvianti. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 12/13

Alcune soluzioni per la MC Si raccolgano più dati se possibile; i problemi numerici diminuiscono in presenza di n elevato. Si elimini una o più delle variabili correlate dal modello finale. Una procedura di screening come la regressione Stepwise (lezioni successive) può aiutare. Usare altre tecniche di regressione, ad esempio Ridge-regression (lezioni successive) Se si decide di mantenere tutte le variabili prestare attenzione all interpretazione del modello. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 13/13