Multicollinearità. Strumenti quantitativi per la gestione

Documenti analoghi
Multicollinearità Strumenti quantitativi per la gestione

Modelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione

Modelli con predittori qualitativi e modelli con interazioni

Statistica per le ricerche di mercato. 12. Violazione delle ipotesi nel modello di regressione lineare

Esercizio 1 GRAFICO 1. X e Y sono indipendenti. X e Y non sono correlate. La correlazione tra X e Y è <1. X e Y sono perfettamente correlate

Regressione Semplice. Correlazioni. sconto leverage. sconto Correlazione di Pearson 1,275. Sign. (a due code),141

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Regressione lineare semplice

La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.

Il BOOM degli ascolti dei programmi culinari. ha inciso sulle iscrizioni all istituto alberghiero???

11.2. Introduzione alla statistica 2/ed. Marilyn K. Pelosi, Theresa M. Sandifer, Paola Cerchiello, Paolo Giudici

Una stima aggregata dell effetto Brunetta Risultati molto preliminari

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Regressione lineare multipla Strumenti quantitativi per la gestione

Quiz di verifica Classificazione

βˆ (pendenza della retta) =

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

GRUPPO QUATTRO RUOTE. Alessandro Tondo Laura Lavazza Matteo Scordo Alessandro Giosa Gruppo Quattro Ruote 1

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

Teoria e tecniche dei test LA VALIDITA 10/12/2013. a) SIGNIFICATIVITA TEORICA E OSSERVATIVA DI UN COSTRUTTO. Lezione 6 seconda parte LA VALIDITA

Metodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione

Analisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura

Esercizio 2: voto e ore dedicate allo studio

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

La regressione lineare. Rappresentazione analitica delle distribuzioni

LABORATORIO DI PROBABILITA E STATISTICA

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Associazione tra caratteri quantitativi: gli indici di correlazione

Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo

Regressione Lineare Semplice e Correlazione

Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza

Statistica. Alfonso Iodice D Enza

ANALISI DELLA VARIANZA

Analisi di Regressione Multivariata. β matrice incognita dei coeff. di regressione (regr. lineare in β)

Settimana 3. G. M. Marchetti. Marzo 2017

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE E MULTIPLA* La violazione delle ipotesi. Statistica Economica A.A. 2011/2012. Prof.ssa Tiziana Laureti

Validazione dei modelli Strumenti quantitativi per la gestione

Antonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR

lezione 9 AA Paolo Brunori

Es. la performance all esame in relazione alle ore di studio a casa e alle abilità cognitive

Esempio 1 (Regressione semplice, punti influenti, regressione multipla, multicollinearità)

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

STATISTICA A K (60 ore)

> d = alimentazione == "benz" > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] > sd(percorr.urbana[d]) [1] 2.

Esercitazione 5 Sta/s/ca Aziendale

CAPITOLO 11 ANALISI DI REGRESSIONE

Esercizio 4 (Regressione multipla)

Introduzione alla Regressione Logistica

Soluzioni della prova scritta del 6 Marzo 2013 (a.a. 2012/2013)

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Test F per la significatività del modello

Strumenti di indagine per la valutazione psicologica

LE OPINIONI DEI CONSUMATORI CIRCA LE NUOVE TIPOLOGIE DI ALIMENTAZIONE PER AUTOMOBILI

Esplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

I MODELLI LINEARI GENERALIZZATI GLM

Statistica di base per l analisi socio-economica

Prova scritta di Affidabilità dei sistemi e controllo statistico di qualità

0.1 Percorrenza e Cilindrata

Dall Analisi Fattoriale alla Regressione Lineare

ANALISI MULTIVARIATA

Statistica. Alfonso Iodice D Enza

Giorno n. clienti di attesa

Statistica. Alfonso Iodice D Enza

Statistica multivariata Donata Rodi 08/11/2016

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico )

Descrizione per la costruzione del modello di regressione

La matrice delle correlazioni è la seguente:

Regressione multipla

Regressioni Non Lineari

Modelli che spiegano l attività fotosintetica alla luce di parametri fisiologici della vegetazione. Dr. Alessandro Ferrarini

Fasi del modello di regressione

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo

Statistica Applicata all edilizia: il modello di regressione

CORSO INTEGRATO DI STATISTICA E INFORMATICA MEDICA

Analisi della regressione

lezione 5 AA Paolo Brunori

Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23

LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE

Metodi di regressione multivariata

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Ringraziamenti dell Editore

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

lezione 6 AA Paolo Brunori

Statistica multivariata

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

Statistica descrittiva: misure di associazione

Il modello di regressione

REGRESSIONE E CORRELAZIONE

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Analisi Multivariata dei Dati. Regressione Multipla

Statistica multivariata Donata Rodi 17/10/2016

Indice. Prefazione all edizione italiana, di Piero Veronese » XI. Prefazione

APPROFONDIMENTI. Esportazioni e vendite on-line: un analisi per settore e per impresa. di Alessandra Nurra e Sergio Salamone *

lezione 10 AA Paolo Brunori

LABORATORIO DI PROBABILITA E STATISTICA

Transcript:

Multicollinearità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 1/13

Quando non tutto va come dovrebbe Si parla di multi-collinearità (MC) - o collinearità - quando due o più variabili indipendenti sono correlate fra loro (a due a due o a gruppi). I principali problemi causati dalla MC riguardano l interpretazione dei risultati che sono spesso confusi Esempio: una compagnia high-tech vuole misurare l effetto della pubblicità sulle vendite e vuole distinguere tra pubblicità tradizionale (TV e giornali) e pubblicità su internet. I dati a disposizione riguardano le variabili Y : Vendite (in $m) X1: pubblicità TV e giornali (Pubblicità in $m) X2: pubblicità internet (Internet in $m) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 2/13

I dati Vendite Pubblicità Internet 1 5 2.0 1.0 2 7 2.5 2.0 3 7 3.0 2.5 4 5 1.5 1.5 5 9 4.0 3.5 6 11 4.5 4.0 7 12 5.0 5.0 8 13 5.5 6.0 9 15 6.0 6.5 10 17 7.5 8.0 11 18 8.0 8.0 12 19 7.0 7.5 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 3/13

Scatter-plot file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 4/13

Correlazioni Vendite Pubblicità Internet Vendite 1.000 0.983 0.986 Pubblicità 0.983 1.000 0.990 Internet 0.986 0.990 1.000 Ci sono correlazioni elevate non solo tra input e Y (quello che stiamo cercando) ma anche tra X1 e X2 (quello che crea confusione) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 5/13

RLS e RLM RLS Y X1 Estimate Std. Error t value Pr(> t ) (Intercept) 0.8851 0.6958 1.27 0.2321 Pubblicità 2.2545 0.1351 16.69 0.0000 RSE R.squared Adj.R.squared F.statistic p.value 1 0.98 0.97 0.96 278.44 0.00 RLS Y X2 Estimate Std. Error t value Pr(> t ) (Intercept) 2.6245 0.5422 4.84 0.0007 Internet 1.9190 0.1035 18.54 0.0000 RSE R.squared Adj.R.squared F.statistic p.value 1 0.88 0.97 0.97 343.73 0.00 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 6/13

RLM Y + X1 X2 Estimate Std. Error t value Pr(> t ) (Intercept) 1.9921 0.9016 2.21 0.0545 Pubblicità 0.7672 0.8683 0.88 0.3999 Internet 1.2748 0.7367 1.73 0.1176 RSE R.squared Adj.R.squared F.statistic p.value 1 0.89 0.97 0.97 168.48 0.00 Le RLS indicano che i due predittori, presi singolarmente, hanno capacità predittiva per indicato dai t-test e dal test F). Y (come La RLM, in base ai t-test, indica che i due predittori, presi assieme, non sembrano avere capacità predittiva per Y. Il modello nel complesso sembra funzionare, come indicato dal test F. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 7/13

Multicollinearità Si parla di MC quando due o più VI sono correlate tra loro. Se la correlazione tra VI è troppo elevata il metodo dei minimi quadrati incorre in problemi numerici nella determinazione delle soluzioni. Nel caso estremo, se esiste perfetta linearità tra due o più VI, gli OLS non si possono calcolare (in pratica non si può invertire una matrice numerica per la determinazione delle soluzioni) Se le VI sono fortemente correlate tra loro è difficile distinguere il contributo di ciascuna VI su Y. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 8/13

Alti livelli di MC: Inflazionano la varianza delle stime dei coefficienti β (e quindi riducono i valori delle statistiche t che spesso non sono significative) I risultati della regressione risultano fuorvianti e confusi. Nell esempio il problema principale è sull interpretazione: non si distingue l effetto dei due canali pubblicitari Il modello tuttavia funziona il test F è significativo e R 2 a = 0.97 Il modello può essere usato così com è per la previsione file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 9/13

Individuare la MC Sono indicatori di MC: Correlazioni elevate tra coppie di VI (sufficiente ma non necessaria) t-test non significativi (tutti o molti di essi) per i parametri β individuali ma F test per il modello significativo Coefficienti dei parametri stimati di segno opposto a quanto ci si attende Un «Variance Inflation Factor» (VIF) per un parametro β superiore a 10 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 10/13

Variance Inflation Factor Il VIF per la variabile X j è il rapporto tra la varianza di β^j nel del modello completo e la varianza di β^j in un modello di RLS Il valore più piccolo possibile per il VIF è 1, che indica l assenza di MC Di regola un valore del VIF superiore a 10 indica presenza di MC problematica In R i VIF si calcolano con la funzione vif() del pacchetto car: reg3< lm(vendite~pubblicità+internet) library(car) vif(reg3) Pubblicità Internet 49.5409 49.5409 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 11/13

Cosa fare in caso di MC Se la MC è presente ma non eccessiva (no correlazioni elevate, VIF < 10), si può ignorare. Ogni VI fornisce sufficiente informazione per l individuazione del proprio contributo. Se l obbiettivo principale è la previsione (usando le VI a disposizione), si può ignorare la MC senza troppi problemi. Se l obbiettivo principale è l analisi della struttura del fenomeno allora la MC è un problema poiché gli effetti misurati possono essere fuorvianti. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 12/13

Alcune soluzioni per la MC Si raccolgano più dati se possibile; i problemi numerici diminuiscono in presenza di n elevato. Si elimini una o più delle variabili correlate dal modello finale. Una procedura di screening come la regressione Stepwise (lezioni successive) può aiutare. Usare altre tecniche di regressione, ad esempio Ridge-regression (lezioni successive) Se si decide di mantenere tutte le variabili prestare attenzione all interpretazione del modello. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 13/13