Regressione multipla



Documenti analoghi
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Funzioni di regressione non lineari

Regressione Lineare Semplice e Correlazione

Esercitazioni di statistica

Regressione & Correlazione

ANALISI MULTIVARIATA

lezione 4 AA Paolo Brunori

Econometria. lezione 13. validità interna ed esterna. Econometria. lezione 13. AA Paolo Brunori

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

STATISTICA. Esercitazione 5

Il test (o i test) del Chi-quadrato ( 2 )

Modellare le vendite di Lowe's

Capitolo 12 La regressione lineare semplice

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Psicometria con Laboratorio di SPSS 2

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

I RADICALI QUADRATICI

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Regressione lineare - ripasso

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Tecniche statistiche di analisi del cambiamento

Analisi della regressione multipla

STIMA DELLA VARIANZA CAMPIONARIA

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

4 0 = 4 2 = 4 4 = 4 6 = 0.

Capitolo 11 Test chi-quadro

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello

Analisi di Regressione Multipla

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value

Esercitazione del

Metodi statistici per le ricerche di mercato

STATISTICA CORSO BASE. Prova scritta del Tempo: 2 ore Cognome e Nome:... Matricola:...

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

Matematica Lezione 22

Esercitazione 1. 6 Marzo 2019

Minimi quadrati vincolati e test F

Le equazioni e i sistemi di primo grado

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

Modelli di regressione dinamica

Disequazioni - ulteriori esercizi proposti 1

STATISTICA MULTIVARIATA SSD MAT/06

Esercitazioni di statistica

Esame di Statistica del 7 luglio 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

04 - Numeri Complessi

Corso in Statistica Medica

Esercizi di Matematica Classe IV A TGC Assegnati per Lunedì 5 Marzo (In preparazione alla verica di saldo debito)

STATISTICA CORSO BASE. Prova scritta del Tempo: 2 ore Cognome e Nome:... Matricola:...

Statistica 1 A.A. 2015/2016

Esercizio 2: voto e ore dedicate allo studio

Esercitazioni di Statistica

Correlazione e regressione

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

Esame di Statistica del 1 settembre 2004 (Corso di Laurea in Biotecnologie, Università degli Studi di Padova). Cognome Nome Matricola

Parametri statistici

Il metodo delle proporzioni crescenti

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Correlazione. Daniela Valenti, Treccani Scuola 1

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Test delle Ipotesi Parte I

Correlazione tra due variabili

βˆ (pendenza della retta) =

Esercitazioni di Statistica Dott.ssa Cristina Mollica

Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

Multicollinearità. Strumenti quantitativi per la gestione

Statistica Applicata all edilizia: il modello di regressione

LEZIONE N. 11 ( a cura di MADDALENA BEI)

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 2

Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi Esercitazione

Facoltà di Psicologia Università di Padova Anno Accademico Corso di Psicometria - Modulo B

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

Cognome e nome Tempo disponibile: 60 minuti

La regressione lineare semplice

Metodi Matematici e Informatici per la biologia. Esercizi

Le equazioni di I grado

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Argomenti della lezione:

Metodi statistici per la ricerca sociale Capitolo 12. Confronto fra gruppi: L analisi della varianza. Esercitazione

Il confronto tra due campioni

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione

Risoluzione di problemi ingegneristici con Excel

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Metodologie Quantitative

Tempo disponibile: 60 minuti

Esercitazione 9 del corso di Statistica (parte seconda)

ECONOMETRIA: Laboratorio I

Il metodo della regressione

Statistica. Alfonso Iodice D Enza

STATISTICA CORSO BASE. Prova scritta del Tempo: 2 ore Cognome e Nome:... Matricola:...

Ulteriori applicazioni del test del Chi-quadrato (χ 2 )

Biostatistica Laurea Magistrale in Biologia Risultati dell esame del 16 Giugno 2016

Corso di Laurea in Economia Aziendale. Docente: Marta Nai Ruscone. Statistica. a.a. 2015/2016

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Transcript:

Regressione multipla La regressione multipla è l'ovvia generalizzazione della regressione semplice, quando abbiamo più di una variabile esplicativa. Il modello è del tipo y i = β 0 + β x i +... + β p x pi + ε i Gli assunti che abbiamo precedentemente discusso per la regressione semplice sono richiesti anche qui; infatti, la regressione semplice può essere vista come un caso particolare della regressione multipla, quando p = (come sarà chiaro da alcune formule che vedremo in seguito). Gli strumenti per vericare gli assunti rimangono ancora dello stesso tipo: graci dei residui rispetto ai valori interpolati, normal-plot dei residui, graco di serie storiche, diagnostiche varie (residui standardizzati, punti leva, distanze di Cook,...). In aggiunta a tutto ciò può essere molto utile eettuare un graco dei residui rispetto a ciascuna singola variabile esplicativa (anche in questo caso ciò che conferma il modello è l'assenza di ogni tipo di struttura nei dati). Ci sono alcune cose diverse nella regressione multipla rispetto alla semplice: Verica d'ipotesi Ci sono due tipi di verica d'ipotesi di interesse immediato. Un test di signicatività complessiva della regressione: H 0 : β = β =... = β p = 0 H : qualche β j 0, j =,..., p Il test più comune per ipotesi di questo tipo è un test F: F = Media dei quadrati della regressione Media dei quadrati dei residui = (Somma dei quadrati della regressione)/p (Somma dei quadrati dei residui)/(n p ). Che si distribuisce sotto l'ipotesi nulla come una F di Snedecor con p e p n gradi di libertà.. Un test sulla signicatività di ciascun singolo coeciente: H 0 : β j = 0 j =,..., p H : β j 0, che può essere vericato usanto il test t: t = ˆβ j s.e.( ˆβ j ), che si distribuisce sotto H 0 come una t di Student con n p gradi di libertà. Naturalmente, nell'ipotesi nulla si possono specicare altri valori di β j (diciamo β 0 j ), nel qual caso la statistica test diviene t = ˆβ j β 0 j s.e.( ˆβ j ).

Proporzione di variabilità spiegata dalla regressione Come per la regressione semplice, R stima la proporzione di varianza della variabile risposta spiegata dalla regressione, ed è uguale a R = Invece l'r aggiustato è un po' diverso somma dei quadrati dei residui Somma dei quadrati totale (corretti) R a = R p n p ( R ) Stima di σ Come per la regressione semplice la varianza degli errori σ è stimata usando la media dei quadrati dei residui. La dierenza è che ora i gradi di libertà per la somma dei quadrati dei residui sono n p (invece che n ) così la media dei quadrati dei residui ha la forma ˆσ = n i= (y i ŷ i ). n p Interpretazione dei coecienti di regressione Dobbiamo essere molto chiari sull'interpretazione dei coecienti della regressione multipla. Come al solito il termine ˆβ 0 è una stima del valore atteso della variabile risposta quando le variabili esplicative assumono valore zero (solo che ora ci sono diverse variabili esplicative). ˆβj, j =,..., p rappresentano le stime delle variazioni attese di y associate ad una variazione unitaria della singola x j mantenendo ssato tutto il resto del modello ssato. Si consideri il seguente esempio. Abbiamo un campione di neo-laureati e abbiamo a disposizione il loro voto di Laurea, il voto di Maturità e la media dei voti degli esami del primo anno. Costruiamo un modello per prevedere il voto di Laurea in funzione degli altri due indicatori Voto di Laurea = 6 +.8 Media I Anno 0.08 Voto Maturità. Da tale risultato si sarebbe tentati di dire (e molti dicono!) che il voto di Maturità ha il segno sbagliato perchè dice che alti voti di maturità sono associati con bassi voti di Laurea. Questo è assolutamente sbagliato! Quello che dice è che voti di maturità alti sono associati a bassi voti di laurea tenendo sso il voto medio degli esami del primo anno. Chiaramente voto di Maturità e media dei voti degli esami del primo anno sono correlati positivamente tra loro, quindi l'aumento di un voto nel risultato della Maturità tenendo sso il voto degli esami del primo anno potrebbe anche non accadere mai! I coecienti di una regressione multipla non devono venire interpretati marginalmente! Se si è realmente interessati nella relazione tra voto di Laurea e voto di Maturità da solo, bisognerebbe eettuare una regressione semplice tra voto di Laurea e solo il voto di Maturità. Si può vedere cosa succede con un po' di semplici calcoli algebrici. Si consideri il modello di regressione con due variabili esplicative y i = β 0 + β x i + β x i + ε i

Le stime ai minimi quadrati risolvono le equazioni (X T X)β = X T y In questo caso queste equazioni sono: ( ) ( ) nβ 0 + xi β + xi β = y i ( ) ( ) ( ) xi β 0 + x i β + xi x i β = x i y i ( ) ( ) ( ) xi β 0 + xi x i β + x i β = x i y i È evidente che il calcolo di ˆβ coinvolge la variabile x ; analogamente il calcolo di ˆβ coinvolge la variabile x. Cioè la forma (e il segno) dei coecienti di regressione dipendono dalla presenza o assenza di qualsiasi altra variabile nel modello. In alcuni casi, questa informazione condizionata è esattamente quello che vogliamo, e i coecienti possono essere interpretati direttamente, ma in altre situazioni il coeciente naturale si riferisce alla relazione marginale, a cui i coecienti di regressione multipla non si riferiscono. Uno dei più utili aspetti della regressione multipla è la sua capacità di rappresentare statisticamente un'azione condizionata che altrimenti sarebbe impossibile descrivere. In situazioni sperimentali, è pratica comune modicare i valori di una condizione sperimentale mantenendo ssati gli altri, in modo da isolare i suoi eetti e poterli stimare, ma un tale approccio non può essere eettuato negli studi osservazionali. La regressione multipla fornisce una versione statistica di questo approccio. Questo è infatti il ragionamento che sottende l'uso di variabili di controllo nella regressione multipla variabili, cioè che non sono necessariamente di interesse diretto, ma variabili con cui il ricercatore vuole correggere le analisi. Multicollinearità Un tema legato è la multicollinearità. Quando le variabili esplicative (x) sono altamente correlate tra loro, i coecienti di regressione risultano spesso instabili e le statistiche t per le variabili risultano errate. Da un punto di vista pratico, ciò può portare due problemi:. Se un valore di una delle variabili esplicative viene modicato anche solo di poco, i coecienti di regressione stimati possono cambiare di molto.. Può succedere che il test F per la verica di ipotesi complessiva sul modello risulti signicativo, anche se ciascuno dei test t per i singoli parametri risulti invece non signicativo. Un'altra indicazione di questo problema è che il p-value per il test F risulta considerevolmente più piccolo di tutti i p-value per i test t relativi ai singoli coecienti. La multicollinearità invece non causa alcun problema alle misure di adattamento come l'r, visto che l'aggiunta di variabili inutili al modello non può ridurre l'r (può al massimo lasciarlo circa uguale). Un altro problema causato dalla multicollinearità si incontra quando si cerca di usare la regressione a ni previsivi. In generale, modelli semplici tendono a prevedere meglio di modelli più complicati, visto che fanno meno assunzioni su come il futuro dovrebbe essere. Cioè se un modello che presenta collinearità viene usato per prevedere il futuro, si assume implicitamente che la relazione tra le variabili esplicative e la relazione tra queste e la risposta, 3

rimane la stessa anche nel futuro. Questo è ovviamente meno verosimile quando le variabili esplicative sono collineari. Come è possibile diagnosticare la collinearità? Possiamo avere qualche suggerimento guardando ancora una volta al modello con due variabili esplicative: Si può mostrare che, in questo caso, e y i = β 0 + β x i + β x i + ε i var( ˆβ [ ] ) = σ x i ( r) var( ˆβ [ ] ) = σ x i ( r) dove r è il coeciente di correlazione tra x e x. Si osservi che quando la collinearità aumenta, (r ±), entrambe le varianze tendono a. Possiamo quanticare questo eetto come segue: r Rapporto di var( ˆβ ) rispetto a r = 0 0.00.00 0.50.33 0.70.96 0.80.78 0.90 5.6 0.95 0.6 0.97 6.9 0.99 50.5 0.995 00.00 0.999 500.00 Questo rapporto descrive quanto la varianza della stima del coeciente cresce al crescere della collinearità osservata rispetto a quando le variabili esplicative sono incorrelate. Uno strumento di diagnostica per la collinearità é il cosiddetto fattore di inazione della varianza (VIF - variance ination factor) per ciascuna variabile esplicativa, che è denita come VIF j =, Rj dove Rj è l'r della previsione della variabile x j usando le altre variabili esplicative. Il VIF fornisce l'aumento proporzionale nella varianza di ˆβj rispetto a quello che sarebbe stata se le variabili esplicative fossero completamente incorrelate. Se il VIF è grande signica che ci potrebbe essere un problema di collinearità. Ma quale può essere un livello soglia che segnala un problema? Un buon riferimento è ( ) V IF < max 0, Rmodello 4

dove R modello è l'usuale R per il modello di regressione. Tale livello superiore indica che o le variabili esplicative sono maggiormente legate alla variabile risposta che non alle altre esplicative, o che non sono particolarmente legate tra loro. In queste circostanze le stime dei coecienti non saranno particolarmetne instabili, quindi la collinearità non sembra essere un problema. Cosa si può fare per risolvere la multicollinearità? La soluzione più semplice è semplicemente di eliminare ogni variabile collineare; così se, nell'esempio, voto di Maturità e media dei voti del primo anno sono molto correlate, non è necessario mantenerle entrambe nel modello, e se ne può usare solo una. Si osservi che, tuttavia, questo è solo un suggerimento generale, e a volte due (o più) variabili collineari sono necessarie per modellare opportunamente la variabile risposta. Confronti lineari e veriche di ipotesi A volte capita di poter ipotizzare che una versione più semplice del modello completo (un modello ridotto) possa essere adeguata per adattarsi ai dati. Ad esempio, consideriamo il campione di neo-laureati in una disciplina Economica, di cui abbiamo a disposizione il loro voto di Laurea, il voto del primo esame di Matematica e il voto del primo esame di Economia Politica. Il modello di regressione completo sarà [Voto di Laurea] i = β 0 + β [Voto di Matematica] i + β [Voto di Economia] i + ε i Ci potremmo però chiedere se non sia suciente considerare la media dei voti dei due esami per prevedere il voto di Laurea cioè, (Voto di Matematica + Voto di Economia). Questo modello ridotto sarà allora [Voto di Laurea] i = γ 0 + γ ([Voto di Matematica] i + [Voto di Economia] i ) + ε i dove β = β = γ /. Questa condizione di uguaglianza è detta contrasto lineare, perché denisce una condizione lineare sui parametri del modello di regressione (che coinvolgono, cioè, solo addizioni, sottrazioni e moltiplicazioni). Possiamo ora formulare la nostra domanda sul considerare semplicemente la media dei voti dei due esami anziché i singoli voti, come una verica di ipotesi su questo contrasto lineare. Come sempre, l'ipotesi nulla consiste in ciò in cui crediamo a meno di venire convinti del contrario; in questo caso, consiste nel modello più semplice (ridotto) che la media del Voto di Matematica e del Voto di Economia sia adeguata, infatti questo modello considera una sola variabile esplicativa anzichè due. L'ipotesi alternativa è semplicemente il modello completo (senza vincoli o condizioni su β). Cioè H 0 : β = β H : β β Ipotesi di questo tipo vengono vericate utilizzando un test F parziale. La statistica F prende ora la forma F = ([Somma dei quadrati dei residui] ridotto [Somma dei quadrati dei residui] completo )/d [Somma dei quadrati dei residui] completo /(n p ) dove n è la dimensione del campione, p è il numero di variabili esplicative nel modello completo, e d è la dierenza tra il numero di parametri nel modello completo e il numero di 5

parametri nel modello ridotto. Alcuni pacchetti software (come SAS e Systat) permettono all'analista di specicare un contrasto lineare da vericare contestualmente alla stima del modello, e forniscono la statistica F opportuna automaticamente. Per calcolare tale statistica con altri pacchetti, si devono stimare gli opportuni modelli di regressione separatamente. Nel nostro esempio, un modello di regressione su Voto di Matematica e Voto di Economia ci fornirà la [Somma dei quadrati dei residui] completo ; per ottenere invece la [Somma dei quadrati dei residui] ridotto si costruirà una nuova variabile [Media dei due voti] = (Voto di Matematica+Voto di Economia) e si stimerà un modello di regressione di [Voto di Laurea] sulla [Media dei due voti]. La statistica così ottenuta si distribuisce, se è vera l'ipotesi nulla, come una F di Snedecor con d e n p gradi di libetrà. Così per esempio, per l'esempio dei voti p = e d = 3 =, così la statistica F osservata sarà confrontata con la distribuzione F con e n 3 gradi di libertà. I percentili della distribuzione, o l'area alla destra del valore osservato può essere agevolmente ottenuta da un qualsiasi pacchetto ad esempio R. Una forma alternativa del test F appena descritto può chiarire ciò che realmente stiamo facendo: F = (R completo R ridotto )/d ( Rcompleto )/(n p ). Cioè, se l'r del modello completo non è molto più grande dell'r del modello ridotto, la statistica F è piccola, e non sembra esserci evidenza per riutare l'ipotesi nulla, portandoci quindi ad usare il modello ridotto; se invece la dierenza degli R è grande, riutiamo il modello ridotto in favore del modello completo. Si osservi che la statistica F che abbiamo già incontrato per vericare l'adattamento complessivo di un modello di regressione è un caso particolare di questa costruzione quando il contrasto è β = β =... = β p = 0. Anche le singole statistiche t per vericare la signicatività di ciascuna variabile possono essere viste come casi particolari di questa costruzione quando il contrasto è β j = 0 e ricordando che F j = t j. 6