Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa molto più semplice utilizzando l algebra delle matrici. Il modello di regressione multipla genera però nuovi problemi: 1 scelta delle variabili, 2 multicollinearità, 3 test multipli.

Specificazione del modello (1) Siano: Y = (Y 1, Y 2,..., Y n ) il vettore delle v.c. dipendenti, le cui realizzazioni campionarie saranno contenute nel vettore y = (y 1, y 2,..., y n ) ; X la matrice di dimensione (n (p + 1)), contenente le osservazioni sulle variabili esplicative (regressori) e secondo la notazione usuale x ij indica il valore assunto dalla variabile X j, con j = 1, 2,..., p, relativamente all i-esima unità statistica, i = 1, 2,..., n; ɛ = (ɛ 1, ɛ 2,..., ɛ n ) il vettore delle v.c. ɛ i le cui realizzazioni (scarti) sono contenute nel vettore e = (e 1, e 2,..., e n ) ; β = (β 0, β 1,..., β p ) il vettore dei (p + 1) parametri da stimare.

Specificazione del modello (2) Pertanto, avendo posto: Y 1 1 x 11... x 1p Y 2 1 x 21... x 2p............... Y = X = Y i 1 x i1... x ip............... Y n 1 x n1 x np β = β 0 β 1... β i... β p ɛ = ɛ 1 ɛ 2... ɛ i... ɛ n utilizzando la notazione matriciale, il modello di regressione multipla è dato da Y = Xβ + ɛ, (1) ed esplicitando tale relazione per le singole unità statistiche equivale a Y i = β 0 + β 1 x i1 + β 2 x i2 +... + β p x ip + ɛ i, i = 1, 2,..., n.

Specificazione del modello (3) Sul campione osservato la relazione (1) diventa y = Xβ + e. e, a livello delle singole unità statistiche, si specifica come segue y i = β 0 + β 1 x i1 + β 2 x i2 +... + β p x ip + e i, i = 1, 2,..., n. Il vettore e contiene le realizzazioni del vettore di v.c. ɛ. Tali realizzazioni sono determinabili se conosciamo i parametri β, perchè: e = y Xβ e, ovviamente, si esplicitano nel modo seguente: e i = y i (β 0 +β 1 x i1 +β 2 x i2 +...+β p x ip ) = y i y i (β), i = 1, 2,..., n.

Le ipotesi classiche Le ipotesi del modello di regressione lineare multipla sono 1 Y = Xβ + ɛ; 2 E(ɛ) = 0; 3 Var(ɛ) = E(ɛɛ ) = σ 2 I n ; 4 X è una matrice (non stocastica) tale che r(x) = p + 1. Dopo aver ottenuto le stime ˆβ j per i parametri β j, il modello diventa y i = ˆβ 0 + ˆβ 1 x i1 + ˆβ 2 x i2 +... + ˆβ p x ip + ê i = ŷ i + ê i. I residui ê i sono dati dalla differenza tra i valori osservati y i e i valori stimati ŷ i calcolati secondo il modello di regressione.

Stima dei parametri Per stimare i parametri del modello di regressione multipla, senza fare ulteriori assunzioni circa la forma distributiva degli errori, si utilizza il metodo dei minimi quadrati (LS). Tale metodo consente di trovare il vettore β che minimizza la somma degli scarti al quadrato, ovvero la funzione G(β) data da Sviluppando si ha che G(β) = e e = (y Xβ) (y Xβ). G(β) = y y + β (X X)β 2β X y ed uguagliando a 0 la derivata prima di G(β) rispetto a β si ottiene 0 = G (β) = 2X y + 2(X X)β = ˆβ = (X X) 1 X y.

L iperpiano di regressione Geometricamente l equazione ŷ i = ˆβ 0 + ˆβ 1 x i1 + ˆβ 2 x i2 +... + ˆβ p x ip, i = 1, 2,..., n, definisce un iperpiano nello spazio a p + 1 dimensioni. Per avere un idea del procedimento di stima dei minimi quadrati, il piano rappresentato in figura è, tra gli infiniti piani, quello che rende minima la somma dei quadrati delle lunghezze dei segmenti congiungenti i punti osservati al piano stesso.

Proprietà degli stimatori LS e ML Teorema di Gauss-Markov Sotto le ipotesi del modello di regressione lineare, gli stimatori LS B per i parametri β, sono lineari, non distorti,ed i più efficienti nella classe degli stimatori lineari e non distorti (BLUE). Per applicare il metodo ML, occorre aggiungere l ipotesi che il vettore ɛ N (0, σ 2 I). Si può dimostrare che gli stimatori ML coincidono con quelli LS prima ricavati, che sono lineari, non distorti, sufficienti ed efficienti nella classe di tutti gli stimatori non distorti.

Stima del parametro σ 2 Consideriamo innanzitutto l identità n (y i ȳ) 2 = i=1 n (y i ŷ i ) 2 + i=1 n (ŷ i ȳ) 2, che rappresenta la scomposizione della devianza totale in devianza residua e devianza spiegata (o della regressione), ovvero i=1 SQT = SQE + SQR. La stima della varianza delle v.c. errori è data da s 2 ê ê n = n p 1 = i=1 (y i ŷ i ) 2. n p 1

Test su un singolo parametro Per ottenere la regione critica di un test o un intervallo di confidenza per i parametri del modello di regressione, è necessario ipotizzare, per n finito, che le v.c. errori siano normali e indipendenti, utilizzando quindi gli stimatori ML. Per verificare H 0 : ˆβ i = 0 contro l alternativa H 1 : ˆβ i 0 basta calcolare il rapporto ˆβ i 0 T = s, j = 0, 1, 2,..., p. vj+1,j+1 Infatti la stima della varianza dello stimatore B j per il parametro β j è data da es 2 (B j ) = s 2 v j+1,j+1 dove v j+1,j+1 è l elemento di posto (j + 1, j + 1) sulla diagonale principale della matrice (X X). Tale rapporto, sotto H 0, si distribuisce come una v.c. t di Student con n p 1 gradi di libertà.

ANOVA per un modello di regressione lineare multipla Consiste in un test globale su tutti i parametri del modello (eccetto β 0 ) e in particolare nel confronto tra la devianza del modello saturo Y = Xβ + ɛ e quella del modello vincolato Y = β 0 1 n + ɛ. Le ipotesi saranno: H 0 : β 1 = β 2 = = βp = 0 vs. H 1 : almeno un β j 0 Se indichiamo con Q 1 la devianza della regressione Q 2 la devianza dei residui siamo interessati a valutare la statistica F = Q 1 /p Q 2 /n p 1 che sotto H 0 ha distribuzione F (p, n p 1).

Confronto tra modelli annidati Per confrontare il modello vincolato (ridotto) con in modello non vincolato (saturo) si utilizza un test di tipo ANOVA, in cui il valore della statistica F = (SQE v SQE nv )/(df v df nv ) SQE nv /(df nv ) F α,dfv df nv,df nv. Sia F 1 il modello minimale con la sola intercetta (p = 1). Sia F p il modello corrente con p parametri e sia F p0 un modello ridotto con 1 < p 0 < p. la perdita di bontà di adattamento del modello F p0 rispetto a F p può essere valutata attraverso la statistica: F = (SQE p 0 SQE p )/(p p 0 ) SQE p0 /(n p 0 ) F p p0,n p

Bontà del modello Ricordando che SQT = SQE + SQR, il modello si adatterà tanto più ai dati quanto più modesta sarà la variabilità dell errore rispetto alla variabilità totale. Si introduce pertanto l indice di determinazione multipla R 2 dato da n R 2 i=1 = (ŷ i ȳ) 2 n n i=1 (y i ȳ) 2 = 1 i=1 (y i ŷ i ) 2 n i=1 (y i ȳ) 2. L indice R 2 varia in [0, 1] e più si avvicina a 1 migliore è l adattamento del modello ai dati. Tuttavia è opportuno sottolineare che il valore R 2 aumenta con l aumentare del numero di regressori, per cui è conveniente considerare la versione corretta dell indice R 2, data da n R 2 i=1 = 1 (y i ŷ i ) 2 /(n p 1) n i=1 (y i ȳ) 2. /(n 1)

Scelta delle variabili esplicative Oltre all indice R 2, vi è l indice proposto da Mallows (1973) C p = (1 R2 p)(n T ) 1 R 2 T [n 2(p + 1)] Quando le variabili esplicative sono molte si ricorre a procedure di tipo stepwise, nelle varianti per inclusione e per eliminazione. In particolare, partendo da un modello parziale si procede per passi e di volta in volta si aggiunge una variabile che contribuisce in maniera significativa al miglioramento del modello o si elimina una variabile il cui coefficiente non significativo. Altro approccio è il best-subset, in cui si valutano tutti i possibili modelli di regressione ricavabili da un certo insieme di variabili esplicative e si individuano i sottinsiemi migliori secondo uno dei criteri sopra riportati (R 2 e C p ).

Multicollinearità Si verifica quando il rango della matrice X non è massimo e si traduce nella presenza di un elevata correlazione tra le variabili esplicative. Le variabili collineari non forniscono informazioni aggiuntive e risulta difficile individuare l effetto che ciascuna di esse ha sulla variabile risposta. Una misura della multicollinearità è data dall indice V IF (Variance Inflationary Factor). In particolare, per la j-esima variabile si ha V IF j = 1 1 Rj 2, dove Rj 2 è il coefficiente di determinazione che caratterizza il modello in cui la variabile dipendente è X j e tutte le altre variabili esplicative sono incluse nel modello.

Regressione quadratica e polinomiale Supponiamo ora che tra Y e X non vi sia una relazione di tipo lineare. Tra le relazioni non lineari più comuni vi è quella quadratica. Il modello di regressione quadratica è simile ad un modello di regressione multipla con due variabili esplicative in cui la seconda variabile esplicativa è il quadrato della prima. In particolare: dove Y i = β 0 + β 1 x i1 + β 2 x 2 i2 + ɛ i, i = 1, 2,..., n. β 0 è l intercetta, β 1 è il coefficiente che esprime l effetto lineare su Y, β 2 è il coefficiente che esprime l effetto quadratico su Y, ɛ i è l errore casuale. Tale modello è generalizzabile ad un modello polinomiale.

Variabili dummy Nel caso di variabili esplicative discrete è opportuno ricorrere ad un modello che includa variabili indicatrici (dummy) per poter valutare l effetto di un fenomeno che presenta modalità qualitative su una risposta. Sia E un evento che si suppone abbia un effetto nel modificare Y i. Sia { 1 se per l unità i-esima E è presente D i = 0 altrimenti la variabile indicatrice (dummy). Se consideriamo il modello Y i = β 0 + β 1 x i1 + β 2 D i + ɛ i, i = 1, 2,..., n si avrà che { β0 + β Y i = 1 x i1 + ɛ i, per le unità dove E è assente (β 0 + β 2 ) + β 1 x i1 + ɛ i, per le unità dove E è presente