Regressione lineare multipla

Transcript

1 Scopo Vogliamo porre in relazione la variabile risposta, Y con k, k > 1, variabili esplicative (o regressori, o predittori, o covariate): X1, X2..., Xk. Funzione di regressione E(Y X1 = x1, X2 = x2,..., Xk = xk) = = η(x1, x2,..., xk, β) = β0 + β1x1 + β2x2 + + βkxk k = β0 + βjxj j=1 Il modello statistico Yi = β0 + β1xi,1 + β2xi,2 + + βkxi,k + εi, i = 1,..., n k = β0 + βjxi,j + εi j=1 con β = [β0, β1,..., βk] R k+1

2 Stima dei parametri E(εi) = 0 e Var(εi) = σ 2, i = 1,..., n (n rappresenta la dimensione delo campione). Corr(εi, εj) = 0 i j xi,j, i = 1,..., n e j = 1,..., k rappresenta la determinazione della variabile Xj sull unità statistica i-esima. Quantità deterministica e nota senza errori di misurazione. β0 rappresenta il valore atteso di Y quando X1 = X2 = = Xk = 0 βj, j = 1,..., k rappresenta la variazione della media di Y dovuta ad un incremento unitario di Xj a parità di ogni altra condizione, cioè quando il valore delle altre variabili resta immutato Supponiamo di disporre di n osservazioni campionarie: (yi, xi,1,..., xi,j,..., xi,k) i = 1,..., n Otteniamo la stima di β applicando il metodo dei minimi quadrati, cioè minimizzando rispetto a β la funzione 2 n k S(β) = yi β0 βjxi,j i=1 Le stime di βj, j = 0,..., k saranno indicate con bi e la stima di β sarà data da j=1 b = [b0, b1,..., bk] R k+1 La stima della funzione di regressione sull unità statistica i-esima è data da ŷi = η(xi,1,..., xi,k, b) k = b0 + bjxi,j i=1 I residui del modello si indicano con ei = yi ŷi La stima di σ 2 è data da n s 2 i=1 = e2 i n k 1 Il modello in notazione matriciale Premessa Il modello di regressione lineare multipla che abbiamo introdotto in precedenza come k Yi = β0 + βjxi,j + εi, i = 1,..., n j=1 può essere riscritto come segue: con Yi = [1, xi,1,..., xi,k]β + εi, i = 1,..., n = x iβ + εi, i = 1,..., n x i = [1, xi,1,..., xi,k] e β = [β0, β1,..., βk]

3 Il modello in notazione matriciale Il modello in notazione matriciale vettore delle n variabili casuali campionarie: Y = [Y1,..., Yn] vettore delle n osservazioni campionarie sulla variabile Y : y = [y1,..., yn] matrice di regressione: 1 x1... x1,k x X = 1 xi,1... xi,k = x i xn,1... xn.k x n Vettore dei disturbi aleatori: ε = [ε1,..., εi,..., εn] tale che E(ε) = 0 e Σε = σ 2 In ha dimensione n (k + 1) Le stime in forma matriciale Il modello in forma matriciale In forma matriciale, quindi il modello può essere scritto come: ovvero Y = Xβ + ε, E(Y X) = Xβ e Σ Y X = σ 2 In Per stimare β abbiamo minimizzato la funzione n n S(β) = (yi β0 xi,jβj) 2 i=1 j=1 la quale può essere scritta in forma vettoriale come: S(β) = (y Xβ) (y Xβ)

4 Le stime in forma matriciale Le stime in forma matriciale Sotto condizioni assai generali (che vedremo fra poco), il vettore che minimizza S(β) è b = (X X) 1 X y R k+1. Gli elementi che costituiscono i vettore b coincidono esattamente con le stime che abbiamo definito in precedenza, cioè: b = [b0,..., bk]. Attenzione b è calcolabile sotto due condizioni: n k + 1: il numero di osservazioni campionarie deve essere non inferiore al numero dei coefficienti che vogliamo stimare. Le colonne di X devono essere linearmente indipendenti. Questo significa che nessuna variabile Xj, j = 1,..., k, possa essere linearmente dipendente dalle altre k 1 variabili esplicative e che nessun regressore possa assumere lo stesso valore su tutte le unità statistiche osservate. Le stime in forma matriciale Le stime in forma matriciale Il vettore dei residui è definito come e = [e1,..., ei,..., en] È facile verificare che e = y Xb = y X(X X) 1 X y = (In X(X X) 1 X )y = My Come abbiamo già visto, la stima della varianza è data da s 2 = 1 n ei 2 n k 1 i=1 ovvero = 1 n k 1 e e con M = (In X(X X) 1 X )

5 L incertezza, che sciagura! Abbiamo definito delle regole generali che ci permettono di calcolare le stime b e s 2 su qualsiasi campione osservato, sotto condizioni non particolarmente restrittive. Ma allora, b è la determinazione campionaria di una particolare variabile casuale k + 1-variata: B = (X X) 1 X Y = [B0, B1,..., Bk] s 2 è la determinazione campionaria di una particolare variabile casuale: S 2 1 = n k 1 E E È facile verificare che E(B) = β e ΣB = σ 2 (X X) 1 E(S 2 ) = σ 2 e Var(S 2 2σ 4 ) = n k 1 Poniamo H = (X X) 1 (con dimensione (k + 1) (k + 1)). Avremo quindi che Var(Bj) = σ 2 hj,j, j = 0,..., k Anche i residui sono determinazioni di n variabili casuali: E = MY R n Possiamo stimare Var(B j, j = 0,..., k)? Stime: s 2 = s 2 Bj hj,j Basta sostituire s 2 a σ 2 nelle espressioni delle rispettive varianze. Stimatori: S 2 = S 2 Bj hj,j Generalmente siamo interessati (vedremo meglio in seguito) allo standard error degli stimatori: = Var(Bj) SEBj stime degli standard error: sbj = stimatori degli standard error: SBj = s 2 Bj S 2 Bj

6 Correttezza Gli stimatori dei parametri ignoti sono corretti: se potessimo ripetere il campionamento all infinito e a parità delle condizioni, le medie delle stima ottenute coinciderebbero con i veri valori di βj e σ 2 Osservazione Dalla correttezza dello stimatore B di β segue che e quindi E(Ei) = E(Yi) E(x ib) = x iβ x E(B) = x iβ xiβ = 0 i = 1,..., n E(E) = 0. Efficienza Tra tutti gli stimatori di βj, ottenibili come trasformazioni lineari di Y e corretti, Bj sono i più precisi, nel senso che hanno varianza minima. Consistenza Bj e S 2, sono stimatori consistenti per βj e σ 2 se sussistono tutte le condizioni che caratterizzano il modello di regressione lineare semplice e se lim n 1 n X X = C matrice definita positiva

7 Varianza spiegata Varianza spiegata Un modo comune di valutare la variabilità campionaria di Y consiste nel calcolare var(y ) = 1 n (yi ȳ) 2 n i=1 Il numeratore della frazione che definisce var(y ) si dice devianza totale di Y : n DEVTOT = (yi ȳ) 2 i=1 Se nel modello di regressione compare l intercetta, è facile verificare che ˆȳ = 1 n ŷi = ȳ e ē = 1 n ei = 0 n n i=1 i=1 Ne segue che le varianze campionarie dei valori stimati della regressione e dei residui sono date da: var(ŷ ) = 1 n (ŷi ȳ) 2 n i=1 var(e) = 1 n ei 2 n i=1 Varianza spiegata Varianza spiegata Possiamo quindi definire DEVREG = e DEVRES = n (ŷi ȳ) 2 i=1 n ei 2 i=1 devianza di regressione devianza residua Si può dimostrare che var(y ) = var(ŷ ) + var(e), ovvero DEVTOT = DEVREG + DEVRES

8 Varianza spiegata Varianza spiegata Domanda Supponiamo di approssimare yi, i = 1 con ŷi, i = 1,..., n. Quanta parte della variabilità di Y cogliere attraverso il modello di regressione? Risposta R 2 = DEVREG DEVTOT = 1 DEVRES DEVTOT Coefficiente di determinazione lineare Una proprietà importante 0 R 2 1 Se R 2 = 1, allora yi = ŷi, i = 1,..., n: le osservazioni su Y e su X giacciono su una retta Se R 2 = 0, allora ŷi = ȳ, i = 1,..., n: la retta (funzione di X ) che meglio approssima le osservazioni su Y è costante (indipendente da X ) con ordinata uguale a ȳ Un difetto grave Il modello gaussiano Si può dimostrare che R 2 tende a crescere quando aumenta il numero di variabili esplicative incluse nel modello, anche qualora queste non esercitassero effettivamente alcuna influenza su Y. Se k = n 1, allora certamente R 2 = 1, per un semplice artificio matematico! Conviene utilizzare il coefficiente di determinazione lineare multipla corretto, R 2 a : R 2 a = 1 n 1 n k 1 (1 R2 ) che dà informazioni simili a quelle fornite da R 2 ma non necessariamente cresce al crescere di k. Ricordiamo la formula generale del modello: Yi = x iβ + εi, i = 1,..., n Il modello si dice gaussiano se εi N(0, σ 2 ), ferme restando tutte le altre assunzioni. La Gaussianità del modello implica che Yi X = xi N(x iβ, σ 2 ) Condizionatamente a X = xi, Yi si distribuisce come una v.c. normale con media x i β e varianza σ2.

9 Il modello gaussiano Se il modello è gaussiano, o se n è elevato e le assunzioni del modello di regressione lineare multipla sono rispettate: Conseguenze dell ipotesi di gaussianità: Distribuzione di Bj, j = 0,..., k e Ŷi, i = 1,..., n: Bj N ( βj, σ 2 ) hj,j Ŷi N ( x iβ, σ 2 x i(x X) 1 xi) ) Bj βj SBj Ŷi x β S x i (X X) 1 xi tn k 1 tn k 1 si distribuiscono come t di Student con n k 1 gradi di libertà Intervallo di confidenza per β j, i = 0, 1,..., k al livello di fiducia 1 α Intervallo di confidenza per η(x 0, β) Determinazione degli intervalli di confidenza sul campione osservato: [bj sbj t n k 1,1 α/2, bj + sbj t n k 1,1 α/2] Siano x0,j, j = 1,..., k, k fissati valori delle variabili Xj. Vogliamo costruire un intervallo di confidenza, di livello 1 α per η(x0,1,... x0,k, β) = x 0β con x 0 = [1, x0,1,..., x0, k] Ponendo S x 0 β x = S 0 (X X) 1 x0 Ad un livello di fiducia 1 α, quindi, l intervallo di confidenza per η(x0,1,... x0,k, β) sarà il seguente: [ x 0 b t n k 1,1 α/2 sη, x 0b + t n k 1,1 α/2 sη]

10 Verifica di ipotesi su β j, j = 0,..., k Se H0 è vera, Sistema di ipotesi bilaterale: T = Bj β j tn k 1 SBj statistica test H0 : βj = β j H1 : βj β j ipotesi nulla ipotesi alternativa βj è un valore noto che fissiamo noi, sulla base delle nostre esigenze. Fissiamo un valore α, 0 < α < 1, che chiameremo livello di significatività del test, e vogliamo che la probabilità di ritenere falsa H0 quando in realtà H0 è vera sia proprio pari ad α Valore osservato della statistica test: toss = bj β j determinazione campionaria di T sbj Se H0 è vera, P( T > t n k 1,1 α/2 ) = α Verifica di ipotesi su β j, j = 0,..., k Quindi, se decidiamo di ritenere falsa H0 quando toss > t n k 1,1 α/2, rischiamo di rifiutare H0 quando essa è vera con probabilità α Livello di significatività osservato (p-value): ˆα = P( T > toss quando è vera H0) se ˆα > α, allora toss < t n k 1,1 α/2 e si accetta H0; se ˆα < α, allora toss > t n k 1,1 α/2 e si rifiuta H0. Sistema di ipotesi unilaterale: H0 : βj = βj ( βj ) ipotesi nulla H1 : βj > β j ipotesi alternativa βj è un valore noto che fissiamo noi, sulla base delle nostre esigenze.

11 Se H0 è vera, T = Bj β j SBj tn k 1 statistica test Quindi, se decidiamo di ritenere falsa H0 quando Valore osservato della statistica test: toss = bj β j determinazione campionaria di T sbj toss > tn k 1,1 α, rischiamo di rifiutare H0 quando essa è vera con probabilità α Se H0 è vera, P(T > tn k 1,1 α) = α Verifica di ipotesi su β j, j = 0,..., k Se H0 è vera, Sistema di ipotesi unilaterale: T = Bj β j SBj tn k 1 statistica test H0 : βj = βj ( βj ) ipotesi nulla H1 : βj < β j ipotesi alternativa βj è un valore noto che fissiamo noi, sulla base delle nostre esigenze. Valore osservato della statistica test: toss = bj β j determinazione campionaria di T sbj Se H0 è vera, P(T < tn k 1,α) = α

12 Intervallo di previsione per Y in corrispondenza di X, = x 0,j Quindi, se decidiamo di ritenere falsa H0 quando toss < tn k 1,α, rischiamo di rifiutare H0 quando essa è vera con probabilità α Vogliamo prevedere il valore assunto da Y in corrispondenza di k fissati valori di Xj = x0,j, j = 1,..., k, misurati su una unità statistica non inclusa nel campione e sulla quale Y non è stato rilevato. Vogliamo costruire un intervallo di previsione, di livello 1 α per k Y0 = β0 + βjx0,j + ε0 = x 0β + ε0 j=1 con x 0 = [1, x0,1,,x0,k] Se il modello è gaussiano, allora Y0 x0,1,..., x0,k N(x 0β, σ 2 ) Se prevediamo Y0 con Ŷ0 = x 0B, l errore di previsione sarà Y0 x 0B N(0, σ 2 ( 1 + x 0(X X) 1 ) x0 Intervallo di previsione per Y in corrispondenza di X j = x 0,j, j = 0,..., k Un applicazione La quantità pivotale per l intervallo di previsione al livello di fiducia 1 α sarà data da: Ponendo Y0 x 0 B S 2 (1 + x 0 (X X) 1 x0) tn k 1 SY0 = S 1 + x 0 (X X) 1 x0 Ad un livello di fiducia 1 α, quindi, l intervallo di previsione per Y0 sarà il seguente: [ x 0 b t n k 1,1 α/2 SY0, x 0b + t n k 1,1 α/2 sy0] Il file spedizioni.txt contiene i dati rilevati dalla contabilità di un azienda di spedizioni nell arco di 20 settimane. Le variabili rilevate sono: Y : ore lavoro impiegate nella settimana X1: peso totale (in migliaia di libbre) del materiale spedito nella settimana X2: percentuale del peso totale spedita con camion X3: peso medio delle spedizioni nell arco della settimana X4: numero della settimana di rilevazione (tempo) Cerchiamo di capire quali siano, tra i potenziali regressori (X1, X2, X3 e X4), le variabili che possano incidere sulla quantità di lavoro impiegata nell arco della settimana (Y )

13 3 5 7 x Avviamo una sessione di R, cancelliamo tutto ciò che c è in memoria, chiudiamo le finestre grafiche eventualmente aperte e carichiamo i dati con i seguenti comandi: > rm(list = ls()) > graphics.off() > spedizioni = read.table("spedizioni.txt", header = T) Cerchiamo di capire, attraverso una opportuna rappresentazione grafica (Figura 23) che tipi di relazioni esistano tra le diverse variabili: > pairs(spedizioni) y x2 x3 x Figura 23: Diagrammi di dispersione di tutte le possibili coppie di variabili contenute nel dataframe spedizioni La Figura 23, ottenuta con il comando > pairs(spedizioni) è una matrice di diagrammi di dispersione: Ogni riga ed ogni colonna sono intestate ad una variabile, il cui nome è leggibile sulla diagonale della matrice. I grafici che si trovano su una determinata riga sono i diagrammi di dispersione della variabile a cui quella riga è intestata, contro ciascuna delle variabili a cui sono intestate le colonne Sul primo grafico della seconda riga è rappresentato il diagramma di dispersione di X1 contro Y ; sul secondo grafico della seconda riga è rappresentato il diagramma di dispersione di X1 contro X2 e così via. Dalla Figura 23 si possono trarre alcune informazioni: appare evidente una relazione lineare crescente tra il numero di ore lavoro impiegate nell arco della settimana (variabile risposta) e il peso totale del materiale spedito nel medesimo periodo (X1); appare altrettanto evidente una relazione lineare decrescente tra variabile risposta e peso medio delle spedizioni nell arco della settimana (X3); non si possono desumere relazioni altrettanto evidenti tra la variabile risposta e gli altri potenziali regressori. Ciò non significa di per sè che questi non influiscano sul comportamento della quantità di lavoro impiegata: il loro effetto potrebbe essere mascherato dall influenza esercitata simultaneamente da più variabili sulla variabile risposta.

14 Visualizziamo ora una sintesi dei risultati: > summary(spedizioni.lm) Stimiamo ora il modello Yi = β0 + β1xi,1 + β2xi,2 + β3xi,3 + β4xi,4 + εi con i seguenti comandi: > attach(spedizioni) > spedizioni.lm = lm(y ~ x1 + x2 + x3 + x4) Call: lm(formula = y ~ x1 + x2 + x3 + x4) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) ** x * x x * x Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 15 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 4 and 15 DF, p-value: 1.889e-05 Il coefficiente di determinazione lineare multipla è pari a il coefficiente di determinazione lineare multipla corretto (Adjusted R-suared) è pari a , quindi il modello sembra spiegare abbastanza bene il comportamento della variabile risposta. esaminiamo ora i residui Disegnamo il grafico dei residui (Figura 24): > plot(resid(spedizioni.lm)) e il grafico quantile quantile dei medesimi, per farci qualche idea circa la gaussianità del modello (Figura 25): > qqnorm(resid(spedizioni.lm)/9.103) > qqline(resid(spedizioni.lm)/9.103) resid(spedizioni.lm) Index Figura 24: Grafico dei residui

15 Normal Q Q Plot Sample Quantiles In base all analisi dei residui possiamo ritenere che il modello rispetti le assunzioni di fondo e che i residui siano determinazioni di variabili casuali normali (quindi che il modello sia gaussiano) Theoretical Quantiles Figura 25: Grafico quantile quantile dei residui standardizzati Un test utile Potremmo essere interessati al seguente sistema di ipotesi: H0 : β1 = β2 = = βk = 0 H1 : almeno uno di questi coefficienti è diverso da 0 Di fatto vogliamo verificare se abbia senso considerare un modello di regressione lineare multipla. Supponiamo che l ipotesi nulla sia vera. Allora, se il modello è gaussiano, oppure se n è elevato e valgono le assunzioni di fondo del modello di regressione lineare multipla, la seguente quantità (DEVTOT DEVRES)/k f = DEVRES/(n k) R 2 /k = (1 R 2 )/(n k 1) sarà la determinazione di una particolare variabile casuale che assume solo valori positivi: una F di Snedecor con k gradi di libertà al numeratore e n k gradi di libertà al denominatore, Fk,n k.

16 Fissato un livello di significatività α, accetteremo H0 se f è minore del quantile di ordine 1 α di una Fk,n k rifiuteremo H0 se f è maggiore del quantile di ordine 1 α di una Fk,n k oppure, definito il livello di significatività osservato (p-value) come αoss = P(Fk,n k > f ) Per questo sistema di ipotesi, l ultima riga dell output del comando > summary(spedizioni.lm) fornisce un valore αoss = , quindi nella nostra applicazione rifiutiamo H0, cioè riteniamo che almeno uno dei regressori considerati sia influente sulla media della variabile risposta. accetteremo H0 se αoss > α rifiuteremo H0 altrimenti I potenziali regressori sono tutti effettivamente influenti? Per j = 0, dots, k e per un fissato livello di significatività α, impostiamo i seguenti sistemi di ipotesi: Domanda Nel modello che abbiamo costruito sono incluse delle variabili esplicative ridondanti? Possiamo escludere alcune di esse? H0 : βj = 0 H1 : βj 0 Per ogni sistema di ipotesi calcoliamo il valore osservato della corrispondente statistica test: tj = bj sbj Tra tutti i valori tj che inducono ad accettare l ipotesi nulla individuiamo i più piccolo in valore assoluto (ovvero quello che dà luogo al più alto livello di significatività osservato). Supponiamo che ciò avvenga per j = j

17 Fissiamo α = 0.05 e iniziamo la procedura > summary(spedizioni.lm) Call: lm(formula = y ~ x1 + x2 + x3 + x4) Dobbiamo ora distinguere due casi: se j = 0 porremo β0 = 0 e ristimeremo il modello senza intercetta se 1 j k porremo βj = 0 e ristimeremo il modello escludendo la j -esima varabile esplicativa (i regressori saranno ora k 1) Ripetiamo la procedura fino a quando tutti i valori tj indurranno ad accettare il corrispondente sistema di ipotesi. Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) ** x * x x * x Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 15 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 4 and 15 DF, p-value: 1.889e-05 Escludiamo la variabile X4 e stimiamo il modello: Yi = β0 + β1xi,1 + β2xi,2 + β3xi,3 + εi > spedizioni1.lm = lm(y ~ x1 + x2 + x3) > summary(spedizioni1.lm) Call: lm(formula = y ~ x1 + x2 + x3) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) ** x * x x * --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 16 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 3 and 16 DF, p-value: 3.633e-06 Escludiamo la variabile X2 e stimiamo il modello: > spedizioni2.lm = lm(y ~ x1 + x3) > summary(spedizioni2.lm) Call: lm(formula = y ~ x1 + x3) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) *** x * x ** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 17 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 2 and 17 DF, p-value: 8.008e-07 Abbiamo costruito un modello soddisfacente. Y i = β0 + β1x i,1 + β3x i,3 + ε i

18 Intervallo di confidenza per β 1 al livello 1 α = 0.95 Intervallo di confidenza per la funzione di regressione > quantile = qt(0.975, 17) > estremo.inferiore = coef(spedizioni2.lm)[2] - quantile * > estremo.superiore = coef(spedizioni2.lm)[2] + quantile * > estremo.inferiore x > estremo.superiore x Supponiamo di voler costruire, al livello 1 α = 0.99, un intervallo di confidenza per la funzione di regressione in corrispondenza di X1 = 8 e X3 = 20 > nuovidati = data.frame(x1 = 8, x3 = 20) > nuovidati x1 x > intervallo = predict(spedizioni2.lm, nuovidati, interval = "confidence", + level = 0.99) > intervallo fit lwr upr [1,] Intervallo di previsione per Y Trasformazioni delle variabili Supponiamo di voler costruire, al livello 1 α = 0.99, un intervallo di previsione per Y in corrispondenza di X1 = 8 e X3 = 20 > nuovidati = data.frame(x1 = 8, x3 = 20) > nuovidati x1 x > previsione = predict(spedizioni2.lm, nuovidati, interval = "prediction", + level = 0.99) > previsione fit lwr upr [1,] Nel modello di regressione, spesso, può essere opportuno considerare delle trasformazioni delle variabili in gioco. Supponiamo, ad esempio, di considerare due sole variabili, Y e X e di definire un modello del tipo Yi = β0 + β1xi + εi Una semplice relazione lineare potrebbe non essere sufficiente a spiegare il comportamento di Y e si potrebbe ricorrere ad un modello polinomiale: Yi = β0 + β1xi + β2x 2 i + + βkx k i + εi

19 Un altro esempio: supponiamo che Il modello precedente è equivalente al modello di regressione lineare multipla: k Yi = β0 + βjzi,j + εi, j=1 con zi,j = x j i, j = 1,..., k, i = 1,..., n. Yi = exp(β0)x β1 i,1 xβ2 i,2 ui con Y, xi,j e ui tutte positive per ogni i e per ogni j e inoltre che εi = log (ui) sia tale che E(εi) = 0, Var(εi) = σ 2 e Corr(εi, εj) = 0 quando i j. Poniamo Yi = log (Yi) e Xj = log (Xj), j = 1, 2 Possiamo allora definire il modello di regressione lineare multipla Yi = β0 + β1xi,1 + β2xi,2 + εi e procedere all analisi di questo modello Le trasformazioni più utilizzate sono: il logaritmo la radice quadrata l inversa

20 Interazioni tra variabili Come scegliere il tipo di trasformazione: esaminare la rappresntazione grafica delle variabili in gioco (diagrammi di dispersione) una volta stimato un modello di regressione esaminare i diagrammi di dispersione dei residui rispetto a ciascun regressore. Consideriamo un modello di regressione in cui E(Y ) = β0 + β1x1 + β2x2 (omettiamo per brevità il condizionamento di Y rispetto ai regressori). Il coefficiente β1 rappresenta l incremento in E(Y ) corrispondente ad un incremento unitario di X1, mantenendo X2 inalterata Il coefficiente β2 rappresenta l incremento in E(Y ) corrispondente ad un incremento unitario di X2, mantenendo X1 inalterata Interazioni tra variabili Introduciamo ora un termine di interazione tra X1 e X2: E(Y ) = β0 + β1x1 + β2x2 + β3x1x2 Incremento in E(Y ) corrispondente ad un incremento unitario di X1, mantenendo X2 inalterata 1E(Y ) = β1 + β3x2 Incremento in E(Y ) corrispondente ad un incremento unitario di X2, mantenendo X1 inalterata 2E(Y ) = β2 + β3x2 Riconsideriamo il modello finale a cui siamo giunti nel problema della azienda di spedizioni. Disegnamo i diagrammi di dispersione dei residui rispetto a ciascuna delle variabili esplicative con i comandi > plot(x1, resid(spedizioni2.lm)) > plot(x2, resid(spedizioni2.lm)) i grafici nelle Figure 26 e 27 mostrano una debole dipendenza lineare tra i residui e ciascuna delle variabili esplicative. Questo ci induce a ritenere che il modello adattato non sfrutti tutta l informazione contenuta nei regressori Poiché i grafici non evidenziano particolari relazioni non lineari, cerchiamo di capire se esistano delle forme di interazione tra le due variabili.

21 resid(spedizioni2.lm) resid(spedizioni2.lm) x x2 Figura 26: Diagramma di dispersione dei residui contro X1 Figura 27: Diagramma di dispersione dei residui contro X2 Consideriamo il modello: Yi = β0 + β1xi,1 + β3xi,3 + β4xi,1xi,3 Fissando α = 0.05 e procedendo nuovamente alla selezione delle variabili, giungiamo al modello, giungiamo al modello Yi = β0 + β3xi,3 + β4xi,1xi,3 > spedizioni3.lm = lm(y ~ x1 + x3 + x1:x3) > summary(spedizioni3.lm) Call: lm(formula = y ~ x1 + x3 + x1:x3) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) *** x x ** x1:x Signif. 0 '***' '**' 0.01 '*' 0.05 '.' codes: 0.1 ' ' 1 Residual standard error: on 16 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 3 and 16 DF, p-value: 9.462e-07 > spedizioni4.lm = lm(y ~ x3 + x1:x3) > summary(spedizioni4.lm) Call: lm(formula = y ~ x3 + x1:x3) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-09 *** x e-08 *** x3:x ** --- Signif. 0 '***' '**' 0.01 '*' 0.05 '.' codes: 0.1 ' ' 1 Residual standard error: on 17 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 2 and 17 DF, p-value: 2.143e-07

22 Ci poniamo ora il problema di rappresentare graficamente l andamento della funzione di regressione stimata, intesa come funzione del pesmo medio settimanale delle spedizioni, in corrispondenza di alcuni fissati valori del peso totale delle spedizioni settimanali, diciamo X1 = 4, X1 = 4.95 e X1 = 6.2. Per ognuno dei fissati livelli di X1 stimiamo la funzione di regressione in corrispondenza dei valori del peso medio delle spedizioni settimanali osservati sul campione utilizzando i seguenti comandi: > beta = coef(spedizioni4.lm) > eta1 = beta[1] + beta[2] * x3 + beta[3] * 4 * x3 > eta2 = beta[1] + beta[2] * x3 + beta[3] * 4.95 * x3 > eta3 = beta[1] + beta[2] * x3 + beta[3] * 6.2 * x3 Disegnamo ora i grafici (Figura 28) delle tre funzioni con i seguenti comandi: > plot(x3, eta1, type = "l", col = "blue", ylim = c(60, max(y)), + xlab = "peso medio settimanale delle spedizioni", ylab = "funzione di regressione stimata") > lines(sort(x3), eta2[order(x3)]) > lines(sort(x3), eta3[order(x3)], col = "red") Variabili esplicative di tipo qualitativo funzione di regressione stimata peso medio settimanale delle spedizioni X 1 = 6.2 X 1 = 4.95 X 1 = 4 Figura 28: Grafici della funzione di regressione stimata in corrispondenza dei tre valori fissati di X1 Il file cars4.txt contiene dei dati rilevati su 25 modelli di autoveicoli americani adibiti al trasporto di persone: Y consumo urbano di carburante (miglia per gallone) X peso in migliaia di libbre type. Variabile qualitativa con tre modalità: SUV,Wagon, Minivan D1. Variabile indicatrice: D1 = 1 se type = Wagon; D1 = 0 altrimenti D2. Variabile indicatrice: D2 = 1 se type = Minivan; D2 = 0 altrimenti Se D1 = D2 = 0 allora type = SUV

23 Il modello: 1 Y = β0 + β1 X + β2d1 + β3d2 + 1 β4d1 X + 1 β5d2 X + ε SUV (gruppo di controllo) 1 E(Y ) = β0 + β1 X [D1 = D2 = 0] Carichiamo i dati e stimiamo il modello: > rm(list = ls()) > graphics.off() > cars = read.table("cars.txt", header = T) > attach(cars) > cars.lm = lm(y ~ I(1/X) + D1 + D2 + D1:I(1/X) + D2:I(1/X)) Esercizio. Analizzare i residui. In particolare, accertarsi se la gaussianità del modello sia un assunzione plausibile. Wagon Minivan 1 β0 + β1 X + β2 + 1 β4 X 1 β0 + β1 X + β3 + 1 β5 X [D1 = 1, D2 = 0] [D1 = 0, D2 = 1] Esaminiamo la sintesi dei risultati > summary(cars.lm) Call: lm(formula = Y ~ I(1/X) + D1 + D2 + D1:I(1/X) + D2:I(1/X)) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) * I(1/X) *** D * D I(1/X):D ** I(1/X):D Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 19 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 5 and 19 DF, p-value: 3.974e-10 Procedendo con la selezione delle variabili giungiamo al modello 1 Y = β0 + β1 X + β2d1 + 1 β4d1 X + 1 β5d2 X + ε > cars1.lm = lm(y ~ I(1/X) + D1 + D1:I(1/X) + D2:I(1/X)) > summary(cars1.lm) Call: lm(formula = Y ~ I(1/X) + D1 + D1:I(1/X) + D2:I(1/X)) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) * I(1/X) *** D * I(1/X):D ** I(1/X):D ** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 20 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 4 and 20 DF, p-value: 4.807e-11

24 Y Rappresentiamo graficamente i risultati in Figura 29 con i seguenti comandi: > invx = 1/X > beta = coef(cars1.lm) > plot(invx, Y, type = "n", xlab = "1/X") > invx0 = invx[d1 == 0 & D2 == 0] > points(invx0, Y[D1 == 0 & D2 == 0], pch = "s") > lines(sort(invx0), beta[1] + beta[2] * invx0[order(invx0)]) > invx1 = invx[d1 == 1] > points(invx1, Y[D1 == 1], pch = "w") > lines(sort(invx1), beta[1] + beta[2] * invx1[order(invx1)] + + beta[3] + beta[4] * invx1[order(invx1)], col = "blue") > invx2 = invx[d2 == 1] > points(invx2, Y[D2 == 1], pch = "m") > lines(sort(invx2), beta[1] + beta[2] * invx2[order(invx2)] + + beta[5] * invx2[order(invx2)], col = "red") s s w m msm ms w m s m s s s ms s s w w s w w /X Figura 29: Diagramma di dispersione e funzione di regressione