MODELLO LINEARE: ESEMPI ED APPLICAZIONI

Transcript

1 MODELLO LINEARE: ESEMPI ED APPLICAZIONI Mario Romanazzi 1 ESEMPIO 1. PUBBLICITA E VENDITE 1.1 I DATI I dati sono le spese mensili in pubblicità (X, migliaia di dollari) e l ammontare mensile delle vendite (Y, milioni di dollari) di una catena di negozi di arredamento. > # ad: vettore delle spese mensili in pubblicità > ad <- c(23,46,60,54,28,33,25,31,36,88,90,99) > # sell: vettore delle vendite mensili > sell <- c(9.6,11.3,12.8,9.8,8.9,12.5,12,11.4,12.6,13.7,14.4,15.9) > # numerosità campionaria > n <- length(ad); n [1] 12 La stima di un modello lineare è sempre preceduta da un analisi preliminare volta a verificare le caratteristiche generali dei dati (tipologia distributiva, dati mancanti, presenza di outliers) e le ipotesi del modello, in particolare l esistenza di una relazione lineare tra le variabili. Riportiamo sotto le presentazioni ramo-foglia. La Fig. 1 mostra i diagrammi scatolabaffi. > stem(ad) The decimal point is 1 digit(s) to the right of the > stem(sell) 1

2 1 ESEMPIO 1. PUBBLICITA E VENDITE 2 The decimal point is at the > layout(matrix(1:2,nr=1,nc=2)) > boxplot(ad,ylab="spese Mensili Pubblicità") > boxplot(sell,ylab="ammontare Vendite Mensili") > layout(matrix(1)) Spese Mensili Pubblicità Ammontare Vendite Mensili Figura 1: Diagrammi scatola-baffi spese pubblicitarie e vendite mensili. La Fig. 2 mostra il diagramma di dispersione della distribuzione congiunta.

3 1 ESEMPIO 1. PUBBLICITA E VENDITE 3 > plot(ad,sell,pch=20, xlab="spese Mensili Pubblicità", + ylab="ammontare Vendite Mensili") Ammontare Vendite Mensili Spese Mensili Pubblicità Figura 2: Diagramma di dispersione spese pubblicitarie e vendite. 1.2 STATISTICHE RIASSUNTIVE Riportiamo di seguito le statistiche riassuntive di base. > # somma dati e somma dati al quadrato sia per ad che per sell > c(sum(ad),sum(ad^2)) [1] > c(sum(sell),sum(sell^2))

4 1 ESEMPIO 1. PUBBLICITA E VENDITE 4 [1] > # somma prodotti incrociati > sum(ad*sell) [1] A partire dalle statistiche riassuntive si ottengono le statistiche campionarie marginali e congiunte: medie, varianze, deviazioni standard, covarianza e correlazione. > # statistiche camp. spese pubblicitarie > mx <- mean(ad); varx <- var(ad); sdx <- sd(ad) > c(mx,varx,sdx) [1] > # statistiche camp. vendite > my <- mean(sell); vary <- var(sell); sdy <- sd(sell) > c(my,vary,sdy) [1] > # covarianza, correlazione > sxy <- cov(ad,sell); rxy <- cor(ad,sell) > c(sxy,rxy) [1] Riepiloghiamo i risultati precedenti nella Tab. 1. n i=1 x i i=1 y i i=1 x2 i i=1 y2 i i=1 x iy i x y s X s Y s X,Y r X,Y Tabella 1: Pubblicità e vendite. Statistiche riassuntive univariate e bivariate. 1.3 LA RETTA DEI MINIMI QUADRATI Il modello lineare, al livello più semplice, è un ipotesi riguardante la struttura delle variabili subordinate Y X = x, per un generico fissato valore x della variabile esplicativa. Y (X = x) = DEF α + βx + ɛ, (1)

5 1 ESEMPIO 1. PUBBLICITA E VENDITE 5 in cui α + βx µ Y (x) è la componente deterministica, una funzione lineare di x, mentre ɛ è la componente stocastica, una variabile aleatoria con valore atteso zero e deviazione standard σ ɛ, non dipendente da x (condizione di omoschedasticità). Inoltre, errori ɛ corrispondenti a distribuzioni subordinate diverse si assumono stocasticamente indipendenti. Prendendo il valore atteso dei due membri della (1) e usando E(ɛ) = 0, otteniamo E(Y X = x) = E(α + βx + ɛ) = α + βx. (2) Similmente, prendendo la varianza dei due membri della (1) e usando V ar(ɛ) = σ 2 ɛ, otteniamo V ar(y X = x) = V ar(α + βx + ɛ) = V ar(ɛ) = σ 2 ɛ. (3) In base al principio dei minimi quadrati (MQ), le stime campionarie dei coefficienti della retta sono ˆβ n = s X,Y s 2 X Inoltre, la stima campionaria non distorta di σ 2 ɛ è: s 2 ɛ = 1 n 2 = r X,Y s Y s X, (4) ˆα n = y n ˆβ n x n. (5) n i=1 e 2 i = 1 n 2 n (y i ŷ i ) 2, (6) dove ŷ i ˆα n + ˆβ n x i sono le previsioni dei dati y i ricavate dal modello lineare stimato. Ricordiamo che queste previsioni non sono altro che le stime di E(Y X = x i ), i valori attesi delle distribuzioni subordinate Y X = x i, i = 1,..., n. Le funzioni R riportate sotto calcolano i valori delle stime insieme con le statistiche che ne valutano il grado di accostamento ai dati, in particolare la statistica R 2 = r 2 X,Y. La Fig. 3 mostra il grafico di dispersione e la retta MQ stimata. E anche visualizzato il centroide, il punto di coordinate x n, y n, che appartiene sempre alla retta MQ campionaria. > # stima coefficiente angolare (beta cappello) > betah <- sxy/varx; betah [1] > # formula equivalente > betah <- rxy*sdy/sdx; betah [1] > # stima intercetta (alfa cappello) > alfah <- my-betah*mx; alfah i=1

6 1 ESEMPIO 1. PUBBLICITA E VENDITE 6 [1] > c(alfah,betah) [1] > # indice di bontà retta mq (R^2) > R2 <- rxy^2; R2 [1] > # scomposizione devianza Y > # devianza "spiegata" dal modello > devsp <- (n-1)*vary*r2; devsp [1] > # devianza "non spiegata" dal modello ("dei residui") > devres <- (n-1)*vary*(1-r2); devres [1] > # stima non distorta varianza ed sd dei residui > varres <- devres/(n-2); sdres <- sqrt(varres) > c(varres, sdres) [1] > plot(ad,sell,pch=20, xlab="spese Mensili Pubblicità", + ylab="ammontare Vendite Mensili") > abline(a=alfah,b=betah,lty="dashed",lwd=2,col="red") > points(mx,my,pch="*",cex=2,col="red") La retta MQ campionaria è dunque: ŷ = x. (7) Importante l interpretazione: in media, un aumento di 1000 dollari delle spese pubblicitarie mensili produce un aumento di circa dollari del corrispettivo delle vendite mensili. Per una spesa in pubblicità di dollari ci aspettiamo un ammontare di vendite pari a = ± 1.35 milioni di dollari.

7 1 ESEMPIO 1. PUBBLICITA E VENDITE 7 Ammontare Vendite Mensili * Spese Mensili Pubblicità Figura 3: Diagramma di dispersione con retta MQ e centroide. 1.4 ACCURATEZZA DELLA STIMA DEL COEFFICIENTE ANGOLARE Nell interpretazione della retta MQ campionaria, e della sua accuratezza come stima della retta MQ della popolazione, riveste un importanza particolare il coefficiente angolare ˆβ n = s X,Y /s 2 X. Si vuole soprattutto controllare l ipotesi β = 0, corrispondente all indipendenza lineare delle variabili e dunque alla non rilevanza di X come fattore esplicativo di Y, almeno nel quadro della linearità. A tale proposito si dimostra che 1. E( ˆβ n ) = β, 2. SD( ˆβ n ) = σ ɛ / (n 1)s 2 X,

8 1 ESEMPIO 1. PUBBLICITA E VENDITE 8 3. se, in aggiunta alle precedenti ipotesi sul modello lineare, aggiungiamo l ipotesi di normalità, Y (X = x) N(α + βx, σ ɛ ), allora ˆβ n N(β, σ ɛ / (n 1)s 2 X ), 4. valendo (1), (2) e (3), la variabile standardizzata (con l SE stimato) ( ˆβ n β)/ŝe( ˆβ n ) ha una distribuzione t di Student con n 2 gradi di libertà e quindi l intervallo di confidenza per β di livello 1 α è s ɛ ˆβ n ± t n 2;1 α/2. (8) (n 1)s 2 X Se il precedente intervallo include il valore zero, tenuto conto dell errore di campionamento, non si può escludere che, nella popolazione, il coefficiente angolare β sia nullo. Questo suonerebbe come una sconfessione del modello lineare. Il codice R sottostante calcola l errore standard stimato di ˆβ n e l intervallo di confidenza per β di livello Quest ultimo non include il valore zero, il che conferma la rilevanza della variabile X come fattore esplicativo per Y. Il risultato viene confermato anche ad un livello di confidenza > # errore standard stima camp. beta > sebetah <- sdres/sqrt((n-1)*varx); sebetah [1] > # intervalli di confidenza 95% e 99% > c(betah - qt(0.975,df=n-2)*sebetah, betah + qt(0.975,df=n-2)*sebetah) [1] > c(betah - qt(0.995,df=n-2)*sebetah, betah + qt(0.995,df=n-2)*sebetah) [1] CONTROLLO DELLE IPOTESI SUL TERMINE D ER- RORE Il modello lineare introduce ipotesi molto restrittive sul termine d errore ɛ che vengono controllate a posteriori sulla base dei residui stimati e i, i = 1,..., n. Innanzitutto, il modello implica che i residui standardizzati e i;st = e i /s e, i = 1,..., n, abbiano approssimativamente una distribuzione normale standard (è facile provare che la media campionaria degli e i è nulla). Un ramo foglia, un diagramma scatola baffi o un istogramma permettono un controllo grafico informale di questa ipotesi. Il codice R sottostante calcola i residui standardizzati e produce il ramo foglia e il diagramma scatola baffi.

9 2 ESEMPIO 2. FUMO E MORTALITA PER LEUCEMIA 9 > # vendite stimate > yhat <- alfah + betah * ad > # residui stimati > res <- sell - yhat > # residui standardizzati > resst <- res/sdres > stem(resst) The decimal point is at the > boxplot(resst,ylab="residui standardizzati",main="spese Pubblicitarie e Vendite") La Fig. 4 mostra una certa asimmetria ma tutti i residui sono compresi nell intervallo ( 2, 2). Un altra fondamentale ipotesi è l indipendenza stocastica dei residui corrispondenti a diversi valori della variabile esplicativa. Un controllo grafico informale si ottiene dal diagramma di dispersione della variabile esplicativa e dei residui o dei valori stimati della variabile risposta e dei residui. Il diagramma non dovrebbe suggerire alcun tipo di relazione tra le variabili. > layout(matrix(1:2,nr=1,nc=2)) > plot(ad,resst,xlab="spese pubblicitarie",ylab="residui standardizzati") > abline(h=0,lty="dashed",col="red") > plot(yhat,resst,xlab="vendite stimate",ylab="residui standardizzati") > abline(h=0,lty="dashed",col="red") > layout(matrix(1)) Come mostra la Fig. relazione tra le variabili. 5 i diagrammi di dispersione non suggeriscono alcun tipo di 2 ESEMPIO 2. FUMO E MORTALITA PER LEUCEMIA I dati sono presi dall Es. 8 Cap La variabile X fornisce il numero di sigarette pro capite fumate in un anno in un campione di stati USA, la variabile Y fornisce il numero di morti per leucemia per abitanti registrati in un anno. Il problema base (comune a tante ricerche epidemiologiche) è valutare la rilevanza del fumo come fattore esplicativo della mortalità per leucemia.

10 2 ESEMPIO 2. FUMO E MORTALITA PER LEUCEMIA 10 Spese Pubblicitarie e Vendite Residui standardizzati Figura 4: Diagramma scatola baffi dei residui standardizzati. > # sig: numero sigarette > sig <- c(2860,2010,2791,2618,2212,2184,2344,2692,2206,2914,3034,4240,1400,2257) > # leu: mortalità per leucemia > leu <- c(7.06,6.62,7.27,7.00,7.69,7.42,6.41,6.89,8.28,7.23,4.90,6.67,6.71,7.02) > # numerosità campionaria > n <- length(sig); n [1] 14 Come per l esempio precedente, calcoliamo le statistiche riassuntive di base e riepiloghiamo i risultati nella Tab. 2. La retta MQ campionaria risulta (vedi Fig. 6) ŷ = x (9)

11 2 ESEMPIO 2. FUMO E MORTALITA PER LEUCEMIA 11 Spese Pubblicitarie e Vendite Spese Pubblicitarie e Vendite Residui standardizzati Residui standardizzati Spese pubblicitarie Vendite stimate Figura 5: Diagrammi di dispersione variabile esplicativa, residui (a sinistra) e variabile risposta stimata, residui (a destra). ed inoltre s ɛ = , ŜE( ˆβ n ) = (10) L intervallo di confidenza 95% per β ( , ) (11) include il valore zero il che significa che non si può escludere che a livello di popolazione sia β = 0. Cioè, il consumo di sigarette non rappresenta un fattore esplicativo della mortalità

12 3 ESEMPIO 3. ANDAMENTO TEMPORALE DEL CONSUMO DI BEVANDE ALCOLICHE12 n i=1 x i i=1 y i i=1 x2 i i=1 y2 i i=1 x iy i x y s X s Y s X,Y r X,Y Tabella 2: Consumo di sigarette e mortalità per leucemia. Statistiche riassuntive univariate e bivariate. leucemica, almeno nel quadro della linearità. Ricordiamo che il coefficiente di correlazione campionario è circa 0.25! Il consumo di sigarette è invece un fattore esplicativo altamente significativo della mortalità per cancro del polmone (vedi Es. 6, C. 12.5). 3 ESEMPIO 3. ANDAMENTO TEMPORALE DEL CONSUMO DI BEVANDE ALCOLICHE I dati descrivono l andamento temporale (dal 2001 al 2012, manca il dato del 2004) della % di persone di 14 anni e più che consumano bevande alcoliche tutti i giorni (fonte: ISTAT, L uso e abuso di alcol in Italia, 2012). Ci proponiamo di stimare il trend temporale del fenomeno e di valutare se è stabile o crescente / decrescente. La variabile esplicativa è il tempo, con modalità 2001,..., 2012; la variabile risposta è la % di consumatori di bevande alcoliche rilevata annualmente. Un utile modello di partenza è quello lineare. La Fig. 7 suggerisce un trend decrescente. > # vettore degli anni di rilevazione > anni <- 2001:2012 > # vettore delle % di consumo di bevande alcoliche > alcol <- c(34.8, 34.5, 32.1, NA, 32.1, 30.6, 30.3, 28.3, 27.8, 27.2, , 24.4) > # numerosità campionaria > n <- length(alcol) > n [1] 12 > plot(anni,alcol,ylim=c(0,100),xlab="anni",ylab="consumatori quotidiani (%)", + main="consumo di Bevande Alcoliche, ITALIA ",sub="Fonte: ISTAT") La Tab. 3 riporta le statistiche di sintesi. Il 2004, mancando il dato della variabile dipendente, non è considerato. Riportiamo di seguito le stime campionarie dei parametri del modello lineare.

13 3 ESEMPIO 3. ANDAMENTO TEMPORALE DEL CONSUMO DI BEVANDE ALCOLICHE13 Mortalità leucemica * Consumo annuo di sigarette Figura 6: Diagramma di dispersione consumo di sigarette e mortalità leucemica, con retta MQ e centroide. ˆβ n = s X,Y , s 2 X ˆα n = y n ˆβ n x n , s 2 ɛ = 1 n 2 n i=1 e 2 i = (n 1)(1 R2 )s 2 Y n 2 s ɛ = s 2 ɛ , ŜE( ˆβ s ɛ n ) = (n 1)s 2 X , L equazione della retta MQ stimata è (vedi Fig. 8) ŷ = x.

14 3 ESEMPIO 3. ANDAMENTO TEMPORALE DEL CONSUMO DI BEVANDE ALCOLICHE14 Consumo di Bevande Alcoliche, ITALIA Consumatori quotidiani (%) Anni Fonte: ISTAT Figura 7: Diagramma di dispersione della % di consumatori di bevande alcoliche. Il risultato conferma il trend decrescente già evidente nel diagramma di dispersione: il modello stima una diminuzione annuale dei consumatori abituali di bevande alcoliche pari a %. Il grado di accostamento ai dati è molto buono (R %). Una semplice applicazione è la stima del dato mancante del ŷ = (2004) Questo risultato va interpretato come la stima della media della distribuzione subordinata Y X = Per valutare statisticamente il modello consideriamo il test H 0 : β = 0, contro l alternativa H 0 : β 0. La statistica test è ˆβ n β 0 ŜE( ˆβ n ) = ˆβn ŜE( ˆβ n )

15 3 ESEMPIO 3. ANDAMENTO TEMPORALE DEL CONSUMO DI BEVANDE ALCOLICHE15 n i=1 x i i=1 y i i=1 x2 i i=1 y2 i i=1 x iy i x y s X s Y s X,Y r X,Y Tabella 3: Consumo di bevande alcoliche in Italia, Statistiche riassuntive univariate e bivariate. e la sua determinazione campionaria è / , da confrontare con la distribuzione t con n 2 = 9 gradi di libertà. Le proprietà di tale distribuzione ci dicono che questo valore è lontanissimo dal centro, inducendoci a rifiutare H 0. Dunque la stima del coefficiente angolare della retta è significativamente diversa da zero, il che conferma la rilevanza del trend temporale. Notiamo che la regione di non rifiuto al livello di significatività dell 1% è (t 9;0.005, t 9;0.995) = ( , ), mentre il valore p è P ( t ) , quindi inferiore a un milionesimo! Le funzioni R per il calcolo di queste quantità sono riportate di seguito. > # regione di non rifiuto di H0 : beta = 0 (liv. sign. 1%) > c(qt(0.005,df=9),qt(0.995,df=9)) [1] > # valore p > 2*pt(-16.38,df=9) [1] e-08 L intervallo di confidenza di livello 95% per β è ˆβ n ± t 9;0.975 ŜE( ˆβ n ) = ± ( ) ( 1.01, 0.76). Questo risultato conferma il trend decrescente del fenomeno. L analisi dei residui standardizzati (vedi ramo-foglia sottostante e Fig. 9) non evidenzia deviazioni importanti dalle ipotesi del modello lineare. > # diagramma ramo-foglia residui standardizzati > stem(scale(rmqalcol$residuals)) The decimal point is at the

16 3 ESEMPIO 3. ANDAMENTO TEMPORALE DEL CONSUMO DI BEVANDE ALCOLICHE16 Consumo di Bevande Alcoliche, ITALIA Consumatori quotidiani (%) * Anni Fonte: ISTAT Figura 8: Diagramma di dispersione della % di consumatori di bevande alcoliche con centroide e retta MQ. > layout(matrix(1:2,nr=1,nc=2)) > plot(df$anni,scale(rmqalcol$residuals),xlab="anni", + ylab="residui standardizzati") > abline(h=0,lty="dashed",col="red") > plot(rmqalcol$fitted.values,scale(rmqalcol$residuals), + xlab="% stimate",ylab="residui standardizzati") > abline(h=0,lty="dashed",col="red") > layout(matrix(1))

17 3 ESEMPIO 3. ANDAMENTO TEMPORALE DEL CONSUMO DI BEVANDE ALCOLICHE17 Residui standardizzati Residui standardizzati Anni % stimate Figura 9: Diagrammi di dispersione variabile esplicativa, residui (a sinistra) e variabile risposta stimata, residui (a destra).