Esercitazioi di Statistica Il modello di Regressioe Prof. Livia De Giovai statistica@dis.uiroma.it Esercizio Solitamete è accertato che aumetado il umero di uità prodotte, u idustria possa ridurre i costi uitari. I dati segueti mettoo i relazioe i costi uitari di produzioe co il umero di uità prodotte. X N. uità 0 20 50 00 50 200 Y Costo uitario 9.4 9.2 9.0 8.5 8. 7.4 a) Stimare il coefficiete di correlazioe. b) Il coefficiete di correlazioe descrive adeguatamete il legame tra le due variabili? c) Stimare i parametri del modello di regressioe del costo uitario sul umero di uità prodotte. Soluzioe a) La stima del coefficiete di correlazioe è pari a r XY (x i x)(y i ȳ) (x i x) 2 (y i ȳ) 2 x iy i xȳ ( x2 i x2 )( y2 i ȳ2 ) Si riportao ella tabella seguete i calcoli per la stima
x i 0.00 20.00 50 00.00 50.00 200.00 530 y i 9.40 9.20 9 8.50 8.0 7.40 5.6 x 2 i 00.00 400.00 2500 0000.00 22500.00 40000.00 75500 yi 2 88.36 84.64 8 72.25 65.6 54.76 446.62 x i y i 94.00 84.00 450 850.00 25.00 480.00 4273 Quidi Cod(X, Y ) Dev(X) Dev(Y ) x 530/6 88. 3 ȳ 5.6/6 8.6 (x i x) 2 75500 6 88. 3 2 28683.33 (y i ȳ) 2 446.62 6 8.6 2 2.86 (x i x)(y i ȳ) 4273 88. 3 8.6 285 S 2 E ê 2 i r XY 285/ 28683.33 2.86 0.995 i cui i residui ê i soo dati dalla differeza y i ŷ i b) La teoria suggerisce ua relazioe o simmetrica tra le variabili, quidi u aalisi di regressioe risulta più adeguata i questo caso. c) utilizzado la relazioe S 2 E ê2 i S 2 y ˆβ 2 S 2 x Dev(Y ) ˆβ 2 Dev(X) risulta: ˆβ Cod(X, Y )/Dev(X) 285/28683.33 0.0099 ˆα ȳ ˆβ x 8.6 ( 0.0099) 88. 3 9.4777 ˆσ 2 Dev(Y ) ˆβ 2 Dev(X) 2 (2.86 ( 0.0099) 2 28683.33)/4 0.007 Esercizio 2 Soo stati osservati 8 valori per le variabili X e Y : 2
x i y i -2 2-5 -3 4 0 5 8 8 20 0 60-7 -8 2 24 a) Stimare la retta di regressioe che poe la Y i fuzioe della X. b) Calcolare l idice di determiazioe. c) Tra i dati osservati idividuare l osservazioe che preseta il valore più aomalo. d) Stimare la retta di regressioe che poe la Y i fuzioe della X avedo elimiato l osservazioe trovata al puto precedete. e) L idice di determiazioe per questa retta di regressioe spiega più del 90% della variabilità totale? Soluzioe a) Per stimare la retta di regressioe occorre calcolare: x i y i x 2 i yi 2 x i y i -2 2 4 4-4 -5-3 25 9 5 4 0 6 00 40 5 8 25 64 40 8 20 64 400 60 0 60 00 3600 600-7 -8 49 324 26 2 24 44 576 288 25 03 427 5077 265 3
Per cui si ha che ȳ y i 2.875 i x x i 3.25 i Sy 2 yi 2 ȳ 2 i Sx 2 x 2 i x 2 i S xy y i x i ȳ x i (y i ȳ) 2 468.8594 (x i x) 2 43.60938 (x i x)(y i ȳ) 7.8906 A questo puto si possoo stimare i parametri del modello di regressioe lieare, per cui e ˆβ S xy S 2 x ˆα ȳ ˆβ x La retta di regressioe stimata è 7.8906 43.60938 2.70333 2.875 2.70333 3.25 4.42709. ŷ i ˆα + ˆβx i 4.42709 + 2.70333x i b) Per determiare l R 2 si comicia co il calcolare: R 2 (ŷ i ȳ i ) 2 (y i ȳ i ) 2 ê2 i (y i ȳ i ) 2 Dev(Y ) Sy 2 8 468.8594 3750.8752 Dev(X) Sx 2 8 43.60938 348.87504 ê 2 i Dev(Y ) ˆβ 2 Dev(X) 3750.8752 (2.70333) 2 348.87504 20.296933 4
Y 20 0 20 40 60 5 0 5 0 X R 2 20.296933 3750.8752 0.6797 Cosideriamo ua defiizioe alterativa dell R 2 : se il modello è stimato co il metodo dei miimi quadrati ordiari, il coefficiete di determiazioe coicide co il quadrato del coefficiete di correlazioe tra la X e la Y : r XY S xy S 2 x Sy 2 7.8906 468.8594 43.60938 0.8244568, per cui R 2 0.8244568 2 0.679729. c) I residui ê i soo dati dalla differeza tra y i ŷ i. Il vettore degli otto residui 5
y i ŷ i ê i 2-0.97957 2.97957-3 -9.089564 6.089564 0 5.046-5.24046 8 7.943748-9.943748 20 26.053744-6.053744 60 3.46049 28.539599-8 -4.496226-3.503774 24 36.867063-2.867063 L osservazioe che ha il residuo, i valore assoluto, più elevato è la sesta. d) Poiché il residuo più elevato si ottiee i corrispodeza della sesta osservazioe (28.539592), se si elimia dal campioe la sesta osservazioe si ottiee la seguete uova tabella: Per cui si ha che x i y i x 2 i yi 2 x i y i -2 2 4 4-4 -5-3 25 9 5 4 0 6 00 40 5 8 25 64 40 8 20 64 400 60-7 -8 49 324 26 2 24 44 576 288 5 43 327 477 665 ȳ 6.42857 x 2.42857 S 2 y 73.2653 S 2 x 42.2245 S xy 8.83674 I uovi stimatori dei coefficieti del modello soo dati da: ˆβ S xy i x iy i ȳ x i x2 i x2 Sx 2 8.83674 42.2245.942830 6
e ˆα ȳ ˆβ x 6.42857.942830 2.42857.97965. e) Il uovo coefficiete di determiazioe è dato da: r XY S xy S 2 x Sy 2 8.83674 42.2245 73.2653 0.9579343, per cui R 2 0.9579343 2 0.97638 > 0.90. Esercizio 3 I uo studio sul cosumo, soo stati rilevati la spesa mesile i geeri alimetari e il reddito mesile di 24 famiglie. Idicado co X il reddito e co Y la spesa, soo stati otteuti i valori segueti per le variabili espresse i migliaia di euro: 24 x i 42.8; 24 y i 2.4; 24 x 2 i 8.5; 24 y 2 i 6.72, 24 x i y i 23.27 a) Stimare la retta di regressioe Y i α + βx i + ε i b) Qual è la variazioe stimata del valore atteso di Y se X aumeta di u uità? Se ua famiglia o avesse reddito, quale sarebbe il valore atteso di y i stimato? c) Stimare la variaza degli errori d) Calcolare l idice di determiazioe e) Assumedo che ε N(0, σ 2 ), sottoporre a test l ipotesi ulla β 0 al livello di sigificatività del 5% Soluzioe a) Si calcolao la media di x e y x 24 42.8.7833; ȳ 2.4 0.567; 24 7
b) e la deviaza di x. Poiché x 2 76.3267 DEV (x) x 2 i x 2 8.5 76.3267 5.733 Possiamo quidi calcolare ˆβ come ii ˆβ x iy i xȳ 23.27 24.7833 0.567 x2 i x2 5.733 24 (y i ˆα ˆβx i ) 0 ˆα ȳ ˆβ x 0.79 0.2236 E(Y X x + ) E(Y X x) α + β(x + ) (α + βx) β che è stimato da ˆβ 0.2236 La relazioe tra la X e la Y è crescete: se X aumeta di ua uità (ossia di u migliaio di euro) il valor medio di Y aumeta di 0.2236 migliaia di euro. che è stimato da ˆα 0.79. Ifatti Se x i 0, allora ŷ i ˆα. E(Y X 0) α ŷ i ˆα + ˆβx i. c) Calcoliamo la deviaza di y ˆσ 2 2 ȳ 2 6.4067, DEV (y) ê 2 i yi 2 ȳ 2 0.333 Utilizzado la formula abbreviata per la deviaza dei residui si ha ( 24 24 24 ) ê 2 i yi 2 ȳ 2 ˆβ 2 x 2 i x 2 Si ha quidi che DEV (y) (0.2236) 2 DEV (x) 0.0547 ˆσ 2 0.0547 22 0.0025 8
d) R 2 24 ê2 i 0.0547 y2 i ȳ2 0.333 0.83 e) Si vuole testare l ipotesi H 0 : β 0 verso H : β > 0 ad u livello di sigificatività del 5%. Calcoliamo l errore stadard di ˆβ ES( ˆβ) ˆσ 2 0.0025 x2 i x2 5.733 0.0220 Il valore osservato della statistica test t ratio ˆβ 0.2236 ES( ˆβ) 0.0220 0.636 La regioe di accettazioe e la regioe critica al livello di sigificatività α 0.05 soo R.C. : ˆβ/ES( ˆβ) > t 2,α.77 R.A. : ˆβ/ES( ˆβ) t 2,α.77 Poiché il valore osservato della statistica test ricade ella regioe critica, si rifiuta l ipotesi ulla co u livello di sigificatività del 5%. Esercizio 4 Si ipotizza ua relazioe iversa fra itesità di u segale e tempo dall emissioe. I particolare la relazioe ipotizzata è: ( ) y i α + β dove y i è l itesità del segale e t i il tempo dall emissioe e β positivo. Idicado co x i il reciproco del tempo dall emissioe, x i /t i, si ottiee la relazioe: t i Y i α + βx i + ε i Soo state rilevate le itesità relative a 8 tempi dall emissioe otteedo le segueti stime: ŷ i 0.6734 +.4872 x i (0.752) (0.989) L evideza empirica supporta l ipotesi che β > 0 ad u livello di sigificatività α 5%? 9
Soluzioe Defiiamo le regioi critica e di accettazioe per il test: R.A. ˆβ/ES( ˆβ) < t 2,α R.C. ˆβ/ES( ˆβ) t 2,α Calcoliamo il t ratio t ratio.4872 0.989.546 Poiché t 6,0.05.746 o possiamo rifiutare l ipotesi ulla β 0 cotro l alterativa β 2 > 0. L ipotesi o è quidi supportata dall evideza empirica ad u livello di sigificatività del 5% Esercizio 5 I dati ella seguete tabella mostrao l idice di produttività (X) e lo stipedio mesile (Y ) di u campioe di dipedeti di u azieda: x i y i.6 0 2 5 3.5 20 3 2 3.2 24 4 30 a) Stimare la relazioe tra la produttività e lo stipedio mesile regrededo liearmete quest ultimo sulla produttività, calcolado ache l R 2. b) Stabilire di quato varia i media il reddito mesile se l idice di produttività cresce di ua uità. c) Prevedere, i base al modello l ammotare dello stipedio mesile per u idice di produttività pari a 2.8. Soluzioe a) Il primo passo da effettuare è calcolare: x i y i x 2 i yi 2 x i y i.6 0 2.56 00 6 2 5 4 225 30 3.5 20 2.25 400 70 3 2 9 44 63 3.2 24 0.24 576 76.8 4 30 6 900 20 Tot 7.3 20 54.05 2642 375.8 Tot/ 2.88333 20 9.00833 440.333 62.6333 0
A questo puto i coefficieti stimati del modello di regressioe soo dati da: ˆβ (y i ȳ)(x i x) (x x iy i xȳ i x) 2 x2 i x2 62.6333 2.8833 20 4.9673 9.0083 2.8833 2 0.6947 7.5028 Sfruttado il fatto che la retta di regressioe passa per il baricetro della distribuzioe (calcolare il valore di y per x x ella retta di regressioe stimata), si può facilmete ricavare lo stimatore dell itercetta ˆα come: ˆα ȳ ˆβ x 20 7.5028 2.88333 0.66668. Per determiare l R 2 si comicia co il calcolare: r XY S xy S 2 x Sy 2 4.9667 0.6947 (440.33 202 ) 4.9667 0.6947 40.333 0.9382, per cui R 2 r 2 XY 0.93822 0.8804 b) Se l idice di produttività (X) cresce di ua uità allora lo stipedio mesile medio aumeterà di 7.49 (β) uità. c) Per effettuare ua previsioe, attraverso il modello di regressioe, ossia per calcolare l ammotare dello stipedio mesile per u particolare valore dell idice di produttività ( x + 2.8), basterà sostituire tale valore el modello stimato: ŷ + ˆα + ˆβ x + otteedo i questo caso ŷ + 0.66668 + 7.5028 2.8 9.4047.
Esercizio 6 Soo stati rilevati su 00 studeti del secodo ao i valori assuti dalle segueti variabili Y umero di esami sosteuti e X ore settimaali passate davati alla televisioe. E risultato che: ȳ 4 x 20 S 2 y 2 Sx 2 60 x i y i 68 i Possiamo prevedere quati esami mediamete supera uo studete che passa davati alla televisioe 22 ore alla settimaa? Se si, quati? Soluzioe Per risolvere il problema si devoo stimare i parametri di u modello di regressioe lieare, per cui ˆβ S xy S 2 x i x iy i ȳ x S 2 x 68 20 4 60 2 60 0.2 Sfruttado il fatto che la retta di regressioe passa per il baricetro della distribuzioe, si può facilmete ricavare lo stimatore dell itercetta ˆα come: ˆα ȳ ˆβ x 4 + 0.2 20 8. Quidi uo studete che passa davati alla televisioe 22 ore alla settimaa passerà mediamete ŷ + ˆα + ˆβ 22 8 0.2 22 3.6 esami. Esercizio 7 i segueti Soo stati rilevati i prezzi di u prodotto i ai diversi. I dati soo Ao 5 0 20 30 60 Prezzo 30 50 20 50 200 2
a) Stimare i parametri α, β e σ 2 di u modello di regressioe e calcolare l idice di determiazioe R 2. b) Prevedere il prezzo del prodotto ell ao 70. c) Si verifichi l ipotesi ulla secodo cui β 0 cotro u alterativa bilaterale ad u livello di sigificatività del 0%. Quato vale il p-valore? Soluzioe a) Quidi Ao (X) 5 0 20 30 60 25 Prezzo (Y ) 30 50 20 50 200 550 x 2 i 25 00 400 900 3600 5025 x i y i 50 500 2400 4500 2000 9550 yi 2 900 2500 4400 22500 40000 80300 x 25 5 25 ȳ 550 5 0 ˆβ x iy i xȳ x2 i x2 9550 5 25 0 5800 5025 5 25 900 3.0526 ˆα ȳ ˆβ x 0 3.0526 25 33.6842 ˆσ 2 ê2 i 2 (y i ˆα ˆβx ( ( )) i ) 2 yi 2 ȳ 2 2 ˆβ 2 x 2 i x 2 /3 ( 80300 5 0 2 3.0526 2 (5025 5 25 2 ) ) /3 2094.737 } {{ } /3 698.2457 ê2 i R 2 ê2 i (y i ȳ) ê2 i 2 y2 i 2094.737 ȳ2 80300 5 0 0.8942 2 b) Il prezzo previsto del prodotto è dato da ŷ + ˆα + ˆβ 70 247.3662 c) Sistema di ipotesi: { H 0 : β 0 H : β 0. 3
Statistica test: T B β 0 ˆσ2 / (x i x) 2 t 2 Valore osservato della statistica: ˆβ 0 t ratio ˆσ2 /( x 2 i x2 ) 3.0526 698.2457/(5025 5 252 ) 5.0355 R.A. ˆβ/ES( ˆβ) < t α/2,3 t α/2,3 < ˆβ/ES( ˆβ) < t α/2,3 2.35 Quidi si rifiuta l ipotesi ulla. Il p-valore è defiito come: 2P (t 3 > 5.0355) Il valore 4.54 è tale che P (t 3 > 4.54 0.0). Il valore 5.84 è tale che P (t 3 > 5.84 0.005). Il p-valore è compreso tra 2 0.005 0. e 2 0.0 0.02. Sulla base del p-valore si accetta l ipotesi ulla al livello di sigificatività 0.0, si rifiuta a livello di sigificatività 0.02. Esercizio 8 (Moore) Sedici studeti volotari dell Uiversit à dell Ohio hao bevuto u determiato umero di birre, assegato casualmete. I sedici studeti erao sia maschi che femmie, differivao per quato riguarda peso e corporatura e avevao comportameti differeti ei cofroti del bere alcolici. Dopo 30 miuti u ufficiale di polizia ha misurato il tasso alcolico del loro sague (TAS) Studete 2 3 4 5 6 7 8 Birre 5 2 9 8 3 7 3 5 TAS 0.0 0.03 0.9 0.2 0.04 0.095 0.07 0.06 Studete 9 0 2 3 4 5 6 Birre 3 5 4 6 5 7 4 TAS 0.02 0.05 0.07 0.0 0.085 0.09 0.0 0.05 Suppoedo che siao soddisfatte tutte le ipotesi del modello lieare classico: a) si utilizzi l aalisi di regressioe per stabilire se esiste ua relazioe lieare tra il umero di birre bevute e il tasso alcolico el sague; b) qual è la percetuale di variabilità spiegata dal modello? c) si verifichi l ipotesi che il umero di birre o ha effetto sul livello di alcol el sague; d) si suppoga che u altro studete partecipi alla prova e che beva 5 birre. Qual è la previsioe putuale del livello di alcol el sague per il diciassettesimo studete? 4
TAS 0.05 0.0 0.5 2 4 6 8 Birre Soluzioe a) Poiamo x i, y i rispettivamete come umero di birre e tasso alcolico dello studete i esimo. Calcoliamo le medie di x, y la codeviaza di x, y 6 x 4.825, ȳ 0.0738, (x i x)(y i x) 0.0049 + 0.230 + 0.4868 + 0.474 +.302 6 x i y i 6 xȳ 0.5 + 0.06 +.7 6 4.825 0.0738 e la deviaza di x 6 6 6.98 5.6788.302 (x i x) 2 0.0352 + 7.902 + 7.5352 + 0.602 + 3.2852 + 72.4375 x 2 i x 2 25 + 4 + 8 + 64 + + 6 6 23.602 72.4375 5
e stimiamo la retta di regressioe Y i α + βx i + ε i,... i, 2,... 6 Otteiamo ˆβ 6 (x i x)(y i x) 6 (x.302 i x) 2 72.4375 0.08 ˆα ȳ ˆβ x 0.027 b) Calcoliamo la deviaza spiegata 6 (ŷ i ȳ) 2 0.0034 2 +( 0.0505) 2 + +( 0.0685) 2 +( 0.046) 2 0.0234 e la deviaza totale (deviaza di y, si precede come per la deviaza di x) e quidi 6 (y i ȳ) 2 0.0292 R 2 0.0234 0.0292 0.7998 Possimo calcolare l idice di determiazioe usado la deviaza dei residui, che è data da 6 (y i ŷ i ) 2 Ifie è: 6 6 (y i ˆα + ˆβx i ) 2 (0.0229) 2 + (0.0068) 2 + + (0.0047) 2 + ( 0.0092) 2 0.0058 ê 2 i dev(y) ˆβ 2 dev(x) 0.0058 R 2 0.058 0.0292 0.7998 c) La ostra ipotesi può essere formalizzata come segue: H 0 : β 0 verso H : β > 0 Calcoliamo l errore stadard di ˆβ, che idichiamo co ES( ˆβ) 6 ˆσ 2 ê2 i 2 0.0058 0.00042, ES( 4 ˆβ) ˆσ 2 (x i x) 0.0024 2 6
Abbiamo quidi R.C. : ˆβ/ES( ˆβ) > t 2,α 2.977 ˆβ 0.08 t ratio ES( ˆβ) 0.0024 7.4796 Poiché t 4,α 2.977 per il livello di sigificatività α 0.005, rifiutiamo l ipotesi ulla, cioè β sigificativameto diverso da zero. d) Il livello di alcol el sague prodotto da 5 lattie per il diciassettesimo studete è dato da yˆ 7 0.027 + 0.08 5 0.077 Esercizio 9 Due ecoomisti, Paola e Roberto, hao raccolto 50 osservazioi auali del tasso di disoccupazioe y e del tasso di iflazioe x (dati espressi i percetuale) e desiderao studiare la relazioe tra queste due variabili. Paola e Roberto hao elaborato le segueti statistiche: 50 50 50 50 y i 2.; yi 2 8.64; 50 50 50 50 x i 5.08; x 2 i 33.44 50 50 x i y i 6.37; a) Ricavare, col metodo dei miimi quadrati, ua stima dei parametri del modello di regressioe co variabile risposta y e variabile esplicativa x. La stima del coefficiete β della retta di regressioe dei miimi quadrati è pari a ˆβ S xy S 2 x 6.37 2. 5.08 33.44 5.08 2 4.35 7.63 0.57 metre la stima dell itercetta è ˆα ȳ ˆβ x 2. + 0.57 5.08 5.0 dove, come d uso, x e ȳ idicao le medie dei valori rilevati di x e y, S 2 x e S 2 y le rispettive variaze campioarie, S xy la covariaza campioaria. 7
b) Qual è la percetuale della variabilità del tasso di disoccupazioe spiegata dal tasso di iflazioe? Possiamo calcolare l R 2 co la seguete formula R 2 ˆβ 2 S 2 x S 2 y 0.572 7.63 8.64 2. 2 2.48 4.9 0.59 Dal mometo che R 2 0.59, abbiamo che il 59% della variabilità del tasso di disoccupazioe è spiegata dalla relazioe lieare co il tasso di iflazioe. c) Sulla base del modello stimato, quale valore del tasso di disoccupazioe ci aspettiamo i corrispodeza di u tasso di iflazioe pari al 2.5%? La stima del valore atteso del tasso di disoccupazioe i corrispodeza di u tasso di iflazioe pari al 3% sarà pari a ˆα + ˆβ 3 5.0 0.57 2.5 3.59% dato che etrambe le variabili soo espresse i percetuale. d) Paola ritiee che se il tasso di iflazioe aumeta di u puto, è lecito attedersi che il tasso di disoccupazioe avrà u decremeto circa pari a 0.6 puti. Roberto o è d accordo e sostiee che se il tasso di iflazioe decremeta di u puto, l icremeto atteso del tasso di disoccupazioe sarà itoro ai 0.4 puti. Formalizza sia l opiioe di Paola che quella di Roberto ei termii di u ipotesi ulla sul valore icogito del coefficiete agolare β. Dato che abbiamo assuto che la relazioe tra il tasso di disoccupazioe e il tasso di iflazioe sia lieare, si ottiee facilmete che E( y) β x, dove y e x idicao, rispettivamete, le variazioi del tasso di disoccupazioe e del tasso di iflazioe. Ne segue che l ipotesi ulla di Paola è H 0 : β 0.6 metre quella di Roberto è H 0 : β 0.4 8
e) Vogliamo cofrotare sia l ipotesi ulla di Paola che quella di Roberto cotro l ipotesi alterativa che il valore di β sia diverso da quello che oguo di loro ha assuto come vero. I base ai rispettivi test di verifica delle ipotesi, possiamo accettare almeo ua delle due ipotesi ad u livello di sigificatività del 5%? Per calcolare il valore della statistica test è ecessario i primo luogo calcolare lo stimatore corretto delle variaza degli errori. Avedo già calcolato l idice R 2, possiamo fare uso della seguete formula ˆσ 2 2 ( R2 )Sy 2 50 ( 0.59)4.9.79 48 Possiamo duque calcolare l errore stadard di ˆβ ES( ˆβ) ˆσ 2.79 50 7.63 0.07 S 2 x Il valore della statistica test per l ipotesi ulla di Paola è allora pari a t P aola ˆβ + 0.6 0.57 + 0.6 ES( ˆβ) 0.07 0.43, metre el caso dell ipotesi ulla di Roberto si ottiee t Roberto ˆβ + 0.6 0.57 + 0.4 ES( ˆβ) 0.07 2.43. Teedo presete che etrambe le statistiche test hao ua distribuzioe t(48) sotto le rispettive ipotesi ulle, cocludiamo, i base all opportuo valore critico desuto dalle tavole, che l ipotesi ulla di Roberto è rifiutata al 5%, a differeza di quella di Paola. 9