Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 45

Outline 1 2 3 4 5 () Statistica 2 / 45

Modello di In molte applicazioni il ruolo delle variabili x ed Y non è lo stesso, in particolare, assegnato un certo valore al predittore x (indicato pertanto con la lettera minuscola), il valore che Y assume dipende in qualche modo da x. La relazione più tra le variabili è quella, e il modello corrispondente è Y = β 0 + β 1 x; tale modello presuppone che, stabiliti i parametri β 0 e β 1, sia possibile determinare esattamente il valore di Y conoscendo il valore di x: salvo eccezioni, questo non si verifica mai. Il modello Alla determinazione del valore di Y, oltre che la componente deterministica β 0 + β 1 x, concorre anche una componente casuale detta errore non osservabile ɛ, una variabile casuale con media 0 Y = β 0 + β 1 x + ɛ. Analogamente, la relazione di può essere espressa in termini di valore atteso E[Y x] = β 0 + β 1 x. poichè E[ɛ] = 0. () Statistica 3 / 45

Modello di Si consideri di voler analizzare la relazione tra il peso del rullo di un taglia erba e l entità della depressione riscontrata nel prato da tagliare. Sia Y la depressione (depression) e x il peso del rullo utilizzato (weight). Per vedere se l utilizzo del sia ragionevole in questo caso occorre raccogliere delle coppie di osservazioni (x i, y i ) e rappresentarle graficamente attraverso il diagramma di dispersione. units weight depression 1 1.9 2.0 2 3.1 1.0 3 3.3 5.0 4 4.8 5.0 5 5.3 20.0 6 6.1 20.0 7 6.4 23.0 8 7.6 10.0 9 9.8 30.0 10 12.4 25.0 Il diagramma di dispersione (scatter plot) () Statistica 4 / 45

La La La fornisce una approssimazione della dipendenza dei valori di Y dai valori di X. La relazione di dipendenza non è esattamente riprodotta dalla retta; i valori ŷ i = β 0 + β 1 x i sono dunque i valori teorici, ovvero i valori che la variabile Y assume, secondo il modello Y = β 0 + β 1 x, in corrispondenza dei valori x i osservati. Le differenze e i tra i valori teorici ŷ i e i valori osservati y i vengono definite residui. Questo perchè per ciascuna osservazione il modello è dato da y i = β 0 + β 1 x i }{{} + ɛ i }{{} comp. deterministica comp. casuale Determinazione della rette passanti per la nube di punti L identificazione della retta avviene attraverso la determinazione dei valori di B 0, e B 1, stime dell intercetta e del angolare o pendenza, rispettivamente. La retta migliore è quella che passa più vicina ai punti osservati. In altre parole, si vuole trovare la retta per la quale le differenze tra i valori teorici ŷ i e i valori osservati y i siano minime. () Statistica 5 / 45

La Metodo dei minimi quadrati La è tale che la somma dei residui al quadrato sia minima. Formalmente e 2 i = n (y i ŷ i ) 2 = (y i B 0 B 1 x i ) 2 Il problema consiste dunque nel ricercare B 0 e B 1 che minimizzano la precedente espressione. Da un punto di vista operativo bisogna risolvere il seguente sistema di equazioni (condizioni del primo ordine o stazionarietà). (y i B 0 B 1 x i ) 2 = 0 B 0 (y i B 0 B 1 x i ) 2 = 0 B 1 Nota: si tratta di punti di minimo perchè le derivate seconde B0 B 0 f(b 0, B 1 ) = 2( n), B1 B 1 f(b 0, B 1 ) = 2 n i ( x 2 i ) sono sempre non negative. Stimatori dei parametri della :(B 0 ) 2 (y i B 0 B 1 x i ) = n y i n B 0 B 1 x i = 0 B 0 = ȳ B 1 x () Statistica 6 / 45

La I residui le differenze tra i valori stimati ŷ i e i valori osservati y i vengono definite residui. La è tale che la somma dei residui al quadrato sia minima. Formalmente RSS = e 2 i = n (y i ŷ i ) 2 = = (y i B 0 B 1 x i ) 2 RSS (residual sum of squares) Stimatori dei parametri della :(B 1 ) 2 x i (y i B 0 B 1 x i ) = 0 n n x i y i B 0 x i B 1 x 2 i = 0 n B 1 x 2 n ( i = n y n ) i x i x i y i x i B 1 n n B 1 (n x 2 n ) i ( x i ) 2 n = n x i y i x i y i B 1 = n n x i y i n x i n y i n n x 2 i ( n x i ) 2 = σxy σ 2 x () Statistica 7 / 45

Determinazione della...statistiche descrittive 10 x = x i = 6.07 ȳ = 10 10 s x = (x i x)2 10 10 y i 10 = 3.04 s y = 10 s xy = (x i x)(y i ȳ) = 24.7 10 r xy = σxy σxσy = 0.8 = 14.1 10 (y i ȳ)2 = 10.1 10 () Statistica 8 / 45

Determinazione della Calcolo dei coefficienti Richiamando le quantità calcolate in precedenza e le formule per il calcolo dei parametri si ha B 1 = σxy σx 2 = 2.66 B 0 = ȳ B 1 x = 14.1 (2.66 6.07) = 2.04 Y = 2.04 + 2.66x rappresenta la stimata La retta migliore () Statistica 9 / 45

Interpretazione dei valori dei coefficienti di B 0 rappresenta l intercetta della ed indica il valore della variabile di risposta Y quando il predittore x assume valore 0. B 1 rappresenta l inclinazione della, ovvero la variazione della variabile di risposta Y in conseguenza di un aumento unitario del predittore x. () Statistica 10 / 45

modello Il è Y = β 0 + β 1 x + ɛ e l errore non osservabile ɛ è una variabile aleatoria con valore atteso pari a 0. Per poter fare inferenza sono necessarie alcune assunzioni: la variabile aleatoria ɛ i si distribuisce come una Normale di parametri 0 e σ 2 : dunque la varianza dell errore non osservabile ɛ i non dipende dal predittore x i ; cov(ɛ i, ɛ j ) = 0, i j (i, j = 1,..., n), questo comporta che la risposta relativa al predittore x i è indipendente da quella relativa al predittore x j ; x è nota e non stocastica (priva di errore); dalle precedenti assunzioni segue che i la variabile di risposta Y i si distribuisce secondo una Normale di parametri E[Y i ] = β 0 + β 1 x i e var(y i ) = σ 2. () Statistica 11 / 45

modello fonte: Statistics for Business and Economics (Anderson, Sweeney and Williams, (2011)) () Statistica 12 / 45

Lo stimatore σ 2 La quantità σ 2 è incognita e deve essere stimata a partire dai dati. A questo scopo si consideri che la standardizzazione di Y i si distribuisce secondo una normale Y i E[Y i ] var(yi ) = Y i (β 0 + β 1 x i ). σ La somma dei quadrati delle Y i standardizzate è n (Y i β 0 β 1 x i ) 2 σ 2 ed essendo la somma di n normali standardizzate indipendenti, si distribuisce come una variabile aleatoria chi-quadro con n gradi di libertà. Sostituendo i parametri β 0 e β 1 con gli stimatori dei minimi quadrati B 0 e B 1 la precedente diventa n (Y i B 0 B 1 x i ) 2 σ 2 è un chi-quadro con n-2 gradi di libertà, in quanto si perde un grado di libertà per ogni parametro stimato. () Statistica 13 / 45

Lo stimatore σ 2 Il numeratore della precedente rappresenta la somma dei quadrati dei residui (Y i B 0 B 1 x i ) 2 = e 2 = RSS; da quanto trovato in precedenza, la quantità RSS σ 2 è un chi-quadro con n-2 gradi di libertà. Poichè il valore atteso di un chi-quadro è uguale ai gradi di libertà possiamo scrivere [ ] E[RSS] RSS σ 2 = n 2 da cui E = σ 2, n 2 lo stimatore σ 2 è dunque RSS. Lo stimatore dello scarto n 2 quadratico medio σ viene definito errore standard della stima e corrisponde a RSS n 2. () Statistica 14 / 45

Verifica dell ipotesi che β 1 = 0 Un ipotesi molto importante da verificare nel è che il sia pari a 0: se infatti β 1 = 0 allora la variabile di risposta non dipende dal predittore, in altre parole non c è sul predittore. Per ottenere il test H 0 : β 1 = 0 vs H 1 : β 1 0 è necessario studiare la distribuzione dello stimatore B 1 di β 1 : se B 1 si discosta da 0 allora si rifiuta H 0, altrimenti non si rifiuta. Ma di quanto B 1 deve discostarsi da 0? A questo scopo si consideri che B 1 si distribuisce come una Normale e occorre definirne i parametri. () Statistica 15 / 45

Verifica dell ipotesi che β 1 = 0 Si consideri la seguente formalizzazione alternativa dello stimatore B 1 B 1 = σxy σ 2 x = n = (x i x) ( Y i Ȳ ) /n n n (x i x) 2 = (x i x) ( Y i Ȳ ) /n n (x i x) 2 = =0 {}}{ n [ (xi x) Y i (x i x) Ȳ ] n (x i x) Y i Ȳ (x i x) n (x i x) 2 = n (x i x) 2 = ( ) (x i x) = n (x i x) 2 Y i = δ i Y i }{{} ponendo tale quantità=δ i () Statistica 16 / 45

Verifica dell ipotesi che β 1 = 0 Due relazioni interessanti che riguardano δ i : δ i = n [ δi 2 = = (x i x) n (x i x) 2 = 1 n (x i x) 2 (x i x) n (x i x) 2 ] 2 = 1 n (x i x) 2 { =0 }} { 1 [ n (x i x) 2] 2 (x i x) = 0 (x i x) 2 = () Statistica 17 / 45

Verifica dell ipotesi che β 1 = 0 E a questo punto possibile dimostrare che lo stimatore B 1 di β 1 è non distorto. [ n ] E[B 1 ] = E δ i Y i = δ i E [Y i ] = }{{} β 0 +β 1 x i n n = δ i β 0 + β 1 δ i x i = β 1 }{{} =0 = β 1 1 n (x i x) 2 = β 1 1 n (x i x) 2 }{{} (x δ i = i x) n (x i x) 2 n δ i (β 0 + β 1 x i ) = ( (x i x) n (x i x) 2 ) x i = 1 n (x i x) x i = β 1 n (x i x) 2 x 2 i x n x i = }{{} =n x n x 2 i n x2 }{{} = n (x i x) 2 = β 1 n (x i x) 2 n (x i x) 2 = β 1 () Statistica 18 / 45

Verifica dell ipotesi che β 1 = 0 La varianza dello stimatore B 1 è data da var (B1) = var δ i Y i = ( poichè se Z = by, b è una costante, var(z) = b2 var(y i )) }{{} = costante = (δ i ) 2 σ 2 var(y i ) = }{{} n (x i x) 2 }{{} =σ 2 = 1 n (x i x) 2 () Statistica 19 / 45

Verifica dell ipotesi che β 1 = 0 la Normale standard n (x i x) 2 σ 2 (B 1 β 1 ) non consente ancora di costruire una statistica test perchè è ancora presente il parametro incognito σ 2 : tuttavia si può stimare tale parametro attraverso RSS n 2 che, come visto in precedenza, si distribuisce secondo un chi-quadrato con n-2 gradi di libertà; sostituendo a σ 2 il suo stimatore si ha (n 2) n (x i x) 2 (B 1 β 1 ). RSS Poichè questa quantità ha al numeratore una Normale standard ed al denominatore un chi-quadro rapportato ai propri gradi di libertà, si distribuisce come una distribuzione t di student con n-2 gradi di libertà. () Statistica 20 / 45

Verifica dell ipotesi che β 1 = 0 A questo punto la statistica test da utilizzare sotto H 0 (β 1 = 0) è (n 2) n ST = (x i x) 2 B 1 t n 2 RSS Il test di livello α di H 0 è ha la seguente regola di decisione: se ST t n 2,α/2 allora si rifiuta H 0 se ST < t n 2,α/2 allora non si rifiuta H 0 Nell esempio roller, il valore della statistica test è ST = 3.808, il p value corrispondente è 0.00518. () Statistica 21 / 45

Intervallo di confidenza su β 1 A partire dalla statistica test per il test su β 1, è possibile definire l intervallo di confidenza, i cui estremi sono: RSS B 1 ± t (α/2,n 2) (n 2) n (x i x) 2 }{{} var(b1 ) con riferimento all esempio roller, gli estremi dell intervallo sono, ad un livello di confidenza del 95% sono [1.05, 4.28]. () Statistica 22 / 45

Bontà di adattamento e diagnostica Una volta stimato il, è necessario misurare la bontà dell adattamento del modello ai dati e analizzare i residui per controllare che le assunzioni di normalità con media nulla e varianza costante dei residui siano rispettate. Strumenti analitici: di determinazione R 2 Strumenti grafici: plot dei residui plot variabili esplicative vs. residui: in caso di relazione non nella configurazione dei punti allora la relazione con la variabile esplicativa potrebbe non essere di primo grado (), ma di grado superiore; plot valori stimati dal modello vs. residui: se i residui aumentano all aumentare dei valori stimati dal modello, allora potrebbe essere necessario effettuare una trasformazione della variabile di risposta; Normal probability plot: confronto tra i quantili della distribuzione dei residui osservati e quella di una normale standardizzata; () Statistica 23 / 45

Plot dei residui Perchè la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Y ed X è necessario che i residui abbiano un andamento casuale rispetto ai valori della x. Se, ad esempio, all aumentare dei valori della x aumentassero sistematicamente anche i residui, allora la relazione potrebbe non essere non : la ne sarebbe dunque una cattiva approssimazione. variabili esplicative vs residui Per verificare che l andamento dei residui sia effettivamente casuale rispetto ad x, è possibile utilizzare un diagramma di dispesione tra i valori x i ed i corrispondenti residui e i (i = 1,..., n) () Statistica 24 / 45

Plot dei residui Perchè la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Y ed x è necessario che i residui abbiano un andamento casuale rispetto ai valori della x. Se, ad esempio, all aumentare dei valori della x aumentassero sistematicamente anche i residui, allora la relazione potrebbe non essere non : la ne sarebbe dunque una cattiva approssimazione. valori stimati ŷ vs residui () Statistica 25 / 45

Quantile-quantile plot Per controllare che l assunzione della normalità dei residui sia rispettata si ricorre al confronto tra i quantili della distribuzione Normale standard ed i quantili della distribuzione dei residui osservati. Q-Q plot Quanto più i punti del grafico risultano allineati lungo la bisettrice del primo quadrante, tanto migliore sarà l adattamento dei residui osservati alla distribuzione normale. () Statistica 26 / 45

di determinazione R 2 Ricordando che la devianza il numeratore... SS y = (y i ȳ) 2 = (y i ŷ i + ŷ i ȳ) 2 = = (y i ŷ i ) 2 + (ŷ i ȳ) 2 + 2 (y i ŷ i )(ŷ i ȳ) = (y i ŷ i ) 2 + (ŷ i ȳ) 2 + 2( y i ŷ i )( ŷ i nȳ) Poiché ŷ i è una trasformazione di x i, allora dunque µŷ = ȳ µŷ = B 0 + B 1 x = (ricordando che B 0 = ȳ B 1 x) n ŷ i n = ȳ B 1 x +B 1 x = ȳ } {{ } B 0 = n y i n da cui n ŷ i n y i = 0, quindi SS y = (y i ŷ i ) 2 + (ŷ i ȳ) 2 + 2 0 ( ŷ i nȳ) = (ŷ i ȳ) 2 + (y i ŷ i ) 2 = SS r + RSS () Statistica 27 / 45

Decomposizione della devianza La devianza può essere decomposta dunque nelle seguenti quantità SS y = SS r + RSS SS y = n (y i ȳ) 2 devianza totale SS r = n (ŷ i ȳ) 2 devianza di RSS = n (y i ŷ i ) 2 devianza dei residui Interpretazione grafica () Statistica 28 / 45

Bontà dell adattamento Intituitivamente, l adattamento della retta è migliore quanto maggiore sarà proporzione di variabilità totale che la riesce a spiegare; ovvero, l adattamento della retta è migliore quanto minore sarà la variabilità residua. Una misura di come il modello approssima i dati osservati è data dal di determinazione R 2, dato da ovvero esempio di calcolo R 2 n R 2 = SSr (ŷ i µ y) 2 = SS n y (y i µ y) 2 R 2 = 1 RSS SS y n (y i ŷ i ) 2 = 1 n (y i µ y) 2 ovvero SS y = n (y i ȳ) 2 = 1020.9 SS r = n (ŷ i ȳ) 2 = 657.97 RSS = n (y i ŷ i ) 2 = 362.93 R 2 = SSr SS y = 657.97 1020.9 = 0.64 R 2 = 1 RSS = 1 282.1862 = 1 0.36 = 0.64 SS y 5058.4 () Statistica 29 / 45

Bande di confidenza e di previsione Utilizzo del modello per stima e previsione Se il modello stimato si adatta bene ai dati e se la relazione tra Y e X è significativa, si può utilizzare la stimata per la stima e la previsione. Banda di confidenza La banda di confidenza è composta dalle stime intervallari, ognuna costruita sul valore atteso di Y dato il valore corrispondente di x i. Banda di previsione La banda di previsione è composta dalle stime intervallari, ognuna costruita sul singolo valore di Y dato il valore corrispondente di x i. () Statistica 30 / 45

Bande di confidenza e di previsione...qualche definizione x p è un valore specifico assunto dalla variabile indipendente X; y p è il valore assunto da Y quando X = x p ; E [y p ] è il valore atteso di Y quando X = x p ; ŷ p = B 0 + B 1 x p, il valore stimato dalla, dunque è la stima di E [x p ] per X = x p. () Statistica 31 / 45

Bande di confidenza e di previsione Intervallo di confidenza su E[Y X = x p] = E[y p] Per costruire lo stimatore intervallare su E[y p] dato che X = x p è necessario stimarne la varianza, lo stimatore in questione è [ ] s 2 ŷ p = RSS 1 n 2 n + (x p x) 2 n (x i x) 2 pertanto l intervallo di confidenza è dato da ŷ p ± t α 2,(n 2)sŷp () Statistica 32 / 45

Bande di confidenza e di previsione Intervallo di previsione su y p Per costruire lo stimatore intervallare su y p è necessario stimarne la varianza, lo stimatore in questione consiste di due componenti la varianza RSS n 2 di un singolo di valore Y rispetto alla sua media E[yp] la varianza associata all utilizzo di un singolo valore ŷ p per stimare E[y p] (già stimata in precedenza s 2 ŷ p ) s 2 singolo = RSS n 2 + s2 ŷ p pertanto l intervallo di previsione è dato da ŷ p ± t α 2,(n 2)s singolo () Statistica 33 / 45

Intervallo di confidenza su E(y p ) Bande di confidenza () Statistica 34 / 45

Intervallo di previsione Bande di previsione () Statistica 35 / 45

Bande di confidenza e previsione () Statistica 36 / 45

distribuzione doppia di frequenze Si consideri di aver osservato su 10 rivenditori di componenti informatiche le variabili numero di punti vendita e Fatturato settimanale complessivo. Si studi la dipendenza del fatturato dal numero di punti vendita. fino a 2 tra 2 e 4 tra 4 e 6 fino a 5000 3 2 0 tra 5000 e 10000 1 2 2 Si stimino i coefficienti della. Si valuti la bontà di adattamento della retta ai dati. () Statistica 37 / 45

distribuzione doppia di frequenze Essendo le modalità delle variabili qualitative espresse in intervalli di valori, è necessario fare riferimento ai centri di ciascun intervallo. La tabella è dunque data da Y /X 1 3 5 Tot 2500 3 2 0 5 7500 1 2 2 5 Tot 4 4 2 10 Le medie aritmetiche si ottengono a partire dalle distribuzioni marginali di frequenze: µ x = 1 k x j n.j = 1 4 + 12 + 10 (1 4) + (3 4) + (5 2) = = 2.6 n j=1 10 10 µ y = 1 h y i n i. = 1 12500 + 37500 (2500 5) + (7500 5) = = 5000 n 10 10 dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella. () Statistica 38 / 45

: distribuzione doppia di frequenze Per calcolare le varianze si fa riferimento agli scarti dalla media al quadrato Y /X (1 2.6) 2 (3 2.6) 2 (5 2.6) 2 Tot (2500 5000) 2 3 2 0 5 (7500 5000) 2 1 2 2 5 Tot 4 4 2 10 Le varianze si ottengono a partire dalle distribuzioni marginali di frequenze: σ 2 x = 1 k (x j µ x) 2 n.j = 1 n j=1 10 ((1 2.6)2 4) + ((3 2.6) 2 4)+ + ((5 2.6) 2 10.24 + 0.64 + 11.52 2) = = 2.24 10 σ 2 y = 1 h (y i µ y) 2 n i. = 1 n 10 (2500 5)2 + (7500 5) 2 31250000 + 31250000 = = 6250000 10 dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella. () Statistica 39 / 45

Esercizio : distribuzione doppia di frequenze Per calcolare la covarianza si deve fare riferimento alle distribuzioni condizionate di frequenza. Y /X (1 2.6) (3 2.6) (5 2.6) Tot (2500 5000) 3 2 0 5 (7500 5000) 1 2 2 5 Tot 4 4 2 10 y i x i y i µ y x i µ x 2500 1 (2500-5000) (1-2.6) 2500 1 (2500-5000) (1-2.6) 2500 1 (2500-5000) (1-2.6) 2500 3 (2500-5000) (3-2.6) 2500 3 (2500-5000) (3-2.6) 7500 1 (7500-5000) (1-2.6) 7500 3 (7500-5000) (3-2.6) 7500 3 (7500-5000) (3-2.6) 7500 5 (7500-5000) (5-2.6) 7500 5 (7500-5000) (5-2.6) σ xy = 1 h k (y i µ y) (x j µ x) n ij = n j=1 = 1 ((2500 5000)(1 2.6) 3 + (2500 5000)(3 2.6) 2+ 10 + (7500 5000)(1 2.6) 1 + (7500 5000)(3 2.6) 2+ 12000 2000 4000 + 2000 + 12000 + (7500 5000)(5 2.6) 2) = = 2000 10 () Statistica 40 / 45

Esercizio : distribuzione doppia di frequenze Avendo calcolato le quantità µ x = 2.6, µ y = 5000, σ 2 x = 2.24 e σ xy = 2000, è possibile calcolare i coefficienti della Calcolo dei coefficienti b 1 = σxy = 2000 σx 2 2.24 = 892.571 b 0 = µ y b 1 µ x = 5000 (892.571 2.6) = 2679.315 quindi l equazione della è y = b 0 + b 1 x = 2679.315 + 892.571x Dunque, il valore stimato ŷ i corrispondente ad un valore x i assegnato è ŷ i = b 0 + b 1 x. () Statistica 41 / 45

Valutazione della bontà di adattamento Ricordando che ovvero n R 2 = Devr (ŷ i ȳ) 2 = Dev n y (y i ȳ) 2 n R 2 = 1 Deve (y i ŷ i ) 2 = 1 Dev n y (y i ȳ) 2 con Dev y = Dev r + Dev e SS y = n (y i ȳ) 2 devianza totale SS r = n (ŷ i ȳ) 2 devianza di RSS = n (y i ŷ i ) 2 devianza dei residui Per ottenere R 2, misura della bontà di adattamento, si deve calcolare solo la devianza dei residui, avendo già calcolato σ 2 y. () Statistica 42 / 45

Calcolo della devianza dei residui RSS = n (y i ŷ i ) 2 devianza dei residui in base alla stimata, i valori ŷ i stimati in funzione dei valori x i sono ŷ 1 = b 0 + b 1 x 1 = 2679.315 + 892.571 1 = 3571.886 ŷ 2 = b 0 + b 1 x 2 = 2679.315 + 892.571 3 = 5357.028 ŷ 3 = b 0 + b 1 x 3 = 2679.315 + 892.571 5 = 7142.17 () Statistica 43 / 45

Calcolo della devianza dei residui Per calcolare i residui y i ŷ i nel caso di si procede come segue y i /ŷ j ŷ 1 = 3571.886 ŷ 2 = 5357.028 ŷ 3 = 7142.17 Tot y 1 = 2500 3 2 0 5 y 2 = 7500 1 2 2 5 Tot 4 4 2 10 RSS = h k ((y i ŷ j ) 2 ) n ij devianza dei residui per tabella doppia calcolo della devianza dei residui h k RSS = ((y i ŷ j ) 2 ) n ij = ((2500 3571.886) 2 ) 3 + ((2500 5357.028) 2 ) 2+ j=1 + ((7500 3571.886) 2 ) 1 + ((7500 5357.028) 2 ) 2 + ((7500 7142.17) 2 ) 2 = = 44642859 SS y = (y i ȳ) 2 = σ 2 y n = 6250000 10 = 62500000 R 2 = 1 RSS SS y = 1 0.71 = 0.29 () Statistica 44 / 45

Verifica dell ipotesi che β 1 = 0 A questo punto il valore della statistica test (stimatore standardizzato di β 1 ) è (n 2) n ST = (x i x) 2 (10 2)22.4 B 1 = 2679.315 = 5.37 RSS 44642859 Tenuto conto del fatto che 10 (x i x) 2 = n σ 2 = 10 2.24 = 22.4. Poiché il p value corrispondente è 2 0.0003, non si può rifiutare H 0. () Statistica 45 / 45