Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

Documenti analoghi
Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza

Analisi statistica e matematico-finanziaria II. Alfonso Iodice D Enza Università degli studi di Cassino e del Lazio Meridionale

Regressione Lineare Semplice e Correlazione

STATISTICA A K (60 ore)

Statistica. Alfonso Iodice D Enza

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Statistica. Alfonso Iodice D Enza

Statistica 1 A.A. 2015/2016

Regressione lineare semplice

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Lezione 17. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 17. A. Iodice

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Test F per la significatività del modello

Esercitazione del

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Esercizi di statistica

Statistica Applicata all edilizia: il modello di regressione

Analisi della varianza

Dispensa di Statistica

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza

REGRESSIONE E CORRELAZIONE

Contenuti: Capitolo 14 del libro di testo

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Analisi statistica e matematico-finanziaria II. Alfonso Iodice D Enza Università degli studi di Cassino e del Lazio Meridionale

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

ESERCITAZIONE IV - Soluzioni

Statistica. Alfonso Iodice D Enza

Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili

ESAME. 9 Gennaio 2017 COMPITO B

Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

La regressione lineare. Rappresentazione analitica delle distribuzioni

Casa dello Studente. Casa dello Studente

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

Statistica multivariata Donata Rodi 17/10/2016

Statistica. Alfonso Iodice D Enza

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

x ;x Soluzione Gli intervalli di confidenza possono essere ottenuti a partire dalla seguente identità: da cui si ricava: IC x ;x = +

La verifica delle ipotesi

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

STATISTICA ESERCITAZIONE 13

METODO DEI MINIMI QUADRATI

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

Esercitazione 5 Sta/s/ca Aziendale

Capitolo 6. La distribuzione normale

Analisi della regressione multipla

Stima dei parametri di modelli lineari

Esercitazione 8 del corso di Statistica 2

ANALISI DELLE SERIE STORICHE

Capitolo 6 La distribuzione normale

Intervalli di confidenza

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 4

Corso di Statistica Industriale

Esercizio 2: voto e ore dedicate allo studio

Ulteriori conoscenze di informatica Elementi di statistica Esercitazione3

Cognome e Nome:... Corso di laurea:...

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

I appello di calcolo delle probabilità e statistica

Lezione 4. Statistica. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Lezione 4. A. Iodice. Indici di posizione.

Schema lezione 5 Intervalli di confidenza

Esercizi di Probabilità e Statistica

Statistical Process Control

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Analisi della varianza

Argomenti della lezione:

Cognome e Nome:... Matricola e corso di laurea:...

05. Errore campionario e numerosità campionaria

PROBABILITÀ ELEMENTARE

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Premessa: la dipendenza in media

Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23

Istituzioni di Statistica e Statistica Economica

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Università degli studi della Tuscia. Principi di Statistica dr. Luca Secondi A.A. 2014/2015. Esercitazione di riepilogo Variabili casuali

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Distribuzioni e inferenza statistica

Esercizi geometria analitica nello spazio. Corso di Laurea in Informatica. Docente: Andrea Loi. Correzione

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

Ringraziamenti dell Editore

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

INFERENZA STATISTICA I (CANALE B)

Transcript:

Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 45

Outline 1 2 3 4 5 () Statistica 2 / 45

Modello di In molte applicazioni il ruolo delle variabili x ed Y non è lo stesso, in particolare, assegnato un certo valore al predittore x (indicato pertanto con la lettera minuscola), il valore che Y assume dipende in qualche modo da x. La relazione più tra le variabili è quella, e il modello corrispondente è Y = β 0 + β 1 x; tale modello presuppone che, stabiliti i parametri β 0 e β 1, sia possibile determinare esattamente il valore di Y conoscendo il valore di x: salvo eccezioni, questo non si verifica mai. Il modello Alla determinazione del valore di Y, oltre che la componente deterministica β 0 + β 1 x, concorre anche una componente casuale detta errore non osservabile ɛ, una variabile casuale con media 0 Y = β 0 + β 1 x + ɛ. Analogamente, la relazione di può essere espressa in termini di valore atteso E[Y x] = β 0 + β 1 x. poichè E[ɛ] = 0. () Statistica 3 / 45

Modello di Si consideri di voler analizzare la relazione tra il peso del rullo di un taglia erba e l entità della depressione riscontrata nel prato da tagliare. Sia Y la depressione (depression) e x il peso del rullo utilizzato (weight). Per vedere se l utilizzo del sia ragionevole in questo caso occorre raccogliere delle coppie di osservazioni (x i, y i ) e rappresentarle graficamente attraverso il diagramma di dispersione. units weight depression 1 1.9 2.0 2 3.1 1.0 3 3.3 5.0 4 4.8 5.0 5 5.3 20.0 6 6.1 20.0 7 6.4 23.0 8 7.6 10.0 9 9.8 30.0 10 12.4 25.0 Il diagramma di dispersione (scatter plot) () Statistica 4 / 45

La La La fornisce una approssimazione della dipendenza dei valori di Y dai valori di X. La relazione di dipendenza non è esattamente riprodotta dalla retta; i valori ŷ i = β 0 + β 1 x i sono dunque i valori teorici, ovvero i valori che la variabile Y assume, secondo il modello Y = β 0 + β 1 x, in corrispondenza dei valori x i osservati. Le differenze e i tra i valori teorici ŷ i e i valori osservati y i vengono definite residui. Questo perchè per ciascuna osservazione il modello è dato da y i = β 0 + β 1 x i }{{} + ɛ i }{{} comp. deterministica comp. casuale Determinazione della rette passanti per la nube di punti L identificazione della retta avviene attraverso la determinazione dei valori di B 0, e B 1, stime dell intercetta e del angolare o pendenza, rispettivamente. La retta migliore è quella che passa più vicina ai punti osservati. In altre parole, si vuole trovare la retta per la quale le differenze tra i valori teorici ŷ i e i valori osservati y i siano minime. () Statistica 5 / 45

La Metodo dei minimi quadrati La è tale che la somma dei residui al quadrato sia minima. Formalmente e 2 i = n (y i ŷ i ) 2 = (y i B 0 B 1 x i ) 2 Il problema consiste dunque nel ricercare B 0 e B 1 che minimizzano la precedente espressione. Da un punto di vista operativo bisogna risolvere il seguente sistema di equazioni (condizioni del primo ordine o stazionarietà). (y i B 0 B 1 x i ) 2 = 0 B 0 (y i B 0 B 1 x i ) 2 = 0 B 1 Nota: si tratta di punti di minimo perchè le derivate seconde B0 B 0 f(b 0, B 1 ) = 2( n), B1 B 1 f(b 0, B 1 ) = 2 n i ( x 2 i ) sono sempre non negative. Stimatori dei parametri della :(B 0 ) 2 (y i B 0 B 1 x i ) = n y i n B 0 B 1 x i = 0 B 0 = ȳ B 1 x () Statistica 6 / 45

La I residui le differenze tra i valori stimati ŷ i e i valori osservati y i vengono definite residui. La è tale che la somma dei residui al quadrato sia minima. Formalmente RSS = e 2 i = n (y i ŷ i ) 2 = = (y i B 0 B 1 x i ) 2 RSS (residual sum of squares) Stimatori dei parametri della :(B 1 ) 2 x i (y i B 0 B 1 x i ) = 0 n n x i y i B 0 x i B 1 x 2 i = 0 n B 1 x 2 n ( i = n y n ) i x i x i y i x i B 1 n n B 1 (n x 2 n ) i ( x i ) 2 n = n x i y i x i y i B 1 = n n x i y i n x i n y i n n x 2 i ( n x i ) 2 = σxy σ 2 x () Statistica 7 / 45

Determinazione della...statistiche descrittive 10 x = x i = 6.07 ȳ = 10 10 s x = (x i x)2 10 10 y i 10 = 3.04 s y = 10 s xy = (x i x)(y i ȳ) = 24.7 10 r xy = σxy σxσy = 0.8 = 14.1 10 (y i ȳ)2 = 10.1 10 () Statistica 8 / 45

Determinazione della Calcolo dei coefficienti Richiamando le quantità calcolate in precedenza e le formule per il calcolo dei parametri si ha B 1 = σxy σx 2 = 2.66 B 0 = ȳ B 1 x = 14.1 (2.66 6.07) = 2.04 Y = 2.04 + 2.66x rappresenta la stimata La retta migliore () Statistica 9 / 45

Interpretazione dei valori dei coefficienti di B 0 rappresenta l intercetta della ed indica il valore della variabile di risposta Y quando il predittore x assume valore 0. B 1 rappresenta l inclinazione della, ovvero la variazione della variabile di risposta Y in conseguenza di un aumento unitario del predittore x. () Statistica 10 / 45

modello Il è Y = β 0 + β 1 x + ɛ e l errore non osservabile ɛ è una variabile aleatoria con valore atteso pari a 0. Per poter fare inferenza sono necessarie alcune assunzioni: la variabile aleatoria ɛ i si distribuisce come una Normale di parametri 0 e σ 2 : dunque la varianza dell errore non osservabile ɛ i non dipende dal predittore x i ; cov(ɛ i, ɛ j ) = 0, i j (i, j = 1,..., n), questo comporta che la risposta relativa al predittore x i è indipendente da quella relativa al predittore x j ; x è nota e non stocastica (priva di errore); dalle precedenti assunzioni segue che i la variabile di risposta Y i si distribuisce secondo una Normale di parametri E[Y i ] = β 0 + β 1 x i e var(y i ) = σ 2. () Statistica 11 / 45

modello fonte: Statistics for Business and Economics (Anderson, Sweeney and Williams, (2011)) () Statistica 12 / 45

Lo stimatore σ 2 La quantità σ 2 è incognita e deve essere stimata a partire dai dati. A questo scopo si consideri che la standardizzazione di Y i si distribuisce secondo una normale Y i E[Y i ] var(yi ) = Y i (β 0 + β 1 x i ). σ La somma dei quadrati delle Y i standardizzate è n (Y i β 0 β 1 x i ) 2 σ 2 ed essendo la somma di n normali standardizzate indipendenti, si distribuisce come una variabile aleatoria chi-quadro con n gradi di libertà. Sostituendo i parametri β 0 e β 1 con gli stimatori dei minimi quadrati B 0 e B 1 la precedente diventa n (Y i B 0 B 1 x i ) 2 σ 2 è un chi-quadro con n-2 gradi di libertà, in quanto si perde un grado di libertà per ogni parametro stimato. () Statistica 13 / 45

Lo stimatore σ 2 Il numeratore della precedente rappresenta la somma dei quadrati dei residui (Y i B 0 B 1 x i ) 2 = e 2 = RSS; da quanto trovato in precedenza, la quantità RSS σ 2 è un chi-quadro con n-2 gradi di libertà. Poichè il valore atteso di un chi-quadro è uguale ai gradi di libertà possiamo scrivere [ ] E[RSS] RSS σ 2 = n 2 da cui E = σ 2, n 2 lo stimatore σ 2 è dunque RSS. Lo stimatore dello scarto n 2 quadratico medio σ viene definito errore standard della stima e corrisponde a RSS n 2. () Statistica 14 / 45

Verifica dell ipotesi che β 1 = 0 Un ipotesi molto importante da verificare nel è che il sia pari a 0: se infatti β 1 = 0 allora la variabile di risposta non dipende dal predittore, in altre parole non c è sul predittore. Per ottenere il test H 0 : β 1 = 0 vs H 1 : β 1 0 è necessario studiare la distribuzione dello stimatore B 1 di β 1 : se B 1 si discosta da 0 allora si rifiuta H 0, altrimenti non si rifiuta. Ma di quanto B 1 deve discostarsi da 0? A questo scopo si consideri che B 1 si distribuisce come una Normale e occorre definirne i parametri. () Statistica 15 / 45

Verifica dell ipotesi che β 1 = 0 Si consideri la seguente formalizzazione alternativa dello stimatore B 1 B 1 = σxy σ 2 x = n = (x i x) ( Y i Ȳ ) /n n n (x i x) 2 = (x i x) ( Y i Ȳ ) /n n (x i x) 2 = =0 {}}{ n [ (xi x) Y i (x i x) Ȳ ] n (x i x) Y i Ȳ (x i x) n (x i x) 2 = n (x i x) 2 = ( ) (x i x) = n (x i x) 2 Y i = δ i Y i }{{} ponendo tale quantità=δ i () Statistica 16 / 45

Verifica dell ipotesi che β 1 = 0 Due relazioni interessanti che riguardano δ i : δ i = n [ δi 2 = = (x i x) n (x i x) 2 = 1 n (x i x) 2 (x i x) n (x i x) 2 ] 2 = 1 n (x i x) 2 { =0 }} { 1 [ n (x i x) 2] 2 (x i x) = 0 (x i x) 2 = () Statistica 17 / 45

Verifica dell ipotesi che β 1 = 0 E a questo punto possibile dimostrare che lo stimatore B 1 di β 1 è non distorto. [ n ] E[B 1 ] = E δ i Y i = δ i E [Y i ] = }{{} β 0 +β 1 x i n n = δ i β 0 + β 1 δ i x i = β 1 }{{} =0 = β 1 1 n (x i x) 2 = β 1 1 n (x i x) 2 }{{} (x δ i = i x) n (x i x) 2 n δ i (β 0 + β 1 x i ) = ( (x i x) n (x i x) 2 ) x i = 1 n (x i x) x i = β 1 n (x i x) 2 x 2 i x n x i = }{{} =n x n x 2 i n x2 }{{} = n (x i x) 2 = β 1 n (x i x) 2 n (x i x) 2 = β 1 () Statistica 18 / 45

Verifica dell ipotesi che β 1 = 0 La varianza dello stimatore B 1 è data da var (B1) = var δ i Y i = ( poichè se Z = by, b è una costante, var(z) = b2 var(y i )) }{{} = costante = (δ i ) 2 σ 2 var(y i ) = }{{} n (x i x) 2 }{{} =σ 2 = 1 n (x i x) 2 () Statistica 19 / 45

Verifica dell ipotesi che β 1 = 0 la Normale standard n (x i x) 2 σ 2 (B 1 β 1 ) non consente ancora di costruire una statistica test perchè è ancora presente il parametro incognito σ 2 : tuttavia si può stimare tale parametro attraverso RSS n 2 che, come visto in precedenza, si distribuisce secondo un chi-quadrato con n-2 gradi di libertà; sostituendo a σ 2 il suo stimatore si ha (n 2) n (x i x) 2 (B 1 β 1 ). RSS Poichè questa quantità ha al numeratore una Normale standard ed al denominatore un chi-quadro rapportato ai propri gradi di libertà, si distribuisce come una distribuzione t di student con n-2 gradi di libertà. () Statistica 20 / 45

Verifica dell ipotesi che β 1 = 0 A questo punto la statistica test da utilizzare sotto H 0 (β 1 = 0) è (n 2) n ST = (x i x) 2 B 1 t n 2 RSS Il test di livello α di H 0 è ha la seguente regola di decisione: se ST t n 2,α/2 allora si rifiuta H 0 se ST < t n 2,α/2 allora non si rifiuta H 0 Nell esempio roller, il valore della statistica test è ST = 3.808, il p value corrispondente è 0.00518. () Statistica 21 / 45

Intervallo di confidenza su β 1 A partire dalla statistica test per il test su β 1, è possibile definire l intervallo di confidenza, i cui estremi sono: RSS B 1 ± t (α/2,n 2) (n 2) n (x i x) 2 }{{} var(b1 ) con riferimento all esempio roller, gli estremi dell intervallo sono, ad un livello di confidenza del 95% sono [1.05, 4.28]. () Statistica 22 / 45

Bontà di adattamento e diagnostica Una volta stimato il, è necessario misurare la bontà dell adattamento del modello ai dati e analizzare i residui per controllare che le assunzioni di normalità con media nulla e varianza costante dei residui siano rispettate. Strumenti analitici: di determinazione R 2 Strumenti grafici: plot dei residui plot variabili esplicative vs. residui: in caso di relazione non nella configurazione dei punti allora la relazione con la variabile esplicativa potrebbe non essere di primo grado (), ma di grado superiore; plot valori stimati dal modello vs. residui: se i residui aumentano all aumentare dei valori stimati dal modello, allora potrebbe essere necessario effettuare una trasformazione della variabile di risposta; Normal probability plot: confronto tra i quantili della distribuzione dei residui osservati e quella di una normale standardizzata; () Statistica 23 / 45

Plot dei residui Perchè la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Y ed X è necessario che i residui abbiano un andamento casuale rispetto ai valori della x. Se, ad esempio, all aumentare dei valori della x aumentassero sistematicamente anche i residui, allora la relazione potrebbe non essere non : la ne sarebbe dunque una cattiva approssimazione. variabili esplicative vs residui Per verificare che l andamento dei residui sia effettivamente casuale rispetto ad x, è possibile utilizzare un diagramma di dispesione tra i valori x i ed i corrispondenti residui e i (i = 1,..., n) () Statistica 24 / 45

Plot dei residui Perchè la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Y ed x è necessario che i residui abbiano un andamento casuale rispetto ai valori della x. Se, ad esempio, all aumentare dei valori della x aumentassero sistematicamente anche i residui, allora la relazione potrebbe non essere non : la ne sarebbe dunque una cattiva approssimazione. valori stimati ŷ vs residui () Statistica 25 / 45

Quantile-quantile plot Per controllare che l assunzione della normalità dei residui sia rispettata si ricorre al confronto tra i quantili della distribuzione Normale standard ed i quantili della distribuzione dei residui osservati. Q-Q plot Quanto più i punti del grafico risultano allineati lungo la bisettrice del primo quadrante, tanto migliore sarà l adattamento dei residui osservati alla distribuzione normale. () Statistica 26 / 45

di determinazione R 2 Ricordando che la devianza il numeratore... SS y = (y i ȳ) 2 = (y i ŷ i + ŷ i ȳ) 2 = = (y i ŷ i ) 2 + (ŷ i ȳ) 2 + 2 (y i ŷ i )(ŷ i ȳ) = (y i ŷ i ) 2 + (ŷ i ȳ) 2 + 2( y i ŷ i )( ŷ i nȳ) Poiché ŷ i è una trasformazione di x i, allora dunque µŷ = ȳ µŷ = B 0 + B 1 x = (ricordando che B 0 = ȳ B 1 x) n ŷ i n = ȳ B 1 x +B 1 x = ȳ } {{ } B 0 = n y i n da cui n ŷ i n y i = 0, quindi SS y = (y i ŷ i ) 2 + (ŷ i ȳ) 2 + 2 0 ( ŷ i nȳ) = (ŷ i ȳ) 2 + (y i ŷ i ) 2 = SS r + RSS () Statistica 27 / 45

Decomposizione della devianza La devianza può essere decomposta dunque nelle seguenti quantità SS y = SS r + RSS SS y = n (y i ȳ) 2 devianza totale SS r = n (ŷ i ȳ) 2 devianza di RSS = n (y i ŷ i ) 2 devianza dei residui Interpretazione grafica () Statistica 28 / 45

Bontà dell adattamento Intituitivamente, l adattamento della retta è migliore quanto maggiore sarà proporzione di variabilità totale che la riesce a spiegare; ovvero, l adattamento della retta è migliore quanto minore sarà la variabilità residua. Una misura di come il modello approssima i dati osservati è data dal di determinazione R 2, dato da ovvero esempio di calcolo R 2 n R 2 = SSr (ŷ i µ y) 2 = SS n y (y i µ y) 2 R 2 = 1 RSS SS y n (y i ŷ i ) 2 = 1 n (y i µ y) 2 ovvero SS y = n (y i ȳ) 2 = 1020.9 SS r = n (ŷ i ȳ) 2 = 657.97 RSS = n (y i ŷ i ) 2 = 362.93 R 2 = SSr SS y = 657.97 1020.9 = 0.64 R 2 = 1 RSS = 1 282.1862 = 1 0.36 = 0.64 SS y 5058.4 () Statistica 29 / 45

Bande di confidenza e di previsione Utilizzo del modello per stima e previsione Se il modello stimato si adatta bene ai dati e se la relazione tra Y e X è significativa, si può utilizzare la stimata per la stima e la previsione. Banda di confidenza La banda di confidenza è composta dalle stime intervallari, ognuna costruita sul valore atteso di Y dato il valore corrispondente di x i. Banda di previsione La banda di previsione è composta dalle stime intervallari, ognuna costruita sul singolo valore di Y dato il valore corrispondente di x i. () Statistica 30 / 45

Bande di confidenza e di previsione...qualche definizione x p è un valore specifico assunto dalla variabile indipendente X; y p è il valore assunto da Y quando X = x p ; E [y p ] è il valore atteso di Y quando X = x p ; ŷ p = B 0 + B 1 x p, il valore stimato dalla, dunque è la stima di E [x p ] per X = x p. () Statistica 31 / 45

Bande di confidenza e di previsione Intervallo di confidenza su E[Y X = x p] = E[y p] Per costruire lo stimatore intervallare su E[y p] dato che X = x p è necessario stimarne la varianza, lo stimatore in questione è [ ] s 2 ŷ p = RSS 1 n 2 n + (x p x) 2 n (x i x) 2 pertanto l intervallo di confidenza è dato da ŷ p ± t α 2,(n 2)sŷp () Statistica 32 / 45

Bande di confidenza e di previsione Intervallo di previsione su y p Per costruire lo stimatore intervallare su y p è necessario stimarne la varianza, lo stimatore in questione consiste di due componenti la varianza RSS n 2 di un singolo di valore Y rispetto alla sua media E[yp] la varianza associata all utilizzo di un singolo valore ŷ p per stimare E[y p] (già stimata in precedenza s 2 ŷ p ) s 2 singolo = RSS n 2 + s2 ŷ p pertanto l intervallo di previsione è dato da ŷ p ± t α 2,(n 2)s singolo () Statistica 33 / 45

Intervallo di confidenza su E(y p ) Bande di confidenza () Statistica 34 / 45

Intervallo di previsione Bande di previsione () Statistica 35 / 45

Bande di confidenza e previsione () Statistica 36 / 45

distribuzione doppia di frequenze Si consideri di aver osservato su 10 rivenditori di componenti informatiche le variabili numero di punti vendita e Fatturato settimanale complessivo. Si studi la dipendenza del fatturato dal numero di punti vendita. fino a 2 tra 2 e 4 tra 4 e 6 fino a 5000 3 2 0 tra 5000 e 10000 1 2 2 Si stimino i coefficienti della. Si valuti la bontà di adattamento della retta ai dati. () Statistica 37 / 45

distribuzione doppia di frequenze Essendo le modalità delle variabili qualitative espresse in intervalli di valori, è necessario fare riferimento ai centri di ciascun intervallo. La tabella è dunque data da Y /X 1 3 5 Tot 2500 3 2 0 5 7500 1 2 2 5 Tot 4 4 2 10 Le medie aritmetiche si ottengono a partire dalle distribuzioni marginali di frequenze: µ x = 1 k x j n.j = 1 4 + 12 + 10 (1 4) + (3 4) + (5 2) = = 2.6 n j=1 10 10 µ y = 1 h y i n i. = 1 12500 + 37500 (2500 5) + (7500 5) = = 5000 n 10 10 dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella. () Statistica 38 / 45

: distribuzione doppia di frequenze Per calcolare le varianze si fa riferimento agli scarti dalla media al quadrato Y /X (1 2.6) 2 (3 2.6) 2 (5 2.6) 2 Tot (2500 5000) 2 3 2 0 5 (7500 5000) 2 1 2 2 5 Tot 4 4 2 10 Le varianze si ottengono a partire dalle distribuzioni marginali di frequenze: σ 2 x = 1 k (x j µ x) 2 n.j = 1 n j=1 10 ((1 2.6)2 4) + ((3 2.6) 2 4)+ + ((5 2.6) 2 10.24 + 0.64 + 11.52 2) = = 2.24 10 σ 2 y = 1 h (y i µ y) 2 n i. = 1 n 10 (2500 5)2 + (7500 5) 2 31250000 + 31250000 = = 6250000 10 dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella. () Statistica 39 / 45

Esercizio : distribuzione doppia di frequenze Per calcolare la covarianza si deve fare riferimento alle distribuzioni condizionate di frequenza. Y /X (1 2.6) (3 2.6) (5 2.6) Tot (2500 5000) 3 2 0 5 (7500 5000) 1 2 2 5 Tot 4 4 2 10 y i x i y i µ y x i µ x 2500 1 (2500-5000) (1-2.6) 2500 1 (2500-5000) (1-2.6) 2500 1 (2500-5000) (1-2.6) 2500 3 (2500-5000) (3-2.6) 2500 3 (2500-5000) (3-2.6) 7500 1 (7500-5000) (1-2.6) 7500 3 (7500-5000) (3-2.6) 7500 3 (7500-5000) (3-2.6) 7500 5 (7500-5000) (5-2.6) 7500 5 (7500-5000) (5-2.6) σ xy = 1 h k (y i µ y) (x j µ x) n ij = n j=1 = 1 ((2500 5000)(1 2.6) 3 + (2500 5000)(3 2.6) 2+ 10 + (7500 5000)(1 2.6) 1 + (7500 5000)(3 2.6) 2+ 12000 2000 4000 + 2000 + 12000 + (7500 5000)(5 2.6) 2) = = 2000 10 () Statistica 40 / 45

Esercizio : distribuzione doppia di frequenze Avendo calcolato le quantità µ x = 2.6, µ y = 5000, σ 2 x = 2.24 e σ xy = 2000, è possibile calcolare i coefficienti della Calcolo dei coefficienti b 1 = σxy = 2000 σx 2 2.24 = 892.571 b 0 = µ y b 1 µ x = 5000 (892.571 2.6) = 2679.315 quindi l equazione della è y = b 0 + b 1 x = 2679.315 + 892.571x Dunque, il valore stimato ŷ i corrispondente ad un valore x i assegnato è ŷ i = b 0 + b 1 x. () Statistica 41 / 45

Valutazione della bontà di adattamento Ricordando che ovvero n R 2 = Devr (ŷ i ȳ) 2 = Dev n y (y i ȳ) 2 n R 2 = 1 Deve (y i ŷ i ) 2 = 1 Dev n y (y i ȳ) 2 con Dev y = Dev r + Dev e SS y = n (y i ȳ) 2 devianza totale SS r = n (ŷ i ȳ) 2 devianza di RSS = n (y i ŷ i ) 2 devianza dei residui Per ottenere R 2, misura della bontà di adattamento, si deve calcolare solo la devianza dei residui, avendo già calcolato σ 2 y. () Statistica 42 / 45

Calcolo della devianza dei residui RSS = n (y i ŷ i ) 2 devianza dei residui in base alla stimata, i valori ŷ i stimati in funzione dei valori x i sono ŷ 1 = b 0 + b 1 x 1 = 2679.315 + 892.571 1 = 3571.886 ŷ 2 = b 0 + b 1 x 2 = 2679.315 + 892.571 3 = 5357.028 ŷ 3 = b 0 + b 1 x 3 = 2679.315 + 892.571 5 = 7142.17 () Statistica 43 / 45

Calcolo della devianza dei residui Per calcolare i residui y i ŷ i nel caso di si procede come segue y i /ŷ j ŷ 1 = 3571.886 ŷ 2 = 5357.028 ŷ 3 = 7142.17 Tot y 1 = 2500 3 2 0 5 y 2 = 7500 1 2 2 5 Tot 4 4 2 10 RSS = h k ((y i ŷ j ) 2 ) n ij devianza dei residui per tabella doppia calcolo della devianza dei residui h k RSS = ((y i ŷ j ) 2 ) n ij = ((2500 3571.886) 2 ) 3 + ((2500 5357.028) 2 ) 2+ j=1 + ((7500 3571.886) 2 ) 1 + ((7500 5357.028) 2 ) 2 + ((7500 7142.17) 2 ) 2 = = 44642859 SS y = (y i ȳ) 2 = σ 2 y n = 6250000 10 = 62500000 R 2 = 1 RSS SS y = 1 0.71 = 0.29 () Statistica 44 / 45

Verifica dell ipotesi che β 1 = 0 A questo punto il valore della statistica test (stimatore standardizzato di β 1 ) è (n 2) n ST = (x i x) 2 (10 2)22.4 B 1 = 2679.315 = 5.37 RSS 44642859 Tenuto conto del fatto che 10 (x i x) 2 = n σ 2 = 10 2.24 = 22.4. Poiché il p value corrispondente è 2 0.0003, non si può rifiutare H 0. () Statistica 45 / 45