STATISTICA A K (60 ore)

Похожие документы
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

Esercizi di statistica

Statistica 1 A.A. 2015/2016

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Statistica Applicata all edilizia: il modello di regressione

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Statistica multivariata Donata Rodi 17/10/2016

Dispensa di Statistica

ESAME. 9 Gennaio 2017 COMPITO B

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

x ;x Soluzione Gli intervalli di confidenza possono essere ottenuti a partire dalla seguente identità: da cui si ricava: IC x ;x = +

Regressione Lineare Semplice e Correlazione

Test delle Ipotesi Parte I

Contenuti: Capitolo 14 del libro di testo

Statistica. Alfonso Iodice D Enza

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

PROBABILITÀ ELEMENTARE

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

05. Errore campionario e numerosità campionaria

Il campionamento e l inferenza. Il campionamento e l inferenza

Esercitazione del

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Esercizi di Probabilità e Statistica

Regressione lineare semplice

Esercitazioni di statistica

Statistica. Alfonso Iodice D Enza

STATISTICA ESERCITAZIONE 13

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

CAPITOLO 11 ANALISI DI REGRESSIONE

Distribuzioni e inferenza statistica

Politecnico di Milano - Scuola di Ingegneria Industriale. II Prova in Itinere di Statistica per Ingegneria Energetica 25 luglio 2011

STATISTICA A K (60 ore)

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 4

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

Statistica di base per l analisi socio-economica

Prova d'esame di Statistica I - Corso Prof.ssa S. Terzi

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

Lezione 17. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 17. A. Iodice

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Statistica Inferenziale

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017

Test F per la significatività del modello

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Analisi della regressione multipla

Distribuzioni campionarie

Test d ipotesi: confronto fra medie

Giorno n. clienti di attesa

Esercitazione 8 maggio 2014

Tipi di variabili. Indici di tendenza centrale e di dispersione

Cognome e Nome:... Corso di laurea:...

Statistica Inferenziale

b) E necessario formulare delle ipotesi per calcolare l intervallo di confidenza ottenuto al punto a? (motivare brevemente la risposta):

Esercizi riassuntivi di Inferenza

Corso di Statistica Industriale

Intervalli di confidenza

Statistica Inferenziale

STATISTICA ESERCITAZIONE

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

ESERCITAZIONE IV - Soluzioni

Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23

LEZIONI DI STATISTICA MEDICA

Esercitazione 8 del corso di Statistica 2

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

I appello di calcolo delle probabilità e statistica

Prova Scritta di METODI STATISTICI PER L AMMINISTRAZIONE DELLE IMPRESE (Milano, )

Schema lezione 5 Intervalli di confidenza

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Транскрипт:

STATISTICA A K (60 ore) Marco Riani mriani@unipr.it http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1

MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta una retta: a = ordinata all origine intercetta b = coeff. angolare coeff. di regressione e i è un termine di errore (accidentale) RETTA DI REGRESSIONE i = 1,, n = valore teorico (valore stimato) di y i funzione lineare di i = 1,, n Residui Marco Riani, Univ. di Parma 2

Come si calcolano i parametri a e b? METODO DEI MINIMI QUADRATI Le incognite sono i parametri della retta Visualizzazione grafica dei residui Marco Riani, Univ. di Parma 3

Sistema di equazioni normali Formule per il calcolo di a e b a e b sono funzioni lineari delle osservazioni y i Marco Riani, Univ. di Parma 4

ESEMPIO (7 supermercati) N. dipendenti (X) Fatturato in milioni di (Y) A 10 1,9 B 18 3,1 C 20 3,2 D 8 1,5 E 30 6,2 F 12 2,8 G 14 2,3 Scatter con retta di regressione Come variano le vendite in funzione del numero di dipendenti? Marco Riani, Univ. di Parma 5

Calcolo di a e b x i y i x 2 i y 2 i x i y i A 10 1,9 100 3,61 19 B 18 3,1 324 9,61 55,8 C 20 3,2 400 10,24 64 D 8 1,5 E 30 6,2 F 12 2,8 G 14 2,3 Tot. 112 21 2128 77,28 402,6 Calcolo di a e b x i y i x 2 i y 2 i x i y i A 10 1,9 100 3,61 19 B 18 3,1 324 9,61 55,8 C 20 3,2 400 10,24 64 D 8 1,5 E 30 6,2 F 12 2,8 G 14 2,3 Tot. 112 21 2128 77,28 402,6 Marco Riani, Univ. di Parma 6

BONTA DI ADATTAMENTO Retta di regressione: DEVIANZA TOTALE DEVIANZA DI REGRESSIONE DEVIANZA RESIDUA Indice di determinazione lineare (R 2 ) δ =1 δ =0 se se Marco Riani, Univ. di Parma 7

Grafico dei residui Modello soddisfacente: distribuzione casuale dei residui componente erratica ESTRAPOLAZIONE Si tenta di valutare in maniera attendibile il valore che assumerà la variabile dipendente in corrispondenza di un valore noto della variabile esplicativa. CONDIZIONI Validità della retta di regressione (δ prossimo ad 1) valore noto della variabile esplicativa non lontano dai valori utilizzati nel calcolo della retta Marco Riani, Univ. di Parma 8

Regressione inferenziale Introduzione agli elementi aleatori Introduzione agli elementi aleatori N. dipendent i (X) Vendite in milioni di (Y) A 10 1,9 B 18 3,1 C 20 3,2 D 8 1,5 E 30 6,2 F 12 2,8 G 14 2,3 Prezzi in Euro (x) Vendite (Y) A 1.55 410 B 1.60 380 C 1.65 350 D 1.60 400 E 1.50 440 F 1.65 380 G 1.45 450 H 1.50 420 Marco Riani, Univ. di Parma 9

Introduzione agli elementi aleatori Le vendite sono dovute in parte ai prezzi e in parte a fattori di natura aleatoria e perciò sono esse stesse delle v.c. Al contrario i dipendenti e/o i prezzi non sono v.c. poiché sono del tutto prevedibili dalla compagnia che li stabilisce Introduzione agli elementi aleatori Una successione di valori fissi x 1, x 2, x n a cui sono associate n v.c. indipendenti Y 1, Y 2, Y n Il punto cruciale consiste nel descrivere in modo appropriato tali v.c. E(Y i )? var(y i )? Distribuzione di Y i? Marco Riani, Univ. di Parma 10

Assunzioni su Y i Tutte le osservazioni sono caratterizzate dallo stesso grado di incertezza var(y i ) = σ 2 i=1, 2,, n σ 2 è un parametro incognito da stimare cov(y i, Y j )=0 i j Assunzioni su Y i E(Y i ) = µ i i=1, 2,, n i valori osservati della variabili dipendente provengono da n distribuzioni di probabilità con medie incognite Ip. le medie delle distribuzioni variano linearmente con la variabili indipendente µ i = E(Y i ) = α+β x i Marco Riani, Univ. di Parma 11

Assunzioni su Y i (continua) Ip: µ i = E(Y i ) = α+β x i Questa ipotesi equivale ad affermare che i punti (x 1, µ 1 ), (x 2, µ 2 ),, (x n, µ n ) stiano tutti su una retta con parametri α, β Oss: questa assunzione non implica che tutti i punti (x i, y i ) stiano sulla retta ma che i valori medi delle distribuzioni da cui i punti provengono verificano l equazione della retta Interpretazione di α e β I parametri α e β rappresentano l intercetta ed il coeff. angolare della retta sulla quale giacciono le medie incognite delle distribuzioni Y 1,, Y n Marco Riani, Univ. di Parma 12

Interpretazione di α e β E(Y 3 )=α+βx 3 E(Y 2 )=α+βx 2 E(Y 1 )=α+βx 1 Osservazione sulla notazione In queste slide utilizziamo la notazione α per indicare l intercetta nella popolazione β per indicare la pendenza nella popolazione per indicare lo stimatore e la stima di α per indicare lo stimatore e la stima di β Marco Riani, Univ. di Parma 13

Notazione utilizzata nel testo Nel testo si usa la notazione β 0 per indicare l intercetta nella popolazione B 0 per indicare lo stimatore dell intercetta e b 0 per indicare la stima dell intercetta Nel testo si usa la notazione β 1 per indicare la pendenza nella popolazione B 1 per indicare lo stimatore della pendenza e b 1 per indicare la stima della pendenza Osservazione Dato il modello di regressione Y i = α +β x i +ε i L ip: µ i = E(Y i ) = α+β x i equivale ad affermare che E(ε i )=0 Marco Riani, Univ. di Parma 14

Stima dei parametri I parametri da stimare sono α, β, µ 1, µ 2,, µ n,σ 2 La conoscenza diα, β consente di ricostruire tutte le medie incognite µ 1, µ 2,, µ n µ i = E(Y i ) = α+β x i Riepilogo ipotesi Y i = α +β x i +ε i µ i = E(Y i ) = α+β x i var(y i ) = σ 2 cov(y i, Y j )=0 var(ε i )=? var(ε i )= σ 2 (Dato che var(y+k)=var(y) con k costante) cov(ε i, ε j )=? cov(ε i, ε j )=0 (Dato che cov(y i +k, Y j +c)= cov(y i, Y j ) con k e c costanti) Marco Riani, Univ. di Parma 15

Stime di α e β Pensando di ripetere più volte l esperimento che ha generato le osservazioni y 1,, y n, per valori fissi di x 1,, x n si ottiene una distribuzione campionaria di valori Coeff. di regressione campionari e nella popolazione Marco Riani, Univ. di Parma 16

Coeff. di regressione campionari e nella popolazione Stima di σ 2 var(y i )=var(ε i )=σ 2 = dispersione verticale attorno alla retta che unisce i valori medi delle popolazioni Dato che σ 2 =E(ε i2 )-[E(ε i )] 2 = E(ε i2 ) Dato che e i è una stima di ε i sembra naturale utilizzare come stimatore di σ 2 la seguente espressione Marco Riani, Univ. di Parma 17

Stima di σ s= errore standard nella stima di Y Ip. aggiuntiva Le distribuzioni Y i sono normali y 1 è una realizzazione di Y 1 ~ N(µ 1, σ 2 ) y 2 è una realizzazione di Y 2 ~ N(µ 2, σ 2 ) y n è una realizzazione di Y n ~ N(µ n, σ 2 ) Y 1, Y 2,, Y n sono indipendenti Marco Riani, Univ. di Parma 18

Obiettivo Costruire intervalli di confidenza e test di verifica d ipotesi sul coeff. angolare Studio della distribuzione di Marco Riani, Univ. di Parma 19

Studio della distribuzione di Varianza di beta cappello Marco Riani, Univ. di Parma 20

Varianza di beta cappello Al posto di σ 2 sostituiamo il suo stimatore La radice quadrata della stima della varianza di uno stimatore è l errore standard (standard error, SE) dello stimatore Marco Riani, Univ. di Parma 21

Interpretazione dello standard error di beta cappello Rappresenta l errore quadratico medio che si commette quando si stima il coefficiente di regressione con le formule dei minimi quadrati Studio della distribuzione di Marco Riani, Univ. di Parma 22

Esercizio: nell esempio dei 7 supermercati calcolare lo standard error di beta cappello e alpha cappello Sol. Costruzione di intervalli di confidenza dei parametri Marco Riani, Univ. di Parma 23

Punto di partenza beta cappello è funzione lineare di v.c. Normali e quindi è distribuito in maniera normale Lo scostamento standardizzato di beta capello ha una distribuzione N(0,1) Se il livello di confidenza 1-α=0.95 Marco Riani, Univ. di Parma 24

Problema: σ 2 è ignoto (occorre sostituire il suo stimatore s 2 ) Sostituendo al posto di σ 2 il suo stimatore Marco Riani, Univ. di Parma 25

Costruzione di un intervallo di confidenza per il coeff. angolare Dove t(α) è valore critico associato alla distribuzione T di student con n-2 gradi di libertà (T(n-2)) tale che F(-t(α))=P(T<-t(α))=α/2 Costruzione di intervalli di confidenza dei parametri Marco Riani, Univ. di Parma 26

Esercizio: nell esempio dei 7 supermercati costruire un intervallo di confidenza al 95% per β ed interpretare i risultati ottenuti ESEMPIO (7 supermercati) N. dipendenti (X) Fatturato in milioni di (Y) A 10 1,9 B 18 3,1 C 20 3,2 D 8 1,5 E 30 6,2 F 12 2,8 G 14 2,3 Marco Riani, Univ. di Parma 27

Costruzione di un intervallo di confidenza al 95% per il coeff. angolare t(0.05)=+2.5706 (=INV.T(0.05;5) (Oss: Pr.(T>2.5706)=0.025) Costruzione di un intervallo di confidenza al 95% per il coeff. angolare Pr(0.198-2.5706 0.0253<β< 0.198+2.5706 0.0253)=0.95 Pr(0.133<β< 0.263)=0.95 Marco Riani, Univ. di Parma 28

Interpretazione L'intervallo di confidenza del coefficiente di regressione, con probabilità uguale a 0.95, va da 0,133 a 0,263. Questo significa che nell'universo di riferimento, all'aumento di un dipendente può corrispondere un aumento delle vendite compreso tra 133 mila Euro e 263 mila Euro circa (con probabilità del 95%). Oss: l'intervallo è piuttosto ampio e questo dipende dalla ridotta numerosità campionaria (solo 7 supermercati). Intervallo di confidenza per l intercetta Marco Riani, Univ. di Parma 29

Costruzione di un intervallo di confidenza al 95% per l intercetta t(0.05)=+2.5706 (=INV.T(0.05;5) (Oss: Pr.(T>2.5706)=0.025) Pr(1.31<α< 0.96)=0.95 Costruzione di test di ipotesi per α β σ 2 Marco Riani, Univ. di Parma 30

Dato che Sotto H 0 : β =0 Esercizio: nell esempio dei 7 supermercati testare H 0 :β=0 (H 1 :β 0), trovare il relativo p- value ed interpretare il risultato del test t β =0.1982/0.02534=7.82 p-value <0.001 (dalle tavole) DISTRIB.T(7.82;5;2)= 0.000548 Interpretazione : rifiuto decisamente l ipotesi nulla Marco Riani, Univ. di Parma 31

Esercizio: nell esempio dei 7 supermercati testare H 0 :α=0, (H 1 :α 0), trovare il relativo p- value ed interpretare il risultato del test t α =0.39 p-value = >0.1 (dalle tavole) DISTRIB.T(0.39;5;2)=0.714 Interpretazione : non posso rifiutare l ipotesi nulla Funzione regr.lin Ordine in cui vengono restituite le statistiche aggiuntive di regressione dalla funzione di Excel REGR.LIN Marco Riani, Univ. di Parma 32

Intervallo di confidenza delle previsioni con il metodo dei minimi quadrati Marco Riani, Univ. di Parma 33

Approccio inferenziale al δ (coefficiente di determinazione lineare) H 0 :δ=0 (non vi è alcuna relazione tra X e Y) La statistica test da utilizzare è la seguente: Nel modello di regressione lineare semplice Le quantità necessarie per il calcolo della statistica F sono riportate nella Tabella di analisi della varianza v. p. 142 Marco Riani, Univ. di Parma 34

Tutti i precedenti calcoli sono stati implementati in Excel Pagina http://www.riani.it/sv/sv.htm Indirizzo del file da scaricare http://www.riani.it/sv/inputfiles/sv-regr1(out).xls Marco Riani, Univ. di Parma 35