Z-test, T-test, χ 2 -test

Documenti analoghi
Esercitazione 8 del corso di Statistica 2

Test per la correlazione lineare

Intervalli di confidenza

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Verifica di ipotesi

Esercitazioni di Statistica Matematica A Esercitatori: Dott. Fabio Zucca - Dott. Maurizio U. Dini Lezioni del 7/1/2003 e del 14/1/2003

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

Gli errori nella verifica delle ipotesi

Caratterizzazione dei consumi energetici (parte 3)

Esercitazione 8 maggio 2014

Capitolo 10 Test delle ipotesi

Matematica II: Calcolo delle Probabilità e Statistica Matematica

Distribuzioni e inferenza statistica

Statistica Applicata all edilizia: il modello di regressione

si tratta del test del chi-quadro di adattamento e di quello di indipendenza. 1 l ipotesi che la popolazione segua una legge fissata;

Esercizi riassuntivi di Inferenza

Premessa: la dipendenza in media

Distribuzioni campionarie

Test d ipotesi. Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona. Ipotesi alternativa (H 1 )

Test d ipotesi sulla media

Statistica Inferenziale

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

Intervallo di confidenza

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

Analisi della correlazione canonica

Politecnico di Milano - Scuola di Ingegneria Industriale. II Prova in Itinere di Statistica per Ingegneria Energetica 25 luglio 2011

Capitolo 8. Probabilità: concetti di base

Proprietà della varianza

TEST NON PARAMETRICO DI MANN-WHITNEY

Schema lezione 5 Intervalli di confidenza

Esercizio 1. Stima intervallare: IC per la media incognita (varianza ignota)

Fin qui si sono considerate le variabili casuali ciascuna per proprio conto. Ora consideriamo la possibilità di relazioni tra variabili.

Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Un esempio. Ipotesi statistica: supposizione riguardante: un parametro della popolazione. la forma della distribuzione della popolazione

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

L indagine campionaria Lezione 3

Test di ipotesi su due campioni

Verifica delle ipotesi: Binomiale

Esercitazione n. 3 - Corso di STATISTICA - Università della Basilicata - a.a. 2011/12 Prof. Roberta Siciliano

ANOVA: ANALISI DELLA VARIANZA Prof. Antonio Lanzotti

Esercitazione del

a) Usando i seguenti livelli di significatività, procedere alla verifica di ipotesi, usando come ipotesi alternativa un'ipotesi unidirezionale:

Esercizi di Calcolo delle Probabilità

COMPLEMENTI DI PROBABILITA E STATISTICA. 3 Crediti

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI VERIFICA DI IPOTESI PER IL CONFRONTO TRA DUE PROPORZIONI

Teorema del limite centrale TCL

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Università di Padova

Prova d esame di Statistica - II canale - 10 CFU

STATISTICA ESERCITAZIONE

Esercitazione

Statistica. Alfonso Iodice D Enza

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

Capitolo 5 Confidenza, significatività, test di Student e del χ 2

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

Esercitazione # 6. a) Fissato il livello di significatività al 5% si tragga una conclusione circa l opportunità di avviare la campagna comparativa.

Esercitazione: La distribuzione NORMALE

La valutazione dei rischi. Corso di risk management Prof. Giuseppe D Onza

Carte di controllo per variabili

PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2006/07

X Lezione Analisi della varianza Esempi e esercizi CPS - Corso di studi in Informatica II parte: Statistica

Statistica. Alfonso Iodice D Enza

Variabili casuali ad una dimensione Testi degli esercizi. Variabili casuali ad una dimensione a.a. 2012/2013 1

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

UNIVERSITÀ DEGLI STUDI DI PERUGIA

DISTRIBUZIONE NORMALE (1)

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Esercitazione 7 del corso di Statistica 2

Note sulla probabilità

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

Esercitazioni di Statistica

Capitolo 9 Verifica di ipotesi: test basati su un campione

V.C. RETTANGOLARE o UNIFORME

Il campionamento e l inferenza. Il campionamento e l inferenza

b) E necessario formulare delle ipotesi per calcolare l intervallo di confidenza ottenuto al punto a? (motivare brevemente la risposta):

Transcript:

Z-test, T-test, χ 2 -test Francesco Corrias Chiara Todaro DIMA 13 febbraio 2012 Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 1 / 19

Verifica d ipotesi Definizione (Test statistico) Sia X un campione nel modello statistico parametrico F θ dove θ Θ = Θ 0 Θ 1 R p con Θ 0 Θ 1 = ; allora un test statistico consiste in: ipotesi H 0 : θ Θ 0 detta ipotesi nulla, contro H 1 : θ Θ 1 detta ipotesi alternativa può essere bilaterale o unilaterale statistica test V (X ) è una opportuna statistica con ν una sua realizzazione regione di rifiuto R α è l insieme dei valori assunti da V (X ) per i quali si rifiuta H 0 e viene scelta in modo che la probabilità di rifiuto, sotto l ipotesi H 0, non sia maggiore di un valore assegnato α, detto livello di singificatività del test. Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 2 / 19

Livello di significatività α Si noti che il rifiuto dell ipotesi nulla è un affermazione molto forte, in quanto implica che H 0 non è un ipotesi ragionevole per i dati di cui si dispone (contro esempio); al contrario accettare l ipotesi nulla significa solamente che essa è compatibile con i dati, non che sia vera. In quest ottica ha senso rifiutare l ipotesi nulla solo se i dati campionari fossero molto improbabili nel caso in cui H 0 sia vera; per questo si fissa il livello di significatività α. In genere il livello di significatività usato è α = 0.10, 0.05, 0.01; scegliere α molto piccolo significa voler essere molto certi prima di rifiutare l ipotesi nulla, nel caso che questa sia vera (ad esempio per evitare ingenti costi di produzione) [2]. Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 3 / 19

A causa dell asimmetria tra l ipotesi nulla e quella alternativa si ha che l unico caso in cui una delle ipotesi è provata dai dati avviene quando si rifiuta H 0, dimostrando quindi che H 1 è valida. In pratica per provare una certa congettura bisogna considerarla come ipotesi alternativa; allo stesso modo se si cerca di verificare la falsità di una affermazione la si considera come ipotesi nulla [2]. Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 4 / 19

Livello di significatività osservato Definizione (p-valore) Il p-valore del test è P θ0 {ν R}, cioè è il più piccolo livello di significatività per cui rifiuto H 0 quando essa è vera (per questo è detto anche livello di significatività osservato) In pratica spesso non si fissa α a priori poichè, calcolato ν e il p-valore, se questo è molto grande allora l ipotesi nulla è chiaramente compatibile con i dati; se invece è molto piccolo allora H 0 sarà un ipotesi non ragionevole. Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 5 / 19

Z-test: stima della media con varianza nota Sia X 1,..., X n un campione casuale t.c. X i N (µ, σ 2 ) i = 1,..., n, dove µ è incognita, mentre σ 2 è nota. ip H 0 : µ = µ 0 contro H 1 : µ µ 0 bilaterale st Z(X ) = X µ 0 σ N (0, 1) dove X = 1 n n n i=1 X σ i N (µ 0, n ) rr R α = { Z(X ) z α 2 } p-val 2P{Z ν } Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 6 / 19

Osservazioni In questo test si è interessati a verificare che la media del campione non si discosti troppo da un certo valore µ 0, ovvero X µ 0 c Z n σ c, da cui P µ 0 { X µ 0 c} = α P{ Z n σ c} = α 2P{Z n σ c} = α P{Z n σ c} = α 2. Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 7 / 19

Z-test in R Innanzi tutto bisogna installare il pacchetto BSDA(Basic Statistics and Data Analysis), quindi caricarlo e infine si può chiamare la function per lo Z-test. Di seguito sono riportati i comandi da usare dopo l installazione: library(bsda) z.test(data, alternative = two.sided, mu = mu0, sigma.x = sigmax) One-sample z-test data: data z = nu, p-value = p alternative hypothesis: true mean is not equal to mu0 95 percent confidence interval: a, b sample estimates: mean of x Xbar Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 8 / 19

Intervalli di confidenza e test Si possono costruire intervalli di confidenza a partire dalla regione di rifiuto di un test statistico: scelta R α il relativo intervallo a livello di fiducia 1 α è {θ : V (X ) / R α }[3]. Ad esempio l intervallo con confidenza 1 α per la media µ di una normale con varianza nota σ 2 è un intervallo tale che P{ a < X µ σ < a} = 1 α a = z α. n 2 L intervallo di confidenza risulta quindi µ ] z α 2 σ n + X, z α 2 σ n + X [. Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 9 / 19

Test T di Student in R Nella pubblicità di un certo modello di auto americane si sostiene che il consumo di benzina sia pari a 30 miglia per gallone. 9 auto di quel modello vengono guidate dalla stessa persona, sullo stesso percorso con un solo gallone di benzina nel serbatoio. La strada percorsa dalle 9 auto risulta, in miglia: 29.4 25.7 26.6 26.3 26.0 30.8 26.2 25.1 25.9 Oggi è l ultimo giorno di una promozione vantaggiosa su quel modello, ne acquistireste uno? Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 10 / 19

Supponiamo che la strada percorsa con 1 gallone per ciascuna auto sia una v.a. X i N (µ, σ 2 ) i = 1,..., 9(= n) e, tenendo conto che sia la media µ che la varianza σ 2 sono incognite, impostiamo il test come segue: ip H 0 : µ 30 contro H 1 : µ < 30 unilaterale st T (X ) = X 30 S T 8 n dove S(X ) = n i=1 (X i X ) 2 n 1 rr R α = {T (X ) t 8,α } p-val P{T 8 ν} è la varianza campionaria Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 11 / 19

Osservazioni f (t) = Γ( n+1 2 ) nπγ( n 2 ) ) n+1 (1 + t2 2 (], + [) n Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 12 / 19

in R > # Carichiamo i dati osservati > miglia=c( 29.4, 25.7, 26.6, 26.3, 26.0, 30.8, 26.2, 25.1, 25.9) > # Per fare la verifica d ipotesi usiamo il comando > t.test(miglia,alternative=c("less"),mu=30) > One Sample t-test data: miglia t = -4.9115, df = 8, p-value = 0.0005883 alternative hypothesis: true mean is less than 30 95 percent confidence interval: -Inf 28.06678 sample estimates: mean of x 26.88889 Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 13 / 19

T-test two sample Siano due campioni X 1..., X n e Y 1..., Y m rispettivamente, con media e varianza incognite µ x, µ y e σ 2 x, σ 2 y di numerosità n e m grande. Si vuole verificare se le medie dei due campioni coincidono. ip H 0 : µ x = µ y contro H 1 : µ x µ y bilaterale st T (X, Y ) = X Ȳ (µx µy ) T n+m 2 Sp 2 ( 1n + 1m ) dove S 2 p(x, Y ) = (n 1)S2 x +(m 1)S2 y n+m 2 rr R α = { T (X, Y ) t n+m 2, α 2 } p-val 2P{T n+m 2 ν } Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 14 / 19

χ 2 -test: buon adattamento Sia un campione t.c. X Mult(n, θ 1,..., θ k ), dove k è il numero di casi/categorie considerate. Siano date k probabilità p i tali che k i=1 p i = 1, allora scelto un livello di significatività α, si imposta il test nel seguente modo: ip H 0 : θ i = p i i = 1,..., k contro H 1 : j tale che θ j p j bilaterale st χ 2 (X ) = k (X i E[X i ]) 2 i=1 E[X i ] rr R α = {χ 2 (X ) >χ 2 k 1,α } p-val P{χ 2 k 1 ν} χ 2 k 1 (teorema di Pearson) Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 15 / 19

Osservazioni f (x) = 1 k 2 k 2 Γ( k 2 1 2 )x e x 2 (]0, + [) Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 16 / 19

Test χ 2 in R: buon adattamento per la uniforme Un dado viene lanciato n=120 volte ottenendo i seguenti risultati: 1 : 25 2 : 17 3 : 15 4 : 23 5 : 24 6 : 17 (k = 6 casi ). Eseguire il test χ 2 per vedere se il dado è bilanciato. Si può modellizzare questo problema pensando al dado come una v.a. discreta Y U({1, 2, 3, 4, 5, 6}) e impostando il test come segue: ip H 0 : X i Bin(n, p i ) con p i = 1 6 i = 1,..., 6 H 1 : j tale che p i p j bilaterale st χ 2 (X ) = 6 (X i 20) 2 i=1 20 rr R α = {χ 2 (X ) >χ 2 5, α } 2 p-val P{χ 2 5 ν} Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 17 / 19

in R > #Sia co il vettore dei conteggi osservati > co=c(25,17,15,23,24,17) > #Sia pt il vettore delle probabilità teoriche dell ipotesi nulla > pt=rep(1/6,6) > #il comando da usare è > chisq.test(co,p=pt) > #il cui output è data: co X-squared =5, df=5, p-value =0.4159 Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 18 / 19

Bibliografia Douglas C. Montgomery. Controllo statistico della qualità. McGraw-Hill, pp 86-98, 2000. Sheldon M. Ross. Introduzione alla statistica. Capitolo 9, pp 355-400. Apogeo, 2008. A. C. Davison. Statistical Models. Cambridge, pp 325-345, 2003. E. Riccomagno. Laboratorio 4, 2005. Francesco Corrias Chiara Todaro (DIMA) Z-test, T-test, χ 2 -test 13 febbraio 2012 19 / 19