Lezione 17. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 17. A. Iodice

Documenti analoghi
Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

x ;x Soluzione Gli intervalli di confidenza possono essere ottenuti a partire dalla seguente identità: da cui si ricava: IC x ;x = +

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

ESAME. 9 Gennaio 2017 COMPITO B

Statistica. Alfonso Iodice D Enza

Contenuti: Capitolo 14 del libro di testo

Esercizi di Probabilità e Statistica

Distribuzioni campionarie

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

Esercitazione 8 del corso di Statistica 2

Statistica. Alfonso Iodice D Enza

La verifica delle ipotesi

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI VERIFICA DI IPOTESI PER IL CONFRONTO TRA DUE PROPORZIONI

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

Casa dello Studente. Casa dello Studente

STATISTICA A K (60 ore)

Intervalli di confidenza

Prova d'esame di Statistica I - Corso Prof.ssa S. Terzi

LEZIONI DI STATISTICA MEDICA

Z-test, T-test, χ 2 -test

Confronto tra due popolazioni Lezione 6

Test d ipotesi: confronto fra medie

Un esempio. Ipotesi statistica: supposizione riguardante: un parametro della popolazione. la forma della distribuzione della popolazione

Analisi della varianza: I contrasti e il metodo di Bonferroni

Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

Esercizi riassuntivi di Inferenza

I appello di calcolo delle probabilità e statistica

Schema lezione 5 Intervalli di confidenza

Corso di Psicometria Progredito

Statistica Inferenziale

STATISTICA AZIENDALE Modulo Controllo di Qualità

UNIVERSITÀ DEGLI STUDI DI PERUGIA

Test per l omogeneità delle varianze

b) E necessario formulare delle ipotesi per calcolare l intervallo di confidenza ottenuto al punto a? (motivare brevemente la risposta):

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

Statistica. Alfonso Iodice D Enza

Gli errori nella verifica delle ipotesi

Lezione 12. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 12. A. Iodice.

1.4. Siano X B(1, 1/2) e Y B(1, 1/2) variabili aleatorie indipendenti. Quale delle seguenti affermazioni é falsa? E(X + Y ) = 1 V ar(x + Y ) = 1/2

Esercitazione n. 3 - Corso di STATISTICA - Università della Basilicata - a.a. 2011/12 Prof. Roberta Siciliano

Test di ipotesi su due campioni

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Capitolo 8. Probabilità: concetti di base

STATISTICA ESERCITAZIONE 13

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

Statistica. Alfonso Iodice D Enza

ˆp(1 ˆp) n 1 +n 2 totale di successi considerando i due gruppi come fossero uno solo e si costruisce z come segue ˆp 1 ˆp 2. n 1

Il campionamento e l inferenza. Il campionamento e l inferenza

Analisi della varianza

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI

Approssimazione normale alla distribuzione binomiale

STATISTICA A K (60 ore)

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Università degli Studi di Padova. Corso di Laurea in Medicina e Chirurgia - A.A

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Caratterizzazione dei consumi energetici (parte 3)

SOLUZIONI ESERCITAZIONE NR. 8 Test statistici

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE. a.a.

Esercizio 1. Stima intervallare: IC per la media incognita (varianza ignota)

Distribuzioni e inferenza statistica

PROVA SCRITTA DI STATISTICA. cod CLEA-CLAPI-CLEFIN-CLELI cod CLEA-CLAPI-CLEFIN-CLEMIT. 5 Novembre 2003 SOLUZIONI MOD.

Statistica. Alfonso Iodice D Enza

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 4

STATISTICA ESERCITAZIONE

Test d Ipotesi Introduzione

05. Errore campionario e numerosità campionaria

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

Statistica. Alfonso Iodice D Enza

Statistica Matematica A - Ing. Meccanica, Aerospaziale II prova in itinere - 2 febbraio 2005

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson Apogeo

Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

Corso di Statistica Esercitazione 1.8

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson. Casa editrice: Pearson

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Statistica Metodologica

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

STATISTICA A D (72 ore)

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

1 Esercizi per l esame finale

Regressione Lineare Semplice e Correlazione

Test di ipotesi. Test

Le statistiche campionarie sono stime dei parametri ignoti della popolazione al cui valore siamo interessati.

Il Test di Ipotesi Lezione 5

Prova Scritta di METODI STATISTICI PER L AMMINISTRAZIONE DELLE IMPRESE (Milano, )

Test F per la significatività del modello

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

STATISTICA A K (60 ore)

Lezione 3. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 3. A. Iodice

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

STATISTICA (2) ESERCITAZIONE 2. Dott.ssa Antonella Costanzo

Note sulla probabilità

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016

Distribuzione Normale

Transcript:

con Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 29

Outline con 1 2 3 con 4 5 campioni appaiati 6 Indipendenza tra variabili () Statistica 2 / 29

L importanza del gruppo di controllo con In tutti i casi in cui si voglia studiare l effetto di un certo fattore, ad esempio l effetto di una medicina nel trattare una patologia, una condizione desiderabile è che tutti gli altri fattori siano costanti, in modo che ogni variazione dallo stato iniziale (ad esempio lo stato di salute pre-trattamento del paziente) sia ascrivibile unicamente al fattore oggetto di studio. Poichè una condizione del genere è in molti casi impossibile da ottenere, si procede considerando campioni: un campione viene sottoposto all effetto del fattore oggetto di studio (ad un gruppo di pazienti viene somministrato il farmaco) un altro campione (il gruppo di controllo) non viene sottoposto all effetto del fattore (al gruppo di controllo dei pazienti, viene somministrato un farmaco del tutto simile a quello in questione, ma senza alcun principio attivo). Per verificare l effetto del fattore, si verifica la significatività della differenza di reazione tra i gruppi. () Statistica 3 / 29

Verifica Ipotesi su uguaglianza tra medie di normali () con Si considerino i seguenti campioni indipendenti Campione X Campione casuale X 1,..., X n da una popolazione normale con media µ x e varianza σ 2 x. Campione Y Campione casuale Y 1,..., Y m da una popolazione normale con media µ y e varianza σ 2 y. Si vuole sottoporre a verifica di che le medie delle da cui i campioni sono estratti sono uguali H 0 : µ x = µ y vs. H 1 : µ x µ y Gli stimatori utilizzati sono X e Ȳ. X segue una distribuzione normale con valore attesto E [ X] = µx e varianza var ( X) = σ 2 x n ; Ȳ segue una distribuzione normale con valore attesto E [ Ȳ ] = µ y e varianza var ( Ȳ ) = σ2 y m. () Statistica 4 / 29

Verifica Ipotesi su uguaglianza tra medie di normali () con Per confrontare l uguaglianza tra le medie si considera lo stimatore X Ȳ segue una distribuzione normale con valore attesto E [ X Ȳ ] = µ x µ y e varianza var ( X Ȳ ) = σ2 x n la versione standardizzata di tale stimatore è dunque X Ȳ (µx µy) σ 2 x n + σ2 y m + σ2 y m ; sotto l nulla µ x = µ y e dunque µ x µ y = 0, dunque la statistica test è X Ȳ σx 2 n + σ2 y m () Statistica 5 / 29

Verifica Ipotesi su uguaglianza tra medie di normali (): esempio 1 con SI considerino metodi per realizzare un pneumatico. Il produttore ritiene che non ci sia differenza significativa nella qualità tra gli pneumatici prodotti con i metodi. Per sottoporre a verifica tale vengono realizzate 9 pneumatici con il primo metodo e 7 con il secondo. Il primo campione viene testato su strada su un percorso A, il secondo campione viene testato su un percorso B. Da studi precedenti è noto che la durata del pneumatico su entrambi i percorsi si distribuisce secondo una normale con la media che dipende dal metodo di costruzione dello pneumatico ma con varianza che dipende dal percorso su cui esso viene testato. In particolare, sul percorso A gli pneumatici hanno una durata caratterizzata da una deviazione standard pari a 3000 km, mentre sul percorso B tale valore è 4000 km. Sapendo che X = 62.2444 e Ȳ = 58.2714, i metodi producono pneumatici con la stessa durata media? Effettuare una verifica di ad una significatività del 5%. () Statistica 6 / 29

Verifica Ipotesi su uguaglianza tra medie di normali (): esempio 1 con Svolgimento I dati del problema (in migliaia di km) sono dunque X = 62.2444, Ȳ = 58.2714, n = 9, m = 7, σ x = 3 e σ y = 4. Z oss = X Ȳ σx 2 n + σ2 y m = 62.2444 58.2714 3 2 9 + 42 7 = 2.192 il valore critico, ad un livello di significatività α = 0.05 è Z c = ±1.96: poichè 2.192 è esterno all intervallo [ 1.96, 1.96], si rifiuta H 0. Il p.value è 2P (Z > z oss) = 0.0284 (si moltiplica per perchè l Hp alternativa è bidirezionale). () Statistica 7 / 29

Verifica Ipotesi su uguaglianza tra medie di normali ( note e campioni di grandi dimensioni) Si considerino i seguenti campioni indipendenti Campione X Campione casuale X 1,..., X n da una popolazione normale con media µ x e varianza σx 2, entrambe incognite. Si assume che la taglia n del campione sia elevata (), dunque è ragionevole stimare la varianza della popolazione σx 2 con lo stimatore varianza campionaria S2 x. Campione Y Campione casuale Y 1,..., Y m da una popolazione normale con media µ y e varianza σy 2, entrambe incognite. Si assume che la taglia m del campione sia elevata (m > 30), dunque è ragionevole stimare la varianza della popolazione σy 2 con lo stimatore varianza campionaria S2 y. con Si vuole sottoporre a verifica di che le medie delle da cui i campioni sono estratti sono uguali H 0 : µ x = µ y vs. H 1 : µ x µ y Gli stimatori utilizzati sono X e Ȳ. X segue una distribuzione normale con valore attesto E [ X] = µx e varianza var ( X) = S 2 x n ; Ȳ segue una distribuzione normale con valore attesto E [ Ȳ ] = µ y e varianza var ( Ȳ ) = S2 y m. () Statistica 8 / 29

Verifica Ipotesi su uguaglianza tra medie di normali ( note e campioni di grandi dimensioni) con Per confrontare l uguaglianza tra le medie si considera lo stimatore X Ȳ segue una distribuzione normale con valore attesto E [ X Ȳ ] = µ x µ y e varianza var ( X Ȳ ) = S2 x n la versione standardizzata di tale stimatore è dunque X Ȳ (µx µy) S 2 x n + S2 y m + S2 y m ; sotto l nulla µ x = µ y e dunque µ x µ y = 0, dunque la statistica test è X Ȳ S 2 x n + S2 y m che si distribuisce secondo una normale standard. () Statistica 9 / 29

Verifica Ipotesi su uguaglianza tra medie di normali ( note e campioni di grandi dimensioni): esempio 2 con Si vuole studiare l efficacia di un nuovo farmaco per ridurre il colesterolo. Per testare il farmaco vengono impiegati 100 volontari, suddivisi in gruppi da 50. Al primo gruppo viene somministrato il nuovo farmaco; al secondo gruppo, il gruppo di controllo, viene somministrata della lovastatina, sostanza di uso comune per ridurre il colesterolo. A ciascun volontario è stato detto di prendere una pillola ogni 12 ore per tre mesi. Nessuno dei pazienti sapeva se stesse prendendo il nuovo farmaco o la lovastatina. Il primo gruppo (che ha preso il nuovo farmaco) ha fatto registrare una diminuzione media di colesterolo pari a 8.8, con una variabilità nel campione pari a 4.5. Il secondo gruppo ha fatto registrare una diminuzione media di colesterolo pari a 8.2, con una variabilità nel campione pari a 5.4. Questi risultati supportano l che, ad un livello di significatività del 5%, il nuovo farmaco produce in media un decremento maggiore del livello di colesterolo? () Statistica 10 / 29

Verifica Ipotesi su uguaglianza tra medie di normali ( note e campioni di grandi dimensioni): esempio 2 con Svolgimento Si vuole sottoporre a verifica H 0 : µ x <= µ y vs H 1 : µ x > µ y. I dati del problema sono dunque X = 8.8, Ȳ = 8.2, n = 50, m = 50, S2 x = 4.5 e S 2 y = 5.4. Z oss = X Ȳ S 2 x n + S2 y m = 8.8 8.2 4.5 50 + 5.4 50 = 1.3484 il valore critico, ad un livello di significatività α = 0.05 è Z c = 1.645: dunque risulta che Z oss < Z c, pertanto non si rifiuta H 0. Il p.value è P (Z > z oss) = 0.089. () Statistica 11 / 29

Verifica Ipotesi su uguaglianza tra medie di normali ( uguali e campioni di piccole dimensioni) con Si considerino i seguenti campioni indipendenti Campione X Campione casuale X 1,..., X n da una popolazione normale con media µ x e varianza σx 2, entrambe incognite. Campione Y Campione casuale Y 1,..., Y m da una popolazione normale con media µ y e varianza σy 2, entrambe incognite. In molte applicazioni in cui si è interessati a confrontare le medie di, è ragionevole assumere che σx 2 e σ2 y, sebbene incognite, siano uguali; dunque in questo caso σ2 = σx 2 = σ2 y. Il problema è che si σ 2 non è nota. stimare σ 2 Si sfrutta il fatto che sia S 2 x che S2 y sono stimatori di σ2, e quindi si utilizzano entrambi, combinandoli. Si effettua una media ponderata di Sx 2 e S2 y. Il peso di ciascun stimatore dipende dalla numerosità di ciascun campione, e dai gradi di libertà in particolare. Poichè Sx 2 ha n 1 g.d.l. e S2 y ha m 1 g.d.l., il peso da attribuire a ciascuno stimatore sarà dato dal rapporto tra i g.d.l. dello stimatore e la somma dei g.d.l. complessivi. ( ) ( ) S 2 p = n 1 S2 x +S 2 m 1 y n 1 + m 1 } {{ } peso x n 1 + m 1 } {{ } peso y () Statistica 12 / 29

Verifica Ipotesi su uguaglianza tra medie di normali ( uguali e campioni di piccole dimensioni) con Per confrontare l uguaglianza tra le medie si considera lo stimatore X Ȳ segue una distribuzione normale con valore attesto E [ X Ȳ ] = µ x µ y e varianza var ( X Ȳ ) = S 2 p ( 1n + 1 m ) = [ S 2 x ( n 1 n 1+m 1 la versione standardizzata di tale stimatore è dunque X Ȳ (µx µy) ( ) Sp 2 1n + m 1 ) ( + Sy 2 sotto l nulla µ x = µ y e dunque µ x µ y = 0, dunque la statistica test è X Ȳ ( ) Sp 2 1n + m 1 che si distribuisce secondo una t-student con n 1 + m 1 = n + m 2 g.d.l. m 1 n 1+m 1 )] ( 1n + 1 m () Statistica 13 / 29 ) ;

Verifica Ipotesi su uguaglianza tra medie di normali ( uguali e campioni di piccole dimensioni): esempio 3 con Un campione di 22 volontari è stato utilizzato per studiare l effetto della vitamina C sugli stati influenzali. A dieci volontari è stato somministrato 1 grammo di vitamina C. Ai restanti 12 volontari è stato dato una pillola simile alla vitamina C ma senza principio attivo. La somministrazione è continuata fino alla sparizione dei sintomi influenzali. Di volta in volta è stato registrato il tempo trascorso dalla prima somministrazione alla guarigione. Si vuole verificare se la vitamina C contribuisce a ridurre il tempo di guarigione dall influenza. gruppo di controllo: {6.5, 6, 8.5, 7, 6.5, 8, 7.5, 6.5, 7.5, 6, 8.5, 7} gruppo di studio: {5.5, 6, 7, 6, 7.5, 6, 7.5, 5.5, 7, 6.5} () Statistica 14 / 29

Verifica Ipotesi su uguaglianza tra medie di normali ( uguali e campioni di piccole dimensioni): esempio 3 con Svolgimento Si vuole sottoporre a verifica H 0 : µ y >= µ x vs H 1 : µ y < µ x. I dati campionari portano alle seguenti quantità X = 7.125, Ȳ = 6.45, n = 10, m = 12, S2 x = 0.778 e Sy 2 = 0.581. S 2 p = S2 x ( n 1 n 1 + m 1 ) ( + S 2 y m 1 n 1 + m 1 ) = 0.778 11 20 + 0.581 9 20 = 0.689 X T oss = Ȳ ( ) = 7.125 6.45 ( ) = 1.9 Sp 2 1n + m 1 0.689 112 + 10 1 il valore critico, ad un livello di significatività α = 0.05 e 20 g.d.l. è T c = 1.725: dunque risulta che T oss > T c, pertanto si rifiuta H 0. Il p.value è P (T > t oss) = 0.0375. () Statistica 15 / 29

Verifica Ipotesi su uguaglianza tra medie: campioni appaiati con Paired samples Siano dati campioni X 1,..., X n e Y 1,..., Y n provenienti da normali di media µ x e µ y rispettivamente. Talora esiste una relazione tra le singole osservazioni X i e Y i (i = 1,..., n), dunque i campioni in questione non sono indipendenti. La mancanza di indipendenza trai campioni bisogna procedere diversamente da quanto fatto in precedenza. () Statistica 16 / 29

Es.5: Verifica Ipotesi sulla indipendenza tra mutabili con Per testare l efficacia di un farmaco nella cura di una malattia si considera un campione di 200 pazienti, li si suddivide in gruppi (A e B). Al gruppo A viene somministrato il farmaco, al gruppo B no; si osserva poi, per ciascun gruppo, il numero di pazienti guariti. I risultati della prova sono riassunti nella seguente tabella guariti non guariti tot. gruppo A 75 25 100 gruppo B 65 35 100 tot 140 60 200 Tabella: Appartenenza ai gruppi vs. guariti (non guariti). A partire da tale esperimento, si costruisca un test per valutare l efficacia del farmaco nella cura della malattia. Svolgimento Per stabillire se il farmaco sia o meno curativo si può sottoporre la verifica di che le variabili gruppo di appartenenza e guarigione dalla malattia siano o meno indipendenti: se così dovesse risultare, ovvero che la guarigione dalla malattia non è influenzata dalla assunzione del farmaco, si potrebbe concludere che il farmaco è inefficace. () Statistica 17 / 29

Es.5: Verifica Ipotesi sulla indipendenza tra mutabili con Svolgimento Formalmente H 0 : le variabili considerate sono indipendenti. H 1 : le variabili considerate non sono indipendenti. Al fine di calcolare l indice quadratico di connessione è necessario calcolare le frequenze che ci si attenderebbe se, fissati i marginali di tabella, le variabili fossero indipendenti. guariti non guariti tot. gruppo A 70 30 100 gruppo B 70 30 100 tot 140 60 200 Tabella: Frequenze attese sotto l di indipendenza () Statistica 18 / 29

Es.5: Verifica Ipotesi sulla indipendenza tra mutabili con Svolgimento Si passa a calcolare l indice quadratico di connessione χ 2 = + h k i=1 j=1 (35 30)2 30 (n ij nˆ ij ) 2 (75 70)2 (25 30)2 = + + nˆ ij 70 30 = 2.38 (65 70)2 + 70 La statistica appena calcolata si distribuisce secondo una v.c. chi-quadro χ 2 con (h 1) (k 1) = 1 grado di libertà (h e k sono rispettivamente il numero di modalit delle mutabili considerate). Ad un livello di significatività del 5% e con 1 g.d.l. il valore critico è χ 2 0.95,1 = 3.84. Poichè il valore osservato della statistica è minore del valore critico (2.38 < 3.84), non si può rifiutare l nulla: di conseguenza non si può sostenere che il farmaco abbia effetti sulla cura della malattia. () Statistica 19 / 29

Es.5: Verifica Ipotesi sulla bontà di accostamento con L obiettivo è sottoporre a verifica l che i dati campionari osservati provengano da una distribuzione nota. In particolare H 0 è l affermazione: i dati campionari X 1, X 2,..., X n provengono da una certa distribuzione f(x). Poiché non si fa riferimento ad un parametro, ma all intera distribuzione, si tratta di test non parametrici....una prospettiva differente Mentre nei test parametrici la di ricerca è H 1, in quanto le conseguenze operative scaturiscono dal rifiuto di H 0, nel caso dei test di adattamento il ricercatore si augura il non rifiuto di H 0, dal momento che, in questo caso, si ipotizza di aver individuato la distribuzione di provenienza dei dati campionari. () Statistica 20 / 29

Es.5: Verifica Ipotesi sulla bontà di accostamento con Si supponga di avere a disposizione di un campione casuale X 1, X 2,..., X n generato da una v.c. X f(x, θ), incognita. Si vuole verificare se X g(x, θ 0 ), dove g(.) è completamente specificata (H 0 ); l alternativa è che X sia una v.c. distribuita secondo qualsiasi altra distribuzione che non sia g(.). Costruzione della statistica test H 0 : f(x, θ) = g(x, θ 0 ) vs. H 1 : f(x, θ) g(x, θ 0 ) Per costruire il test i dati campionari vengono suddivisi in k classi (C 1, C 2,..., C k ). Le frequenze di ciascuna classe sono n 1, n 2,..., n k. Se H 0 è vera, la probabilità che X assuma valori in ciascuna delle classi è data da p 1, p 2,..., p k p i = P (X C i ), i = 1, 2,..., k. che è la frequenza teorica attesa se H 0 fosse vera. La frequenza assoluta teorica è n i p i. () Statistica 21 / 29

Es.5: Verifica Ipotesi sulla bontà di accostamento con Costruzione della statistica test (2) La statistica test corrisponde quindi nel misurare la discrepanza tra le frequenze osservate n 1, n 2,..., n k e quelle teoriche n 1 p 1, n 2 p 2,..., n k p k, formalmente: k Xoss 2 i=1 (n i n i p i ) 2 n i p i. Se il valore di Xoss 2 non è troppo distante da 0, non si rifiuta l nulla. In particolare, poiché la statistica test si distribuisce secondo un chi-quadro con k 1 g.d.l.. Dunque se Xoss 2 > χ 2 α,k 1 si rifiuta H 0. () Statistica 22 / 29

Esempio verifica bontà di accostamento con Si supponga di voler verificare quale dei dati (rosso e blu) è equilibrato. dado blu dado rosso 1 98 108 2 104 114 3 81 105 4 89 98 5 118 112 6 110 63 questo equivale a sottoporre a verifica di che le distribuzioni di frequenza osservate siano realizzazioni di una v.c. uniforme discreta. () Statistica 23 / 29

Esempio verifica bontà di accostamento con Dado blu n i np i (n i np i ) 2 np i 1 98 100 0.04 2 104 100 0.16 3 81 100 3.61 4 89 100 1.21 5 118 100 3.24 6 110 100 1.00 9.26 Ad un livello di significatività dell 1%, χ 0.01,6 1 = 15.086, dunque X 2 < χ 0.01,6 1 essendo 9.26 < 15.086. Pertanto non si rifiuta H 0. () Statistica 24 / 29

Esempio verifica bontà di accostamento con Dado rosso n i np i (n i np i ) 2 np i 1 108 100 0.64 2 114 100 1.96 3 105 100 0.25 4 98 100 0.04 5 112 100 1.44 6 63 100 13.69 18.02 Ad un livello di significatività dell 1%, χ 0.01,6 1 = 15.086, dunque X 2 > χ 0.01,6 1 essendo 18.02 > 15.086. Pertanto si rifiuta H 0. () Statistica 25 / 29

Relazione tra intervalli di confidenza e verifica di con Sia X una v.c. tale che X N(µ, σ 2 ); se σ 2 è nota, allora la regione di accettazione dell H 0 : µ = µ 0 è data da µ 0 ± Z α/2 σ n quindi non si rifiuta H 0 se il valore dello stimatore campionario X è incluso nella regione di accettazione, formalmente: La domanda σ µ 0 Z α/2 n < X σ < µ 0 + Z α/2 n Avendo osservato il campione X 1, X 2,..., X n e di conseguenza X (che quindi è fisso), quali sono i valori µ 0 che condurrebbero al non rifiuto di H 0? () Statistica 26 / 29

Relazione tra intervalli di confidenza e verifica di con Partendo dalla regione di accettazione σ µ 0 Z α/2 n < X σ < µ 0 + Z α/2 n e tenuto conto del fatto che in questo caso µ 0 può variare mentre X è fisso. Le precedenti disequazioni vengono esplicitate rispetto a µ 0 σ X > µ 0 Z α/2 n µ 0 > X σ Z α/2 n σ X < µ 0 + Z α/2 n µ 0 < X σ + Z α/2 n dunque, l intervallo di valori di µ 0 centrato su X che conducono al non rifiuto dell nulla è σ X Z α/2 n < µ 0 < X σ + Z α/2 n che rappresenta la stima intervallare di µ ad un livello di confidenza all (1 α)%. () Statistica 27 / 29

Relazione tra intervalli di confidenza e verifica di con Si consideri di aver costruito un intervallo di confidenza 1 α =.95 sulla media di una v.c. X N(µ, σ 2 = 30). Se il campione osservato è n = 25 e la stima media campionaria x = 165.64. Sulla base di questi dati la stima intervallare è [163.49; 167.79] poiché σ X z 2 α/2 n = 165.64 1.96 30 25 = 163.49 σ X + z 2 α/2 n = 165.64 + 1.96 30 25 = 167.79 Ora, se si sottopone a verifica d la media H 0 : µ 0 = 165, si può concludere immediatamente che tale non possa essere rifiutata; infatti 165 [163.49; 167.79]. () Statistica 28 / 29

Relazione tra intervalli di confidenza e verifica di con A verifica di questo, si calcolino gli estremi della regione di accettazione: σ µ 0 Z α/2 n < X σ < µ 0 + Z α/2 n 30 165 1.96 25 < X 30 < 165 + 1.96 25 162.85 < X < 167.15 il valore osservato x = 165.64 cadrà all interno di tale regione. Tale decisione sarà presa per ogni valore di µ 0 compreso negli estremi dell intervallo di confidenza [163.49; 167.79]. () Statistica 29 / 29