Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice



Documenti analoghi
Lezione 17. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 17. A. Iodice

Statistica. Lezione 6

Verifica di ipotesi

3. Confronto tra medie di due campioni indipendenti o appaiati

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Statistiche campionarie

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7


Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Analisi di dati di frequenza

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

STATISTICA IX lezione

Metodi statistici per le ricerche di mercato

Corso di Psicometria Progredito

E naturale chiedersi alcune cose sulla media campionaria x n

VERIFICA DELLE IPOTESI

Esercitazione n.4 Inferenza su varianza

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

4. Confronto tra medie di tre o più campioni indipendenti

Esercitazione n.2 Inferenza su medie

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6

Elementi di Psicometria con Laboratorio di SPSS 1

Facoltà di Psicologia Università di Padova Anno Accademico

Inferenza statistica. Statistica medica 1

1. Distribuzioni campionarie

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

Concetto di potenza statistica

Istituzioni di Statistica e Statistica Economica

Capitolo 11 Test chi-quadro

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

Elementi di Psicometria con Laboratorio di SPSS 1

Statistica. Alfonso Iodice D Enza iodicede@unicas.it

Statistica inferenziale

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Temi di Esame a.a Statistica - CLEF

Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica. Indici di Affidabilità

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

Tema A Se due eventi A e B sono indipendenti e tali che P (A) = 1/2 e P (B) = 2/3, si può certamente concludere che

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

LEZIONE n. 5 (a cura di Antonio Di Marco)

Elementi di Psicometria con Laboratorio di SPSS 1

Statistica. Alfonso Iodice D Enza iodicede@unina.it

Relazioni statistiche: regressione e correlazione

VERIFICA DELLE IPOTESI

Corso di Psicometria Progredito

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica

La logica statistica della verifica (test) delle ipotesi

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Onestà di un dado. Relazione sperimentale

Istituzioni di Statistica e Statistica Economica

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE SIMULAZIONE della PROVA SCRITTA di STATISTICA 23/03/2011

Test statistici di verifica di ipotesi

Analizza/Confronta medie. ELEMENTI DI PSICOMETRIA Esercitazione n Test t. Test t. t-test test e confronto tra medie chi quadrato

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità C

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi :

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

T DI STUDENT Quando si vogliono confrontare solo due medie, si può utilizzare il test t di Student La formula per calcolare il t è la seguente:

11. Analisi statistica degli eventi idrologici estremi

ESAME DI STATISTICA Nome: Cognome: Matricola:

Esercizio 1. Proprietà desiderabili degli stimatori (piccoli campioni)

Titolo della lezione. Analisi dell associazione tra due caratteri: indipendenza e dipendenza

Corso di Psicometria Progredito

Metodi statistici per le ricerche di mercato

Il coefficiente di correlazione di Spearman per ranghi

ELEMENTI DI STATISTICA

Soluzioni degli Esercizi del Parziale del 30/06/201 (Ippoliti-Fontanella-Valentini)

SOLUZIONI ESERCITAZIONE NR. 6 Variabili casuali binomiale e normale

Capitolo 12 La regressione lineare semplice

Ai fini economici i costi di un impresa sono distinti principalmente in due gruppi: costi fissi e costi variabili. Vale ovviamente la relazione:

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

CAPITOLO III CONFRONTI TRA DISTRIBUZIONI

La distribuzione Normale. La distribuzione Normale

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

Igiene nelle Scienze motorie

L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELLA ROLE Six Sigma Master Black Belt

Esercitazioni di Statistica

Prova di autovalutazione Prof. Roberta Siciliano

La distribuzione Gaussiana

STATISTICA INFERENZIALE

Esercitazione n.1 (v.c. Binomiale, Poisson, Normale)

è decidere sulla verità o falsità

Il test del Chi-quadrato

(a cura di Francesca Godioli)

b. Che cosa succede alla frazione di reddito nazionale che viene risparmiata?

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 7

ANALISI DI CORRELAZIONE

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza

INTRODUZIONE AL DESIGN OF EXPERIMENTS (Parte 1)

Università del Piemonte Orientale. Corsi di Specialità. Corso di Statistica Medica. Analisi dei dati quantitativi : Analisi della varianza

Esercizi di Probabilità e Statistica

Test non parametrici. Test non parametrici. Test non parametrici. Test non parametrici

Transcript:

Esercitazione 15 Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () 1 / 18

L importanza del gruppo di controllo In tutti i casi in cui si voglia studiare l effetto di un certo fattore, ad esempio l effetto di una medicina nel trattare una patologia, una condizione desiderabile è che tutti gli altri fattori siano costanti, in modo che ogni variazione dallo stato iniziale (ad esempio lo stato di salute pre-trattamento del paziente) sia ascrivibile unicamente al fattore oggetto di studio. Poichè una condizione del genere è in molti casi impossibile da ottenere, si procede considerando campioni: un campione viene sottoposto all effetto del fattore oggetto di studio (ad un gruppo di pazienti viene somministrato il farmaco) un altro campione (il gruppo di controllo) non viene sottoposto all effetto del fattore (al gruppo di controllo dei pazienti, viene somministrato un farmaco del tutto simile a quello in questione, ma senza alcun principio attivo). Per verificare l effetto del fattore, si verifica la significatività della differenza di reazione tra i gruppi. () 2 / 18

Verifica Ipotesi su uguaglianza tra medie di normali (varianze note) Si considerino i seguenti campioni indipendenti Campione X Campione casuale X 1,..., X n da una popolazione normale con media µ x e varianza σ 2 x. Campione Y Campione casuale Y 1,..., Y m da una popolazione normale con media µ y e varianza σ 2 y. Si vuole sottoporre a verifica di che le medie delle da cui i campioni sono estratti sono uguali H 0 : µ x = µ y vs. H 1 : µ x µ y Gli stimatori utilizzati sono X e Ȳ. X segue una distribuzione normale con valore attesto E [ X] = µx e varianza var ( X) = σ 2 x n ; Ȳ segue una distribuzione normale con valore attesto E [ Ȳ ] = µ y e varianza var ( Ȳ ) = σ2 y m. () 3 / 18

Verifica Ipotesi su uguaglianza tra medie di normali (varianze note) Per confrontare l uguaglianza tra le medie si considera lo stimatore X Ȳ segue una distribuzione normale con valore attesto E [ X Ȳ ] = µ x µ y e varianza var ( X Ȳ ) = σ2 x n la versione standardizzata di tale stimatore è dunque X Ȳ (µx µy) σ 2 x n + σ2 y m + σ2 y m ; sotto l nulla µ x = µ y e dunque µ x µ y = 0, dunque la statistica test è X Ȳ σx 2 n + σ2 y m () 4 / 18

Verifica Ipotesi su uguaglianza tra medie di normali (varianze note): esercizio 1 SI considerino metodi per realizzare un pneumatico. Il produttore ritiene che non ci sia differenza significativa nella qualità tra gli pneumatici prodotti con i metodi. Per sottoporre a verifica tale vengono realizzate 9 pneumatici con il primo metodo e 7 con il secondo. Il primo campione viene testato su strada su un percorso A, il secondo campione viene testato su un percorso B. Da studi precedenti è noto che la durata del pneumatico su entrambi i percorsi si distribuisce secondo una normale con la media che dipende dal metodo di costruzione dello pneumatico ma con varianza che dipende dal percorso su cui esso viene testato. In particolare, sul percorso A gli pneumatici hanno una durata caratterizzata da una deviazione standard pari a 3000 km, mentre sul percorso B tale valore è 4000 km. Sapendo che X = 62.2444 e Ȳ = 58.2714, i metodi producono pneumatici con la stessa durata media? Effettuare una verifica di ad una significatività del 5%. () 5 / 18

Verifica Ipotesi su uguaglianza tra medie di normali (varianze note): esercizio 1 Svolgimento I dati del problema (in migliaia di km) sono dunque X = 62.2444, Ȳ = 58.2714, n = 9, m = 7, σ x = 3 e σ y = 4. Z oss = X Ȳ σx 2 n + σ2 y m = 62.2444 58.2714 3 2 9 + 42 7 = 2.192 il valore critico, ad un livello di significatività α = 0.05 è Z c = ±1.96: poichè 2.192 è esterno all intervallo [ 1.96, 1.96], si rifiuta H 0. Il p.value è 2P (Z > z oss) = 0.0284 (si moltiplica per perchè l Hp alternativa è bidirezionale). () 6 / 18

valore attesto E [ Ȳ ] = µ e varianza var ( Ȳ ) () = S2y. 7 / 18 Verifica Ipotesi su uguaglianza tra medie di normali (varianze non note e campioni di grandi dimensioni) Si considerino i seguenti campioni indipendenti Campione X Campione casuale X 1,..., X n da una popolazione normale con media µ x e varianza σ 2 x, entrambe incognite. Si assume che la taglia n del campione sia elevata (n > 30), dunque è ragionevole stimare la varianza della popolazione σ 2 x con lo stimatore varianza campionaria S 2 x. Campione Y Campione casuale Y 1,..., Y m da una popolazione normale con media µ y e varianza σ 2 y, entrambe incognite. Si assume che la taglia m del campione sia elevata (m > 30), dunque è ragionevole stimare la varianza della popolazione σ 2 y con lo stimatore varianza campionaria S 2 y. Si vuole sottoporre a verifica di che le medie delle da cui i campioni sono estratti sono uguali H 0 : µ x = µ y vs. H 1 : µ x µ y Gli stimatori utilizzati sono X e Ȳ. X segue una distribuzione normale con valore attesto E [ X] = µx e varianza var ( X) = S 2 x n ; Ȳ segue una distribuzione normale con

Verifica Ipotesi su uguaglianza tra medie di normali (varianze non note e campioni di grandi dimensioni) Per confrontare l uguaglianza tra le medie si considera lo stimatore X Ȳ segue una distribuzione normale con valore attesto E [ X Ȳ ] = µ x µ y e varianza var ( X Ȳ ) = S2 x n la versione standardizzata di tale stimatore è dunque X Ȳ (µx µy) S 2 x n + S2 y m + S2 y m ; sotto l nulla µ x = µ y e dunque µ x µ y = 0, dunque la statistica test è X Ȳ S 2 x n + S2 y m che si distribuisce secondo una normale standard. () 8 / 18

Verifica Ipotesi su uguaglianza tra medie di normali (varianze non note e campioni di grandi dimensioni): esercizio 2 Si vuole studiare l efficacia di un nuovo farmaco per ridurre il colesterolo. Per testare il farmaco vengono impiegati 100 volontari, suddivisi in gruppi da 50. Al primo gruppo viene somministrato il nuovo farmaco; al secondo gruppo, il gruppo di controllo, viene somministrata della lovastatina, sostanza di uso comune per ridurre il colesterolo. A ciascun volontario è stato detto di prendere una pillola ogni 12 ore per tre mesi. Nessuno dei pazienti sapeva se stesse prendendo il nuovo farmaco o la lovastatina. Il primo gruppo (che ha preso il nuovo farmaco) ha fatto registrare una diminuzione media di colesterolo pari a 8.8, con una variabilità nel campione pari a 4.5. Il secondo gruppo ha fatto registrare una diminuzione media di colesterolo pari a 8.2, con una variabilità nel campione pari a 5.4. Questi risultati supportano l che, ad un livello di significatività del 5%, il nuovo farmaco produce in media un decremento maggiore del livello di colesterolo? () 9 / 18

Verifica Ipotesi su uguaglianza tra medie di normali (varianze non note e campioni di grandi dimensioni): esercizio 2 Svolgimento Si vuole sottoporre a verifica H 0 : µ x <= µ y vs H 1 : µ x > µ y. I dati del problema sono dunque X = 8.8, Ȳ = 8.2, n = 50, m = 50, S2 x = 4.5 e S 2 y = 5.4. Z oss = X Ȳ S 2 x n + S2 y m = 8.8 8.2 4.5 50 + 5.4 50 = 1.3484 il valore critico, ad un livello di significatività α = 0.05 è Z c = 1.645: dunque risulta che Z oss < Z c, pertanto non si rifiuta H 0. Il p.value è P (Z > z oss) = 0.089. () 10 / 18

Verifica Ipotesi su uguaglianza tra medie di normali (varianze non note ma supposte uguali e campioni di piccole dimensioni) Si considerino i seguenti campioni indipendenti Campione X Campione casuale X 1,..., X n da una popolazione normale con media µ x e varianza σx 2, entrambe incognite. Campione Y Campione casuale Y 1,..., Y m da una popolazione normale con media µ y e varianza σy 2, entrambe incognite. In molte applicazioni in cui si è interessati a confrontare le medie di, è ragionevole assumere che σx 2 e σ2 y, sebbene incognite, siano uguali; dunque in questo caso σ2 = σx 2 = σ2 y. Il problema è che si σ 2 non è nota. stimare σ 2 Si sfrutta il fatto che sia S 2 x che S2 y sono stimatori di σ2, e quindi si utilizzano entrambi, combinandoli. Si effettua una media ponderata di Sx 2 e S2 y. Il peso di ciascun stimatore dipende dalla numerosità di ciascun campione, e dai gradi di libertà in particolare. Poichè Sx 2 ha n 1 g.d.l. e S2 y ha m 1 g.d.l., il peso da attribuire a ciascuno stimatore sarà dato dal rapporto tra i g.d.l. dello stimatore e la somma dei g.d.l. complessivi. ( ) ( ) S 2 p = n 1 S2 x +S 2 m 1 y n 1 + m 1 } {{ } peso x n 1 + m 1 } {{ } peso y () 11 / 18

Verifica Ipotesi su uguaglianza tra medie di normali (varianze non note ma supposte uguali e campioni di piccole dimensioni) Per confrontare l uguaglianza tra le medie si considera lo stimatore X Ȳ segue una distribuzione normale con valore attesto E [ X Ȳ ] = µ x µ y e varianza var ( X Ȳ ) = S 2 p ( 1n + 1 m ) = [ S 2 x ( n 1 n 1+m 1 la versione standardizzata di tale stimatore è dunque X Ȳ (µx µy) ( ) Sp 2 1n + m 1 ) ( + Sy 2 m 1 n 1+m 1 )] ( 1n + 1 m ) ; sotto l nulla µ x = µ y e dunque µ x µ y = 0, dunque la statistica test è X Ȳ ( ) Sp 2 1n + m 1 che si distribuisce secondo una t-student con n 1 + m 1 = n + m 2 g.d.l. () 12 / 18

Verifica Ipotesi su uguaglianza tra medie di normali (varianze non note ma supposte uguali e campioni di piccole dimensioni): esercizio 3 Un campione di 22 volontari è stato utilizzato per studiare l effetto della vitamina C sugli stati influenzali. A dieci volontari è stato somministrato 1 grammo di vitamina C. Ai restanti 12 volontari è stato dato una pillola simile alla vitamina C ma senza principio attivo. La somministrazione è continuata fino alla sparizione dei sintomi influenzali. Di volta in volta è stato registrato il tempo trascorso dalla prima somministrazione alla guarigione. Si vuole verificare se la vitamina C contribuisce a ridurre il tempo di guarigione dall influenza. gruppo di controllo: {6.5, 6, 8.5, 7, 6.5, 8, 7.5, 6.5, 7.5, 6, 8.5, 7} gruppo di studio: {5.5, 6, 7, 6, 7.5, 6, 7.5, 5.5, 7, 6.5} () 13 / 18

Verifica Ipotesi su uguaglianza tra medie di normali (varianze non note ma supposte uguali e campioni di piccole dimensioni): esercizio 3 Svolgimento Si vuole sottoporre a verifica H 0 : µ x >= µ y vs H 1 : µ x < µ y. I dati campionari portano alle seguenti quantità X = 7.125, Ȳ = 6.45, n = 10, m = 12, S2 x = 0.778 e Sy 2 = 0.581. S 2 p = S2 x ( n 1 n 1 + m 1 ) ( + S 2 y m 1 n 1 + m 1 ) = 0.778 11 20 + 0.581 9 20 = 0.689 X T oss = Ȳ ( ) = 7.125 6.45 ( ) = 1.9 Sp 2 1n + m 1 0.689 112 + 10 1 il valore critico, ad un livello di significatività α = 0.05 e 20 g.d.l. è T c = 1.725: dunque risulta che T oss > T c, pertanto si rifiuta H 0. Il p.value è P (T > t oss) = 0.0375. () 14 / 18

Verifica Ipotesi su uguaglianza tra medie: campioni appaiati Paired samples Siano dati campioni X 1,..., X n e Y 1,..., Y n provenienti da normali di media µ x e µ y rispettivamente. Talora esiste una relazione tra le singole osservazioni X i e Y i (i = 1,..., n), dunque i campioni in questione non sono indipendenti. La mancanza di indipendenza trai campioni bisogna procedere diversamente da quanto fatto in precedenza. () 15 / 18

Ex.5: Verifica Ipotesi sulla indipendenza tra mutabili Per testare l efficacia di un farmaco nella cura di una malattia si considera un campione di 200 pazienti, li si suddivide in gruppi (A e B). Al gruppo A viene somministrato il farmaco, al gruppo B no; si osserva poi, per ciascun gruppo, il numero di pazienti guariti. I risultati della prova sono riassunti nella seguente tabella guariti non guariti tot. gruppo A 75 25 100 gruppo B 65 35 100 tot 140 60 200 Table: Appartenenza ai gruppi vs. guariti (non guariti). A partire da tale esperimento, si costruisca un test per valutare l efficacia del farmaco nella cura della malattia. Svolgimento Per stabillire se il farmaco sia o meno curativo si può sottoporre la verifica di che le variabili gruppo di appartenenza e guarigione dalla malattia siano o meno indipendenti: se così dovesse risultare, ovvero che la guarigione dalla malattia non è influenzata dalla assunzione del farmaco, si potrebbe concludere che il farmaco è inefficace. () 16 / 18

Ex.5: Verifica Ipotesi sulla indipendenza tra mutabili Svolgimento Formalmente H 0 : le variabili considerate sono indipendenti. H 1 : le variabili considerate non sono indipendenti. Al fine di calcolare l indice quadratico di connessione è necessario calcolare le frequenze che ci si attenderebbe se, fissati i marginali di tabella, le variabili fossero indipendenti. guariti non guariti tot. gruppo A 70 30 100 gruppo B 70 30 100 tot 140 60 200 Table: Frequenze attese sotto l di indipendenza () 17 / 18

Ex.5: Verifica Ipotesi sulla indipendenza tra mutabili Svolgimento Si passa a calcolare l indice quadratico di connessione χ 2 = + h k i=1 j=1 (35 30)2 30 (n ij nˆ ij ) 2 (75 70)2 (25 30)2 = + + nˆ ij 70 30 = 2.38 (65 70)2 + 70 La statistica appena calcolata si distribuisce secondo una v.c. chi-quadro χ 2 con (h 1) (k 1) = 1 grado di libertà (h e k sono rispettivamente il numero di modalità delle mutabili considerate). Ad un livello di significatività del 5% e con 1 g.d.l. il valore critico è χ 2 0.95,1 = 3.84. Poichè il valore osservato della statistica è minore del valore critico (2.38 < 3.84), non si può rifiutare l nulla: di conseguenza non si può sostenere che il farmaco abbia effetti sulla cura della malattia. () 18 / 18