SOLUZIONI ESERCITAZIONE NR. 8 Test statistici ESERCIZIO nr. 1 Un campione casuale di dieci pazienti di sesso maschile in cura per comportamenti aggressivi nell ambito del contesto familiare è stato classificato sulla base del numero di ore di quality time in grado di ritagliarsi durante la settimana. Seguono i dati grezzi rilevati: 2.8 3 3.2 1.5 4 4.2 3.7 5.2 4.5 5. Supponendo noto che il campione in esame provenga da una popolazione Normale caratterizzata da varianza del numero di ore di quality time settimanali pari a 4, si risponda ai seguenti quesiti: 1. si verifichi se ad un livello di significativitá del 99% sia possibile concludere che il campione in esame provenga da una popolazione caratterizzata da numero medio di ore di quality time settimanali pari a 3 Il campione casualmente selezionato dalla popolazione dei pazienti di sesso maschile in cura per comportamenti aggressivi in famiglia si deve ragionevolmente ritenere come risultato di altrettante estrazioni condotte senza reinserimento, ossia nei termini di campione casuale semplice. Supponendo, peró, che un ampiezza campionaria di n 10 soggetti possa ritenersi sufficientemente grande e allo stesso tempo piccola rispetto la numerositá della popolazione statistica in questione, le tecniche di estrazione con e senza reinserimento si dimostrano condurre a risultati equivalenti da un punto di vista probabilistico. In definitiva, sulla base di tali premesse, il campione in esame puó essere inteso come bernoulliano. Si indichi dunque con X la variabile casuale che interpreti il numero di ore di quality time settimanali dei pazienti di sesso maschile in cura per comportamenti aggressivi nell ambito del contesto familiare; per quanto esplicitato dal testo dell esercizio: X N (µ, 4), ossia ci si trova nelle condizioni iniziali di popolazione Normale caratterizzata da varianza σ 2 nota. Evidentemente, il parametro della popolazione oggetto di inferenza é l ignoto numero medio µ di ore di quality time settimanali e, con riferimento ad esso, si é interessati a verificare la seguente ipotesi nulla bilaterale: H 0 : µ 3, ossia l ipotesi secondo cui la popolazione in questione sia caratterizzata da numero medio di ore di quality time settimanali pari a µ 0 3. Ai fini della verifica della presente ipotesi, poiché nota la varianza della popolazione e bilaterale l ipotesi nulla di interesse, si deve necessariamente eseguire uno Z test a due code, con regione critica (regione di rifiuto di H 0 ) composta dalle due code della statistica test X µ 0 σ2 /n N (0.1),
sotto le quali la probabilitá di un errato rifiuto di H 0, α, viene equamente ripartita. Il campione bernoulliano osservato fornisce media campionaria del fenomeno statistico in questione: x 1 n 10 i1 x i 1 (2.8 + 3 + 3.2 +... + 5.2 + 4.5 + 5) 10 1 37.1 3.71 10 Inoltre, essendo il livello di significativitá del test pari a 0.99 (99%), risulta: 1 α 0.99, α 0.01, α 2 0.005, pertanto il valore critico, ossia il valore della statistica test che divide, unitamente al proprio simmetrico, la zona di accettazione di H 0 dalla regione critica, z α/2 z 0.005, che lascia alla propria destra una probabilitá pari a 0.005, é tale che: P (Z z 0.005 ) 0.005; essendo pari a 1 l area sottesa dalla curva a campana che rappresenta la funzione di densitá della variabile casuale Normale standard, si ha che: da cui: 1 P (Z < z 0.005 ) 0.005, P (Z < z 0.005 ) 0.995. Dalle tavole della variabile casuale Normale standard, risulta, in corrispondenza della riga intestata con 2.5 e della colonna intestata con.08, ossia in corrispondenza di z 2.58: P (Z 2.58) 0.9951, ossia z 2.58 identifica lo Z score di interesse. Si rifiuta dunque H 0 a livello 99% se il valore sperimentale della statistica test é tale che: x µ 0 σ2 /n 2.58 o x µ 0 σ2 /n 2.58. Poiché: e x µ 0 σ2 /n 3.71 3 4/10 0.71 0.4 0.71 0.63 1.13 > 0 1.13 < 2.58, il valore sperimentale cade nella regione di accettazione di H 0, dunque si accetta H 0 al 99% di livello di significativitá, ossia, sulla base dell evidenza sperimentale ottenuta, l ipotesi proposta dal testo dell esercizio deve ritenersi fondata.
2. Si determini il p value e sulla base di esso si dia conferma della conclusione tratta al punto 1 In generale, il p value si identifica operativamente nella probabilitá che sotto H 0 vera la statistica test assuma valori pari a quello osservato o piú sfavorevoli rispetto ad esso nei confronti di H 0. Nel presente caso, avendo riscontrato come valore sperimentale z 1.13 > 0, i valori della statistica test piú sfavorevoli rispetto ad esso nei confronti di H 0 sono quelli alla relativa destra. In definitiva, essendo pari a 1 l area totale sotto la curva a campana che rappresenta la funzione di densitá della variabile casuale Normale standard, il p value risulta: ( ) X µ0 p value P σ2 /n 1.13 P (Z 1.13) 1 P (Z < 1.13) 1 P (Z 1.13) ; a questo punto, ai fini della determinazione di P (Z 1.13) é possibile ricorrere alle tavole della variabile casuale Normale standard, dalle quali, incentrando l attenzione sulla casella giacente sull intersezione tra la riga intestata con 1.1 (parte intera e prima cifra dopo la virgola di z 1.13) e la colonna intestata con.03 (seconda cifra dopo la virgola di z 1.13), risulta: Pertanto: e poiché: P (Z 1.13) 0.8708. p value 1 P (Z 1.13) 1 0.8708 0.1292 p value 0.1292 > 0.005 α 2, il valore sperimentale cade nella regione di accettazione di H 0, dunque si accetta H 0 ad un livello di significativitá del 99%: ció conferma la conclusione tratta al punto 1. ESERCIZIO nr. 2 Per giustificare la loro richiesta di aumento di stipendio, gli impiegati di una ditta di vendite per corrispondenza affermano di riuscire ad evadere mediamente un ordine d acquisto in non piú di 13 minuti. Al fine di verificare l attendibilitá di quanto sostenuto dagli impiegati, il direttore generale della ditta in questione effettua una verifica dei tempi di evasione di 16 ordini casualmente selezionati registrando un tempo medio di evasione di 14 minuti ed una varianza campionaria corretta di 100 minuti 2. Ció premesso, supponendo che il tempo di evasione di un ordine d acquisto possa essere ragionevolmente interpretato da una variabile casuale Normale, si verifichi ad un livello di significativitá del 95% se la richiesta degli impiegati debba ritenersi fondata Il campione casualmente selezionato dalla popolazione degli ordini d acquisto della ditta di vendite per corrispondenza in questione si deve ragionevolmente ritenere come risultato di
altrettante estrazioni condotte senza reinserimento, ossia nei termini di campione casuale semplice. Supponendo, peró, che un ampiezza campionaria di n 16 ordini possa ritenersi sufficientemente grande e allo stesso tempo piccola rispetto la numerositá della popolazione statistica in questione, le tecniche di estrazione con e senza reinserimento si dimostrano condurre a risultati equivalenti da un punto di vista probabilistico. In definitiva, sulla base di tali premesse, il campione in esame puó essere inteso come bernoulliano. Si indichi dunque con X la variabile casuale che interpreti il tempo di evasione degli ordini d acquisto della ditta in questione; per quanto esplicitato dal testo dell esercizio: X N ( µ, σ 2), con σ 2 ignota, ossia ci si trova nelle condizioni iniziali di popolazione Normale caratterizzata da varianza σ 2 ignota. Evidentemente, il parametro della popolazione oggetto di inferenza é l ignoto tempo medio µ di evasione degli ordini d acquisto e, con riferimento ad esso, si é interessati a verificare la seguente ipotesi nulla unilaterale sinistra: H 0 : µ 13, che traduce formalmente l affermazione proposta dal testo dell esercizio secondo cui gli impiegati della ditta siano in grado di evadere mediamente un ordine d acquisto in non piú di µ 0 13 minuti. Ai fini della verifica della presente ipotesi, poiché non nota la varianza della popolazione e unilaterale sinistra l ipotesi nulla di interesse, si deve necessariamente eseguire un T test ad una coda, con regione critica (regione di rifiuto di H 0 ) rappresentata dalla coda di destra della statistica test X µ 0 S2 /n T n 1, coda sotto la quale viene posta l intera probabilitá di un errato rifiuto di H 0, α. A tal proposito, con riferimento al campione bernoulliano osservato, sono noti dal testo dell esercizio la media campionaria del fenomeno statistico in questione: e la relativa varianza campionaria corretta: x 14 s 2 100. Inoltre, essendo il livello di significativitá del test pari a 0.95 (95%), risulta: 1 α 0.95, α 0.05, pertanto dalle tavole della variabile casuale T di Student con g n 1 16 1 15 gradi di libertá, si ricava il valore critico, ossia il valore della statistica test che separa la zona di accettazione di H 0 dalla regione critica e che lascia alla propria destra probabilitá pari a 0.05: t n 1,α t 15,0.05 1.7531.
Si rifiuta dunque H 0 a livello 95% se il valore sperimentale della statistica test é tale che: x µ 0 s2 /n 1.7531. Poiché: e x µ 0 s2 /n 14 13 100/16 1 6.25 1 2.5 0.4 0.4 < 1.7531, il valore sperimentale cade nella regione di accettazione di H 0, dunque si accetta H 0 al 95% di livello di significativitá, ossia, sulla base dell evidenza sperimentale ottenuta, l affermazione degli impiegati in questione deve ritenersi fondata. ESERCIZIO nr. 3 Si supponga che nell ambito di un campione casuale di 50 pazienti diabetici aventi subito una perdita di peso, 20 di essi si siano dichiarati consumatori di antidepressivi. Inoltre, si supponga noto che nella popolazione di soggetti sani aventi subito una perdita di peso la proporzione di uso di antidepressivi sia pari a 0.3. Ció premesso, si risponda ai seguenti quesiti: 1. si verifichi se ad un livello di significativitá del 90% la proporzione di uso di antidepressivi nella popolazione dei pazienti diabetici aventi subito una perdita di peso sia non inferiore di quella relativa ai soggetti sani, esplicitando il riferimento teorico a cui si é fatto ricorso Il campione casualmente selezionato dalla popolazione dei pazienti diabetici aventi subito una perdita di peso si deve ragionevolmente ritenere come risultato di altrettante estrazioni condotte senza reinserimento, ossia nei termini di campione casuale semplice. Supponendo, peró, che un ampiezza campionaria di n 50 pazienti possa ritenersi sufficientemente grande e allo stesso tempo piccola rispetto la numerositá della popolazione statistica in questione, le tecniche di estrazione con e senza reinserimento si dimostrano condurre a risultati equivalenti da un punto di vista probabilistico. In definitiva, sulla base di tali premesse, il campione in esame puó essere inteso come bernoulliano. Ció premesso, si indichi con X la variabile casuale discreta che assuma valore 1 in corrispondenza dei pazienti diabetici facenti uso di antidepressivi (classificabili come successi) e valore 0 in corrispondenza dei pazienti diabetici non facenti uso di antidepressivi (classificabili come insuccessi). Evidentemente, il parametro della popolazione oggetto di inferenza é l ignota proporzione p di pazienti diabetici aventi subito una perdita di peso facenti uso di antidepressivi e, con riferimento ad essa, si é interessati a verificare la seguente ipotesi nulla unilaterale destra: H 0 : p 0.3,
ossia l ipotesi secondo cui la proporzione dei facenti uso di antidepressivi nella popolazione dei pazienti diabetici sia non inferiore a quella riscontrata nella popolazione dei soggetti sani pari a p 0 0.3. Disponendo di un campione di tipo bernoulliano ed essendo l ampiezza campionaria n 50 sufficientemente grande per applicare il Teorema Centrale del Limite, ai fini della verifica della presente ipotesi, é possibile eseguire uno Z test approssimato per grandi campioni ad una coda, con regione critica (regione di rifiuto di H 0 ) rappresentata dalla coda di sinistra della statistica test ˆP p 0 p0 (1 p 0 ) /n N (0, 1), coda sotto la quale viene posta l intera probabilitá di un errato rifiuto di H 0, α. A tal proposito, con riferimento al campione bernoulliano osservato, essendo 50 i1 x i 20 il numero di pazienti diabetici aventi subito una perdita di peso che tra gli n 50 considerati sono stati classificati come successi (poiché facenti uso di antidepressivi), l ignota proporzione p dei facenti uso di antidepressivi nella popolazione dei pazienti diabetici aventi subito una perdita di peso puó essere stimata puntualmente mediante la frequenza relativa campionaria di successi, che risulta: ˆp 1 n 50 i1 x i 1 20 0.4. 50 Inoltre, essendo il livello di significativitá del test approssimativamente pari a 0.90 (90%), risulta: 1 α 0.90, α 0.10, pertanto il valore critico, ossia il valore della statistica test che divide la zona di accettazione di H 0 dalla regione critica, z α z 0.10, che lascia alla propria sinistra una probabilitá pari a 0.10, presenta simmetrico tale che: P (Z z 0.10 ) 0.10; essendo pari a 1 l area sottesa dalla curva a campana che rappresenta la funzione di densitá della variabile casuale Normale standard, si ha che: da cui: 1 P (Z < z 0.10 ) 0.10, P (Z < z 0.10 ) 0.90. Dalle tavole della variabile casuale Normale standard, risulta, in corrispondenza della riga intestata con 1.2 e della colonna intestata con.08, ossia in corrispondenza di z 1.28: P (Z 1.28) 0.8997,
ossia z 1.28 identifica lo Z score di interesse. Si rifiuta dunque H 0 a livello approssimativamente pari al 90% se il valore sperimentale della statistica test é tale che: ˆp p 0 p0 (1 p 0 ) /n 1.28. Poiché: ˆp p 0 p0 (1 p 0 ) /n 0.4 0.3 0.3 (1 0.3) /50 0.1 0.3 0.7/50 0.1 0.0042 e 0.1 0.0648 1.54 1.54 > 1.28, il valore sperimentale cade nella regione di accettazione di H 0, dunque si accetta H 0 ad un livello di significativitá approssimativamente pari al 90%, ossia, sulla base dell evidenza sperimentale ottenuta, l ipotesi proposta dal testo dell esercizio deve ritenersi fondata. 2. Si determini il p value e sulla base di esso si dia conferma della conclusione tratta al punto 1 Nel presente caso, avendo riscontrato come valore sperimentale z 1.54, i valori della statistica test piú sfavorevoli rispetto ad esso nei confronti di H 0 sono quelli alla relativa sinistra. Il p value risulta dunque: ( ) ˆP p 0 p value P p0 (1 p 0 ) /n 1.54 P (Z 1.54) 0.9382, poiché, incentrando l attenzione sulla casella della tavola della variabile casuale Normale standard giacente sull intersezione tra la riga intestata con 1.5 (parte intera e prima cifra dopo la virgola di z 1.54) e la colonna intestata con.04 (seconda cifra dopo la virgola di z 1.54), risulta: P (Z 1.54) 0.9382. Pertanto, poiché: p value 0.9382 > 0.10 α, il valore sperimentale cade nella regione di accettazione di H 0, dunque si accetta H 0 ad un livello di significativitá approssimativamente pari al 90%.
ESERCIZIO nr. 4 Al fine di verificare la qualitá della produzione di una certa fabbrica, un ingegnere controlla il numero di pezzi difettosi prodotti da tre macchinari differenti, ottenendo i seguenti risultati: Macchina 1 Macchina 2 Macchina 3 Pezzi non difettosi 150 140 200 Pezzi difettosi 25 40 20 Ciò premesso, si verifichi ad un livello di significativitá del 95% se il macchinario utilizzato non influenzi il numero di pezzi difettosi della produzione della fabbrica in questione. La tabella a doppia entrata proposta dal testo dell esercizio, completata con le distribuzioni di frequenza marginali campionarie dei due fenomeni in questione, risulta come segue: Macchina 1 Macchina 2 Macchina 3 f i. Pezzi non difettosi 150 140 200 490 Pezzi difettosi 25 40 20 85 f.j 175 180 220 575 Ció premesso, il campione casualmente selezionato dalla produzione di pezzi della fabbrica in questione si deve ragionevolmente ritenere come risultato di altrettante estrazioni condotte senza reinserimento, ossia nei termini di campione casuale semplice. Supponendo, peró, che un ampiezza campionaria di n 575 di pezzi di produzione possa ritenersi sufficientemente grande e allo stesso tempo piccola rispetto la numerositá dei pezzi prodotti dalla fabbrica, le tecniche di estrazione con e senza reinserimento si dimostrano condurre a risultati equivalenti da un punto di vista probabilistico. In definitiva, sulla base di tali premesse, il campione di pezzi in esame puó essere inteso come bernoulliano. L esercizio richiede di verificare ad un livello di signifivcativitá del 95% l ipotesi nulla: H 0 : χ 2 0, ossia l ipotesi secondo cui i fenomeni statistici in questione siano statisticamente indipendenti nell ambito della popolazione rappresentata dalla produzione dei pezzi della fabbrica in questione. A tal fine, essendo l ampiezza campionaria sufficientemente grande, é possibile eseguire il Test Chi-Quadrato di Indipendenza per grandi campioni, test ad una coda con regione critica rappresentata dalla coda di destra della statistica test: χ 2 Chi Quadrato (g), che, sotto l ipotesi nulla vera, si identifica approssimativamente in una variabile casuale Chi-Quadrato caratterizzata da gradi di libertá pari a: g (h 1) (k 1) 1 2 2, essendo h 2 e k 3, rispettivamente, le dimensioni di riga e di colonna della tabella a doppia entrata in questione.
Ricorrendo alla relativa formulazione alternativa, il valore sperimentale della statistica test Chi-Quadrato risulta: ( 2 ) 3 f χ 2 ij 2 n 1 ; f i. f.j i1 j1 procedendo per righe, i contributi delle 6 celle della tabella a doppia entrata in questione al calcolo del χ 2 basato sulla relativa formulazione alternativa risultano come segue: f 2 11 f 1. f.1 1502 490 175 22500 85750 0.262, In definitiva: f 2 12 f 1. f.2 1402 490 180 19600 88200 0.222, f 2 13 f 1. f.3 2002 490 220 40000 107800 0.371, f 2 21 f 2. f.1 252 85 175 625 14875 0.042, f 2 22 f 2. f.2 402 85 180 1600 15300 0.104, f 2 23 f 2. f.3 202 85 220 400 18700 0.021. χ 2 575 (0.262 + 0.222 + 0.371 + + 0.042 + 0.104 + 0.021 1) 575 (1.022 1) 575 0.022 12.65. Essendo il livello di significativitá del presente test approssimativamente pari a 0.95 (95%), risulta: 1 α 0.95, α 0.05; dalle tavole della variabile casuale Chi-Quadrato, in corrispondenza della riga g 2 e della colonna α 0.05, risulta 5.9915, che identifica il valore critico del test (che lascia alla propria destra probabilitá pari a 0.05). In definitiva, poiché: χ 2 12.65 5.9915, si rifiuta l ipotesi nullla di indipendenza statistica tra i due fenomeni in questione nella popolazione in esame ad un livello di significativitá approssimativamente pari al 95%.