Esercizi di statistica

Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -.. L intervallo di confidenza al 95% per la media è circa (1).34 < µ < 4.11 () 1.69 < µ < 3.47 (3) 8.3 < µ < 10 (4) 6.4 < µ < 8.19 [] Sia X N(15, 5) una variabile aleatoria normale di media 15 e varianza 5. Allora P (X < 7.5) vale circa (1) 0.067 () 0.933 (3) 0.618 (4) 0.38 [3] Si ha la seguente tabella di frequenze: n j 6 14 7 13 13 14 10 Si effettua un test del Chi-quadrato per stabilire se tali frequenze sono compatibili col fatto che gli eventi sono equiprobabili. Allora il p-value del test soddisfa: (1) 0.01 < p < 0.05 () p < 0.01 (3) 0.05 < p < 0.05 (4) p > 0.05 Esercizi da svolgere [E.1] Abbiamo 3 campioni indipendenti estratti casualmente da popolazioni normali aventi la stessa varianza. Le osservazioni sono riassunte nella seguente tabella: Gruppo 1 Gruppo Gruppo 3 n j 6 8 7 x j 10.63 11.04 11.56 s j.75.43.77 Stabilire se esistono differenze significative fra le medie ai livelli di significatività dell 1% e del 5%. [E.] Abbiamo campioni indipendenti estratti casualmente da popolazioni normali aventi la stessa varianza. Le osservazioni sono riassunte nella seguente tabella: Gruppo 1 Gruppo n j 10 9 x j 7.81 9.49 s j 3.57 4.67 Stabilire se si può concludere che la media del primo gruppo è inferiore a quella del secondo, ai livelli di significatività dell 1% e del 5%. Determinare l intervallo di confidenza al 95% e 99% per la differenza delle medie. [E.3] È data la seguente tabella di contingenza: Tipo di effetto Trattamento Eff.1 Eff. Eff.3 Totale Trattamento 1 57 146 99 30 Trattamento 35 50 34 119 Trattamento 3 64 118 58 40 Totale 156 314 191 661 Stabilire se il tipo di effetto dipende dal trattamento somministrato, ai livelli di significatività dell 1% e del 5%. [E.4] Le seguenti misure sono state rilevate su due campioni indipendenti di ampiezza 7 e 8: x i : 69, 60, 8, 57, 6, 7, 79 y i : 114, 91, 100, 66, 74, 98, 78, 95 Lo sperimentatore ritiene che non si possa assumere che i campioni provengano da popolazioni distribuite normalmente. Stabilire, ai livelli di significatività dell 1% e del 5%, se si può concludere che la media del primo gruppo è inferiore a quella del secondo. [E.5] Le seguenti misure sono state rilevate, su uno stesso campione di ampiezza 10, prima e dopo un trattamento: x i : 108, 84, 100, 11, 98, 150, 13, 94, 90, 134 y i : 150, 14, 99, 118, 108, 15, 04, 134, 106, 16 Lo sperimentatore ritiene che non si possa assumere che i campioni provengano da popolazioni distribuite normalmente. Stabilire, ai livelli di significatività dell 1% e del 5%, se esistono differenze significative fra le medie. [E.6] Sono date le seguenti osservazioni: x 36.6 56.1 4. 59 85.6 73.3 64.3 46. 36.1 7.7 y 63.4 65.5 60.8 6.9 65.5 65.6 60.1 61.5 54.9 1 63

Determinare la retta di regressione y = a + b x e il coefficiente di correlazione fra x e y. Stabilire, ai livelli di significatività dell 1% e del 5%, se esiste una relazione lineare fra x e y. Calcolare l intervallo di confidenza per b al 95% e 99%. Soluzioni Test a scelta multipla [1] Se X 1,..., X n è un campione di ampiezza n estratto da una popolazione normale, la variabile t = X µ S si distribuisce come la variabile aleatoria t di Student con ν = n 1 gradi di libertà. Indichiamo con t il valore critico della distribuzione t di Student con n 1 gradi di libertà tale che P ( t < t ) = 0.95. L intervallo di confidenza al 95% per la media µ è dato da n X t S n < µ < X + t S n. (1) Nel nostro caso si ha ν = 8 1 = 7; sulla tabella dei quantili della distribuzione t, per il test a due code (si veda Glantz p. 79 oppure dispense) si trova t =.365. Usando la calcolatrice otteniamo X = 0.8875, S = 3.855. Sostituendo i valori nella formula (1) si ottiene.34 < µ < 4.11. [] Se X N(µ, σ ) è una variabile aleatoria normale di media µ e varianza σ, allora Z = X µ σ N(0, 1) è una variabile aleatoria normale standard, quindi P (X < a) = P (Z < (a µ)/σ), dove a è un qualsiasi numero reale. Nel nostro caso si ha P (X < 7.5) = P (Z < (7.5 15)/5) = P (Z < 1.5) = 1 P (Z < 1.5). Sulla tabella della distribuzione normale standard si trova P (Z < 1.5) = 0.933. Di conseguenza, P (X < 7.5) = 0.067. [3] Se i k = 7 eventi sono equiprobabili, le frequenze attese sono tutte uguali e valgono n = ( n j )/k = 117/7. Possiamo calcolare X (n j n) = = 16.7. n Questo consuntivo si distribuisce approssimativamente come la variabile aleatoria χ 6 (chi-quadrato con ν = k 1 = 6 gradi di libertà). Sulla tabella del chi-quadrato troviamo P (χ 6 < 14.45) = 0.975, P (χ 6 < 16.81) = 0.99, e il valore di X è compreso fra i due valori 14.45 e 16.81. Di conseguenza, il p-value del test (che è quel numero p tale che P (χ 6 < X ) = 1 p) sarà compreso fra 1 0.99 = 0.01 e 1 0.975 = 0.05. Esercizi da svolgere [E.1] Per stabilire se esistono differenze significative fra le medie dei k = 3 gruppi utilizziamo il test F di Fisher. Dai dati tabulati abbiamo che N = n j = 1, x = 1 n j x j = 11.10. N Calcoliamo poi SS tra = n j (x j x) =.83, S tra = SS tra k 1 = 1.4, SS entro = (n j 1)s j = 47.35, Sentro = SS entro N k =.63. Il consuntivo F vale quindi F = S tra S entro Riassumiamo i calcoli nella tabella dell analisi della varianza: d.f. SS S F Trattamenti.83 1.4 0.53875 Errore 18 47.35.63 = 0.538.

Nella tabella relativa alla distribuzione di Fisher con ν n = k 1 = gradi di libertà al numeratore e ν d = N k = 18 gradi di libertà al denominatore troviamo i valori critici F 0.05 = 3.554557, F 0.01 = 6.01905. Poiché il valore calcolato di F è più piccolo di entrambi questi valori, concludiamo che non c è evidenza per affermare che esistono differenze significative fra le medie (ai livelli di significatività dell 1% e del 5%). In altri termini, l ipotesi nulla H 0 che le medie dei gruppi sono uguali non può essere rifiutata. [E.] Dal momento che i campioni sono estratti da popolazioni normali aventi la stessa varianza, possiamo utilizzare il test t di Student per il confronto delle medie. Iniziamo a calcolare la stima combinata per la varianza: S = (n 1 1)S 1 + (n 1)S n 1 + n = 4.088. Calcoliamo a questo punto il consuntivo t = X 1 X ( ) S = 1.808. 1 n 1 + 1 n Sappiamo che questa variabile aleatoria si distribuisce come una t di Student con ν = n 1 + n = 17 gradi di libertà. Osserviamo che il test è a una coda, e che l ipotesi nulla è H 0 : µ 1 µ, cioè µ 1 µ 0. I valori critici per il test a una coda che si trovano sulla tabella sono t 0.05 = 1.740, t 0.01 =.567. Le regioni di rifiuto sono dunque RR 0.05 = {t < 1.740}, RR 0.01 = {t <.567}. Poiché t 0.01 < t < t 0.05 possiamo concludere che 0.01 < p-value < 0.05. Di conseguenza, possiamo rifiutare H 0 e concludere che µ 1 < µ al livello di significatività α = 0.05, mentre non possiamo rifiutare H 0 al livello di significatività α = 0.01. Gli intervalli di confidenza per la differenza delle medie possono essere calcolati attraverso la formula 1 µ 1 µ < (X 1 X ) + t S + 1, n 1 n dove t è l appropriato quantile della distribuzione t di Student con ν = 17 gradi di libertà. Abbiamo dunque α = 0.05 : µ 1 µ < 1.68 + 1.740 0.99 = 0.0635 = (, 0.0635), α = 0.01 : µ 1 µ < 1.68 +.567 0.99 = 0.705 = (, 0.705). Osserviamo che l intervallo di confidenza al 95% (α = 0.05) non contiene lo zero, dunque possiamo concludere (come già detto) che si può rifiutare H 0 a questo livello di confidenza. Viceversa, l intervallo di confidenza al 99% (α = 0.01) contiene lo zero, quindi non si può rifiutare H 0 a questo livello di confidenza. [E.3] Iniziamo a calcolare le frequenze attese: Tipo di effetto Trattamento Eff.1 Eff. Eff.3 Totale Trattamento 1 71.7383 143.4614 87.6475 30 Trattamento 8.0847 56.595 34.38578 119 Trattamento 3 56.64145 114.0091 69.34947 40 Totale 156 314 191 661 (Ricordiamo che il valore di ciascuna cella è ottenuto moltiplicando il totale di riga per il totale di colonna e dividendo il risultato per il totale complessivo 661.) L ipotesi nulla del test è H 0 : il tipo di effetto è indipendente dal tipo di trattamento. A questo punto calcoliamo il consuntivo X = (freq.attese freq.osservate) f req.attese = 9.896, che si distribuisce, se H 0 è vera, come la variabile chi-quadro con ν = (3 1) (3 1) = 4 gradi di libertà. Sulla tabella della distribuzione chi-quadro, in corrispondenza di ν = 4, troviamo i quantili X 0.95 = 9.49, X 0.975 = 11.14, quindi 0.05 < p-value < 0.05. Di conseguenza, possiamo rifiutare l ipotesi nulla al livello di significatività α = 0.05, mentre non la possiamo rifiutare al livello α = 0.05, e dunque nemmeno al livello α = 0.01. 3

[E.4] Poiché il testo dell esercizio dichiara esplicitamente che i campioni non provengono da popolazioni distribuite normalmente, non possiamo applicare il test t per il confronto delle medie di due campioni. È dunque opportuno utilizzare un test non parametrico come quello di Mann-Whitney. Poiché il testo richiede di stabilire se la media del primo gruppo è inferiore a quella del secondo, il test è a una coda e l ipotesi nulla è H 0 : µ 1 µ, cioè µ 1 µ 0. Iniziamo con l assegnare il rango (cioè il numero d ordine, scritto tra parentesi) alle letture: x i y i 69 (5) 114 (15) 60 () 91 (11) 8 (10) 100 (14) 57 (1) 66 (4) 6 (3) 74 (7) 7 (6) 98 (13) 79 (9) 78 (8) 95 (1) Il gruppo meno numeroso è il primo, che contiene n P = 7 elementi, mentre il secondo ne contiene n G = 8. La somma dei ranghi del gruppo meno numeroso è T = 5 + + 10 + 1 + 3 + 6 + 9 = 36. Nella tabella relativa al test di Mann-Whitney troviamo la riga n P = 7, n G = 8, T 1 = 36, T = 69, P = 0.005. Questo significa che P (T T 1 ) + P (T T ) = 0.005. Nel nostro caso il test è a una coda, dunque la regione di rifiuto è del tipo {T T 1 }, da cui otteniamo p-value = P (T 36) = 0.005/ = 0.010. Possiamo dunque concludere che l ipotesi nulla può essere rifiutata al livello di significatività α = 0.05, mentre non può essere rifiutata al livello α = 0.01. (Osserviamo comunque che il p-value è molto vicino a 0.01.) [E.5] In questo caso abbiamo uno stesso gruppo sottoposto a più di un trattamento (o meglio, un gruppo osservato prima e dopo un trattamento). Da quanto specificato nel testo, non possiamo assumere che le differenze prima dopo siano distribuite normalmente. Di conseguenza, non si può usare il test t di Student per i dati appaiati. È opportuno quindi usare un test non parametrico come quello di Wilcoxon. Osserviamo che il test è a due code, e che l ipotesi nulla è H 0 : µ 1 = µ. Calcoliamo le differenze x i y i e assegnamo i ranghi ai loro valori assoluti (scritti tra parentesi): x i y i x i y i 108 150-4 (8) 84 14-58 (9) 100 99 1 (1) 11 118 3 (3) 98 108-10 (4) 150 15 - () 13 04-7 (10) 94 134-40 (7) 90 106-16 (5) 134 16-8 (6) Le somme dei ranghi relativi alle differenze positive e a quelle negative sono date rispettivamente da W + = 1 + 3 = 4, W = 8 + 9 + 4 + + 10 + 7 + 5 + 6 = 51, quindi otteniamo W = W + W = 47. Nella tabella relativa al test di Wilcoxon troviamo la riga dalla quale si deduce (test a due code) n = 10, W = 47, P = 0.0137, p-value = P ( W 47) = 0.0137. Concludiamo dunque che l ipotesi nulla può essere rifiutata al livello di significatività α = 0.05, mentre non può essere rifiutata al livello α = 0.01. 4

[E.6] Utilizzando la calcolatrice scientifica, introduciamo dapprima tutti gli n = 10 dati x, ottenendo ΣX = 57.1, X = 57.1, S X = 16.9, SX = 86.7, ΣX = 35306.9, e poi tutti i dati y, ottenendo ΣY = 63., Y = 6.3, S Y = 3.64, SY = 10.657, ΣY = 38933.74. A questo punto calcoliamo, sempre utilizzando la calcolatrice, la somma dei prodotti x y, ottenendo ΣXY = 35954.85. A partire da questi dati aggregati possiamo ora calcolare tutte le quantità elencate di seguito: covarianza campionaria: cov(x, Y ) = 1 [ΣXY 1n ] n 1 (ΣX)(ΣY ) = 33.51 coefficiente di correlazione di Pearson: r = cov(x, Y ) S X S Y = 0.607 coefficienti della retta di regressione y = a + b x: b = cov(x, Y ) S X = 0.117, a = Y b X = 55.6 stimatore corretto di σ : S = n 1 [ S n Y b SX ] = 7.58 (S =.75) stimatore corretto di σ β : S Sb = (n 1)SX = 0.0094 (S b = 0.054) Eseguiamo ora il test di ipotesi per stabilire se esiste una relazione lineare fra le variabili x e y. Tale test può essere basato sul fatto che la variabile aleatoria t = b β S b si distribuisce come una t di Student con ν = n = 8 gradi di libertà. L ipotesi nulla per questo test è H 0 : β = 0, cioè non esiste una relazione lineare tra le due variabili. Assumendo vera H 0 possiamo dunque calcolare il consuntivo t = b S b =.158, che va confrontato con i quantili della distribuzione t di Student con ν = 8 gradi di libertà (test a due code): t 0.95 =.306, t 0.99 = 3.355. Poiché il valore calcolato di t è (in valore assoluto) inferiore a ciascuno di questi due quantili, concludiamo che l ipotesi nulla non può essere rifiutata né al livello di significatività α = 0.05 né al livello α = 0.01. (In altre parole, a questi livelli di significatività non c è evidenza che esista una relazione lineare fra le due variabili.) Gli intervalli di confidenza per β possono essere calcolati mediante la formula b t S b < β < b + t S b, dove t è l opportuno quantile della distribuzione t di Student. Otteniamo dunque α = 0.05 : t = t 0.95 =.306, 0.008 < β < 0.4, α = 0.01 : t = t 0.99 = 3.355, 0.065 < β < 0.99. Osserviamo che, in entrambi i casi, l intervallo di confidenza contiene lo zero, dunque l ipotesi nulla non può essere rifiutata. 5