Esercizi di statistica

Транскрипт

1 Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -.. L intervallo di confidenza al 95% per la media è circa (1).34 < µ < 4.11 () 1.69 < µ < 3.47 (3) 8.3 < µ < 10 (4) 6.4 < µ < 8.19 [] Sia X N(15, 5) una variabile aleatoria normale di media 15 e varianza 5. Allora P (X < 7.5) vale circa (1) () (3) (4) 0.38 [3] Si ha la seguente tabella di frequenze: n j Si effettua un test del Chi-quadrato per stabilire se tali frequenze sono compatibili col fatto che gli eventi sono equiprobabili. Allora il p-value del test soddisfa: (1) 0.01 < p < 0.05 () p < 0.01 (3) 0.05 < p < 0.05 (4) p > 0.05 Esercizi da svolgere [E.1] Abbiamo 3 campioni indipendenti estratti casualmente da popolazioni normali aventi la stessa varianza. Le osservazioni sono riassunte nella seguente tabella: Gruppo 1 Gruppo Gruppo 3 n j x j s j Stabilire se esistono differenze significative fra le medie ai livelli di significatività dell 1% e del 5%. [E.] Abbiamo campioni indipendenti estratti casualmente da popolazioni normali aventi la stessa varianza. Le osservazioni sono riassunte nella seguente tabella: Gruppo 1 Gruppo n j 10 9 x j s j Stabilire se si può concludere che la media del primo gruppo è inferiore a quella del secondo, ai livelli di significatività dell 1% e del 5%. Determinare l intervallo di confidenza al 95% e 99% per la differenza delle medie. [E.3] È data la seguente tabella di contingenza: Tipo di effetto Trattamento Eff.1 Eff. Eff.3 Totale Trattamento Trattamento Trattamento Totale Stabilire se il tipo di effetto dipende dal trattamento somministrato, ai livelli di significatività dell 1% e del 5%. [E.4] Le seguenti misure sono state rilevate su due campioni indipendenti di ampiezza 7 e 8: x i : 69, 60, 8, 57, 6, 7, 79 y i : 114, 91, 100, 66, 74, 98, 78, 95 Lo sperimentatore ritiene che non si possa assumere che i campioni provengano da popolazioni distribuite normalmente. Stabilire, ai livelli di significatività dell 1% e del 5%, se si può concludere che la media del primo gruppo è inferiore a quella del secondo. [E.5] Le seguenti misure sono state rilevate, su uno stesso campione di ampiezza 10, prima e dopo un trattamento: x i : 108, 84, 100, 11, 98, 150, 13, 94, 90, 134 y i : 150, 14, 99, 118, 108, 15, 04, 134, 106, 16 Lo sperimentatore ritiene che non si possa assumere che i campioni provengano da popolazioni distribuite normalmente. Stabilire, ai livelli di significatività dell 1% e del 5%, se esistono differenze significative fra le medie. [E.6] Sono date le seguenti osservazioni: x y

2 Determinare la retta di regressione y = a + b x e il coefficiente di correlazione fra x e y. Stabilire, ai livelli di significatività dell 1% e del 5%, se esiste una relazione lineare fra x e y. Calcolare l intervallo di confidenza per b al 95% e 99%. Soluzioni Test a scelta multipla [1] Se X 1,..., X n è un campione di ampiezza n estratto da una popolazione normale, la variabile t = X µ S si distribuisce come la variabile aleatoria t di Student con ν = n 1 gradi di libertà. Indichiamo con t il valore critico della distribuzione t di Student con n 1 gradi di libertà tale che P ( t < t ) = L intervallo di confidenza al 95% per la media µ è dato da n X t S n < µ < X + t S n. (1) Nel nostro caso si ha ν = 8 1 = 7; sulla tabella dei quantili della distribuzione t, per il test a due code (si veda Glantz p. 79 oppure dispense) si trova t =.365. Usando la calcolatrice otteniamo X = , S = Sostituendo i valori nella formula (1) si ottiene.34 < µ < [] Se X N(µ, σ ) è una variabile aleatoria normale di media µ e varianza σ, allora Z = X µ σ N(0, 1) è una variabile aleatoria normale standard, quindi P (X < a) = P (Z < (a µ)/σ), dove a è un qualsiasi numero reale. Nel nostro caso si ha P (X < 7.5) = P (Z < (7.5 15)/5) = P (Z < 1.5) = 1 P (Z < 1.5). Sulla tabella della distribuzione normale standard si trova P (Z < 1.5) = Di conseguenza, P (X < 7.5) = [3] Se i k = 7 eventi sono equiprobabili, le frequenze attese sono tutte uguali e valgono n = ( n j )/k = 117/7. Possiamo calcolare X (n j n) = = n Questo consuntivo si distribuisce approssimativamente come la variabile aleatoria χ 6 (chi-quadrato con ν = k 1 = 6 gradi di libertà). Sulla tabella del chi-quadrato troviamo P (χ 6 < 14.45) = 0.975, P (χ 6 < 16.81) = 0.99, e il valore di X è compreso fra i due valori e Di conseguenza, il p-value del test (che è quel numero p tale che P (χ 6 < X ) = 1 p) sarà compreso fra = 0.01 e = Esercizi da svolgere [E.1] Per stabilire se esistono differenze significative fra le medie dei k = 3 gruppi utilizziamo il test F di Fisher. Dai dati tabulati abbiamo che N = n j = 1, x = 1 n j x j = N Calcoliamo poi SS tra = n j (x j x) =.83, S tra = SS tra k 1 = 1.4, SS entro = (n j 1)s j = 47.35, Sentro = SS entro N k =.63. Il consuntivo F vale quindi F = S tra S entro Riassumiamo i calcoli nella tabella dell analisi della varianza: d.f. SS S F Trattamenti Errore =

3 Nella tabella relativa alla distribuzione di Fisher con ν n = k 1 = gradi di libertà al numeratore e ν d = N k = 18 gradi di libertà al denominatore troviamo i valori critici F 0.05 = , F 0.01 = Poiché il valore calcolato di F è più piccolo di entrambi questi valori, concludiamo che non c è evidenza per affermare che esistono differenze significative fra le medie (ai livelli di significatività dell 1% e del 5%). In altri termini, l ipotesi nulla H 0 che le medie dei gruppi sono uguali non può essere rifiutata. [E.] Dal momento che i campioni sono estratti da popolazioni normali aventi la stessa varianza, possiamo utilizzare il test t di Student per il confronto delle medie. Iniziamo a calcolare la stima combinata per la varianza: S = (n 1 1)S 1 + (n 1)S n 1 + n = Calcoliamo a questo punto il consuntivo t = X 1 X ( ) S = n n Sappiamo che questa variabile aleatoria si distribuisce come una t di Student con ν = n 1 + n = 17 gradi di libertà. Osserviamo che il test è a una coda, e che l ipotesi nulla è H 0 : µ 1 µ, cioè µ 1 µ 0. I valori critici per il test a una coda che si trovano sulla tabella sono t 0.05 = 1.740, t 0.01 =.567. Le regioni di rifiuto sono dunque RR 0.05 = {t < 1.740}, RR 0.01 = {t <.567}. Poiché t 0.01 < t < t 0.05 possiamo concludere che 0.01 < p-value < Di conseguenza, possiamo rifiutare H 0 e concludere che µ 1 < µ al livello di significatività α = 0.05, mentre non possiamo rifiutare H 0 al livello di significatività α = Gli intervalli di confidenza per la differenza delle medie possono essere calcolati attraverso la formula 1 µ 1 µ < (X 1 X ) + t S + 1, n 1 n dove t è l appropriato quantile della distribuzione t di Student con ν = 17 gradi di libertà. Abbiamo dunque α = 0.05 : µ 1 µ < = = (, ), α = 0.01 : µ 1 µ < = = (, 0.705). Osserviamo che l intervallo di confidenza al 95% (α = 0.05) non contiene lo zero, dunque possiamo concludere (come già detto) che si può rifiutare H 0 a questo livello di confidenza. Viceversa, l intervallo di confidenza al 99% (α = 0.01) contiene lo zero, quindi non si può rifiutare H 0 a questo livello di confidenza. [E.3] Iniziamo a calcolare le frequenze attese: Tipo di effetto Trattamento Eff.1 Eff. Eff.3 Totale Trattamento Trattamento Trattamento Totale (Ricordiamo che il valore di ciascuna cella è ottenuto moltiplicando il totale di riga per il totale di colonna e dividendo il risultato per il totale complessivo 661.) L ipotesi nulla del test è H 0 : il tipo di effetto è indipendente dal tipo di trattamento. A questo punto calcoliamo il consuntivo X = (freq.attese freq.osservate) f req.attese = 9.896, che si distribuisce, se H 0 è vera, come la variabile chi-quadro con ν = (3 1) (3 1) = 4 gradi di libertà. Sulla tabella della distribuzione chi-quadro, in corrispondenza di ν = 4, troviamo i quantili X 0.95 = 9.49, X = 11.14, quindi 0.05 < p-value < Di conseguenza, possiamo rifiutare l ipotesi nulla al livello di significatività α = 0.05, mentre non la possiamo rifiutare al livello α = 0.05, e dunque nemmeno al livello α =

4 [E.4] Poiché il testo dell esercizio dichiara esplicitamente che i campioni non provengono da popolazioni distribuite normalmente, non possiamo applicare il test t per il confronto delle medie di due campioni. È dunque opportuno utilizzare un test non parametrico come quello di Mann-Whitney. Poiché il testo richiede di stabilire se la media del primo gruppo è inferiore a quella del secondo, il test è a una coda e l ipotesi nulla è H 0 : µ 1 µ, cioè µ 1 µ 0. Iniziamo con l assegnare il rango (cioè il numero d ordine, scritto tra parentesi) alle letture: x i y i 69 (5) 114 (15) 60 () 91 (11) 8 (10) 100 (14) 57 (1) 66 (4) 6 (3) 74 (7) 7 (6) 98 (13) 79 (9) 78 (8) 95 (1) Il gruppo meno numeroso è il primo, che contiene n P = 7 elementi, mentre il secondo ne contiene n G = 8. La somma dei ranghi del gruppo meno numeroso è T = = 36. Nella tabella relativa al test di Mann-Whitney troviamo la riga n P = 7, n G = 8, T 1 = 36, T = 69, P = Questo significa che P (T T 1 ) + P (T T ) = Nel nostro caso il test è a una coda, dunque la regione di rifiuto è del tipo {T T 1 }, da cui otteniamo p-value = P (T 36) = 0.005/ = Possiamo dunque concludere che l ipotesi nulla può essere rifiutata al livello di significatività α = 0.05, mentre non può essere rifiutata al livello α = (Osserviamo comunque che il p-value è molto vicino a 0.01.) [E.5] In questo caso abbiamo uno stesso gruppo sottoposto a più di un trattamento (o meglio, un gruppo osservato prima e dopo un trattamento). Da quanto specificato nel testo, non possiamo assumere che le differenze prima dopo siano distribuite normalmente. Di conseguenza, non si può usare il test t di Student per i dati appaiati. È opportuno quindi usare un test non parametrico come quello di Wilcoxon. Osserviamo che il test è a due code, e che l ipotesi nulla è H 0 : µ 1 = µ. Calcoliamo le differenze x i y i e assegnamo i ranghi ai loro valori assoluti (scritti tra parentesi): x i y i x i y i (8) (9) (1) (3) (4) () (10) (7) (5) (6) Le somme dei ranghi relativi alle differenze positive e a quelle negative sono date rispettivamente da W + = = 4, W = = 51, quindi otteniamo W = W + W = 47. Nella tabella relativa al test di Wilcoxon troviamo la riga dalla quale si deduce (test a due code) n = 10, W = 47, P = , p-value = P ( W 47) = Concludiamo dunque che l ipotesi nulla può essere rifiutata al livello di significatività α = 0.05, mentre non può essere rifiutata al livello α =

5 [E.6] Utilizzando la calcolatrice scientifica, introduciamo dapprima tutti gli n = 10 dati x, ottenendo ΣX = 57.1, X = 57.1, S X = 16.9, SX = 86.7, ΣX = , e poi tutti i dati y, ottenendo ΣY = 63., Y = 6.3, S Y = 3.64, SY = , ΣY = A questo punto calcoliamo, sempre utilizzando la calcolatrice, la somma dei prodotti x y, ottenendo ΣXY = A partire da questi dati aggregati possiamo ora calcolare tutte le quantità elencate di seguito: covarianza campionaria: cov(x, Y ) = 1 [ΣXY 1n ] n 1 (ΣX)(ΣY ) = coefficiente di correlazione di Pearson: r = cov(x, Y ) S X S Y = coefficienti della retta di regressione y = a + b x: b = cov(x, Y ) S X = 0.117, a = Y b X = 55.6 stimatore corretto di σ : S = n 1 [ S n Y b SX ] = 7.58 (S =.75) stimatore corretto di σ β : S Sb = (n 1)SX = (S b = 0.054) Eseguiamo ora il test di ipotesi per stabilire se esiste una relazione lineare fra le variabili x e y. Tale test può essere basato sul fatto che la variabile aleatoria t = b β S b si distribuisce come una t di Student con ν = n = 8 gradi di libertà. L ipotesi nulla per questo test è H 0 : β = 0, cioè non esiste una relazione lineare tra le due variabili. Assumendo vera H 0 possiamo dunque calcolare il consuntivo t = b S b =.158, che va confrontato con i quantili della distribuzione t di Student con ν = 8 gradi di libertà (test a due code): t 0.95 =.306, t 0.99 = Poiché il valore calcolato di t è (in valore assoluto) inferiore a ciascuno di questi due quantili, concludiamo che l ipotesi nulla non può essere rifiutata né al livello di significatività α = 0.05 né al livello α = (In altre parole, a questi livelli di significatività non c è evidenza che esista una relazione lineare fra le due variabili.) Gli intervalli di confidenza per β possono essere calcolati mediante la formula b t S b < β < b + t S b, dove t è l opportuno quantile della distribuzione t di Student. Otteniamo dunque α = 0.05 : t = t 0.95 =.306, < β < 0.4, α = 0.01 : t = t 0.99 = 3.355, < β < Osserviamo che, in entrambi i casi, l intervallo di confidenza contiene lo zero, dunque l ipotesi nulla non può essere rifiutata. 5