BIOSTATISTICA 3. Confronto tra medie di due campioni indipendenti o appaiati Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.1
O APPAIATI SPECULARE UNIVERSO PARAMETRI PROGRAMMARE INFERIRE CAMPIONE STIMATORI DESCRIVERE MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.2
O APPAIATI Siamo interessati a valutare se due diete (A e B) determinano diversi incrementi del peso delle cavie con esse nutrite UNIVERSO PARAMETRI CAMPIONE STIMATORI MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.3
Siamo interessati a valutare se due diete (A e B) determinano diversi incrementi del peso delle cavie con esse nutrite UNIVERSO PARAMETRI PROGRAMMARE CAMPIONE STIMATORI Vengono scelti casualmente due campioni di 12 e 13 cavie ciascuno, ad ognuno di essi viene somministrata una delle due diete in studio dalla nascita fino all età di 3 mesi e ne vengono registrati gli incrementi di peso. I campioni sono indipendenti MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.4
CAMPIONE 1 CAMPIONE 2 STATISTICHE DESCRIVERE STATISTICHE STATISTICHE STATISTICHE n 1 = 12 56 59 63 52 57 68 64 61 57 60 63 60 y i1 : generica i-esima osservazione del campione 1 (j =1) 61 64 67 56 60 72 68 65 61 64 67 64 60 n 2 = 13 y i2 : generica i-esima osservazione del campione 2 (j =2) MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.5
4 CAMPIONE 1 3 2 1 s 1 = 4.24 y 1 = 60 4 3 2 1 50 54 58 62 66 70 CAMPIONE 2 s 2 = 4.21 74 y 2 = 63.77 50 54 58 62 66 70 74 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.6
IPOTESI: I due campioni provengono dalla stessa popolazione di cavie e se potessimo misurare l intera popolazione sarebbe X ~ N(µ,σ 2 ) µ Media campionaria Noi non conosciamo nè la media µ nè la varianza σ 2, ma conosciamo i parametri campionari: y 1 y 2 medie s 1 s 2 Dev. standard n 1 n 2 numerosità MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.7
POPOLAZIONE campione 1 campione 2 Dieta A Dieta B n 1 = 12 y 1 = 60 s 1 = 4.24 n 2 = 13 y 2 = 63.77 s 2 = 4.21 Ai due campioni assegniamo diete diverse. Le osservazioni ottenute sono ancora compatibili con l ipotesi che i due campioni provengono dalla stessa popolazione? MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.8
SPECULARE UNIVERSO PARAMETRI PROGRAMMARE INFERIRE CAMPIONE STIMATORI DESCRIVERE MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.9
POPOLAZIONE BERSAGLIO Tutti i possibili campioni y 1 y 2 µ Media Medie campionaria campionarie δ = µ 2 - µ 1 = µ - µ =0 d = y 2 y 1 H 0 : δ=0 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.10
POPOLAZIONE 1 (dieta A) (tutte le medie campionarie y 1 ) POPOLAZIONE 2 (dieta B) (tutte le medie campionarie y 2 ) Tutti i possibili campioni Tutti i possibili campioni y 1 y 2 µ 1 Le due distribuzioni hanno la stessa varianza δ = µ 2 - µ 1 µ 2 d = y 2 y 1 H 1 : δ = 0 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.11
IN GENERALE δ = µ 1 - µ 2 µ 1 µ 2 POPOLAZIONE 1 POPOLAZIONE 2 n 1 = 12 y 1 = 60 s 1 = 4.24 n 2 = 13 y 2 = 63.77 s 2 = 4.21 d = y 2 - y 1 = 3.77 La variabile di interesse non è più la media campionaria bensì la differenza tra medie campionarie MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.12
POPOLAZIONE BERSAGLIO (tutte le possibili differenze tra medie campionarie) Tutti i possibili campioni ignota d Differenze tra medie campionarie δ MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.13
Ipotesi nulla: H 0 : µ 1 = µ 2 δ = 0 Cosa succede sotto l ipotesi nulla? MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.14
POPOLAZIONE BERSAGLIO (tutte le possibili differenze tra medie campionarie) Tutti i possibili campioni Questa situazione è compatibile con l ipotesi nulla? d δ = 0 Differenze tra medie campionarie MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.15
Situazione possibile d δ = 0 Situazione meno probabile d δ = 0 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.16
Ipotesi nulla: H 0 : µ 1 = µ 2 δ = 0 L ipotesi nulla non può essere mai rigettata con assoluta certezza! Dobbiamo agganciare alla stima d un livello di confidenza. P-Value: quanto estremo è il risultato che abbiamo ottenuto? d d δ = 0 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.17
P-Value: probabilità di ottenere un risultato campionario altrettanto o più estremo di quello osservato, se H 0 è vera P-value = Pr ( D >d sotto H 0 ) Più piccolo è il valore del p-value, 1) più estremo è il valore d osservato 2) Più bassa l evidenza che i dati siano coerenti con la distribuzione sotto l ipotesi nulla P-value=0.25 P-value=0.03 d d δ = 0 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.18
PROBLEMA: l ipotesi è bidirezionale H 0 : δ = 0 vs H 1 : δ = 0 Unidirezionale P-value = Pr ( D >d sotto H 0 ) Bidirezionale 2*P-value P-value=0.06 P-value=0.03 P-value=0.03 -d d δ = 0 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.19
Tre procedure per saggiare l ipotesi nulla A. Stima intervallare B. Test basato sulla t di Student C. Analisi della varianza e test F MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.20
Ricordando la stima intervallare nel caso di una media campionaria: y ± t. es la si adatti al confronto tra due medie campionarie MARTA BLANGIARDO A. CONFRONTO Stima intervallare TRA MEDIE DI 2 CAMPIONI- 3.21
y ± t. es La variabile misurata di interesse non è più la media campionaria y, bensì la differenza tra medie campionarie d: d ± t. es A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.22
n 1 = 12 y 1 = 60 s 11 = 4.24 n 2 = 13 12 y 2 y= 2 = 63.77 64 s 22 = 4.21 d ± t. es d = y 2 y 1 = 3.77 A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.23
d ± t. es L errore standard non è più s / n visto che, essendo implicati due campioni, si dispone di due deviazioni standard (s 1 e s 2 ) e due numerosità campionarie (n 1 e n 2 ) s* = Pooled (n 1-1). s 12 + (n 2-1). s 2 2 (n 1-1) + (n 2-1) A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.24
d ± t. es L errore standard non è più s / n visto che, essendo implicati due campioni, si dispone di due deviazioni standard (s 1 e s 2 ) e due numerosità campionarie (n 1 e n 2 ) 1 n* = 1 n 1 + 1 n 2 = n 1 + n 2 n 1. n 2 A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.25
n 1 = 12 y 1 = 60 s 1 = 4.24 n 2 = 12 13 y 2 y 2 = = 63.77 64 s 2 = 4.21 3.77 ± t. es es d = s* 1 n* = (n 1-1). s 12 + (n 2-1). s 2 2 (n 1-1) + (n 2-1) n 1 + n 2 n 1. n 2 es d = (12-1). 2 4.23 + (13-1). 2 4.21 (12-1) + (13-1) 12 + 13 12. 13 = 1.69 A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.26
d ± t. es Valore critico della variabile casuale t di Student, caratterizzata da un certo numero di gradi di libertà g e da una probabilità (1-α). Quindi d ± t g ; (1-α). es A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.27
d ± t g ; (1-α). es I gradi di libertà non sono più n - 1 visto che, essendo implicati due campioni, si dispone di due numerosità campionarie (n 1 e n 2 ): g = ( n 1 + n 2 ) - 2 A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.28
d ± t g ; (1-α). es Dove 1 - α è il livello di confidenza dell intervallo (di solito definiamo 0.9, 0.95 o 0.99) A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.29
n 1 = 12 y 1 = 60 s 1 = 4.23 n 2 = 13 y 2 = 63.77 s 2 = 4.21 3.77 ± t g;(1-α). 1.69 Fissando (1-α) = 0.9 e avendo due code abbiamo 0.9 + 0.1/2 = 0.95 3.77 ± t 23;0.95. 1.69 Dalla tavola della distribuzione t: 3.77 ± 1.7139. 1.69 A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.30
MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.31 Distribuzione t 1.8946 1.4149 1.1192 0.8960 0.7111 0.5491 0.2632 7 1.9432 1.4398 1.1342 0.9057 0.7176 0.5534 0.2648 6 2.0150 1.4759 1.1558 0.9195 0.7267 0.5594 0.2672 5 2.1318 1.5332 1.1896 0.9410 0.7407 0.5686 0.2707 4 2.3534 1.6377 1.2498 0.9785 0.7649 0.5844 0.2767 3 2.9200 1.8856 1.3862 1.0607 0.8165 0.6172 0.2887 2 6.3138 3.0777 1.9626 1.3764 1.0000 0.7265 0.3249 1 0.05 0.1 0.15 0.2 0.25 0.3 0.4 5.4079 4.7853 5.9588 5.2076 6.8688 5.8934 8.6103 7.1732 12.9240 10.2145 31.5991 22.3271 636.6192 318.3088 0.0005 0.001.. 1.6577 1.2886 1.0409 0.8446 0.6765 0.5258 0.2539 120 1.6602 1.2901 1.0418 0.8452 0.6770 0.5261 0.2540 100 1.6641 1.2922 1.0432 0.8461 0.6776 0.5265 0.2542 80 1.6669 1.2938 1.0442 0.8468 0.6780 0.5268 0.2543 70 1.6706 1.2958 1.0455 0.8477 0.6786 0.5272 0.2545 60 1.6759 1.2987 1.0473 0.8489 0.6794 0.5278 0.2547 50 1.6794 1.3006 1.0485 0.8497 0.6800 0.5281 0.2549 45. 3.3735 3.1595 3.3905 3.1737 3.4163 3.1953 3.4350 3.2108 3.4602 3.2317 3.4960 3.2614 3.5203 3.2815 gdl 1.7139 1.3195 1.0603 0.8575 0.6853 0.5317 0.2563 23. 3.7676 3.4850
n 1 = 12 y 1 = 60 s 1 = 4.23 n 2 = 13 y 2 = 64 s 2 = 4.21 3.77 ± 1.7139. 1.69 0.87, 6.67-7 -6-5 -4-3 -2-1 1 2 3 4 5 6 7 8 valore atteso sotto l ipotesi nulla δ = 0 Ripetendo l esperimento 100 volte nelle stesse condizioni, ci si aspetta che in 90 casi le due diete differiscano A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.32
H 0 : µ 1 = µ 2 δ = 0 Visto che l intervallo non contiene il valore atteso sotto l ipotesi nulla con: α = 0.1 allora concludiamo che non c è abbastanza evidenza che supporti che i dati siano coerenti con l ipotesi nulla e quindi H 1 : µ 1 µ 2 δ 0 Le E se due avessimo medie differiscono prefissato un errore di primo significativamente tipo più cautelativo (es. α = 0.01)? A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.33
MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.34 Distribuzione t 1.4149 1.1192 0.8960 0.7111 0.5491 0.2632 7 1.4398 1.1342 0.9057 0.7176 0.5534 0.2648 6 1.4759 1.1558 0.9195 0.7267 0.5594 0.2672 5 1.5332 1.1896 0.9410 0.7407 0.5686 0.2707 4 1.6377 1.2498 0.9785 0.7649 0.5844 0.2767 3 1.8856 1.3862 1.0607 0.8165 0.6172 0.2887 2 3.0777 1.9626 1.3764 1.0000 0.7265 0.3249 1 0.1 0.15 0.2 0.25 0.3 0.4 5.4079 4.7853 5.9588 5.2076 6.8688 5.8934 8.6103 7.1732 12.9240 10.2145 31.5991 22.3271 636.6192 318.3088 0.0005 0.001.. 1.2886 1.0409 0.8446 0.6765 0.5258 0.2539 120 1.2901 1.0418 0.8452 0.6770 0.5261 0.2540 100 1.2922 1.0432 0.8461 0.6776 0.5265 0.2542 80 1.2938 1.0442 0.8468 0.6780 0.5268 0.2543 70 1.2958 1.0455 0.8477 0.6786 0.5272 0.2545 60 1.2987 1.0473 0.8489 0.6794 0.5278 0.2547 50 1.3006 1.0485 0.8497 0.6800 0.5281 0.2549 45. 3.3735 3.1595 3.3905 3.1737 3.4163 3.1953 3.4350 3.2108 3.4602 3.2317 3.4960 3.2614 3.5203 3.2815 gdl 1.3195 1.0603 0.8575 0.6853 0.5317 0.2563 23. 3.4995 3.7074 4.0321 4.6041 5.8409 9.9248 63.6567 0.005 2.6174 2.6259 2.6387 2.6479 2.6603 2.6778 2.6896 3.7676 3.4850 2.8073
Se seguiamo un approcico più cautelativo e fissiamo 1-α = 0.99 n 1 = 12 y 1 = 60 s 1 = 4.23 n 2 = 13 y 2 = 63.77 s 2 = 4.21 3.77 ± 2.8073. 1.69-0.98, 8.52-7 -6-5 -4-3 -2-1 1 2 3 4 5 6 7 8 valore atteso sotto l ipotesi nulla δ = 0 Non c è più evidenza che le due diete differiscano A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.35
Tre procedure per saggiare l ipotesi nulla A. Stima intervallare B. Test del t di Student C. Analisi della varianza e test F MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.36
Ricordando la variabile casuale t nel caso di una media campionaria è: t = y - µ s n la si adatti al confronto tra due medie campionarie B. Test del t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.37
t = y - µ s n È la differenza tra il valore osservato e quello atteso sotto l ipotesi nulla Nel caso della differenza tra due medie quindi: (y 2 - y 1 ) - 0 d B. Test del t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.38
t = y - µ s n È l errore standard di una media campionaria Nel caso della differenza tra due medie quindi: 1 es d = s* n* = (n 1-1). s 12 + (n 2-1). s 2 2 (n 1-1) + (n 2-1) n 1 + n 2 n 1. n 2 B. Test del t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.39
t = y - µ s n Il valore della variabile casuale t è caratterizzato dai gradi di libertà (g): Quindi dovrebbe essere scritta come: t g = (y 2 - y 1 ) - 0 es d che rappresenta il valore empirico (osservato) di t. La valutazione dell accettazione/rifiuto viene ottenuta tramite il P-value B. Test del t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.40
0.025 DISTRIBUZIONE 3. CONFRONTO TRA MEDIE DI DUE CAMPIONI t g -t g δ = 0 t g P-value<0.01 0.01<P-value<0.05 0.05<P-value<0.1 P-value>=0.1 Fortissima evidenza contro H 0 Forte evidenza contro H 0 Evidenza contro H 0 Non sufficiente evidenza contro H 0 B. Test del t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.41
n 1 = 12 y 1 = 60 s 1 = 4.23 n 2 = 13 y 2 = 64 s 2 = 4.21 t g = (y 2 - y 1 ) - 0 es d 3.77 t 23 = =2.23 1.69 è il valore empirico della statistica t. Il P-value corrispondente è P-value < 0.025 Ipotesi bidirezionale 2*P-value < 0.05 <0.05: Forte evidenza contro H 0 B. Test del t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.42
Tre procedure per saggiare l ipotesi nulla A. Stima intervallare B. Test del t di Student C. Analisi della varianza e test F MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.43
CAMPIONE 1 CAMPIONE 2 56 59 61 64 63 52 67 56 57 68 60 72 64 61 68 65 57 60 61 64 63 60 67 64 60 Media generale: y = 62 Devianza totale = Σ Σ (y ij - y) 2 j i = (56-62) 2 + (59-62) 2 + (63-62) 2 +......+ (67-62) 2 + (64-62) 2 + (60-62) 2 = = 499 Da quali fonti dipende la variabilità (devianza) totale del fenomeno? C. Analisi della varianza e test F MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.44
CAMPIONE 1 CAMPIONE 2 60 60 60 60 60 60 60 60 60 60 60 60 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 Media generale: y = 62 y 1 = 60 y 2 = 63.8 Devianza tra i livelli del fattore sperimentale Σ n j (y j - y) 2 j = 12. (60-61.96) 2 + 13. (63.8-61.96) 2 = 88.65 Una prima fonte di variabilità è dovuta al fatto che i due campioni sono stati sottoposti a diverse diete (fattore sperimentale) C. Analisi della varianza e test F MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.45
CAMPIONE 1 CAMPIONE 2 60 60 60 60 60 60 60 60 60 60 60 60 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 y 1 = 60 y 2 = 63.8 Devianza entro i livelli del fattore sperimentale Σ Σ (y ij - y j ) 2 i j Una seconda fonte di variabilità è dovuta al fatto che ogni unità sperimentale tende a rispondere in modo diverso dalle altre allo stesso stimolo (livello del fattore sperimentale) = (56-60) 2 + (59-60) 2 + (63-60) 2 +......+ (67-63.8) 2 + (64-63.8) 2 + (60-63.8) 2 = = 410.3 C. Analisi della varianza e test F MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.46
SISTEMATICA Fonti di variabilità devianza Tra gruppi 88.65 + Entro gruppi * 410.3 = Totale 498.96 CASUALE * Variabilità residua C. Analisi della varianza e test F MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.47
Fonti di variabilità devianza gradi di libertà Tra gruppi 88.65 + 1 (N.gruppi-1) + Entro gruppi Totale 410.3 = 498.96 = 23 (N N.gruppi) = 24 (N-1) C. Analisi della varianza e test F MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.48
Fonti di variabilità devianza gradi di libertà varianza Tra gruppi Entro gruppi 88.65 96 + + 1 + = 88.65 410.3 396 = + 22 23 = + = 17.8 Totale 498.96 = 24 F 1, 23 = Varianza tra gruppi Varianza entro gruppi 88.65 = = 4.97 17.8 C. Analisi della varianza e test F MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.49
DISTRIBUZIONE F g1;g2 Area = 1 1 Valore atteso sotto l ipotesi nulla In questo caso le tavole disponibili non permettono di calcolare il P-value. E possibile calcolare il P-value tramite software (excel, R, Matlab). =DISTRIB.F(4.97,1,23) = 0.036 P-value<0.05 Funzione di Excel C. Analisi della varianza e test F Forte evidenza contro H 0 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.50
Ci sono tavole tabulate che permettono di calcolare una soglia di accettazione/rifiuto per alcune prespecificate soglie 1-α (0.9,0.95) F (1-α),g1,g2 F g1,g2 F g1,g2 Non sufficiente evidenza contro H 0 Sufficiente evidenza contro H 0 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.51
Distribuzione F g1;g2;0.95 F Gradi di libertà del denominatore Gradi di libertà del numeratore 1 2 3 4 5 10 1 161.45 199.50 215.71 224.58 230.16 241.88 2 18.51 19.00 19.16 19.25 19.30 19.40 3 10.13 9.55 9.28 9.12 9.01 8.79 4 7.71 6.94 6.59 6.39 6.26 5.96 5 6.61 5.79 5.41 5.19 5.05 4.74 6 5.99 5.14 4.76 4.53 4.39 4.06 7 5.59 4.74 4.35 4.12 3.97 3.64 8 5.32 4.46 4.07 3.84 3.69 3.35 9 5.12 4.26 3.86 3.63 3.48 3.14 10 4.96 4.10 3.71 3.48 3.33 2.98 11 4.84 3.98 3.59 3.36 3.20 2.85 12 4.75 3.89 3.49 3.26 3.11 2.75 13 4.67 3.81 3.41 3.18 3.03 2.67 14 4.60 3.74 3.34 3.11 2.96 2.60 15 4.54 3.68 3.29 3.06 2.90 2.54 16 4.49 3.63 3.24 3.01 2.85 2.49 17 4.45 3.59 3.20 2.96 2.81 2.45 18 4.41 3.55 3.16 2.93 2.77 2.41 19 4.38 3.52 3.13 2.90 2.74 2.38 20 4.35 3.49 3.10 2.87 2.71 2.35 21 4.32 3.47 3.07 2.84 2.68 2.32 22 4.30 3.44 3.05 2.82 2.66 2.30 23 4.28 3.42 3.03 2.80 2.64 2.27 24 4.26 3.40 3.01 2.78 2.62 2.25 25 4.24 3.39 2.99 2.76 2.60 2.24 30 4.17 3.32 2.92 2.69 2.53 2.16 50 4.03 3.18 2.79 2.56 2.40 2.03 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.52
Distribuzione F 1,23 Area di accettazione Area di rifiuto 0.95 0.05 Valore tabulato 4.28 Valore empirico 4.97 allora dovremmo rifiutare l ipotesi nulla: p < 0.05 C. Analisi della varianza e test F MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.53
Due vie equivalenti per saggiare l ipotesi nulla Test del t di Student t 23 = 2.23 Analisi della varianza F 1,23 = 4.97 t 2 = F 23 1,23 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.54
APPAIATI Siamo interessati a valutare se il ph di un terreno acido sulla superficie è diversa da quella del sottosuolo UNIVERSO PARAMETRI PROGRAMMARE CAMPIONE STIMATORI Si estrae un campione di 13 zolle di terreno e su ognuna di esse si misura il ph in superficie e nel sottosuolo. Abbiamo due misurazioni per ogni zolla. I campioni sono appaiati MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.55
APPAIATI CAMPIONE 1 CAMPIONE 2 Superficie STATISTICHE 6.57 6.77 6.53 6.71 6.72 6.01 4.99 5.49 5.56 5.32 5.92 6.55 6.93 Sottosuolo STATISTICHE 8.34 6.13 6.32 8.30 8.44 6.80 5.42 7.90 5.20 5.32 6.21 5.66 5.66 n = 13 E lo stesso campione con due diverse misurazioni Per ogni zolla le due misurazioni non sono indipendenti MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.56
APPAIATI Calcoliamo la variabile differenza tra le due misurazioni Superficie Sottosuolo Differenza 6.57 6.77 6.53 6.71 6.72 6.01 4.99 5.49 5.56 5.32 5.92 6.55 6.93 8.34 6.13 6.32 8.30 8.44 6.80 5.42 7.90 5.20 5.32 6.21 5.66 5.66-1.77 0.64 0.21-1.59-1.72-0.79-0.43-2.41 0.36 0.00-0.29 0.89 1.27 La nuova variabile Differenza è quella su cui vogliamo fare inferenza MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.57
APPAIATI IPOTESI: La differenza tra il ph in superficie e nel sottosuolo si distribuisce come una variabile casuale Normale D ~ N(µ d,σ 2 d ) µ Media campionaria Noi non conosciamo nè la media µ d nè la varianza σ 2 d, ma conosciamo i parametri campionari: d media s d Dev. standard n numerosità INFERENZA SU UN CAMPIONE MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.58
APPAIATI POPOLAZIONE BERSAGLIO Tutti i possibili campioni di differenze d µ d H 0 : µ d = 0 Media Medie campionaria campionarie Cosa succede sotto l ipotesi nulla? MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.59
APPAIATI POPOLAZIONE BERSAGLIO (tutte le possibili differenze) Tutti i possibili campioni È questa situazione compatibile con l ipotesi nulla? d Differenze tra medie campionarie MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.60
APPAIATI Situazione possibile d Situazione meno probabile d MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.61
APPAIATI Ipotesi nulla: H 0 : µ d =0 L ipotesi nulla non può essere mai rigettata con assoluta certezza! Dobbiamo agganciare alla stima d un livello di confidenza. P-Value: quanto estremo è il risultato che abbiamo ottenuto? d µ d = 0 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.62 d 1
APPAIATI Tre procedure per saggiare l ipotesi nulla A. Stima intervallare B. Test basato sulla t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.63
APPAIATI Avendo un solo campione, in questo caso la stima intervallare da utilizzare è proprio quella introdotta precedentemente nel caso di una media campionaria: y ± t. es Che nel caso di campioni appaiati è d ± t. es n = 13 d = -0.43 se = 1.15 sd/radq(n) MARTA BLANGIARDO A. CONFRONTO Stima intervallare TRA MEDIE DI 2 CAMPIONI- 3.64
APPAIATI Noi non conosciamo la varianza σ 2 T di Student t g ; (1-α) Valore critico della variabile casuale t di Student, caratterizzata da un certo numero di gradi di libertà g e da una probabilità (1-α). Quindi l intervallo di confidenza sarà d ± t g ; (1-α). es n-1 A. Stima intervallare livello di confidenza dell intervallo (di solito definiamo 0.9, 0.95 o 0.99) MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.65
APPAIATI n = 13 d = -0.43 es = 1.15-0.43 ± t g;(1-α). 1.15 Fissando (1-α) = 0.95 e avendo due code abbiamo 0.95 + 0.05/2 = 0.975-0.43 ± t 12;0.975. 1.15 Dalla tavola della distribuzione t: -0.43 ± 2.1788. 1.15 A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.66
MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.67 Distribuzione t 1.8946 1.4149 1.1192 0.8960 0.7111 0.5491 0.2632 7 1.9432 1.4398 1.1342 0.9057 0.7176 0.5534 0.2648 6 2.0150 1.4759 1.1558 0.9195 0.7267 0.5594 0.2672 5 2.1318 1.5332 1.1896 0.9410 0.7407 0.5686 0.2707 4 2.3534 1.6377 1.2498 0.9785 0.7649 0.5844 0.2767 3 2.9200 1.8856 1.3862 1.0607 0.8165 0.6172 0.2887 2 6.3138 3.0777 1.9626 1.3764 1.0000 0.7265 0.3249 1 0.05 0.1 0.15 0.2 0.25 0.3 0.4 5.4079 4.7853 5.9588 5.2076 6.8688 5.8934 8.6103 7.1732 12.9240 10.2145 31.5991 22.3271 636.6192 318.3088 0.0005 0.001.. 1.6577 1.2886 1.0409 0.8446 0.6765 0.5258 0.2539 120 1.6602 1.2901 1.0418 0.8452 0.6770 0.5261 0.2540 100 1.6641 1.2922 1.0432 0.8461 0.6776 0.5265 0.2542 80 1.6669 1.2938 1.0442 0.8468 0.6780 0.5268 0.2543 70 1.6706 1.2958 1.0455 0.8477 0.6786 0.5272 0.2545 60 1.6759 1.2987 1.0473 0.8489 0.6794 0.5278 0.2547 50 1.6794 1.3006 1.0485 0.8497 0.6800 0.5281 0.2549 45. 3.3735 3.1595 3.3905 3.1737 3.4163 3.1953 3.4350 3.2108 3.4602 3.2317 3.4960 3.2614 3.5203 3.2815 gdl. 2.1788 1.7823 1.3562 1.0832 0.8726 0.6955 0.5386 0.2590 12 2.3646 2.4469 2.5706 2.7764 3.1824 4.3027 12.7062 0.025 1.9799 1.9840 1.9901 1.9944 2.0003 2.0086 2.0141 4.3178 3.9296 3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI
APPAIATI n = 13 d = -0.43 es = 1.15-0.43 ± 2.1788. 1.15-2.93, 2.08-7 -6-5 -4-3 -2-1 valore atteso sotto l ipotesi nulla µ d = 0 1 2 3 4 5 6 7 8 Ripetendo l esperimento 100 volte nelle stesse condizioni, ci si aspetta che in 95 casi i due ph non siano diversi significativamente A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.68
APPAIATI Tre procedure per saggiare l ipotesi nulla A. Stima intervallare B. Test del t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.69
APPAIATI Ricordando la variabile casuale t nel caso di una media campionaria è: t = d - µ s n È la differenza tra il valore osservato e quello atteso sotto l ipotesi nulla Nel caso di campioni appaiati abbiamo: d - 0 ph 1 ph 2 6.57 8.34 6.77 6.13 6.53 6.32 6.93 5.66 d -1.77 0.64 0.21 1.27 B. Test del t di Student d -0.43 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.70
APPAIATI t = y i - µ s n È l errore standard (es) di una media campionaria s = n Σ(y i - y) 2 i =1 n - 1 = 1.15 n n B. Test del t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.71
APPAIATI t = y i - µ s n Il valore della variabile casuale t è caratterizzato dai gradi di libertà (g): Quindi dovrebbe essere scritta come: t g = d - 0 es d che rappresenta il valore empirico (osservato) di t. La valutazione dell accettazione/rifiuto viene ottenuta tramite il P-value I gradi di libertà sono n-1 B. Test del t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.72
APPAIATI n = 13 d = -0.43 es d = 1.15 t g = d - 0 se d -0.43 t 12 = = -0.37 1.15 è il valore empirico della statistica t. Il P-value corrispondente è B. Test del t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.73
APPAIATI Il valore è negativo -0.37 Le tavole restituiscono la coda di destra solo per valori positivi, ma Pr(D<-0.37 sotto H 0 ) = Pr(D>0.37 sotto H 0 ) Dalle tavole otteniamo 0.3<P-value < 0.4 0.6 < 2*P-value < 0.8 0.37 Non c è evidenza di una differenza significativa dei ph MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.74