3. Confronto tra medie di due campioni indipendenti o appaiati



Documenti analoghi
4. Confronto tra medie di tre o più campioni indipendenti

Statistica. Lezione 6

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

Statistiche campionarie

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

VERIFICA DELLE IPOTESI


6. Modelli statistici: analisi della regressione lineare

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Inferenza statistica. Statistica medica 1

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

T DI STUDENT Quando si vogliono confrontare solo due medie, si può utilizzare il test t di Student La formula per calcolare il t è la seguente:

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

Corso di Psicometria Progredito

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Esercitazione n.4 Inferenza su varianza

Metodi statistici per le ricerche di mercato

Verifica di ipotesi

Elementi di Psicometria con Laboratorio di SPSS 1

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza

Elementi di Psicometria con Laboratorio di SPSS 1

La logica statistica della verifica (test) delle ipotesi

Analisi dei residui. Test Esatto di Fisher. Differenza fra proporzioni

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Capitolo 11 Test chi-quadro

LEZIONE n. 5 (a cura di Antonio Di Marco)

Esercitazione n.2 Inferenza su medie

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

Facoltà di Psicologia Università di Padova Anno Accademico

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

Inferenza statistica I Alcuni esercizi. Stefano Tonellato

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

Capitolo 12 La regressione lineare semplice

Istituzioni di Statistica e Statistica Economica

STATISTICA IX lezione

Elementi di Psicometria con Laboratorio di SPSS 1

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Esercitazioni di Statistica

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

Concetto di potenza statistica

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

Il confronto fra proporzioni

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

è decidere sulla verità o falsità

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

La distribuzione Normale. La distribuzione Normale

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità C

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

Il Controllo Interno di Qualità dalla teoria alla pratica: guida passo per passo IL MODELLO TEORICO. Pasquale Iandolo

Tema A Se due eventi A e B sono indipendenti e tali che P (A) = 1/2 e P (B) = 2/3, si può certamente concludere che

Facciamo qualche precisazione

Test statistici di verifica di ipotesi

E naturale chiedersi alcune cose sulla media campionaria x n

Statistica inferenziale

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

La distribuzione Gaussiana

Metodi statistici per le ricerche di mercato

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6

Università del Piemonte Orientale. Corsi di Specialità. Corso di Statistica Medica. Analisi dei dati quantitativi : Analisi della varianza

Istituzioni di Statistica e Statistica Economica

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

Test non parametrici. Test non parametrici. Test non parametrici. Test non parametrici

ELEMENTI DI STATISTICA

LA CORRELAZIONE LINEARE

ANALISI DI CORRELAZIONE

Esercitazione n.1 (v.c. Binomiale, Poisson, Normale)

Esercizio 1. Proprietà desiderabili degli stimatori (piccoli campioni)

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Analisi di dati di frequenza

11. Analisi statistica degli eventi idrologici estremi

Confronto tra gruppi (campioni indipendenti)

Inferenza statistica

Soluzioni degli Esercizi del Parziale del 30/06/201 (Ippoliti-Fontanella-Valentini)

OSSERVAZIONI TEORICHE Lezione n. 4

VERIFICA DELLE IPOTESI

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

Rapporto dal Questionari Insegnanti

LEZIONI DI STATISTCA APPLICATA. Parte 2. Statistica inferenziale. Variabili continue per categoriali. Alessandro Valbonesi

Analizza/Confronta medie. ELEMENTI DI PSICOMETRIA Esercitazione n Test t. Test t. t-test test e confronto tra medie chi quadrato

Statistica descrittiva: prime informazioni dai dati sperimentali

INTRODUZIONE AL DESIGN OF EXPERIMENTS (Parte 1)

Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica

ANALISI DELLA VARIANZA A PIU CRITERI DI CLASSIFICAZIONE

Lineamenti di econometria 2

Università del Piemonte Orientale. Corso di dottorato in medicina molecolare. a.a Corso di Statistica Medica. Inferenza sulle medie

Tasso di interesse e capitalizzazione

CAPITOLO III CONFRONTI TRA DISTRIBUZIONI

Misure della dispersione o della variabilità

LE ASSUNZIONI DELL'ANOVA

Politecnico di Milano - Anno Accademico Statistica Docente: Alessandra Guglielmi Esercitatore: Stefano Baraldo

Matlab per applicazioni statistiche

Temi di Esame a.a Statistica - CLEF

Facoltà di Psicologia Università di Padova Anno Accademico

Transcript:

BIOSTATISTICA 3. Confronto tra medie di due campioni indipendenti o appaiati Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.1

O APPAIATI SPECULARE UNIVERSO PARAMETRI PROGRAMMARE INFERIRE CAMPIONE STIMATORI DESCRIVERE MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.2

O APPAIATI Siamo interessati a valutare se due diete (A e B) determinano diversi incrementi del peso delle cavie con esse nutrite UNIVERSO PARAMETRI CAMPIONE STIMATORI MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.3

Siamo interessati a valutare se due diete (A e B) determinano diversi incrementi del peso delle cavie con esse nutrite UNIVERSO PARAMETRI PROGRAMMARE CAMPIONE STIMATORI Vengono scelti casualmente due campioni di 12 e 13 cavie ciascuno, ad ognuno di essi viene somministrata una delle due diete in studio dalla nascita fino all età di 3 mesi e ne vengono registrati gli incrementi di peso. I campioni sono indipendenti MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.4

CAMPIONE 1 CAMPIONE 2 STATISTICHE DESCRIVERE STATISTICHE STATISTICHE STATISTICHE n 1 = 12 56 59 63 52 57 68 64 61 57 60 63 60 y i1 : generica i-esima osservazione del campione 1 (j =1) 61 64 67 56 60 72 68 65 61 64 67 64 60 n 2 = 13 y i2 : generica i-esima osservazione del campione 2 (j =2) MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.5

4 CAMPIONE 1 3 2 1 s 1 = 4.24 y 1 = 60 4 3 2 1 50 54 58 62 66 70 CAMPIONE 2 s 2 = 4.21 74 y 2 = 63.77 50 54 58 62 66 70 74 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.6

IPOTESI: I due campioni provengono dalla stessa popolazione di cavie e se potessimo misurare l intera popolazione sarebbe X ~ N(µ,σ 2 ) µ Media campionaria Noi non conosciamo nè la media µ nè la varianza σ 2, ma conosciamo i parametri campionari: y 1 y 2 medie s 1 s 2 Dev. standard n 1 n 2 numerosità MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.7

POPOLAZIONE campione 1 campione 2 Dieta A Dieta B n 1 = 12 y 1 = 60 s 1 = 4.24 n 2 = 13 y 2 = 63.77 s 2 = 4.21 Ai due campioni assegniamo diete diverse. Le osservazioni ottenute sono ancora compatibili con l ipotesi che i due campioni provengono dalla stessa popolazione? MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.8

SPECULARE UNIVERSO PARAMETRI PROGRAMMARE INFERIRE CAMPIONE STIMATORI DESCRIVERE MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.9

POPOLAZIONE BERSAGLIO Tutti i possibili campioni y 1 y 2 µ Media Medie campionaria campionarie δ = µ 2 - µ 1 = µ - µ =0 d = y 2 y 1 H 0 : δ=0 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.10

POPOLAZIONE 1 (dieta A) (tutte le medie campionarie y 1 ) POPOLAZIONE 2 (dieta B) (tutte le medie campionarie y 2 ) Tutti i possibili campioni Tutti i possibili campioni y 1 y 2 µ 1 Le due distribuzioni hanno la stessa varianza δ = µ 2 - µ 1 µ 2 d = y 2 y 1 H 1 : δ = 0 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.11

IN GENERALE δ = µ 1 - µ 2 µ 1 µ 2 POPOLAZIONE 1 POPOLAZIONE 2 n 1 = 12 y 1 = 60 s 1 = 4.24 n 2 = 13 y 2 = 63.77 s 2 = 4.21 d = y 2 - y 1 = 3.77 La variabile di interesse non è più la media campionaria bensì la differenza tra medie campionarie MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.12

POPOLAZIONE BERSAGLIO (tutte le possibili differenze tra medie campionarie) Tutti i possibili campioni ignota d Differenze tra medie campionarie δ MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.13

Ipotesi nulla: H 0 : µ 1 = µ 2 δ = 0 Cosa succede sotto l ipotesi nulla? MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.14

POPOLAZIONE BERSAGLIO (tutte le possibili differenze tra medie campionarie) Tutti i possibili campioni Questa situazione è compatibile con l ipotesi nulla? d δ = 0 Differenze tra medie campionarie MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.15

Situazione possibile d δ = 0 Situazione meno probabile d δ = 0 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.16

Ipotesi nulla: H 0 : µ 1 = µ 2 δ = 0 L ipotesi nulla non può essere mai rigettata con assoluta certezza! Dobbiamo agganciare alla stima d un livello di confidenza. P-Value: quanto estremo è il risultato che abbiamo ottenuto? d d δ = 0 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.17

P-Value: probabilità di ottenere un risultato campionario altrettanto o più estremo di quello osservato, se H 0 è vera P-value = Pr ( D >d sotto H 0 ) Più piccolo è il valore del p-value, 1) più estremo è il valore d osservato 2) Più bassa l evidenza che i dati siano coerenti con la distribuzione sotto l ipotesi nulla P-value=0.25 P-value=0.03 d d δ = 0 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.18

PROBLEMA: l ipotesi è bidirezionale H 0 : δ = 0 vs H 1 : δ = 0 Unidirezionale P-value = Pr ( D >d sotto H 0 ) Bidirezionale 2*P-value P-value=0.06 P-value=0.03 P-value=0.03 -d d δ = 0 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.19

Tre procedure per saggiare l ipotesi nulla A. Stima intervallare B. Test basato sulla t di Student C. Analisi della varianza e test F MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.20

Ricordando la stima intervallare nel caso di una media campionaria: y ± t. es la si adatti al confronto tra due medie campionarie MARTA BLANGIARDO A. CONFRONTO Stima intervallare TRA MEDIE DI 2 CAMPIONI- 3.21

y ± t. es La variabile misurata di interesse non è più la media campionaria y, bensì la differenza tra medie campionarie d: d ± t. es A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.22

n 1 = 12 y 1 = 60 s 11 = 4.24 n 2 = 13 12 y 2 y= 2 = 63.77 64 s 22 = 4.21 d ± t. es d = y 2 y 1 = 3.77 A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.23

d ± t. es L errore standard non è più s / n visto che, essendo implicati due campioni, si dispone di due deviazioni standard (s 1 e s 2 ) e due numerosità campionarie (n 1 e n 2 ) s* = Pooled (n 1-1). s 12 + (n 2-1). s 2 2 (n 1-1) + (n 2-1) A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.24

d ± t. es L errore standard non è più s / n visto che, essendo implicati due campioni, si dispone di due deviazioni standard (s 1 e s 2 ) e due numerosità campionarie (n 1 e n 2 ) 1 n* = 1 n 1 + 1 n 2 = n 1 + n 2 n 1. n 2 A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.25

n 1 = 12 y 1 = 60 s 1 = 4.24 n 2 = 12 13 y 2 y 2 = = 63.77 64 s 2 = 4.21 3.77 ± t. es es d = s* 1 n* = (n 1-1). s 12 + (n 2-1). s 2 2 (n 1-1) + (n 2-1) n 1 + n 2 n 1. n 2 es d = (12-1). 2 4.23 + (13-1). 2 4.21 (12-1) + (13-1) 12 + 13 12. 13 = 1.69 A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.26

d ± t. es Valore critico della variabile casuale t di Student, caratterizzata da un certo numero di gradi di libertà g e da una probabilità (1-α). Quindi d ± t g ; (1-α). es A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.27

d ± t g ; (1-α). es I gradi di libertà non sono più n - 1 visto che, essendo implicati due campioni, si dispone di due numerosità campionarie (n 1 e n 2 ): g = ( n 1 + n 2 ) - 2 A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.28

d ± t g ; (1-α). es Dove 1 - α è il livello di confidenza dell intervallo (di solito definiamo 0.9, 0.95 o 0.99) A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.29

n 1 = 12 y 1 = 60 s 1 = 4.23 n 2 = 13 y 2 = 63.77 s 2 = 4.21 3.77 ± t g;(1-α). 1.69 Fissando (1-α) = 0.9 e avendo due code abbiamo 0.9 + 0.1/2 = 0.95 3.77 ± t 23;0.95. 1.69 Dalla tavola della distribuzione t: 3.77 ± 1.7139. 1.69 A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.30

MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.31 Distribuzione t 1.8946 1.4149 1.1192 0.8960 0.7111 0.5491 0.2632 7 1.9432 1.4398 1.1342 0.9057 0.7176 0.5534 0.2648 6 2.0150 1.4759 1.1558 0.9195 0.7267 0.5594 0.2672 5 2.1318 1.5332 1.1896 0.9410 0.7407 0.5686 0.2707 4 2.3534 1.6377 1.2498 0.9785 0.7649 0.5844 0.2767 3 2.9200 1.8856 1.3862 1.0607 0.8165 0.6172 0.2887 2 6.3138 3.0777 1.9626 1.3764 1.0000 0.7265 0.3249 1 0.05 0.1 0.15 0.2 0.25 0.3 0.4 5.4079 4.7853 5.9588 5.2076 6.8688 5.8934 8.6103 7.1732 12.9240 10.2145 31.5991 22.3271 636.6192 318.3088 0.0005 0.001.. 1.6577 1.2886 1.0409 0.8446 0.6765 0.5258 0.2539 120 1.6602 1.2901 1.0418 0.8452 0.6770 0.5261 0.2540 100 1.6641 1.2922 1.0432 0.8461 0.6776 0.5265 0.2542 80 1.6669 1.2938 1.0442 0.8468 0.6780 0.5268 0.2543 70 1.6706 1.2958 1.0455 0.8477 0.6786 0.5272 0.2545 60 1.6759 1.2987 1.0473 0.8489 0.6794 0.5278 0.2547 50 1.6794 1.3006 1.0485 0.8497 0.6800 0.5281 0.2549 45. 3.3735 3.1595 3.3905 3.1737 3.4163 3.1953 3.4350 3.2108 3.4602 3.2317 3.4960 3.2614 3.5203 3.2815 gdl 1.7139 1.3195 1.0603 0.8575 0.6853 0.5317 0.2563 23. 3.7676 3.4850

n 1 = 12 y 1 = 60 s 1 = 4.23 n 2 = 13 y 2 = 64 s 2 = 4.21 3.77 ± 1.7139. 1.69 0.87, 6.67-7 -6-5 -4-3 -2-1 1 2 3 4 5 6 7 8 valore atteso sotto l ipotesi nulla δ = 0 Ripetendo l esperimento 100 volte nelle stesse condizioni, ci si aspetta che in 90 casi le due diete differiscano A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.32

H 0 : µ 1 = µ 2 δ = 0 Visto che l intervallo non contiene il valore atteso sotto l ipotesi nulla con: α = 0.1 allora concludiamo che non c è abbastanza evidenza che supporti che i dati siano coerenti con l ipotesi nulla e quindi H 1 : µ 1 µ 2 δ 0 Le E se due avessimo medie differiscono prefissato un errore di primo significativamente tipo più cautelativo (es. α = 0.01)? A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.33

MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.34 Distribuzione t 1.4149 1.1192 0.8960 0.7111 0.5491 0.2632 7 1.4398 1.1342 0.9057 0.7176 0.5534 0.2648 6 1.4759 1.1558 0.9195 0.7267 0.5594 0.2672 5 1.5332 1.1896 0.9410 0.7407 0.5686 0.2707 4 1.6377 1.2498 0.9785 0.7649 0.5844 0.2767 3 1.8856 1.3862 1.0607 0.8165 0.6172 0.2887 2 3.0777 1.9626 1.3764 1.0000 0.7265 0.3249 1 0.1 0.15 0.2 0.25 0.3 0.4 5.4079 4.7853 5.9588 5.2076 6.8688 5.8934 8.6103 7.1732 12.9240 10.2145 31.5991 22.3271 636.6192 318.3088 0.0005 0.001.. 1.2886 1.0409 0.8446 0.6765 0.5258 0.2539 120 1.2901 1.0418 0.8452 0.6770 0.5261 0.2540 100 1.2922 1.0432 0.8461 0.6776 0.5265 0.2542 80 1.2938 1.0442 0.8468 0.6780 0.5268 0.2543 70 1.2958 1.0455 0.8477 0.6786 0.5272 0.2545 60 1.2987 1.0473 0.8489 0.6794 0.5278 0.2547 50 1.3006 1.0485 0.8497 0.6800 0.5281 0.2549 45. 3.3735 3.1595 3.3905 3.1737 3.4163 3.1953 3.4350 3.2108 3.4602 3.2317 3.4960 3.2614 3.5203 3.2815 gdl 1.3195 1.0603 0.8575 0.6853 0.5317 0.2563 23. 3.4995 3.7074 4.0321 4.6041 5.8409 9.9248 63.6567 0.005 2.6174 2.6259 2.6387 2.6479 2.6603 2.6778 2.6896 3.7676 3.4850 2.8073

Se seguiamo un approcico più cautelativo e fissiamo 1-α = 0.99 n 1 = 12 y 1 = 60 s 1 = 4.23 n 2 = 13 y 2 = 63.77 s 2 = 4.21 3.77 ± 2.8073. 1.69-0.98, 8.52-7 -6-5 -4-3 -2-1 1 2 3 4 5 6 7 8 valore atteso sotto l ipotesi nulla δ = 0 Non c è più evidenza che le due diete differiscano A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.35

Tre procedure per saggiare l ipotesi nulla A. Stima intervallare B. Test del t di Student C. Analisi della varianza e test F MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.36

Ricordando la variabile casuale t nel caso di una media campionaria è: t = y - µ s n la si adatti al confronto tra due medie campionarie B. Test del t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.37

t = y - µ s n È la differenza tra il valore osservato e quello atteso sotto l ipotesi nulla Nel caso della differenza tra due medie quindi: (y 2 - y 1 ) - 0 d B. Test del t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.38

t = y - µ s n È l errore standard di una media campionaria Nel caso della differenza tra due medie quindi: 1 es d = s* n* = (n 1-1). s 12 + (n 2-1). s 2 2 (n 1-1) + (n 2-1) n 1 + n 2 n 1. n 2 B. Test del t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.39

t = y - µ s n Il valore della variabile casuale t è caratterizzato dai gradi di libertà (g): Quindi dovrebbe essere scritta come: t g = (y 2 - y 1 ) - 0 es d che rappresenta il valore empirico (osservato) di t. La valutazione dell accettazione/rifiuto viene ottenuta tramite il P-value B. Test del t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.40

0.025 DISTRIBUZIONE 3. CONFRONTO TRA MEDIE DI DUE CAMPIONI t g -t g δ = 0 t g P-value<0.01 0.01<P-value<0.05 0.05<P-value<0.1 P-value>=0.1 Fortissima evidenza contro H 0 Forte evidenza contro H 0 Evidenza contro H 0 Non sufficiente evidenza contro H 0 B. Test del t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.41

n 1 = 12 y 1 = 60 s 1 = 4.23 n 2 = 13 y 2 = 64 s 2 = 4.21 t g = (y 2 - y 1 ) - 0 es d 3.77 t 23 = =2.23 1.69 è il valore empirico della statistica t. Il P-value corrispondente è P-value < 0.025 Ipotesi bidirezionale 2*P-value < 0.05 <0.05: Forte evidenza contro H 0 B. Test del t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.42

Tre procedure per saggiare l ipotesi nulla A. Stima intervallare B. Test del t di Student C. Analisi della varianza e test F MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.43

CAMPIONE 1 CAMPIONE 2 56 59 61 64 63 52 67 56 57 68 60 72 64 61 68 65 57 60 61 64 63 60 67 64 60 Media generale: y = 62 Devianza totale = Σ Σ (y ij - y) 2 j i = (56-62) 2 + (59-62) 2 + (63-62) 2 +......+ (67-62) 2 + (64-62) 2 + (60-62) 2 = = 499 Da quali fonti dipende la variabilità (devianza) totale del fenomeno? C. Analisi della varianza e test F MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.44

CAMPIONE 1 CAMPIONE 2 60 60 60 60 60 60 60 60 60 60 60 60 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 Media generale: y = 62 y 1 = 60 y 2 = 63.8 Devianza tra i livelli del fattore sperimentale Σ n j (y j - y) 2 j = 12. (60-61.96) 2 + 13. (63.8-61.96) 2 = 88.65 Una prima fonte di variabilità è dovuta al fatto che i due campioni sono stati sottoposti a diverse diete (fattore sperimentale) C. Analisi della varianza e test F MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.45

CAMPIONE 1 CAMPIONE 2 60 60 60 60 60 60 60 60 60 60 60 60 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 63.8 y 1 = 60 y 2 = 63.8 Devianza entro i livelli del fattore sperimentale Σ Σ (y ij - y j ) 2 i j Una seconda fonte di variabilità è dovuta al fatto che ogni unità sperimentale tende a rispondere in modo diverso dalle altre allo stesso stimolo (livello del fattore sperimentale) = (56-60) 2 + (59-60) 2 + (63-60) 2 +......+ (67-63.8) 2 + (64-63.8) 2 + (60-63.8) 2 = = 410.3 C. Analisi della varianza e test F MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.46

SISTEMATICA Fonti di variabilità devianza Tra gruppi 88.65 + Entro gruppi * 410.3 = Totale 498.96 CASUALE * Variabilità residua C. Analisi della varianza e test F MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.47

Fonti di variabilità devianza gradi di libertà Tra gruppi 88.65 + 1 (N.gruppi-1) + Entro gruppi Totale 410.3 = 498.96 = 23 (N N.gruppi) = 24 (N-1) C. Analisi della varianza e test F MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.48

Fonti di variabilità devianza gradi di libertà varianza Tra gruppi Entro gruppi 88.65 96 + + 1 + = 88.65 410.3 396 = + 22 23 = + = 17.8 Totale 498.96 = 24 F 1, 23 = Varianza tra gruppi Varianza entro gruppi 88.65 = = 4.97 17.8 C. Analisi della varianza e test F MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.49

DISTRIBUZIONE F g1;g2 Area = 1 1 Valore atteso sotto l ipotesi nulla In questo caso le tavole disponibili non permettono di calcolare il P-value. E possibile calcolare il P-value tramite software (excel, R, Matlab). =DISTRIB.F(4.97,1,23) = 0.036 P-value<0.05 Funzione di Excel C. Analisi della varianza e test F Forte evidenza contro H 0 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.50

Ci sono tavole tabulate che permettono di calcolare una soglia di accettazione/rifiuto per alcune prespecificate soglie 1-α (0.9,0.95) F (1-α),g1,g2 F g1,g2 F g1,g2 Non sufficiente evidenza contro H 0 Sufficiente evidenza contro H 0 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.51

Distribuzione F g1;g2;0.95 F Gradi di libertà del denominatore Gradi di libertà del numeratore 1 2 3 4 5 10 1 161.45 199.50 215.71 224.58 230.16 241.88 2 18.51 19.00 19.16 19.25 19.30 19.40 3 10.13 9.55 9.28 9.12 9.01 8.79 4 7.71 6.94 6.59 6.39 6.26 5.96 5 6.61 5.79 5.41 5.19 5.05 4.74 6 5.99 5.14 4.76 4.53 4.39 4.06 7 5.59 4.74 4.35 4.12 3.97 3.64 8 5.32 4.46 4.07 3.84 3.69 3.35 9 5.12 4.26 3.86 3.63 3.48 3.14 10 4.96 4.10 3.71 3.48 3.33 2.98 11 4.84 3.98 3.59 3.36 3.20 2.85 12 4.75 3.89 3.49 3.26 3.11 2.75 13 4.67 3.81 3.41 3.18 3.03 2.67 14 4.60 3.74 3.34 3.11 2.96 2.60 15 4.54 3.68 3.29 3.06 2.90 2.54 16 4.49 3.63 3.24 3.01 2.85 2.49 17 4.45 3.59 3.20 2.96 2.81 2.45 18 4.41 3.55 3.16 2.93 2.77 2.41 19 4.38 3.52 3.13 2.90 2.74 2.38 20 4.35 3.49 3.10 2.87 2.71 2.35 21 4.32 3.47 3.07 2.84 2.68 2.32 22 4.30 3.44 3.05 2.82 2.66 2.30 23 4.28 3.42 3.03 2.80 2.64 2.27 24 4.26 3.40 3.01 2.78 2.62 2.25 25 4.24 3.39 2.99 2.76 2.60 2.24 30 4.17 3.32 2.92 2.69 2.53 2.16 50 4.03 3.18 2.79 2.56 2.40 2.03 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.52

Distribuzione F 1,23 Area di accettazione Area di rifiuto 0.95 0.05 Valore tabulato 4.28 Valore empirico 4.97 allora dovremmo rifiutare l ipotesi nulla: p < 0.05 C. Analisi della varianza e test F MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.53

Due vie equivalenti per saggiare l ipotesi nulla Test del t di Student t 23 = 2.23 Analisi della varianza F 1,23 = 4.97 t 2 = F 23 1,23 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.54

APPAIATI Siamo interessati a valutare se il ph di un terreno acido sulla superficie è diversa da quella del sottosuolo UNIVERSO PARAMETRI PROGRAMMARE CAMPIONE STIMATORI Si estrae un campione di 13 zolle di terreno e su ognuna di esse si misura il ph in superficie e nel sottosuolo. Abbiamo due misurazioni per ogni zolla. I campioni sono appaiati MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.55

APPAIATI CAMPIONE 1 CAMPIONE 2 Superficie STATISTICHE 6.57 6.77 6.53 6.71 6.72 6.01 4.99 5.49 5.56 5.32 5.92 6.55 6.93 Sottosuolo STATISTICHE 8.34 6.13 6.32 8.30 8.44 6.80 5.42 7.90 5.20 5.32 6.21 5.66 5.66 n = 13 E lo stesso campione con due diverse misurazioni Per ogni zolla le due misurazioni non sono indipendenti MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.56

APPAIATI Calcoliamo la variabile differenza tra le due misurazioni Superficie Sottosuolo Differenza 6.57 6.77 6.53 6.71 6.72 6.01 4.99 5.49 5.56 5.32 5.92 6.55 6.93 8.34 6.13 6.32 8.30 8.44 6.80 5.42 7.90 5.20 5.32 6.21 5.66 5.66-1.77 0.64 0.21-1.59-1.72-0.79-0.43-2.41 0.36 0.00-0.29 0.89 1.27 La nuova variabile Differenza è quella su cui vogliamo fare inferenza MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.57

APPAIATI IPOTESI: La differenza tra il ph in superficie e nel sottosuolo si distribuisce come una variabile casuale Normale D ~ N(µ d,σ 2 d ) µ Media campionaria Noi non conosciamo nè la media µ d nè la varianza σ 2 d, ma conosciamo i parametri campionari: d media s d Dev. standard n numerosità INFERENZA SU UN CAMPIONE MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.58

APPAIATI POPOLAZIONE BERSAGLIO Tutti i possibili campioni di differenze d µ d H 0 : µ d = 0 Media Medie campionaria campionarie Cosa succede sotto l ipotesi nulla? MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.59

APPAIATI POPOLAZIONE BERSAGLIO (tutte le possibili differenze) Tutti i possibili campioni È questa situazione compatibile con l ipotesi nulla? d Differenze tra medie campionarie MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.60

APPAIATI Situazione possibile d Situazione meno probabile d MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.61

APPAIATI Ipotesi nulla: H 0 : µ d =0 L ipotesi nulla non può essere mai rigettata con assoluta certezza! Dobbiamo agganciare alla stima d un livello di confidenza. P-Value: quanto estremo è il risultato che abbiamo ottenuto? d µ d = 0 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.62 d 1

APPAIATI Tre procedure per saggiare l ipotesi nulla A. Stima intervallare B. Test basato sulla t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.63

APPAIATI Avendo un solo campione, in questo caso la stima intervallare da utilizzare è proprio quella introdotta precedentemente nel caso di una media campionaria: y ± t. es Che nel caso di campioni appaiati è d ± t. es n = 13 d = -0.43 se = 1.15 sd/radq(n) MARTA BLANGIARDO A. CONFRONTO Stima intervallare TRA MEDIE DI 2 CAMPIONI- 3.64

APPAIATI Noi non conosciamo la varianza σ 2 T di Student t g ; (1-α) Valore critico della variabile casuale t di Student, caratterizzata da un certo numero di gradi di libertà g e da una probabilità (1-α). Quindi l intervallo di confidenza sarà d ± t g ; (1-α). es n-1 A. Stima intervallare livello di confidenza dell intervallo (di solito definiamo 0.9, 0.95 o 0.99) MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.65

APPAIATI n = 13 d = -0.43 es = 1.15-0.43 ± t g;(1-α). 1.15 Fissando (1-α) = 0.95 e avendo due code abbiamo 0.95 + 0.05/2 = 0.975-0.43 ± t 12;0.975. 1.15 Dalla tavola della distribuzione t: -0.43 ± 2.1788. 1.15 A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.66

MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.67 Distribuzione t 1.8946 1.4149 1.1192 0.8960 0.7111 0.5491 0.2632 7 1.9432 1.4398 1.1342 0.9057 0.7176 0.5534 0.2648 6 2.0150 1.4759 1.1558 0.9195 0.7267 0.5594 0.2672 5 2.1318 1.5332 1.1896 0.9410 0.7407 0.5686 0.2707 4 2.3534 1.6377 1.2498 0.9785 0.7649 0.5844 0.2767 3 2.9200 1.8856 1.3862 1.0607 0.8165 0.6172 0.2887 2 6.3138 3.0777 1.9626 1.3764 1.0000 0.7265 0.3249 1 0.05 0.1 0.15 0.2 0.25 0.3 0.4 5.4079 4.7853 5.9588 5.2076 6.8688 5.8934 8.6103 7.1732 12.9240 10.2145 31.5991 22.3271 636.6192 318.3088 0.0005 0.001.. 1.6577 1.2886 1.0409 0.8446 0.6765 0.5258 0.2539 120 1.6602 1.2901 1.0418 0.8452 0.6770 0.5261 0.2540 100 1.6641 1.2922 1.0432 0.8461 0.6776 0.5265 0.2542 80 1.6669 1.2938 1.0442 0.8468 0.6780 0.5268 0.2543 70 1.6706 1.2958 1.0455 0.8477 0.6786 0.5272 0.2545 60 1.6759 1.2987 1.0473 0.8489 0.6794 0.5278 0.2547 50 1.6794 1.3006 1.0485 0.8497 0.6800 0.5281 0.2549 45. 3.3735 3.1595 3.3905 3.1737 3.4163 3.1953 3.4350 3.2108 3.4602 3.2317 3.4960 3.2614 3.5203 3.2815 gdl. 2.1788 1.7823 1.3562 1.0832 0.8726 0.6955 0.5386 0.2590 12 2.3646 2.4469 2.5706 2.7764 3.1824 4.3027 12.7062 0.025 1.9799 1.9840 1.9901 1.9944 2.0003 2.0086 2.0141 4.3178 3.9296 3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

APPAIATI n = 13 d = -0.43 es = 1.15-0.43 ± 2.1788. 1.15-2.93, 2.08-7 -6-5 -4-3 -2-1 valore atteso sotto l ipotesi nulla µ d = 0 1 2 3 4 5 6 7 8 Ripetendo l esperimento 100 volte nelle stesse condizioni, ci si aspetta che in 95 casi i due ph non siano diversi significativamente A. Stima intervallare MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.68

APPAIATI Tre procedure per saggiare l ipotesi nulla A. Stima intervallare B. Test del t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.69

APPAIATI Ricordando la variabile casuale t nel caso di una media campionaria è: t = d - µ s n È la differenza tra il valore osservato e quello atteso sotto l ipotesi nulla Nel caso di campioni appaiati abbiamo: d - 0 ph 1 ph 2 6.57 8.34 6.77 6.13 6.53 6.32 6.93 5.66 d -1.77 0.64 0.21 1.27 B. Test del t di Student d -0.43 MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.70

APPAIATI t = y i - µ s n È l errore standard (es) di una media campionaria s = n Σ(y i - y) 2 i =1 n - 1 = 1.15 n n B. Test del t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.71

APPAIATI t = y i - µ s n Il valore della variabile casuale t è caratterizzato dai gradi di libertà (g): Quindi dovrebbe essere scritta come: t g = d - 0 es d che rappresenta il valore empirico (osservato) di t. La valutazione dell accettazione/rifiuto viene ottenuta tramite il P-value I gradi di libertà sono n-1 B. Test del t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.72

APPAIATI n = 13 d = -0.43 es d = 1.15 t g = d - 0 se d -0.43 t 12 = = -0.37 1.15 è il valore empirico della statistica t. Il P-value corrispondente è B. Test del t di Student MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.73

APPAIATI Il valore è negativo -0.37 Le tavole restituiscono la coda di destra solo per valori positivi, ma Pr(D<-0.37 sotto H 0 ) = Pr(D>0.37 sotto H 0 ) Dalle tavole otteniamo 0.3<P-value < 0.4 0.6 < 2*P-value < 0.8 0.37 Non c è evidenza di una differenza significativa dei ph MARTA BLANGIARDO CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.74