Confronto tra gruppi (campioni indipendenti)

Похожие документы

Università del Piemonte Orientale. Corsi di Specialità. Corso di Statistica Medica. Analisi dei dati quantitativi : Analisi della varianza

3. Confronto tra medie di due campioni indipendenti o appaiati

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

Relazioni tra variabili

Problema pratico: Test statistico = regola di decisione

4. Confronto tra medie di tre o più campioni indipendenti

T DI STUDENT Quando si vogliono confrontare solo due medie, si può utilizzare il test t di Student La formula per calcolare il t è la seguente:

Statistica. Lezione 6

ANALISI DELLA VARIANZA A PIU CRITERI DI CLASSIFICAZIONE

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

LE ASSUNZIONI DELL'ANOVA

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Elementi di Psicometria con Laboratorio di SPSS 1

LEZIONE n. 5 (a cura di Antonio Di Marco)

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Elementi di Psicometria con Laboratorio di SPSS 1

Analisi della varianza (anova) a due vie

La logica statistica della verifica (test) delle ipotesi

INTRODUZIONE AL DOE come strumento di sviluppo prodotto Francesca Campana Parte 3 Piani a fattore singolo e relativi test di interpretazione

4.2. IL TEST F DI FISHER O ANALISI DELLA VARIANZA (ANOVA)

Capitolo 11 Test chi-quadro

Analisi della varianza

Corso di Psicometria Progredito

La statistica nella ricerca scientifica

Concetto di potenza statistica

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Verifica di ipotesi

Diaz - Appunti di Statistica - AA 2001/ edizione 29/11/01 Cap. 3 - Pag. 1 = 1

Criteri di Valutazione della scheda - Solo a carattere indicativo -

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

STATISTICA IX lezione

Statistiche campionarie

Test non parametrici. Test non parametrici. Test non parametrici. Test non parametrici

errore I = numero soggetti (I = 4) K = numero livelli tratt. (K = 3) popolazione varianza dovuta ai soggetti trattamento

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

Metodi statistici per le ricerche di mercato

Il coefficiente di correlazione di Spearman per ranghi

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

Lineamenti di econometria 2

L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELLA ROLE Six Sigma Master Black Belt

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

3 Confronto fra due popolazioni attraverso il test t e test analoghi

Soluzioni degli Esercizi del Parziale del 30/06/201 (Ippoliti-Fontanella-Valentini)

Il metodo della regressione

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

LEZIONI DI STATISTCA APPLICATA. Parte 2. Statistica inferenziale. Variabili continue per categoriali. Alessandro Valbonesi

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Analizza/Confronta medie. ELEMENTI DI PSICOMETRIA Esercitazione n Test t. Test t. t-test test e confronto tra medie chi quadrato

Analisi di dati di frequenza

Esercitazione n.2 Inferenza su medie

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

INTRODUZIONE AL DESIGN OF EXPERIMENTS (Parte 1)

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Strumenti informatici 13.1

Esercitazione n.4 Inferenza su varianza

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

Elementi di Psicometria con Laboratorio di SPSS 1

IL TEST CHI QUADRATO χ 2

Approfondimento 4.6. La valutazione statistica della discriminatività di un item

VERIFICA DELLE IPOTESI

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

La distribuzione Normale. La distribuzione Normale

Test statistici non-parametrici

Il confronto fra proporzioni

Argomenti della lezione:

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

E naturale chiedersi alcune cose sulla media campionaria x n

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

(a cura di Francesca Godioli)

Inferenza statistica. Statistica medica 1

Esperimenti in vaso: disegni a randomizzazione completa

Tema A Se due eventi A e B sono indipendenti e tali che P (A) = 1/2 e P (B) = 2/3, si può certamente concludere che

La regressione lineare multipla

PROCEDURA INVENTARIO DI MAGAZZINO di FINE ESERCIZIO (dalla versione 3.2.0)

FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

LA CORRELAZIONE LINEARE

INDAGINE CONFCOMMERCIO-FORMAT SUL NEGOZIO NELL ERA DI INTERNET

GRUPPO QUATTRO RUOTE. Alessandro Tondo Laura Lavazza Matteo Scordo Alessandro Giosa Gruppo Quattro Ruote 1

Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

Esercizi sulle variabili aleatorie Corso di Probabilità e Inferenza Statistica, anno , Prof. Mortera

INDAGINE CONFCOMMERCIO-FORMAT SUL NEGOZIO NELL ERA DI INTERNET

Temi di Esame a.a Statistica - CLEF

Analisi della varianza

Tasso di interesse e capitalizzazione

Statistica inferenziale

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Транскрипт:

Confronto tra gruppi (campioni indipendenti) Campioni provenienti da una popolazione Normale con medie che possono essere diverse ma varianze uguali campioni: Test z or t sulla differenza tra medie 3, 4, o più campioni: ANalysis Of Variance (ANOVA): test F sull'indice η

Analysis of variance (inferential approach) Studio dei fattori che influenzano il tempo impiegato da un topo ad uscire da un nuovo labirinto 4 gruppi ognuno di 3 topi, tali che: Ipotesi: l esperienza ha un effetto sul tempo Esperienza precedente: Group 1: 1 labirinto Group : labirinti Group 3: 3 labirinti Group 4: 4 labirinti Se l ipotesi è vera ci si aspetta che una maggiore esperienza faccia decrescere il tempo impiegato ad uscire dal labirinto

Dati Gruppo 1 3 4 11 7 6 5 Tempi 9 9 5 3 10 8 7 4 Medie 10 8 6 4 1 11 10 9 Time 8 7 6 5 4 3 Group 1 Group Group 3 Group 4

Come interpretare le differenze Le apparenti differenze tra le medie potrebbero essere dovute alla variabilità del campione piuttosto che all effetto dell esperienza Le differenze sono significative? Ipotesi: nessun effetto dell esperienza µ 1 = µ = µ 3 = µ 4 I 4 gruppi provengono dalla stessa popolazione L'Analisi della varianza (ANOVA) è il metodo per testare questa ipotesi

Notazione dell'anova y ij = j-ma osservazione del gruppo i (independemente dal ruolo di righe e colonne nella tabella dei dati) G = numero di gruppi n = numero di osservazioni (uguale) in ciascun gruppo Ogni gruppo contiene lo stesso numero n di osservazioni H 0 : µ 1 = µ = = µ G H a : Almeno una media è diversa dalle altre Si suppone che i gruppi abbiano la stessa varianza σ

Test dell'uguaglianza tra ciascuna coppia 4 = 6 t test separati sarebbero necessari per testare l'ipotesi nulla. Oltre ad essere un processo lungo, 6 t test separati sugli stessi dati avrebbero un livello di significatività globale α molto più basso rispetto a quello usato in un unico test.

Il test F Se le medie sono uguali, la varianza tra i gruppi è nulla: σ = 0 Più le medie sono diverse, più σ σ EXT σint 0 σ EXT = σ INT La decisione è basata sul rapporto: σ σ EXT INT 1. Più basso è il rapporto, più realistica è l'ipotesi nulla Più alto è il rapporto, meno realistica è l'ipotesi nulla. Livello di significatività della decisione: σ σ EXT INT ~ F G 1;n G

Risultati dell'anova σ σ MS SS (k 1) = = MS SS (n k) EXT EXT EXT INT INT INT Sum of squares DoF Mean of squares F (observed) Significance Variability Among groups (external) B Within groups (internal) W SS EXT k-1 MS EXT = SS EXT /(k-1) SS INT n-k MS INT = SS INT /(n-k) Total SS TOT n-1 MS TOT = SS TOT /(n-1) = σ F = MS EXT /MS INT P-value

Fonti di variabilità SS TR = devianza dovuta ai trattamenti: tra i gruppi SS E = devianza residua: nei gruppi (non dovuta ai trattamenti ma alla variabilità comunque presente nei dati) Nell'equazione: SS T = SS TR + SS E SS T = devianza totale n osservazioni: SS T ha n -1 g.d.l. k trattamenti: SS TR ha k -1 g.d.l. SS E ha k j= 1 (n 1) = n k j g.d.l

Risultati dell'esperimento dei topi ANOVA SS DoF MS F p-value Among 60 3 0 0 0,000449 Within 8 8 1 Total 68 11 Decisione Il valore di F ed il p-value portano a rifiutare H 0 I campioni provengono da 4 popolazioni tra le quali almeno una differisce dalle altre L'esperienza ha un effetto sul tempo impiegato ad uscire dal labirinto

Osservazioni Quando G = il test ANOVA è uguale al test t, poichè: F 1,m = t m Negli studi sperimentali è possibile selezionare campioni bilanciati (= della stessa dimensione) attraverso il Disegno degli esperimenti ; questo non è sempre possibile nelle scienze economiche o sociali (studi osservazionali) Vantaggi dei campioni blanciati Il test è meno sensibile a piccole deviazioni dall'omoschedasticità. Ciò non è vero quando I campioni hanno dimensioni diverse La potenza del test è massima quando i gruppi hanno la stessa numerosità

Fatturato e settore merceologico Ipotesi nulla: le vendite medie sono uguali in tutti i settori SM FATT Ice Packaging 101 Food 109 Food 33 Food 199 FATT Fra gruppi Entro gruppi Totale ANOVA univariata Somma dei Media dei quadrati df quadrati F Sig. 130575,47 3 4355,14,36,807 6141114,893 46 13350,5 671690,30 49 Health Care 354 Ice Packaging 145 Drinks 467 Food 177 Food 161 Health Care 158 Ice Packaging 115 Ice Packaging 108 Food 1444 Health Care 493 Ice Packaging 185 F Decisione: Ice Packaging 85.. 0,807 0,36 σ σ EXT INT Basso valore di F = bassa σ EXT = medie vicine Il p-value è molto alto: Si accetta l ipotesi di vendite medie uguali tra i settori, confermata dal campione osservato.

Mini-glossario ANOVA Fattore sperimentale (o di classificazione): variabile responsabile della differenza tra le medie. Trattamento: modalità (dati qualitativi) o livello (dati ordinali) di un fattore. Disegno degli esperimenti: insieme di regole per assegnare le osservazioni ai trattamenti.

Test di omoschedatsicità Test di Hartley, per gruppi di uguale dimensione Test di Bartlett, per gruppi di dimensioni diverse Per entrambi l ipotesi nulla è: H : σ = σ =... = σ = σ 0 1 k H 1 : almeno una varianza è diversa Se si rifiuta H 0 non si dovrebbe procedere con l ANOVA In alcuni casi i dati possono essere trasformati per stabilizzare la varianze. Se le cause dell eteroschedasticità non sono identifcate l esperimento dovrebbe essere ripetuto

Se l ipotesi nulla si rifiuta Conclusione: Almeno una media differisce dalle altre (il trattamento ha un effetto) Ulteriore analisi Quali coppie di trattamenti differiscono? Test delle ipotesi: Confronti multipli H 0 : µ i = µ j, i e j Gruppi di uguale dimensione Alcuni esempi 1. Least Significant Difference (LSD) di Fisher. Multiple-range test di Duncan 3. Procedura di Student Newman Keuls 4. Honestly Significant Difference (HSD) di Tukey 5. Metodo di Scheffè

ANOVA a due vie (two-way) Test dell effetto di due fattori Tabella dei dati: Fattore A 1... j... k Fattore B y 11 y 1... y 1j... y 1k y 1. y 1 y... y j... y k y...................... y i1 y i... y ij... y ik y i...................... y r1 y r... y rj... y rk y r. y.1 y.... y.i... y.k y........ y.1 y y. j. y. k y 1. y. y i. y r. Ciascuna y ij è una v.c. Normale Y ij ~ N(µ ij ; σ )

Decomposizione della devianza k r j= 1 i= 1 ( Yij Y.. ) = ( Y.j Y.. ) + ( Yi. Y.. ) + ( Yij Y.j Yi. + Y.. ) ( Yij Y.. ) = k (.j..) (.i.. ) = r Y Y + k Y Y + j= 1 i= 1 k r j= 1 i= 1 colonne ( Yij Y.j Yi. Y.. ) + + r righe SST = SSK + SSR + SSE r = numero di righe k = numero di colonne

I rsultati della two-way ANOVA Source of variation Sum of squares DoF Means of squares Among columns Among rows Error (= within) Total SS * K k 1 M S * = SS * / k 1 SS * r 1 M S * = SS * / r 1 R SS * E ( k )( r ) SS * T rk 1 K R 1 1 M S * = SS * /( k 1)( r 1) E K R E r = numero di righe k = numero di colonne

Il test r = numero di righe k = numero di colonne 1) Test sull effetto del fattore A (colonne) H 0 : µ i = µ j i, j = 1,,k H 1 : almeno una media diversa ) Test sull effetto del fattore B (righe) H 0 : µ i = µ j i, j = 1,,r H 1 : almeno una media diversa Ipotesi nulle H 0 : µ 1 =... = µ j =... = µ k SS χ K (k 1) F = (k 1) MSK (k 1) = ~ SSE MSE χ(k 1)(r 1) ~ F (k 1)(r 1) (k 1)(r 1) (k 1);(k 1)(r 1) H 0 : µ 1 =... = µ i =... = µ r SS χ R (r 1) F = (r 1) MSR (r 1) = ~ SSE MSE χ(k 1)(r 1) ~ F (k 1)(r 1) (k 1)(r 1) (r 1);(k 1)(r 1)

Esempio Si vuole sapere quale combinazione di diesel e carburatore da la migliore performance. Esperimento: 5 carburatori e 4 tipi di diesel. Stessa quantità di diesel in ogni carburatore. Le performance sono in tabella: Carburatori 1 3 4 5 y. j y i. 1 10 13 9 14 11 57 11,4 Diesel 5 10 5 10 6 36 7, 3 6 1 5 10 6 39 7,8 4 4 8 4 11 5 3 6,4 r = 4 k = 5 y i. y. j 5 43 3 45 8 164 6,5 10,75 5,75 11,5 7

Risultati C y.. rk = = 164 ( )(5) = 1344, 8 4 SS = y C = ( 10 + 5 +... + 5 ) 1344, 8 = 191, T 4 5 ij i= 1 j= 1 SS K k y j + + + =. (... ) C = 5 43 8 r 4 j= 1 1344, 8 = 108, SS R r yi (57 + +... + ) =. C = 36 3 k 5 i= 1 1344, 8 = 73, 0,0000075561 SS = SS ( SS + SS ) = 191, ( 108, + 73, ) = 9, 8 E T K R Source of variation Sum of squares DoF Means of squares F Tra carburatori 108, 4 7,05 33,11 Tra diesel 73, 3 4,40 9,86 P-value 0,00000 0,000007 Residua 9,8 1 0,8 Totale 191, 19 5,17

Decisioni 1) Test sull effetto del fattore A (colonne) H 0 : µ i = µ j i, j = 1,,k H 1 : almeno una media diversa P-value basso, rifutiamo H 0 I 5 carburatori hanno diverse performance con ogni diesel ) Test sull effetto del fattore B (righe) H 0 : µ i = µ j i, j = 1,,r H 1 : almeno una media diversa P-value basso, rifutiamo H 0 I 4 diesel hanno performance diverse in ogni carburatore Possiamo scegliere la combinazione migliore sulla tabella dei dati