Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi dei dati quantitativi : Analisi della varianza Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica analisi della varianza ad un criterio di classificazione
Analisi di una variabile quantitativa con il confronto tra diversi gruppi di soggetti: A. Confronto tra una media campionaria ed una popolazione i cui parametri sono noti B. Confronto tra una media campionaria ed una popolazione di cui è nota la media ma non la deviazione standard C. Confronto tra 2 campioni appaiati D. Confronto tra due campioni indipendenti E. Confronto tra n campioni indipendenti F. Confronto tra misure ripetute sugli stessi soggetti Il caso E corrisponde all'analisi della varianza Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica analisi della varianza ad un criterio di classificazione
L'analisi della varianza serve a confrontare tra loro le medie di 3 o più gruppi di soggetti. Var. quantitativa Var. Categorica Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica analisi della varianza ad un criterio di classificazione
Obiettivo dell'analisi è misurare se la differenza tra le medie (variabilità tra gruppi) è superiore alla variabilità interna a ciascun gruppo (variabilità entro gruppi). Si tratta di un metodo molto potente che si presta anche ad analisi molto complesse. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica analisi della varianza ad un criterio di classificazione
Parliamo di analisi della varianza ad 1 criterio di classificazione quando consideriamo una sola variabile di ordinamento. Il livello minimo della variabile di ordinamento è nominale. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica analisi della varianza ad un criterio di classificazione
Partiamo da un esempio con dati sulla resa di una coltura agricola in relazione al tipo di trattamento fertilizzante. La resa è espressa in q.li / ha. Il tipo di trattamento è una variabile nominale con 3 valori: 1, 2, 3. Incominciamo con alcune esplorazioni grafiche dei dati. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica 6 Confronto tra due medie
resa trattam. 6,27 1 5,36 1 6,39 1 4,85 1 5,99 1 7,14 1 5,08 1 4,07 1 4,35 1 4,95 1 3,07 2 3,29 2 4,04 2 4,19 2 3,41 2 3,75 2 4,87 2 3,94 2 6,28 2 3,15 2 4,04 3 3,79 3 4,56 3 4,55 3 4,55 3 4,53 3 3,53 3 3,71 3 7,00 3 4,61 3 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica 7 Confronto tra due medie
Plot dei dati r esa 8 7 6 5 4 3 2 1 0 0 5 10 15 20 25 30 35 Case Number Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 8
r esa 8 7 6 5 4 3 2 1 0 0 5 10 15 20 25 30 35 Case Number Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 9
Medie +- 2 DS, separatamente per i tre gruppi X 7 6 5 4 3 2 1 0 a b c Group Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 10
Box plot 8 7 6 5 X 4 3 2 1 0 a b c Group Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 11
Diagramma a punti Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 12
I grafici suggeriscono una differenza tra i tre gruppi. Vediamo dal grafico seguente che i tre gruppi sono in posizione diversa rispetto alla media generale, calcolata su tutte le osservazioni. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 13
resa 8 7 6 5 4 3 2 1 0 1 2 3 0 5 10 15 20 25 30 35 Case Number Media Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 14
Com'è distribuita la variabilità in queste osservazioni? Esaminiamo prima la variabilità totale, poi quella all'interno di ciascun gruppo ed in ultimo la variabilità delle medie dei diversi gruppi. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 15
La variabilità totale Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 16
La variabilità entro gruppi o within groups Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 17
La variabilità tra gruppi (la differenza tra le medie dei diversi gruppi e la media generale) o between groups Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 18
L'equazione fondamentale dell'analisi della varianza Devianza totale = Devianza tra gruppi + Devianza entro gruppi Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 19
Ipotesi di lavoro : H1: non tutti i tre gruppi hanno media uguale (sono possibili diverse combinazioni) = = diverso da (µ 1 = µ 2 = µ 3 ) H0: µ 1 = µ 2 = µ 3 =µ Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 20
Assunzione fondamentale: σ 2 2 2 = = = 1 2 σ σ 3 σ 2 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 21
Se l'assunzione della stessa varianza per i diversi gruppi è vera, la variabilità 'entro gruppi' (within groups) sarà uguale nei tre gruppi. La stima migliore di questa variabilità è la stima pooled (analoga a quella già vista per il test t di student per gruppi appaiati). S 2 w = k 1 ( 1) n k n k S 2 k k= numero dei gruppi n= numero osservazioni S 2 k = varianza nel gruppo k-esimo Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 22
La variabilità 'tra gruppi' (between groups) sarà stimata dalla somma degli scostamenti tra le medie dei diversi gruppi e la media generale pesati per il numero di osservazioni nel gruppo ( n k ), divisa per il numero di gruppi -1 (k - 1). S 2 b = k 1 n k ( x x) k k 1 2 k= numero dei gruppi ; n k = numero osservazioni nel gruppo k xk = media nel gruppo k-esimo x = media generale Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 23
Se H0 è vera allora la variabilità tra gruppi sarà dovuta solo all'effetto degli errori casuali e quindi le variabilità tra ed entro gruppi saranno uguali S = 2 2 b S w Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 24
Un test in grado di misurare la probabilità di osservare una differenza tra le due varianze è il test F F = S S 2 b 2 w Il valore del test F viene letto su apposite tavole (es tav. A5 del testo di Pagano e Gavreau). Il numero di gradi di libertà a numeratore è: numero di gruppi-1 Il numero di gradi di libertà a denominatore è: numero di soggetti -numero di gruppi Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 25
resa trattam. n media gruppo 6,27 1 10 5,36 1 6,39 1 4,85 1 5,99 1 7,14 1 5,08 1 4,07 1 4,35 1 4,95 1 3,07 2 10 3,29 2 4,04 2 4,19 2 3,41 2 3,75 2 4,87 2 3,94 2 6,28 2 3,15 2 4,04 3 10 3,79 3 4,56 3 4,55 3 4,55 3 4,53 3 3,53 3 3,71 3 7,00 3 4,61 3 varianza gruppo Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 26
Conviene calcolare separatamente le varianze dei diversi gruppi e quindi inserirle nella formula. Per convenienza calcolo separatamente i seguenti valori: Media generale (del totale delle osservazioni) Media in ciascun gruppo Scostamento tra la media del gruppo e la media generale Varianza in ciascun gruppo Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 27
n media gruppo varianza nel gruppo 10 5,445 0,9525 10 3,999 0,9443 10 4,487 0,9501 media generale 4,6434 Numero totale numero gruppi 30 3 Occorre prestare attenzione al valore della varianza in ciascun gruppo: se le varianze sono diverse cade un requisito essenziale per la validità dell'anova Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 28
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 29 Posso quindi calcolare gli addendi alle sommatorie per il calcolo della varianza tra gruppi ed entro gruppi. Questi addendi corrispondono alle devianze. ( ) 1 1 2 2 = k x x n S k k k b ( ) k n S n S k k k w = 2 1 2 1
mediagruppo - n media gruppo mediagenerale Devianza tra 10 5,445 0,8013 6,4214 10 3,999-0,6447 4,1560 10 4,487-0,1567 0,2454 media totale Numero gruppi 4,6434 3 S 2 b = k 1 n k ( x x) k k 1 2 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 30
n varianza nel gruppo Devianza entro 10 0,9525 8,5729 10 0,9443 8,4987 10 0,9501 8,5506 numero totale Numero gruppi 30 3 S 2 w = k 1 ( 1) n k n k S 2 k Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 31
Calcolo quindi la varianza tra gruppi, sommando gli addendi e dividendo per i rispettivi gradi di libertà. n media gruppo mediagruppo - mediagenerale varianza nel gruppo Devianza tra Devianza entro 10 5,445 0,8013 0,9525 6,4214 8,5729 10 3,999-0,6447 0,9443 4,1560 8,4987 10 4,487-0,1567 0,9501 0,2454 8,5506 g.l. 2 numero Numero media totale Varianza tra totale gruppi 30 4,6434 3 5,4114 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 32
Analogamente per la varianza entro gruppi n media gruppo mediagruppo - mediagenerale varianza nel gruppo Devianza tra Devianza entro 10 5,445 0,8013 0,9525 6,4214 8,5729 10 3,999-0,6447 0,9443 4,1560 8,4987 10 4,487-0,1567 0,9501 0,2454 8,5506 g.l. 27 numero Numero Varianza media totale Varianza tra totale gruppi entro 30 4,6434 3 5,4114 0,9490 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 33
e la statistica F numero Numero Varianza media totale Varianza tra totale gruppi entro 30 4,6434 3 5,4114 0,9490 F= 5,4114 / 0,9490 = 5,7024 Il numero di gradi di libertà a numeratore è: numero di gruppi-1 (in questo caso:2) Il numero di gradi di libertà a denominatore è: num. soggetti - num. gruppi (in questo caso:27) Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 34
Distribuzione F (valore della statistica F per definiti livelli di probabilità da F a ) gradi libertà (g.l.) per il numeratore g.l. denomi 2 3 4 5 6 natore 0,1 0,05 0,01 0,1 0,05 0,01 0,1 0,05 0,01 0,1 0,05 0,01 0,1 0,05 0,01 2 9,00 19,00 99,00 9,16 19,16 99,16 9,24 19,25 99,25 9,29 19,30 99,30 9,33 19,33 99,33 3 5,46 9,55 30,82 5,39 9,28 29,46 5,34 9,12 28,71 5,31 9,01 28,24 5,28 8,94 27,91 4 4,32 6,94 18,00 4,19 6,59 16,69 4,11 6,39 15,98 4,05 6,26 15,52 4,01 6,16 15,21 5 3,78 5,79 13,27 3,62 5,41 12,06 3,52 5,19 11,39 3,45 5,05 10,97 3,40 4,95 10,67 6 3,46 5,14 10,92 3,29 4,76 9,78 3,18 4,53 9,15 3,11 4,39 8,75 3,05 4,28 8,47 7 3,26 4,74 9,55 3,07 4,35 8,45 2,96 4,12 7,85 2,88 3,97 7,46 2,83 3,87 7,19 8 3,11 4,46 8,65 2,92 4,07 7,59 2,81 3,84 7,01 2,73 3,69 6,63 2,67 3,58 6,37 9 3,01 4,26 8,02 2,81 3,86 6,99 2,69 3,63 6,42 2,61 3,48 6,06 2,55 3,37 5,80 10 2,92 4,10 7,56 2,73 3,71 6,55 2,61 3,48 5,99 2,52 3,33 5,64 2,46 3,22 5,39 11 2,86 3,98 7,21 2,66 3,59 6,22 2,54 3,36 5,67 2,45 3,20 5,32 2,39 3,09 5,07 12 2,81 3,89 6,93 2,61 3,49 5,95 2,48 3,26 5,41 2,39 3,11 5,06 2,33 3,00 4,82 13 2,76 3,81 6,70 2,56 3,41 5,74 2,43 3,18 5,21 2,35 3,03 4,86 2,28 2,92 4,62 14 2,73 3,74 6,51 2,52 3,34 5,56 2,39 3,11 5,04 2,31 2,96 4,69 2,24 2,85 4,46 15 2,70 3,68 6,36 2,49 3,29 5,42 2,36 3,06 4,89 2,27 2,90 4,56 2,21 2,79 4,32 16 2,67 3,63 6,23 2,46 3,24 5,29 2,33 3,01 4,77 2,24 2,85 4,44 2,18 2,74 4,20 17 2,64 3,59 6,11 2,44 3,20 5,19 2,31 2,96 4,67 2,22 2,81 4,34 2,15 2,70 4,10 18 2,62 3,55 6,01 2,42 3,16 5,09 2,29 2,93 4,58 2,20 2,77 4,25 2,13 2,66 4,01 19 2,61 3,52 5,93 2,40 3,13 5,01 2,27 2,90 4,50 2,18 2,74 4,17 2,11 2,63 3,94 20 2,59 3,49 5,85 2,38 3,10 4,94 2,25 2,87 4,43 2,16 2,71 4,10 2,09 2,60 3,87 21 2,57 3,47 5,78 2,36 3,07 4,87 2,23 2,84 4,37 2,14 2,68 4,04 2,08 2,57 3,81 22 2,56 3,44 5,72 2,35 3,05 4,82 2,22 2,82 4,31 2,13 2,66 3,99 2,06 2,55 3,76 23 2,55 3,42 5,66 2,34 3,03 4,76 2,21 2,80 4,26 2,11 2,64 3,94 2,05 2,53 3,71 24 2,54 3,40 5,61 2,33 3,01 4,72 2,19 2,78 4,22 2,10 2,62 3,90 2,04 2,51 3,67 25 2,53 3,39 5,57 2,32 2,99 4,68 2,18 2,76 4,18 2,09 2,60 3,85 2,02 2,49 3,63 26 2,52 3,37 5,53 2,31 2,98 4,64 2,17 2,74 4,14 2,08 2,59 3,82 2,01 2,47 3,59 27 2,51 3,35 5,49 2,30 2,96 4,60 2,17 2,73 4,11 2,07 2,57 3,78 2,00 2,46 3,56 28 2,50 3,34 5,45 2,29 2,95 4,57 2,16 2,71 4,07 2,06 2,56 3,75 2,00 2,45 3,53 29 2,50 3,33 5,42 2,28 2,93 4,54 2,15 2,70 4,04 2,06 2,55 3,73 1,99 2,43 3,50 30 2,49 3,32 5,39 2,28 2,92 4,51 2,14 2,69 4,02 2,05 2,53 3,70 1,98 2,42 3,47 31 2,48 3,30 5,36 2,27 2,91 4,48 2,14 2,68 3,99 2,04 2,52 3,67 1,97 2,41 3,45 32 2,48 3,29 5,34 2,26 2,90 4,46 2,13 2,67 3,97 2,04 2,51 3,65 1,97 2,40 3,43 33 2,47 3,28 5,31 2,26 2,89 4,44 2,12 2,66 3,95 2,03 2,50 3,63 1,96 2,39 3,41 34 2,47 3,28 5,29 2,25 2,88 4,42 2,12 2,65 3,93 2,02 2,49 3,61 1,96 2,38 3,39 35 2,46 3,27 5,27 2,25 2,87 4,40 2,11 2,64 3,91 2,02 2,49 3,59 1,95 2,37 3,37 36 2,46 3,26 5,25 2,24 2,87 4,38 2,11 2,63 3,89 2,01 2,48 3,57 1,94 2,36 3,35 37 2,45 3,25 5,23 2,24 2,86 4,36 2,10 2,63 3,87 2,01 2,47 3,56 1,94 2,36 3,33 38 2,45 3,24 5,21 2,23 2,85 4,34 2,10 2,62 3,86 2,01 2,46 3,54 1,94 2,35 3,32 39 2,44 3,24 5,19 2,23 2,85 4,33 2,09 2,61 3,84 2,00 2,46 3,53 1,93 2,34 3,30 40 2,44 3,23 5,18 2,23 2,84 4,31 2,09 2,61 3,83 2,00 2,45 3,51 1,93 2,34 3,29 45 2,42 3,20 5,11 2,21 2,81 4,25 2,07 2,58 3,77 1,98 2,42 3,45 1,91 2,31 3,23 50 2,41 3,18 5,06 2,20 2,79 4,20 2,06 2,56 3,72 1,97 2,40 3,41 1,90 2,29 3,19 60 2,39 3,15 4,98 2,18 2,76 4,13 2,04 2,53 3,65 1,95 2,37 3,34 1,87 2,25 3,12 70 2,38 3,13 4,92 2,16 2,74 4,07 2,03 2,50 3,60 1,93 2,35 3,29 1,86 2,23 3,07 80 2,37 3,11 4,88 2,15 2,72 4,04 2,02 2,49 3,56 1,92 2,33 3,26 1,85 2,21 3,04 90 2,36 3,10 4,85 2,15 2,71 4,01 2,01 2,47 3,53 1,91 2,32 3,23 1,84 2,20 3,01 100 2,36 3,09 4,82 2,14 2,70 3,98 2,00 2,46 3,51 1,91 2,31 3,21 1,83 2,19 2,99 110 2,35 3,08 4,80 2,13 2,69 3,96 2,00 2,45 3,49 1,90 2,30 3,19 1,83 2,18 2,97 120 2,35 3,07 4,79 2,13 2,68 3,95 1,99 2,45 3,48 1,90 2,29 3,17 1,82 2,18 2,96 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 35
Il numero di gradi di libertà a numeratore è: numero di gruppi-1 Il numero di gradi di libertà a denominatore è: num. soggetti - num. gruppi Il valore della statistica F (2; 27 gl) corrisponde ad una probabilità < 0,01 (il valore di F (2; 27) corrispondente a p= 0,01 è: 5,49) Conclusione? Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 36
Riepilogo dei calcoli Resa Trattam n mediagruppo - media mediagenerale gruppo varianza nel gruppo Contributo del Contributo del gruppo gruppo alla alla varianza tra varianza entro 6,27 1 10 5,445 0,8013 0,9525 6,4214 8,5729 5,36 1 6,39 1 4,85 1 5,99 1 7,14 1 5,08 1 4,07 1 4,35 1 4,95 1 3,07 2 10 3,999-0,6447 0,9443 4,1560 8,4987 3,29 2 4,04 2 4,19 2 3,41 2 3,75 2 4,87 2 3,94 2 6,28 2 3,15 2 4,04 3 10 4,487-0,1567 0,9501 0,2454 8,5506 3,79 3 4,56 3 4,55 3 4,55 3 4,53 3 3,53 3 3,71 3 7 3 4,61 3 numero numero media Varianza tra Varianza entro gruppi totale totale 3 30 4,6434 5,4114 0,9490 F= 5,7024 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 37
0,05 I valori di probabilità corrispondenti alla distribuzione F si leggono tra F e Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 38
Un'avvertenza per chi usa programmi statistici La varianza entro gruppi è spesso indicata come: MS (Mean Sum Squares o Scarto Quadratico Medio) within groups oppure Error MS La varianza tra gruppi è spesso indicata come: MS between groups oppure Effect MS Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 39
Questo è l'output di XLstats, per i dati usati nell'esempio H 0 : All population means (of resa) are equal H 1 : Not all population means (of resa) are equal p-value = 0,008594 ANOVA Table Source DF SS MS F trattam. 2 10,82275 5,411373 5,702374 Error 27 25,62215 0,948969 Total 29 36,4449 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 40
La devianza entro gruppi è spesso indicata come: SS (Sum of Squares o Somma degli Scarti Quadratici) within groups oppure Error SS La devianza tra gruppi è spesso indicata come: SS between groups oppure Effect SS La devianza totale è spesso indicata come: SS Total Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 41
H 0 : All population means (of resa) are equal H 1 : Not all population means (of resa) are equal p-value = 0,008594 ANOVA Table Source DF SS MS F trattam. 2 10,82275 5,411373 5,702374 Error 27 25,62215 0,948969 Total 29 36,4449 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 42
MS = SS / DF Varianza = Devianza / Gradi_libertà H 0 : All population means (of resa) are equal H 1 : Not all population means (of resa) are equal p-value = 0,008594 ANOVA Table Source DF SS MS F trattam. 2 10,82275 5,411373 5,702374 Error 27 25,62215 0,948969 Total 29 36,4449 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 43
Altri testi suggeriscono di calcolare la devianza totale e la devianza entro gruppi, ricavando quindi la devianza tra gruppi. Viene utilizzata l'equazione fondamentale dell'analisi della varianza. Devianza totale - devianza entro gruppi = devianza tra gruppi Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 44
Giunti a questo punto, vogliamo sapere quali sono i gruppi diversi tra loro. Sono possibili diversi confronti; gruppo 1 vs. gruppo 2 gruppo 2 vs. gruppo 3 gruppo 1 vs. gruppo 3 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 45
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 46
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 47
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 48
Se conduciamo tutti questi confronti la probabilità che almeno uno diventi significativo solo per effetto del caso è numero confronti p(almeno 1) = 1 - p(nessuno) = 1- p(non_signif) nel caso di un errore di primo tipo al 5% abbiamo = 1 - (0,95) numero confronti Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 49
nel caso di 5 confronti otteniamo: = 1 - (0,95) 5 = 1-0,774 = 0,226 L'errore di primo tipo complessivo (che almeno uno dei confronti dia risultato significativo solo per effetto del caso) è 22,6% Per ovviare questo inconveniente Bonferroni ha proposto la seguente correzione: α ' = α /numero_confronti La soglia di rifiuto dell'ipotesi nulla viene quindi fissata a α / numero_confronti Il numero di confronti è il numero di confronti che si intende effettuare, come pianificato nel disegno dell'analisi statistica Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 50
I confronti sono condotti usando il test t per il confronto tra le medie di due campioni indipendenti. Nella lettura del valore di p viene applicata la correzione di Bonferroni. Riportiamo i risultati dei calcoli eseguiti con il programma XLstats. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 51
Tests for comparing two categories Categories Cat. 1: b Cat. 2: c Two-Sample t-tests (Differences Between Means, µ) Sample Data n 1 10 n 2 10 X1 3,999 X 2 4,487 s 1 0,97175 s 2 0,974714 Assume equal standard deviations X1 X 2-0,488 SE Difference 0,435243 Hypothesis Tests Confidence Intervals H 0 : µ 1 - µ 2 =0 for µ 1 - µ 2 Alternative > < Type (2,U,L) 2 Level 0,95 H 1 : µ 1 - µ 2 0 ME Lower Upper T -1,121212 0,918284-1,406284 0,430284 DF 17 p-value = 0,277786 Power Analysis Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 52
Tests for comparing two categories Categories Cat. 1: a Cat. 2: c Two-Sample t-tests (Differences Between Means, µ) Sample Data n 1 10 n 2 10 X1 5,445 X 2 4,487 s 1 0,975981 s 2 0,974714 Assume equal standard deviations X1 X 2 0,958 SE Difference 0,436189 Hypothesis Tests Confidence Intervals H 0 : µ 1 - µ 2 =0 for µ 1 - µ 2 Alternative > < Type (2,U,L) 2 Level 0,95 H 1 : µ 1 - µ 2 0 ME Lower Upper T 2,196297 0,920279 0,037721 1,878279 DF 17 p-value = 0,042231 Power Analysis Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 53
Tests for comparing two categories Categories Cat. 1: a Cat. 2: b Two-Sample t-tests (Differences Between Means, µ) Sample Data n 1 10 n 2 10 X1 5,445 X 2 3,999 s 1 0,975981 s 2 0,97175 Assume equal standard deviations X1 X 2 1,446 SE Difference 0,435527 Hypothesis Tests Confidence Intervals H 0 : µ 1 - µ 2 =0 for µ 1 - µ 2 Alternative > < Type (2,U,L) 2 Level 0,95 H 1 : µ 1 - µ 2 0 ME Lower Upper T 3,320116 0,918883 0,527117 2,364883 DF 17 p-value = 0,00405 Power Analysis Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 54
Conclusioni? Quali dei tre confronti sono significativi? Se siamo interessati ad un errore α complessivo < 0,05 ed applichiamo la correzione di Bonferroni dovremo considerare solo in confronti il cui valore di p è < 0,05 / 3 p < 0,05 / 3 p < 0,0167 a vs. b -> rifiuto H0 a vs. c -> non rifiuto H0 b vs. c -> non rifiuto H0 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 55
Approfondimento sugli errori conseguenti all'uso dell'anova quando i tre gruppi hanno diverse varianze In questo esempio la varianza è uguale nei tre gruppi. In simili situazioni la probabilità di rifiutare l'ipotesi nulla in assenza di differenza nella media dei tre gruppi è simile al valore nominale (alpha o probabilità dell'errore di primo tipo). Results of 1000 Replication Experiment alpha =.05 alpha =.01 Reject Null Hypothesis 5,6% 0,8% Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 56
In questo esempio la varianza è diversa nei tre gruppi. In simili situazioni la probabilità di rifiutare l'ipotesi nulla in assenza di differenza nella media dei tre gruppi è sistematicamente diversa dal valore nominale. Results of 1000 Replication Experiment alpha =.05 alpha =.01 Reject Null Hypothesis 8,2% 2,0% Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 57
In questo esempio i tre gruppi hanno la stessa varianza e tre medie diverse. Qui l'analisi della varianza è appropriata Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 58
Approfondimento sulla simulazione di analisi della varianza Immaginiamo di condurre un esperimento ripetuto 1000 volte con campioni tratti dalla stessa popolazione: la distribuzione delle medie campionarie. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 59
la distribuzione della statistica F. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 60
Il numero di campioni che avrebbe portato al rifiuto dell'ipotesi nulla. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 61
Le corrispondenti immagini nel caso di campioni da tre diverse popolazioni Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 62
Esercizi dal testo p 226 n 2 p 226 n 4 p 226 n 6 p 226 n 7 p 226 n 8 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi della varianza ad 1 criterio di classificazione 63