L ANALISI DELLA VARIANZA A RANGHI AD UNA VIA DI KRUSKAL-WALLIS Quando le assunzioni per l analisi della varianza parametrica non sono soddisfatte si può ricorrere ad una alternativa non parametrica per valutare i risultati di una sperimentazione o di uno studio osservazionale: L analisi della varianza a ranghi ad una via di Kruskal-Wallis. L analisi della varianza a ranghi ad una via di Kruskal-Wallis si applica quindi quando le popolazioni dalle quali sono stati estratti i campioni non sono normali, non hanno varianza uguale o quando i dati da analizzare non sono continui ma ordinali (vedi variabili qualitative scala di misurazione ordinale) e quindi l analisi della varianza parametrica non è applicabile. Questo test necessita l attribuzione di ranghi al set di dati, tiene conto della numerosità totale e delle unità sperimentali dei singoli trattamenti, e procede con il calcolo di una statistica H i cui valori si confrontano con un valore critico in rapporto ad una valore alfa di significatività. k H= 12/ n(n+1) [ J = R 2 1 j /n j] 3(n+1) Dove k = numero dei campioni; nj = numero di osservazioni dell j-esimo campione; n= numero totale delle osservazioni; R j = somma ranghi dell j-esimo campione Assunzioni: campioni indipendenti, livello di misurazione almeno ordinale Ipotesi H0= i valori centrali delle popolazioni (campioni-livelli di trattamento) sono uguali HA= almeno una delle popolazioni ha valori più elevati di un'altra popolazione
Esempio- 1 Utilizzo i dati dell esempio anova1.2 Daniel nella ipotesi che le assunzioni non siano soddisfatte (es. varianza non uguale) Variabile risposta= numero di batteri (Log cfu/ml di polmone omogeneizzato) nelle vie aeree Variabile trattamento= tipo di antibiotico utilizzato Unità sperimentale= singoli individui (topi femmina) trattati TRATTAMENTO 1 Controllo 2 Amoxicillina 50 3 Eritromicina 50 4 Temafloxacina 50 5 Ofloxacina 100 6 Ciprofloxacina 100 8.80 2.60 2.60 2.60 7.30 7.86 8.60 2.60 2.60 2.60 5.30 4.60 8.10 2.60 2.60 2.60 7.48 6.45 8.40 8.80 H0= i valori centrali delle popolazioni (campioni-livelli di trattamento) sono uguali HA= almeno una delle popolazioni ha valori più elevati di un'altra popolazione Procedura 1) Raggruppare i dati-unità sperimentali in due colonne rispettivamente 1 per i valori della la variabile risposta ed 1 per i valori-livelli della variabile trattamento, come nella preparazione dei dati per le analisi in con il programma R o STATA: var.risposta var trattamento 8.80 1 8.60 1 8.10 1 8.40 1 8.80 1 2.60 2 2.60 2 2.60 2 2.60 3 2.60 3 2.60 3 2.60 4 2.60 4 2.60 4 7.30 5 5.30 5 7.48 5 7.86 6 4.60 6 6.45 6 A questo livello i dati sono analizzabili con il programmi R o STATA. Per esigenze didattiche e di esercizio procediamo con la procedura punto per punto.
2) Ordinare i dati secondo i valori crescenti della variabile risposta, aggiungere una colonna con valori numerici sequenziali da 1 ad n che aiuta per i passaggi successivi, e quindi stabilire il rango dei singoli valori della var trattamento riportandolo in una ulteriore colonna (vedi criterio di attribuzione dei ranghi) n var.risposta var trattamento rank 1 2.60 2 5 2 2.60 2 5 3 2.60 2 5 4 2.60 3 5 5 2.60 3 5 6 2.60 3 5 7 2.60 4 5 8 2.60 4 5 9 2.60 4 5 10 4.60 6 10 11 5.30 5 11 12 6.45 6 12 13 7.30 5 13 14 7.48 5 14 15 7.86 6 15 16 8.10 1 16 17 8.40 1 17 18 8.60 1 18 19 8.80 1 19.5 20 8.80 1 19.5 In questo caso le prime nove osservazioni della variabile risposta hanno valori uguali quindi il rango è uguale per tutte e nove e pari alla media degli n valori (1+2+3+4+5+6+7+8+9)/9 =5; le ultime 2 osservazioni della variabile risposta hanno valori uguali quindi il rango è uguale per tutte e due e pari alla media degli n valori (19+20)/2 =19.5 3) Calcolare il totale somma dei ranghi R j per ogni livello della variabile trattamento (campione), annotando il rispettivo numero n j delle osservazioni; in questo esempio: Var trattamento n j numero di osservazioni R j somma dei ranghi 1 5 90 2 3 15 3 3 15 4 3 15 5 3 38 6 3 37
k 5) Applicare la formula H= 12/ n(n+1) [ J = R 2 1 j /n j] 3(n+1) dove k= numero dei campioni, nj= numero delle osservazioni del j-esimo campione, n= numero totale delle osservazioni, R j = la somma ranghi del j-esimo campione in questo caso H = 12/(20*21) * [(90) 2 /5 + (15) 2 /3 + (15) 2 /3 + (15) 2 /3 + (38) 2 /3 + (37) 2 /3] 3*(20+1) ) H = (0.028 * 2782.667) 63 = 16.504 6)Valutare il valore di H e quindi i risultati del test confrontandolo con un valore critico identificato dal un valore di significatività alfa e dalla numerosità dei dati e dei trattamenti: Se ci sono più di 3 campioni (livelli della variabile trattamento) come i questo caso o più di 5 osservazioni in uno più campioni si utilizza la tavola χ 2 chi quadro con k-1 gradi di libertà. Se ci sono 3 campioni (livelli della variabile trattamento) ed un massimo di 5 osservazioni in ogni campione si utilizza un apposita tavola della variabile H che riporta specifici valori per ogni combinazionedi n 1,n 2, n 3. Il nostro esempio ha più di 3 campioni (livelli della variabile trattamento) quindi si ricorre alla tavola χ 2 chi quadro per alfa = 0.05 e 5 ( k-1) gradi di libertà, valore critico = 11.07. Il valore di H = 16.504 è > di 11.07 e quindi rifiuto H0 ed accetto Ha
Esempio 2 Kruskal-Wallis Utilizzo i dati dell esempio anova1.1 Daniel nella ipotesi che le assunzioni non siano soddisfatte (es. varianza non uguale) Variabile risposta= concentrazione sierica progesterone ng/dl Variabile trattamento= tipo di trattamento effettuato Unità sperimentale= singoli individui (cani) trattati TRATTAMENTO 1 Non trattati 2 Estrogeno 3 Progesterone 4 Estrogeno +Progesterone 117 440 605 2664 124 264 626 2078 40 221 385 3584 88 136 475 1540 40 1840 H0= i valori centrali delle popolazioni (campioni-livelli di trattamento) sono uguali HA= almeno una delle popolazioni ha valori più elevati di un'altra popolazione Alfa = 0.05, H critico per dati con 3 trattamenti e n > 5 osservazioni, vedo tavola χ 2 chi quadro per alfa = 0.05 e 4 ( k-1) gradi di libertà = 7.81 Dati ordinati in colonne ed assegnazione dei ranghi unità sper. var. risposta var trattamento rank 1 40 1 1.5 2 40 1 1.5 3 88 1 3 4 117 1 4 5 124 1 5 6 136 2 6 7 221 2 7 8 264 2 8 9 385 3 9 10 440 2 10 11 475 3 11 12 605 3 12 13 626 3 13 14 1540 4 14 15 2078 4 16 16 2664 4 17 17 3584 4 18 18 1840 4 15
Somma ranghi e numero di osservazioni Var trattamento n j numero di osservazioni R j somma dei ranghi 1 5 15 2 4 31 3 4 45 4 5 80 k H= 12/ n(n+1) [ J = 1 R 2 j /n j] 3(n+1) H = 12/(18*19) * [(15) 2 /5 + (31) 2 /4 + (45) 2 /4 + (80) 2 /5] 3*(18+1) ) H = (0.035 * 2071.5) 57 = 15.684 Il valore di H = 15.684 è > di 7.81 e quindi rifiuto H0 ed accetto Ha
Esempio 3 Kruskal-Wallis Utilizzo i dati dell esempio anova1.10 nella ipotesi che le assunzioni non siano soddisfatte (es. distribuzione non normale) Variabile risposta= contenuto nucleare di DNA in pg Variabile trattamento= area geografica diversa Unità sperimentale= singoli animali misurati TRATTAMENTO Area 1 Area 2 Area 3 2.98 3.33 2.95 3.15 2.86 3.05 3.5 3.12 3.42 2.89 3.02 2.9 3.05 2.98 2.87 3.15 3.12 H0= i valori centrali delle popolazioni (campioni-livelli di trattamento) sono uguali HA= almeno una delle popolazioni ha valori più elevati di un'altra popolazione Alfa = 0.05, H critico per dati con 3 trattamenti e n > 5 osservazioni, vedo tavola χ 2 chi quadro per alfa = 0.05 e 2 ( k-1) gradi di libertà = 5.99 Dati ordinati in colonne ed assegnazione dei ranghi n var risposta var trattamento rank 1 2.86 2 1 2 2.87 3 2 3 2.89 1 3 4 2.9 3 4 5 2.95 3 5 6 2.98 1 6.5 7 2.98 2 6.5 8 3.02 2 8 9 3.05 1 9.5 10 3.05 3 9.5 11 3.12 2 11.5 12 3.12 3 11.5 13 3.15 1 13.5 14 3.15 1 13.5 15 3.33 2 15 16 3.42 3 16 17 3.5 1 17
Somma ranghi e numero di osservazioni Var trattamento n j numero di osservazioni R j somma dei ranghi 1 6 63 2 5 42 3 6 48 k H= 12/ n(n+1) [ J = 1 R 2 j /n j] 3(n+1) H = 12/(17*18) * [(63) 2 /6 + (42) 2 /5 + (48) 2 /6] 3*(17+1) ) H = (0.03921 * 1398.3) 54 = 0.827 Il valore di H = 0.827 è < di 5.99 e quindi accetto H0 e rifiuto Ha
Esempio 4 Kruskal-Wallis Siano i seguenti dati di un esperimento generico con tre trattamenti per cinque soggetti a trattamento, totale quindici, e come variabile risposta una variabile misurata su scala ordinale, siano le assunzioni della anova non applicabili. Sia alfa = 0.05. I trattamenti hanno effetti diversi? Variabile risposta = variabile scala ordinale, es indice punteggio Variabile trattamento = tre trattamenti-condizioni diverse Unità sperimentale= singoli individui misurati TA TB TC 3 2 2 3 2 3 2 3 3 3 1 3 1 3 1 H0= i valori centrali delle popolazioni (campioni-livelli di trattamento) sono uguali HA= almeno una delle popolazioni ha valori più elevati di un'altra popolazione Alfa = 0.05, H critico per dati con 3 trattamenti e n = o < 5 osservazioni: vedo tavola specifica K-Wallis per alfa = 0.05 e n 1 =5, n 2 =5, n 3 =5. H = 5.70 Dati ordinati in colonne ed assegnazione dei ranghi Var Var n risposta trattamento rank 1 1 1 2 2 1 2 2 3 1 3 2 4 2 1 5.5 5 2 2 5.5 6 2 2 5.5 7 2 3 5.5 8 3 1 11.5 9 3 1 11.5 10 3 1 11.5 11 3 2 11.5 12 3 2 11.5 13 3 3 11.5 14 3 3 11.5 15 3 3 11.5 Notare come gli uguali valori della variabile risposta hanno gli stessi ranghi, ottenuti dalla media dei rispettivi n.
Somma ranghi e numero di osservazioni Var trattamento n j numero di osservazioni R j somma dei ranghi 1 5 42 2 5 36 3 5 42 k H= 12/ n(n+1) [ J = R 2 1 j /n j] 3(n+1) H = 12/(15*16) * [(42) 2 /5 + (36) 2 /5 + (42) 2 /5] 3*(15+1) ) H = (0.05 * 964.8) 48 = 0.24 Il valore di H = 0.24 è < di 5.70 valore critico e quindi accetto H0 e rifiuto Ha ovvero i trattamenti non hanno effetti diversi.