R 2 1 j /n j] 3(n+1)

Documenti analoghi
TEST NON PARAMETRICO DI MANN-WHITNEY

Mann-Whitney esercizio 1 Non n esposti esposti

CONFRONTI MULTIPLI TEST HSD DI TUKEY

VARIETÀ. zona geografica A B C D

Università degli Studi di Padova. Corso di Laurea in Medicina e Chirurgia - A.A

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

Inferenza statistica Donata Rodi 04/10/2016

Analisi della varianza

Analisi della varianza

Premessa: la dipendenza in media

Esercizi di statistica

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson Apogeo

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson. Casa editrice: Pearson

Inferenza statistica II parte

Scale di Misurazione Lezione 2

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 15: Metodi non parametrici

Il confronto fra medie

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

Facoltà di Economia - Università di Pavia Simulazione Prova Scritta di Statistica Sociale 19 dicembre 2012

UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE. a.a.

standardizzazione dei punteggi di un test

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative

Analisi della varianza

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

Contenuti: Capitolo 14 del libro di testo

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI

TECNICHE DI ANALISI DEI DATI

Statistica nelle applicazioni sanitarie

Argomenti della lezione:

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI

Indici di tendenza centrale Media, mediana e moda.

STATISTICA AZIENDALE Modulo Controllo di Qualità

viii Indice generale

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Ulteriori applicazioni del test del Chi-quadrato (χ 2 )

CORRELAZIONE NON PARAMETRICA

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

Elementi di Psicometria con Laboratorio di SPSS 1

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

Criteri di Valutazione della scheda (solo a carattere indicativo)

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Metodi e tecniche di analisi dei dati nella ricerca psico-educativa Parte III

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

Confronto tra due popolazioni Lezione 6

Transcript:

L ANALISI DELLA VARIANZA A RANGHI AD UNA VIA DI KRUSKAL-WALLIS Quando le assunzioni per l analisi della varianza parametrica non sono soddisfatte si può ricorrere ad una alternativa non parametrica per valutare i risultati di una sperimentazione o di uno studio osservazionale: L analisi della varianza a ranghi ad una via di Kruskal-Wallis. L analisi della varianza a ranghi ad una via di Kruskal-Wallis si applica quindi quando le popolazioni dalle quali sono stati estratti i campioni non sono normali, non hanno varianza uguale o quando i dati da analizzare non sono continui ma ordinali (vedi variabili qualitative scala di misurazione ordinale) e quindi l analisi della varianza parametrica non è applicabile. Questo test necessita l attribuzione di ranghi al set di dati, tiene conto della numerosità totale e delle unità sperimentali dei singoli trattamenti, e procede con il calcolo di una statistica H i cui valori si confrontano con un valore critico in rapporto ad una valore alfa di significatività. k H= 12/ n(n+1) [ J = R 2 1 j /n j] 3(n+1) Dove k = numero dei campioni; nj = numero di osservazioni dell j-esimo campione; n= numero totale delle osservazioni; R j = somma ranghi dell j-esimo campione Assunzioni: campioni indipendenti, livello di misurazione almeno ordinale Ipotesi H0= i valori centrali delle popolazioni (campioni-livelli di trattamento) sono uguali HA= almeno una delle popolazioni ha valori più elevati di un'altra popolazione

Esempio- 1 Utilizzo i dati dell esempio anova1.2 Daniel nella ipotesi che le assunzioni non siano soddisfatte (es. varianza non uguale) Variabile risposta= numero di batteri (Log cfu/ml di polmone omogeneizzato) nelle vie aeree Variabile trattamento= tipo di antibiotico utilizzato Unità sperimentale= singoli individui (topi femmina) trattati TRATTAMENTO 1 Controllo 2 Amoxicillina 50 3 Eritromicina 50 4 Temafloxacina 50 5 Ofloxacina 100 6 Ciprofloxacina 100 8.80 2.60 2.60 2.60 7.30 7.86 8.60 2.60 2.60 2.60 5.30 4.60 8.10 2.60 2.60 2.60 7.48 6.45 8.40 8.80 H0= i valori centrali delle popolazioni (campioni-livelli di trattamento) sono uguali HA= almeno una delle popolazioni ha valori più elevati di un'altra popolazione Procedura 1) Raggruppare i dati-unità sperimentali in due colonne rispettivamente 1 per i valori della la variabile risposta ed 1 per i valori-livelli della variabile trattamento, come nella preparazione dei dati per le analisi in con il programma R o STATA: var.risposta var trattamento 8.80 1 8.60 1 8.10 1 8.40 1 8.80 1 2.60 2 2.60 2 2.60 2 2.60 3 2.60 3 2.60 3 2.60 4 2.60 4 2.60 4 7.30 5 5.30 5 7.48 5 7.86 6 4.60 6 6.45 6 A questo livello i dati sono analizzabili con il programmi R o STATA. Per esigenze didattiche e di esercizio procediamo con la procedura punto per punto.

2) Ordinare i dati secondo i valori crescenti della variabile risposta, aggiungere una colonna con valori numerici sequenziali da 1 ad n che aiuta per i passaggi successivi, e quindi stabilire il rango dei singoli valori della var trattamento riportandolo in una ulteriore colonna (vedi criterio di attribuzione dei ranghi) n var.risposta var trattamento rank 1 2.60 2 5 2 2.60 2 5 3 2.60 2 5 4 2.60 3 5 5 2.60 3 5 6 2.60 3 5 7 2.60 4 5 8 2.60 4 5 9 2.60 4 5 10 4.60 6 10 11 5.30 5 11 12 6.45 6 12 13 7.30 5 13 14 7.48 5 14 15 7.86 6 15 16 8.10 1 16 17 8.40 1 17 18 8.60 1 18 19 8.80 1 19.5 20 8.80 1 19.5 In questo caso le prime nove osservazioni della variabile risposta hanno valori uguali quindi il rango è uguale per tutte e nove e pari alla media degli n valori (1+2+3+4+5+6+7+8+9)/9 =5; le ultime 2 osservazioni della variabile risposta hanno valori uguali quindi il rango è uguale per tutte e due e pari alla media degli n valori (19+20)/2 =19.5 3) Calcolare il totale somma dei ranghi R j per ogni livello della variabile trattamento (campione), annotando il rispettivo numero n j delle osservazioni; in questo esempio: Var trattamento n j numero di osservazioni R j somma dei ranghi 1 5 90 2 3 15 3 3 15 4 3 15 5 3 38 6 3 37

k 5) Applicare la formula H= 12/ n(n+1) [ J = R 2 1 j /n j] 3(n+1) dove k= numero dei campioni, nj= numero delle osservazioni del j-esimo campione, n= numero totale delle osservazioni, R j = la somma ranghi del j-esimo campione in questo caso H = 12/(20*21) * [(90) 2 /5 + (15) 2 /3 + (15) 2 /3 + (15) 2 /3 + (38) 2 /3 + (37) 2 /3] 3*(20+1) ) H = (0.028 * 2782.667) 63 = 16.504 6)Valutare il valore di H e quindi i risultati del test confrontandolo con un valore critico identificato dal un valore di significatività alfa e dalla numerosità dei dati e dei trattamenti: Se ci sono più di 3 campioni (livelli della variabile trattamento) come i questo caso o più di 5 osservazioni in uno più campioni si utilizza la tavola χ 2 chi quadro con k-1 gradi di libertà. Se ci sono 3 campioni (livelli della variabile trattamento) ed un massimo di 5 osservazioni in ogni campione si utilizza un apposita tavola della variabile H che riporta specifici valori per ogni combinazionedi n 1,n 2, n 3. Il nostro esempio ha più di 3 campioni (livelli della variabile trattamento) quindi si ricorre alla tavola χ 2 chi quadro per alfa = 0.05 e 5 ( k-1) gradi di libertà, valore critico = 11.07. Il valore di H = 16.504 è > di 11.07 e quindi rifiuto H0 ed accetto Ha

Esempio 2 Kruskal-Wallis Utilizzo i dati dell esempio anova1.1 Daniel nella ipotesi che le assunzioni non siano soddisfatte (es. varianza non uguale) Variabile risposta= concentrazione sierica progesterone ng/dl Variabile trattamento= tipo di trattamento effettuato Unità sperimentale= singoli individui (cani) trattati TRATTAMENTO 1 Non trattati 2 Estrogeno 3 Progesterone 4 Estrogeno +Progesterone 117 440 605 2664 124 264 626 2078 40 221 385 3584 88 136 475 1540 40 1840 H0= i valori centrali delle popolazioni (campioni-livelli di trattamento) sono uguali HA= almeno una delle popolazioni ha valori più elevati di un'altra popolazione Alfa = 0.05, H critico per dati con 3 trattamenti e n > 5 osservazioni, vedo tavola χ 2 chi quadro per alfa = 0.05 e 4 ( k-1) gradi di libertà = 7.81 Dati ordinati in colonne ed assegnazione dei ranghi unità sper. var. risposta var trattamento rank 1 40 1 1.5 2 40 1 1.5 3 88 1 3 4 117 1 4 5 124 1 5 6 136 2 6 7 221 2 7 8 264 2 8 9 385 3 9 10 440 2 10 11 475 3 11 12 605 3 12 13 626 3 13 14 1540 4 14 15 2078 4 16 16 2664 4 17 17 3584 4 18 18 1840 4 15

Somma ranghi e numero di osservazioni Var trattamento n j numero di osservazioni R j somma dei ranghi 1 5 15 2 4 31 3 4 45 4 5 80 k H= 12/ n(n+1) [ J = 1 R 2 j /n j] 3(n+1) H = 12/(18*19) * [(15) 2 /5 + (31) 2 /4 + (45) 2 /4 + (80) 2 /5] 3*(18+1) ) H = (0.035 * 2071.5) 57 = 15.684 Il valore di H = 15.684 è > di 7.81 e quindi rifiuto H0 ed accetto Ha

Esempio 3 Kruskal-Wallis Utilizzo i dati dell esempio anova1.10 nella ipotesi che le assunzioni non siano soddisfatte (es. distribuzione non normale) Variabile risposta= contenuto nucleare di DNA in pg Variabile trattamento= area geografica diversa Unità sperimentale= singoli animali misurati TRATTAMENTO Area 1 Area 2 Area 3 2.98 3.33 2.95 3.15 2.86 3.05 3.5 3.12 3.42 2.89 3.02 2.9 3.05 2.98 2.87 3.15 3.12 H0= i valori centrali delle popolazioni (campioni-livelli di trattamento) sono uguali HA= almeno una delle popolazioni ha valori più elevati di un'altra popolazione Alfa = 0.05, H critico per dati con 3 trattamenti e n > 5 osservazioni, vedo tavola χ 2 chi quadro per alfa = 0.05 e 2 ( k-1) gradi di libertà = 5.99 Dati ordinati in colonne ed assegnazione dei ranghi n var risposta var trattamento rank 1 2.86 2 1 2 2.87 3 2 3 2.89 1 3 4 2.9 3 4 5 2.95 3 5 6 2.98 1 6.5 7 2.98 2 6.5 8 3.02 2 8 9 3.05 1 9.5 10 3.05 3 9.5 11 3.12 2 11.5 12 3.12 3 11.5 13 3.15 1 13.5 14 3.15 1 13.5 15 3.33 2 15 16 3.42 3 16 17 3.5 1 17

Somma ranghi e numero di osservazioni Var trattamento n j numero di osservazioni R j somma dei ranghi 1 6 63 2 5 42 3 6 48 k H= 12/ n(n+1) [ J = 1 R 2 j /n j] 3(n+1) H = 12/(17*18) * [(63) 2 /6 + (42) 2 /5 + (48) 2 /6] 3*(17+1) ) H = (0.03921 * 1398.3) 54 = 0.827 Il valore di H = 0.827 è < di 5.99 e quindi accetto H0 e rifiuto Ha

Esempio 4 Kruskal-Wallis Siano i seguenti dati di un esperimento generico con tre trattamenti per cinque soggetti a trattamento, totale quindici, e come variabile risposta una variabile misurata su scala ordinale, siano le assunzioni della anova non applicabili. Sia alfa = 0.05. I trattamenti hanno effetti diversi? Variabile risposta = variabile scala ordinale, es indice punteggio Variabile trattamento = tre trattamenti-condizioni diverse Unità sperimentale= singoli individui misurati TA TB TC 3 2 2 3 2 3 2 3 3 3 1 3 1 3 1 H0= i valori centrali delle popolazioni (campioni-livelli di trattamento) sono uguali HA= almeno una delle popolazioni ha valori più elevati di un'altra popolazione Alfa = 0.05, H critico per dati con 3 trattamenti e n = o < 5 osservazioni: vedo tavola specifica K-Wallis per alfa = 0.05 e n 1 =5, n 2 =5, n 3 =5. H = 5.70 Dati ordinati in colonne ed assegnazione dei ranghi Var Var n risposta trattamento rank 1 1 1 2 2 1 2 2 3 1 3 2 4 2 1 5.5 5 2 2 5.5 6 2 2 5.5 7 2 3 5.5 8 3 1 11.5 9 3 1 11.5 10 3 1 11.5 11 3 2 11.5 12 3 2 11.5 13 3 3 11.5 14 3 3 11.5 15 3 3 11.5 Notare come gli uguali valori della variabile risposta hanno gli stessi ranghi, ottenuti dalla media dei rispettivi n.

Somma ranghi e numero di osservazioni Var trattamento n j numero di osservazioni R j somma dei ranghi 1 5 42 2 5 36 3 5 42 k H= 12/ n(n+1) [ J = R 2 1 j /n j] 3(n+1) H = 12/(15*16) * [(42) 2 /5 + (36) 2 /5 + (42) 2 /5] 3*(15+1) ) H = (0.05 * 964.8) 48 = 0.24 Il valore di H = 0.24 è < di 5.70 valore critico e quindi accetto H0 e rifiuto Ha ovvero i trattamenti non hanno effetti diversi.