METODI NON PARAMETRICI

Транскрипт

1 METODI NON PARAMETRICI Sommario Test su una frequenza relativa... 2 Applicazione con il software R... 4 Test di omogeneità... 5 Applicazione con il software R... 6 Test per controllare una ipotesi sulla tendenza centrale di un carattere in una popolazione... 7 Il test dei segni... 7 Applicazione con il software R... 9 Il test dei ranghi segnati (o di Wilcoxon) Applicazione con il software R Test per confrontare la tendenza centrale di un carattere in due popolazioni indipendenti Test della mediana Applicazione con il software R Test di Wilcoxon-Mann-Whitney Applicazione con il software R

2 METODI NON PARAMETRICI Sia X la variabile su cui si vuole fare inferenza a partire da un campione C. I metodi di inferenza parametrici si basano sulla specificazione di un modello distributivo per la variabile su cui si vuole fare inferenza; in particolare, tali metodi richiedono che sia nota la forma distributiva della popolazione di riferimento per trovare la forma distributiva della statistica test campionaria (ad esempio il test t per la media, che richiede la normalità). I metodi di inferenza non parametrici (o distribution free methods) invece non sono vincolati dalla specificazione di un modello distributivo parametrico e sono validi a prescindere dalla numerosità n del campione. Test su una frequenza relativa 1 Supponiamo di voler fare inferenza su una particolare caratteristica di una popolazione virtualmente infinita (es. pazienti sofferenti di emicrania). Ciò a cui si è interessati è la probabilità p che il farmaco A sia preferito al farmaco B. L ipotesi nulla è dunque H 0 : p=0.5 e supponiamo di aver osservato il dato empirico f=8/10. Il test che viene adoperato è il test binomiale. In generale, dati un campione C di numerosità n, composto dai risultati di n prove di Bernoulli e verificato che: 1. ogni prova ammette solo due possibili esiti, classificabili come successo S e come insuccesso I; 2. la probabilità di successo resta costante da prova a prova (eg. la popolazione considerata è omogenea al suo interno rispetto alla caratteristica d interesse); 3. le n prove sono fra loro indipendenti (eg. la popolazione è virtualmente non finita) Sulla base della frequenza relativa di successo f osservata nel campione, l obiettivo è quello di sottoporre a controllo un ipotesi sull incognita probabilità di successo H 0 : p=p*. Per l assunzione 1, la variabile aleatoria associata all i-esima unità statistica è così definita: 1 successo 0 insuccesso Per l assunzione 2, 1 e 0 1,. Dalle assunzioni 2 e 3: ~, Il dato osservato f=0.8 è una realizzazione di ~,. 1 Non esiste l alternativa parametrica a questo test. 2

3 Ciò che caratterizza la veridicità di H 0 è la distribuzione della frequenza relativa sotto H 0. Occorre valutare se ciò che si è osservato abbia una probabilità di verificarsi sufficientemente grande da giudicare vera (o meno) H 0. Il p-value è la probabilità di osservare sotto H 0 esiti uguali o più estremi a quello osservato. Nell esempio considerato Se il test è bilaterale e si vuole valutare ad un livello di significatività 0.05, si ha /2; per cui non si ha sufficiente evidenza empirica tale da confutare l ipotesi nulla. Comportamento asintotico Per, si ha che ~, 1, e quindi Il p-value: 1 ~, p value dato che ~, Il test Z non è altro che la versione asintotica del test binomiale. Il problema affrontato poteva esser risolto anche in un altro modo, sotto forma di distribuzione di frequenza: Osservato Atteso Per testare l ipotesi nulla si può confrontare la distribuzione empirica con quella teorica impiegando il test χ 2. Le uniche assunzioni del test χ 2 sono che n deve essere sufficientemente elevato e le frequenze teoriche devono essere 5. Riassumendo: Per testare una frequenza relativa si possono utilizzare: Test BINOMIALE: qualunque sia il valore di n Test NORMALE: per n sufficientemente elevato 3

4 Test CHI-QUADRATO: equivalente al test normale, impiegabile per n sufficientemente grande e solo con frequenze teoriche 5. Applicazione con il software R In una popolazione, l allele maggiormente diffuso viene indicato come selvatico o wild-type; gli alleli alternativi sono invece detti mutanti. Un genetista, impegnato nello studio di una determinata caratteristica, prende in esame una progenie di 9 individui. I fenotipi osservati nel collettivo sono 8 di tipo wild e 1 di tipo mutante; lo studioso, però, si aspettava un rapporto di 3:1 tra i due fenotipi e quindi si domanda se la differenza tra il fenotipo osservato e quello atteso sia o meno significativa. Indicando come successo il fenotipo mutante, si ha il seguente sistema di ipotesi: : : 1 4 La frequenza osservata f =1/9 In R il test binomiale si ottiene con la funzione binom.test: >?binom.test binom.test(x, n, p = 0.5, alternative = c("two.sided", "less", "greater"), conf.level = 0.95) Tale funzione richiede come argomenti il numero x di successi, le n prove, la probabilità dell ipotesi nulla (di default uguale a 0.5), il tipo di test (se a due code o a una coda) e il livello di confidenza. Tornando all esempio considerato: > binom.test(1,9,p=0.25,alternative="two.sided") Exact binomial test data: 1 and 9 number of successes = 1, number of trials = 9, p-value = alternative hypothesis: true probability of success is not equal to percent confidence interval: sample estimates: probability of success Il p-value è uguale a , e dunque non si rifiuta l ipotesi nulla, l esito sperimentale è compatibile con un teorico rapporto 3:1 tra i due fenotipi. Si assuma ora che il genetista abbia osservato 90 casi (invece di 9), di cui 80 con fenotipo wild e 10 con fenotipo mutante. Vediamo quindi cosa succede al test binomiale per n grande: > binom.test(10,90,p=0.25,alternative="two.sided") Exact binomial test data: 10 and 90 number of successes = 10, number of trials = 90, p-value = alternative hypothesis: true probability of success is not equal to percent confidence interval: sample estimates: 4

5 probability of success Il p-value è ora uguale a dunque l ipotesi alternativa non è rifiutata: o si è verificato un evento raro o il rapporto tra i due fenotipi è significativamente diverso da 3:1. Si può infine andare a valutare l eventuale differenza tra il p-value del test binomiale e il p-value ottenibile dal test normale Z: > Z<-(10/90-1/4)/sqrt(0.25*0.75/90) > Z [1] > pnorm(z) [1] I due valori sono leggermente diversi, ma conducono alla stessa conclusione riguardo il sistema di ipotesi. Dato però che il test binomiale è esatto, mentre quello normale fornisce un valore del p-value approssimato, è sempre preferibile usare il test binomiale anche per campioni grandi. Test di omogeneità Il test di omogeneità si utilizza per confrontare 2 o più distribuzioni uni variate e per stabilire se siano tra loro significativamente diverse. Per capire l impiego del test si consideri il seguente esempio: In due campioni di telespettatori, rispettivamente composti da 175 maschi e 230 femmine, le percentuali di coloro che hanno dichiarato di apprezzare una trasmissione sportiva in onda la domenica pomeriggio sono risultate pari a 81% per i maschi e a 77% per le femmine. Ci si chiede se il gradimento sia diverso nei due sessi. C 1 C 2 L ipotesi da testare è dunque: Soddisfatti Insoddisfatti : ma la probabilità è incognita e occorre stimarla. Per farlo si possono mettere insieme i due campioni che, sotto l ipotesi nulla, sono omogenei: Dato che è possibile costruire una tavola analoga che conterrà le frequenze attese sotto : C 1 C 2 Soddisfatti Insoddisfatti Soddisfatti C 1 C 2 Insoddisfatti

6 Confrontando le due tavole, quella della distribuzione empirica e quella della distribuzione teorica, si possono calcolare le statistiche χ 2 per i due campioni χ 2 calcolato con riferimento al campione 1 χ 2 calcolato con riferimento al campione 2 Sommando queste due statistiche si ottiene: : Sotto, se n è sufficientemente elevato e con frequenza teorica 5, ciascuna somma per ogni campione si distribuisce come un χ 2 (1). Siccome i due campioni sono indipendenti per ipotesi, anche i χ 2 dei due campioni sono indipendenti; per la proprietà di riproducibilità rispetto alla somma, la somma di variabili χ 2 indipendenti è ancora una variabile χ 2 con gradi di libertà pari alla somma degli stessi. La nuova statistica test dunque si distribuirebbe come un χ 2 (2), ma siccome i gradi di libertà diminuiscono con l introduzione di parametri stimati nella formula (e si è stimato il valore di ), i gradi di libertà sono in realtà 2-1=1. Questo test è detto test di omogeneità o χ 2 di omogeneità, e serve per confrontare due o più distribuzioni uni variate. Nel particolare caso di distribuzioni 2 2, si ha una forma semplificata del test: χ È possibile dimostrare che il test χ 2 è perfettamente uguale al quadrato del test normale per il confronto di due frequenze relative, χ 2 (1)=Z 2. Applicazione con il software R In R il test di omogeneità si ottiene con la funzione chisq.test: >?chisq.test chisq.test(x, y = NULL, correct = TRUE, p = rep(1/length(x), length(x)), rescale.p = FALSE, simulate.p.value = FALSE, B = 2000) Tale funzione richiede come argomento la matrice dei dati e un valore logico per indicare la correzione per la continuità. Vediamo di seguito il caricamento dei dati e la costruzione della distribuzione doppia con l uso del comando table: > dati<-read.table("c:\\temp\\soddisfazione.txt",header=true) > Y<-table(dati) > Y 6

7 Sesso Giudizio F M Insoddisf Soddisf > chisq.test(y,correct=false) data: Y Pearson's Chi-squared test X-squared = , df = 1, p-value = Il p-value indica che non è possibile rifiutare l ipotesi nulla, per cui le due distribuzioni possono considerarsi significativamente omogenee. Test per controllare una ipotesi sulla tendenza centrale di un carattere in una popolazione Un istituto di credito vuole aprire una nuova filiale in un quartiere periferico di una grande città, ma lo farà solo se il reddito mediano delle famiglie della zona è superiore ai 50 milioni. Per verificarlo esamina il reddito di un campione di 50 famiglie ottenendo i seguenti risultati (in milioni): I dati suggeriscono l apertura di una nuova filiale? La mediana del campione è 54, occorre però controllare se la mediana in popolazione sia significativamente maggiore di 50: H 0 : me=50 H 1 : me>50 Dato un campione costituito da n osservazioni, x 1, x 2,, x n, e verificato che 1. le variabili aleatorie x i sono tra loro stocasticamente indipendenti 2. le variabili aleatorie x i hanno la medesima mediana θ: 1 2, 1,, L obiettivo è quello di testare l ipotesi : ; a tale scopo, si considerino due strumenti: il test dei segni il test dei ranghi segnati (o test di Wilcoxon) Il test dei segni Il test dei segni è uno dei test più antichi e non lavora sui valori di X ma sui corrispondenti segni delle differenze dalla mediana. Definiamo le variabili aleatorie ψ i come 7

8 ψ 1 se 0 0 se 0 1, 2,., Si costruiscono quindi n variabili aleatorie che indicano se le osservazioni sono maggiori o minori della mediana. Per costruzione siamo costretti a tralasciare le unità statistiche che portano un valore del carattere uguale a (di conseguenza n rischia di ridursi). Caratteristiche: Le variabili sono indipendenti per ipotesi. Di conseguenza, anche le ψ sono indipendenti ψ ~ Se è vera, cioè se, allora le variabili aleatorie ψ ~, per 1,, Se si considera la variabile ψ ψ ~, Dunque sotto l ipotesi nulla, la distribuzione di probabilità delle osservazioni è nota; la statistica test che si andrà ad utilizzare è proprio ψ, che non fa altro che contare il numero di segni positivi. Il test viene quindi ricondotto ad un semplice test su una frequenza relativa (test binomiale), perché è come dire che la probabilità dei segni positivi è uguale a 0.5: Tornando all esempio di partenza: : 0.5 n=14 (una osservazione si toglie perché uguale a 50) ψ=10 (n. di osservazioni >50) Data l ipotesi nulla sopra indicata, si procede a calcolare il p-value P-value=0.09 > 0.01=α L ipotesi non viene rifiutata, la presenza di 10 valori superiori alla soglia in un campione di 14 unità statistiche rientra negli effetti dell errore di campionamento. Comportamento asintotico Sfruttando la convergenza della distribuzione binomiale alla normale per grandi campioni: ~ 0,1 Il test dei segni sfrutta solo una minima parte delle informazioni contenute nei dati, in quanto tiene conto solo della posizione sotto/sopra rispetto a ma non tiene conto della differenza, di quanto sia lontana un osservazione in termine di posizione nella graduatoria ordinata. 8

9 Applicazione con il software R Vediamo come risolvere l esempio precedente (dati sui redditi di 15 famiglie in base ai quali la banca deve decidere se aprire una nuova filiale) con l ausilio del software R. L ipotesi nulla è che il reddito mediano dei residenti nella zona sia 50. L ipotesi alternativa è che esso sia maggiore di 50. Le due ipotesi si possono riformulare in termini di probabilità di osservare un osservazione maggiore di 50, cioè probabilità di osservare un segno positivo (chiamiamo tale probabilità p+): H 0 : p+ = 1/2 H 1 : p+ > 1/2 Si inseriscono dunque i dati in R (tralasciando l unità che porta il valore 50): > x<-c(48,51,63,80,45,61,88,42,36,52,54,56,59,54) e si ricava per ciascuna osservazione l informazione sul fatto che essa sia o meno maggiore di 50: > segno.pos<-x-50>0 > segno.pos [1] FALSE TRUE TRUE TRUE FALSE TRUE TRUE FALSE FALSE TRUE TRUE [12] TRUE TRUE TRUE Si costruisce dunque la distribuzione di frequenza: > y<-table(segno.pos) > y segno.pos FALSE TRUE 4 10 e si applica infine il test binomiale > binom.test(10,14,p=0.5,alternative="g") Exact binomial test data: 10 and 14 number of successes = 10, number of trials = 14, p-value = alternative hypothesis: true probability of success is greater than percent confidence interval:

10 sample estimates: probability of success Il test dei ranghi segnati (o di Wilcoxon) Date n osservazioni X 1, X 2,,X n di un carattere continuo X e sia verificato che: 1. le variabili aleatorie X i siano fra loro stocasticamente indipendenti 2. le variabili aleatorie X i si distribuiscano simmetricamente attorno alla comune mediana θ. Anche in questo caso, l ipotesi nulla da controllare è : Al fine di comprendere la costruzione e l impiego del test si consideri il seguente esempio: Sono date n=8 osservazioni di un carattere quantitativo continuo, con distribuzione simmetrica attorno alla propria mediana θ: La statistica è la somma dei ranghi corrispondenti a segni positivi ( ranghi SEGNATI), mentre è la somma dei ranghi corrispondenti a segni negativi. Se ci si aspetterebbe che > ; le due statistiche sono legate dalla relazione quindi ragionare in termini di o è la stessa cosa. 1 2 Se invece ci si aspetterebbe che <, e se infine ci si aspetterebbe che. Wilcoxon pensò quindi di utilizzare come statistica test per decidere le sorti di. I valori riportati nelle tavole però si riferiscono al più piccolo valore fra e : min, e indicano il massimo valore che, in un campione di n unità statistiche, tale quantità può assumere per portare al rifiuto di. Comportamento asintotico È possibile dimostrare che il valore atteso e la varianza della statistica test sotto H 0 sono:

11 Per grandi campioni, il teorema centrale del limite secondo la versione di Liapurov (in cui le variabili sono indipendenti ma non identicamente distribuite) assicura la convergenza della statistica test alla distribuzione normale: ~, ~ 0,1 Applicazione con il software R Vediamo ora come risolvere l esempio precedente (dati fittizi) con l ausilio del software R. Per prima cosa si procede con l inserimento dei dati > x<-c(646,241,472,385,297,505,224,187) Il test di Wilcoxon è implementato nella funzione wilcox.test: >?wilcox.test wilcox.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, exact = NULL, correct = TRUE, conf.int = FALSE, conf.level = 0.95,...) La funzione prende come argomenti il vettore x dei dati, l ipotesi nulla sulla mediana mu e la specificazione della tipologia di ipotesi alternativa. In questo caso vogliamo valutare la coda di sinistra, e quindi il sistema d ipotesi : : 430 : 430 In R > wilcox.test(x,mu=430,alternative="l") data: x Wilcoxon signed rank test V = 11, p-value = alternative hypothesis: true location is less than 430 Dato il valore del p-value uguale a >0.05=α, l ipotesi nulla non viene rifiutata. Il valore V della statistica coincide con la somma dei ranghi corrispondenti a segni positivi. 11

12 Test per confrontare la tendenza centrale di un carattere in due popolazioni indipendenti Per confrontare le tendenze centrali in due campioni indipendenti il test che si utilizza in ambito parametrico è il test t di Student: Tale statistica test ha però alla base due assunzioni molto forti: omoschedasticità ~ in entrambe le popolazioni: ~, ~,, con Vediamo nel seguito quali possono essere le alternative non parametriche al test t. Test della mediana Si considerino due collettivi e tali che: : realizzazione di variabili aleatorie,,, indipendenti e con la stessa mediana : realizzazione di variabili aleatorie,,, indipendenti e con la stessa mediana Le variabili dei due campioni sono tra loro indipendenti (eg. non appaiati ), 1,, 1,, L ipotesi da saggiare è : Se l ipotesi nulla è vera, i due campioni provengono da 2 popolazioni omogenee rispetto alla tendenza centrale (i.e. la mediana). Per stimare si possono quindi mettere insieme i due campioni, ordinarli e individuare quindi la mediana. Se l ipotesi da testare è vera ci si aspetta che in ciascuno dei due campioni circa la metà delle osservazioni sarà superiore (o inferiore) alla mediana stimata. Se l ipotesi invece non è vera ci si aspetta una preponderanza di osservazioni superiore (o inferiore) alla mediana complessiva stimata. Di seguito viene rappresentata la situazione in forma tabellare Per costruzione perché è la mediana delle osservazioni. Ciò che occorre controllare è che non sia significativamente diverso da e che entrambi non siano significativamente diversi da. L ipotesi da testare diventa dunque: :, dove e. Messa in questo modo, è riconducibile ad un test per il confronto tra due proporzioni; per n sufficientemente grande si può utilizzare il test di omogeneità. 12

13 Applicazione con il software R Si consideri il dataset scolarita_freq.txt contenente il grado di scolarità (I,II,III,IV) delle madri di alcuni alunni e la frequenza delle loro visite volontarie a scuola, utilizzata come misura dell interesse al rendimento dei rispettivi figli. Per valutare la significatività di questa relazione si utilizza il test della mediana, costruendo la tavola 2x4 e calcolando il test di omogeneità. x<-read.table( c:\\temp\\scolarita_freq.txt,header=true) La mediana del numero di visite si ottiene: > mediana.tot<-median(x[,1]) > mediana.tot [1] 2.5 Costruiamo la distribuzione doppia delle frequenze osservate con il comando table: > y<-table(x[,1]<2.5,x[,2]) > y I II III IV FALSE TRUE Applichiamo ora il test di omogeneità > chisq.test(y) data: y Pearson's Chi-squared test X-squared = , df = 3, p-value = Non ci sono elementi sufficienti a rifiutare l ipotesi nulla e quindi per sostenere che ci sia una relazione significativa tra il grado di scolarità della madre e la frequenza di visite alla scuola. Test di Wilcoxon-Mann-Whitney Quando il carattere X è continuo, il test della mediana comporta una perdita di informazioni. Per questo motivo, in quei casi è possibile utilizzare un test alternativo: il test di Wilcoxon-Mann-Whitney. Tale test ha però delle assunzioni più restrittive rispetto al test della mediana. Per capire la sua costruzione ed il suo impiego partiamo da un esempio. 13

14 Esempio. Si è misurata la diffusione di acqua contenente trizio attraverso un tessuto della placenta in due collettivi di donne: il primo è costituito da 10 gestanti al termine della gravidanza, mentre il secondo è costituito da 5 donne esaminate dai 3 ai 6 mesi dopo l interruzione di gravidanza. I dati: Il modello alla base del test è di tipo location shift, cioè una situazione in cui il fattore che distingue i due campioni comporta unicamente una traslazione (qualora questo fattore esista) di X nel passare da una popolazione all altra, senza alterare la forma distributiva della variabile. Tale modello, oltre a presupporre che le variabili hanno la stessa mediana così pure le variabili, richiede che: 1,, siano IID, F( ) 1,, siano IID, G( ) L ipotesi da testare è: :, :, dove è il location shift, 0 Se H 0 è vera F(X)=G(X), i due campioni provengono dalla medesima popolazione (nel caso del test della mediana le due popolazioni erano omogenee rispetto alla mediana ma comunque distinte). Mettendo insieme i due campioni Se H 0 è vera ci si aspetta di trovare lo stesso miscuglio di ranghi alti e bassi Se H 0 è falsa, in un campione si avrà una prevalenza di ranghi alti (o bassi) Tornando all esempio, assegniamo i ranghi alle osservazioni: X 1 R i X 2 R i Si considerino le due quantità somma dei ranghi del primo campione somma dei ranghi del secondo campione 1 2 somma dei primi nn 1 n 2 numeri naturali 14

15 In analogia con quanto visto per un solo campione, la statistica test è rappresentata dalla più piccola fra S 1 e S 2. Spesso le tavole sono riferite alle statistiche di Mann-Whitney U 1 e U 2, che sono delle semplici trasformazioni monotone di S 1 e S 2. Si ha infatti infatti: 1 2 e 1 2 e quindi la statistica test da utilizzare per un test a due code è: min,. Applicazione con il software R Vediamo ora come risolvere l esempio precedente (misura della presenza di trizio tra donne la cui gravidanza è giunta al termine e tra le donne che si trovano dai 3 ai 6 mesi dall interruzione di gravidanza) con l ausilio del software R. Per prima cosa si procede con il caricamento dei dati: > x<-read.table("c:\\temp\\gravidanza.txt",header=true) > x VAR00001 VAR at_term at_term at_term at_term at_term at_term at_term at_term at_term at_term _mon _mon _mon _mon _mon Il test di Wilcoxon-Mann-Whitney si ottiene con la funzione wilcox.test: >?wilcox.test wilcox.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), 15

16 mu = 0, paired = FALSE, exact = NULL, correct = TRUE, conf.int = FALSE, conf.level = 0.95,...) Tale funzione richiede come argomenti i dati dei due collettivi x e y, e il tipo di ipotesi alternativa. Volendo specificare un test a una coda di tipo greater : > wilcox.test(x[1:10,1],x[11:15,1],alternative="g") Wilcoxon rank sum test data: x[1:10, 1] and x[11:15, 1] W = 35, p-value = alternative hypothesis: true location shift is greater than 0 La statistica test W prodotta dal software coincide con il valore di, la somma dei ranghi nel primo campione diminuita di. Il p-value è più grande del livello di significatività α fissato e dunque l ipotesi nulla non può essere rifiutata. 16