Valutazione della potenza nei confronti multipli:



Documenti analoghi
Elementi di Psicometria con Laboratorio di SPSS 1

Corso di Psicometria Progredito

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

VERIFICA DELLE IPOTESI

Relazioni tra variabili

3. Confronto tra medie di due campioni indipendenti o appaiati

Elementi di Psicometria con Laboratorio di SPSS 1

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

Elementi di Psicometria con Laboratorio di SPSS 1

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELLA ROLE Six Sigma Master Black Belt

Principi generali. Vercelli 9-10 dicembre G. Bartolozzi - Firenze. Il Pediatra di famiglia e gli esami di laboratorio ASL Vercelli

Statistiche campionarie

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

Università del Piemonte Orientale. Corsi di Specialità. Corso di Statistica Medica. Analisi dei dati quantitativi : Analisi della varianza

STATISTICA IX lezione

Relazioni statistiche: regressione e correlazione

Metodi statistici per le ricerche di mercato

Statistica. Lezione 6


La dissomiglianza tra due distribuzioni normali

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

ANALISI DELLA VARIANZA A PIU CRITERI DI CLASSIFICAZIONE

4. Confronto tra medie di tre o più campioni indipendenti

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

Concetto di potenza statistica

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Verifica di ipotesi

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

1. Scopo dell esperienza.

Capitolo 25: Lo scambio nel mercato delle assicurazioni

Strumenti informatici 13.1

Facciamo qualche precisazione

SPC e distribuzione normale con Access

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Capitolo 12 La regressione lineare semplice

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

Capitolo 13: L offerta dell impresa e il surplus del produttore

Capitolo 2 Distribuzioni di frequenza

Strumenti di indagine per la valutazione psicologica

Rapporto dal Questionari Insegnanti

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Capitolo 25: Lo scambio nel mercato delle assicurazioni

Analisi della varianza (anova) a due vie

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

LA STATISTICA NEI TEST INVALSI

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Ing. Simone Giovannetti

LA CORRELAZIONE LINEARE

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

LA POVERTÀ IN ITALIA. Anno luglio 2013

Automazione Industriale (scheduling+mms) scheduling+mms.

Prova di autovalutazione Prof. Roberta Siciliano

LA POVERTÀ IN ITALIA

Capitolo 11 Test chi-quadro

Esercitazione n.2 Inferenza su medie

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza

Introduzione all Inferenza Statistica

Corso di Psicometria Progredito

Inferenza statistica. Statistica medica 1

Facoltà di Psicologia Università di Padova Anno Accademico

Igiene urbana. Indagine sulla soddisfazione degli utenti Confronto tra Torino, Milano, Bologna e Roma. Anno a cura di Mirko Dancelli

Capitolo 4 Probabilità

1. Distribuzioni campionarie

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Elementi di Psicometria

LA POVERTÀ IN ITALIA. Anno luglio INCIDENZA DI POVERTÀ RELATIVA PER RIPARTIZIONE GEOGRAFICA. Anni , valori percentuali

Capitolo 26: Il mercato del lavoro

VERIFICA DELLE IPOTESI

4. Operazioni elementari per righe e colonne

E naturale chiedersi alcune cose sulla media campionaria x n

Controllo Statistico della Qualità. Qualità come primo obiettivo dell azienda produttrice di beni

Il significato della MEDIA e della MEDIANA in una raccolta di dati numerici

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

UNIVERSITÀ DEGLI STUDI DI TERAMO

LA POVERTÀ IN ITALIA. Anno luglio 2014

Aspettative, consumo e investimento

Onestà di un dado. Relazione sperimentale

DATI NORMATIVI PER LA SOMMINISTRAZIONE DELLE PROVE PAC-SI A BAMBINI DI INIZIO SCUOLA PRIMARIA 1

Temi di Esame a.a Statistica - CLEF

La BDCR Assilea per la valutazione del profilo di rischio delle imprese

SERVIZIO NAZIONALE DI VALUTAZIONE

Tasso di interesse e capitalizzazione

come nasce una ricerca

Introduzione. Strumento di misurazione, numerosità

SISTEMI DI NUMERAZIONE E CODICI

Il concetto di valore medio in generale

Corso di Politica Economica

Corso di Psicometria Progredito

Dimensione di uno Spazio vettoriale

= 1, = w 2 x σ 2 x + (1 w x ) 2 σ 2 x 2 w x (1 w x ) σ x σ y, = w x 0.2. = 0,

3 Confronto fra due popolazioni attraverso il test t e test analoghi

8 Elementi di Statistica

TAV. 1 Popolazione residente nelle Province della Regione Sardegna nel 2001 fonte: Istat

Transcript:

Valutazione della potenza nei conronti multipli: cinque metodi a conronto. Massimo Nucci 1, Massimiliano Pastore 2, Giovanni Galano 3 1 Dipartimento di Psicologia Generale, Università di Padova, via Venezia, 8, I-35100 Padova, Italy. Email: massimo.nucci@unipd.it 2 Dipartimento di Psicologia, Università di Cagliari, via Is Mirrionis - Loc. Sa Duchessa, I-09100 Cagliari, Italy. Email: massimiliano.pastore@unica.it 3 Dipartimento di Psicologia dello Sviluppo e della Socializzazione, Università di Padova, via Venezia, 8, I-35100 Padova, Italy. Email: giovanni.galano@unipd.it Sommario Il lavoro propone un paragone delle potenze, in un contesto di conronti multipli, ra tre metodi classici (Scheé, Tukey, Bonerroni) e due metodi basati sul False Discovery Rate (FDR). Con una simulazione Monte Carlo sono stati eettuati tutti i conronti a coppie possibili tra k (k = 3,4,5,6) campioni di numerosità 20, manipolando il valore dell eect size. I metodi sono stati conrontati sulla base di tre deinizioni di potenza ammissibili in vari contesti di ricerca psicologica. I risultati hanno evidenziato una migliore prestazione dei metodi basati sul FDR rispetto a quelli classici. Abstract. In this paper, we present a comparison, in terms o power, among three classic procedures (Scheé, Tukey, Bonerroni) and two methods based on the False Discovery Rate (FDR) in the context o multiple comparison. A Monte Carlo simulation is illustrated, in which we perormed all the possible pairwise comparisons among k (k = 3,4,5,6) samples with ixed numerosity (20), by manipulating eect size. Three dierent deinitions o power are considered, based on their possible application in psychological research. The results show that FDR-based procedures oer a better perormance compared to the classical methods.

2 Introduzione Nella ricerca psicologica è spesso necessario eseguire molti conronti statistici. Tuttavia, al crescere del numero di test eseguiti aumenta anche la probabilità di commettere errori di I tipo, cioè di riiutare un ipotesi nulla che invece sia vera. Per arontare questo problema sono disponibili speciiche procedure: metodi post hoc, conronti multipli, contrasti ecc. Molte procedure però comportano un elevata perdita di potenza, con una riduzione della capacità del test di respingere correttamente un ipotesi nulla alsa (Ramsey, 2002). Recentemente, alcuni autori (ad esempio Benjamini e Hochberg, 1995) hanno sviluppato nuovi metodi che hanno aiancato quelli più tradizionali (Pastore, Nucci e Galano, 2005). Più volte è stato evidenziato come si ponga più attenzione all errore di I tipo che alla potenza di un test (Cohen, 1988; Keppel, 1991; Bachmann, Luccio e Salvadori, 2005). Sembra sempre più necessario, dunque, non solo conoscere le condizioni d applicabilità dei test, ma anche saper scegliere i metodi che orono una maggiore potenza. In questa sede, ci proponiamo di paragonare le potenze di cinque metodi per i conronti multipli. Per mezzo di una simulazione Monte Carlo, sono stati considerati tre metodi tradizionali, Scheè (1953, SH), Tukey (1953, TK), Bonerroni (1936, B), e due metodi più recenti: la prima originale procedura basata sul False Discovery Rate (FDR) (Benjamini e Hochberg 1995, BH) ed una più recente combinazione del FDR con le tecniche di ricampionamento (Reiner, Yekutieli e Benjamini, 2003, RYB). Il conronto è stato eettuato in unzione del numero di medie e dell eect size calcolato. I risultati sono stati esaminati in rierimento a tre diverse deinizioni di potenza ammissibili nel contesto dei conronti multipli: per-power, any-power, e all-power (Ramsey, 1978). La potenza all-power si basa sul corretto riiuto di tutte le ipotesi nulle quando le medie conrontate appartengano a popolazioni distinte. Questo approccio è certamente da preerire quando il mancato riiuto di un ipotesi nulla non vera ha delle conseguenze particolarmente gravi (ad esempio la mancata diagnosi precoce di un disturbo o il mancato riconoscimento di non idoneità psicoisica a lavori rischiosi). Tuttavia, si utilizza più spesso la deinizione di potenza any-power, basata sul corretto riiuto di almeno una ipotesi nulla tra quelle alse. Tale approccio, pur con un maggior rischio di errori di I tipo, ore una maggiore capacità discriminativa, particolarmente utile nelle ricerche esplorative. La potenza

3 per-power è una soluzione intermedia tra le due precedenti e può essere utile in contesti metaanalitici (Westall e Young, 1993). La scelta di prendere in considerazione tre diverse deinizioni di potenza è giustiicata sia per illustrare in maniera più dettagliata le possibili variazioni nella prestazione dei metodi esaminati, sia per dare una panoramica d applicazione esaustiva nei diversi contesti della ricerca psicologica. Descrizione delle procedure Ogni procedura è stata impiegata per testare m ipotesi, {H 1,..., H m }, per ciascuna delle quali viene eettuato un test e calcolata una probabilità p h (con h = 1,..., m). I vari metodi sono stati utilizzati per determinare le rispettive probabilità aggiustate secondo le procedure descritte brevemente di seguito. Mentre i metodi SH e TK richiedono di eettuare l ANOVA, perchè l aggiustamento dipende dalla stima della varianza d errore, per gli altri metodi sono stati utilizzati dei semplici t-test. Metodo SH. La probabilità aggiustata è calcolata utilizzando la seguente statistica: ˆF = n( i c i X i ) 2 (k 1)MS err ( i c2 i ) in cui n è la numerosità di ciascun gruppo, Xi la media del gruppo i-mo, k il numero di gruppi, MS err la varianza d errore, ricavata dall ANOVA, e c i dei pesi scelti in modo che c i = 0. La probabilità associata alla statistica ˆF è data dalla distribuzione F con gradi di libertà (k 1) e quelli relativi a MS err. Metodo TK. La probabilità aggiustata è calcolata utilizzando la seguente statistica basata sulla Studentized Range Distribution: q ij = X (i) X (j) ; i > j MS err n in cui i e j indicano il rango occupato nell ordinamento crescente delle medie, Xi è la media campionaria, MS err la varianza dell errore ottenuta dall ANOVA e n la numerosità campionaria di ciascun gruppo.

4 Metodo B. La probabilità viene aggiustata semplicemente moltiplicando il valore osservato (p h ) per il numero di conronti eettuati (m). p h = min(p h m, 1) Metodo BH. Siano p (1)... p (m) le probabilità osservate, disposte in ordine crescente; le probabilità aggiustate saranno date dalla relazione: p h = min{p (j) m j : h j}; j {1,..., m} Metodo RYB. Nella prima ase, i dati sono ricampionati per un numero B di volte e dei valori di probabilità sono stimati sulla base delle statistiche ottenute dal ricampionamento. Per la h-ma ipotesi, con una statistica osservata pari a t h, la probabilità stimata sarà data dalla seguente ormula: p est h = #{t ij : t ij t h } mb in cui i = 1,..., m, con m il numero di ipotesi, j = 1,..., N, con B il numero di ricampionamenti, e t ij indica la statistica ottenuta con ricampionamento. Nella seconda ase, le probabilità ottenute sono aggiustate con il metodo BH descritto sopra. Schema sperimentale Il programma per la simulazione Monte Carlo è stato scritto in ambiente R (R Development Core Team, 2005) ed ha struttura aine allo schema sperimentale descritto da Ramsey (1978). Sono state considerate delle popolazioni normali con varianze issate ad 1 e medie (µ i ; i = 1,..., k) scelte in modo da riprodurre degli speciici valori di eect size secondo la di Cohen (1988, p. 275) con: = σ m /σ in cui valgono le seguenti relazioni: k k σm 2 = (µ i µ) 2 /k e µ = µ i /k i=1 i=1

5 e dove indica l eect size, µ la media generale delle medie e σm 2 la varianza relativa alle medie delle popolazioni. Si può notare che, con questa deinizione, a parità di eect size è possibile individuare combinazioni praticamente ininite di valori medi. Ad esempio, ponendo k = 3 e σ = 1 è acile veriicare che con i valori µ i = ( 1, 0, 1) si ottiene lo stesso valore di che con µ i = (0, 0, 1.732). David, Lachenbruch e Brandis (1972) hanno dimostrato che comunque, per ciascun valore speciicato di, le conigurazioni possibili hanno un ambito di variazione massimo ed uno minimo. L ambito di variazione massimo è dato da µ 1 = (k/2) 1/2 ; µ 2 =... = µ k 1 = 0; µ k = (k/2) 1/2 L ambito di variazione minimo, se k è pari, è dato da µ 1 =... = µ k/2 = ; µ (k/2)+1 =... = µ k = se k è dispari è dato da µ 1 =... = µ (k+1)/2 = [(k 1)/(k + 1)] 1/2 ; µ (k+3)/2 =... = µ k = [(k 1)/(k + 1)] 1/2 Le condizioni sperimentali sono state scelte ponendo il numero di medie k = 3, 4, 5, 6 e l eect size = 0, 0.1,..., 1.2. La numerosità dei campioni generati è stata issata a n = 20. Per ciascuna combinazione di k e sono state eettuate 1000 repliche per la conigurazione ambito massimo e 1000 per la conigurazione ambito minimo. Sono stati dunque simulati 1000 4 13 2 = 104000 esperimenti. Su ciascuno dei campioni generati sono state messe a conronto le 5 procedure descritte sopra. Soltanto per la procedura RYB, ogni campione generato è stato ulteriormente ricampionato 1000 volte. Stima della potenza e della probabilità di errore di I tipo La potenza è stata stimata considerando le condizioni con > 0, adottando le tre seguenti deinizioni: per-power: probabilità di rigettare una generica ipotesi H 0 alsa; viene stimata contando il numero di ipotesi H 0 rigettate sul totale di ipotesi alse.

6 any-power: probabilità di rigettare almeno una ipotesi H 0 alsa per ciascun valore di ; viene stimata contando quante volte viene rigettata almeno una ipotesi alsa per ciascuna delle 1000 repliche dell esperimento. all-power = probabilità di rigettare correttamente tutte le ipotesi H 0 alse per ciascun valore di ; viene stimata contando quante volte vengono rigettate tutte le ipotesi alse per ciascuna delle 1000 repliche dell esperimento. La probabilità di errore di I tipo è stata stimata empiricamente considerando le condizioni in cui = 0, cioè i casi in cui non esiste dierenza tra le medie delle popolazioni. Anche per l errore di I tipo abbiamo adottato le stesse deinizioni e lo stesso metodo di stima della probabilità, considerando che, in questi casi, le ipotesi sono vere. Risultati In Figura 1 abbiamo riportato le curve di potenza stimate, ottenute come media tra i valori di ambito massimo e minimo, per medie. Nel graico è riportata anche la curva relativa alle probabilità non aggiustate (rawp) per avere un ulteriore termine di paragone. Come era lecito prevedere, con sole 3 medie i vari metodi non presentano evidenti dierenze tra loro, in particolare quando si adotta una deinizione di tipo any-power. Con le altre due deinizioni, i metodi migliori risultano essere quelli basati sul FDR (BH e RYB), tra loro praticamente equivalenti, mentre il peggiore è il metodo SH. In Figura 2 sono riportate le curve di potenza stimate, ottenute come media tra i valori di ambito massimo e minimo, per k = 6 medie. Le dierenze tra i metodi sono più evidenti, soprattutto per le deinizioni per-power e all-power. In entrambi i casi si osserva la stessa relazione d ordine, con i metodi BH e RYB risultati più potenti, seguiti da TK, B e, per ultimo, SH. Adottando la deinizione any-power invece, il metodo che si rivela più potente, anche se di poco, è TK. Le curve di potenza stimate relative a k = 4 e k = 5 medie si collocano in una posizione intermedia rispetto ai valori estremi illustrati nelle Figure 1 e 2 e non necessitano dunque di ulteriori commenti.

7 per power rawp B BH TK SH RYB any power all power Figura 1. Curve di potenza stimate con k = 3 medie. Le curve sono ottenute come media tra le conigurazioni di variazione massima e minima. La linea tratteggiata indica la soglia 0.05. In rosso le probabilità non aggiustate. Conclusioni Abbiamo messo conrontato le potenze di 5 diversi metodi per eettuare i conronti multipli. Le dierenti deinizioni di potenza adottate nel calcolo dei risultati mostrano come criteri più restrittivi comportino una minore potenza espressa. In particolare, la deinizione all-power risulta essere meno sensibile delle altre. La dierenza tra i 5 metodi impiegati è modesta in contesti dove il numero di conronti è relativamente basso (k = 3), mentre cresce con il numero di medie. In genere, la relazione d ordine tra le potenze dei metodi è stabile, risultando quasi ovunque valido l ordine decrescente BH, RYB, TK, B, SH (con i primi due metodi pressoché di uguale potenza). Tutti i metodi utilizzati risultano adeguati al controllo dell errore di primo tipo, mantenendo il valore sotto la soglia 0.05. In deinitiva emerge chiaramente come i metodi basati sull approccio FDR (BH e RYB) siano glo-

8 per power rawp B BH TK SH RYB any power all power Figura 2. Curve di potenza stimate con k = 6 medie. Le curve sono ottenute come media tra le conigurazioni di variazione massima e minima. La linea tratteggiata indica la soglia 0.05. In rosso le probabilità non aggiustate. balmente più potenti rispetto ai metodi tradizionali considerati (SH, TK, e B) e tale dierenza diviene importante al crescere del numero di medie conrontate. Rierimenti bibliograici BACHMANN, C., LUCCIO, R., SALVADORI, E. (2005). La veriica della signiicatività dell ipotesi nulla in psicologia. Florence University Press, Firenze. BENJAMINI, Y., & HOCHBERG, Y. (1995). Controlling the False Discovery Rate: A practical and powerul approach to multiple testing. Journal o the Royal Statistic Society B, 57, 289 300. BONFERRONI, C. E. (1936). Teoria statistica delle classi e calcolo delle probabilità. Pubblicazioni del R. Istituto Superiore di Scienze Economiche e Commerciali di Firenze, 8, 3 62. COHEN, J. (1988). Statistical power analysis or the behavioral sciences, II ed., Erlbaum, Hillsdale, NJ.

DAVID, H. A., LACHENBRUCH, P. A., BRANDIS, H. P. (1972). The power unction o range and Studentized range test in normal samples. Biometrika, 59, 161-168. KEPPEL, G. (1991). Design and analysis. A researcher s handbook. Upper Saddle River, NJ: Prentice Hall. PASTORE, M., NUCCI, M., GALFANO, G. (2005). False Discovery Rate: Applicazione di un metodo alternativo per i conronti multipli con misure ripetute. Giornale Italiano di Psicologia, 32, 639-652. R DEVELOPMENT CORE TEAM (2003). R: A language and environment or statistical computing. R Foundation or Statistical Computing, Vienna, Austria. RAMSEY, P. H. (1978). Power dierences between pairwise multiple comparisons. Journal o the American Statistical Association, 363, 479 485. RAMSEY, P. H. (2002). Comparison o closed testing procedures or pairwise testing o means. Psychological Methods, 7, 504-523. REINER, A., YEKUTIELI, D., & BENJAMINI, Y. (2003). Identiying dierentially expressed genes using alse discovery rate controlling procedures. Bioinormatics, 19, 368 375. SCHEFFÉ, H. (1953). A method or judging all contrasts in the analysis o variance. Biometrika, 40, 87-104. TUKEY, J. W. (1953). The problem o multiple comparisons. Princeton University Press, Princeton, NJ. WESTFALL, P. H., & YOUNG, S. S. (1993). Resampling-based multiple testing, Wiley, NY. 9