3 Confronto fra due popolazioni attraverso il test t e test analoghi Consideriamo in questo capitolo gli esperimenti comprendenti un solo fattore fisso, e nel loro ambito quelli in cui questo criterio di classificazione abbia due sole varianti o livelli. Considerata una variabile quantitativa, si intende verificare per le medie delle due popolazioni l'ipotesi nulla: H 0 : µ 1 = µ 2 All'interno di questa situazione, con riferimento ai due campioni estratti dalle altrettante popolazioni confrontate, possiamo distinguere i seguenti casi: 1) campioni indipendenti: si tratta di una situazione equivalente a quella dell'analisi della varianza ad un criterio di classificazione (di seguito indicata come AV-1) 2) campioni associati a coppie: la situazione è stavolta equivalente a quella dell'analisi della varianza a due criteri di classificazione (AV-2), modello misto, essendo ciascun individuo assimilabile ad una variante del fattore casuale normalmente indicato come blocco. La procedura TTEST, oggetto del presente paragrafo, è applicabile solo al primo caso; per il secondo, si adotta invece l'analisi della varianza come per un comune esperimento in blocchi randomizzati. Considerando il primo caso, il test t di Student richiede fra le condizioni per la sua applicazione l'uguaglianza delle varianze delle due popolazioni. Tale condizione diviene meno vincolante nel caso che il numero di unità sperimentali per campione sia costante. La relativa ipotesi nulla H 0 : σ 1 = σ 2 = σ è verificata attraverso il relativo test F bilaterale (F' test o variance-ratio test), che viene automaticamente eseguito nell'ambito della procedura TTEST. Nel caso di varianze disuguali con un numero di unità sperimentali disuguali, occorrerà ricorrere al test di Welch ovvero di Satterthwaite, oppure al più conservativo test di Cochran. Il primo di questi due tests è automaticamente incluso nella procedura TTEST, mentre il secondo va richiesto attraverso un'opzione. Infine, un'ulteriore possibilità nel caso in esame è rappresentata da una trasformazione dei dati che stabilizzi le varianze. Tutti i test su indicati richiedono come condizione di applicazione che ciascuna popolazione abbia una distribuzione normale. Tale condizione diviene però poco rilevante nel caso di unità sperimentali in numero costante ed è trascurabile per campioni di entità piuttosto consistente (indicativamente non inferiore alle 30 unità). Nel caso di non normalità e di un numero di unità sperimentali per campione disuguale e ridotto si dovrà ricorrere a certe trasformazioni di Confronto fra due popolazioni attraverso il test t e test analoghi 23
variabile od infine ad un test non parametrico. I test richiedono infine campioni che siano casuali ed indipendenti fra loro. Confronto fra due popolazioni attraverso il test t e test analoghi 24
3.1 Campioni indipendenti Nota sull Analisi...(2 a ed.) L'esempio si riferisce ad un confronto fra due metodi di campionamento del terreno per l'analisi del contenuto in ossido di potassio. Il primo metodo prevede il prelievo e l'analisi separata di 20 prelievi individuali. Col secondo metodo, si analizzano 10 prelievi medi ottenuti ciascuno dal raggruppamento di 25 prelievi individuali. Si vuole stabilire se i due metodi conducano in media a dei risultati equivalenti. Nel corso dell'analisi si vuole verificare l'ipotesi di normalità delle due popolazioni, essendo gli effettivi dei due campioni relativamente ridotti. PROGRAMMA SAS Il tipo di campionamento ed il contenuto in ossido di potassio sono indicati rispettivamente dalle due varianti indiv e medio della variabile prelievo e dai valori della variabile oxpotass. Attraverso l opzione NORMAL della procedura UNIVARIATE si verifica l ipotesi di normalità; ciò viene eseguito per ogni singola popolazione attraverso l istruzione BY, il cui impiego va preceduto, come abbiamo già visto, dalla PROC SORT. Infine viene eseguita la PROC TTEST, indicante in CLASS la variabile che fornisce il criterio di classificazione. Essa richiede anche, attraverso l'opzione COCHRAN, l'esecuzione dell'omologo test di uguaglianza delle medie nel caso, considerato qui a priori molto probabile, che l'ipotesi di uguaglianza delle due varianze debba essere respinta. * * 3.1 TEST T E TEST ANALOGHI - CAMPIONI INDIPENDENTI * DAGNELIE (1975) - PAG. 28 *; DATA esempio; INPUT prelievo $ oxpotass; CARDS; medio.96 medio 1.00 medio 1.04 medio 1.04 medio 1.08 medio 1.08 medio 1.08 medio 1.16 medio 1.20 medio 1.28 indiv.80 indiv.84 indiv.88 indiv.88 indiv.92 indiv.92 indiv 1.00 indiv 1.04 indiv 1.20 indiv 1.24 indiv 1.28 indiv 1.40 indiv 1.48 indiv 1.48 Confronto fra due popolazioni attraverso il test t e test analoghi 25
indiv 1.48 indiv 1.52 indiv 1.56 indiv 1.88 indiv 1.92 indiv 2.20 ; PROC SORT; BY prelievo; PROC UNIVARIATE NORMAL; VAR oxpotass; BY prelievo; TITLE '3.1 Test t e test analoghi - campioni indipendenti'; TITLE2 'verifica della condizione di normalità delle popolazioni'; PROC TTEST COCHRAN; CLASS prelievo; VAR oxpotass; TITLE2 'esecuzione dei test'; RUN; OUTPUT SAS L'output della PROC UNIVARIATE riporta una mole notevole di informazioni, che commenteremo solo in parte. Il test di normalità di Shapiro-Wilks (➌) indica, attraverso la sua statistica W, che per entrambe le popolazioni l'ipotesi di normalità non può essere respinta. In altri termini l'esistenza desunta dal campione, secondo i parametri di Fisher, di una asimmetria (➊) verso sinistra in entrambe le popolazioni (τ 1 > 0) e di valori di curtosi (➋) che renderebbero la prima popolazione (τ 2 < 0) e la seconda (τ 2 > 0) rispettivamente meno e più appiattita rispetto alla curva della distribuzione normale non permette di escludere, per una probabilità di errore accettabile, che ciascuna popolazione sia normale. La PROC TTEST indica, attraverso l'elevato valore del test F (➐), che l'ipotesi di uguaglianza delle due varianze va respinta. Essendo disuguale il numero di unità sperimentali a disposizione per campione, solo i primi due dei tre test di uguaglianza delle medie riportati nell'output sono quindi adeguati, cioè quello di Satterthwaite (nel quale ciò che è indicato come T equivale al valore u osservato del test di Welch) (➍) e quello di Cochran (➎). I due test adottabili indicano che i due tipi di prelievo del terreno conducono a misure del contenuto in ossido di potassio significativamente diverse. Non avremmo ottenuto lo stesso risultato se, senza tenere conto della diversità delle varianze, avessimo semplicemente considerato il test di Student (➏). 3.1 Test t e test analoghi - campioni indipendenti verifica della condizione di normalità delle popolazioni ------------------------------ PRELIEVO=indiv ------------------------------- Variable=OXPOTASS UNIVARIATE PROCEDURE Moments N 20 Sum Wgts 20 Mean 1.296 Sum 25.92 Std Dev 0.399241 Variance 0.159394 ➊ Skewness 0.661144 Kurtosis -0.23408 ➋ USS 36.6208 CSS 3.02848 Confronto fra due popolazioni attraverso il test t e test analoghi 26
CV 30.80566 Std Mean 0.089273 T:Mean=0 14.51725 Prob> T 0.0001 Sgn Rank 105 Prob> S 0.0001 Num ^= 0 20 W:Normal 0.923156 Prob<W 0.1205 ➌ Quantiles(Def=5) 100% Max 2.2 99% 2.2 75% Q3 1.5 95% 2.06 50% Med 1.26 90% 1.9 25% Q1 0.92 10% 0.86 0% Min 0.8 5% 0.82 1% 0.8 Range 1.4 Q3-Q1 0.58 Mode 1.48 Extremes Lowest Obs Highest Obs 0.8( 1) 1.52( 16) 0.84( 2) 1.56( 17) 0.88( 4) 1.88( 18) 0.88( 3) 1.92( 19) 0.92( 6) 2.2( 20) ------------------------------ PRELIEVO=medio ------------------------------- Variable=OXPOTASS UNIVARIATE PROCEDURE Moments N 10 Sum Wgts 10 Mean 1.092 Sum 10.92 Std Dev 0.09624 Variance 0.009262 ➊ Skewness 0.756263 Kurtosis 0.231289 ➋ USS 12.008 CSS 0.08336 CV 8.813227 Std Mean 0.030434 T:Mean=0 35.88104 Prob> T 0.0001 Sgn Rank 27.5 Prob> S 0.0020 Num ^= 0 10 W:Normal 0.940446 Prob<W 0.5415 ➌ Quantiles(Def=5) 100% Max 1.28 99% 1.28 75% Q3 1.16 95% 1.28 50% Med 1.08 90% 1.24 25% Q1 1.04 10% 0.98 0% Min 0.96 5% 0.96 1% 0.96 Range 0.32 Q3-Q1 0.12 Mode 1.08 Extremes Lowest Obs Highest Obs 0.96( 1) 1.08( 6) 1( 2) 1.08( 7) 1.04( 4) 1.16( 8) 1.04( 3) 1.2( 9) 1.08( 7) 1.28( 10) Confronto fra due popolazioni attraverso il test t e test analoghi 27
Variable: OXPOTASS TTEST PROCEDURE PRELIEVO N Mean Std Dev Std Error ---------------------------------------------------------------------------- indiv 20 1.29600000 0.39924139 0.08927309 medio 10 1.09200000 0.09624044 0.03043390 Variances T Method DF Prob> T -------------------------------------------------------- Unequal 2.1629 Satterthwaite 23.0 0.0412 ➍ Cochran. 0.0452 ➎ Equal 1.5800 28.0 0.1253 ➏ For H0: Variances are equal, F' = 17.21 DF = (19,9) Prob>F' = 0.0001 ➐ Confronto fra due popolazioni attraverso il test t e test analoghi 28