Cenni di Statistica Inferenziale Teorema del limite centrale Data una variabile, qualsiasi sia la sua distribuzione, la media di tutti i suoi campioni di ampiezza n ha una distribuzione normale: dove: x x = N ( µσ, / n ) è la media campionaria μ è la media della popolazione σ è la deviazione standard della popolazione n è la dimensione del campione
Uso del teorema del limite centrale Dall equazione: e dal fatto che circa il 95% dei valori in una distribuzione normale cade al più a distanza di 2 deviazioni standard dalla media emerge che dato un singolo campione di n elementi con media xx con confidenza 95% xx cade nell intervallo [μμ 2 σ nn, μμ + 2 σ nn ] ovvero possiamo ritenere che la stima μμ della media di una popolazione sia accettabile al 95% se la media xx di un campione di dimensione n cade nell intervallo: [μμ 2 σ x = N ( µσ, / n ) nn, μμ + 2 σ nn ]
Esempio Ipotesi: la media della popolazione è µ= 50 Sappiamo che: Deviazione standard della popolazione σ = 15 dimensione del campione N = 25 Media del campione xx = 61 Intervallo di accettazione con confidenza al 95% [50 2 15/ 25, 50 + 2 15/ 25] = [44,56] L ipotesi sarebbe confermata se la media stimata cadesse nell intervallo: in questo caso viene rifiutata
Graficamente Distribution of the average if null hypothesis is true Sample Average Conclusion: Reject the Null Hypothesis Rejection Region 30,0 35,0 40,0 45,0 50,0 55,0 60,0 65,0 70,0 x Hypothesis Test Ho: Mean = 50 Ha: Mean <> 50 (2-tailed) Ha: Mean > 50 (1-tailed) Ha: Mean < 50 (1-tailed) Population Mean: 50 Population Sigma: 15 Sample Average: 61 Sample Size: 25 Standard Error: 3,000 Alpha: 0,05 Lower Critical Value: 44,120 Upper Critical Value: 55,880 Z-Score: 3,667 P-value (2-sided): 0,02%
Esempio Ipotesi: la media della popolazione è µ= 50 Sappiamo che: Deviazione standard della popolazione σ = 15 dimensione del campione N = 25 Media del campione xx = 45 Intervallo di accettazione con confidenza al 95% [50 2 15/ 25, 50 + 2 15/ 25] = [44,56] L ipotesi sarebbe confermata se la media stimata cadesse nell intervallo: in questo caso viene accettata
Graficamente Distribution of the average if null hypothesis is true Sample Average x Rejection Region Hypothesis Test Ho: Mean = 50 Ha: Mean <> 50 (2-tailed) Ha: Mean > 50 (1-tailed) Ha: Mean < 50 (1-tailed) Population Mean: 50 Population Sigma: 15 Sample Average: 45 Sample Size: 25 Standard Error: 3,000 30,0 35,0 40,0 45,0 50,0 55,0 60,0 65,0 70,0 Conclusion: Do Not Reject the Null Hypothesis Alpha: 0,05 Lower Critical Value: 44,120 Upper Critical Value: 55,880 Z-Score: -1,667 P-value (2-sided): 9,56%
Riassumendo: Dati una ipotesi µ sulla media di una popolazione La deviazione standard σ della popolazione un campione di dimensione n della popolazione Si può accettare l ipotesi con confidenza 95% se la media del campione cade nell intervallo [μμ 2 σ nn, μμ + 2 σ nn ]
Ovvero Dati un campione di dimensione n con media xx di una popolazione La deviazione standard σ della popolazione Possiamo stimare la media della popolazione con confidenza al 95% come xx ±2 σ nn E evidente che la stima è tanto più precisa quanto maggiore è n, che determina l ampiezza dell intervallo (la famosa forchetta delle previsioni)
Z-values Dall equazione x = N( µ, σ n), sottraendo µ e dividendo per σ / Otteniamo x µ = N(0,1) σ / n x µ Il valore è quindi distribuito normalmente con media 0 e σ / n deviazione standard 1 Uno z-value, scritto zp, è il punto z tale che, rispetto alla gaussiana standard la probabilità che che un valore sia minore o uguale a zp è proprio p Per esempio z0,95 è 1,96 poichè il 95% dei valori su una gaussiana standard sono minori di 1,96 n
Intervalli di confidenza La definizione di z-values, considerando anche il fatto che siamo interessati a escludere i valori ai due estremi ci porta a questa equazione, in cui α è il livello di significatività: P x z σ < µ < x n σ = n 1 α / 2 + 1 α / 2 1 z α z 1.96 Per esempio se α=0,05 allora 0.05/ 2 (circa 2 come assunto in precedenza) e quindi i limiti dell intervallo di confidenza al 95% sono: σ [ xx 1,96 1 = nn, xx + 1,96 σ nn ]
Tabella degli intervalli di confidenza 1-α Intervallo di confidenza 0,800 0,900 0,950 0,990 0,999 x ± 1.282 σ / n x ± 1.645 σ / n x ± 1.960 σ / n x ± 2.576 σ / n x ± 3.290 σ / n
Testing di ipotesi 1. osserva il fenomeno 2. ripeti 1. formula una teoria 2. raccogli i dati 3. analizza i dati finche l analisi conferma la teoria
Gli ingredienti del test 1. una ipotesi nulla H 0 : rappresenta la teoria attuale del fenomeno sotto analisi 2. una ipotesi alternativa H a : è una teoria alternativa che viene accettata nel caso che la ipotesi nulla venga respinta. Spesso l ipotesi alternativa è l ipotesi che si vuole accettare. In un esempio medico, nello studio degli effetti di un nuovo farmaco, l ipotesi nulla può essere che il nuovo farmaco non abbia miglior comportamento rispetto alla terapia standard 3. Una statistica di controllo (test statistic): è calcolata sui dati per decidere se accettare o respingere l ipotesi nulla 4. una regione di rifiuto: specifica l insieme dei valori del test statistico per cui rifiutare l ipotesi nulla.
Un esempio In una fabbrica di componenti elettronici l attuale standard di produzione fa rilevare che in ogni partita prodotta il numero di componenti difettosi ha una media di 50 e una deviazione standard di 15. Viene proposto un nuovo processo di produzione. Il test del processo consiste nel produrre un campione di 25 partite. Il numero medio di difetti per partita risultante è 45. Vale la pena passare al nuovo processo di produzione?
Il test dell ipotesi H 0 : il nuovo processo non introduce miglioramenti H a : il nuovo processo introduce miglioramenti, ovvero la diminuzione di difetti non è dovuta a una fluttuazione random ovvero H 0 : il numero medio di componenti difettosi con il nuovo processo è ancora 50 H a : il numero medio di componenti difettosi con il nuovo processo non è 50
Statistica di controllo (test statistic) e regione di rifiuto In questo caso la statistica di controllo è la media del campione, ovvero 45 Se vogliamo una confidenza del 95%, l intervallo di confidenza, ovvero la regione di rifiuto dell ipotesi alternativa è: [ ] 50 1.96 15/ 25,50 + 1.96 15/ 25 = [44.12,55.88] Poiché 45 è incluso nella regione di rifiuto, l ipotesi alternativa viene rifiutata, ovvero il nuovo metodo è rifiutato e viene accettata l ipotesi nulla. x
Distribuzione t (t-distribution) Abbiamo assunto che il valore di σ (la deviazione standard della popolazione) sia noto se non lo è (e in genere non lo è), si può usare invece il valore s della deviazione standard del campione (ovviamente noto) Gosset, impiegato alla birreria Guinness a Dublino, scoprì che il rapporto x µ s / n in cui la deviazione standard del campione (s) sostituisce la deviazione standard della popolazione (σ) non ha una distribuzione normale, ma una leggermente diversa detta t-distribution.
t distribution standard Normal
La t-distribution è simmetrica, centrata sullo 0 t-distribution Caratterizzata da un singolo parametro, detto grado di libertà, uguale alla dimensione del campione meno 1 Per calcolare l intervallo di confidenza usiamo ora i t-value, che dipendono sia dalla confidenza α richiesta, sia dal grado di libertà uguale a n-1, dove n è la dimensione del campione. L intervallo di confidenza è: x t s x + t 1 α / 2, n 1, 1 α / 2, n 1 n s n Definiamo t-value come x µ 0 s n
t-values In Excel il t-value è calcolato dalla funzione TINV(p,df) p è il p-value di una distribuzione a due code, per esempio 0,05 df è il grado di libertà Per esempio, con un campione di 25 elementi l intervallo di rifiuto per una confidenza del 95% è: x 2.06 s, 5 x + 2.06 s 5
Esempio L amministrazione dell università afferma che la spesa media di libri per anno a informatica umanistica è inferiore a 200. Un rappresentante degli studenti intervista 25 colleghi scelti casualmente e verifica che: la spesa media del campione è di 220 La deviazione standard del campione è 50 C è sufficiente evidenza che l amministrazione abbia sottostimato la spesa per libri?
Esempio (cont.) Ipotesi nulla H0 : la spesa media per testi è 200 Ipotesi alternativa Ha: la spesa media per testi è significativamente diversa da 200 Costruiamo un intervallo di rifiuto al 95% ovvero: 50 50 220 t 0.95/ 2,24,220 + t0.95/ 2, 24 25 25 t 0,95/ In Excel possiamo calcolare 2,24 con la funzione TINV(0.05,24) L intervallo di rifiuto è quindi: [199.36,240,64] E quindi l ipotesi alternativa è rifiutata e confermata l ipotesi nulla.
Applicazione del t-test a dati accoppiati La t-distribution è utile per confrontare dati accoppiati, ovvero osservazioni organizzate a coppie in cui si vuol valutare la differenza tra le coppie L esempio tipico è valutare se una certa operazione effettuata su un numero di elementi ha portato cambiamenti a una specifica caratteristica degli elementi stessi confrontanto una misura della caratteristica prima e dopo l operazione. Per esempio, in campo medico, dato un gruppo di pazienti si può confrontare una loro analisi (p.e. Colestorolo) prima e dopo la somministrazione di un certo farmaco per valutarne l effetto.
Applicazione del t-test a dati accoppiati Il T-test viene usato per verificare se ci sono differenze significative tra le due serie di osservazioni. L ipotesi nulla è che non ci siano variazioni di rilievo, ovvero che la media delle variazioni sia 0 L ipotesi alternativa è che ci siano variazioni di rilievo Calcolando media e deviazione standard del campione di differenze possiamo quindi calcolare l intervallo di rifiuto in accordo ad una confidenza scelta e verificare se 0 cade o meno nell intervallo
Esempio: dati Dati relativi alla percentuale di occupazione femminile (WLABOR) City Year_68 Year_72 N.Y. 0,42 0,45 L.A. 0,50 0,50 Chicago 0,52 0,52 Philadelphia 0,45 0,45 Detroit 0,43 0,46 San Francisco 0,55 0,55 Boston 0,45 0,60 Pitt. 0,34 0,49 St. Louis 0,45 0,35 Connecticut 0,54 0,55 Wash., D.C. 0,42 0,52 Cinn. 0,51 0,53 Baltimore 0,49 0,57 Newark 0,54 0,53 Minn/St. Paul 0,50 0,59 Buffalo 0,58 0,64 Houston 0,49 0,50 Patterson 0,56 0,57 Dallas 0,63 0,64
Esempio: calcoliamo le differenze, la media e la deviazione standard City Year_68 Year_72 Diff N.Y. 0,42 0,45 0,03 L.A. 0,50 0,50 0,00 Chicago 0,52 0,52 0,00 Philadelphia 0,45 0,45 0,00 Detroit 0,43 0,46 0,03 San Francisco 0,55 0,55 0,00 Boston 0,45 0,60 0,15 Pitt. 0,34 0,49 0,15 St. Louis 0,45 0,35-0,10 Connecticut 0,54 0,55 0,01 Wash., D.C. 0,42 0,52 0,10 Cinn. 0,51 0,53 0,02 Baltimore 0,49 0,57 0,08 Newark 0,54 0,53-0,01 Minn/St. Paul 0,50 0,59 0,09 Buffalo 0,58 0,64 0,06 Houston 0,49 0,50 0,01 Patterson 0,56 0,57 0,01 Dallas 0,63 0,64 0,01 media 0,033684 stdev 0,059741
Esempio calcoliamo la regione di rifiuto per confidenza del 95% x t s x + t 1 α / 2, n 1, 1 α / 2, n 1 n s n L estremo sinistro è calcolabile con l espressione Excel: 0,033684 - TINV(0,05;18)*0,059741/sqrt(19) L estremo destro con l espressione: 0,033684 + TINV(0,05;18)*0,059741/sqrt(19) l intervallo è: [0,0049, 0,0625] Quindi l ipotesi nulla, cioè 0, cade al difuori della regione di rifiuto e accettiamo l ipotesi alternativa.
T-test in Excel Caricare il data Analysis ToolPack Selezionare Data Analysis dal Tools menu Nel menu Analysis Tools selezionare: t-test: Paired Two Sample for Means Dare come input le due colonne di dati da confrontare e il livello di confidenza (es. 0,95) La media ipotizzata
Esempio di T-test in Excel Dati relativi alla percentuale di occupazione femminile (Wlabor) City Year_68 Year_72 N.Y. 0,42 0,45 L.A. 0,50 0,50 Chicago 0,52 0,52 Philadelphia 0,45 0,45 Detroit 0,43 0,46 San Francisco 0,55 0,55 Boston 0,45 0,60 Pitt. 0,34 0,49 St. Louis 0,45 0,35 Connecticut 0,54 0,55 Wash., D.C. 0,42 0,52 Cinn. 0,51 0,53 Baltimore 0,49 0,57 Newark 0,54 0,53 Minn/St. Paul 0,50 0,59 Buffalo 0,58 0,64 Houston 0,49 0,50 Patterson 0,56 0,57 Dallas 0,63 0,64
Risultato Variable 1 Variable 2 Commento Mean 0,493157895 0,526842105 medie Variance 0,004622807 0,005011696 varianze Observations 19 19 dimensione del campione (n) Pearson Correlation 0,630073428 indice di correlazione Hypothesized Mean Difference 0 differenza delle medie ipotizzata df 18 gradi di libertà (n-1) t Stat -2,457703816 t-value P(T<=t) one-tail 0,012176299 nota 1 t Critical one-tail 1,734063592 nota 2 P(T<=t) two-tail 0,024352597 nota 3 t Critical two-tail 2,100922037 nota 4 Nota1: se t < 0, P(T<=t) one-tail è la probabilità che un t-value sia minore di t se t > 0, P(T<=t) one-tail è la probabilità che un t-value sia maggiore di t Nota 2: un t-value è maggiore di t Critical con probabilità α (nell esempio 0.05) Nota 3: P(T<=t) two-tail è la probabilità che un t-value sia più grande in valore assoluto di t Nota 4: un t-value è maggiore in valore assoluto di t Critical con probabilità α (nell esempio 0.05) Poiché il t Stat, ovvero ( x µ, è maggiore in valore assoluto di t critical 0) /( s / n) (2.4577 > 2.1009), accettiamo l ipotesi alternativa.
Esercitazione Il file RACEPAIR contiene informazioni su tempi di reazione e tempi di gara per batterie, semifinali e finali di centometristi delle olimpiadi 96. Si vuole verificare se c è evidenza che il tempo di rezione cambia passando alle gare successive. Si usi il paired t-test per analizzare le differenze tra le seguenti variabili: React 1 vs. React 2, React 1 vs React 3 e React 2 vs React 3. Si calcoli l intervallo di confidenza al 95%.
T-Test per confrontare due campioni separati Importante per capire se ci sono differenze significative tra due campioni separati omogenei Esempi: Confrontare gli stipendi tra i dipendenti maschi e i dipendenti femmine di una azienda Confrontare una specifica analisi per un campione di pazienti sottoposti ad una cura e un campione di controllo (con la stessa malattia) a cui è stato somministrato un placebo.
Due possibili statistiche Sotto l ipotesi che i campioni siano estratti da popolazioni con diverse deviazioni standard: t = ( x 1 x2) ( µ 1 µ 2) s n 2 1 1 s + n 2 2 2
Sotto l ipotesi che i campioni siano estratti da popolazioni con la stessa deviazione standard stimata come: In questo caso 2 1) ( 1) ( 2 1 2 2 2 2 1 1 + + = n n s n s n s 2 1 2 1 2 1 1 1 ) ( ) ( n n s x x t + = µ µ
Testare l ipotesi Una volta calcolato t dobbiamo verificare se in una t-distribuzione con (n_1 + n_2-2) gradi di libertà t è significativo. La funzione T_DIST.2T(t;n_1 + n_2-2) la probabilità α corrispondente al valore t. Per esempio se poniamo la significatività al 95% (ovvero α = 0,05) e abbiamo t= 2,05 e due campioni uno di 56 elementi e l altro di 34 T_DIST.2T (1,98;88)= 0,043 valore inferiore ad α che mi porta a rifiutare l ipotesi. Mentre T_DIST.2T (1,20;88)= 0,223 valore superiore ad α che mi fa accettare l ipotesi
Applicazione del Two-sample data in Excel: analisi delle case di cura Abbiamo i dati relativi a 51 case di cura (NURSEHOME), ciascuno con i seguenti attributi: Medical_Days Location numero di giorni di ricovero annuali rural/non rural Vogliamo analizzare se il numero totale medio di giorni di ricovero è diverso tra le cliniche di campagna (rural) e le altre
Rural Non Rural 203 385 234 392 372 419 305 363 188 169 426 192 164 321 284 336 375 442 133 202 318 204 213 286 280 375 191 278 83 423 776 471 214 213 366 327 220 189 88 158 300 177 336 136 205 323 222 200 355 203 390 144
Testing dell ipotesi Ipotesi nulla: il numero medio totale di ricoveri è indipendente dalla posizione della clinica Ipotesi alternativa: il numero medio totale di ricoveri non è indipendente dalla posizione Assumiamo, almeno inizialmente, che la deviazione standard delle due popolazioni sia la stessa
Usando Data Analysis in Excel Selezionare t-test assuming equal variances Fornire i seguenti input Range dei valori per le rurali Range dei valori per le non rurali Alpha = 0,05
Risultato t-test: Two-Sample Assuming Equal Variances Variable 1 Variable 2 Mean 257,9705882 322,1111111 Variance 16449,96881 9031,633987 Observations 34 18 Pooled Variance 13927,73497 Hypothesized Mean Difference 0 df 50 t Stat -1,864516746 P(T<=t) one-tail 0,034062243 t Critical one-tail 1,675905026 P(T<=t) two-tail 0,068124486 t Critical two-tail 2,008559072 Poiché t Stat in valore assoluto è minore di t Critical two-tail (1,86 < 2,00) rifiutiamo l ipotesi alternativa, ovvero non ci sono differenze tra rurali enon rurali
Ma... Se assumiamo invece che le deviazioni standard delle due popolazioni siano diverse, abbiamo t-test: Two-Sample Assuming Unequal Variances Variable 1 Variable 2 Mean 257,9705882 322,1111111 Variance 16449,96881 9031,633987 Observations 34 18 Hypothesized Mean Difference 0 df 44 t Stat -2,043085506 P(T<=t) one-tail 0,023530882 t Critical one-tail 1,680229977 P(T<=t) two-tail 0,047061764 t Critical two-tail 2,015367547 Poiché t Stat in valore assoluto è maggioredi t Critical two-tail (2,04 > 2,01) dobbiamo accettare l ipotesi alternativa, ovvero ci sono differenze tra rurali enon rurali
E allora? Dobbiamo cercare di scoprire perché le deviazioni standard dei campioni, rispettivamente 128,25 per le rural e 95,03 per le nonrural sono così diverse Analizziamo la distribuzione di rural Che mostra un clamoroso outlier che giustifica la correttezza della prima risposta