Cenni di Statistica Inferenziale

Documenti analoghi
Applicazione del t-test a dati accoppiati

Cenni di Statistica Inferenziale

Cenni di Statistica Inferenziale

Inferenza statistica. Statistica medica 1

Verifica di ipotesi

Statistica. Lezione 6

E naturale chiedersi alcune cose sulla media campionaria x n

Istituzioni di Statistica e Statistica Economica

Esercitazione n.2 Inferenza su medie

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Analisi di dati di frequenza

Test statistici di verifica di ipotesi

T DI STUDENT Quando si vogliono confrontare solo due medie, si può utilizzare il test t di Student La formula per calcolare il t è la seguente:

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Esercitazione n.4 Inferenza su varianza

Metodi statistici per le ricerche di mercato


Statistiche campionarie

Elementi di Psicometria

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Elementi di Psicometria con Laboratorio di SPSS 1

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

1. Distribuzioni campionarie

TEST DI AUTOVALUTAZIONE INTERVALLI DI CONFIDENZA E TEST

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

Excel Terza parte. Excel 2003

Teoria della Stima. Stima della Media e di una Porzione di Popolazione. Introduzione. Corso di Laurea in Scienze Motorie AA2002/03 - Analisi dei Dati

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

Statistical Process Control

STATISTICA INFERENZIALE

VERIFICA DELLE IPOTESI

SPC e distribuzione normale con Access

Corso di Psicometria Progredito

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELLA ROLE Six Sigma Master Black Belt

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

FONDAMENTI DI PSICOMETRIA - 8 CFU

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

3. Confronto tra medie di due campioni indipendenti o appaiati

Inferenza statistica I Alcuni esercizi. Stefano Tonellato

Il confronto fra proporzioni

Corso di Psicometria Progredito

LEZIONE n. 5 (a cura di Antonio Di Marco)

Relazioni tra variabili

Slide Cerbara parte1 5. Le distribuzioni teoriche

Tema A Se due eventi A e B sono indipendenti e tali che P (A) = 1/2 e P (B) = 2/3, si può certamente concludere che

Temi di Esame a.a Statistica - CLEF

1 Serie di Taylor di una funzione

ELEMENTI DI STATISTICA

Esame di Statistica del 17 luglio 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

STATISTICA ESERCITAZIONE 11 Dott. Giuseppe Pandolfo 3 febbraio Modelli continui di probabilità: la v.c. uniforme continua

Facoltà di Psicologia Università di Padova Anno Accademico

STATISTICA IX lezione

Capitolo 12 La regressione lineare semplice

Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica

Concetto di potenza statistica

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

Calcolo delle probabilità

IL TEST CHI QUADRATO χ 2

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

Lineamenti di econometria 2

Servizi di consulenza specialistica per IGRUE

Corso di. Dott.ssa Donatella Cocca

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità C

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

ESERCIZIO N 4. Fatturato Supermercati [0;500) 340 [500;1000) 368 [1000;5000) 480 [5000;10000) 37 [10000;20000) 15 taglia = 1240

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Statistica inferenziale

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

Teoria delle code. Sistemi stazionari: M/M/1 M/M/1/K M/M/S

Test non parametrici. Test non parametrici. Test non parametrici. Test non parametrici

La distribuzione Normale. La distribuzione Normale

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

Metodi statistici per le ricerche di mercato

Università del Piemonte Orientale. Corsi di Specialità. Corso di Statistica Medica. Analisi dei dati quantitativi : Analisi della varianza

METODOLOGIA CLINICA Necessita di: Quantificazione Formalizzazione matematica

La logica statistica della verifica (test) delle ipotesi

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

Analisi dei residui. Test Esatto di Fisher. Differenza fra proporzioni

Analizza/Confronta medie. ELEMENTI DI PSICOMETRIA Esercitazione n Test t. Test t. t-test test e confronto tra medie chi quadrato

OSSERVAZIONI TEORICHE Lezione n. 4

Il controllo delle prestazioni del provider. IL CONTROLLO DELLE PRESTAZIONI DEL PROVIDER (riferimenti)

Esercizio 1. Proprietà desiderabili degli stimatori (piccoli campioni)

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

PROGRAMMA SVOLTO NELLA SESSIONE N.

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

ANALISI DI CORRELAZIONE

PRODUZIONE DI LENTI A CONTATTO

Appunti sulla Macchina di Turing. Macchina di Turing

ANALISI DEI DATI EPIDEMIOLOGICI

Relazioni statistiche: regressione e correlazione

Transcript:

Cenni di Statistica Inferenziale Teorema del limite centrale Data una variabile, qualsiasi sia la sua distribuzione, la media di tutti i suoi campioni di ampiezza n ha una distribuzione normale: dove: x x = N ( µσ, / n ) è la media campionaria μ è la media della popolazione σ è la deviazione standard della popolazione n è la dimensione del campione

Uso del teorema del limite centrale Dall equazione: e dal fatto che circa il 95% dei valori in una distribuzione normale cade al più a distanza di 2 deviazioni standard dalla media emerge che dato un singolo campione di n elementi con media xx con confidenza 95% xx cade nell intervallo [μμ 2 σ nn, μμ + 2 σ nn ] ovvero possiamo ritenere che la stima μμ della media di una popolazione sia accettabile al 95% se la media xx di un campione di dimensione n cade nell intervallo: [μμ 2 σ x = N ( µσ, / n ) nn, μμ + 2 σ nn ]

Esempio Ipotesi: la media della popolazione è µ= 50 Sappiamo che: Deviazione standard della popolazione σ = 15 dimensione del campione N = 25 Media del campione xx = 61 Intervallo di accettazione con confidenza al 95% [50 2 15/ 25, 50 + 2 15/ 25] = [44,56] L ipotesi sarebbe confermata se la media stimata cadesse nell intervallo: in questo caso viene rifiutata

Graficamente Distribution of the average if null hypothesis is true Sample Average Conclusion: Reject the Null Hypothesis Rejection Region 30,0 35,0 40,0 45,0 50,0 55,0 60,0 65,0 70,0 x Hypothesis Test Ho: Mean = 50 Ha: Mean <> 50 (2-tailed) Ha: Mean > 50 (1-tailed) Ha: Mean < 50 (1-tailed) Population Mean: 50 Population Sigma: 15 Sample Average: 61 Sample Size: 25 Standard Error: 3,000 Alpha: 0,05 Lower Critical Value: 44,120 Upper Critical Value: 55,880 Z-Score: 3,667 P-value (2-sided): 0,02%

Esempio Ipotesi: la media della popolazione è µ= 50 Sappiamo che: Deviazione standard della popolazione σ = 15 dimensione del campione N = 25 Media del campione xx = 45 Intervallo di accettazione con confidenza al 95% [50 2 15/ 25, 50 + 2 15/ 25] = [44,56] L ipotesi sarebbe confermata se la media stimata cadesse nell intervallo: in questo caso viene accettata

Graficamente Distribution of the average if null hypothesis is true Sample Average x Rejection Region Hypothesis Test Ho: Mean = 50 Ha: Mean <> 50 (2-tailed) Ha: Mean > 50 (1-tailed) Ha: Mean < 50 (1-tailed) Population Mean: 50 Population Sigma: 15 Sample Average: 45 Sample Size: 25 Standard Error: 3,000 30,0 35,0 40,0 45,0 50,0 55,0 60,0 65,0 70,0 Conclusion: Do Not Reject the Null Hypothesis Alpha: 0,05 Lower Critical Value: 44,120 Upper Critical Value: 55,880 Z-Score: -1,667 P-value (2-sided): 9,56%

Riassumendo: Dati una ipotesi µ sulla media di una popolazione La deviazione standard σ della popolazione un campione di dimensione n della popolazione Si può accettare l ipotesi con confidenza 95% se la media del campione cade nell intervallo [μμ 2 σ nn, μμ + 2 σ nn ]

Ovvero Dati un campione di dimensione n con media xx di una popolazione La deviazione standard σ della popolazione Possiamo stimare la media della popolazione con confidenza al 95% come xx ±2 σ nn E evidente che la stima è tanto più precisa quanto maggiore è n, che determina l ampiezza dell intervallo (la famosa forchetta delle previsioni)

Z-values Dall equazione x = N( µ, σ n), sottraendo µ e dividendo per σ / Otteniamo x µ = N(0,1) σ / n x µ Il valore è quindi distribuito normalmente con media 0 e σ / n deviazione standard 1 Uno z-value, scritto zp, è il punto z tale che, rispetto alla gaussiana standard la probabilità che che un valore sia minore o uguale a zp è proprio p Per esempio z0,95 è 1,96 poichè il 95% dei valori su una gaussiana standard sono minori di 1,96 n

Intervalli di confidenza La definizione di z-values, considerando anche il fatto che siamo interessati a escludere i valori ai due estremi ci porta a questa equazione, in cui α è il livello di significatività: P x z σ < µ < x n σ = n 1 α / 2 + 1 α / 2 1 z α z 1.96 Per esempio se α=0,05 allora 0.05/ 2 (circa 2 come assunto in precedenza) e quindi i limiti dell intervallo di confidenza al 95% sono: σ [ xx 1,96 1 = nn, xx + 1,96 σ nn ]

Tabella degli intervalli di confidenza 1-α Intervallo di confidenza 0,800 0,900 0,950 0,990 0,999 x ± 1.282 σ / n x ± 1.645 σ / n x ± 1.960 σ / n x ± 2.576 σ / n x ± 3.290 σ / n

Testing di ipotesi 1. osserva il fenomeno 2. ripeti 1. formula una teoria 2. raccogli i dati 3. analizza i dati finche l analisi conferma la teoria

Gli ingredienti del test 1. una ipotesi nulla H 0 : rappresenta la teoria attuale del fenomeno sotto analisi 2. una ipotesi alternativa H a : è una teoria alternativa che viene accettata nel caso che la ipotesi nulla venga respinta. Spesso l ipotesi alternativa è l ipotesi che si vuole accettare. In un esempio medico, nello studio degli effetti di un nuovo farmaco, l ipotesi nulla può essere che il nuovo farmaco non abbia miglior comportamento rispetto alla terapia standard 3. Una statistica di controllo (test statistic): è calcolata sui dati per decidere se accettare o respingere l ipotesi nulla 4. una regione di rifiuto: specifica l insieme dei valori del test statistico per cui rifiutare l ipotesi nulla.

Un esempio In una fabbrica di componenti elettronici l attuale standard di produzione fa rilevare che in ogni partita prodotta il numero di componenti difettosi ha una media di 50 e una deviazione standard di 15. Viene proposto un nuovo processo di produzione. Il test del processo consiste nel produrre un campione di 25 partite. Il numero medio di difetti per partita risultante è 45. Vale la pena passare al nuovo processo di produzione?

Il test dell ipotesi H 0 : il nuovo processo non introduce miglioramenti H a : il nuovo processo introduce miglioramenti, ovvero la diminuzione di difetti non è dovuta a una fluttuazione random ovvero H 0 : il numero medio di componenti difettosi con il nuovo processo è ancora 50 H a : il numero medio di componenti difettosi con il nuovo processo non è 50

Statistica di controllo (test statistic) e regione di rifiuto In questo caso la statistica di controllo è la media del campione, ovvero 45 Se vogliamo una confidenza del 95%, l intervallo di confidenza, ovvero la regione di rifiuto dell ipotesi alternativa è: [ ] 50 1.96 15/ 25,50 + 1.96 15/ 25 = [44.12,55.88] Poiché 45 è incluso nella regione di rifiuto, l ipotesi alternativa viene rifiutata, ovvero il nuovo metodo è rifiutato e viene accettata l ipotesi nulla. x

Distribuzione t (t-distribution) Abbiamo assunto che il valore di σ (la deviazione standard della popolazione) sia noto se non lo è (e in genere non lo è), si può usare invece il valore s della deviazione standard del campione (ovviamente noto) Gosset, impiegato alla birreria Guinness a Dublino, scoprì che il rapporto x µ s / n in cui la deviazione standard del campione (s) sostituisce la deviazione standard della popolazione (σ) non ha una distribuzione normale, ma una leggermente diversa detta t-distribution.

t distribution standard Normal

La t-distribution è simmetrica, centrata sullo 0 t-distribution Caratterizzata da un singolo parametro, detto grado di libertà, uguale alla dimensione del campione meno 1 Per calcolare l intervallo di confidenza usiamo ora i t-value, che dipendono sia dalla confidenza α richiesta, sia dal grado di libertà uguale a n-1, dove n è la dimensione del campione. L intervallo di confidenza è: x t s x + t 1 α / 2, n 1, 1 α / 2, n 1 n s n Definiamo t-value come x µ 0 s n

t-values In Excel il t-value è calcolato dalla funzione TINV(p,df) p è il p-value di una distribuzione a due code, per esempio 0,05 df è il grado di libertà Per esempio, con un campione di 25 elementi l intervallo di rifiuto per una confidenza del 95% è: x 2.06 s, 5 x + 2.06 s 5

Esempio L amministrazione dell università afferma che la spesa media di libri per anno a informatica umanistica è inferiore a 200. Un rappresentante degli studenti intervista 25 colleghi scelti casualmente e verifica che: la spesa media del campione è di 220 La deviazione standard del campione è 50 C è sufficiente evidenza che l amministrazione abbia sottostimato la spesa per libri?

Esempio (cont.) Ipotesi nulla H0 : la spesa media per testi è 200 Ipotesi alternativa Ha: la spesa media per testi è significativamente diversa da 200 Costruiamo un intervallo di rifiuto al 95% ovvero: 50 50 220 t 0.95/ 2,24,220 + t0.95/ 2, 24 25 25 t 0,95/ In Excel possiamo calcolare 2,24 con la funzione TINV(0.05,24) L intervallo di rifiuto è quindi: [199.36,240,64] E quindi l ipotesi alternativa è rifiutata e confermata l ipotesi nulla.

Applicazione del t-test a dati accoppiati La t-distribution è utile per confrontare dati accoppiati, ovvero osservazioni organizzate a coppie in cui si vuol valutare la differenza tra le coppie L esempio tipico è valutare se una certa operazione effettuata su un numero di elementi ha portato cambiamenti a una specifica caratteristica degli elementi stessi confrontanto una misura della caratteristica prima e dopo l operazione. Per esempio, in campo medico, dato un gruppo di pazienti si può confrontare una loro analisi (p.e. Colestorolo) prima e dopo la somministrazione di un certo farmaco per valutarne l effetto.

Applicazione del t-test a dati accoppiati Il T-test viene usato per verificare se ci sono differenze significative tra le due serie di osservazioni. L ipotesi nulla è che non ci siano variazioni di rilievo, ovvero che la media delle variazioni sia 0 L ipotesi alternativa è che ci siano variazioni di rilievo Calcolando media e deviazione standard del campione di differenze possiamo quindi calcolare l intervallo di rifiuto in accordo ad una confidenza scelta e verificare se 0 cade o meno nell intervallo

Esempio: dati Dati relativi alla percentuale di occupazione femminile (WLABOR) City Year_68 Year_72 N.Y. 0,42 0,45 L.A. 0,50 0,50 Chicago 0,52 0,52 Philadelphia 0,45 0,45 Detroit 0,43 0,46 San Francisco 0,55 0,55 Boston 0,45 0,60 Pitt. 0,34 0,49 St. Louis 0,45 0,35 Connecticut 0,54 0,55 Wash., D.C. 0,42 0,52 Cinn. 0,51 0,53 Baltimore 0,49 0,57 Newark 0,54 0,53 Minn/St. Paul 0,50 0,59 Buffalo 0,58 0,64 Houston 0,49 0,50 Patterson 0,56 0,57 Dallas 0,63 0,64

Esempio: calcoliamo le differenze, la media e la deviazione standard City Year_68 Year_72 Diff N.Y. 0,42 0,45 0,03 L.A. 0,50 0,50 0,00 Chicago 0,52 0,52 0,00 Philadelphia 0,45 0,45 0,00 Detroit 0,43 0,46 0,03 San Francisco 0,55 0,55 0,00 Boston 0,45 0,60 0,15 Pitt. 0,34 0,49 0,15 St. Louis 0,45 0,35-0,10 Connecticut 0,54 0,55 0,01 Wash., D.C. 0,42 0,52 0,10 Cinn. 0,51 0,53 0,02 Baltimore 0,49 0,57 0,08 Newark 0,54 0,53-0,01 Minn/St. Paul 0,50 0,59 0,09 Buffalo 0,58 0,64 0,06 Houston 0,49 0,50 0,01 Patterson 0,56 0,57 0,01 Dallas 0,63 0,64 0,01 media 0,033684 stdev 0,059741

Esempio calcoliamo la regione di rifiuto per confidenza del 95% x t s x + t 1 α / 2, n 1, 1 α / 2, n 1 n s n L estremo sinistro è calcolabile con l espressione Excel: 0,033684 - TINV(0,05;18)*0,059741/sqrt(19) L estremo destro con l espressione: 0,033684 + TINV(0,05;18)*0,059741/sqrt(19) l intervallo è: [0,0049, 0,0625] Quindi l ipotesi nulla, cioè 0, cade al difuori della regione di rifiuto e accettiamo l ipotesi alternativa.

T-test in Excel Caricare il data Analysis ToolPack Selezionare Data Analysis dal Tools menu Nel menu Analysis Tools selezionare: t-test: Paired Two Sample for Means Dare come input le due colonne di dati da confrontare e il livello di confidenza (es. 0,95) La media ipotizzata

Esempio di T-test in Excel Dati relativi alla percentuale di occupazione femminile (Wlabor) City Year_68 Year_72 N.Y. 0,42 0,45 L.A. 0,50 0,50 Chicago 0,52 0,52 Philadelphia 0,45 0,45 Detroit 0,43 0,46 San Francisco 0,55 0,55 Boston 0,45 0,60 Pitt. 0,34 0,49 St. Louis 0,45 0,35 Connecticut 0,54 0,55 Wash., D.C. 0,42 0,52 Cinn. 0,51 0,53 Baltimore 0,49 0,57 Newark 0,54 0,53 Minn/St. Paul 0,50 0,59 Buffalo 0,58 0,64 Houston 0,49 0,50 Patterson 0,56 0,57 Dallas 0,63 0,64

Risultato Variable 1 Variable 2 Commento Mean 0,493157895 0,526842105 medie Variance 0,004622807 0,005011696 varianze Observations 19 19 dimensione del campione (n) Pearson Correlation 0,630073428 indice di correlazione Hypothesized Mean Difference 0 differenza delle medie ipotizzata df 18 gradi di libertà (n-1) t Stat -2,457703816 t-value P(T<=t) one-tail 0,012176299 nota 1 t Critical one-tail 1,734063592 nota 2 P(T<=t) two-tail 0,024352597 nota 3 t Critical two-tail 2,100922037 nota 4 Nota1: se t < 0, P(T<=t) one-tail è la probabilità che un t-value sia minore di t se t > 0, P(T<=t) one-tail è la probabilità che un t-value sia maggiore di t Nota 2: un t-value è maggiore di t Critical con probabilità α (nell esempio 0.05) Nota 3: P(T<=t) two-tail è la probabilità che un t-value sia più grande in valore assoluto di t Nota 4: un t-value è maggiore in valore assoluto di t Critical con probabilità α (nell esempio 0.05) Poiché il t Stat, ovvero ( x µ, è maggiore in valore assoluto di t critical 0) /( s / n) (2.4577 > 2.1009), accettiamo l ipotesi alternativa.

Esercitazione Il file RACEPAIR contiene informazioni su tempi di reazione e tempi di gara per batterie, semifinali e finali di centometristi delle olimpiadi 96. Si vuole verificare se c è evidenza che il tempo di rezione cambia passando alle gare successive. Si usi il paired t-test per analizzare le differenze tra le seguenti variabili: React 1 vs. React 2, React 1 vs React 3 e React 2 vs React 3. Si calcoli l intervallo di confidenza al 95%.

T-Test per confrontare due campioni separati Importante per capire se ci sono differenze significative tra due campioni separati omogenei Esempi: Confrontare gli stipendi tra i dipendenti maschi e i dipendenti femmine di una azienda Confrontare una specifica analisi per un campione di pazienti sottoposti ad una cura e un campione di controllo (con la stessa malattia) a cui è stato somministrato un placebo.

Due possibili statistiche Sotto l ipotesi che i campioni siano estratti da popolazioni con diverse deviazioni standard: t = ( x 1 x2) ( µ 1 µ 2) s n 2 1 1 s + n 2 2 2

Sotto l ipotesi che i campioni siano estratti da popolazioni con la stessa deviazione standard stimata come: In questo caso 2 1) ( 1) ( 2 1 2 2 2 2 1 1 + + = n n s n s n s 2 1 2 1 2 1 1 1 ) ( ) ( n n s x x t + = µ µ

Testare l ipotesi Una volta calcolato t dobbiamo verificare se in una t-distribuzione con (n_1 + n_2-2) gradi di libertà t è significativo. La funzione T_DIST.2T(t;n_1 + n_2-2) la probabilità α corrispondente al valore t. Per esempio se poniamo la significatività al 95% (ovvero α = 0,05) e abbiamo t= 2,05 e due campioni uno di 56 elementi e l altro di 34 T_DIST.2T (1,98;88)= 0,043 valore inferiore ad α che mi porta a rifiutare l ipotesi. Mentre T_DIST.2T (1,20;88)= 0,223 valore superiore ad α che mi fa accettare l ipotesi

Applicazione del Two-sample data in Excel: analisi delle case di cura Abbiamo i dati relativi a 51 case di cura (NURSEHOME), ciascuno con i seguenti attributi: Medical_Days Location numero di giorni di ricovero annuali rural/non rural Vogliamo analizzare se il numero totale medio di giorni di ricovero è diverso tra le cliniche di campagna (rural) e le altre

Rural Non Rural 203 385 234 392 372 419 305 363 188 169 426 192 164 321 284 336 375 442 133 202 318 204 213 286 280 375 191 278 83 423 776 471 214 213 366 327 220 189 88 158 300 177 336 136 205 323 222 200 355 203 390 144

Testing dell ipotesi Ipotesi nulla: il numero medio totale di ricoveri è indipendente dalla posizione della clinica Ipotesi alternativa: il numero medio totale di ricoveri non è indipendente dalla posizione Assumiamo, almeno inizialmente, che la deviazione standard delle due popolazioni sia la stessa

Usando Data Analysis in Excel Selezionare t-test assuming equal variances Fornire i seguenti input Range dei valori per le rurali Range dei valori per le non rurali Alpha = 0,05

Risultato t-test: Two-Sample Assuming Equal Variances Variable 1 Variable 2 Mean 257,9705882 322,1111111 Variance 16449,96881 9031,633987 Observations 34 18 Pooled Variance 13927,73497 Hypothesized Mean Difference 0 df 50 t Stat -1,864516746 P(T<=t) one-tail 0,034062243 t Critical one-tail 1,675905026 P(T<=t) two-tail 0,068124486 t Critical two-tail 2,008559072 Poiché t Stat in valore assoluto è minore di t Critical two-tail (1,86 < 2,00) rifiutiamo l ipotesi alternativa, ovvero non ci sono differenze tra rurali enon rurali

Ma... Se assumiamo invece che le deviazioni standard delle due popolazioni siano diverse, abbiamo t-test: Two-Sample Assuming Unequal Variances Variable 1 Variable 2 Mean 257,9705882 322,1111111 Variance 16449,96881 9031,633987 Observations 34 18 Hypothesized Mean Difference 0 df 44 t Stat -2,043085506 P(T<=t) one-tail 0,023530882 t Critical one-tail 1,680229977 P(T<=t) two-tail 0,047061764 t Critical two-tail 2,015367547 Poiché t Stat in valore assoluto è maggioredi t Critical two-tail (2,04 > 2,01) dobbiamo accettare l ipotesi alternativa, ovvero ci sono differenze tra rurali enon rurali

E allora? Dobbiamo cercare di scoprire perché le deviazioni standard dei campioni, rispettivamente 128,25 per le rural e 95,03 per le nonrural sono così diverse Analizziamo la distribuzione di rural Che mostra un clamoroso outlier che giustifica la correttezza della prima risposta