COME CALCOLARE L INTERVALLO DI CONFIDENZA QUANDO E NECESSARIO STIMARE LA DEVIAZIONE STANDARD? (è quasi sempre così!)

COME CALCOLARE L INTERVALLO DI CONFIDENZA QUANDO E NECESSARIO STIMARE LA DEVIAZIONE STANDARD? (è quasi sempre così!) Per fortua le cose o cambiao poi di molto visto che la uova variabile x µ s x co s x = s NON segue ua distribuzioe ormale stadardizzata MA, se la variabile aalizzata ha ua distribuzioe ormale, segue ua uova distribuzioe teorica di probabilità chiamata distribuzioe t di Studet co -1 gradi di libertà

P Quidi ( x t s x+ t s / ) = α α / 2, 1 / µ α / 2, 1 1 e l itervallo di cofideza della media diveta semplicemete da IC (1-α) => x t s / ± α / 2, 1 t α/2, -1 è quidi il valore critico della distribuzioi di t co -1 gradi di libertà, che idetifica, alla sua destra, u area pari a α/2. E se la variabile o ha ua distribuzioe gaussiaa?

La distribuzioe t

Caratteristiche pricipali Varia tra ifiito e +ifiito Ha u parametro, i gradi di libertà (la ormale stadardizzata o ha parametri) o Per campioi di dimesioi diverse esistoo quidi distribuzioi t diverse Media, moda, e mediaa soo uguali Ha media pari a 0 e variaza maggiore di 1. o Se k è grade, la variaza tede a 1 Rispetto alla ormale stadardizzata, ha code più pesati o Maggiore cocetrazioi di valori agli estremi, a causa della maggiore variaza rispetto alla ormale stadardizzata, dovuta all errore ella stima di σ Diveta ua distribuzioe ormale stadardizzata quado i gradi di libertà (e quidi la umerosità del campioe) tedoo a ifiito.

Distribuzioe t ad ua coda. df\p 0.40 0.25 0.10 0.05 0.025 0.01 0.005 0.0005 1 0.324920 1.000000 3.077684 6.313752 12.70620 31.82052 63.65674 636.6192 2 0.288675 0.816497 1.885618 2.919986 4.30265 6.96456 9.92484 31.5991 3 0.276671 0.764892 1.637744 2.353363 3.18245 4.54070 5.84091 12.9240 4 0.270722 0.740697 1.533206 2.131847 2.77645 3.74695 4.60409 8.6103 5 0.267181 0.726687 1.475884 2.015048 2.57058 3.36493 4.03214 6.8688 11 0.259556 0.697445 1.363430 1.795885 2.20099 2.71808 3.10581 4.4370 12 0.259033 0.695483 1.356217 1.782288 2.17881 2.68100 3.05454 4.3178 13 0.258591 0.693829 1.350171 1.770933 2.16037 2.65031 3.01228 4.2208 if 0.253347 0.674490 1.281552 1.644854 1.95996 2.32635 2.57583 3.2905

Distribuzioe t a due code. Degrees of Freedom- 2 tails 0.01 0.02 0.05 0.10 0.20 1 63.66 31.82 12.71 6.314 3.078 2 9.925 6.965 4.303 2.920 1.886 3 5.841 4.541 3.182 2.353 1.638 10 3.169 2.764 2.228 1.812 1.372 15 2.947 2.602 2.132 1.753 1.341 25 2.787 2.485 2.060 1.708 1.316 2.575 2.326 1.960 1.645 1.282

I gradi di libertà (GDL o gdl o df) Hao chiaramete a che fare co la umerosità dell iformazioe che a partire dai dati viee utilizzata i ua aalisi statistica. o Maggiore è il umero delle osservazioi, maggiori sarao i gradi di libertà. Corrispodoo al umero pezzettii di iformazioe idipedeti che vegoo utilizzati per ua stima o u test. I gdl soo ache pari al umero totale di osservazioi (o puteggi) utilizzati i u test o i ua stima meo il umero di parametri che soo stati stimati Nel calcolo dell itervallo di cofideza, se è ecessario stimare la deviazioe stadard si usa ua distribuzioe t co -1 gradi di libertà

Due coclusioi importati La statistica ifereziale implica la coosceza della distribuzioe di probabilità della statistica utilizzata (la media campioaria stadardizzata, el ostro caso). Tale coosceza o ci può ovviamete veire dai dati ma deve essere derivata, teoricamete o i altri modi, utilizzado spesso alcue assuzioi. I ragioameti geerali visti per l itervallo di cofideza di ua media soo applicabili ache agli itervalli di cofideza per altri parametri. E però importate cooscere la distribuzioe di frequeza della statistica che stiamo utilizzado per stimare il parametro.

ESEMPIO APPLICATIVO

ESERCIZIO La tabella riporta media e deviazioe stadard di 4 distribuzioi ormali (prime 2 coloe). Calcolare la probabilità che campioi di 10 o 30 idividui estratti da popolazioi co queste 4 distribuzioi abbiao ua media campioaria maggiore del valore idicato ella terza coloa (X*). P ( x > X *) Media Deviazioe st. X* (=10) P ( x> X *) (=30) 14 5 15 0.2643 0.1379 15 3 15.5-23 4-22 72 50 45

Itervalli di cofideza di ua proporzioe Variabile di tipo qualitativo (fumatori/o fumatori; giovai/adulti; maschi/femmie; mutazioea/mutazioeb/mutazioec/asseza di mutazioe) o Calcoliamo la frequeza di idividui che possiedoo ua certa caratteristica Per esempio, su u campioe di 45 idividui affetti da ua certa patologia, 10 soo fumatori. La proporzioe dei fumatori i questo campioe, p, è quidi 10/45 = 0.22. Come si calcola l itervallo di cofideza di questa proporzioe? o Itervallo che co ua certa probabilità cotiee il valore di questa proporzioe, π, ella popolazioe

La distribuzioe teorica di probabilità della statistica p, è la distribuzioe biomiale o La vedremo presto Se però π e (1-π) soo etrambi maggiori o uguali a 5, ua buoa approssimazioe della distribuzioe biomiale è la be ota distribuzioe ormale. I questo caso, la gaussiaa che approssima la fuzioe di probabilità di p che ci iteressa avrà la media paria a π e la variaza pari a π(1-π)/. L errore stadard di p, sarà quidi σ p = π ( 1 π) Quidi posso utilizzare lo stesso tipo di ragioameti visti per l itervallo di cofideza di ua media quado la variaza era ota e arrivare a ( 1 π) π( 1 π) π P α π p z / 2 p+ zα / 2 = 1 α Da cui IC (1-α) => p ± z α / 2 π ( 1 π)

Ache i questo caso, però, abbiamo u termie, che qui è π, che o è oto Ua buoa approssimazioe si ottiee semplicemete rimpiazzado π co p IC (1-α) => p ± z α / 2 p ( 1 p) A parole: esiste ua probabilità pari a 1-α che l itervallo di cofideza così calcolato cotega la proporzioe vera (cioè, la proporzioe ella popolazioe) Questo metodo è valido solo se è grade e se π o è troppo vicio a 0 o a 1

Esercizio La frequeza dell itolleraza al lattosio, i campioe di 80 soggetti, è risultata pari al 35%. Calcolare l itervallo di cofideza al 99% di questa proporzioe. = 80 p = 0.35 α = 0.01 α/2 = 0.005 zα/2 = 2.576 (da tabella) IC (1-α) => p ± z α / 2 p ( 1 p) IC (99%) => ( 0.35) 0.35 1 0.35± 2.576 = 0.35± 80 0.14 IC (99%) => 0.21 0.49

Piaificare la precisioe: qualche esempio semplice di disego sperimetale L itervallo di cofideza si riduce all aumetare della dimesioe del campioe Per esempio, se posso applicare z IC (1-α) => x ± z / α / 2 σ Defiiamo adesso co il termie geerico di Errore: E = Errore = x µ Lif x Lsup µ

Se per esempio L if e L sup defiiscoo l itervallo di cofideza al 95% o L errore, co ua cofideza del 95%, sarà sempre iferiore a 1.96 σ / La stessa cosa vale ovviamete co diversi valori di α e corrispodeti valori di z Quidi o E max,(1-α) = z / α / 2 σ Che mi permette di calcolare = z E α / 2 σ max,(1 α ) 2 Questa è ovviamete ua dimesioe miima o Co valori di maggiori saremo acora più certi di o commettere u errore superiore al valore di E max,(1-α) che ci è prefissati.

E se ivece siamo i u caso i cui è ecessario utilizzare la distribuzioe t? IC (1-α) => E quidi x t s / ± α / 2, 1 = t E α / 2, 1 s max,(1 α ) 2 Qui però o coosciamo é la deviazioe stadard, e emmeo il valore critico di t, prima di fare l esperimeto E ecessaria ua stima prevetiva di s e trovare per prova ed errore.

Esempio s stimato i precedeti studi o aalisi = 4. Quale sarà la dimesioe del campioe che garatisce u errore o superiore a 1 co ua cofideza del 95%, Scegliamo u iiziale pari a 10: Co = 10 t 0.025,9 = 2.262 e ricalcolato = (2.262*4/1) 2 = 82 (approssimato per eccesso) A questo puto utilizzo il valore di ricalcolato per ripetere l operazioe t 0.025,81 = 1.990 e ricalcolato = (1.990*4/1) 2 = 64 (approssimato per eccesso) t 0.025,63 =1.998 e ricalcolato = (1.998*4/1) 2 = 64 (approssimato per eccesso)

E el caso di u IC di ua proporzioe? IC 95% => p ± z α / 2 π ( 1 π) E E quidi max, ( 1 α) z = E = α / 2 max, z α / 2 ( 1 α) 2 π π ( 1 π ) ( 1 π) ossia Ma π o è oto, e emmeo ua sua stima, prima di fare l esperimeto! Coviee impostare π = 0.5, ossia la valore di π che rede massimo.