Intervallo di confidenza

Documenti analoghi
LEZIONI DI STATISTICA MEDICA

Le statistiche campionarie sono stime dei parametri ignoti della popolazione al cui valore siamo interessati.

Test d ipotesi: confronto fra medie

Statistica Inferenziale

Statistica Inferenziale

Distribuzioni campionarie

DISTRIBUZIONI DI CAMPIONAMENTO

x ;x Soluzione Gli intervalli di confidenza possono essere ottenuti a partire dalla seguente identità: da cui si ricava: IC x ;x = +

05. Errore campionario e numerosità campionaria

Approssimazione normale alla distribuzione binomiale

Distribuzioni e inferenza statistica

Schema lezione 5 Intervalli di confidenza

Esercizi di Probabilità e Statistica

Inferenza statistica: intervalli di fiducia (confidenza)

UNIVERSITÀ DEGLI STUDI DI PERUGIA

Questo calcolo richiede che si conoscano media e deviazione standard della popolazione.

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. La distribuzione t - student

STATISTICA A D (72 ore)

STATISTICA ESERCITAZIONE

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 5

Contenuti: Capitolo 14 del libro di testo

Il campionamento e l inferenza. Il campionamento e l inferenza

Quanti soggetti devono essere selezionati?

Ulteriori Conoscenze di Informatica e Statistica

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

C.I. di Metodologia clinica

Analisi della varianza

Esercitazione 8 maggio 2014

Metodologia Sperimentale Agraria e Forestale

Regressione lineare semplice

Campionamento La statistica media campionaria e la sua distribuzione. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1

ISTOGRAMMI E DISTRIBUZIONI:

Esercizio 1. Stima intervallare: IC per la media incognita (varianza ignota)

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

Statistica4-29/09/2015

STATISTICA A K (60 ore)

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

SOLUZIONI ESERCITAZIONE NR. 8 Test statistici

Test d ipotesi. Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona. Ipotesi alternativa (H 1 )

Intervalli di confidenza

Generalizzare i risultati ottenuti da un insieme campione alla popolazione dal quale esso è stato estratto

b) E necessario formulare delle ipotesi per calcolare l intervallo di confidenza ottenuto al punto a? (motivare brevemente la risposta):

ESERCIZIO pag ? = Stima del numero medio di battiti cardiaci /minuto per una certa popolazione.

Dispensa di Statistica

LA DISTRIBUZIONE NORMALE. La distribuzione Gaussiana. Dott.ssa Marta Di Nicola

STATISTICA A K (60 ore)

Cap. 7 Distribuzioni campionarie

Ipotesi statistiche (caso uno-dimensionale) Ipotesi poste sulla (distribuzione di) popolazione per raggiungere una decisione sulla popolazione stessa

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Esame di Statistica A-Di Prof. M. Romanazzi

LE DISTRIBUZIONI CAMPIONARIE

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI

Statistica. Lezione 4

È possibile trovare la popolazione di origine conoscendone un campione? o meglio. partendo dalla conoscenza di n, x e d.s.?

Presentazione dell edizione italiana

Ringraziamenti dell Editore

DISTRIBUZIONI DI PROBABILITA

Statistica Metodologica

4. Si supponga che il tempo impiegato da una lettera spedita dall Italia per arrivare a destinazione segua una distribuzione normale con media

STATISTICA A K (60 ore)

Confronto tra due popolazioni Lezione 6

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

tabelle grafici misure di

LEZIONI DI STATISTICA MEDICA

Distribuzioni di probabilità

Lezione VII: t-test. Prof. Enzo Ballone

Esercizi riassuntivi di Inferenza

Esercitazioni di Statistica

standardizzazione dei punteggi di un test

Capitolo 9 Verifica di ipotesi: test basati su un campione

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Distribuzione Normale

LA DISTRIBUZIONE NORMALE (Vittorio Colagrande)

Statistica Inferenziale

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

La verifica delle ipotesi

Test delle Ipotesi Parte I

Caratterizzazione dei consumi energetici (parte 3)

Casa dello Studente. Casa dello Studente

Test per una media - varianza nota

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Test delle ipotesi sulla media.

PROBABILITÀ ELEMENTARE

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson Apogeo

Test per l omogeneità delle varianze

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson. Casa editrice: Pearson

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Dr. ssa Elena Schievano Statistico c/o Sistema Epidemiologico Regionale SER Regione Veneto

Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii

Note sulla probabilità

Capitolo 8. Probabilità: concetti di base

Dipartimento di Fisica a.a. 2004/2005 Fisica Medica 2 Campionamento 29/4/2005

Esercitazione 4 del corso di Statistica (parte 2)

Capitolo 5 Confidenza, significatività, test di Student e del χ 2

ESAME. 9 Gennaio 2017 COMPITO B

STATISTICA A K (63 ore) Marco Riani

Transcript:

Intervallo di confidenza Prof. Giuseppe Verlato, Prof. Roberto de Marco Sezione di Epidemiologia e Statistica Medica, Università di Verona campione inferenza popolazione Media Riportare sempre anche Stima puntuale di µ la deviazione standard Media, dev.standard, numerosità Qualche semplice calcolo Intervallo di confidenza (stima intervallare di µ) Su 20 intervalli di confidenza al 95%, 19 contengono µ, il valore vero della popolazione 1

Esempio di distribuzione normale: distribuzione della glicemia in una popolazione diabetica =24 = media della popolazione =deviazione standard della popolazione =160 Dal momento che il campione viene estratto casualmente dalla popolazione, le conclusioni tratte da un campione possono essere errate. L inferenza statistica viene fatta con umiltà : 1) si cerca di stimare la probabilità di commettere errori 2) si cerca di limitare la probabilità di commettere errori 2

Densità di probabilità media ± 1 dev.standard = 75 ± 5 = 70-80 Kg 68,26% 60 65 70 75 80 85 90 Peso (Kg) Densità di probabilità media ± 2 dev.standard = 75 ± 10 = 65-85 Kg 95,44% 60 65 70 75 80 85 90 Peso (Kg) Densità di probabilità media ± 3 dev.standard = 75 ± 15 = 60-90 Kg 99,74% 60 65 70 75 80 85 90 Peso (Kg) 3

densit di probabilit DISTRIBUZIONE DELLA MEDIA CAMPIONARIA PER N=36-1,96 / n + 1,96 / n In quest'area cade il 95% delle medie campionarie 2 1,96 / n glicemia (mg/dl) 4

La stima puntuale fornisce un singolo valore. Tuttavia: 1) questo valore non coincide quasi mai con il valore vero (parametro) della popolazione; 2) campioni diversi forniscono stime puntuali diverse. La stima intervallare fornisce un intervallo, che ha una predeterminata probabilità di contenere il valore vero della popolazione. Pertanto: 1) quest intervallo ha una determinata probabilità (in genere, il 95%) di contenere il valore vero (parametro) della popolazione; 2) gli intervalli ottenuti da campioni diversi in genere si sovrappongono. INTERVALLO di CONFIDENZA: DEFINIZIONE Per intervallo di confidenza di un parametro Θ della popolazione, intendiamo un intervallo delimitato da due limiti L inf (limite inferiore) ed L sup (limite superiore) che abbia una definita probabilità (1- α) di contenere il vero parametro della popolazione: dove: 1- α = grado di confidenza α = probabilità di errore p(l inf < Θ < L sup ) = 1-α 5

DERIVAZIONE DELL'INTERVALLO DI CONFIDENZA AL 95% PER LA MEDIA DI UNA POPOLAZIONE (Dev.St. NOTA) Pr (µ - 1.96 * σ / n < x < µ + 1.96 * σ / n) = 0,95 µ - 1.96 * σ / n < x < µ + 1.96 * σ / n µ - 1.96 * σ / n < x µ < 1.96 * σ / n -x -x - 1.96 * σ / n < - µ < -x + 1.96 * σ / n Moltiplico per -1 x + 1.96 * σ / n > µ > x - 1.96 * σ / n x - 1.96 * σ / n < µ < x + 1.96 * σ / n L intervallo di confidenza diminuisce se 1) diminuisce il livello di confidenza (1-α) (dal 99% al 95% al 90%) 2) aumenta la numerosità del campione (da n=4 a n=36 a n=100) 3) diminuisce la variabilità nella popolazione (da σ=48 a σ=24 a σ=12) 6

155 ± 1,645 4 155 ± 1,960 4 155 ± 2,576 4 7

Esempio: Calcolo dell'intervallo di confidenza della media di una popolazione Problema: Qual è l intervallo di confidenza al 95% della media del peso di una popolazione, se la media di un campione di 16 soggetti è pari a 75 Kg? Nella popolazione il peso è distribuito normalmente con deviazione standard pari a 12 Kg. Dati: x = 75 Kg σ = 12 Kg n = 16 1-α= 95% z α/2 = 1,96 Formula da utilizzare: I.C. 95% = x ± z α/2 σ/ n = x ± z α/2 E.S. I passo: calcolo l errore standard E.S. = σ / n = 12/ 16 = 12/ 4 = 3 Kg II passo: calcolo l intervallo di confidenza I.C. 95% = x ± z α/2 E.S. = 75 ± 1,96 3 = 80,88 Kg 69,12 Kg L intervallo che va da 69,12 Kg (limite inferiore) a 80,88 Kg (limite superiore) ha 95 probabilità su 100 di contenere la media vera della popolazione. 8

E se non conosco σ, la deviazione standard della popolazione? Posso usare s (dev. standard del campione) come stima di σ Se la numerosità campionaria è sufficientemente grande (n 60), s è una stima precisa di σ. Se la numerosità campionaria è piccola (n<60), stimare σ tramite s introduce un ulteriore fonte di variabilità campionaria I.C. = x ± Z α/2 * s / n Al posto della distribuzione z, devo utilizzare un altra distribuzione di probabilità, la distribuzione t, caratterizzata da una maggiore dispersione. Distribuzione T di Student ν =infinito (distr. normale) densità di probabilità ν = 10 ν = 5 ν = 1 ν = n-1 = gradi di libertà -5-4 -3-2 -1 0 1 2 3 4 5 z = -------- x-µ t = -------- x-µ σ/ n s/ n 9

z = -------- x-µ σ Riassumendo: z = -------- x-µ σ/ n t = -------- x-µ s/ n σ nota x ± Z α/2 * σ / n σ ignota x ± t α/2, ν * s / n Prima della diffusione dei computer si cercava di utilizzare l approssimazione normale ogni qualvolta possibile. Adesso non è più necessario, per cui la formula seguente è caduta in disuso: σ ignota n 60 x ± Z α/2 * s / n Esempio: Calcolo dell'intervallo di confidenza della media di una popolazione Problema: Qual è l intervallo di confidenza al 95% della media del peso di una popolazione, se la media di un campione di 16 soggetti è pari a 75 Kg e la deviazione standard è pari a 12 Kg? Dati: x = 75 Kg s = 12 Kg n = 16 1-α= 95% t 15, α/2 = 2,131 Formula da utilizzare: I.C. 95% = x ± t α/2 σ/ n = x ± t α/2 E.S. I passo: calcolo l errore standard E.S. = s / n = 12/ 16 = 12/ 4 = 3 Kg II passo: calcolo l intervallo di confidenza I.C. 95% = x ± t 15, α/2 E.S. = 75 ± 2,131 3 = 81,39 Kg 68,61 Kg L intervallo che va da 68,61 Kg (limite inferiore) a 81,39 Kg (limite superiore) ha 95 probabilità su 100 di contenere la media vera della popolazione. 10

Intervallo di confidenza θ = µ livello di confidenza = 0,95 x 1,96 * σ / n < µ < x + 1,96 * σ / n per un generico livello di confidenza = 1-α x - Z α/2 * σ / n < µ < x + Z α/2 * σ / n ^ per un generico parametro θ ^ ^ ^ θ - Z α/2 * E.S.(θ) < θ < θ + Z α/2 * E.S.(θ) Problema 3: Calcolo dell'intervallo di confidenza di una proporzione di una popolazione Problema: Qual è l intervallo di confidenza al 95% della probabilità (prevalenza) di asma in una popolazione, se la frequenza relativa di asma in un campione di 225 soggetti è pari a 0,05 (5%)? Dati: p = 0,05 n = 225 1-α= 95% z α/2 = 1,96 I.C. =? Formula da utilizzare: I.C. 95% = p ± z α/2 p(1-p)/n = p ± z α/2 E.S. I passo: calcolo l errore standard E.S. = p(1-p)/n = 0,05(1-0,05)/225 = 0,05*0,95/225 = 0,01453 = 1,45 % II passo: calcolo l intervallo di confidenza Limite superiore = 5 + 1,96*1,45 = 7,85% I.C. 95% = p ± z α/2 E.S. = Limite inferiore = 5-1,96*1,45 = 2,15% L intervallo che va dal 2,15% (limite inferiore) al 7,85% (limite superiore) ha 95 probabilità su 100 di contenere la prevalenza vera di asma in quella determinata popolazione. 11

INTERVALLO DI CONFIDENZA DI LIVELLO (1-α) PER UNA PROPORZIONE Se np 10 e n(1-p) 10 π = p N(π, π(1-π)/n) utilizzo p(1-p)/n per stimare π(1-π)/n p - Z α/2 * p(1-p)/n < π < p + Z α/2 * p(1-p)/n per 1-α = 95% p - 1,96 * p(1-p)/n < π < p + 1,96 * p(1-p)/n Problema 4: Utilizzo dell'intervallo di Confidenza per decidere la numerosità di un campione. Problema: Si vuole stimare la prevalenza (probabilità) di asma in una popolazione. Dati preliminari provenienti dalla letteratura suggeriscono che la prevalenza di asma si aggiri intorno al 5%. Qual è la numerosità campionaria necessaria per ottenere un intervallo di confidenza al 95% di ampiezza inferiore o uguale al 2%? Dati: p = 0,05 1-α= 95% z α/2 = 1,96 ampiezza IC 2% n =? (p + z α/2 p(1-p)/n) - (p - z α/2 p(1-p)/n) δ 2 z α/2 p(1-p)/n δ divido il I e il II membro per 2 z α/2 p(1-p)/n δ /(2 z α/2 ) elevo il I e il II membro al quadrato p(1-p)/n δ 2 /(2 z α/2 ) 2 moltiplico per n e divido per il II membro p(1-p) (2 z α/2 ) 2 / δ 2 n n 0,05*0,95 * (2 * 1,96) 2 / 0,02 2 n 0,0475 * (3,92) 2 / 0,0004 n 0,0475 * 15,36 / 0,0004 n 1824,76 n 1825 12

Intervallo di confidenza per proporzioni APPROSSIMAZIONE NORMALE: casi>=10 e non-casi>=10 tutti i limite limite casi soggetti p % ESp % infer. % sup. % 40 211 18,957 2,698 13,669 24,246 48 300 16,000 2,117 11,851 20,149 METODO ESATTO, basato sulla distribuzione binomiale tutti i limite limite calcoli statistici casi soggetti p % infer. % sup. % plow 2,50% phigh 2,50% 3 55 5,455 1,139 15,123 0,011393 0,02500 0,15123 0,02501 3 75 4,000 0,833 11,248 0,008326 0,02500 0,11248 0,02500 In una distribuzione binomiale con π=0,0083 ed n=75 la probabilità di osservare 3 o più casi è di 0,025 In una distribuzione binomiale con π=0,1125 ed n=75, P(X 3)=0,025 Intervallo di confidenza per tassi di incidenza APPROSSIMAZIONE NORMALE: casi>=30 per 100000 persone-anno casi persone limite limite anno incidenza ES infer. % sup. % 9 30000 30,000 10,000 10,400 49,600 50 30000 166,667 23,570 120,469 212,864 ES = ( casi) / persone-anno IC 95% = inc ± 1,96*ES METODO ESATTO, basato sulla distribuzione di Poisson per 100000 persone-anno casi persone limite limite anno incidenza mi0 mi1 infer. % sup. % 9 30000 30,000 4,120 17,080 13,733 56,933 50 30000 166,667 37,110 65,920 123,700 219,733 In una distribuzione di Poisson con µ=4,12 la probabilità di osservare 9 o più casi è di 0,025 In una distribuzione di Poisson con µ=17,08, P(X 9)=0,025 13