Generalizzare i risultati ottenuti da un insieme campione alla popolazione dal quale esso è stato estratto

Documenti analoghi
tabelle grafici misure di

INTRODUZIONE ALLA STATISTICA PER LA RICERCA IN SANITA

LEZIONI DI STATISTICA MEDICA

Verifica delle ipotesi

Intervallo di confidenza.

La Distribuzione Normale (Curva di Gauss)

Metodi statistici per lo studio dei fenomeni biologici

05. Errore campionario e numerosità campionaria

Università del Piemonte Orientale. Corsi di laurea triennale di area tecnica. Corso di Statistica Medica. Intervalli di confidenza

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. Intervalli di confidenza

Quanti soggetti devono essere selezionati?

Le statistiche campionarie sono stime dei parametri ignoti della popolazione al cui valore siamo interessati.

Lezione VI: Distribuzione normale. La distribuzione normale (curva di Gauss). Prof. Enzo Ballone. Lezione 6a- Ia distribuzione normale

LEZIONI DI STATISTICA MEDICA

Brevi cenni all intervallo di confidenza

Statistica Inferenziale

Distribuzioni campionarie

Richiami di inferenza statistica Strumenti quantitativi per la gestione

Distribuzione degli Errori di Misura. La distribuzione normale

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

Intervallo di confidenza

Intervallo di confidenza

Metodi statistici per le ricerche di mercato

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

STATISTICA A K (60 ore)

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

Corso in Statistica Medica

Distribuzione Normale

Esercitazione: La distribuzione NORMALE

x ;x Soluzione Gli intervalli di confidenza possono essere ottenuti a partire dalla seguente identità: da cui si ricava: IC x ;x = +

Distribuzione normale

Intervallo di confidenza

Intervallo di confidenza

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Statistica 1- parte II

Statistica. Capitolo 10. Verifica di Ipotesi su una Singola Popolazione. Cap. 10-1

Parametri statistici

Test d ipotesi: confronto fra medie

Significato probabilistico di σ: su 100 misure, 68.3 hanno probabilità di cadere nell intervallo x σ, x +σ, 95.5 nell intervallo

Esercizi di statistica inferenziale

R - Esercitazione 5. Andrea Fasulo Venerdì 16 Dicembre Università Roma Tre

DISTRIBUZIONE NORMALE (1)

STATISTICA A K (60 ore)

Università del Piemonte Orientale. Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia. Corso di Statistica Medica

Ulteriori Conoscenze di Informatica e Statistica. Popolazione. Campione. I risultati di un esperimento sono variabili aleatorie.

Variabili Casuali Continue

Statistica inferenziale per variabili quantitative

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Elaborazione statistica di dati

Distribuzione Normale

Tecniche di sondaggio

Corso in Statistica Medica

Elementi di Psicometria (con laboratorio software 1)

Introduzione alla statistica per la ricerca in sanità

Contenuti: Capitolo 14 del libro di testo

SCHEDA DIDATTICA N 7

La distribuzione normale

Occorre trovare la distribuzione di DM

Distribuzioni di probabilità nel continuo

Teoria della stima dei parametri:

Lezione VII: Z-test. Statistica inferenziale per variabili quantitative. Statistica inferenziale per variabili quantitative. Prof.

Modelli descrittivi, statistica e simulazione

Statistica Inferenziale Soluzioni 3. Verifica di ipotesi

Metodi statistici per le ricerche di mercato

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

Metodi statistici per le ricerche di mercato

07/01/2016. Scalisi - Tecniche Psicometriche LA VERIFICA DELLE IPOTESI. La verifica delle ipotesi. Popolazioni e campioni

Test di significatività

Intervallo di confidenza

Laboratorio di Probabilità e Statistica

Esercitazione 8 maggio 2014

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. La distribuzione Normale (o di Gauss)

Intervallo di confidenza.

Intervallo di confidenza

Parametri e statistiche. Parametri e statistiche. Distribuzioni campionarie. Popolazione Parametri Valori fissi, Statistiche o Stimatori.

Teorema del Limite Centrale

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 5

Schema lezione 5 Intervalli di confidenza

DISTRIBUZIONI DI CAMPIONAMENTO

STATISTICA A K (63 ore) Marco Riani

Approssimazione normale alla distribuzione binomiale

Elementi di Psicometria con Laboratorio di SPSS 1

Teorema del Limite Centrale

Statistica inferenziale

Corso Integrato di Statistica Informatica e Analisi dei Dati Sperimentali. Esercitazione E

Elaborazione statistica di dati

Tipi di variabili. Indici di tendenza centrale e di dispersione

Dipartimento di Fisica a.a. 2004/2005 Fisica Medica 2 Test di ipotesi 2/5/2005

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

Metodi statistici per le ricerche di mercato

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità B

Distribuzione Normale

SOLUZIONI ESERCITAZIONE NR. 8 Test statistici

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

Intervalli di confidenza

Università di Pavia Econometria. Richiami di Statistica. Eduardo Rossi

ISTOGRAMMI E DISTRIBUZIONI:

Transcript:

Statistica Inferenziale Generalizzare i risultati ottenuti da un insieme campione alla popolazione dal quale esso è stato estratto

Modello Struttura idealizzata che si adatta alla realtà e serve per descriverla, interpretarla, comprenderla Non è VERO o FALSO ma può essere UTILE o INUTILE È una semplificazione: il più semplice possibile, ma non di più

Distribuzione Normale o Gaussiana f(x) 1 = exp σ 2π 1 2 x µ σ 2 Sembra complicato, ma µ è la media σ è Var, ovvero la deviazione standard forma simmetrica a campana area sotto la curva pari a 1 Conoscendo solo due parametri, media e varianza, possiamo sapere come è fatta la variabile di interesse

Caratteristiche della distribuzione gaussiana X~N(µ,σ) µ determina la posizione della curva sull asse delle ascisse. σ determina la maggiore o minore concentrazione della curva attorno a µ

Caratteristiche della distribuzione gaussiana Per qualsiasi distribuzione gaussiana lo scarto σ contrassegna intervalli tipici: il 68.27% delle oss. è compreso nell intervallo [µ-σ; µ+σ] il 95% nell intervallo [µ-1.96σ; µ+1.96σ] il 95.45% nell intervallo [µ-2σ; µ+2σ] il 99.73% nell intervallo [µ-3σ; µ+3σ]

Distribuzione Normale standard (µ=0, =0,σ=1) =1) I valori di probabilità della Normale con µ=0 e σ=1 sono già stati calcolati e riportati in una tavola: Z~N(0,1)

Come si usano le tavole? 0.8944 ad es. P(Z<1.25)= 0.8944

Come si usano le tavole? f(z) 0.4 0.3 0.2 0.1 1-p 0-3 -2-1 0 1 z* 2 3 f(z) 0.4 0.3 0.2 0.1 0 f(z) 0.4 0.3 0.2 0.1 p deviata gaussiana standard z 1-2p -3-2-z* -1 0 1 +z* 2 3 deviata gaussiana standard z 1-p -p p1 p 2 0-3 -2 z-1 0 z 1 2 3 1 1 deviata gaussiana standard z 2 2 p p Detto p (0<p<1) il valore dell'area a destra di +z*, l'area a sinistra di +z* vale (1-p). L'area a sinistra di -z* è uguale all'area a destra di +z*. Detto p (0<p<1) il valore di tale area, l'area esterna a ±z* vale 2p, e l'area interna vale (1-2p). L'area compresa tra due valori z1* < z2* si ricava per differenza (1 - p 1 - p 2 ), dove p 1 è il valore dell'area a sinistra di z 1 *, e p 2 quello dell'area a destra di z 2 *.

Distribuzione Normale (µ 0, 0,σ 1) 1) E possibile trasformare una qualsiasi funzione gaussiana f(x) con media µ e varianza σ 2 in una funzione gaussiana standard, f(z) con media 0 varianza 1, se si pone: Z µ = X σ Z è una trasformata di X, centrata rispetto a µ e scalata rispetto a σ. Il modello si semplifica 1 f(x) = exp σ 2π 1 2 x 2 µ σ E diventa f(x) 1 exp 2π ( z) = 2 2

Spostare il valore medio: x-µ 0 µ x

Modificare la larghezza σ -1 0 +1 +σ x z

Gaussiana (µ σ²) Gaussiana standardizzata (0 1)

Utilizzo gaussiana standard I caso: I parametri µ e σ sono noti, si vuole conoscere la probabilità che la variabile x assuma valori compresi all interno dell intervallo a,b con a<b. II caso: I parametri µ e σ sono noti, si vogliono conoscere gli estremi a,b dell intervallo, centrato su µ, il quale comprende un livello di probabilita fissato p.

Esercizio 1 Data la distribuzione normale standardizzata, si trovi: 1. L area sottesa alla curva fra z=0 e z=1.43 P(z<1.43)-P(z<0)=0.9236-0.5000 = 0.4236 2. P(z 0.55) 1-P(z<0.55)=1-0.7088 = 0.2912 3. P(z -0.55) P(z<0.55)= = 0.7088 4. P(z<2.33) = 0.9901 5. P(z<-2.33) P(z>2.33)=1-P(z<2.33)=1-0.9901 = 0.0099 6. P(-1.96<z<1.96) 1-2*P(z>1.96)=1-2*(1-P(z<1.96))=1-2*(1-0.9750)=1-2*0.025 = 0.95 7. P(-2.58<z<2.58) 1-2*P(z>2.58)=1-2*(1-P(z<2.58))=1-2*(1-0.9951)=1-0.0098 = 0.9902 8. P(-1.65<z<1.65) 1-2*P(z>1.65)=1-2*(1-P(z<1.65))=1-2*(1-0.9505)=1-0.099 = 0.901 9. P(0.49<z<1.74) P(z<1.74)-P(z<0.49)=0.9591-0.6879= = 0.2712

Esercizio 2 Date le seguenti relazioni, si trovi z 1 : 10. P(z z 1 )=0.7703 z 1 = 0.74 11. P(z z 1 )=0.6103 z 1 = 0.28 12. P(z z 1 )=0.9664 z 1 = 1.83 13. P(z z 1 )=0.8051 z 1 = 0.86

Esercizio 3 Qual è la probabilità per un soggetto sano di avere un valore di albumina (x) 42.0 g/l? P(x 42.0) =? Se si dispone della distribuzione dei valori della concentrazione sierica di albumina in soggetti sani

Albumina (g/l) Freq. % % cum. 20-22 2 0.95 0.95 22-24 7 3.32 4.27 24-26 8 3.79 8.06 26-28 10 4.74 12.80 28-30 20 9.48 22.27 30-32 19 9.00 31.28 32-34 28 13.27 44.55 34-36 40 18.96 63.51 36-38 28 13.27 76.78 38-40 22 10.43 87.20 40-42 11 5.21 92.42 42-44 10 4.74 97.16 44-46 3 1.42 98.58 46-48 2 0.95 99.53 48-50 1 0.47 100.00 Totale 211 100.00 Concentrazione sierica di albumina in soggetti sani P(x 42.0 g/l) =? 16/211=7.58% 100-92.42=7.58%

Esercizio 3 Se si conosce solo media (=34.21 g/l) e deviazione standard (=5.39 g/l) se la distribuzione dei valori è approssimativamente gaussiana posso trasformare la variabile un una gaussiana standard ~N(0,1) (x µ ) z = (42 34.21) z = = 1. 45 σ 5.39 P(X 42)=P(Z 1.45)=1-P(Z<1.45) =1-0.9265=0.0735=7.35%

X Z Freq. % % cum. 21-2.45 2 0.95 0.95 23-2.08 7 3.32 4.27 25-1.71 8 3.79 8.06 27-1.34 10 4.74 12.80 29-0.97 20 9.48 22.27 31-0.60 19 9.00 31.28 33-0.22 28 13.27 44.55 35 0.15 40 18.96 63.51 37 0.52 28 13.27 76.78 39 0.89 22 10.43 87.20 41 1.26 11 5.21 92.42 43 1.63 10 4.74 97.16 45 2.00 3 1.42 98.58 47 2.37 2 0.95 99.53 49 2.74 1 0.47 100.00 Tot 211 100.00 CON LA TRASFORMAZIONE z = (x σ m = 0 s = 1 µ) Valori standardizzati

Gli Z-score indicano esattamente quanto un singolo dato è lontano dalla media descrivendo la sua posizione in unità di deviazione standard. Quando trasformiamo un valore grezzo in questa maniera, chiameremo il risultato della trasformazione valore della distribuzione gaussiana standardizzata o punteggio standard o z-score Un punteggio standard, abbreviato con z è un modo per esprimere ogni valore grezzo in termini di unita di d.s.

Esercizio 4 Dalla letteratura scientifica risulta che in una popolazione apparentemente sana il valore dell HDL (high density lipoprotein) colesterolo ha µ = 57 mg/100ml e σ = 10 mg/100ml Sapendo che i valori dell HDL si distribuiscono in modo approssimativamente gaussiano, si vuole stimare la probabilità che un soggetto sano abbia valori di HDL < 45 mg/100ml z = (45-57)/10 = -1.2 P(x 45) = P(Z -1.2) = 1-P(Z 1.2)=1-0.8849 = 0.1151 (11.51%)

-1.2 0 z P(Z -1.2) = P(Z 1.2) = 1-P(Z 1.2) z 0 1.2

Si vuole stimare ora la probabilità che un soggetto abbia valori di HDL compresi tra 45 mg/100 ml e 60 mg/100ml. z 1 = (45-57)/10 = -1.2 z 2 = (60-57)/10 = 0.3 P(45 X 60) = P(-1.2 Z 0.3) = P (0.3)- P(z -1.2)= 0.6179-0.1151=0.5028 = 50.28% media 0.1151 0.6179 50.3% 45 60-1.2 +0.3

Esercizio 5 Dopo diversi sondaggi un fabbricante di calze da donna arriva alla conclusione che la lunghezza del piede di una donna adulta segue una legge normale con parametri µ=24 e σ=3 cm. Decide di utilizzare tale distribuzione per determinare le taglie e le quantità corrispondenti da mettere in produzione. Si chiede: In quale percentuale di casi si osserva una lunghezza di piedi: Superiore rispettivamente a 25, 30, 36 cm. Inferiore rispettivamente a 15, 20, 21 cm.

Esercizio 5 µ = 24 σ = 3 P(X>25)=P(Z>(25-24)/3)=P(Z>0.33)=1-P(Z<0.33)=1-0.6293=0.3707 P(X>30)=P(Z>(30-24)/3)=P(Z>2)=1-P(Z<2)=1-0.9772=0.0228 P(X>36)=P(Z>(36-24)/3)=P(Z>4)=1-P(Z<4)=1-1.0000=0.0000 P(X<15)=P(Z<(15-24)/3)=P(Z<-3)=1-P(Z<3)=1-0.9987=0.0013 P(X<20)=P(Z<(20-24)/3)=P(Z<-1.33)=1-P(Z<1.33)=1-0.9082=0.0918 P(X<21)=P(Z<(21-24)/3)=P(Z<-1)=1-P(Z<1)=1-0.8413=0.1587

Esercizio 6 Il signor W.P. è tenuto sotto controllo e la sua pressione sanguigna media in molte occasioni è 85 mmhg. Si supponga che la sua vera deviazione standard per misure singole sia 6 mmhg. Quante volte vi aspettereste una lettura di 95 mmhg o superiore? µ= 85 σ=6 Supponendo ragionevolmente che la pressione sanguigna sia normalmente distribuita: P(X 95)=P(Z (95-85)/6)=P(Z 1.67)=1-P(Z<1.67)= 1-0.9525=0.0475 cioè, circa il 5% delle volte.

Statistica Inferenziale Generalizzare i risultati ottenuti da un insieme campione alla popolazione dal quale esso è stato estratto Stima dei parametri stima puntuale stima intervallare Verifica d ipotesi (test)

Stima puntuale: la media campionaria Dato un campione che si ritiene rappresentativo della popolazione, possiamo ritenere che la media calcolata su questo campione fornisca una buona stima della media ignota della popolazione da cui il campione è stato tratto?

Stima puntuale: la media campionaria Si supponga di aver individuato una popolazione I di interesse composta da N unità. Da questa popolazione estraiamo tutti i possibili campioni di una determinata ampiezza n I N=4 ={1, 3, 5, 7} N=4 n=2 x f i (x-µ) (x-µ) 2 1 1-3 9 3 1-1 1 5 1 1 1 7 1 3 9 µ = 1+ 3 + 5 + 7 4 σ 2 = 20 4 = 16 = 4 5 = 4 4 0 20 Quali sono tutti i possibili campioni di ampiezza n=2 che possono venire estratti da tale popolazione? (4 2 =16) 1 1; 1 3; 1 5; 1 7; 3 1; 3 3; 3 5; 3 7; 5 1; 5 3; 5 5; 5 7; 7 1; 7 3; 7 5; 7 7.

Stima puntuale: la media campionaria Si calcoli poi la media per tutti i campioni ottenuti di dimensione n=2. Possibili campioni 1 1 1 3; 3 1 1 5; 3 3; 5 1 1 7; 3 5; 5 3; 7 1 3 7; 5 5; 7 3 5 7; 7 5 7 7 f i 1 2 3 4 3 2 1 16 x i 1 2 3 4 5 6 7 Medie campionarie Distribuzione delle medie campionarie Cosa osserviamo?

Stima puntuale: la media campionaria Solo 4 dei possibili 16 campioni hanno una media campionaria che coincide con la vera media della popolazione. I restanti campioni hanno una media che si discosta da 4 per più o meno 3 unità (da 1 a 7). Le medie dei diversi campioni variano perché estraiamo dei singoli componenti da una popolazione che è a sua volta distribuita in un campo più o meno vasto di valori.

Stima puntuale: la media campionaria Dalla distribuzione di campionamento relativa alle medie campionarie, si possono ora calcolare le due misure di posizione e dispersione principali, e cioè la media e la varianza. x i 1 2 3 4 5 6 7 f i x i f ( ) 2 i x i x f i 1 2 1 4 9 8 3 9 3 4 16 0 3 15 3 2 12 8 1 7 9 16 64 40 E(x)=x=64/16=4 E( x)=µ Var x = 40 /16 = 2. Var( x)=σ 2 /n ( ) 5 n=2 in questo esempio

Stima puntuale: la media campionaria ATTENZIONE! Per evitare confusione di terminologia σ della media campionaria viene chiamato errore standard E una misura che indica la dispersione delle medie calcolate nei singoli campioni, rispetto alla media delle medie.

Per inciso Errore standard Si calcola in modo diverso a seconda della stima campionaria che stiamo considerando Media campionaria ES(m) = σ n Differenza tra due medie oppure: ES(m) = s n ES(m 1 m 2 ) = σ n 2 1 1 + σ n 2 2 2 oppure: ES(m 1 m 2 ) = 1 s p + n 1 1 n 2 Proporzione p ( 1 p) ES(p) = n s p = s 2 1 ( n 1 1) n + 1 + n 2 2 s 2 ( n 2 2 1)

Stima puntuale Finora abbiamo considerato cosa succede in una situazione ipotetica in cui estraiamo n campioni da una popolazione nota Nella realtà, in genere, disponiamo di un solo campione e Nella realtà, in genere, disponiamo di un solo campione e la popolazione da cui è stato estratto non è nota

Stima puntuale Il principio che ha consentito di ottenere la distribuzione della media campionaria può essere applicato a qualsiasi altra statistica calcolata sul campione: ad es. varianza campionaria, mediana campionaria, prevalenza, proporzione, ecc...

La precisione di una stima dipende: - dalla numerosità (n) del campione - dalla variabilità (d.s.) del fenomeno Se il fenomeno è poco variabile è sufficiente un campione di ridotte dimensioni per ottenere una stima attendibile dei parametri della popolazione. Se invece la variabilità è elevata, per ottenere una stima attendibile occorre un campione di elevata numerosità.

La precisione di una stima Se il fenomeno è poco variabile è sufficiente un campione di ridotte dimensioni per ottenere una stima attendibile dei parametri della popolazione; Media della popolazione Ho una probabilità elevata di estrarre valori vicino alla media µ indipendentemente da n, ho stime piuttosto precise

La precisione di una stima Se la variabilità è elevata, per ottenere una stima attendibile occorre un campione di elevata numerosità. Media della popolazione Se n è piccolo ho una probabilità bassa di estrarre valori vicino alla media µ Se n è grande ho una probabilità elevata di estrarre valori vicino alla media µ Per ottenere stime precise devo avere un campione molto numeroso

Stima puntuale e stima intervallare Con la stima puntuale non si è certi di individuare in modo esatto il vero valore del parametro che si vuole stimare Da diversi campioni si otteranno stime diverse Per tener conto di questa incertezza è opportuno presentare, accanto alla stima puntuale, un intervallo di valori plausibili: Intervallo di Confidenza

Intervallo di confidenza al (1-α)% IC (1-α) (µ) = m ± z α/2 e.s.(m) Livello di confidenza Stima puntuale Valore soglia Errore standard del parametro Determinato in base al modello (z) che interpola i dati e al livello di confidenza (1-α)

L'intervallo di confidenza varia casualmente attorno al parametro µ, ed ha probabilità pari a (1-α) di includere il parametro µ della variabile x _ f(x) 0.4 0.3 0.2 (1 α) α/2 α/2 0.1 0 l µ z σ/ n INTERVALLO DI PROBABILITA' µ µ+ zσ/ n x-z σ/ n x _ x+z σ/ n UN INTERVALLO DI CONFIDENZA l Ciò significa che, benché sia impossibile risalire da una stima campionaria al vero valore del parametro µ di un universo, è però possibile determinare attorno a tale stima un intervallo che ha una prefissata probabilità (1-α) di includere il parametro µ di quell'universo.

Esercizio 1 Se la media della pressione sistolica in un campione di uomini tra 45 e 65 anni è 126.4 mmhg (stima campionaria), allora si può ritenere che la media della pressione sistolica di tutti gli uomini della popolazione di riferimento sia anch essa «più o meno» 126.4 mmhg? «Più o meno»? Sapendo che l errore standard è pari a 7.4 e avendo scelto un livello di confidenza del 95% α=0.05 z α/2 = z 0.025 =1.96 IC 95% (µ) = 126.4 ± 1.96 7.4 = (111.896 140.904) INTERPRETAZIONE: non conosco il vero valore della pressione sistolica media nella popolazione, ma, data la stima campionaria che ho osservato (126.4 mmhg), sono confidente al 95% che l intervallo 111.894 e 140.904 contenga la vera media

Esercizio 2 In una popolazione di soggetti sani il livello medio di protrombina è distribuito in modo approssimativamente gaussiano, con media µ=20 mg/dl e deviazione standard σ=4 mg/dl. In un campione di 40 pazienti con deficit di vitamina K si è riscontrato un livello medio di protrombina di 18.8 mg/dl. Nonostante la differenza osservata (18.8 vs 20.0) si può ritenere che il vero valore medio (µ) di protrombina dei pazienti con deficit di vitamina K sia pari a quello della popolazione dei sani? IC 95% (µ) = 18.8 ± 1.96 4/ 40 = 18.8 ± 1.96 0.63 = (17.57 20.03) E. S. ( x) = σ n

Esercizio 2 INTERPRETAZIONE IC 95% (µ) = 18.8 ± 1.96 4/ 40 = 18.8 ± 1.96 0.63 = (17.57 20.03) In base ai risultati ottenuti posso affermare che il valore medio di protrombina dei pazienti con deficit di vitamina K è un valore compreso tra 17.57 e 20.03. Ho la quasi certezza (con la confidenza del 95%) che la protrombina media dei pazienti con deficit di vitamina K sia uguale a quella della popolazione sana. Questa affermazione potrebbe anche essere falsa, perché c è una probabilità del 5% che l intervallo di confidenza non contenga il vero valore di µ.

Esercizio 2 E se volessi una maggiore certezza? Calcolo l intervallo di confidenza al 99% IC 99% (µ) = 18.8 ± 2.58 4/ 40 = 18.8 ± 2.58 0.63 = (17.17 20.43) IC(95%): (17.57-20.03) IC(99%): (17.17-20.43) confidenza maggiore intervallo più ampio

Esercizio 3 Si vuole stimare il vero valore medio dell'uricemia in una popolazione maschile: è noto che in tale popolazione la dispersione dell'uricemia è = 1.1 mg/dl. Si richiede che la confidenza sia del 95%.

Esercizio 3 Si supponga ora di estrarre un campione casuale di 40 soggetti dalla popolazione, di determinare il valore di uricemia di ognuno dei 40 soggetti, e di calcolare la media di tali valori (x =5.55 mg/dl). Si ricava che l'intervallo di confidenza della media al 95% vale: 1.1 I.C.95% = 5.55 ± 1.96 = 5.55 ± 0.34 = (5.21, 5.89) 40 E. S. ( x) = σ n Posso affermare con una confidenza del 95% che l ignoto parametro µ è compreso tra 5.21 e 5.89 mg/dl

Come si decide con l intervallo di confidenza? L intervallo di confidenza può essere utilizzato come test per determinare se una stima sia significativamente diversa da un valore fissato, oppure se le stime osservate in due gruppi siano diverse tra loro Se l intervallo di confidenza della media contiene il valore fissato allora ritengo che le medie non siano significativamente diverse. Se l intervallo di confidenza della differenza tra le medie contiene 0 allora ritengo che le medie non siano significativamente diverse. Se l intervallo di confidenza di un odds ratio o rischio relativo o contiene 1 allora ritengo che non vi sia associazione tra fattore di rischio e malattia.

Esempio

Verifica d ipotesi Oltre all intervallo di confidenza, per valutare la significatività di una stima (media, differenza tra medie, proporzioni ) posso costruire un sistema di ipotesi ed effettuare un test Prima si definisce una ipotesi nulla H 0 : non c è differenza/associazione Poi una ipotesi alternativa H 1 : c è differenza/associazione

Verifica d ipotesi Ad es. se si vogliono confrontare le medie di due campioni Ipotesi nulla H 0 : µ 1 = µ 2 Ipotesi alternativa H 1 : µ 1 µ 2 oppure H 1 : µ 1 < µ 2 oppure H 1 : µ 1 > µ 2 ipotesi bilaterale: α/2 ipotesi unilaterale: α

Verifica d ipotesi: come si decide? Se la differenza (o associazione) osservata tra i gruppi è abbastanza forte in confronto alla variabilità delle misure presente all interno dei gruppi allora è ragionevole concludere che esiste il segnale. (si rifiuta H0) Se la differenza non è abbastanza forte rispetto alla variabilità allora è ragionevole concludere che, in base a quanto esaminato, non si ha evidenza che esista una differenza. (si accetta H0)

Verifica d ipotesi: criterio di decisione Si costruisce una statistica test, in base all ipotesi nulla H 0 che stiamo testando e che dipende dalla distribuzione della variabile di interesse. Si identifica una soglia di rifiuto e si calcola la probabilità ad essa associata: se la probabilità p è piccola si rifiuta H 0 se p è grande non si rifiuta H 0 Nella letteratura medica generalmente si usano due valori di probabilità (o livelli di significatività) quali soglie per costruire una regola di decisione relativa al rifiuto di H 0 altamente significativo: p<0.01 significativo: 0.01<p<0.05 non significativo: p>0.05 il risultato osservato potrebbe essere frutto del caso

Verifica d ipotesi: criterio di decisione Stabilire il criterio di decisione significa stabilire, per i valori * della media campionaria, una soglia x oltre la quale il risultato sperimentale viene ritenuto incompatibile con l'ipotesi H 0 : µ = ϑ _ 0.5 f(x) 0.4 H 0 H 1 0.3 0.2 0.1 0 σ/ n α/2 α/2 (1 α) µ=ϑ β σ/ n x* µ=ϑ+δ (1 β) _ x

Verifica d ipotesi: possibili risultati... e in base al campione decido che è vera H0... e in base al campione decido che è vera H1 SE È VERA H0 decisione giusta protezione: (1-α) decisione sbagliata errore di 1 tipo: α SE È VERA H1 decisione sbagliata errore di 2 tipo: β decisione giusta potenza: (1-β)

Analogia con i test di screening 0.5 0.4 Specificità Sani=H 0 Malati=H 1 Sensibilità 0.3 % FN 0.2 σ (2/n) σ (2/n) % FP 0.1 0 (1-α) 0 β d* δ α Valore soglia (1-β)

Verifica d ipotesi: possibili risultati 1. Abbiamo creduto di osservare un effetto che non c era (errore di 1 tipo). 2. Abbiamo osservato un effetto che c era veramente (potenza). 3. Abbiamo ritenuto che non ci fosse alcun effetto quando invece c era (errore di 2 tipo). 4. Non abbiamo osservato alcun effetto ed effettivamente non c era (protezione).

Intervalli di confidenza e test d ipotesi Gli intervalli di confidenza e la verifica di ipotesi svolgono una funzione simile. Se l intervallo di confidenza al 95% include il valore sottoposto ad ipotesi nulla (0 o 1), allora il valore di p sarà maggiore di 0.05. Se l intervallo di confidenza al 95% non include il valore sottoposto ad ipotesi nulla (0 o 1), allora il valore di p sarà minore di 0.05. Gli intervalli di confidenza sono generalmente da preferire perché forniscono anche un range di valori plausibili rispetto al valore del parametro cercato, mentre il test di ipotesi dice solo se rifiutare o non rifiutare l ipotesi nulla H 0.

Esempio 1 Il valor medio di un parametro fisiologico (distribuito in modo gaussiano) misurato nel corso di una vasta indagine sulla popolazione italiana è risutato µ=50 con σ=26.3. In un campione di 25 individui residenti in una zona sospetta di inquinamento da prodotti tossici si è osservato un valore medio pari a 60. Esiste una differenza significativa tra la media campionaria e quella della popolazione?

Esempio 1 µ=50 σ=26.3 n=25 x = 60 ( 60 50) H H 0 1 : : µ µ = 50 50 z = = 1.90 P(Z>1.90)=0.0287 26.3 25 α=0.05 Il valore di z calcolato è inferiore di zα 2 = 1. 96 o, equivalentemente, ( z 1.90) P > =0.028 > P( z > 1.96) 2 α =0.025. Pertanto non si rifiuta l'ipotesi nulla. Non esistono ragioni sufficienti per asserire che esiste una differenza significativa tra la media campionaria e quella della popolazione.

Esempio 2 In un campione di 24 pazienti affetti da malattia parodontale, la media del fosforo inorganico titolato nel plasma è stata x = 3.62 mg%. Il valore normale fornito in bibiografia per il fosforo inorganico plasmatico è µ=3.36 mg% con una deviazione standard di 0.40 mg%. Si può affermare che la patologia da cui sono affetti i pazienti altera il valore del fosforo inorganico plasmatico? µ=3.36 σ=0.40 n=24 x = 3. 62 α=0.01

Esempio 2 H H 0 1 : µ : µ = 3.36 3.36 ( 3.62 3.36) 0.26 z = = = 0.40 24 0.0816 3.186 Con α=0.01, zα 2 = 2. 58 Il valore di z calcolato è maggiore di z α 2, si rifiuta l ipotesi nulla. La patologia da cui sono affetti i pazienti altera il valore del fosforo inorganico plasmatico.

Esempio 3

Esempio 3 INTERPRETAZIONE Nel campione la densità minerale ossea a livello lombare differisce in media di 0.08 g/cm 2 (1.07 meno 1.00 con arrotondamento). Cioè, nel campione la densità minerale ossea media a livello lombare è di 0.08 g/cm 2 maggiore nelle donne normali rispetto alle donne depresse. L intervallo di confidenza al 95% relativo alla differenza tra le medie (da 0.02 a 0.14) fornisce un range plausibile per la differenza vera. L intervallo di confidenza non contiene lo 0, la differenza è statisticamente significativa.

Potenza del test (1-β) Probabilità che un particolare studio sia in grado di individuare una prefissata differenza dall ipotesi nulla nel caso in cui tale differenza esista. La potenza deve essere calcolata dopo aver stabilito una definita differenza (δ) di interesse clinico (µ 1 = µ 0 + δ)

Potenza del test Visto che gli esperimenti generalmente si fanno per dimostrare l esistenza di differenze, correndo spesso il rischio di non trovarle, la probabilità di trovare una differenza quando esiste è una cosa che interessa molto lo sperimentatore. La potenza è la probabilità di concludere che c è una differenza quando di fatto la differenza c è davvero.

Potenza del test Per vedere bene una formica è sufficiente una lente di ingrandimento i batteri ci vuole un microscopio i virus è necessario un microscopio elettronico...

Potenza del test Quanto più piccolo è l oggetto (la differenza) che voglio vedere, tanto maggiore deve essere la capacità di ingrandire della lente (la potenza del test)

1-β Potenza (1-β) vs differenza minima osservabile (δ) n = 40 σ = 4 mg/dl α = 5% δ

Numerosità campionaria (n) vs potenza (1-β) δ = 2 mg/dl σ = 4 mg/dl n α = 5% 1-β

Dimensione del campione Tutto parte da un indicazione dei clinici su: Minima differenza che si ritiene rilevante da un punto di vista clinico Probabilità di commettere un errore di 1 tipo che si ritiene accettabile Probabilità di commettere un errore di 2 tipo che si ritiene accettabile Variabilità del fenomeno oggetto di studio

Prossima lezione Merc 25 novembre 9:30-12:30