LEZIONI DI STATISTICA MEDICA

Documenti analoghi
Distribuzioni campionarie. Antonello Maruotti

Campionamento La statistica media campionaria e la sua distribuzione

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

Il confronto fra medie

CAMPIONAMENTO - ALCUNI TERMINI CHIAVE

Distribuzioni di probabilità

Capitolo 7. Distribuzioni campionarie. Statistica. Levine, Krehbiel, Berenson

Capitolo 6. La distribuzione normale

Statistica Inferenziale

Vedremo i concetti di:

Concetti principale della lezione precedente

Esercitazioni di statistica

La distribuzione normale

LEZIONI DI STATISTICA MEDICA

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 15: Metodi non parametrici

Il test (o i test) del Chi-quadrato ( 2 )

Modelli descrittivi, statistica e simulazione

Il campionamento statistico. prof. C.Guida

L INDAGINE SUL BENESSERE ORGANIZZATIVO IN ARPA EMILIA-ROMAGNA LA SCELTA DEL CAMPIONE

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Misure di dispersione (o di variabilità)

Università del Piemonte Orientale. Corso di Laurea in Igiene Dentale. Corso di Statistica per la ricerca sperimentale e tecnologica

Indice Aspetti generali sul campionamento da popolazioni finite Campionamento probabilistico Disegno campionario semplice

Capitolo 11 Test chi-quadro

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

STIMA DELLA VARIANZA CAMPIONARIA

Incertezza di Misura: Concetti di Base

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016

LA LUNGHEZZA DEI GENI UMANI (Es4.1)

Metodi statistici per le ricerche di mercato

Teorema del limite centrale TCL

dati e la loro significatività statistica con l utilizzo della calcolatrice per l analisi statistica dei dati.

Inferenza statistica

a) Usando i seguenti livelli di significatività, procedere alla verifica di ipotesi, usando come ipotesi alternativa un'ipotesi unidirezionale:

Analisi della varianza

L indagine campionaria Lezione 5

STATISTICHE DESCRITTIVE Parte II

Lezione 4 a - Misure di dispersione o di variabilità

Indice Premessa Cenni storici delle misure

STATISTICA: esercizi svolti sulla MEDIA ARITMETICA

Esame di Statistica A-Di Prof. M. Romanazzi

Importanza delle incertezze nelle misure fisiche

INCERTEZZA DI MISURA SECONDO NORME CEI

ELEMENTI DI STATISTICA INFERENZIALE ELEMENTI DI STATISTICA INFERENZIALE

Confronto fra soggetti o entro soggetti?

La definizione e i principi dell estimo

ASPETTI STATISTICI. Master Universitario di II Livello Ricerca e Sviluppo Pre-Clinico e Clinico del Farmaco Modulo 4 Sviluppo Clinico dei Farmaci

Econometria. lezione 13. validità interna ed esterna. Econometria. lezione 13. AA Paolo Brunori

Campionamento e distribuzione campionaria della media

Statistica, a.a. 2010/2011 Docente: D. Dabergami Lezione 4

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

Introduzione alla probabilità

Alcune nozioni introduttive alla statistica

a.a Esercitazioni di Statistica Medica e Biometria Corsi di Laurea triennali Ostetricia / Infermieristica Pediatrica I anno

Quantificare la variabilità dei processi ecologici

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

Statistica. Esercitazione 10. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice. V.C.

Distribuzioni di Probabilità

Esposte (>0,4mGy) 10 (3,333) 190 (196,667) ,667

Disegni di studio nella ricerca epidemiologica

Esercitazioni di statistica

Prestazioni di accuratezza e precisione del sistema Accu-Chek Active. Introduzione. Metodo

Esercitazione # 3. Trovate la probabilita che in 5 lanci di un dado non truccato il 3 si presenti

Sensibilità e specificità dei sistemi di sorveglianza

RISPOSTA ALLA SELEZIONE

Inferenza statistica

Risultati esperienza sul lancio di dadi Ho ottenuto ad esempio:

MATEMATICA FINANZIARIA RISCHI: RAPPRESENTAZIONE E GESTIONE (CENNI)

Dispensa sulla funzione gaussiana

DETERMINAZIONE DEI DIAMETRI E CONTROLLO FRA LABORATORI

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:

Il metodo della regressione

Gli effetti di Basilea II: risultati della simulazione su un campione di imprese

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

MISURE DI SINTESI 54

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI

Corso di. Dott.ssa Donatella Cocca

ˆp(1 ˆp) n 1 +n 2 totale di successi considerando i due gruppi come fossero uno solo e si costruisce z come segue ˆp 1 ˆp 2. n 1

PROBABILITÀ SCHEDA N. 7 LA VARIABILE ALEATORIA NORMALE

INFORMATICA APPLICATA AI PROCESSI BIOTECNOLOGICI

Pericolosità sismica Svizzera. Quando, dove e con quale frequenza si verificano determinate scosse in Svizzera?

Esercitazione # 6. a) Fissato il livello di significatività al 5% si tragga una conclusione circa l opportunità di avviare la campagna comparativa.

ANALISI MULTIVARIATA

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr.

Esercizio 1. Proprietà desiderabili degli stimatori (piccoli campioni)

BIOTECNOLOGIE. Miglioramento genetico Gestione della variabilità

La Distribuzione Normale (Curva di Gauss)

MISURE DI DISPERSIONE

Metodologia di applicazione dei modelli di massima verosimiglianza per il trattamento dei dati missing

Esercitazioni di Metodologia

Manage your risk! La volatilità nei mercati azionari: rischi e opportunità

Teoria e tecniche dei test

LETTI PER VOI: L uso delle tecniche di matching nella valutazione di efficacia di un farmaco. Cinzia Di Novi. Università Ca Foscari di Venezia,

Statistica sociale CdLS Scienze delle professioni sanitarie - della riabilitazione (SNT-SPEC/2) - tecniche-diagnostiche (SNT-SPEC/3)

Metodologie informatiche per la chimica

I criteri di inclusione e di esclusione. Luca Ronfani, IRCSS Burlo Garofolo

la struttura di una teoria

Università degli Studi di Bologna - Facoltà di Economia, sede di Forlì. Metodi statistici per l economia - Prof. A Capitanio

ANOVA: ANALISI DELLA VARIANZA Prof. Antonio Lanzotti

Transcript:

LEZIONI DI STATISTICA MEDICA Lezione n.11 - Principi dell inferenza statistica - Campionamento - Distribuzione campionaria di una media e di una proporzione - Intervallo di confidenza di una media e di una proporzione Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona STATISTICA DESCRITTIVA Metodi per la descrizione e la sintesi dei valori di una variabile misurati in un campione MODELLI PROBABILISTICI Modelli che permettono di descrivere la distribuzione di una V.C. nella popolazione mediante pochi parametri INFERENZA STATISTICA Studio delle caratteristiche della popolazione (parametri) sulla base delle informazioni raccolte in un campione 1

INFERENZA Test di significatività Stima puntuale (Intervallo di Confidenza) METODI STATISTICI DELL INFERENZA 1. Stimare il parametro di interesse (µ, σ, π) in una o più popolazioni STIMA PUNTUALE 2. Associare alla stima puntuale (x, s, p) una misura di precisione misura dell errore di stima INTERVALLO DI CONFIDENZA 2

METODI STATISTICI DELL INFERENZA 3. Verificare se il parametro di interesse (µ,σ, π) in una popolazione ha un valore diverso da quello ipotizzato [ad esempio: la probabilità di avere l asma per un adulto in Italia (π) è 0.02?] verificare se il parametro di interesse varia tra due o più popolazioni: µ 1 µ 0,σ 1 σ 0, π 1 π 0 la differenza osservata è dovuta al caso oppure è dovuta ad altri fattori (trattamento, fattori di rischio, )? TEST STATISTICO UTILIZZO DEL CAMPIONE VANTAGGI riduzione dei costi dell indagine maggiore accuratezza nella raccolta delle informazioni unica possibilità quando la popolazione in studio è infinita imprecisione delle stime SVANTAGGI ERRORI CAMPIONARI: le stime campionarie variano da campione a campione possibile distorsione delle stime ERRORI SISTEMATICI (BIAS): errori legati alla non rappresentatività del campione ottenuto dalla procedura di campionamento 3

Schema di una procedura di campionamento POPOLAZIONE OBIETTIVO Dominio su cui si vuole fare inferenza: 1) pop. adulta di una città in un determinato periodo (finita) 2) pop. degli ipertesi (infinita) BASE DELLO STUDIO Particolare esperienza concreta, delimitata nello spazio e nel tempo, utilizzata come elemento di conoscenza della popolazione obiettivo: 1) lista anagrafica 2) tutti i soggetti ipertesi che si rivolgono al loro medico per disturbi ipertensivi in una determinata area e in un determinato periodo Qualsiasi sottoinsieme della base dello studio, ma... CAMPIONE per l inferenza, è necessario che sia rappresentativo della base dello studio SELEZIONE CASUALE Campionamento casuale semplice Popolazione Campione tutte le unità statistiche della popolazione hanno uguale probabilità di selezione 4

Campionamento stratificato Popolazione Maschi Femmine Campione gruppi sufficientemente omogenei al loro interno ma diversi tra loro Campionamento a grappolo Popolazione Campione gruppi eterogenei al loro interno ma omogenei tra loro Esempio: gruppi = ospedali di una determinata area unità elementari = tutti i pazienti che hanno subito un certo intervento 5

Campionamento a due o più fasi Popolazione I campione II campione PROCEDURA: estrazione del I campione indagini meno approfondite estrazione successiva del II campione dal I campione indagini più approfondite Esempio: l indagine ECRHS è stata condotta in due fasi: - somministrazione di un questionario postale di screening - fase clinica effettuata su un campione dei rispondenti allo screening POPOLAZIONE CAMPIONAMENTO variabile di interesse (X) distribuzione f(x) parametri ignoti (µ, σ, π, ) CAMPIONE variabile di interesse (X) n osservazioni (x 1, x 2,, x n ) stime dei parametri ignoti (x, s, p, ) INFERENZA Le statistiche (media, dev. std, proporzione, ) ottenute in un campione sono STIME DEI PARAMETRI IGNOTI (µ, σ, π,...) della popolazione di interesse il valore delle statistiche dipende dal particolare campione selezionato 6

DISTRIBUZIONE CAMPIONARIA DEGLI STIMATORI Ripetendo idealmente più volte la procedura di campionamento nelle medesime condizioni si potrebbe definire una distribuzione di frequenza delle statistiche le statistiche campionarie sono V.C. (STIMATORI) caratterizzate da una specifica distribuzione di probabilità DEF: La distribuzione campionaria di una statistica, basata su n osservazioni, è la distribuzione di frequenza dei valori che assume la statistica, generata teoricamente prendendo infiniti campioni di dimensione n nelle stesse identiche condizioni e calcolando il valore della statistica per ogni campione INFERENZA SULLA MEDIA DI UNA POPOLAZIONE Distribuzione della glicemia in una popolazione diabetica (modello teorico normale) µ = 160 mg/dl σ = 10 mg/dl Stima puntuale della media della popolazione 120 130 140 150 160 170 180 190 200 mg/dl campione: 162 152 158 162 168 161 148 176 150 x = 159.7 7

Distribuzione della glicemia in una popolazione diabetica (modello teorico normale) µ = 160 mg/dl σ = 10 mg/dl Campione studiato 120 130 140 150 160 170 180 190 200 mg/dl I campione: 162 152 158 162 168 161 148 176 150 II campione: 152 164 157 180 156 163 165 166 178 III campione: 157 142 163 162 152 149 152 180 151 IV campione: 162 154 168 160 155 172 162 152 140 V campione: 163 169 152 147 158 163 173 160 181 x = 159.7 x = 164.6 x = 156.4 x = 158.3 x = 162.8 PRINCIPIO DEL CAMPIONAMENTO RIPETUTO Distribuzione della glicemia in una popolazione diabetica µ = 160 mg/dl σ = 10 mg/dl Distribuzione della media della glicemia in campioni di numerosità = 9 120 130 140 150 160 170 180 190 200 glicemia (mg/dl) σ/ n = 3.3 mg/dl 140 150 160 170 180 glicemia (mg/dl) 8

DISTRIBUZIONE CAMPIONARIA DI UNA MEDIA Sia x la media stimata in un campione casuale di dimensione n selezionato da una popolazione con media µ e deviazione standard σ: 1-2) la distribuzione campionaria di X ha: E[X] = µ DS[X] = ES[X] = σ/ n ERRORE STANDARD della media misura della precisione della stima 3) TEOREMA DEL LIMITE CENTRALE: se la dimensione campionaria è sufficientemente grande (n 30), allora la distribuzione campionaria di X è approssimativamente normale, indipendentemente dalla distribuzione della variabile nella popolazione Esempio (teorema del limite centrale - media): 800 campioni di dimensione n = 100 generati casualmente da una distribuzione esponenziale DISTRIBUZIONE CAMPIONARIA f(x) 0 2 4 X f(x) 0 1 2 3 4.6.8 1 1.2 1.4 X 9

Intervallo di confidenza della media in una popolazione: IC95%(µ) Per intervallo di confidenza della media µ, si intende un intervallo delimitato da due limiti L inf (limite inferiore) ed L sup (limite superiore) che abbia una definita probabilità (livello di confidenza) di contenere il vero valore (ignoto) del parametro nella popolazione: Pr(L inf < µ < L sup ) = 0.95 L intervallo simmetrico centrato sulla vera media (µ) che comprende il 95% delle medie campionarie è: X µ σ σ Pr 1.96 1.96 = Pr µ 1.96 X µ + 1.96 = 0.95 σ n n n Pr(X<µ-1.96σ/ n) = 0.025 σ/ n Pr(X>µ+1.96σ/ n) = 0.025 µ-1.96σ/ n µ µ+1.96s/ n X 10

σ σ Pr µ 1.96 X µ +1.96 = 0.95 n n riarrangiando le due disuguaglianze interne alla parentesi: σ σ Pr X 1.96 µ X +1.96 = 0.95 n n IC95%(µ) IC95%(µ) x 1.96 σ/ n, x + 1.96 σ/ n L inf L sup 11

Esempio: Inferenza sulla media della glicemia in una popolazione diabetica 1. Stimare il parametro di occorrenza (µ) STIMA PUNTUALE (n = 9) x = 159.7 mg/dl 2. Associare alla stima puntuale una misura di precisione INTERVALLO DI CONFIDENZA IC95%(µ) = 159.7 ± 1.96*10/ 9 = [153.2 mg/dl, 166.2 mg/dl] L IC diminuisce se diminuisce la variabilità nella popolazione (σ) IC95%(µ) = x ± 1.96 σ / n n = 36 12

L IC diminuisce se aumenta la numerosità del campione (n) IC95%(µ) = x ± 1.96 σ / n σ = 24 Nel calcolare l intervallo di confidenza di una media si è supposto che la deviazione standard della popolazione fosse nota: Z X µ = σ / n N(0,1) Z 0.025 = 1.96 Molto spesso σ è ignota si utilizza la deviazione standard campionaria S (stima di σ) T = X S/ µ distribuzione t di Student con (n-1) gradi di libertà n 13

Famiglia di distribuzioni simmetriche che dipendono dai gradi di libertà f(t) T gdl = 1 gdl = 2 gdl = 5 gdl = gdl t gdl,0.025 1 12.706 2 4.303 3 3.182 4 2.776 5 2.571 6 2.447 7 2.365 8 2.306 9 2.262 10 2.228 11 2.201 12 2.179 13 2.160 14 2.145 15 2.131 16 2.120 17 2.110 18 2.101 19 2.093 20 2.086 21 2.080 22 2.074 23 2.069 24 2.064 25 2.060 26 2.056 27 2.052 28 2.048 29 2.045 30 2.042 40 2.021 50 2.009 60 2.000 100 1.984 1.960 La stima puntuale di un parametro fornisce un singolo valore: è una determinazione di una V.C. il valore campionario non coincide quasi mai con il vero valore (ignoto) del parametro nella popolazione campioni diversi forniscono stime puntuali diverse La stima intervallare di un parametro fornisce un intervallo di valori: i limiti di confidenza sono una determinazione di una V.C. l intervallo di confidenza ha una prefissata probabilità (95%) di contenere il vero valore (ignoto) del parametro nella popolazione il metodo per il calcolo dell intervallo di confidenza di una media è: x ± 1. 96 σ n x tn ± 1,0. 025 s n σ nota σ ignota 14

Esercizio (intervallo di confidenza di una media): Qual è l intervallo di confidenza al 95% della media del peso in una certa popolazione, se la media in un campione di 16 soggetti è pari a 75 Kg? Nella popolazione il peso è distribuito normalmente con deviazione standard pari a 12 Kg (parametro). IC95%(µ) = x ± z 0.025 ES[X] = 75 ± 1.96 * (12/ 16) = [69.12 Kg, 80.88 Kg] Supponiamo che la deviazione standard nella popolazione non sia nota e che la deviazione standard nel campione di 16 soggetti sia pari a 12 Kg (stima). IC95%(µ) = x ± t 15,0.025 ES[X] = 75 ± 2.131 * (12/ 16) = [68.61 Kg, 81.39 Kg] DISTRIBUZIONE CAMPIONARIA DI UNA PROPORZIONE Sia X una variabile bernoulliana: X = 1 (successo) Pr(X = 1) = π E[X] = π X = 0 (insuccesso) Pr(X = 0) = 1 - π VAR[X] = π(1 - π) Sia P = ΣX/n la proporzione di successi in un campione di osservazioni indipendenti di dimensione n: 1) E[P] = π 2) DS[P] = ES[P] = π(1-π)/n (ERRORE STANDARD della proporzione) 3) se np>5 e n(1-p)>5, allora la distribuzione campionaria di P è approssimativamente normale: P N(π, π(1-π)/n ) 15

Esempio (teorema del limite centrale - proporzione): 800 campioni di dimensione n = 100 generati casualmente da una distribuzione bernoulliana con π = 0.1 DISTRIBUZIONE CAMPIONARIA 1 0.9 0.1 0 1 f(p) 0 5 10 15 0.05.1.15.2 X P Intervallo di confidenza della proporzione in una popolazione: IC95%(π) Se np>5 e n(1-p)>5, allora la distribuzione campionaria di P ha distribuzione approssimativamente normale: P N(π, π(1-π)/n ) In analogia con quanto visto per la media, segue che: la proporzione campionaria p è una stima di π l intervallo di confidenza di una proporzione è IC95%( π) = p ± 1.96 p(1 p) n 16

Esercizio (intervallo di confidenza di una proporzione): Un agenzia sanitaria sostiene che la proporzione di soggetti che presentano una determinata malattia nella città di Verona sia pari a 0.05. Su un campione casuale di 3000 residenti, 120 riportano la malattia in questione. Ritenete che le affermazioni dell agenzia sanitaria siano confermate dall indagine? p = 120/3000 = 0.04 IC95%(π) = p ± z 0.025 ES[P] = 0.04 ± 1.96 * 0.04*(1-0.04)/3000 = [0.033, 0.047] L indagine non conferma le affermazioni dell agenzia sanitaria. 17