Campionamento e numerosità campionaria Lorenzo Monasta Epidemiologia e Biostatistica IRCCS Burlo Garofolo, Trieste misurare Il modo migliore di definire gli obiettivi di uno studio è di vederlo come esercizio di misurazione Tutti i processi di stima sono processi di misurazione e di semplificazione della complessa realtà Es: : disegnare una mappa per spiegare il livello di dettaglio di una mappa deve servire allo scopo. Altro non serve. 2
misurare cosa e come Cosa misurare? Su quali soggetti? Quali variabili? Quali associazioni? Con quali risorse? (economiche, logistiche, risorse umane) Con quanta precisione? Ciò che misurerò sarà valido per tutti coloro che vorrò descrivere? 3 Ciò che misurerò sarà valido per tutti coloro che vorrò descrivere? Rappresentatività e inferenza N C inferenza A rappresentativo n B stima 4
generalizzabilità rappresentatività del campione Rappresentativo: che parli per tutta la popolazione Rappresentatività statistica: se ripeto il campionamento con gli stessi criteri, ottengo gli stessi risultati 5 evitare gli errori Si cercherà di lavorare affinché le stime siano il più possibile precise e valide Ma tante sono le fonti d errore, casuale casuale e sistematico. Se non controllo il caso non sono preciso. Se uso il sistema sbagliato per misurare, le misure non saranno valide 6
precisione Errore casuale: la somma di tutte le piccole e imprevedibili variazioni nell'esecuzione delle varie operazioni di misura fa sìs che le misure fluttuino attorno a un valore medio µ. Una misura è tanto più precisa quanto minore è l'errore casuale da cui è affetta. 7 precisione attraverso lo studio di un campione, si può soltanto stimare (determinare con un certo margine di errore) il carattere della popolazione da cui il campione deriva; La precisione della stima è direttamente correlata al numero di osservazioni che si compiono del fenomeno in studio. 8
per ridurre l errore casuale Aumentare la numerosità campionaria Rendere più efficiente il disegno dello studio 9 errore casuale e numerosità campionaria Esempio: si vuole stimare la probabilità di infarto in una certa popolazione; estraggo un campione casuale di n= 900 soggetti, nel 20% dei quali si verifica l infarto l errore casuale (o standard) si calcola come: p x (1-p) / (n-1) = 0,20 x 0,80 / 899 = 0,0133 A parità di p, se aumento la numerosità del campione, si riduce l errore casuale. 10
precisione ed efficienza Es: se ho una coorte di 100.000 uomini e voglio determinare di quanto si riduce la mortalità cardiovascolare per l assunzione giornaliera di aspirina, potrei pensare di avere uno studio bello grande e quindi preciso. Ma se apprendo che solo 100 uomini prendono giornalmente aspirina, quanti casi avrò tra quei 100 per poter determinare di quanto si riduce la mortalità? Anche se avessi 50 mila che prendono aspirina e 50 mila che non la prendono (aumento precisione), ma gli uomini nello studio avessero tra i 30 e i 39 avrei ancora pochi casi di mortalità. L efficienza ha a che fare con la definizione della popolazione da cui estrarre il campione, sulla base di esposizioni e outcome di interesse. 11 disegno di studio per precisione Proporzione di soggetti esposti (quanti prendono aspirina) Proporzione di soggetti a rischio di sviluppare l outcome (morti per pat.. cardiovascolari) ) sia tra esposti, sia tra non esposti Distribuzione dei soggetti secondo variabili chiave (modificatori e confounders) ) (età( dei soggetti, sesso) 12
validità Gli errori sistematici si manifestano nella tendenza di un dato metodo a sovrastimare (o sottostimare) ) il vero valore da stimare. Pertanto, le misure che ottengo usando un metodo non valido saranno diverse dal valore vero e tenderanno a sovrastimare o sottostimare tale valore. Gli errori sistematici hanno cause ben determinate, inerenti o al metodo (es.: scarsa selettività del reagente usato per la titolazione di un certo soluto), o alle condizioni di esecuzione del procedimento analitico (es.: strumento non calibrato correttamente). 13 Esempi di validità critica GENERALIZZABILITÀ Errore sistematico 1: voglio fare uno studio sulla prevalenza di diarrea in bambini sotto i cinque anni, e mi baso sui bambini che vengono in ospedale. (selection( bias) Errore sistematico 1b: voglio conoscere l opinione della gente su una questione particolare e al telegiornale gli dico di esprimere il loro parere chiamando un numero (self( self-selectionselection bias) (validità esterna non sarò in grado di generalizzare a tutta la popolazione di bambini) Errore sistematico 2: Voglio fare uno studio sull onestà delle persone p e gli chiedo: lei è onesto? (validità( interna prerequisito per validità esterna) 14
Calcolo della numerosità campionaria Consideriamo lo schema più semplice: il campionamento casuale semplice per studiare una prevalenza Cosa devo sapere? Presunta prevalenza della condizione da stimare, p Valore della normale (z) in corrispondenza del livello di confidenza desiderato, (1-α) grado di precisione desiderato (b), o grandezza dell errore errore casuale che sono disposto a tollerare che mi definisce l intervallo l di confidenza Numerosità della popolazione da cui estrarre campione 15 cos è il livello di confidenza Vorrei che il risultato ottenuto fosse il meno possibile dovuto al caso. Vorrei che fosse improbabile ottenere dal mio studio un risultato lontano dal valore reale 16
livello di confidenza Il livello di confidenza esprime il grado di certezza del risultato. Che il mio risultato non sia dovuto al caso. Porre il livello di confidenza al 95% significa che col 95% di probabilità la prevalenza reale (quella ottenuta nell'eventualità di un intervista a tappeto a tutta la popolazione) sarebbe compresa fra la stima ottenuta dal mio campione ± l errore che sono disposto a tollerare 17 cos è il grado di precisione È l errore che sono disposto a tollerare. Voglio uno studio abbastanza grande da individuare la prevalenza all interno di un intervallo che considero soddisfacente Più è piccola la prevalenza, più vorrò essere preciso per evitare il rischio di non individuare con certezza una prevalenza. 18
il grado di precisione Se dal campione ottengo una prevalenza del 41%, e ho definito un errore pari a 5%, considero tollerabile che il valore reale vari da 41-5= 5=36 a 41+5=46 46 Se avevo definito un livello di confidenza del 95%, vorrà dire che col 95% di probabilità la prevalenza nella popolazione totale, sarà compresa fra il 36% e il 46% (41% ± 5%). Ma se studio una prevalenza attorno al 4%, avrò bisogno di precisione maggiore per evitare il rischio di incrociare lo 0%. Se fossi disposto a tollerare un errore del 5%, avrei un intervallo possibile (4%±5%) 5%),, che varia da -1% a 9% 19 numerosità campionaria z valore della normale in corrispondenza del livello di confidenza desiderato Es: : se 95% => z=1,96 (1- α)=90% => z=1,645 90% => z=2,576 p prevalenza plausibile della condizione da studiare. (expected( prevalence) Es: dislessia nel 4,0% della popolazione => p = 0,040 = 4,0% q 1-p=0.96 b precisione desiderata (desired( precision) Es: : se il 4,0% di prevalenza non voglio che oscilli oltre ±2%, cioè che vada da 2,0% a 6,0% => b=0,02 pop numerosità della popolazione di riferimento Es: : i bambini dislessici di IV elementare sono 9000 in FVG 20
numerosità campionaria per popolazioni grandi, la numerosità campionaria sarà: x 0 = z² (pq)) / b² per popolazioni piccole, la formula va corretta in: x = x 0 / [1+ (x 0 / pop)] * piccole : popolazioni inferiori ai 20000. 21 esempio voglio stimare la numerosità del campione necessario a studiare la dislessia,, presente circa nel 4% della popolazione dei bambini che frequentano la IV elementare, e in Friuli Venezia Giulia ho una popolazione di 9000 studenti di IV, e voglio un livello di confidenza del 95% e una precisione del 2%: 2 x 0 = z² (pq)) / b² = 1,96² (0,04 * 0,96) / 0,02² = 369 essendo la popolazione piccola, uso la seconda formula: x = x 0 / [1+ (x( 0 / pop)] = 369 / [1+ (369 / 9000)] = 354 22
esempio: openepi http://www.openepi.com/menu/openepimenu.htm 23 se volessi studiare una associazione? Errore di tipo alfa (α)( lo studio mostra un associazione che in realtà non esiste (falso positivo) ) (definisce( la probabilità statistica che il risultato ottenuto in uno studio sia casuale) Errore di tipo beta (β)( lo studio non mostra un associazione che in realtà esiste (falso negativo). Si riferisce alla possibilità che la mancata evidenza di un risultato significativo sia dovuta solo al caso (potenza di uno studio = 1-1 β) 24
elementi necessari per stimare la numerosità campionaria Livello di significatività (1-α) ) (di solito 95%) Probabilità di incontrare un associazione che realmente esiste (1-β) ) (di solito 80%) power: potenza dello studio Rapporto tra esposti e non esposti (N0/N1) Prevalenza dell outcome tra gli esposti (a/n0) Prevalenza dell outcome tra non esposti (b/n1) so ben poco di queste cose...ipotizzo... 25 esempio: openepi http://www.openepi.com/menu/openepimenu.htm 26
tipi di campionamento probabilistico casuale semplice sistematico casuale stratificato non probabilistico scelta di comodo (campionamento per quote o convenience sampling) scelta ragionata (campionamento ragionato o judgmental sampling) 27 campionamento probabilistico Le unità della popolazione hanno la stessa probabilità di essere selezionate Cerca di ridurre l errore (intenzionale o meno) del ricercatore nella selezione delle unità. 28
campionamento casuale semplice Es. Voglio misurare il peso e altezza di bambini delle elementari di un paese. Voglio selezionare 300 bambini tra il totale di 6,000 alunni Preparo la lista completa dei 6000 alunni, numerandoli da 1 a 6000. Genero 300 numeri casuali da 1 a 6000 [con Epi Info o excell: =CASUALE()*(1-6000)+6000] Dalla lista, prendo i bambini che corrispondono ai numeri selezionati 29 campionamento sistematico Stesso esempio, ma Uso l intervallo di selezione, il passo (6000/300 = 20) Seleziono un numero casuale da 1 a 20 che chiamo unità d inizio (es: 13) Seleziono tutti i bambini che hanno come numero di lista = (unità d inizio) + (il passo) es: 13, 33, 53, 73... 5973, 5993. 30
campionamento stratificato Quando si studia un carattere che si suppone sia influenzato da un certo fattore presente nella popolazione (es. sesso o classi d età). Prima di effettuare l'estrazione del campione la popolazione viene suddivisa in strati basati su un fattore che influenza il livello o del carattere da studiare. Quindi, all'interno di ciascuno strato si sceglie un campione in modo casuale semplice o sistematico. Divisione della popolazione in sottogruppi (es: classi di bambini) Selezione casuale delle unità nei sottogruppi (es: bambini nelle classi) rispettando le proporzioni di ripartizione dei bambini nelle n classi, tra universo e campione. Vi possono essere varie tappe di stratificazione 31 Il campionamento casuale stratificato è più flessibile di quello casuale semplice: nei diversi strati posso scegliere una percentuale differente (es. 10% in uno strato, 5% in un altro ecc.). Lo svantaggio del campionamento stratificato è che la caratteristica di appartenenza di ciascuna unità ad uno strato deve essere nota prima di scegliere il campione. 32
la randomizzazione nei trial randomizzati controllati Concetto diverso rispetto alla randomizzazione di unità campionarie a partire da una popolazione d interesse. Il TRIAL è un esperimento (implica un intervento su un gruppo e un intervento diverso o un non intervento su un altro gruppo) e non uno studio osservazionale. La randomizzazione serve comunque a garantire l allocazione casuale dei soggetti ad un braccio o all altro dello studio (o a più bracci). Non necessaria una lista completa di soggetti, ma importante generare a priori una lista di allocazione, garantendo, a seconda dello studio, il più alto grado di blinding possibile. Clownterapia? 33 Esercitazione 1 Pensare ad uno studio osservazionale (campione casuale semplice). In una parte della popolazione volete studiare la prevalenza di una particolare caratteristica o patologia. Definire la caratteristica. Definire la popolazione di interesse. Ragionare su evidenza di possibile prevalenza della caratteristica nella popolazione oggetto dello studio. Calcolare la numerosità campionaria. 34
Esercitazione 2 Pensare ad uno studio intervento (RCT). Su un gruppo di pazienti affetti da una specifica patologia (da definire) volete sperimentare un nuovo trattamento (da definire il nuovo e il vecchio). Definire la patologia, i pazienti, i trattamenti. Fare ipotesi sulla diversa prevalenza di uno specifico outcome nel gruppo che ha avuto il nuovo trattamento e l altro (senza o con vecchio trattamento). Calcolare la numerosità campionaria necessaria a dimostrare la significatività della differenza tra trattamenti. A seconda della numerosità necessaria ottenuta, ragionare sulla fattibilità dello studio (quanti pazienti reclutereste in un periodo ragionevole di tempo). A seconda del trattamento scelto, ragionare sulle possibilità di garantire la cecità nel personale che somministra il trattamento,, nel paziente, e nel personale che valuta l outcome outcome. 35 Fine LM 36