Università del Piemonte Orientale Corsi di Laurea Triennale di area tecnica Corso di Statistica Medica Campionamento e distribuzione campionaria della media Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 1
Argomenti della lezione - Perché estrarre un campione. - Definizione di popolazione e campione. - Relazione tra popolazione e campione - Proprietà delle statistiche campionarie. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 2
Le statistiche campionarie fanno parte della vita di tutti i giorni - Il docente interroga un campione di allievi per verificare la comprensione della classe. - Il cuoco assaggia un campione di pasta per valutarne la cottura. - Il farmacologo valuta la risposta ad un farmaco su un campione di pazienti. - La ditta di sondaggi prevede l esito delle elezioni interrogando un campione della popolazione. - ecc. ecc. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 3
I risultati campionari non interessano di per sé ma solo perché consentono di trarre conclusioni generali valide per tutta la popolazione da cui il campione è stato estratto. Questo processo si chiama inferenza statistica. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 4
Campionamento ed inferenza sono due processi simmetrici Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 5
Il percorso dell inferenza statistica si svolge secondo le seguenti fasi: 1. estrazione di un campione della popolazione 2. calcolo delle statistiche campionarie, cioè dei valori corrispondenti ai dati contenuti nel campione 3. stima dei parametri nella popolazione in base ai risultati forniti dal campione. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 6
Argomenti della lezione - Perché estrarre un campione. - Definizione di popolazione e campione. - Relazione tra popolazione e campione e proprietà delle statistiche campionarie. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 7
Popolazione: insieme di tutti i valori realizzati o possibili di una data variabile insieme che raccoglie tutte le osservazioni possibili, relativamente ad una data variabile o ad un dato fenomeno. può essere finita (comunque molto grande) o infinita trattiamo come popolazioni anche insiemi che non sono enumerabili e che si realizzeranno nel futuro: es. quando ci riferiamo ai malati di una certa malattia vogliamo formulare una previsione valida anche per i casi che non sono ancora stati diagnosticati. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 8
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 9
Campione: raccolta finita di elementi estratti da una popolazione scopo dell estrazione è quello di ottenere informazioni sulla popolazione pertanto il campione deve essere rappresentativo della popolazione da cui viene estratto ( non viziato ) per corrispondere a queste esigenze il campione viene individuato con un campionamento casuale. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 10
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 11
Secondo quali modalità possiamo estrarre un campione? I principali metodi di campionamento: Campionamento casuale semplice Campionamento sistematico Campionamento stratificato Campionamento a grappoli Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 12
In un campionamento casuale semplice tutti gli individui nella popolazione hanno uguale probabilità di essere inclusi nel campione. - individui nella popolazione = "unità di campionamento" - popolazione oggetto dello studio = "popolazione bersaglio" - popolazione effettivamente campionabile (al netto dell'effetto di fattori di selezione) = "popolazione studio " o base di campionamento - distorsioni di selezione = errori che rendono non uniforme la probabilità di essere inclusi nel campione. (es un campionamento condotto tramite l'uso dell'elenco telefonico esclude le famiglie senza telefono, pertanto la popolazione bersaglio e la base di campionamento potrebbero non corrispondere, causando così una distorsione di selezione) Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 13
Nella pratica del campionamento debbo disporre di una base di campionamento. La base di campionamento corrisponde all elenco dei soggetti da cui materialmente estraggo il campione. Per effettuare un vero campionamento ho bisogno che la base di campionamento corrisponda ad un elenco (lista) di individui identificabili. Se la base di campionamento e la popolazione bersaglio discordano, si verifica una distorsione di selezione. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 14
Assunzioni per la validità del campionamento I metodi della statistica campionaria assumono che: - non vi siano errori sistematici (bias) di selezione - la base di campionamento corrisponda alla popolazione bersaglio. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 15
Il campionamento viene di solito condotto predefinendo la dimensione del campione. Si calcola quindi la frazione di campionamento, cioè la probabilità che un dato individuo sia estratto ed entri a far parte del campione. Data una popolazione con N individui ed un campione di C individui (dove N è molto grande rispetto a C) la probabilità per l i-esimo individuo è C/N. Frazione di campionamentoψ = dimensione del campione dimensione della popolazione Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 16
Nel campionamento casuale semplice la stessa frazione di campionamento viene applicata a tutta la popolazione. Se la frazione di campionamento è piccola (C << N), Ψ si mantiene praticamente costante anche se i soggetti campionati escono dalla popolazione. Altrimenti Ψ varia nel corso del campionamento ed occorre tenerne conto applicando una correzione (correzione per la popolazione finita) Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 17
Campionamento stratificato N. nella popolazione N. nel campione Frazione di campionamento Strato 1 Maschi N1 C1 ψ 1 Strato 2 Femmine N2 C2 ψ 2 Obiettivi : 1.tutti gli strati siano rappresentati nel campione con numerosità sufficiente 2. controllo della proporzione dei soggetti nei diversi strati, non lasciandola esposta alla variabilità casuale Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 18
Esempio: in uno studio epidemiologico sul tumore polmonare voglio che maschi e femmine siano rappresentati con la stessa numerosità. La frequenza relativa nella popolazione dei casi di tumore polmonare è di 10 uomini : 1 donna. Con un campione casuale semplice mi aspetto di trovare solo il 10% di donne. Procedo quindi ad un campionamento stratificato Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 19
Base di campionamento: i casi di tumore polmonare incidenti (cioè di nuova diagnosi) nella popolazione di Torino negli anni 1993-98 Debbo includere nel campione 100 uomini e 100 donne. Strato 1 Strato 2 N. nella popolazione N. campione Frazione di campionamento Maschi 3355 100 100 / 3355 = 0,0298 Femmine 847 100 100 / 847 = 0,1181 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 20
Il campionamento a grappolo (anche detto a cluster). Esempio: voglio verificare l efficacia di due diversi trattamenti per la disassuefazione dal fumo. Entrambi i trattamenti devono essere proposti dal medico di base. Procedo in due fasi: 1. campione dei medici (10 medici tra tutti i medici di base di Novara) 2. campione degli assistiti dei medici campionati nella fase 1 (20 assistiti per ciascun medico) Totale del campione : 10 medici x 20 assistiti = 200 assistiti. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 21
Schema di campionamento a grappolo campione Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 22
Altri schemi di campionamento: Campionamento sistematico; Campionamento non probabilistico (selezione per quote). Metodi sconsigliati Campionamento sistematico ("a passo fisso", es. una osservazione ogni 10) potrebbe nascondere distorsioni di selezione. Campionamento non probabilistico o selezione per quote non è un campionamento Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 23
Un campione casuale corrisponde alla popolazione? Definiamo statistica campionaria la statistica calcolata per le osservazioni che compongono il campione. In generale, le statistiche campionarie sono definite in modo tale da essere degli stimatori non distorti della statistica calcolata per la popolazione. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 24
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 25
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 26
Argomenti della lezione - Perché estrarre un campione. - Definizione di popolazione e campione. - Relazione tra popolazione e campione e proprietà delle statistiche campionarie. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 27
Il campione casuale corrisponde alla popolazione? Esaminiamo il caso della media campionaria (la media calcolata per le osservazioni che compongono il campione). Un campione casuale ha le seguenti proprietà: - Il valore atteso della media calcolata sul campione (media campionaria) è la media della popolazione, in altre parole la media campionaria è una stima non distorta della media della popolazione. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 28
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 29
E per quanto riguarda la varianza campionaria? Il valore atteso della varianza campionaria (calcolata con n-1) è la varianza della popolazione, in altre parole la varianza campionaria (calcolata con n-1) è una stima non distorta della varianza della popolazione. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 30
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 31
La stima fornita dal singolo campione è comunque affetta da incertezza, a causa dell'errore casuale del campionamento. In generale quindi possiamo dire che la precisione della stima fornita da un campione (stima campionaria) sarà maggiore con: - inferiore variabilità nella popolazione - maggiore dimensione del campione Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 32
La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo di ripetere un campionamento per molte volte. Per ciascuno dei campioni calcoliamo la media (la media campionaria ). Calcoliamo media e deviazione standard delle medie campionarie. Esaminiamo alcuni esempi di risultati con strumenti grafici: Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 33
Vediamo alcuni esempi relativi alle proprietà dei campioni n = 9 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 34
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 35
Osserviamo che: La media delle medie campionarie corrisponde alla media della popolazione (µ) La variabilità della distribuzione delle medie campionarie è inferiore alla variabilità nella popolazione. Campioni più grandi daranno una distribuzione con variabilità inferiore. La forma della distribuzione di frequenza delle medie campionarie è gaussiana, anche se la popolazione di partenza non lo è. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 36
Variabilità della distribuzione delle medie campionarie La deviazione standard della distribuzione delle medie campionarie viene indicata anche come Errore Standard della Media (abbreviato in Errore Standard o ES). σ = dev. standard della popolazione ES = σ n ES dipende dalla variabilità nella popolazione e dalla dimensione campionaria Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 37
variabilità nella popolazione E. S. = σ n dimensione del campione Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 38
Conclusione / riepilogo Il valore atteso della media campionaria è la media della popolazione. Il valore atteso della varianza campionaria calcolata con il denominatore (n-1)è la varianza della popolazione. La variabilità della distribuzione delle medie campionarie è inferiore alla variabilità nella popolazione. Campioni più grandi avranno distribuzione con variabilità inferiore. La deviazione standard delle medie campionarie viene indicata anche come Errore Standard La forma della distribuzione di frequenza delle medie campionarie è normale. Questo accade anche se la distribuzione nella popolazione non è normale, purchè il campione sia abbastanza numeroso. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 39
Vediamo alcuni esempi relativi alle proprietà dei campioni n = 9 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 40
on campioni più grandi la distribuzione delle medie campionarie ha variabilità inferiore n = 40 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 41
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 42
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 43
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 44
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 45
Applicazione: Estrazione di piccoli campioni: tavola dei numeri casuali Procedura per il campionamento con tavola dei numeri casuali: 1. Le osservazioni che compongono la popolazione (base di campionamento) vengono numerate in ordine progressivo da 1 a N; 2. Viene scelto un punto di partenza sulla tavola dei numeri casuali (es. a occhi chiusi si segna un punto); 3. Viene letto ( estratto ), a partire dal punto così individuato, un numero di M cifre, dove M è pari al numero di cifre del numero totale di osservazioni nella popolazione (es. se la popolazione è di 300 persone useremo numeri di 3 cifre, se di 4500 persone useremo numeri di 4 cifre); Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 46
. Viene inclusa nel campione l osservazione con numero progressivo pari al numero estratto; se il numero estratto è superiore a N si estrae un altro numero.. Si ripete la procedura leggendo i numeri successivi dalla tavola, fino a che non è stato estratto il numero richiesto di osservazioni. e tavole dei numeri casuali possono essere prodotte con appositi programmi di calcolo. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 47
Tavola dei numeri casuali (esemplificativa) 33369 22784 33875 41853 96864 47971 95778 08005 13691 63400 27255 03112 68048 77412 56742 76219 31224 14474 75336 86303 06338 95707 49455 85540 13965 75668 33709 06295 33055 62019 78309 42155 90346 49145 20503 00241 29991 19345 61564 99081 99759 97934 03254 41554 21590 57210 07123 68756 63083 96235 67176 10433 87681 87210 64933 68347 92077 88792 91810 58573 65248 76928 89837 08846 56629 32437 67688 17835 91940 90593 49006 76166 02500 63782 59322 00390 98163 63614 78605 49403 68103 85644 25796 91448 30805 42664 51326 74436 62322 12241 63802 53305 04059 59764 90724 76359 55535 86055 29585 46302 79742 99960 26124 46870 20689 25098 06410 27973 46998 77311 57720 54907 74245 84488 04270 73048 99066 06519 48641 55943 79237 41051 12398 66696 85112 14981 17287 21146 62211 05821 24228 57850 98341 16681 37812 47509 18925 86597 18675 49091 55660 49424 43933 05963 20149 05200 50960 08358 67511 01933 19861 22439 01143 94432 63532 56945 58842 40528 92572 20741 94669 32527 87760 94104 25509 76415 05216 24500 17838 70817 89985 34649 53377 31730 94086 31638 35588 17093 36147 91279 48789 72702 67008 21668 82146 01413 79372 14942 68705 38683 49480 02888 22917 63258 11111 33411 13775 85533 80985 00143 24743 85641 42291 36778 10893 05437 19824 08378 42976 86795 64847 23589 33594 89748 10957 32718 51763 68813 10425 77035 03430 36514 70661 31756 05050 40475 71065 74305 77737 29833 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 48
Esempio: estrazione di un campione di 10 soggetti da una base di 120. La base è elencata nella tabella allegata Dovrò scegliere numeri di 3 cifre. Decido che procederò progressivamente per colonna, dall alto i basso. In modo casuale individuo il punto sottolineato come punto di partenza. I successivi valori inferiori a 120 sono annotati in grassetto. I valori 040, 011, 026, 045, 088 corrispondono ai soggetti da campionare. Tali soggetti sono evidenziati nella tabella successiva con indicati i valori di emoglobina. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 49
Tavola dei numeri casuali 33369 22784 33875 41853 96864 47971 95778 08005 13691 63400 27255 03112 68048 77412 56742 76219 31224 14474 75336 86303 06338 95707 49455 85540 13965 75668 33709 06295 33055 62019 78309 42155 90346 49145 20503 00241 29991 19345 61564 99081 99759 97934 03254 41554 21590 57210 07123 68756 63083 96235 67176 10433 87681 87210 64933 68347 92077 88792 91810 58573 65248 76928 89837 08846 56629 32437 67688 17835 91940 90593 49006 76166 12500 63782 59322 00390 98163 63614 78605 49403 68103 85644 25796 91448 30805 42664 51326 74436 62322 12241 63802 53305 04059 59764 90724 76359 55535 86055 29585 46302 79742 99960 26124 46870 20689 25098 06410 27973 46998 77311 57720 54907 74245 84488 04270 73048 99066 06519 48641 55943 79237 41051 12398 66696 85112 14981 17287 21146 62211 05821 24228 57850 98341 16681 37812 47509 18925 86597 18675 49091 55660 49424 43933 05963 20149 05200 50960 08358 67511 01933 19861 22439 01143 94432 63532 56945 58842 40528 92572 20741 94669 32527 87760 94104 25509 76415 05216 24500 17838 70817 89985 34649 53377 31730 94086 31638 35588 17093 36147 91279 48789 72702 67008 21668 82146 01413 79372 14942 68705 38683 49480 02888 22917 63258 11111 33411 13775 85533 80985 00143 24743 85641 42291 36778 10893 05437 19824 08378 42976 86795 64847 23589 33594 89748 10957 32718 51763 68813 10425 77035 03430 36514 70661 31756 05050 40475 71065 74305 77737 29833 75385 23135 69283 16727 65703 02780 23804 68981 11584 49648 64545 63962 51199 01283 97825 28393 66071 82123 57660 19916 98208 33362 69117 21161 23944 64238 94059 14970 05617 12805 32054 07203 26193 21394 84195 24214 84411 40803 98537 38507 17344 15148 48565 37822 58481 89051 82970 42120 31433 22193 50394 05450 64035 43057 40668 41553 60431 18390 64851 68625 78953 17763 97731 42023 83425 21144 61224 08446 59292 20144 00944 74988 12680 67331 38098 07617 07062 68488 10741 47585 09145 60399 34502 96525 01889 26599 00459 84522 16394 04293 95169 67557 02640 34346 11248 38069 92350 56729 39454 29692 70508 Corsi 54005 di laurea 04520 triennale 68481 di area 49490 tecnica 54518 - Corso 61250 di Statistica 57413 21963 Medica 58693 - Campionamento 50
Numero Hb Numero Hb Numero Hb progressivo progressivo progressivo 1 129 41 142 81 147 2 133 42 142 82 147 3 133 43 142 83 147 4 134 44 142 84 148 5 136 45 142 85 148 6 136 46 142 86 148 7 136 47 143 87 148 8 136 48 143 88 148 9 137 49 143 89 149 10 137 50 143 90 149 11 137 51 143 91 149 12 137 52 143 92 149 13 138 53 143 93 149 14 138 54 143 94 149 15 138 55 143 95 149 16 138 56 143 96 149 17 139 57 144 97 149 18 139 58 144 98 149 19 139 59 144 99 149 20 139 60 144 100 150 21 139 61 144 101 150 22 140 62 144 102 150 23 140 63 144 103 150 24 141 64 144 104 150 25 141 65 145 105 150 26 141 66 145 106 150 27 141 67 145 107 150 28 141 68 145 108 150 29 141 69 145 109 151 30 141 70 145 110 151 31 141 71 145 111 151 32 141 72 145 112 151 33 141 73 146 113 151 34 142 74 146 114 151 35 142 75 146 115 151 36 142 76 146 116 151 37 142 77 147 117 151 38 142 78 147 118 151 39 142 79 147 119 151 Corsi 40 di laurea 142 triennale di area tecnica 80 - Corso 147 di Statistica Medica - Campionamento 51
I valori di emoglobina dei soggetti inseriti nel campione sono: 137, 141, 142, 142, 148 La media campionaria è: 142,0 La deviazione standard campionaria è: 3,9 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 52
Esercizi consigliati da: Fowler et al, ed Edises. Cap 2 (p 209) es 5 Cap 2 (p 209) es 6 Cap 2 (p 209) es 8 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Campionamento 53