Anno accademico 2007/08 L indagine campionaia Lezione 6 Docente: pof. Mauizio Pisati Eoe della stima Nelle lezioni pecedenti abbiamo assunto che l unica fonte di eoe della stima fosse la vaianza campionaia ( ) V (), cioè la tendenza delle stime c ad oscillae intono al veo valoe di θ a causa della vaiabilità intinseca al pocesso di campionamento pobabilistico 1
Eoe della stima Tuttavia, questo assunto è quasi sempe iealistico Nella maggio pate delle situazioni eali di iceca, accanto all eoe casuale della stima attibuibile al pocesso di campionamento pobabilistico, è pesente una componente di eoe sistematico (bias) che può deivae da divese fonti: MSE ˆ) ˆ) + 2 ( θ = E( ε ) = V ( θ B( θ ˆ) 2 Eoe della stima Componenti pincipali Eoe di campionamento Eoe non campionaio Casuale Eoe dovuto all'intinseca vaiabilità del pocesso di campionamento pobabilistico (vaianza campionaia) Sistematico Eoe di selezione dovuto all'adozione di un disegno di campionamento non pobabilistico Eoe di copetua Eoe di non isposta totale Eoe di non isposta paziale Eoe di misuazione Eoe di elaboazione 2
Eoe di selezione In questa lezione pendeemo in esame te tipi di eoe sistematico, tutti classificabili sotto la voce eoe sistematico di selezione (selection bias) Eoe di copetua Eoe di non isposta totale Eoe sistematico di campionamento Eoe di selezione L eoe di copetua e l eoe di non isposta totale sono chiaamente definibili solo in pesenza di un disegno di campionamento pobabilistico L eoe sistematico di campionamento, invece, deiva dall adozione di un disegno di campionamento non pobabilistico o pobabilistico modificato 3
Eoe di copetua L eoe di copetua si veifica quando la popolazione campionata cioè l insieme delle unità di analisi incluse nella lista di campionamento non cope esattamente la popolazione di ifeimento, cioè non compende tutte le unità che fomano la popolazione di ifeimento Eoe di copetua L incompletezza della lista di campionamento influisce sulla composizione del campione iniziale, in quanto ende nulla la pobabilità di inclusione nel campione iniziale di un dato sottoinsieme della popolazione di ifeimento: > 0 pi i = 0 se se i lista campionamento i lista campionamento 4
Eoe di copetua Popolazione di ifeimento Unità escluse dalla lista di campionamento Unità incluse nella lista di campionamento Eoe di copetua Campione iniziale Eoe di non isposta totale L eoe di non isposta totale si veifica quando una o più unità campionate eleggibili non ispondono all indagine Si definisce unità campionata eleggibile ogni unità inclusa nel campione iniziale che appatiene effettivamente alla popolazione di ifeimento 5
Eoe di non isposta totale Le non isposte possono essee classificate in due categoie: Non contatto: si veifica quando l intevistatoe non iesce a stabilie un contatto dietto con un unità campionata eleggibile Rifiuto: si veifica quando un unità campionata eleggibile viene contattata diettamente ma si ifiuta di coopeae (ifiuto esplicito) o isulta incapace di coopeae (ifiuto implicito) Eoe di non isposta totale Le non isposte influiscono sulla composizione del campione effettivo, in quanto endono nulla la pobabilità di inclusione nel campione effettivo di un dato sottoinsieme delle unità campionate eleggibili e, quindi, di un dato sottoinsieme della popolazione di ifeimento 6
Eoe di non isposta totale Campione iniziale Contatti Non contatti Eleggibili Non eleggibili Eleggibili Non eleggibili Collaboazioni Rifiuti Eoe di non isposta totale Campione effettivo Divesi tipi di popolazione Popolazione di ifeimento Popolazione non copeta Popolazione appesentata Popolazione non ispondente Popolazione non eleggibile Popolazione campionata (lista di campionamento) 7
Conseguenze La popolazione di ifeimento può essee vista come la somma di te sottopopolazioni: Popolazione non copeta Popolazione non ispondente Popolazione appesentata Indichiamo con: Conseguenze nc = peso elativo della popolazione non copeta n = peso elativo della popolazione non ispondente = peso elativo della popolazione appesentata nc + n + = 1 8
Indichiamo con: Conseguenze E() = valoe atteso dello stimatoe di θ nell intea popolazione di ifeimento E( nc ) = valoe atteso dello stimatoe di θ nella popolazione non copeta E( n ) = valoe atteso dello stimatoe di θ nella popolazione non ispondente E( ) = valoe atteso dello stimatoe di θ nella popolazione appesentata Conseguenze Il valoe atteso dello stimatoe di θ nell intea popolazione di ifeimento può essee espesso come segue: E θ ˆ) = nc E( ) + n E( ) + E( ) ( nc n 9
Conseguenze Manipolando algebicamente la fomula pecedente, otteniamo la seguente espessione del valoe atteso dello stimatoe di θ nella sola popolazione appesentata: E ) = E( ) + nc ( E( ) E( )) + n ( E( ) E( )) ( nc n Eoe sistematico di selezione Conseguenze L espessione pecedente affema che il valoe atteso dello stimatoe di θ nella sola popolazione appesentata è la somma di due componenti: Il valoe atteso dello stimatoe di θ nell intea popolazione di ifeimento (quantità di inteesse) Eoe sistematico di selezione 10
Conseguenze A sua volta, l eoe sistematico di selezione è funzione di quatto componenti: Il peso elativo della popolazione non copeta La diffeenza fa la popolazione appesentata e la popolazione non copeta in temini di θ Il peso elativo della popolazione non ispondente La diffeenza fa la popolazione appesentata e la popolazione non ispondente in temini di θ Conseguenze Quanto minoe è il valoe assunto da ciascuna di queste quatto componenti, tanto minoe è a paità di ogni alta condizione l entità dell eoe sistematico di selezione 11
Conseguenze Quando la diffeenza in temini di θ fa la popolazione appesentata e la popolazione non appesentata (non copeta + non ispondente) è molto contenuta, l incompletezza della lista di campionamento e le non isposte non influiscono sulla coettezza dello stimatoe: E( ) = E( ) + nc = E( ) + nc = E( ) ( E( ) E( )) + n ( E( ) E( )) ( 0) + n ( 0) nc n Conseguenze Analogamente, quando il peso elativo della popolazione non copeta e della popolazione non ispondente è molto contenuto, qualunque diffeenza in temini di θ fa la popolazione appesentata e la popolazione non appesentata non influisce sulla coettezza dello stimatoe: E( ) = E( ) + nc = E( ) + 0 = E( ) ( E( ˆ ) ( ˆ ˆ ) E( θ nc ) + n E( θ ) E( θ n )) ( E( ) E( )) + 0 ( E( ) E( )) nc n 12
Eoe di copetua L incompletezza della lista di campionamento è una fonte di eoe sistematico difficile da definie Nella maggio pate dei casi, infatti, è impossibile stabilie con pecisione se e in quale misua la lista di campionamento utilizzata è incompleta Inolte, l incompletezza può avee un caattee di casualità, nel qual caso non influisce sulla coettezza degli stimatoi Eoe di copetua In Italia, quando si usano liste di campionamento come i egisti anagafici comunali o i egisti elettoali, bisogna aspettasi un ceto gado di incompletezza dovuto a itadi nell aggionamento dei egisti Questo gado di incompletezza non è unifome in tutto il teitoio nazionale, ma tende a vaiae da comune a comune 13
Eoe di non isposta Nella maggio pate delle indagini campionaie basate su un disegno di campionamento pobabilistico, le non isposte appesentano la pincipale fonte di eoe sistematico della stima All inteno delle non isposte, genealmente i ifiuti pesano molto di più dei non contatti Eoe di non isposta In geneale, le non isposte sono una fonte di eoe sistematico della stima peché le pesone iepeibili o non collaboanti hanno caatteistiche divese da quelle dei ispondenti Quando tale diffeenza è molto accentuata e le non isposte sono molto numeose, le stime campionaie devono essee intepetate con molta cautela 14
Eoe di non isposta Caatteistiche Addestamento Espeienza sociodemogafiche Pesonalità Caico di lavoo INTERVISTATORI Agomento Repeibilità Committente Disegno di campionamento Tecnica di ilevazione INDAGINE NON RISPOSTE INTERVISTATI Impegni Zona di esidenza Caatteistiche sociodemogafiche Tipo di famiglia Questionaio Espeienze passate Regole di fieldwok Pesonalità Eoe di non isposta Il poblema delle non isposte può essee affontato mediante due stategie complementai: Pevenzione Compensazione La pevenzione è sempe pefeibile alla compensazione che, nella maggio pate dei casi, si basa su assunti poco ealistici 15
Pevenzione La pevenzione consiste nel idue il più possibile il numeo e la potata delle potenziali fonti di non isposta Le stategie di pevenzione vaiano a seconda del tipo di indagine Pevenzione Nelle indagini basate su intevista telefonica o faccia-a-faccia, i non contatti possono essee idotti fissando un numeo minimo di tentativi sufficientemente elevato (almeno 10 telefonate e 6 visite al domicilio) e concentando i tentativi nelle oe seali e nei fine settimana 16
Pevenzione In tutti i tipi di indagine, le non isposte possono essee idotte inviando in anticipo, ai membi del campione iniziale, una lettea di pesentazione dell indagine scitta in modo chiao, efficace e convincente Pevenzione In tutti i tipi di indagine, le non isposte possono essee idotte dedicando molte isose all addestamento, alla motivazione e alla supevisione degli intevistatoi A questo poposito, una figua paticolamente ilevante è quella dei convetitoi, intevistatoi addestati a convetie i ifiuti in collaboazioni 17
Pevenzione In tutti i tipi di indagine, le non isposte possono essee idotte offendo agli intevistati degli incentivi economici (denao, omaggi, biglietti di lotteie ) Pevenzione Nelle indagini postali, le non isposte possono essee idotte: Utilizzando un questionaio beve, compensibile e caatteizzato da una veste tipogafica accuata Inviando 3-4 ichiami ento 30-40 gioni dal pimo invio 18
Compensazione La compensazione consiste nel cecae di poe imedio alle non isposte già ealizzate Si possono distinguee due tipi di compensazione: In itinee Ex post Compensazione La compensazione in itinee si applica duante lo svolgimento dell indagine e può assumee due fome: Raccogliee le infomazioni desideate sui soggetti non collaboanti intevistando pesone a loo vicine, dette poxy (coniuge, genitoe, figlio, amico ) Sostituie i soggetti non collaboanti con alti soggetti aventi caatteistiche simili 19
Compensazione La seconda foma di compensazione in itinee (sostituzione) è genealmente sconsigliata peché altea il caattee pobabilistico del disegno di campionamento adottato, tasfomandolo di fatto in un disegno non pobabilistico Compensazione La compensazione ex post si applica al temine dell indagine e consiste nell applicae ai dati accolti divesi tipi di aggiustamenti statistici Uno degli aggiustamenti statistici più utilizzati è una foma di pondeazione nota come post-statificazione 20
Post-statificazione L idea fondamentale della post-statificazione è la seguente: A causa delle non isposte (nonché dell incompletezza della lista di campionamento), alcune pati della popolazione di ifeimento sono sottoappesentate nel campione effettivo, mente alte sono sovaappesentate Pe coeggee questa sotto- o sovaappesentazione, si assegnano pesi divesi ai ispondenti Post-statificazione Questi pesi vengono ceati utilizzando infomazioni note sulla popolazione di ifeimento, tipicamente le distibuzioni di alcune vaiabili socio-demogafiche come il sesso, l età, il titolo di studio, la egione di esidenza e la dimensione del comune di esidenza 21
Tasso di isposta Il tasso di isposta appesenta un elemento impotante pe valutae la qualità di un indagine campionaia e, in paticolae, l entità dell eoe sistematico delle stime Il tasso di isposta può essee calcolato in divesi modi Indichiamo con: Tasso di isposta NC = numeo delle unità campionate non contattate RIF = numeo delle unità campionate eleggibili che hanno ifiutato l intevista RISP = numeo delle unità campionate eleggibili che hanno accettato l intevista 22
Tasso di isposta Se assumiamo che tutte le unità campionate non contattate sono eleggibili, alloa la fomula del tasso di non isposta è: TR = NC RISP + RIF+ RISP Tasso di isposta Se invece assumiamo che solo el% di tutte le unità campionate non contattate sono eleggibili, alloa la fomula del tasso di non isposta è: RISP TR= el NC+ RIF + RISP 23
Esempio Euopean Social Suvey 2003 (Italia): Ampiezza campione iniziale: 3.000 Unità campionate non eleggibili: 162 NC: 114 RIF: 1.517 (1.211 espliciti e 306 impliciti) RISP: 1.207 Esempio Ipotesi 1 Tutte le unità campionate non contattate sono eleggibili: 1.207 TR= 114+ 1.517+ 1.207 1.207 = = 0,425= 42,5% 2.838 24
Esempio Ipotesi 2 Il 90% delle unità campionate non contattate sono eleggibili: 1.207 TR= 0,9 114+ 1.517+ 1.207 = 1.207 2.827 = 0,427= 42,7% Tasso di isposta Nel coso degli ultimi decenni il tasso di isposta delle indagini campionaie ha subito una diminuzione costante in tutti i paesi occidentali In paticolae, nel coso degli anni Novanta in molti paesi si è veificato un calo dei tassi di isposta pai a cica 10 punti pecentuali (da 70-80% a 60-70%) 25