L indagine campionaria Lezione 5

Documenti analoghi

CAMPIONAMENTO - ALCUNI TERMINI CHIAVE

Campionamento La statistica media campionaria e la sua distribuzione

Statistica descrittiva e statistica inferenziale

L indagine campionaria Lezione 3

Capitolo 7. Distribuzioni campionarie. Statistica. Levine, Krehbiel, Berenson

Il campionamento statistico. prof. C.Guida

Il Campionamento Statistico

Campionamento La statistica media campionaria e la sua distribuzione. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1

zio L'INDAGINE CAMPIONARIA Metodi, disegni e tecniche di campionamento

Metodi e tecniche di valutazione dei progetti Tecniche di campionamento

28/10/2010 CAMPIONE STATISTICO. L'errore di campionamento

Metodi statistici per le ricerche di mercato

PRINCIPI DI EPIDEMIOLOGIA E SORVEGLIANZA Orvieto, 22 marzo Maria Miceli

LEZIONI DI STATISTICA MEDICA

La progettazione di un indagine statistica

Campionamento. Aa

Metodologia Statistica

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

05. Errore campionario e numerosità campionaria

Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"

Verifica delle ipotesi

Alcuni concetti. Unità

Statistica dei consumi alimentari e delle tendenze nutrizionali Lezione 11-5/11/2015

Stima diretta della domanda di trasporto

Indagine statistica. Indagine Totale Indagine Campionaria Fasi dell indagine

Università del Piemonte Orientale. Corso di Laurea in Igiene Dentale. Corso di Statistica per la ricerca sperimentale e tecnologica

STATISTICA SOCIALE Corso di laurea in Scienze Turistiche - A.A. 2007/2008 Esercizi 30 novembre 2007

Le indagini campionarie

Distribuzioni campionarie. Antonello Maruotti

Metodi Statistici per il Marketing. #06 Elementi di statistica inferenziale e di teoria dei campioni

LA COSTRUZIONE DELLA BASE EMPIRICA B RELATIVAMENTE ALL UNITÀ DI ANALISI LA DEFINIZIONE OPERATIVA DELL OGGETTO

Il campionamento. Storia del campionamento nelle scienze sociali

Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2016/2017. Giovanni Lafratta

Appunti sull indagine statistica e i principali schemi di campionamento

POPOLAZIONE CAMPIONE

Metodi statistici per le ricerche di mercato

RILEVAZIONI CAMPIONARIE E TECNICHE DI CAMPIONAMENTO. Prof.ssa Maria Carella

Indice Aspetti generali sul campionamento da popolazioni finite Campionamento probabilistico Disegno campionario semplice

Università del Piemonte Orientale. Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia. Corso di Statistica Medica

Richiami di inferenza statistica Strumenti quantitativi per la gestione

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

Economia e Gestione delle Imprese

STATISTICA INDUTTIVA: STIMA DI PARAMETRI STIMA PUNTUALE

Facoltà di Giurisprudenza Università di Macerata

Prof. Roberto de Marco. Lezione n L inferenza statistica I. Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona

RILEVAMENTO DELLA PREVALENZA

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 4

Principi di analisi causale Lezione 3

Esercitazioni di Statistica

Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2017/2018. Giovanni Lafratta

STATISTICA A K (60 ore)

Il modello lineare e l analisi della varianza con

Principali procedimenti di campionamento casuali 1

Campionamento e distribuzioni campionarie

Esempi di fattori che influenzano la dimensione del campione per le procedure di conformità EFFETTO SULLA DIMENSIONE DEL CAMPIONE

Argomenti della lezione: Campionamento Stima Distribuzione campionaria Campione Popolazione Sottoinsieme degli elementi (o universo) dell '

Contenuto del capitolo

Valori Mancanti. Valori Mancanti. Introduzione. continua

L INDAGINE SUL BENESSERE ORGANIZZATIVO IN ARPA EMILIA-ROMAGNA LA SCELTA DEL CAMPIONE

Capitolo 4. Il sistema delle informazioni di marketing per ottenere dati sui clienti. Capitolo 4- slide 1

Introduzione alla probabilità

Esercitazioni di statistica

Econometria. lezione 13. validità interna ed esterna. Econometria. lezione 13. AA Paolo Brunori

CON O SENZA REIMMISSIONE

Corso di Audit e Governance INTRODUZIONE AL CAMPIONAMENTO. a cura di Valeria Caviezel

C.I. di Metodologia clinica

STATISTICA ESERCITAZIONE

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Tecniche di sondaggio

Teoria e tecniche dei test

LA STIMA DELLA DOMANDA DI TRASPORTO

Matematica per psicologi

Facoltà di Economia. francesco mola. I sondaggi e le inchieste. campionaria la cui realizzazione avviene secondo le

a rappresenta l intercetta o termine noto della retta, ossia il valore della y quando x = 0.

I SONDAGGI DI OPINIONE. La necessità di una teoria dei campioni

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 15: Metodi non parametrici

REGISTRO DELLE LEZIONI*

Il metodo della regressione

Esercitazione 2 Classificazione dei Temi

Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli

Tipi di variabili. Indici di tendenza centrale e di dispersione

E VALUTAZIONE NELLE SCIENZE SOCIALI. Oggetto di ogni indagine statistica è la conoscenza di una popolazione.

Modulo 1. Lezione 1 Concetti statistici di base: il Campionamento

STATISTICA SOCIALE - Corso di laurea in Scienze Turistiche Prova finale del 18 dicembre 2007 Compito A

Errore nella misura sperimentale

Statistica Inferenziale

Metodi Statistici per il Marketing. #05 Elementi di statistica inferenziale e di teoria dei campioni

Statistica Sociale e Criminale (12 CFU) A.A. 2015/2016

Statistica Un Esempio

Teoria dei Fenomeni Aleatori AA 2012/13

APPUNTI DI STATISTICA INFERENZIALE. Avalle Fulvia, maggio 2014, ITSOS MARIE CURIE CLASSI 4A BIO e 4B BIO

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 5

Analizzare in termini quantitativi significa basarsi su dati e non su idee o ipotesi

Università di Pavia Econometria. Richiami di Statistica. Eduardo Rossi

LE DISTRIBUZIONI CAMPIONARIE

Esercitazioni di statistica

Transcript:

Anno accademico 2007/08 L indagine campionaria Lezione 5 Docente: prof. Maurizio Pisati Campionamento Il campionamento è l insieme delle operazioni finalizzate a generare il campione iniziale di una data indagine campionaria Il campione iniziale è il sottoinsieme della popolazione di riferimento che una data indagine campionaria si propone di intervistare 1

Fasi del campionamento Il campionamento si articola in cinque fasi analiticamente distinte: Definizione della popolazione di riferimento Specificazione del disegno di campionamento Determinazione dell ampiezza del campione iniziale Individuazione delle liste di campionamento Selezione delle unità di campionamento Popolazione di riferimento La popolazione di riferimento è l insieme teorico di tutte le unità di analisi, cioè di tutti gli oggetti di studio di una data indagine campionaria Tipicamente, nelle indagini campionarie di tipo sociologico le unità di analisi sono persone che possiedono determinate caratteristiche 2

Popolazione di riferimento La definizione della popolazione di riferimento dipende strettamente dagli interrogativi di ricerca che stanno alla base dell indagine campionaria In ogni caso, è molto importante che questa definizione sia il più possibile analitica e precisa Popolazione di riferimento Esempio NO: gli italiani adulti SÌ: tutte le persone che il 1 novembre 2003 avevano un età uguale o superiore a 18 anni e risiedevano in Italia in abitazioni private 3

Disegno di campionamento Il disegno di campionamento è la procedura da seguire per selezionare il campione iniziale di una data indagine campionaria I disegni di campionamento possono essere classificati in due categorie: Probabilistici Non probabilistici Disegno di campionamento Un disegno di campionamento si dice probabilistico quando ogni unità della popolazione di riferimento ha una probabilità di inclusione nel campione iniziale nota e maggiore di zero Un disegno di campionamento si dice non probabilistico quando le probabilità di inclusione nel campione iniziale sono ignote 4

Disegno di campionamento I disegni di campionamento probabilistici sono sempre preferibili per due ragioni essenziali: La procedura di selezione del campione iniziale è specificata, oggettiva e replicabile Solo conoscendo la probabilità di inclusione nel campione iniziale di ogni unità della popolazione di riferimento è possibile definire la distribuzione di probabilità degli stimatori di interesse Disegno di campionamento Nonostante ciò, nella pratica di ricerca, in particolare nei sondaggi politici o di opinione e nelle ricerche di mercato, si tende spesso ad utilizzare disegni di campionamento non probabilistici, in quanto meno costosi e più semplici da eseguire In particolare, viene spesso utilizzato il cosiddetto campionamento per quote 5

Disegno di campionamento È importante sottolineare che il ricorso a disegni di campionamento non probabilistici rende impossibile stimare la varianza di qualsiasi stimatore e, pertanto, non consente di calcolare il margine di errore delle stime di interesse Disegni probabilistici I principali disegni di campionamento probabilistici sono definiti dalla combinazione di tre elementi: Meccanismo di selezione delle unità di campionamento Stratificazione della popolazione di riferimento Numero degli stadi di campionamento 6

Meccanismi di selezione I meccanismi di selezione delle unità di campionamento più utilizzati sono tre: Selezione casuale semplice Selezione sistematica Selezione con probabilità proporzionale al peso Meccanismi di selezione La selezione casuale semplice si svolge come segue: A ogni unità inclusa nella lista di campionamento si assegna un numero progressivo compreso fra 1 e N Utilizzando il calcolatore, si generano n numeri casuali nell intervallo compreso fra 1 e N Le unità della lista di campionamento i cui numeri progressivi corrispondono ai numeri casuali così generati vanno a formare il campione desiderato 7

Meccanismi di selezione La selezione sistematica si svolge come segue: Si calcola l intervallo di campionamento, pari a k=n/n Utilizzando il calcolatore, si genera un numero casuale nell intervallo compreso fra 1 e k. Questo numero identifica l unità di partenza della lista di campionamento Cominciando dall unità di partenza, si seleziona dalla lista di campionamento una unità ogni k, fino ad arrivare alle n unità desiderate Meccanismi di selezione La selezione con probabilità proporzionale al peso assegna a ogni unità inclusa nella lista di campionamento una probabilità di essere selezionata proporzionale al suo peso, definito in base a criteri stabiliti dal ricercatore 8

Stratificazione La stratificazione consiste nel suddividere la popolazione di riferimento in H gruppi esaustivi e mutuamente esclusivi detti strati e nel selezionare un campione diverso per ogni strato così identificato Combinando i campioni selezionati nei diversi strati si ottiene il campione complessivo desiderato Stratificazione Per stabilire la quota di campione complessivo da assegnare a ciascuno strato si possono seguire due strategie: Assegnazione proporzionale Assegnazione non proporzionale 9

Stratificazione L assegnazione proporzionale consiste nell assegnare a ogni strato un numero di unità proporzionale al peso dello strato stesso. Formalmente: n n h = N N h Stratificazione L assegnazione proporzionale è la strategia migliore quando: La variabilità del fenomeno studiato è più o meno la stessa in tutti gli strati Gli strati hanno più o meno tutti la stessa dimensione Gli strati hanno dimensioni diverse ma non c è l esigenza di produrre stime separate per ciascuno strato 10

Stratificazione L assegnazione non proporzionale consiste nell assegnare a ogni strato un numero di unità non proporzionale al peso dello strato stesso Stratificazione L assegnazione non proporzionale si utilizza in due casi: Quando la variabilità del fenomeno studiato varia da strato a strato, è consigliabile sovracampionare quegli strati in cui tale variabilità è maggiore Quando gli strati hanno dimensioni diverse e c è l esigenza di produrre stime separate per ciascuno strato, è consigliabile sovracampionare gli strati più piccoli 11

Stratificazione La stratificazione offre diversi vantaggi: Permette di rappresentare perfettamente la distribuzione delle variabili utilizzate per formare gli strati Permette di utilizzare frazioni di campionamento diverse per ogni strato Può aumentare la precisione degli stimatori di interesse Stadi di campionamento Talvolta il campionamento può essere realizzato in un unico stadio In altri casi è preferibile o necessario articolare il campionamento in due o più stadi successivi In questi casi parliamo di campionamento multistadio 12

Campionamento multistadio Il campionamento multistadio implica che le unità di analisi siano organizzate in più livelli gerarchicamente ordinati Ad esempio, gli studenti sono organizzati in classi che, a loro volta, sono organizzate in scuole Se dovessimo selezionare un campione di studenti, potremmo prima selezionare un campione di scuole, poi un campione di classi entro ciascuna delle scuole precedentemente selezionate, e infine un campione di studenti entro ciascuna delle classi precedentemente selezionate Campionamento multistadio In questo esempio, la selezione delle scuole rappresenta il primo stadio di campionamento e le scuole sono dette unità primarie di campionamento Analogamente, la selezione delle classi entro ciascuna scuola rappresenta il secondo stadio di campionamento e le classi sono dette unità secondarie di campionamento Infine, la selezione degli studenti entro ciascuna classe rappresenta lo stadio finale di campionamento e gli studenti sono detti unità finali di campionamento 13

Campionamento multistadio Le unità di campionamento diverse da quelle finali cioè quelle poste ai livelli più elevati della gerarchia sono dette cluster o grappoli, in quanto rappresentano non le unità di analisi vere e proprie, bensì insiemi più o meno ampi di tali unità Nell esempio precedente, le scuole sono cluster di primo livello, le classi sono cluster di secondo livello, gli studenti sono le unità di analisi Campionamento a due stadi Primo stadio di campionamento Stadio finale di campionamento 14

Campionamento multistadio Il campionamento multistadio offre due vantaggi principali: A parità di ogni altra condizione, è meno costoso e più rapido da realizzare Evita la necessità di disporre di una lista unica di tutte le unità della popolazione di riferimento Il suo svantaggio principale è una minore precisione degli stimatori di interesse Disegni probabilistici Combinando variamente i tre elementi descritti sopra (meccanismo di selezione, stratificazione, numero degli stadi di campionamento) si ottengono diversi disegni di campionamento probabilistici Una delle combinazioni più comuni è il campionamento multistadio stratificato in cui: Le unità di primarie di campionamento sono selezionate con probabilità proporzionale al peso Le unità di campionamento successive sono selezionate con procedura casuale semplice o procedura sistematica 15

Disegni probabilistici La scelta del disegno di campionamento probabilistico da adottare in una data indagine campionaria dipende da molti fattori, fra cui: Caratteristiche della popolazione di riferimento Disponibilità di buone liste di campionamento Disponibilità di risorse finanziarie Precisione degli stimatori desiderata Precisione degli stimatori L ultimo fattore menzionato implica che il disegno di campionamento adottato influisce sulla precisione degli stimatori Complessivamente, la precisione di uno stimatore è funzione di tre elementi: L ampiezza del campione effettivo: maggiore è tale ampiezza, maggiore è la precisione La variabilità del fenomeno oggetto di studio: maggiore è tale variabilità, minore è la precisione L efficienza del disegno di campionamento adottato: maggiore è tale efficienza, maggiore è la precisione 16

Precisione degli stimatori L efficienza di un dato disegno di campionamento può essere espressa in termini di contenuto informativo per unità campionata In altri termini, l efficienza di un dato disegno di campionamento è tanto maggiore quanto maggiore è la capacità media di ogni unità campionata di fornire informazioni utili sul fenomeno di interesse Precisione degli stimatori Dunque, un disegno di campionamento è più efficiente di un altro se, a parità di numero di unità campionate, fornisce una maggiore quantità di informazioni sul fenomeno di interesse In pratica, l efficienza relativa di un dato disegno di campionamento viene espressa mediante una misura denominata effetto del disegno (design effect) e indicata con il simbolo deff 17

Precisione degli stimatori Per un dato stimatore θˆ, deff equivale al rapporto fra: V (θˆ ) cpl = varianza dello stimatore che otterremmo se adottassimo un dato disegno di campionamento probabilistico complesso (cioè stratificato e/o multistadio) V (θˆ ) ccs = varianza dello stimatore che otterremmo se, a parità di ampiezza del campione, adottassimo invece un disegno di campionamento a uno stadio con meccanismo di selezione casuale semplice (campionamento casuale semplice) Precisione degli stimatori Formalmente: deff V ( θˆ) = V ( θˆ) cpl ccs Se deff>1, allora il disegno di campionamento complesso adottato è relativamente inefficiente Se deff<1, allora il disegno di campionamento complesso adottato è relativamente efficiente 18

Precisione degli stimatori In genere la stratificazione tende ad aumentare la precisione degli stimatori, cioè a diminuire il valore di deff Al contrario, il campionamento multistadio tende a ridurre la precisione degli stimatori, cioè ad aumentare il valore di deff Tale riduzione è tanto maggiore quanto maggiore è: il numero di unità campionate per cluster l omogeneità delle unità campionate entro ogni cluster Precisione degli stimatori Molti ricercatori calcolano la precisione dei propri stimatori e i margini di errore delle proprie stime come se il campione da essi analizzato fosse stato selezionato mediante un disegno di campionamento casuale semplice, anche quando in realtà è stato selezionato mediante un disegno di campionamento complesso Così facendo sottostimano sistematicamente i margini di errore delle stime, in quanto quasi sempre deff>1 19

Ampiezza del campione iniziale Poiché l obiettivo di ogni indagine campionaria è quello di ottenere stime il più possibile accurate delle quantità di interesse, anche la scelta dell ampiezza del campione iniziale dovrebbe essere fatta tenendo a mente tale obiettivo Ampiezza del campione iniziale A questo proposito, bisogna ricordare che: L accuratezza di ogni stimatore dipende in parte dalla sua precisione La precisione di ogni stimatore dipende in parte dall ampiezza del campione effettivo L ampiezza del campione effettivo dipende in parte dall ampiezza del campione iniziale Dunque, l ampiezza del campione iniziale influisce sull accuratezza degli stimatori di interesse 20

Ampiezza del campione iniziale A parità di ogni altra condizione, quanto maggiore è l ampiezza del campione iniziale, tanto maggiore è l accuratezza degli stimatori di interesse Tuttavia, poiché ogni unità inclusa nel campione iniziale ha un certo costo e poiché le risorse finanziare disponibili sono limitate, generalmente la misura in cui si può aumentare l ampiezza del campione iniziale è sottoposta a vincoli Ampiezza del campione iniziale In generale, per determinare l ampiezza n del campione iniziale si procede come segue: Si stabilisce l ampiezza minima del campione effettivo, cioè il numero minimo di unità necessario per ottenere stimatori ragionevolmente precisi dati gli obiettivi dell indagine. Indichiamo tale quantità con il simbolo nmin 21

Ampiezza del campione iniziale n min Si rettifica per tenere conto dell eventuale presenza, nel campione iniziale, di unità non contattabili. Se la quota di tali unità è stimata essere pari a nc, allora la rettifica assume la seguente forma: n = n min /(1 nc) Ampiezza del campione iniziale n Si rettifica per tenere conto dell eventuale presenza, nel sottoinsieme delle unità contattabili, di unità non eleggibili o eleggibili ma non collaboranti. Se la quota di tali unità è stimata essere pari a nr, allora la rettifica assume la seguente forma: n = n /( 1 nr) 22

Ampiezza del campione iniziale n Si rettifica per tenere conto dell effetto del disegno di campionamento adottato. Se tale effetto è stimato essere pari a deff, allora la rettifica assume la seguente forma: n = n (deff Il risultato di quest ultima rettifica corrisponde all ampiezza n del campione iniziale ) Ampiezza del campione iniziale Esempio: n min = 2.000 nc = 0,03 nr = 0,35 deff = 1,2 n = 2.000 /(1 0,03) = 2.062 n = 2.062 /(1 0,35) = 3.172 n = 3.172 1,2 = 3.806 23

Ampiezza del campione iniziale Come si stabilisce l ampiezza minima del campione effettivo n min? Non esiste una risposta standard a questa domanda Come si è detto, n min dovrebbe esprimere il numero minimo di unità campionate necessario per ottenere stimatori ragionevolmente precisi dati gli obiettivi dell indagine Ampiezza del campione iniziale Il problema è che, in genere, un indagine campionaria si propone di stimare molte quantità di interesse Poiché gli stimatori di queste quantità tendono ad avere precisioni diverse (perché rappresentano fenomeni diversi e riguardano sottoinsiemi della popolazione di riferimento diversi), è impossibile stabilire un valore di ugualmente appropriato per tutti i possibili stimatori di interesse n min 24

Ampiezza del campione iniziale L unico modo per affrontare questo problema consiste nel formulare a priori un piano delle analisi che si intendono effettuare e, quindi, un elenco delle quantità che si intendono stimare All interno di questo elenco si dovrebbero individuare le quantità potenzialmente più difficili da stimare (o quelle che si vogliono stimare con maggiore precisione) e tarare il valore di sulla base di tali quantità n min Ampiezza del campione iniziale Nella maggior parte dei casi la bontà di un campione NON dipende dalla frazione di campionamento, cioè dal rapporto fra l ampiezza n del campione e l ampiezza N della popolazione di riferimento Solo quando la frazione di campionamento supera il 10% può influire in modo rilevante sulla precisione degli stimatori Nella maggior parte delle indagini campionarie di tipo sociologico, tuttavia, la frazione di campionamento non supera l 1% 25

Ampiezza del campione iniziale Analogamente, l ampiezza della popolazione di riferimento NON influisce sulla bontà di un campione di una data ampiezza n In altri termini, la bontà di un campione di ampiezza n è sempre la stessa, qualunque sia l ampiezza della popolazione di riferimento Liste di campionamento La lista di campionamento è l elenco dal quale vengono selezionate le unità di campionamento a ogni stadio previsto dal disegno di campionamento adottato Una buona lista di campionamento possiede due caratteristiche: Completezza Efficienza 26

Liste di campionamento Una lista di campionamento è completa quando comprende tutte le unità che formano la popolazione di riferimento Una lista di campionamento è efficiente quando comprende in unica copia solo le unità che formano la popolazione di riferimento. In altri termini, una lista di campionamento è efficiente quando non comprende unità estranee o ripetute Ponderazione Come abbiamo visto, nei disegni di campionamento probabilistici ogni unità della popolazione di riferimento ha una probabilità di inclusione nel campione iniziale nota e maggiore di zero Indichiamo la probabilità di inclusione associata alla generica unità i con il simbolo pi i 27

Ponderazione Se le unità incluse nel campione iniziale sono tutte caratterizzate dalla stessa probabilità di inclusione, allora il campione è detto autoponderante e non necessita di alcun aggiustamento Se invece le unità incluse nel campione iniziale sono caratterizzate da probabilità di inclusione diverse, allora per ottenere stime non distorte delle quantità di interesse è necessario ponderare il campione Ponderazione La ponderazione consiste nell assegnare a ogni unità campionata un peso w i pari al reciproco della sua probabilità di inclusione. Formalmente: w i= 1/ pi i 28

Ponderazione Unità y i pii wi 1 1.000 0,0020 500 2 1.200 0,0040 250 3 1.500 0,0029 345 4 2.000 0,0017 588 5 1.250 0,0040 250 6 1.400 0,0050 200 7 1.850 0,0100 100 8 1.500 0,0025 400 n = 8 Media semplice di y = 1.462,5 N = 2.633 Media ponderata di y = 1.470,2 29