Utilità delle rilevazioni campionarie

Documenti analoghi
Statistica descrittiva e statistica inferenziale

Indagine statistica. Indagine Totale Indagine Campionaria Fasi dell indagine

CON O SENZA REIMMISSIONE

CAMPIONAMENTO - ALCUNI TERMINI CHIAVE

Analizzare in termini quantitativi significa basarsi su dati e non su idee o ipotesi

Campionamento La statistica media campionaria e la sua distribuzione

Il Campionamento Statistico

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI

b) E necessario formulare delle ipotesi per calcolare l intervallo di confidenza ottenuto al punto a? (motivare brevemente la risposta):

Il campionamento e l inferenza. Il campionamento e l inferenza

standardizzazione dei punteggi di un test

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

POPOLAZIONE CAMPIONE

Schema lezione 5 Intervalli di confidenza

Gli errori nella verifica delle ipotesi

Lezione n. 1 _Complementi di matematica

Distribuzioni campionarie. Antonello Maruotti

L indagine campionaria Lezione 5

Il campionamento statistico. prof. C.Guida

Elementi di base su modello binomiale e modello normale

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. La distribuzione t - student

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

STATISTICA INFERENZIALE

L indagine campionaria Lezione 3

Esercitazione 8 maggio 2014

Distribuzioni campionarie

Capitolo 7. Distribuzioni campionarie. Statistica. Levine, Krehbiel, Berenson

X Lezione Analisi della varianza Esempi e esercizi CPS - Corso di studi in Informatica II parte: Statistica

Intervalli di confidenza

Lezione 4 a - Misure di dispersione o di variabilità

Capitolo 2 Le misure delle grandezze fisiche

a) Usando i seguenti livelli di significatività, procedere alla verifica di ipotesi, usando come ipotesi alternativa un'ipotesi unidirezionale:

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

STATISTICA ESERCITAZIONE

Distribuzioni e inferenza statistica

Verifica delle ipotesi: Binomiale

STATISTICA SOCIALE Corso di laurea in Scienze Turistiche - A.A. 2005/2006 II Prova - 20 dicembre 2005

a) 36/100 b) 1/3 c)

QUANDO RACCOGLIERE DATI SU BASE CAMPIONARIA??

Errori di misura Teoria

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione dei numeri relativi

Probabilità. Ing. Ivano Coccorullo

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

DISTRIBUZIONE NORMALE (1)

STATISTICA APPLICATA Prof.ssa Julia Mortera. Concentrazione

Parlami un po di te.

Capitolo 11 Test chi-quadro

Relazione di fisica ESPERIMENTO N 1

Unità Didattica realizzata dalla prof.ssa De Simone Marilena A.S. 2015/16

Esercizi di Calcolo combinatorio: disposizioni

Ψ PSICOMETRIA. Corso di laurea triennale (classe 34) STATISTICA INFERENZIALE

I disegni sperimentali e il controllo

percorso 4 Estensione on line lezione 2 I fattori della produzione e le forme di mercato La produttività La produzione

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Esercitazione: La distribuzione NORMALE

IL DISEGNO DELLA RICERCA

Elementi di Psicometria con Laboratorio di SPSS 1

Derivazione numerica. Introduzione al calcolo numerico. Derivazione numerica (II) Derivazione numerica (III)

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

Concetti principale della lezione precedente

Lezione 12. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 12. A. Iodice.

Alfredo Rizzi. Già professore ordinario di teoria dell inferenza statistica

Correzione primo compitino, testo A

La valutazione dei rischi. Corso di risk management Prof. Giuseppe D Onza

Facoltà di Economia - STATISTICA - Corso di Recupero a.a Prof.ssa G. Balsamo

Il confronto fra medie

Università del Piemonte Orientale. Corso di Laurea in Igiene Dentale. Corso di Statistica per la ricerca sperimentale e tecnologica

LA LUNGHEZZA DEI GENI UMANI (Es4.1)

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

Importanza delle incertezze nelle misure fisiche

Economia e Gestione delle Imprese

Indice: Strategie generali Strategie specifiche Ripetizione Metodi per aumentare la validità

Note sulla probabilità

Matematica finanziaria

Esercitazioni di statistica

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

In molte applicazioni sorge il problema di sapere in quanti modi possibili si può presentare un certo fenomeno.

STATISTICHE DESCRITTIVE Parte II

Olimpiadi di Statistica Classe V - Fase Eliminatoria

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente:

Note sull implementazione in virgola fissa di filtri numerici

LA CONGIUNTURA DEL SETTORE MANIFATTURIERO NELLE MARCHE NOTA METODOLOGICA IV TRIMESTRE 2015

Giovanna Boccuzzo Dipartimento di Scienze Statistiche Università di Padova

Test di ipotesi su due campioni

Strumenti di indagine per la valutazione psicologica

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

Esercitazioni di statistica

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)

Elementi di Statistica

Il Ricevente comunica pubblicamente una chiave e. Il Mittente codifica il messaggio usando la funzione f(m, e) = C e

Dati sperimentali Nella serie di 10 misurazioni di tempo effettuate, si sono ottenuti i seguenti valori espressi in secondi:

METODO DEI MINIMI QUADRATI

Localizzazione di una esplosione

04 - Logica delle dimostrazioni

Esercitazione 8 del corso di Statistica 2

Statistica sociale Laurea specialistica in Progettazione e gestione del turismo culturale. Lezione 2. Metodologia della ricerca sociale

I formati delle istruzioni

Proprietà della varianza

L INDAGINE SUL BENESSERE ORGANIZZATIVO IN ARPA EMILIA-ROMAGNA LA SCELTA DEL CAMPIONE

Transcript:

Il campionamento

Utilità delle rilevazioni campionarie Lavorare su una parte anziché su tutto ha l indubbio vantaggio di risparmiare energie, denaro e sforzi organizzativi. Per questo la teoria dei campioni, che è la scienza che detta le regole per determinare su quale parte dei collettivi lavorare, si è molto sviluppata nel tempo, al punto che oggi si fa un numero di censimenti (l opposto dei campioni perché si analizzano i dati dell intero collettivo) di gran lunga inferiore al numero di sondaggi, in ogni campo applicativo. Oltre ad essere più costosi, i censimenti hanno la controindicazione che sono molto complessi da organizzare, specie su collettivi estesi. Talvolta non è proprio possibile controllare che tutte le unità del collettivo vengano prese in considerazione. Inoltre un censimento può necessitare di tempi di realizzazione molto lunghi. D altra parte i campioni pongono altri tipi problemi, legati alla loro effettiva affidabilità, materia questa che è oggetto di studio ed è argomento della teoria dei campioni.

Utilità delle rilevazioni campionarie Gli studi sulla popolazione, le abitazioni, le attività economiche, ecc. potrebbero essere effettuati in entrambi i modi (campionario o censuario), ma ci sono altri settori disciplinari, soprattutto in campo sperimentale, in cui non si può prescindere dall osservazione parziale dei collettivi. Ad esempio nella biologia, nella medicina, nella sperimentazione di farmaci, nel controllo della qualità dei prodotti, ecc. può essere osservata solo una parte del collettivo. Esempio: Supponiamo di voler controllare l effetto di un farmaco contro un placebo. Si seleziona un numero di pazienti, tutti affetti da una patologia curabile con quel farmaco, e si sottopone ciascuno o alla vera e propria cura con il farmaco in sperimentazione oppure il placebo. Alla fine si confrontano i risultati ottenuti e si stabilisce se il farmaco ha avuto un effetto significativamente maggiore del placebo. In questo caso non è possibile eseguire la sperimentazione con la tecnica censuaria, perché non si potrà mai avere a disposizione tutta la popolazione affetta da una patologia, sia per la reale difficoltà a reperire i pazienti, sia perché alcuni pazienti possono non sapere di avere quella patologia e non essere conteggiati nel collettivo. In ogni caso una sperimentazione su tutto il collettivo dei pazienti sarebbe troppo costosa e rischiosa, nel caso il farmaco non fosse adeguato.

Utilità delle rilevazioni campionarie Fare un campione vuol dire scegliere delle unità dal collettivo di partenza, che viene detto universo di riferimento, anche detto popolazione di riferimento, in modo che il campione ottenuto sia in miniatura uguale alla popolazione da cui è estratto. Il senso di questa uguaglianza è tutto da chiarire e, soprattutto, difficile da ottenere. Intendiamo con uguaglianza la presenza, sia nell universo, sia nel campione, di alcune caratteristiche nelle unità statistiche con la medesima proporzione. Può definirsi campione ogni sottoinsieme di una popolazione estratto con un procedimento proprio della teoria dei campioni. Un campione dovrebbe essere rappresentativo della popolazione e questo vuol dire che esso può rappresentare gli stessi fenomeni che si possono rilevare sulla popolazione.

Utilità delle rilevazioni campionarie La rappresentatività si può ottenere tenendo sotto controllo, nella fase di estrazione del campione, alcune caratteristiche ritenute importanti ed eseguendo la scelta delle unità di campionamento in modo casuale. In tal caso le stime ottenute sul campione sono uguali a quelle che si otterrebbero sulla popolazione a meno di un errore dovuto alla casualità, di cui si può calcolare la probabilità. Il passaggio da una stima ottenuta sul campione ad una sulla popolazione è detto induzione. Un campione sarà tanto più affidabile, quanto più sarà grande rispetto alla popolazione di riferimento (frazione di campionamento= rapporto tra numerosità campionaria e numerosità dell universo di riferimento) e quanto minore sarà la variabiltà nella popolazione dei caratteri oggetto dello studio.

Frazione di campionamento Esempio: Supponiamo di avere un universo di 4 unità su cui si voglia rilevare una certa misura in cm in modo campionario. Supponiamo che le unità misurino rispettivamente: a=10, b=12, c=15, d=16. La misura media è dunque pari a (10+12+15+16)/4=53/4=13,25. Consideriamo un campione di una unità (frazione di campionamento = ¼=0,25), supponiamo l unità b. La stima fornita da b è 12 un po differente dalla vera media dell universo che è 13,25. Le altre stime sarebbero 10, 15, 16, un valore compreso tra 10 e 16 Facciamo poi un campione di due unità (frazione di campionamento = 1/2=0,5), supponiamo a=10 e c=15. La stima fornita da essi è 12.5. Se il campione di due unità fosse a=10 e d=16, la stima sarebbe di 13. Le altre stime sarebbero: 11; 13,5; 14; 15,5, un valore compreso tra 11 e 15,5 Supponiamo ora di fare un campione di 3 unità (frazione di campionamento = 3/4=0,75), a, b, c. La stima è 12,3. Per gli altri sarebbe 12,7; 13,7; 14,3, un valore compreso tra 12,3 e 14,7. Un campione di 4 unità sarebbe uguale all universo con una media uguale a quella dell universo. Dunque, maggiore è la frazione di campionamento, più attendibile è la stima della media. Notiamo però, che sempre in termini probabilistici parliamo. Infatti il campione di tre unità con una media di 14,3 è peggiore del campione di due unità con una media di 13,5.

Variabilità La teoria dei campioni ci aiuta a ridurre più possibile la variabilità dei risultati, in modo che le stime proposte siano più possibile attendibili. L errore di campionamento comunque è sempre presente, ma va distinto da un altro tipo di errore, che è quello insito nella misura del carattere nell unità statistica, che è presente anche nelle rilevazioni censuarie e che va ridotto più possibile. In verità, la maggiore possibilità di ridurre questo tipo di errore sta proprio nelle rilevazioni campionarie che, essendo più gestibili perché richiedono sforzi ridotti, consentono una accuratezza nella rilevazione dei dati che non può sempre essere presente nelle rilevazioni censuarie.

Variabilità Esempio: Supponiamo di avere un universo di 5 unità su cui si voglia rilevare una certa misura in cm in modo campionario con un campione di 3 unità. Supponiamo che le unità misurino rispettivamente: a=100, b=100, c=110, d=120, e=150. La misura media è dunque pari a (100+100+110+120+150)/5=580/5=116. I possibili campioni di tre unità che posso ottenere da queste 5 unità sono le combinazioni senza ripetizione di classe 3: C 5,3 =5!/(3!*2!)=(5*4*3*2*1)/(3*2*1 * 2*1)=10. Consideriamo qualche esempio di questi 10 campioni. a b c media = 103,3 a c e media = 120 c d e media = 126,7 b c d media = 110 a b e media = 116,7 Nessuno di essi ha fornito un valore della media esattamente uguale alla media dell universo di riferimento, ma alcuni si sono avvicinati di più.

Variabilità Esempio: Supponiamo che l universo a disposizione sia sempre di 5 unità e il campione di ancora di 3 unità, ma le misure su ciascuna unità siano le seguenti: a=100, b=100, c=110, d=110, e=110. La misura media è dunque pari a (100+100+110+110+110)/5=530/5=106. Consideriamo gli stessi campioni precedenti e le loro medie campionarie. a b c media = 103,3 a c e media = 106,7 c d e media = 110 b c d media = 110 a b e media = 106,7 Nessuno di essi, ancora una volta, ha fornito un valore della media esattamente uguale alla media dell universo di riferimento, ma stavolta si sono avvicinati tutti di più. Come mai? Notiamo che la varianza nel primo universo era pari a 344 mentre nel secondo è 24.

Utilità delle rilevazioni campionarie Non bisogna però pensare che le rilevazioni campionarie siano inefficaci. E dimostrato nella pratica, che molto spesso esse sono molto accurate e, visti i vantaggi che presentano rispetto alle rilevazioni censuarie, possono essere addirittura migliori di esse. Ci sono casi in cui si può verificare quasi immediatamente l accuratezza delle stime fornite. E il caso delle elezioni politiche e amministrative che ci consentono di verificare l errore commesso stimando i risultati con l uso di exit poll (letteralmente sondaggio all uscita ). Tali stime vengono sempre corredate da forchette tanto più ampie quanta maggiore è l incertezza su quella stima. Questo è un esercizio di campionamento particolarmente difficile, sia perché le stime su base nazionale devono tenere conto della complessità della legge elettorale che non rende eletto direttamente chi ha preso più voti, ma tutto dipende da regole di composizione delle liste sul territorio.

Utilità delle rilevazioni campionarie Inoltre c è da tenere in considerazione anche sia fenomeno di rifiuto a rispondere, per via della delicatezza della materia trattata, che della risposta non veritiera. E da notare anche che in questo particolare caso è richiesta una precisione notevole, non ottenibile generalmente con le stime campionarie, in quanto anche un decimale di differenza potrebbe rendere vincitore uno o l altro candidato, per cui questo particolare campo di applicazione è veramente di difficile approccio. Nonostante ciò, le tecniche di stima dei risultati delle consultazioni elettorali danno risultati piuttosto attendibili. Il fenomeno del rifiuto a rispondere è di particolare importanza perché si può pensare che chi non vuole rispondere potrebbe essere differente da chi risponde con sollecitudine. Un campione costituito solo da quest ultimo tipo può essere distorto, cioè dare stime sistematicamente errate.

Utilità delle rilevazioni campionarie Di fronte ad una caduta, cioè al fatto di non riuscire a raccogliere un dato durante un sondaggio (i motivi possono essere molteplici: assenza dell intervistato, dato di contatto errato, rifiuto o impossibilità dell intervistato di rispondere, ecc.) ci si può comportare in diversi modi: si continua il sondaggio con altri contatti scelti a caso si continua il sondaggio con altri contatti che abbiano caratteristiche analoghe a quello caduto si indaga quanto più è possibile sui motivi della mancata risposta per cercare di capire quanto poteva essere diverso il non-rispondente dai rispondenti al fine di limitare più possibile l errore da cui possono essere affette le stime campionarie.

Utilità delle rilevazioni campionarie Ma le possibili fonti di errore sistematico delle stime possono anche derivare dalla modalità con cui vengono selezionate le unità di rilevazione. Un sondaggio telefonico effettuato tramite telefono fisso, raggiunge le sole famiglie dotate di tale collegamento telefonico che sono ormai, secondo l AGCOM, il 60% delle famiglie. Un sondaggio effettuato sui mezzi pubblici per intervistare i pendolari che vanno a lavoro, considera solo coloro che percorrono un certo tratto ad una certa ora, non tutti i pendolari. Di questi fatti si deve tenere presente quando si progetta un indagine campionaria, perché ciascuno di essi è fonte di errore sistematico nelle stime. La progettazione dell indagine prende nome di piano di campionamento e comprende tutte le decisioni, le azioni, le risorse disponibili per effettuare l indagine.

Utilità delle rilevazioni campionarie Più il piano di campionamento è accurato, maggiore sarà l attendibilità dell indagine, minore sarà il rischio di errore sistematico e di distorsione delle stime, in altri termini, di errore non campionario. Mentre dell errore campionario possiamo dare una probabilità che sia minore di una certa quantità, di quello non campionario non possiamo dare misure. Per questo è importante che sia ridotto quanto più è possibile. In alcune indagini ISTAT sui consumi delle famiglie, si è potuto stimare che a fronte di un rifiuto a rilasciare l intervista da parte del 15% dei contattati, si è ottenuta una sovrastima dei consumi non alimentari del 10% e di quelli alimentari compresi tra il 2% e l 11%. Questo fenomeno si è manifestato perché chi si è rifiutato di rispondere aveva uno stile di vita, e un conseguente livello di consumi, inferiore al resto del campione. Ovviamente generalmente queste stime sono quasi impossibili da realizzare e l errore non campionario è ignoto.

Tipi di campionamento Campionamento casuale semplice Il tipo di campionamento più semplice, ma solo dal punto di vista matematico, è quello casuale semplice. Se si ha un universo composto da N unità statistiche, tutte numerate e poste in una lista, un campione casuale semplice consiste nell estrazione casuale di n di tali unità. Ad esempio, si potrebbero avere N palline in un urna da cui si estraggono n palline per formare un campione casuale semplice. Ad ogni estrazione la pallina non viene rimessa nell urna cosicché non può più essere estratta (campionamento senza ripetizione o in blocco). Se invece la pallina si reinserisce nell urna per essere ancora tra quelle estraibili, si parla di campione bernoulliano, o con ripetizione.

Tipi di campionamento Campionamento casuale semplice Nella pratica sono molto rari i casi in cui si dispone di una lista delle unità di rilevazione. Se ad esempio l unità di rilevazione è ciascun individuo residente in Italia, si può fare riferimento alle liste anagrafiche della popolazione residente. Fino a pochi anni fa, però, tali liste erano suddivise per comune, e, all interno del comune, per sezione elettorale, quindi non esisteva una lista unica nazionale da cui estrarre un campione casuale semplice. Oggi tale lista è disponibile. Supponendo comunque di avere la lista delle unità statistiche di rilevazione, si presenta il problema di come prenderle a caso. Quasi mai si può fare riferimento all urna, che sarebbe perfetta per l estrazione casuale, ma è adatta solo a piccoli universi di riferimento.

Tipi di campionamento Campionamento casuale semplice Fino a qualche tempo fa si faceva ricorso alle tavole dei numeri aleatori, tavole di numeri costituite da sequenze casuali di cifre comprese tra 0 e 9 (utilizzando alcune cifre estratte nel gioco del lotto in una successione temporale di estrazioni per garantire la casualità). Tali tavole davano numeri presi a caso che potevano essere usati per individuare a caso un unità statistica compresa in una lista. Oggi si usano funzioni automatiche di generazione di numeri casuali basate su funzioni matematiche (numeri pseudo-casuali che dipendono dal punto di partenza delle funzioni). I campioni con ripetizione non trovano facile applicazione nelle scienze sociali. Quando però la frazione di campionamento è piccola e quindi è raro il caso di trovare due volte la stessa unità nel campione, possono essere usati al posto di quelli in blocco o senza ripetizione.

Tipi di campionamento Campionamento casuale semplice In questo modo si può sfruttare la maggiore semplicità di alcune notazioni matematiche tipiche di questo tipo di campionamento. Nel campionamento casuale semplice tutte le unità hanno la stessa probabilità di essere incluse nel campione (probabilità di inclusione) ed è sufficiente averne una lista in qualche forma per poter realizzare il campione. I limiti principali consistono nel fatto che esistono altri tipi di campioni con la stessa attendibilità dei risultati (precisione delle stime) ma meno costosi e inoltre non si tiene conto di eventuali informazioni che si potrebbero avere a priori sulla popolazione, come ad esempio la localizzazione geografica, il genere, l età, desumibili dalle liste anagrafiche. Per questi motivi è un tipo di campionamento raramente utilizzato.

Tipi di campionamento Campionamento sistematico A differenza del campionamento casuale semplice, quello sistematico non seleziona in modo casuale tutte le unità del campione, ma solo la prima estratta. Dopo la prima estrazione da una lista, si procede con un certo passo che si può calcolare pari al reciproco della frazione di campionamento (N/n). Così se ad esempio si ha una popolazione di 20.000 unità da cui si vuole estrarre un campione di 500 unità, basta scegliere un unità nella lista ogni 40 scegliendo la prima unità entro le prime 40. Questo tipo di campionamento non è equivalente, dal punto di vista matematico, rispetto a quello casuale semplice.

Tipi di campionamento Campionamento stratificato E di gran lunga il più utilizzato. Si divide l universo di riferimento in strati, usando le informazioni a priori già note sulla popolazione. Ad esempio, se si usano le liste telefoniche si può usare la collocazione geografica come variabile di stratificazione. Gli strati devono essere omogenei per qualche caratteristica ritenuta importante ai fini dell indagine. Questa suddivisione ci consente di partire da una situazione di variabilità inferiore, perché gli strati dovrebbero contenere al loro interno unità i cui caratteri hanno meno variabilità rispetto all intero universo. Ad esempio, per alcune indagini può essere utile distinguere tra centri urbani ed extraurbani, quando il fenomeno in esame si ipotizza che sia diverso tra queste due localizzazioni e quindi la variabilità all interno dei centri urbani e all interno dei centri extraurbani è minore di quella complessiva.

Tipi di campionamento Campionamento stratificato Oppure il genere, le classi d età o altre caratteristiche degli intervistati, se note, possono essere usate per stratificare l universo di riferimento e ridurre la variabilità. Se si devono intervistare gli studenti universitari rispetto alle proprie aspettative per il futuro lavorativo, può essere utile suddividere l universo di tutti gli studenti universitari italiani per facoltà, o per disciplina, attendendo una differenza per queste variabili nelle risposte e potendo quindi ridurre la variabilità attesa all interno di questi strati. Ovviamente l effettiva possibilità di stratificare dipende sia dalla numerosità dell universo e del campione che si vuole ottenere, sia dalla effettiva disponibilità di informazioni a priori nel nostro elenco iniziale. Quando è possibile, si fa una vera cluster analysis per individuare gli strati.

Tipi di campionamento Campionamento stratificato La popolazione viene dunque divisa in sottopolazioni N 1, N 2,, N k da ciascuna delle quali viene estratto un campione che può essere di tipo casuale semplice n 1, n 2,, n k Se dobbiamo stimare una media in ciascun campione, otteniamo k medie distinte M 1, M 2,, M k da cui la media della popolazione è

Tipi di campionamento Campionamento stratificato Riguardo alla numerosità dei campioni all interno di ciascuno strato, si può optare o per numerosità differenti per ciascuno strato, oppure per numerosità tutte uguali per i vari strati. Nel primo caso si può pensare di calcolare numerosità proporzionali alla numerosità degli strati. Così se il campione ha numerosità totale n, lo strato n i ha numerosità pari a Esempio: torniamo ad uno degli esempi precedenti, cioè quello in cui si avevano 5 unità su cui è rilevata una misura del tipo a=100, b=100, c=110, d=120, e=150. Supponiamo di poter dividere questo universo in tre strati e di estrarre da ciascuno di essi una unità per formare un campione. Gli strati siano: a, b; c; d, e. Se estraiamo da ciascuno una unità abbiamo 3 possibili campioni: a, c, d (media = 110); b, c, d (media = 110); a, c, e (media = 120). Abbiamo quindi una minore variabilità nelle medie rispetto al campionamento casuale semplice.

Tipi di campionamento Campionamento a più stadi In alcuni casi si può procedere per livelli successivi prima di arrivare ad estrarre le unità di campionamento. Prima di parlarne più estesamente facciamo un esempio concreto. Esempio: Supponiamo di dover estrarre un campione dall intera popolazione italiana. Possiamo innanzi tutto considerare i comuni italiani divisi per area geografica (nord, centro, sud) ed estrarre in modo casuale un certo numero di comuni da ciascuna area. Poi nei comuni selezionati si può estrarre un campione di popolazione, ottenendo così un campionamento a due stadi. In altre situazioni, ma anche in quella esemplificata, si possono considerare più di due stadi. Le unità estratte al primo stadio sono dette unità primarie. Uno dei vantaggi di questa impostazione sta nel fatto che si fa riferimento a liste ridotte (la lista dei comuni e poi la lista dei residenti dei soli comuni estratti, nell esempio precedente) invece che a liste di tutta la popolazione.

Tipi di campionamento Campionamento a più stadi Inoltre è possibile ridurre i costi dell indagine perché, come accade nell esempio precedente, le unità selezionate risiedono in alcuni comuni, non in tanti comuni quante sono le unità, cosa che potrebbe invece accadere in un campionamento casuale semplice su tutta la popolazione italiana. I campionamenti a più stadi possono essere anche stratificati. Nell esempio precedente in effetti le unità di primo stadio erano stratificate per area geografica. In alcune indagini dell ISTAT le unità di primo stadio, i comuni, sono stratificate per ampiezza demografica, nel senso che sono raggruppate secondo le dimensioni in termini di popolazione residente. Così si individuano due tipi di comune: quelli AR (autorappresentativi) e quelli NAR (non autorappresentativi).

Tipi di campionamento Campionamento a più stadi I comuni AR sono quelli grandi e costituiscono da soli uno strato. Essi devono essere selezionati perché sono gli unici di quello strato. I comuni NAR sono riuniti insieme in alcuni strati. Da questi strati si devono estrarre i comuni che possono rappresentare quello strato con un campionamento casuale semplice. E il caso dell indagine sulle Forze di lavoro, ma anche di altre indagini ISTAT in cui sono selezionate le famiglie. Campionamento a grappoli Ci sono situazioni in cui conviene scegliere gruppi già costituiti nella popolazione. E il caso del campionamento a grappoli che si usa tipicamente nelle indagini sugli studenti delle scuole, già naturalmente raggruppati in classi. Anche questo campionamento può essere stratificato o a più stadi.

Tipi di campionamento Campionamento per quote Ci sono situazioni, come ad esempio le ricerche di mercato o i sondaggi di opinione, effettuati tramite indagini telefoniche, in cui si procede per quote. In pratica si contattano le unità di rilevazione e, dopo il contatto, si chiedono alcune informazioni strutturali di interesse (ad esempio, genere, età, livello di istruzione). Conoscendo la composizione della popolazione di riferimento rispetto a queste variabili, si può inserire una nuova intervista solo se la quota in cui viene a cadere l intervistato non è già satura. Altrimenti si deve rinunciare all intervista e passare alla prossima. Questo campionamento, che non è rigorosamente casuale a causa dell elevato numero di cadute che si registra in prossimità della saturazione delle quote, offre il vantaggio di selezionare una popolazione dalle caratteristiche strutturali simili a quella della popolazione di riferimento.

Tipi di campionamento Campionamento per quote (non probabilistico) Pur con i propri limiti soprattutto legati all inapplicabilità del calcolo delle probabilità per le stime ottenute, questo tipo di campionamento offre buone possibilità di effettuare stime attendibili perché, a causa dei bassi costi di produzione dei dati, consente di agire su numerosità campionarie maggiori rispetto agli altri tipi di campionamento. Inoltre la proporzionalità rispetto alla popolazione di riferimento per caratteri difficilmente controllabili con gli altri metodi (il livello di istruzione non è contenuto nelle liste anagrafiche e tantomeno il tipo di occupazione, ecc.). Inoltre è praticato nelle indagini telefoniche in cui il tasso di risposta è generalmente maggiore rispetto a quelle postali che implicano uno sforzo maggiore da parte del rispondente. Inoltre si usa questo tipo di campionamento nel controllo della qualità in cui si interrompe il campionamento quando si raggiunge una certa composizione del campione.

Tipi di campionamento Campionamento a valanga (non probabilistico) Un altro campionamento non probabilistico, ma utilizzato in situazioni particolari in cui ci sono poche possibilità di fare altri tipi di campionamento, è quello a valanga. In pratica si tratta di raggiungere le prime unità statistiche che si riescono a raggiungere e poi, a partire da esse, si raggiungono le altre. E un tipico campionamento che si usa ad esempio per raccogliere informazioni sugli immigrati non regolari, sui senza fissa dimora, su tutte quelle persone che non sono comprese nelle liste ufficiali della popolazione e non potrebbero ma i essere raggiunte in altro modo. Si va in un centro di aggregazione, l ospedale, la Caritas, la strada, ecc., e si fa la rilevazione su alcune unità e poi si chiede ad esse il contatto per raggiungerne delle altre, e così via, appunto, a valanga.

Tipi di campionamento Campionamento ripetuto per osservazione (non probabilistico) Gli studiosi di scienze sociali si sforzano di trovare modalità sempre più efficenti di realizzare campioni in situazioni di grande difficoltà. Un tipo di campionamento, ancora una volta non probabilistico, è stato preso in prestito da altre discipline, tipo l epidemiologia applicata allo studio degli animali selvatici. Quando si vuole osservare una popolazione della quale non si abbiano liste e punti di aggregazione fissi, ci si mette in un certo luogo in cui si pensa si possano osservare un certo numero di unità che vengono in qualche modo identificate. Si ripete poi l osservazione in un altro tempo e si tiene conto delle unità già identificate. La stima del numero di unità dell universo si ottiene come: N =an/r dove a sono le unità identificate alla prima osservazione, n le unità totali della seconda osservazione, r sono le unità ricampionate nella seconda osservazione.

Tipi di campionamento Campionamento postale (non probabilistico) Questo tipo di campionamento è forse il primo mai sperimentato. Oggi è molto raro che si usi il mezzo postale vero e proprio per realizzare un indagine, ma i sondaggi on line possono essere assimilati ad esso. In pratica si contattano via posta, anche quella elettronica, gli intervistandi e si attende una loro spontanea risposta. E il tipo di sondaggio con il più alto numero di rifiuti, perciò non può essere ritenuto probabilistico e comporta una serie di problemi legati alle mancate risposte che non si risolvono nemmeno con l uso di solleciti ripetuti. Nella sua versione più moderna, quella elettronica, è oggi largamente usato per raccogliere opinioni in tempo veloce, opinioni che però non sono affatto riportabili all universo di riferimento, ma devono essere prese per un mero approfondimento qualitativo.

Quanti casi? La determinazione della numerosità campionaria Sono molti i fattori che concorrono a decidere la numerosità di un campione. Innanzi tutto bisogna decidere il piano di campionamento, determinare esattamente l universo di riferimento ed individuare il parametro o i parametri che si vogliono stimare. Poi bisogna tenere conto dei vincoli di costo, che spesso sono gli unici a determinare la numerosità campionaria, al di la di qualunque valutazione matematica. Esistono però anche delle considerazioni che possono essere fatte se si fa riferimento alla stima di una media. E noto che la varianza della stima della media campionaria tende ad annullarsi quando il campione aumenta di dimensione. Con un campione molto grande, come abbiamo visto negli esempi precedenti, le possibili medie che si possono ottenere tendono ad assumere valori simili.

Quanti casi? La determinazione della numerosità campionaria Siccome la media campionaria si distribuisce, come distribuzione di probabilità teorica, come una normale, si può calcolare la probabilità che essa cada entro un certo intervallo (μ - aσ, μ + aσ). Se σ è abbastanza piccolo, quando n è grande, questo intervallo è piccolo e la stima della media si avvicina molto a μ. a è un numero che moltiplica σ e si può determinare un valore di a tale che la probabilità che la media della popolazione sia compresa in quell intervallo sia pari ad un valore stabilito a priori. Ad esempio si può fissare a in modo che l intervallo (μ - aσ, μ + aσ) contenga il vero valore della media con una probabilità di 0,95 (o, come si dice di solito, del 95%) o anche di 0,99. Invertendo questo problema, si può determinare n in modo tale che la probabilità di quell intervallo sia proprio 0,95 o 0,99.

Quanti casi? La determinazione della numerosità campionaria L errore campionario che si è disposti a commettere, indicato in valore assoluto o in percentuale, per un estrazione di un campione senza ripetizione, come è il caso più comune nella ricerca sociale, ha la forma Da cui la numerosità campionaria per la stima di una media può essere scritta come Esempio: per una popolazione di 2000 unità, σ=36, una percentuale di attendibilità del 95%, errore massimo del 2% si ha: n=(1,96 2 *2000*36 2 )/(2 2 *1999 +1,96 2 * 36 2 )=767

Quanti casi? La determinazione della numerosità campionaria I valori che si utilizzano più di frequente nella stima della media artimetica sono riassunti nello schema seguente:

Quanti casi? La determinazione della numerosità campionaria In realtà il caso di costruzione di un campione per la determinazione di una sola media si verifica molto di rado nelle scienze sociali. Di solito si vuole determinare più di una media e probabilmente anche una percentuale, una quota di popolazione con una certa caratteristica. Allora esiste una semplice formula per il calcolo della dimensione campionaria nel caso si voglia stimare una percentuale. Esistono comunque delle comode tabelle che consentono di determinare la numerosità campionaria in dipendenza dell errore si è disposti a commettere. Ad esempio uno è pubblicato dal Governo italiano nell ambito di alcune iniziative di utilità per la Pubblica Amministrazione 1 1 http://www.qualitapa.gov.it/fileadmin/mirror/i-migliora/materiali/8_strumento_8_tabelle_per_la_definizione_del_campione.pdf

Errore di campionamento Le tabelle degli errori di campionamento Quando si stima una proporzione P, l errore che si commette, se si è in presenza di un campionamento casuale semplice, può essere calcolato nel seguente modo Siccome la quantità P(1-P) è il prodotto tra un numero e il suo complemento ad 1 (o a 100 se si tratta di una percentuale), essa è massima quando P=½ e rappresenta l errore massimo che posso commettere calcolando una proporzione in un campione di n unità estratto da una popolazione di N unità. Esistono a tale proposito anche delle tabelle pre-calcolate che aiutano ad individuare immediatamente l errore associato ad una stima.

Comunicazione all Agcom

Comunicazione all Agcom