8 CAMPIONAMENTO A GRAPPOLI E A PIU' STADI. 8.1 INTRODUZIONE



Documenti analoghi
1. Distribuzioni campionarie

E naturale chiedersi alcune cose sulla media campionaria x n

L espressione torna invece sempre vera (quindi la soluzione originale) se cambiamo contemporaneamente il verso: 1 < 0.


Metodi statistici per le ricerche di mercato

STATISTICA IX lezione

LE FUNZIONI A DUE VARIABILI

Pertanto la formula per una prima approssimazione del tasso di rendimento a scadenza fornisce

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

Il concetto di valore medio in generale

Corso di Matematica per la Chimica

Esercizi di Macroeconomia per il corso di Economia Politica

QUANTIZZAZIONE diverse fasi del processo di conversione da analogico a digitale quantizzazione

Capitolo 2. Operazione di limite

~ Copyright Ripetizionando - All rights reserved ~ STUDIO DI FUNZIONE

4 Dispense di Matematica per il biennio dell Istituto I.S.I.S. Gaetano Filangieri di Frattamaggiore EQUAZIONI FRATTE E SISTEMI DI EQUAZIONI

2. Leggi finanziarie di capitalizzazione

Macroeconomia, Esercitazione 2. 1 Esercizi. 1.1 Moneta/ Moneta/ Moneta/3. A cura di Giuseppe Gori (giuseppe.gori@unibo.

REGOLAZIONE (E TASSAZIONE OTTIMALE) DI UN MONOPOLIO CON PIÙ LINEE DI PRODUZIONE

Inferenza statistica I Alcuni esercizi. Stefano Tonellato

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

Esponenziali elogaritmi

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

VALORE DELLE MERCI SEQUESTRATE

LA MASSIMIZZAZIONE DEL PROFITTO ATTRAVERSO LA FISSAZIONE DEL PREZZO IN FUNZIONE DELLE QUANTITÀ

Elementi di Psicometria con Laboratorio di SPSS 1

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Capitolo 13: L offerta dell impresa e il surplus del produttore

Servizi di consulenza specialistica per IGRUE

Dimensione di uno Spazio vettoriale

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Relazioni statistiche: regressione e correlazione

Esercizio 1. Proprietà desiderabili degli stimatori (piccoli campioni)

Analisi dei Dati 12/13 Esercizi proposti 3 soluzioni

Statistica. Lezione 6

Matematica generale CTF

Edited by Foxit PDF Editor Copyright (c) by Foxit Software Company, 2004 For Evaluation Only.

Le equazioni. Diapositive riassemblate e rielaborate da prof. Antonio Manca da materiali offerti dalla rete.

LEZIONE 23. Esempio Si consideri la matrice (si veda l Esempio ) A =

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Lezioni di Matematica 1 - I modulo

Economia Applicata ai sistemi produttivi Lezione II Maria Luisa Venuta 1

IL COLLAUDO DI ACCETTAZIONE

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Esercitazione n.2 Inferenza su medie

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità C

Esercitazione 23 maggio 2016

LA CORRELAZIONE LINEARE

u 1 u k che rappresenta formalmente la somma degli infiniti numeri (14.1), ordinati al crescere del loro indice. I numeri u k

come nasce una ricerca

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

Capitolo 12 La regressione lineare semplice

Ottimizzazione Multi Obiettivo

risulta (x) = 1 se x < 0.

Inferenza statistica. Statistica medica 1

Capitolo 25: Lo scambio nel mercato delle assicurazioni

Computational Game Theory

Macroeconomia, Esercitazione 6. 1 Esercizi. 1.1 Taylor rule e Domanda Aggregata Dinamica/ Taylor rule e Domanda Aggregata Dinamica/2

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

Un modello matematico di investimento ottimale

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

IL RISCHIO D IMPRESA ED IL RISCHIO FINANZIARIO. LA RELAZIONE RISCHIO-RENDIMENTO ED IL COSTO DEL CAPITALE.

Tecniche di analisi multivariata

I ricavi ed i costi di produzione

Massimizzazione del Profitto e offerta concorrenziale. G. Pignataro Microeconomia SPOSI

Test statistici di verifica di ipotesi

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr.

CALCOLO COMBINATORIO

b. Che cosa succede alla frazione di reddito nazionale che viene risparmiata?

Capitolo 2 - Teoria della manutenzione: classificazione ABC e analisi di Pareto

Slide Cerbara parte1 5. Le distribuzioni teoriche

Calcolo del Valore Attuale Netto (VAN)

Premesse alla statistica

a b c Figura 1 Generatori ideali di tensione

Teoria delle code. Sistemi stazionari: M/M/1 M/M/1/K M/M/S

Principi generali. Vercelli 9-10 dicembre G. Bartolozzi - Firenze. Il Pediatra di famiglia e gli esami di laboratorio ASL Vercelli

Istituzioni di Statistica e Statistica Economica

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

5 Risparmio e investimento nel lungo periodo

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Esercizi di Ricerca Operativa II

Fondamenti e didattica di Matematica Finanziaria

Capitolo 2 Distribuzioni di frequenza

Capitolo II. La forma del valore. 7. La duplice forma in cui si presenta la merce: naturale e di valore.

CAPACITÀ DI PROCESSO (PROCESS CAPABILITY)

Lezione n. 2 (a cura di Chiara Rossi)

Capitolo Terzo Valore attuale e costo opportunità del capitale

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Il mercato di monopolio

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

CLASSIFICAZIONE DEI CARATTERI

Uso di base delle funzioni in Microsoft Excel

Transcript:

8 CAMPIONAMENTO A GRAPPOLI E A PIU' STADI. 8. INTRODUZIONE In gran parte delle popolazioni oggetto di indagine, le unità di studio sono raggruppate in sottopopolazioni di varia natura. La popolazione presente sul territorio italiano è la somma delle sottopopolazioni presenti sui territori regionali. All'interno di ciascuna regione, la popolazione è distribuita in province e, all'interno delle province, in comuni. Gli studenti di un ateneo sono classificati in facoltà, quelli di una scuola, in classi, e così via dicendo. Questi raggruppamenti di unità possono essere utilizzati come strati, come abbiamo visto nel Cap. 3. Alternativamente, possono essere utilizzati come unità di selezione e in questo caso sono denominati grappoli. L'elenco dei grappoli forma la lista dalla quale viene estratto il campione. Se tutte le unità ce appartengono ai grappoli estratti vengono incluse nel campione, il procedimento è detto campionamento a grappoli. Se nel campione vengono incluse solo alcune unità, selezionate da ciascuno dei grappoli estratti, il metodo è detto campionamento a due stadi. Infine, se il campione è formato iterando ulteriormente il procedimento descritto si parla di campionamento a più stadi. Il numero di stadi dipende da quello dei livelli gerarcici di aggregazione delle unità ce vengono individuati per effettuare la selezione. Un campione di italiani potrebbe essere estratto selezionando inizialmente alcune regioni, da ognuna di queste alcune province, da ciascuna provincia dei comuni, da questi delle famiglie e, infine, dalle famiglie, le persone ce sono oggetto di studio. Sebbene gli stessi aggregati di popolazione possano essere utilizzati come strati e come grappoli, gli scopi ce si perseguono con la stratificazione sono profondamente diversi da quelli ce si perseguono con la stadificazione. Gli strati devono o dovrebbero essere omogenei in quanto ognuno di essi è rappresentato nel campione. Al contrario, solo alcuni dei grappoli vengono selezionati, e questi 8.

devono rappresentare ance quelli esclusi dalla selezione. L'ideale sarebbe ce tutti i grappoli fossero più eterogenei possibile al loro interno e, conseguentemente, più simili possibile tra loro. Se, per fare un'ipotesi estrema, fossero tutti uguali, ciascuno sarebbe una copia ridotta della popolazione e sarebbe sufficiente selezionarne uno solo per avere la stessa informazione ce si otterrebbe da un'indagine completa. Purtroppo, come si intuisce da quanto fin qui osservato, i grappoli non vengono formati da ci estrae il campione, ma sono aggregazioni preesistenti nella popolazione, caratterizzate da una certa omogeneità interna ce risulta generalmente tanto più marcata quanto minore è la loro dimensione. L'omogeneità ce nella stratificazione è sinonimo di precisione degli stimatori, nel campionamento a grappoli produce normalmente una perdita in precisione rispetto alla selezione casuale semplice. La giustificazione del metodo sta negli aspetti pratici ed economici ad esso collegati. In primo luogo, risulta spesso impossibile (economicamente o materialmente) formare una lista delle unità di studio, mentre può essere disponibile una lista di grappoli della popolazione. Inoltre, per una prestabilita dimensione campionaria, il campionamento a grappoli comporta costi generalmente molto inferiori a quelli del campionamento casuale semplice, in massima parte per la minore dispersione delle unità del campione (si pensi al precedente esempio di estrazione a più stadi sulla popolazione italiana) ce facilita l'organizzazione e l'esecuzione della rilevazione. Ciò vale ovviamente per le indagini svolte mediante intervistatore mentre a minore rilevanza, o non ne a affatto, per quelle postali o telefonice. Si può infine osservare ce il campione a grappoli è l'unico disegno utilizzabile se l'obiettivo dell'indagine è quello di stimare la dimensione della popolazione disponendo della sua dimensione in termini di aggregati. La riduzione dei costi si traduce all'atto pratico nella possibilità di selezionare campioni di dimensione assai superiore di quella ce avrebbe avuto, per la stessa indagine, un campione casuale semplice. Le dimensioni dei campioni a grappoli o a più stadi sono normalmente tali da compensare la perdita in precisione indotta dal metodo di selezione. 8.

8. CAMPIONAMENTO A GRAPPOLI CON GRAPPOLI DI UGUALE DIMENSIONE Per illustrare i metodi di stima associati alla selezione a grappoli o a più stadi, assumeremo inizialmente ce la popolazione sia divisa in A grappoli di dimensione costante pari a B. L'assunzione risponde soltanto ad esigenze didattice in quanto palesemente irrealistica. Riguardo alla simbologia, ci sembra opportuno, in accordo con Kis [965], associare alla prima lettera dell'alfabeto, maiuscola e minuscola, la dimensione rispettivamente della popolazione e del campione al più elevato livello di aggregazione; col la seconda lettera le dimensioni al secondo livello e così via. Come indicatore nel rispettivo grappolo di appartenenza, sarà utilizzata la corrispondente lettera dell'alfabeto greco. Pertanto:,.., A; β,.., B, ecc., Analogamente alla simbologia dei precedenti capitoli Y β denota il valore dell'unità β del grappolo. Se il campione prevede due o più stadi di estrazione, non useremo il termine grappolo per gli aggregati di più alto livello ma il termine unità di primo stadio (UPS) e il termine relativo al secondo livello sarà: unità di secondo stadio (USS). Non prenderemo in esame la teoria relativa a più di due stadi di estrazione, limitandoci a fornire alcune indicazioni su come generalizzare ed estendere la teoria del campionamento a due stadi nel caso in cui le unità ai vari stadi abbiano uguale dimensione. Consideriamo inizialmente il campionamento ad uno stadio o a grappoli in senso stretto. Supponiamo di estrarre un campione casuale semplice di n ab unità, ottenuto selezionando casualmente (senza ripetizione) a grappoli con una frazione di campionamento f a/a ab/ab n/n. Sia: Y A B Y AB A Y A β β la media generale della popolazione, nella quale, Y B Y B β β è la media del grappolo. Lo stimatore della media, semplice delle osservazioni campionarie: y g, è dato dalla media 8. 3

y g A B Y A β t ab β Y t a L'adozione della media campionaria è giustificata dal fatto ce il campione a grappoli è equivalente ad un campione casuale semplice di unità di un determinato livello, ciascuna avente valore pari alla media Y delle sue unità componenti di livello inferiore. Pertanto, la teoria ce si applica è quella del campione casuale semplice illustrata nel Cap, dalla quale discende ce lo stimatore è corretto e ce la sua varianza è: a S V ( y g ) A a Dove A ( Y Y ) ( A ) S (8.) Dalla stessa teoria segue inoltre ce: nella quale: v ( y ) è uno stimatore corretto della (8.). s g a s (8.) A a s ( y y ) ( a ) Il Deff, risultante dal confronto della ( ) campione casuale semplice di n ab unità è pari a: y g g V con la varianza della media di un 8.4

Deff S S a ab B S S L'entità del Deff dipende dal rapporto tra: varianza tra le medie dei grappoli S e varianza elementare S. Tale rapporto dipende a sua volta dal modo in cui sono formati i grappoli. Si assuma ce il numero di grappoli nella popolazione sia elevato e ce essi siano formati casualmente, cioè mediante A estrazioni casuali semplici, ciascuna di B elementi. In questo caso, S sarebbe approssimativamente uguale alla varianza delle medie di campioni casuali semplici di B unità, cioè S B e, sotto questa assunzione, Deff. Ma poicé i grappoli, non corrispondono a campioni casuali ed anno un certo grado di omogeneità interna vi è maggiore eterogeneità tra di loro, cioè tra le loro medie, e, pertanto, S > S B e Deff >. La (8.) può essere scritta in una forma alternativa dalla quale si ricava un'altra espressione piuttosto interessante del Deff : ( y ) + ( B )ρ Deff g (8.3) nella quale ρ (spesso indicato con ROH, dalle iniziali dei termini inglesi rate of omogeneity) è il coefficiente di correlazione intraclasse, ce esprime il grado di omogeneità interna ai grappoli. Sotto l'ipotesi fatta precedentemente di una popolazione grande, nella quale i grappoli sono formati casualmente, ρ 0 e Deff. In pratica ρ assume valori positivi, compresi nella maggior parte dei casi tra 0, e 0,3 e quindi il Deff risulta maggiore di. Il massimo valore teorico di ρ è. Tale valore indicerebbe ce tutte le unità appartenenti al grappolo presentano lo stesso valore della variabile di indagine. Un valore di ρ negativo darebbe luogo ad un effetto del disegno minore di uno, mostrando un incremento in precisione rispetto al campionamento casuale semplice. Nella pratica ciò dovrebbe accadere raramente. In ogni caso, si deve osservare ce, ance se teoricamente un coefficiente di correlazione può assumere il valore, ρ è limitato inferiormente dal valore ( B ), al di sotto del quale la varianza e il Deff risulterebbero negativi. 8. 5

Per illustrare il campionamento a grappoli consideriamo il seguente esempio. Una scuola media superiore è formata da 78 classi, ciascuna di 4 studenti. Si desidera estrarre un campione per stimare la proporzione di studenti ce anno avuto occasione di leggere un particolare libro per ragazzi. Per motivi organizzativi e di costo si decide di selezionare 0 classi e di porre la domanda sulla lettura del libro a tutti gli studenti delle classi estratte, durante una delle ore di lezione. I seguenti rapporti rappresentano le proporzioni di studenti ce diciarano di aver letto il libro in questione in ciascuna delle 0 classi selezionate: 9 4 4 3 4 5 4 6 4 7 4 8 4 0 4 0 4 4 La stima della proporzione di studenti ce anno letto il libro è data dalla proporzione complessiva p g 60/40 66,7%. Per la (8.) la sua varianza è stimata da: 7 0,086 v ( p g ) 0, 00455 78 0 e la stima dell'errore standard è: se(p g ) 0,04955 o 4,96%. Il valore di v(p g ) può essere confrontato con la varianza della proporzione stimata sulla base di un campione casuale semplice della stessa dimensione. Questa varianza per la (.0) è data da: v 40 0,6667 0,3333 87 39 ( ) 0, 000806 p ccs per un errore standard pari a 0,0847 o,85%. L'effetto del disegno stimato è pertanto: deff (p g ) 0,00455/0,000806 3,09 e dalla (8.3) è possibile ricavare una stima di ρ [ deff ( p ) ] ( ) 0, 088 ) ρ B g 8.6

ce mostra come la correlazione positiva interna ai grappoli comporti una perdita in precisione notevole: il campione casuale semplice risulta circa tre volte più preciso di quello a grappoli della stessa dimensione. I'effetto del disegno ci permette di stimare la dimensione ce dovrebbe avere il campione casuale per avere la stessa precisione di quello a grappoli : n n deff 40 3,09 79 n* mostra ce gli stessi risultati, in termini di precisione della stima, ce abbiamo ottenuto con un campione a grappoli di 40 unità sarebbero stati raggiungibili con un campione casuale semplice di sole 79-80 unità. E' evidente dalla (8.3) ce l'effetto del disegno dipende da due fattori: la correlazione interna ai grappoli e la dimensione degli stessi. Nell'esempio il deff risulta elevato nonostante la modesta entità del coefficiente ρ. Ciò è dovuto evidentemente all'effetto del termine (B -) Se, per esempio, le classi fossero state di 8 studenti anzicé di 4, a parità degli altri dati, il deff sarebbe stato,6. In pratica il valore di ρ tende a crescere al diminuire della dimensione dei grappoli, ma normalmente la sua crescita è più ce compensata dalla riduzione del termine B ce esercita l'effetto prevalente nella stima del Deff. Ciò suggerisce l'opportunità di selezionare grappoli di piccola dimensione ogni qualvolta sia possibile farlo senza superare i limiti di spesa stabiliti per l'indagine. Infatti la riduzione della dimensione dei grappoli si associa normalmente ad un aumento della loro dispersione sul territorio ce, a sua volta, provoca un aumento della spesa di rilevazione. Capita inoltre frequentemente ce ance potendo scegliere i grappoli della più piccola dimensione possibile questi risultino comunque troppo grandi per essere usati efficientemente come unità finali di campionamento. In queste situazioni, la soluzione più ovvia del problema è quella di non includere tutte le unità dei grappoli selezionati nel campione ma di effettuare un campione da ciascuno di essi. In altri termini effettuare una selezione a due (o più) stadi. 8. 7

8.3 CAMPIONAMENTO A DUE STADI CON UPS DI UGUALE DIMENSIONE Consideriamo una popolazione suddivisa in A UPS, ciascuna di dimensione B. Supponiamo di estrarre un campione casuale semplice di a UPS e da ciascuna di queste un campione casuale semplice di b unità al fine di stimare la media della popolazione Y. La media aritmetica delle n ab osservazioni campionarie: y Y n A B A t t y β β β a t con t β variabile dicotomica ce esprime la selezione dell unità β interna al grappolo, è ancora uno stimatore corretto della media della popolazione, ance se y non è la vera media dell'-esima UPS estratta, come in precedenza per il campione a grappoli, ma una sua stima corretta. La varianza di y ds è data da: nella quale: V ds ( y ) S β a S b S β + + (8.4) A a B ab A B β β ( Y Y ) A( B ) Il primo termine della (8.4) corrisponde alla varianza del campionamento a grappoli; il secondo termine rappresenta la variabilità addizionale dovuta al secondo stadio di selezione. Se b B, infatti il secondo termine si annulla e la formula diviene identica alla (8.3). Se a A, tutte le UPS sono selezionate nel campione o, in altri termini, sono trattate come strati. Infatti il primo termine della (8.4) si annulla e il secondo corrisponde alla varianza della media di un campione stratificato proporzionale nel quale f b/b, n ab e S w S β. Se la selezione si articola su tre stadi con unità di terzo stadio (UTS) di dimensione C (per ogni USS), lo stimatore della media è dato da: y ts A B C A B Yβγ t tβ tγ Yβ t tβ n ab χ γ β A Y a t 8.8

nella quale Y β è la media delle c UTS estratte nell'uss β del l'ups. La sua varianza è data dalla seguente espressione: a S b S c S β γ V ( y ts ) + + A a B ab C abc nella quale: S γ A B C ( Y Y ) AB( ) C β γ βγ β Tornando al campionamento su due stadi, uno stimatore corretto della varianza della media è dato dalla seguente espressione: nella quale v ( y ) s ds β a s a b s β + (8.5) A a A B ab ( y y ) a( b ), β s β Questa ultima espressione mostra ce per stimare la variabilità indotta dal secondo stadio di selezione è necessario calcolare una varianza campionaria per ogni UPS estratta. Questo calcolo, ce per un elevato numero di UPS potrebbe risultare un po' laborioso, può essere evitato se la frazione di campionamento al primo stadio è molto piccola e può essere approssimata a 0. In questo caso la (8.5) si riduce a: v ( y ) ds s (8.6) a ce non pone ovviamente problemi di calcolo. Allo stesso risultato si perviene se l'estrazione di primo stadio è effettuata con ripetizione anzicé, come normalmente avviene, senza ripetizione. Questo risultato è ampiamente utilizzato nella pratica soprattutto se il disegno campionario è complesso (per la presenza concomitante di 8. 9

più scemi di campionamento e di stimatori non lineari), talvolta ance se non risultano soddisfatte le condizioni ce lo giustificano ed è impiegato ance in diversi programmi informatici per il calcolo degli errori di campionamento. Nel campionamento a due stadi, con UPS di uguale dimensione, l'effetto del disegno è ben approssimato dalla seguente espressione: ( y ) + ( b )ρ Deff ds (8.7) La (8.7) mostra ce per una data dimensione complessiva del campione (n ab) l'effetto del disegno decresce al decrescere della dimensione dei campioni di secondo stadio. Tuttavia diminuirne la dimensione significa aumentarne il numero e con esso, presumibilmente, la dispersione sul territorio. Come abbiamo già osservato, la maggiore dispersione corrisponde ad un aumento dei costi di rilevazione. Pertanto è necessario trovare il modo di determinare sia il numero di UPS da selezionare al primo stadio, sia la dimensione dei campioni al loro interno, ce, in rapporto alle disponibilità finanziarie, rendono massima la precisione delle stime. Per fare questo occorre specificare un modello ce esprima il costo dell'indagine in funzione del numero di UPS e di USS selezionate. Ogni indagine a una propria struttura di costo più o meno complessa. il seguente modello, molto semplice [Kis, 965], può comunque risultare adeguato in numerose occasioni: C a C a + nc C è il costo totale, C a è il costo per ogni UPS estratta e c è il costo per ogni USS estratta. Con questo modello il numero b di USS da selezionare in ogni UPS per minimizzare la varianza della media campionaria è: b ott C c a ( ρ) ρ L'espressione mostra ce, a parità di ogni altro elemento, il numero b di unità estratte in ogni UPS può essere tanto minore quanto maggiori sono il costo per ogni USS e il grado di omogeneità delle UPS e quanto minore è il costo per UPS. Ad 8.0

esempio, se C a /c 7 e ρ 0,07, b ott. 5. Dato il budget totale è poi immediato determinare il numero di UPS da estrarre. 8.4 GRAPPOLI DI DIVERSA DIMENSIONE Nella pratica delle indagini i grappoli (o le UPS) anno generalmente diversa dimensione. Le classi di una scuola non conterranno tutte 4 studenti come nell'esempio del precedente paragrafo, ma un numero variabile eventualmente compreso entro limiti prestabiliti; ad esempio, potranno avere tra i 0 e i 30 studenti. I comuni, ce spesso sono utilizzati come UPS nelle indagini campionarie sulla popolazione, anno dimensione diversa, sia in termini di abitanti ce di superficie. Le famiglie, ce frequentemente rappresentano l'unità di selezione finale dai comuni, anno un numero di componenti variabile e così via dicendo per la quasi totalità se non per la totalità degli aggregati ce più spesso sono selezionati nelle indagini. La variabilità della dimensione delle unità di selezione comporta numerose complicazioni sia teorice ce pratice. Solo parte di queste possono essere prese in esame in questa sede. In primo luogo è evidente ce, nel campionamento a grappoli, la variabilità della loro dimensione si traduce nella variabilità della dimensione finale del campione. Questa dipenderà infatti dai grappoli estratti e non potrà essere controllata a priori oltre un certo limite. Un semplice esempio servirà a ciarire questa difficoltà. Supponiamo ce una provincia sia formata da 9 comuni ciascuno dei quali contiene il seguente numero di aziende agricole, ce supponiamo noto per ogni comune: Comune: 3 4 5 6 7 8 9 tot. Aziende agricole: 0 00 50 5 8 43 0 36 3 35 Supponiamo inoltre di voler stimare alcune costanti caratteristice della popolazione delle aziende mediante un campione a grappoli e di utilizzare i comuni come grappoli. Si potrebbe pensare, ad esempio, di selezionare tre comuni dai nove ce formano la provincia e di includere tutte le aziende in essi presenti nel campione. 8.

E' immediato verificare ce, qualunque sia il metodo di selezione, non è possibile stabilire a priori la dimensione finale del campione in termini di numero di aziende. Tale dimensione varierà tra un massimo di 93 aziende, nel caso in cui vengano selezionati i comuni, 3 e 6, ce ne contengono il maggior numero, e un minimo di 46, se i comuni campione sono i più piccoli, cioè il 4, il 5 e il 9. Una tale variabilità non è accettabile sia per ragioni organizzative ce di costo. E' comunque evidente ce l'esempio descrive una situazione estrema ce si incontra raramente nella pratica. Ad esempio, se i grappoli sono rappresentati da famiglie e si ipotizza di dover svolgere un indagine sulla popolazione del comune di Firenze, utilizzando la famiglia come unità di rilevazione, la variabilità della dimensione del campione in termini di componenti non sarà molto elevata già per campioni di poce centinaia di famiglie. Se ipotizziamo di estrarne 000, tenuto conto ce la dimensione media familiare è compresa fra, e,, avremo con probabilità elevata un campione compreso tra 00 e 00 singoli componenti, un campo di variazione assolutamente accettabile sul piano metodologico e ance su quello organizzativo. Tuttavia il problema della variabilità della dimensione è reale e, ance se spesso all'atto pratico si presenta in termini meno evidenti di quanto non appaia dal nostro esempio sulle aziende agricole, spesso non può essere eliminato ma solo ridimensionato attraverso la stratificazione dei grappoli in base alla loro dimensione. Nel caso in esame, si possono formare tre strati, raggruppando i comuni più grandi (, 3, 6) quelli medi (, 7, 8) e quelli più piccoli (4, 5, 9). Si può quindi selezionare un comune da ciascuno strato riducendo la dimensione massima da 93 a 54 e alzando la minima da 46 a 76. La variabilità della dimensione campionaria esercita il suo effetto ance sugli stimatori. Se si effettua un campionamento casuale semplice, ogni grappolo, e di conseguenza ogni unità ce lo compone, a la stessa probabilità di entrare nel campione. Il campione è autoponderante e quindi lo stimatore della media della popolazione è dato dalla media semplice delle osservazioni del campione. Tale media tuttavia a la particolarità di essere calcolata sulla base di una numerosità ce non è nota a priori ma solo dopo la selezione del campione. Indiciamo con B la dimensione dell' -esimo grappolo. La media della popolazione è data da: 8.

Y B A B Y β β e la media semplice di un campione di a grappoli da: A B yg Y t B t y x r β β A (8.8) Lo stimatore (8.8) è, come sappiamo, uno stimatore rapporto (cfr. cap. 6) in quanto la media del carattere di indagine per le osservazioni campionarie è data dal rapporto di due variabili: y, il totale del carattere di indagine nel campione e x, la dimensione del campione. Lo stimatore rapporto, come abbiamo visto, non è corretto, ma la sua distorsione risulta trascurabile a condizione ce la dimensione x non sia troppo variabile nell'insieme dei possibili campioni selezionabili dalla popolazione. In genere si riciede ce: CV(x) < 0,. Si ricorda ce se questa condizione è soddisfatta, la varianza dello stimatore (8.8) può essere stimata dalla seguente espressione: [ ] ( y ) v( y) + r v( x) r cov( x, y) v g (8.9) x nella quale cov(y, x) è la covarianza nel campione tra y e x e v(y) e v(x) sono gli opportuni stimatori della varianza di y e x in rapporto al metodo di selezione usato per i grappoli. La (8.9) a una validità di carattere generale potendo essere utilizzata con un qualsiasi disegno campionario a uno o più stadi, con o senza stratificazione, purcé autoponderante (con opportune modifice l'espressione può essere estesa ance a disegni non autoponderanti). Si può osservare ce, se i grappoli sono tutti della stessa dimensione, i termini in x nella parentesi quadra si annullano e l'espressione si riconduce alla (8.). In alternativa allo stimatore rapporto è possibile adottare ance uno stimatore di Horvitz e Tompson, ce indiciamo con y p. Lo stimatore, ce come sappiamo è corretto, assume la seguente espressione: 8. 3

nel quale B A y p a a Ba Y B B / A esprime la dimensione media dei grappoli nella popolazione. Dalla varianza di questo stimatore, ce è data dalla seguente espressione: nella quale: V a SY ( y ), S p Y B A A a ( Y Y / A) A emerge tuttavia ce lo stimatore y p è conveniente solo se i valori di Y, cioè i totali per grappolo del carattere Y, non variano molto tra i grappoli. In pratica questo accade raramente e, di conseguenza, lo stimatore rapporto prima citato, ce non risente della variabilà dei totali Y, è preferito nella maggior parte delle indagini. 8.5 SELEZIONE A DUE STADI CON UPS DI DIVERSA DIMENSIONE Ance nel campionamento a due stadi si ripropone il problema della variabilità della dimensione campionaria. In questo caso tuttavia, se le dimensioni delle UPS sono note, è possibile ristabilire un completo controllo sulla dimensione campionaria, grazie all'introduzione di un particolare metodo di selezione delle UPS. Torniamo all'esempio delle aziende agricole nei nove comuni di una provincia e supponiamo ce si vogliano selezionare delle 35 aziende presenti nella popolazione estraendo al primo stadio tre comuni. Prendiamo in esame inizialmente la possibilità di utilizzare ad ogni stadio un campionamento casuale semplice. Se vogliamo ce il disegno sia autoponderante, 8.4

la probabilità di inclusione nel campione di ogni azienda deve essere uguale alla frazione complessiva di campionamento cioè pari a /35 /5. Al primo stadio la frazione di campionamento è 3/9 /3. In un disegno a due stadi la probabilità ce l'unità b del grappolo a entri nel campione è data da: ( β ) P( ) P( β ) P (8.0) nella quale P() è la probabilità di selezione del cluster a e P(β ) è la probabilità ce l'unità β del grappolo sia estratta al secondo stadio dopo ce al primo stadio è stato estratto il grappolo. Dalla (8.0) si ricava ce nel nostro caso la probabilità (frazione di campionamento) al secondo stadio, P(β ), deve essere uguale a /5. Se adesso consideriamo alcuni dei possibili campioni ce possono essere estratti con questo disegno notiamo ce sia pure in forma attenuata si ripresenta la variabilità della dimensione campionaria tipica del campione a grappoli. Infatti se nel campione vengono casualmente estratti i tre maggiori comuni (00, 50, 43 aziende) l'applicazione di una frazione di campionamento costante, pari ad /5, al loro interno porta alla selezione di circa 39 aziende. Se nel campione sono invece estratti i tre comuni più piccoli (3, 5, 8 ) le aziende selezionate da questi risultano soltanto 9. La media delle possibili dimensioni è ma il campione effettivo a dimensione variabile tra 39 e 9. Naturalmente in questa situazione una stratificazione delle UPS consente generalmente di ridurre la variabilità della dimensione entro limiti accettabili. Ma esiste un ulteriore possibilità di controllo ce generalmente è preferita alla stratificazione. Ricordiamo innanzitutto ce il campione deve soddisfare tre condizioni: (i) deve essere autoponderante; (ii) deve comportare l'estrazione di tre comuni; (iii) deve avere una dimensione possibilmente pari a unità. La prima e la terza condizione sono soddisfatte se la frazione di campionamento complessiva, e quindi P(β), è pari a /5. La seconda e la terza, se vengono estratte 7 aziende da ciascuno dei comuni estratti, quale ce sia la loro dimensione. Ciò implica ce al secondo stadio la probabilità di entrare nel campione sia: 8. 5

( β ) B. Allora, sostituendo nella (8.0) P(β) /5 e P( β ) 7 B P 7 abbiamo: 5 7 P( ) B, equazione la cui soluzione impone l'uguaglianza P() B /05. Questo risultato esprime la necessità di selezionare le UPS, cioè i comuni, con probabilità proporzionale alla loro dimensione, ovviamente in termini di aziende. Questo tipo di selezione è eticettato dalla sigla PPS dalle iniziali inglesi Probability Proportional to Size. In generale, la probabilità di inclusione dell'unità β del grappolo, quando a UPS sono selezionate con un campionamento PPS e b USS sono estratte con un campionamento casuale semplice da ciascuna UPS estratta, è data da: P n ab ( β ) f N A B B b (8.) La selezione di tipo PPS può essere realizzata attraverso i seguenti passi: (i) Si calcola la distribuzione cumulata delle dimensioni delle UPS: 8.6

Comune: 3 4 5 6 7 8 9 tot. B. 0 00 50 5 8 43 0 36 3 35 Cum. B. 0 0 70 85 03 46 66 30 35 (ii) Si associano a ciascuna UPS tanti numeri quanti ne indica la sua dimensione. Cioè alla UPS vengono associati i 0 numeri ce vanno da 00 a 00, alla UPS, i 00 numeri ce vanno da 0 a 0, alla UPS 3, i 50 numeri ce vanno da a 70, ecc.; (iii) Si seleziona un numero casuale compreso tra 00 e 35, e si estrae l'unità cui è stato associato il numero selezionato. Ad esempio, se il numero casuale selezionato è 05, si estrae la sesta UPS poicé 05 è uno dei 43 numeri - ce vanno da 04 a 46 - associati a questa UPS. Con questo metodo, ogni UPS a una probabilità di selezione proporzionale alla propria dimensione, ma può ance essere selezionata più di una volta. Esistono numerosi metodi di selezione di tipo PPS senza ripetizione. Il più semplice è quello sistematico. La dimensione totale, 35, viene divisa per il numero di UPS da estrarre, nel nostro caso per 3, e il risultato, 05, rappresenta l'intervallo di selezione. Quindi si procede come illustrato nel Cap. 4: (i) Si seleziona un numero casuale compreso tra 00 e 05; (ii) Si estrae l'unità cui è associato tale numero, individuandola dalla cumulata delle dimensioni B ; (iii) Si somma 05 (intervallo di selezione) al numero casuale primo estratto per individuare la seconda unità da estrarre e si procede in modo analogo per individuare la o le successive. Supponiamo ce il numero casuale primo estratto sia 53. La prima UPS estratta è la poicé 53 è compreso tra 0 e 0, cioè i numeri associati a questa UPS. Quindi si momma a 53 l'intervallo 05 per ottenere 58, ce corrisponde alla UPS 3. Infine si somma ancora a 58 l'intervallo 05 per ottenere 63 ce porta alla selezione della UPS 8. Il campionamento sistematico con probabilità variabile appena illustrato è attuabile a condizione ce nella popolazione non vi siano UPS con dimensione superiore all'intervallo di selezione. E' immediato verificare ce le UPS per le quali B > 05. anno la certezza di essere incluse nel campione, e, nonostante la selezione sistematica, possono essere incluse nel campione più di una volta. Tra le soluzioni ce possono essere adottate per ovviare a questo inconveniente, la più semplice 8. 7

appare quella di stratificare le UPS in modo ce in ogni strato sia possibile attuare la selezione sistematica da noi illustrata. Spesso le effettive dimensioni delle UPS non sono note e si dispone soltanto di loro stime. In questa situazione, ance seguendo il metodo di estrazione con probabilità variabile appena illustrato, non risulta possibile controllare completamente la dimensione del campione, ce torna ad essere, come nel campionamento a grappoli, una variabile. Si consideri ancora l'esempio delle aziende agricole, supponendo ce per i 9 comuni ce formano la popolazione di selezione si disponga delle seguenti stime, M, del numero di aziende agricole presenti al loro interno: Comune: 3 4 5 6 7 8 9 tot. Ma, 30 0 50 0 0 50 0 50 0 360 Ba. 0 00 50 5 8 43 0 36 3 35 Dimensione attesa 4,7 6,4 7,0 5,3 6,3 6,0 4,0 5,0 4,6 8,4 Per comodità si è riportato nel prospetto ance il vero valore B ce tuttavia deve essere considerato incognito prima dell'estrazione. Per ottenere un campione autoponderante, le probabilità di selezione ai due stadi dovranno essere calcolate sulla base dei valori Ma,. Pertanto: P ( β ) n am b (8.) N M M La (8.) è formalmente uguale alla (8.) ma in questo caso la selezione delle UPS con probabilità variabile viene denominata PPES (probability proportional to estimated size) L'ultimo termine a destra della (8.) rappresenta la frazione di campionamento ce garantisce l'autoponderazione del campione e ce applicato alla effettiva dimensione delle UPS estratte determina la variabilità delle dimensioni campionarie. Infatti la dimensione campionaria effettiva nell'a-esima UPS risulta dal prodotto: 8.8

b B M (8.3) e complessivamente la dimensione attesa del campione risulta pari a: 35 8,4 360 Il valore atteso ce si ottiene si discosta tanto di più da quello programmato quanto peggiori sono le stime delle dimensioni. Nell'esempio, la stima peggiore è quella corrispondente al comune 7 per il quale è pari alla metà del vero valore. Per questo comune, la dimensione risulta doppia di quella programmata: 4 unità anzicé 8. In generale, se la dimensione complessiva M, sottostima quella effettiva, la dimensione campionaria attesa risulterà maggiore di quella programmata e viceversa, se M, sovrastima la dimensione effettiva della popolazione. La variabilità della numerosità campionaria riconduce lo stimatore della media alla forma: r y/x e la stima della sua varianza alla: [ ] v x () r v( y) + r v( x) r cov( x, y) A titolo di esempio, consideriamo un disegno complesso rappresentato da un campione autoponderante a due stadi con stratificazione delle unità di primo stadio. Denotiamo con y il totale campionario per l'ups nello strato e con x la dimensione del campione nella stessa UPS. Siano inoltre y e x rispettivamente il totale per la variabile di indagine delle a UPS selezionate nello strato e la dimensione campionaria a livello dello stesso strato. Assumendo di poter ricorrere all'approssimazione illustrata nella (8.6) abbiamo: ( y ) v a s y ( x ) v a s x 8. 9

cov ( x, y ) a s xy nelle quali: s y ( a ) [ y ( y a )] s sxy sx ( a ) ( a ) [ x ( x a )] s [ x ( x a )][ y ( y a )] s Concludiamo con un esempio, applicando queste espressioni ad un ipotetico campione stratificato (con 5 strati) nel quale per ciascuno strato sono state estratte due UPS. Nella tabella ce segue sono riportati i totali y (,..,5;,) relativi alla x. variabile di indagine e le dimensioni campionarie di secondo stadio Strato y x y x 5 5 0 8 0 3 0 8 8 4 5 0 0 8 5 8 5 0 La media, calcolata come rapporto combinato, è data da: r y x ( y + y ) ( x + x ) 0, 5 e la stima della varianza risulta pari a: 8.0

v(r) ( /00 ) [ 54 + (0,5) 6 + (0,5) 4 ] 0,0034. 8.