LA STIMA DELLA VARIANZA CAMPIONARIA DI INDICATORI COMPLESSI DI POVERTÀ E DISUGUAGLIANZA

Transcript

1 Statistica Applicata Vol. 7, n. 4, LA STIA DELLA VARIANZA CAPIONARIA DI INDICATORI COPLESSI DI POVERTÀ E DISUGUAGLIANZA Diego oretti, Claudio Pauselli, Claudia Rinaldelli Servizio Condizioni economiche delle famiglie, ISTAT, via Adolfo Ravà 50, 004 Roma - dimorett@istat.it, pauselli@istat.it, rinaldel@istat.it Riassunto In ISTAT è consuetudine calcolare gli errori di campionamento delle principali stime (frequenze, medie, totali) attraverso una procedura informatica basata sulla metodologia standard di stima della varianza campionaria. Tuttavia è sempre più frequente la produzione di stime complesse da un punto di vista funzionale per le quali non si può applicare direttamente la suddetta metodologia. A questo proposito si ricorda il caso delle misure complesse di povertà relativa stimate dall indagine sui Consumi delle amiglie; la valutazione degli errori campionari di tali stime è stato uno degli obiettivi metodologici affrontati dall ISTAT nel periodo L indagine EU-SILC (Statistics on Income and Living Conditions) propone un problema analogo in quanto tra i parametri da stimare risiede una serie di indicatori complessi di povertà e disuguaglianza che dovranno essere trasmessi ad EUROSTAT con i corrispondenti errori di campionamento. Il presente lavoro ha lo scopo di illustrare gli studi attualmente effettuati per la valutazione dell errore campionario di questi indicatori complessi e le soluzioni metodologiche finora individuate. Parole chiave: errore campionario stima della varianza campionaria equazioni stimanti linearizzazione tecniche di ricampionamento. INTRODUZIONE Lo scopo principale delle indagini campionarie eseguite dall ISTAT è quello di stimare alcuni parametri di popolazioni e subpopolazioni di interesse; le stime costituiscono quindi il prodotto principale delle indagini campionarie. È comunque consuetudine accompagnare la presentazione delle stime di una indagine campionaria con una adeguata documentazione contenente informazioni Il presente lavoro esprime le opinioni degli autori e non riflette necessariamente quelle dell ISTAT.I paragrafi e sono da attribuire a Claudia Rinaldelli, i paragrafi 3, 3., 3., , 5 e l appendice a Claudio Pauselli, l appendice a Diego oretti.

2 530 oretti D., Pauselli C., Rinaldelli C. ed indicatori per: a) mettere a conoscenza l utente delle metodologie utilizzate nella rilevazione e nel processo dei dati; b) valutare le stime fornite ai fini di una loro corretta utilizzazione. Nell ambito del punto b), gli errori di campionamento rivestono una particolare importanza. La loro conoscenza è infatti essenziale per una adeguata utilizzazione delle stime prodotte, tenendo presente che esistono diverse categorie di utenti che si servono degli errori campionari per scopi più o meno approfonditi, dalla valutazione dell attendibilità delle stime fino alla progettazione di nuove indagini (Zannella, 989); per questo, l ISTAT generalmente diffonde le principali stime da indagine campionaria insieme ad indicatori quali l errore relativo di campionamento, l errore assoluto di campionamento, l intervallo di confidenza. A tal fine è stata sviluppata una procedura informatica, basata sulla metodologia standard di stima della varianza campionaria, che è ampiamente utilizzata nelle indagini eseguite dall ISTAT con riferimento alle tipologie di stime più frequentemente prodotte quali frequenze, medie, totali (alorsi, Rinaldelli, 998). Tuttavia nel tempo si sta spostando sempre più l attenzione verso la produzione di stime complesse da un punto di vista funzionale per le quali non può essere direttamente applicata la metodologia standard di calcolo degli errori di campionamento. A titolo di esempio, si ricorda il caso delle misure complesse di povertà relativa stimate dall indagine sui Consumi delle amiglie; l impegno assunto dall ISTAT con il inistero dell Economia e delle inanze per la fornitura di stime di povertà relativa a livello regionale, ha obbligato l ISTAT a fronteggiare problemi di natura metodologica piuttosto complessi, tra i quali proprio quello di stimare in maniera adeguata gli errori campionari delle suddette stime complesse (ISTAT, 003). La valutazione degli errori campionari delle misure di povertà relativa è stato uno dei più importanti obiettivi metodologici affrontati dall ISTAT nel periodo (Coccia et al., 00; De Vitiis et al., 003; Pauselli, Rinaldelli, 004a - 004b). Il problema della valutazione degli errori campionari di stime complesse, per le quali non è possibile applicare la metodologia standard, si presenta nuovamente nell ambito dell indagine EU-SILC (Statistics on Income and Living Conditions). Per metodologia standard si intende metodologia notoriamente diffusa e applicata. La letteratura sulla teoria del campionamento da popolazioni finite, fornisce, per i più importanti disegni di campionamento, le formule per il calcolo della varianza degli stimatori frequentemente utilizzati nelle indagini; nel caso di stimatori lineari, vengono fornite le espressioni esatte, mentre per stimatori non lineari, ma di uso frequente, vengono messe a disposizione le espressioni approssimate.

3 La stima della varianza campionaria di indicatori complessi di povertà e 53 L indagine EU-SILC, che verrà eseguita per Regolamento Comunitario dai Paesi embri, ha come scopo principale la stima di statistiche su reddito, condizioni di vita, povertà ed esclusione sociale (EC Regulation, 003). Tra queste statistiche risiedono indicatori di povertà e disuguaglianza, complessi da un punto di vista funzionale, che devono essere trasmessi ad EUROSTAT con i corrispondenti errori di campionamento (EUROSTAT, 004a). Per risolvere il problema del tipo qui esposto, la letteratura propone due possibili approcci (Wolter, 985; Zannella, 989; Särndal et al., 99): a) ricavare, dove possibile, una espressione approssimata dell indicatore complesso attraverso metodi di linearizzazione; b) applicare le tecniche di ricampionamento. Nel presente lavoro sono state applicate entrambe le metodologie citate in a)- b); infatti, gli errori campionari degli indicatori complessi qui trattati sono stati stimati sia ricavando una espressione linearizzata degli indicatori medesimi 3 sia utilizzando la tecnica di ricampionamento BRR (Balanced Repeated Replication, Replicazioni Bilanciate Ripetute). Il presente lavoro ha quindi lo scopo di illustrare gli studi e le applicazioni effettuati per la valutazione dell errore campionario di questi indicatori complessi; in particolare, nel paragrafo sono descritti gli indicatori complessi di povertà e disuguaglianza qui trattati; i paragrafi 3. e 3. sintetizzano rispettivamente la metodologia delle equazioni stimanti e il metodo di Taylor-Woodruff utilizzati per ricavare le espressioni linearizzate degli indicatori complessi che sono poi riportate nei paragrafi ; nel paragrafo 5, sono messi a confronto gli errori campionari degli indicatori complessi ottenuti secondo le due metodologie sopra dette; l appendice descrive la tecnica BRR utilizzata come approccio alternativo alla linearizzazione; infine, l appendice descrive l implementazione informatica che si è resa necessaria rispettivamente per: a) calcolare le espressioni linearizzate degli indicatori complessi; b) consentire l applicazione della tecnica BRR.. GLI INDICATORI EU DI POVERTÀ E DISUGUAGLIANZA DELL INDAGINE EU-SILC Riportiamo di seguito quattro degli indicatori EU di povertà e disuguaglianza per i quali EUROSTAT richiede di fornire il valore degli errori di campionamento 3 Una volta ottenute le espressioni linearizzate degli indicatori complessi, queste sono state usate nella procedura informatica dell ISTAT per stimare gli errori campionari degli indicatori medesimi.

4 53 oretti D., Pauselli C., Rinaldelli C. (EUROSTAT, 004a-004b); questi indicatori sono stati oggetto dello studio illustrato nel presente lavoro: ) linea di povertà relativa (at Ris-of-Poverty Threshold), definita come il 60% del valore mediano della distribuzione del reddito 4 : RPT=60%*ediana red ; () ) incidenza di povertà relativa (at Ris-of-Poverty Rate), definita come la percentuale di individui (sul totale della popolazione) con reddito inferiore alla linea di povertà relativa: RPR = Iw s ε w s ε *00 () dove denota l indice di individuo, s il campione rilevato, w il coefficiente di riporto all universo dell individuo, I variabile indicatrice così definita: I se y < RPT = 0 altrimenti (3) dove y denota il valore della variabile reddito dell individuo; 3) indice di disuguaglianza della distribuzione del reddito, il coefficiente di Gini (inequality income distribution), secondo la formulazione proposta da EUROSTAT per l indagine EU-SILC (EUROSTAT, 004b): ultima pers. pers. * y * w * w = prima pers. prima pers. = G = 00 * ultima pers. ultima pers. w * y * w = prima pers. = prima pers. ultima pers. prima pers. y * w (4) dove è l indice dell unità, y il valore della variabile reddito per la persona, w il coefficiente di riporto all universo della persona ; per l applicazione della (4) i valori y devono essere ordinati dal più piccolo al più grande; 4 Col termine reddito si intende reddito disponibile equivalente ; per l esatta definizione delle variabili richiamate in questo paragrafo si veda EUROSTAT, 004b.

5 La stima della varianza campionaria di indicatori complessi di povertà e 533 4) il Gender Pay Gap (indice di disuguaglianza della retribuzione media oraria lorda tra maschi e femmine): GPG = ε ε yw w ε ε ε yw w ε yw w *00 (5) dove denota l indice di individuo, l insieme degli individui campione di sesso maschile lavoratori dipendenti con età compresa tra 6 e 64 anni con almeno x 5 ore di lavoro settimanali, l insieme degli individui campione di sesso femminile lavoratori dipendenti con età compresa tra 6 e 64 anni con almeno x ore di lavoro settimanali, y il valore della variabile retribuzione oraria lorda dell individuo, w il coefficiente di riporto all universo dell individuo. 3. LINEARIZZAZIONE: ETODI Gli indicatori (), (), (4) e (5) sono linearizzabili, i primi tre tramite il metodo delle equazioni stimanti (descritto sinteticamente nel paragrafo 3.) e il quarto con il metodo di Taylor Woodruff (descritto nel paragrafo 3.). Il metodo delle equazioni stimanti permette di ottenere linearizzazioni di espressioni complesse quali quelle in uso nello studio della distribuzione dei redditi e più generalmente nello studio della disuguaglianza sociale. Per maggior chiarezza si introducono le notazioni che ricorreranno in seguito. Sia U = {,,, N} una popolazione finita di N elementi; sia i l indice che distingue il generico elemento della popolazione; sia s U un campione casuale di n elementi, ad ogni elemento i del campione è associato il coefficiente di riporto all universo w i (s). 3. IL ETODO DELLE EQUAZIONI STIANTI Nel descrivere il metodo si farà riferimento a quanto esposto in Kovacevic e Binder (997); per maggiori approfondimenti sull argomento si segnalano Binder e Kovacevic (994), Godambe e Thompson (986). 5 L attuale valore di 5 ore settimanali è suscettibile di modifiche da parte di EUROSTAT.

6 534 oretti D., Pauselli C., Rinaldelli C. La stima del parametro θ di una popolazione infinita si può ottenere risolvendo l equazione di massima verosimiglianza U( θ)= = 0 dove f(y;θ) log f(y i; θ) θ è la funzione di densità differenziabile. Nelle popolazioni finite il parametro θ può anche essere descritto come la soluzione dell equazione: N U( θ)= u( y i; θ)= 0 (6) i= che prende il nome di equazione stimante. La stima corretta dell equazione stimante secondo Horwitz-Thompson da un campione casuale s è: N Û( θ)= u( y i ; θ) wi () s (7) i= dove w i (s) =/π i (π i è la probabilità di inclusione dell unità i) se i è presente nel campione s, 0 altrimenti. La stima del parametro θ N è ˆθ ; soluzione dell equazione stimante Û( θ)= 0. u(y i ; θ) prende il nome di funzione stimante ed è Gauss coerente (Godambe, Kale; 99); ovvero noti tutti i valori della popolazione finita le stime del parametro sono uguali al valore del parametro. L equazione stimante è il punto di partenza per la stima della varianza di ˆθ. La (6) può essere riscritta come: N 0= U( θ)= u(y i; θˆ )-u(y i; θn) + u(y i; θn) w + i() s u(y i; ˆθ )-u(y i; θ N) wi( s) (8) i= N i= i= Sia R L ultimo termine della (8); esso è di ordine o( ˆθ θn ), diventa pertanto trascurabile per ˆθ θ N ; sviluppando u(y; ˆθ ) intorno a θ N tramite la forma di Young del teorema di Taylor (Serfling, 980) la (8) può essere riscritta come: 0 U ˆ ˆ N uy; i ˆ - N + o ˆ N θ θ θ θ θ θn ) + u(y i; θ N)w i(s) + R (9) θ θ θ = ( )= ( ) ( ) i= = N ( Trascurando il termine R la differenza ˆθ θn può essere approssimata come: N i=

7 La stima della varianza campionaria di indicatori complessi di povertà e 535 ( )= ( ) * dove u y ; θ J u y ; θ i N θ i e J θ N uy; i θ = ( ) θ. i= θ= θn Pertanto var ˆ var ˆ * ( θ)= ( θ θn)= var wiu ( y i; θn). s Poiché θ N è sconosciuto lo si stima con ˆθ (sua stima campionaria), in questo i () ( i )= s * caso: w s u y ; θˆ 0. In molti casi, soprattutto per le stime non lineari, il parametro θ è multidimensionale ed è partizionabile in due componenti: la prima θ N che è il parametro di interesse (ad esempio il rapporto tra due totali) e la seconda λ N i parametri di disturbo (ad esempio i due totali da mettere a rapporto). In questo caso la forma funzionale cambia leggermente e la (6) diventa: ( )= ( ) ( ) U θλ ; U θλ,,u θλ,. Le stime dei parametri devono essere la soluzione all equazione: ( ) ( ) Uˆ, 0 = θλ ˆ ˆ ˆ ˆ, ˆ U θλ (0). Analogamente a quanto fatto nel caso unidimensionale si può arrivare ad una linearizzazione dell espressione complessa (per i dettagli si veda Kovacevic e Binder, 977): ( ) ( ) ( N N) ˆθ θn J θ + J θjλ J λ J θjθjλ J θj θ U θn, λn J θjλ J λ J θj ˆ ( )+ θjλ U θ ; λ dove J J J θ λ θ U θλ ; θ = ( ) θ= θn; λ= λn U θλ ; λ = ( ) θ= θn; λ= λn U θλ ; θ = ( ) θ= θn; λ= λn, matrice di ordine x, matrice di ordine x, matrice di ordine x ˆ ()

8 536 oretti D., Pauselli C., Rinaldelli C. U θλ ; Jλ, matrice di ordine x, λ θ= θn; λ= λn dove sono i parametri di disturbo. In molte applicazioni U ( θλ ; ) non dipende da θ quindi J θ =0. Inoltre se le derivate prime di u (y,θ,λ) e u (y,θ,λ) rispetto a θ sono indipendenti da λ la () può esser:e scritta in modo semplificato come: = ( ) θˆ θ U ˆ θ, λ J J U ˆ θˆ ; λ J ( )+ ( ) N λ λ N N N N N θ = wi() s u( y i; θn; λn)+ J J u( y i; θn; λn) i= N * = wi () s u ( y i; N; N) i= θ λ. λ λ J θ () La u * è la variabile linearizzata ricercata. La stima della varianza del totale di questa variabile approssimerà la varianza della stima ˆθ. 3. IL ETODO DI TAYLOR WOODRU Per stimare la varianza di una funzione non lineare di più totali si utilizza l approssimazione lineare di Taylor Woodruff. Sia θ=(y,...,y q ) un parametro funzione non lineare di q totali e sia ˆ Y,...,Y ˆ ˆ q la relativa stima campionaria. Si può dimostrare che in condizioni abbastanza generali (Zannella, 989) che si può approssimare ˆθ θ con la formula di Taylor, arrestando lo sviluppo ai termini di ordine lineare: θ= ( ) q ( ) θˆ θ b ˆ j Yj Yj j = (3) b j =, Y Y Y j = ˆ j. j ( ) Elevando al quadrato entrambi i membri della (3) e calcolando i loro valori attesi si ottiene

9 La stima della varianza campionaria di indicatori complessi di povertà e 537 q q ( ) ( ) j i ( j i j = i= SE ˆ θ ˆ Var θ ˆ b b Cov ˆ Y ˆ,Y ˆ ) (4). Ovvero si può esprimere la varianza dell espressione complessa di q totali come combinazione lineare di q covarianze delle stime dei totali (sej=i si tratterà delle varianze). Il numero di stime di varianze e covarianze per ottenere la (4) aumenta in proporzione quadratica con il crescere del numero dei totali. Per semplificare i calcoli, è possibile ricorrere alla trasformata di Woodruff (Zannella, 989), in questo caso la varianza di ˆθ è approssimata dalla varianza della stima del totale: q Z= b j Y ˆ j j = (5). La (5) si ottiene dalla somma ponderata con i coefficienti di riporto all universo della variabile Z i q = bjyji (Y ji è il valore che assume la variabile Y j j = nell unità i), questo permette di ridurre la dimensionalità del problema in quanto con questa trasformazione è necessario al contrario di quanto accadeva con la (4) soltanto calcolare la stima della varianza di un solo totale. 4. LA LINEARIZZAZIONE DEGLI INDICATORI EU 4. INCIDENZA DI POVERTÀ RELATIVA (RPR) La stima della varianza dell incidenza di povertà relativa descritta nel paragrafo, può essere linearizzata come mostrato da Berger e Sinner (003) e Deville (999). Sia la linea di povertà relativa una frazione di un quantile della variabile Y (α = frazione, β = quantile): αy β. Sia p αβ la proporzione di unità della popolazione sotto tale linea di povertà. Un primo tipo di approssimazione (più semplice) è la seguente: dove Iy altrimenti. u N Iy Y p i = ( i α β ) αβ (6) αy β è una funzione indicatrice che assume valore se y α i Yβ 0 ( i )

10 538 oretti D., Pauselli C., Rinaldelli C. La (6) non tiene conto della variabilità della linea; ovvero si considera lo stato di povertà come un attributo la cui presenza è funzione di una linea determinata in maniera esterna ai dati rilevati. In realtà la linea è funzione dei dati campionari ed è perciò essa stessa soggetta a variabilità campionaria. La logica dietro questo approccio è che per campioni di grandi dimensioni, cosa questa verificata in indagini condotte dall ISTAT, la variabilità della linea è talmente ridotta da rendere trascurabile l errore che si commette considerandola fissa. A tale conclusione si era anche arrivati nei lavori relativi alla povertà regionale stimata dell indagine ISTAT sui consumi delle famiglie (De Vitiis et al., 003; Rinaldelli et al., 00; Rinaldelli, Pauselli, 004a-004b). Per tener conto della variabilità della linea si può ricorrere al metodo delle equazioni stimanti ottenendo la variabile linearizzata (Deville, 999): u ( ) = N Iy ( α Y ) p α R I { y Y } β i i β αβ αβ i β (7) R f αy ( ) β αβ = f Y (8) ( β ) dove f(x) rappresenta la densità della distribuzione nel punto x. La stima della densità di una distribuzione stimata da un campione da popolazione finita è un problema al quale la letteratura ha fornito diverse soluzioni: Deville (999) suggerisce l utilizzo di differenziazione numerica di semplice implementazione, rancisco e uller (99) utilizzano la procedura di Woodruff (95) per funzioni di quantili stimati. In questo lavoro si farà riferimento al metodo di Preston (996) descritto qui di seguito: ˆ f( y)= Nbˆ i s wk y-y i i bˆ (9) dove: - K x ) ( )=( exp( x / ) e b= 079. (ˆ Y 075 Y ˆ 05 ) N 5 (0).. e Sostituendo nelle espressioni (8) e (9) le loro stime campionarie si ottiene: u i i i ( ) = Iy ( αy ) p R Iy ( ) β αβ α αβ β β N ˆ ˆ Y ˆ

11 La stima della varianza campionaria di indicatori complessi di povertà e 539 R ˆ αβ f ( α Ŷ ) β = f ( Ŷ. β ) 4. COEICIENTE DI GINI La linearizzazione da utilizzare per la stima della varianza del coefficiente di Gini è (Kovacevic, Binder; 997): u * i ( ) N Ay ˆ y ˆ y µ ˆ G i i +B ˆ i µ ˆ = ( ) ( ) + dove A(y) ˆ = (y) ˆ (G ˆ + )/ e ˆB(y) = wiyii yi y /N. ( ) s ( ) ˆ G = w ˆ i i yi N ˆ (stima campionaria dell indice di Gini) µ s ˆi = wii( yj y i) /N e ˆµ è la stima campionaria della media del carattere Y. Per maggiori dettagli sull applicazione del metodo delle equazioni stimanti in questo caso si veda Kovacevic, Binder, LINEA DI POVERTÀ RELATIVA (RPT) Per la stima dell errore della linea di povertà relativa descritto dalla () si farà riferimento alla approssimazione lineare utilizzata nella stima dell errore di campionamento di un quantile riportato in letteratura (Kovacevic, Binder, 997; Wheeles, Shah, 988; Sarndal et al., 99). Sia ζ p un quantile p della variabile Y (ovvero I(y i ξ p )/N = p ); sia ˆζ p la sua stima campionaria (ovvero Iyi ˆξ p w/n i p ). L equazione stimante del quantile ξ p è: i s ( ) = I(y ξ )/N-p = 0. i p i U Applicando il metodo delle equazioni stimanti, descritto nel paragrafo 3., la linearizzata che si ottiene è la seguente: u i = Nfˆ ζˆ ( p ) p-i y ( i ζˆ p) i U

12 540 oretti D., Pauselli C., Rinaldelli C. fˆ ζˆ ( p ) è la stima della densità della funzione di distribuzione del carattere nel punto ˆζ p. La funzione di densità è stimata con la (0). La stima dell errore relativo di campionamento 6 della linea di povertà relativa è uguale a quella dell errore di campionamento relativo della mediana. Per ottenere l errore di campionamento assoluto della linea di povertà sarà sufficiente moltiplicare l errore di campionamento relativo della mediana per la stima della linea di povertà. 4.4 GENDER PAY GAP (GPG) L espressione (5) può essere più agevolmente espressa facendo queste sostituzioni: Y = yw, Y y w =, P w =, P w =. Poniamo inoltre ε ε Y Y = P, Y Y = P, dove: Y :è la retribuzione media oraria della popolazione maschile, con età tra i 6 e i 64 anni, lavoratore dipendente; Y : è la retribuzione media oraria della popolazione femminile, con età tra i 6 e i 64 anni, lavoratore dipendente; Y : è il totale della retribuzione oraria della popolazione maschile, con età tra i 6 e i 64 anni, lavoratore dipendente; Y : è il totale della retribuzione oraria della popolazione femminile, con età tra i 6 e i 64 anni, lavoratore dipendente; P : è il totale della popolazione maschile lavoratore dipendente, con età tra i 6 e i 64 anni, lavoratore dipendente; P : è il totale della popolazione femminile lavoratore dipendente, con età tra i 6 e i 64 anni, lavoratore dipendente; Y Il GPG può essere riscritto come θ= ; la stima campionaria del GPG è: Y ε ε 6 Si ricorda che l errore relativo è lo scarto quadratico medio dello stimatore sul valore atteso dello stimatore. Una sua stima consistente si ottiene utilizzando la stima campionaria dell errore di campionamento assoluto e la stima campionaria utilizzata.

13 La stima della varianza campionaria di indicatori complessi di povertà e 54 La varianza di tale stima è: ˆ ˆ Y θ=. ˆ Y ˆ Var ˆ Y ˆ ( θ)= Var Var ˆ ˆ = Y Y Y Pˆ Pˆ. Per la stima della varianza è necessario linearizzare il rapporto di quattro totali YP ˆ ˆ ( Y ˆ,Y ˆ,P ˆ,P ˆ )= facendo ricordo alla approssimazione lineare di Taylor YP ˆ ˆ Woodruff. Seguendo pertanto quanto descritto in Zannella (989), la variabile linearizzata è: z = b y + b y + b d + b d dove: i i i 3 i 4 i b = Y P = YP ; b = Y Y P = Y P ; b 3 = P Y = YP ; b 4 = P Y P = Y P ; d i = se i-esima unità campionaria è lavoratore dipendente con età compresa tra i 6 e i 64 anni e di sesso maschile, 0 altrimenti; d i = se i-esima unità campionaria è lavoratore dipendente con età compresa tra i 6 e i 64 anni e di sesso femminile, 0 altrimenti; y i = retribuzione oraria se i-esima unità campionaria è lavoratore dipendente con età compresa tra i 6 e i 64 anni e di sesso maschile, 0 altrimenti; y i = retribuzione oraria se i-esima unità campionaria è lavoratore dipendente con età compresa tra i 6 e i 64 anni e di sesso femminile, 0 altrimenti. 5. APPLICAZIONE E RISULTATI È stato stimato l errore di campionamento con le variabili linearizzate illustrate nel paragrafo 4 e con la tecnica di ricampionamento BRR. Poiché i dati dell indagine EU-SILC non saranno disponibili prima del 005, si è reso necessario sperimentare le linearizzazioni su dati il più possibile simili, per variabili e disegno

14 54 oretti D., Pauselli C., Rinaldelli C. di campionamento, a quelli che saranno rilevati nella futura indagine EU-SILC. A tale scopo sono stati utilizzati i dati del Panel Europeo delle amiglie (ECHP), indagine europea armonizzata su reddito e condizioni di vita delle famiglie, articolata su otto onde annuali e basata su disegno a due stadi di selezione con stratificazione delle unità primarie (comuni) (alorsi et al., 994). In particolare sono stati utilizzati i dati dell anno 994 (file delle interviste individuali del 994); la variabile considerata è il reddito equivalente calcolato come rapporto tra il reddito familiare e l ampiezza delle famiglie corretta secondo la scala OECD modificata. Gli errori di campionamento delle variabili linearizzate sono stati stimati tramite la procedura generalizzata dell ISTAT (alorsi S., Rinaldelli, 998) mentre la tecnica BRR è stata adattata per l applicazione ad un disegno campionario a più stadi come descritto nell appendice. L adattamento della tecnica BRR ad un disegno a due stadi implica una variabilità delle stime dell errore ottenute tra un iterazione e l altra ed una conseguente perdita di precisione. Per questo motivo, per ogni indicatore sono state calcolate circa cinquanta stime dell errore di campionamento relativo e se ne è poi considerata la media; questo accorgimento ha l effetto di aumentare la precisione della stima come descritto in Rao e Shao (996). I risultati dell applicazione con i due differenti metodi sono illustrati nella tabella che evidenzia una sostanziale coincidenza delle stime ottenute. Tab. : Errore campionario relativo degli indicatori EU per metodo utilizzato (dati percentuali). Indicatore Errore Campionario Relativo (%) Linearizzazione BRR Linea di povertà relativa,7%,73% Incidenza di povertà relativa 3,55% 3,53% Coefficiente di Gini,7%,60% Gender Pay Gap 30,5% 3,6% La valutazione della precisione delle stime campionarie richiesta dal Regolamento Comunitario può essere soddisfatta utilizzando le variabili linearizzate in quanto questa soluzione presenta una maggiore semplicità computazionale rispetto alla tecnica BRR, con valutazioni delle stime sostanzialmente uguali. Ovviamente i risultati ottenuti hanno valore solo come applicazione sperimentale delle metodologie qui utilizzate.

15 La stima della varianza campionaria di indicatori complessi di povertà e 543 APPENDICE. LA TECNICA DI RICAPIONAENTO BRR La tecnica BRR è stata ideata nei primi anni 60 dal Bureau of Census; si descriverà la tecnica nel caso base di un disegno campionario ad uno stadio stratificato per passare poi al caso generale di più stadi (Zannella, 989). Supponiamo che la popolazione sia suddivisa in H strati e che da ogni strato siano estratte = unità campionarie. Con la selezione casuale di una unità per strato si ottiene un sottocampione chiamato replicazione di ampiezza pari alla metà del campione originale. Sia a h un coefficiente che assume valore + se la prima unità del generico strato h appartiene alla replicazione, o se invece è la seconda unità dello strato a farne parte; allora l insieme delle possibili replicazioni potrà essere descritto da una matrice di dimensione H x H. Ogni cella di questa matrice assumerà valore + o. In questa matrice valgono le seguenti relazioni (Zannella, 989): H = 0 (h =...H) a rh r= (a.) H a a r= rh r = 0 (h=...h) (a.) La (a.) implica che le due unità campionarie sono presenti un uguale numero di volte nell insieme di tutte le replicazioni possibili; la (a.) che le colonne della matrice sono tra loro ortogonali. Sia ˆθ la stima lineare del parametro di interesse calcolata sul campione totale e sia ˆθr la corrispondente stima calcolata sulla r-esima replicazione; si dimostra che (Zannella, 989): θˆ = H θˆ (a.3) H r r= Var ( H θˆ)= ( θˆ- θˆ r ) H r = (a.4) In caso di stimatori non lineari la (a.3) non è valida e la (a.4) è una stima della varianza.

16 544 oretti D., Pauselli C., Rinaldelli C. Appare evidente che il metodo applicato per tutte le possibili replicazioni diventa estremamente oneroso anche con un H piccolo (per H=30 si hanno poco più di un miliardo di replicazioni). Si rende necessario pertanto determinare un R << H ; la scelta casuale delle replicazioni implicherebbe una stima della varianza campionaria più elevata di quella ottenuta sull insieme di tutte le replicazioni. La soluzione a questo problema è stata fornita da ccarthy (ccarthy, 969a-969b) con l introduzione delle replicazioni bilanciate ripetute (BRR). Un sottoinsieme di R replicazioni è bilanciato se vale: Se inoltre vale: R a a = 0 (h=...h, h) (a.5) r = rh r R a rh r = = 0 (h=...h) (a.6) si dice completamente bilanciato. La stima della varianza basata su R replicazioni bilanciate ripetute produce la stessa stima basata su tutte le H replicazioni. Per costruire un sottoinsieme di replicazioni bilanciate si possono utilizzare le matrici di Hadamard. Le matrici di Hadamard sono delle particolari matrici di descrizione delle replicazioni di ordine quadrato. Ogni sottoinsieme di < colonne (con esclusione della colonna composta da tutti +) della matrice soddisfa le condizioni (a.5) e (a.6) ed è quindi completamente bilanciato; l insieme di tutte le colonne soddisfa solo la condizione (a.5) ed è quindi bilanciato (Zannella, 989). La matrice di Hadamard di ordine è: Sia una matrice di Hadamard di ordine ; la procedura iterativa per la costruzione di una matrice di ordine è (Wolter, 985): Da quanto detto precedentemente solo se la matrice di Hadamard generata è

17 La stima della varianza campionaria di indicatori complessi di povertà e 545 maggiore del numero degli strati H, l utilizzo di un suo sottoinsieme di H colonne garantisce il bilanciamento delle replicazioni. Oltre alla stima della varianza espressa da: ( )= ( ) Var ˆ R ˆ θ θ θˆr R r = (a.7) è possibile calcolare la stima alternativa: ( )= ( ) R Var θ ˆ θ θ ˆ c ˆr R r= (a.8) dove ˆθ r c è la stima del parametro calcolata sulla parte complementare del campione alla r-esima replicazione (ovvero quella che si otterrebbe moltiplicando per i coefficienti della matrice di descrizione delle replicazioni). La media tra (a.7) e (a.8) fornisce una stima più precisa della varianza campionaria. Le indagini campionarie sulle famiglie eseguite dall ISTAT sono generalmente a due stadi di selezione con stratificazione delle unità di primo stadio (comuni); è pertanto necessario l adattamento della tecnica BRR. L adattamento ad un disegno complesso si svolge in quattro passi (Wolter, 985; Zannella, 989): ) si considerano solo le unità di primo stadio (PSU), solo queste saranno incluse nella replicazione; ) nel caso in cui fosse presente una sola PSU per strato, si aggrega ad uno strato contiguo; tale operazione, nota come collassamento, implica una sovrastima della varianza; 3) nel caso in cui le PSU fossero più di due, si formano in modo casuale due pseudo- PSU in cui sono contenute le PSU dello strato; 4) negli strati autorappresentativi le famiglie campione sono considerate PSU e sono suddivise in due pseudo-psu secondo quanto descritto nel passo 3. Una volta formate le pseudo-psu e calcolato il numero di strati risultanti, si applica la tecnica BRR.

18 546 oretti D., Pauselli C., Rinaldelli C. APPENDICE. IPLEENTAZIONE INORATICA Come descritto nel paragrafo, è consuetudine dell ISTAT fornire indicazioni riguardanti la precisione delle principali stime (frequenze, medie, totali) prodotte dalle indagini campionarie. A tal fine è possibile utilizzare o la procedura informatica SGCE (Procedura di tipo generalizzato per il calcolo degli errori di campionamento) (alorsi, Rinaldelli, 998) o il software GENESEES (Software per il calcolo delle stime e degli errori campionari) (ISTAT, 00). Entrambe le procedure informatiche citate implementano la metodologia standard di stima della varianza campionaria e sono state sviluppate in ambiente SAS a seguito degli studi e delle attività di alcuni ricercatori del Servizio Studi etodologici dell ISTAT negli anni 80. La procedura SGCE risale agli anni 90 ed è il prototipo del software GENESEES disponibile dalla fine del 00. Tuttavia gli indicatori EU di povertà e di disuguaglianza considerati non possono essere direttamente trattati da queste due procedure informatiche che non prevedono attualmente l applicazione automatizzata di espressioni approssimate di indicatori complessi. Come descritto nei precedenti paragrafi, per gli indicatori considerati è stato calcolato l errore di campionamento sia ricorrendo alla linearizzazione sia implementando la tecnica di ricampionamento BRR (Pauselli, Rinaldelli, 004a-004b). Preparazione Input SGCE Preparazione di variabili necessarie al calcolo degli indicatori Linearizzazione Procedura SGCE ig.: Diagramma di flusso per l approccio della linearizzazione.

19 La stima della varianza campionaria di indicatori complessi di povertà e 547 Preparazione Input Collassamento degli strati Costruzione delle pseudo-psu Calcolo delle stime per ogni replicazione, utilizzando matrice di Hadamard Calcolo dell errore campionario dell indicatore complesso ig. : Diagramma di flusso per l approccio della tecnica BRR. Secondo l approccio della linearizzazione, si è reso necessario sviluppare in ambiente SAS due procedure: la prima che predispone variabili necessarie al calcolo degli indicatori; la seconda che consente l applicazione delle linearizzazioni individuate. A seguire queste due procedure, viene applicata la procedura informatica SGCE che stima gli errori campionari degli indicatori suddetti; si veda il diagramma di flusso di figura. Per il secondo approccio, basato sulla tecnica di ricampionamento BRR, sono state sviluppate in ambiente SAS una serie di procedure per l implementazione della tecnica medesima, basandosi anche sulla esperienza maturata in precedenti studi di stimatori complessi (Pauselli, Rinaldelli, 004a-004b). Si veda il diagramma di flusso di figura che descrive le operazioni necessarie alla applicazione della tecnica BRR.

20 548 oretti D., Pauselli C., Rinaldelli C. RIERIENTI BIBLIOGRAICI BERGER Y.G., SKINNER C.J., 003, Variance estimation for a low income proportion, Applied Statistics, 5, part 4, pp BINDER D.A., KOVACEVIC.S., 994, Estimating some measures of income inequality from survey data: An application of the estimating equation approach, Survey ethodology,, pp COCCIA G., PANNUZI N., RINALDELLI C., VIGNANI D., 00, Verso una misura della povertà regionale: problemi e strategie, Sesta Conferenza Nazionale di Statistica, Roma 6-8 Novembre 00, in : DEVILLE J.C., 999, Variance Estimation for complex statistics and estimators: linearization and residual techniques, Survey ethodology, vol. 5 n., pp DE VITIIS C., DI CONSIGLIO L., ALORSI S., PAUSELLI C., RINALDELLI C., 003, La valutazione dell errore di campionamento delle stime di povertà relativa, Documento presentato al Convegno sulla Povertà Regionale ed Esclusione Sociale, Roma 7 Dicembre 003. EUROSTAT, 004a, Technical document on intermediate and final quality reports, Statistics on Income and Living Conditions (EU-SILC), doc. EU-SILC 3/04. EUROSTAT, 004b, Common cross-sectional EU indicators based on EU-SILC; the gender pay gap, Statistics on Income and Living Conditions (EU-SILC), doc. EU-SILC 3/04. ALORSI P.D., ALORSI S., RINALDELLI C., 994, The estimation ethod adopted in the first wave of the Italian European Community Household Panel Survey, Documento interno, ISTAT. ALORSI S., RINALDELLI C., 998, Un software generalizzato per il calcolo delle stime e degli errori di campionamento, Statistica Applicata, 0,, RANCISCO C.A., ULLER W.A., 99, Quantile estimation with complex survey design, Ann. Statist., 9, pp GODABE V.P., THOPSON.E., 986, Parameters of superpopulations and survey population: their relationship and estimation, International Statistical Review, 54, GODABE V.P., KALE B.K., 99, Estimating functions: an overview, in V.P. Godambe (ed.) estimating functions, London: Oxford Statistical Science Series, 7. ISTAT, 00, GENESEES v.0 Software per il calcolo delle stime e degli errori campionari, anuale Utente e Aspetti etodologici. ISTAT, 003, La povertà e l esclusione sociale nelle regioni italiane, Statistiche in Breve, 7 dicembre 003, in: KOVACEVIC.S., BINDER D.A., 997, Variance estimation for measures of income inequality and polarization The estimating equations approach, Journal Official Statistics, Vol. 3 N., pp CCARTHY P.J., 969a, Pseudoreplication: further evaluation and application of the balanced halfsample technique, Vital and Health Statistics, Series n.3, National Center for Health Statistics, Public Health Service, Washington, D.C. CCARTHY P.J., 969b, Pseudoreplication: Half-Samples, Review of the International Statistical Institute, 37, PAUSELLI C., RINALDELLI C., 004a, Stime di povertà relativa: la valutazione dell errore campionario secondo le Replicazioni Bilanciate Ripetute, Statistica Applicata, 6,, 89-0.

21 La stima della varianza campionaria di indicatori complessi di povertà e 549 PAUSELLI C., RINALDELLI C., 004b, La valutazione dell errore di campionamento delle stime di povertà relativa secondo la tecnica Replicazioni Bilanciate Ripetute, Collana ISTAT Contributi, n. 9, in : PRESTON I., 996, Sampling distributions of relative poverty statistics, Applied Statistics, 45, pp RAO N.K., SHAO J., 996, On balanced half-sample variance estimation in stratified random sampling, Journal of American Statistical Association, vol. 9, n.433. REGULATION (EC) No 77/003 of the EUROPEAN PARLIAENT and of the COUNCIL of 6 June 003 concerning Community statistics on income and living conditions (EU-SILC), L 65/ Official Journal of the European Union. RINALDELLI C., CESARINI A., COLOBINI S., ASI A., 00, Indagine sui consumi delle famiglie Calcolo e valutazione dell attendibilità delle stime di frequenze assolute di povertà, Documento interno ISTAT. SÄRNDAL C-E., SWENSSON B., WRETAN J., 99, odel assisted survey sampling, New Yor: Springer-Verlag. SERLING R.J., 980, Approximations theorems of mathematical statistics, New Yor: Wiley ed. WHELESS S.C., SHAH B.V., 988, Results of a simulation for comparing two methods for estimating quantiles and their variances for data from a sample surveys Proceedings of the Survey Research ethods Section, ASA. WOLTER K.., 985, Introduction to variance estimation, New Yor: Springer-Verlag. WOODRU R. S., 95, Confidence intervals for medians and other position measures, J. Am.Statist. Ass., 47, ZANNELLA., 989, Tecniche di stima della varianza campionaria, anuale di tecniche di indagine, Collana ISTAT Note e Relazioni, anno 989, n., vol.5. VARIANCE ESTIATION OR RELATIVE POVERTY EASURES AND INEQUALITY INDICATORS Summary Sampling errors of common estimates (frequencies, means, totals) are calculated in ISTAT using a software procedure based on standard methodology for variance estimation. Nevertheless sampling errors for complex estimates are also required; the standard methodology can not be applied to these estimates. A valid evaluation of the precision of relative poverty estimates (from Households Budget Survey) was one of the methodological aims at ISTAT in the period ; this matter is migrating from the Households Budget survey to the EU-SILC survey (Statistics on Income and Living Conditions). This paper reports the studies to evaluate the sampling errors of a subset of EU complex relative poverty and inequality indicators that will be estimated by EU-SILC survey.

22 550 oretti D., Pauselli C., Rinaldelli C.