LA STIMA DELLA VARIANZA CAMPIONARIA DI INDICATORI COMPLESSI DI POVERTÀ E DISUGUAGLIANZA
|
|
- Fabriciano Santoro
- 6 anni fa
- Visualizzazioni
Transcript
1 Statistica Applicata Vol. 7, n. 4, LA STIA DELLA VARIANZA CAPIONARIA DI INDICATORI COPLESSI DI POVERTÀ E DISUGUAGLIANZA Diego oretti, Claudio Pauselli, Claudia Rinaldelli Servizio Condizioni economiche delle famiglie, ISTAT, via Adolfo Ravà 50, 004 Roma - dimorett@istat.it, pauselli@istat.it, rinaldel@istat.it Riassunto In ISTAT è consuetudine calcolare gli errori di campionamento delle principali stime (frequenze, medie, totali) attraverso una procedura informatica basata sulla metodologia standard di stima della varianza campionaria. Tuttavia è sempre più frequente la produzione di stime complesse da un punto di vista funzionale per le quali non si può applicare direttamente la suddetta metodologia. A questo proposito si ricorda il caso delle misure complesse di povertà relativa stimate dall indagine sui Consumi delle amiglie; la valutazione degli errori campionari di tali stime è stato uno degli obiettivi metodologici affrontati dall ISTAT nel periodo L indagine EU-SILC (Statistics on Income and Living Conditions) propone un problema analogo in quanto tra i parametri da stimare risiede una serie di indicatori complessi di povertà e disuguaglianza che dovranno essere trasmessi ad EUROSTAT con i corrispondenti errori di campionamento. Il presente lavoro ha lo scopo di illustrare gli studi attualmente effettuati per la valutazione dell errore campionario di questi indicatori complessi e le soluzioni metodologiche finora individuate. Parole chiave: errore campionario stima della varianza campionaria equazioni stimanti linearizzazione tecniche di ricampionamento. INTRODUZIONE Lo scopo principale delle indagini campionarie eseguite dall ISTAT è quello di stimare alcuni parametri di popolazioni e subpopolazioni di interesse; le stime costituiscono quindi il prodotto principale delle indagini campionarie. È comunque consuetudine accompagnare la presentazione delle stime di una indagine campionaria con una adeguata documentazione contenente informazioni Il presente lavoro esprime le opinioni degli autori e non riflette necessariamente quelle dell ISTAT.I paragrafi e sono da attribuire a Claudia Rinaldelli, i paragrafi 3, 3., 3., , 5 e l appendice a Claudio Pauselli, l appendice a Diego oretti.
2 530 oretti D., Pauselli C., Rinaldelli C. ed indicatori per: a) mettere a conoscenza l utente delle metodologie utilizzate nella rilevazione e nel processo dei dati; b) valutare le stime fornite ai fini di una loro corretta utilizzazione. Nell ambito del punto b), gli errori di campionamento rivestono una particolare importanza. La loro conoscenza è infatti essenziale per una adeguata utilizzazione delle stime prodotte, tenendo presente che esistono diverse categorie di utenti che si servono degli errori campionari per scopi più o meno approfonditi, dalla valutazione dell attendibilità delle stime fino alla progettazione di nuove indagini (Zannella, 989); per questo, l ISTAT generalmente diffonde le principali stime da indagine campionaria insieme ad indicatori quali l errore relativo di campionamento, l errore assoluto di campionamento, l intervallo di confidenza. A tal fine è stata sviluppata una procedura informatica, basata sulla metodologia standard di stima della varianza campionaria, che è ampiamente utilizzata nelle indagini eseguite dall ISTAT con riferimento alle tipologie di stime più frequentemente prodotte quali frequenze, medie, totali (alorsi, Rinaldelli, 998). Tuttavia nel tempo si sta spostando sempre più l attenzione verso la produzione di stime complesse da un punto di vista funzionale per le quali non può essere direttamente applicata la metodologia standard di calcolo degli errori di campionamento. A titolo di esempio, si ricorda il caso delle misure complesse di povertà relativa stimate dall indagine sui Consumi delle amiglie; l impegno assunto dall ISTAT con il inistero dell Economia e delle inanze per la fornitura di stime di povertà relativa a livello regionale, ha obbligato l ISTAT a fronteggiare problemi di natura metodologica piuttosto complessi, tra i quali proprio quello di stimare in maniera adeguata gli errori campionari delle suddette stime complesse (ISTAT, 003). La valutazione degli errori campionari delle misure di povertà relativa è stato uno dei più importanti obiettivi metodologici affrontati dall ISTAT nel periodo (Coccia et al., 00; De Vitiis et al., 003; Pauselli, Rinaldelli, 004a - 004b). Il problema della valutazione degli errori campionari di stime complesse, per le quali non è possibile applicare la metodologia standard, si presenta nuovamente nell ambito dell indagine EU-SILC (Statistics on Income and Living Conditions). Per metodologia standard si intende metodologia notoriamente diffusa e applicata. La letteratura sulla teoria del campionamento da popolazioni finite, fornisce, per i più importanti disegni di campionamento, le formule per il calcolo della varianza degli stimatori frequentemente utilizzati nelle indagini; nel caso di stimatori lineari, vengono fornite le espressioni esatte, mentre per stimatori non lineari, ma di uso frequente, vengono messe a disposizione le espressioni approssimate.
3 La stima della varianza campionaria di indicatori complessi di povertà e 53 L indagine EU-SILC, che verrà eseguita per Regolamento Comunitario dai Paesi embri, ha come scopo principale la stima di statistiche su reddito, condizioni di vita, povertà ed esclusione sociale (EC Regulation, 003). Tra queste statistiche risiedono indicatori di povertà e disuguaglianza, complessi da un punto di vista funzionale, che devono essere trasmessi ad EUROSTAT con i corrispondenti errori di campionamento (EUROSTAT, 004a). Per risolvere il problema del tipo qui esposto, la letteratura propone due possibili approcci (Wolter, 985; Zannella, 989; Särndal et al., 99): a) ricavare, dove possibile, una espressione approssimata dell indicatore complesso attraverso metodi di linearizzazione; b) applicare le tecniche di ricampionamento. Nel presente lavoro sono state applicate entrambe le metodologie citate in a)- b); infatti, gli errori campionari degli indicatori complessi qui trattati sono stati stimati sia ricavando una espressione linearizzata degli indicatori medesimi 3 sia utilizzando la tecnica di ricampionamento BRR (Balanced Repeated Replication, Replicazioni Bilanciate Ripetute). Il presente lavoro ha quindi lo scopo di illustrare gli studi e le applicazioni effettuati per la valutazione dell errore campionario di questi indicatori complessi; in particolare, nel paragrafo sono descritti gli indicatori complessi di povertà e disuguaglianza qui trattati; i paragrafi 3. e 3. sintetizzano rispettivamente la metodologia delle equazioni stimanti e il metodo di Taylor-Woodruff utilizzati per ricavare le espressioni linearizzate degli indicatori complessi che sono poi riportate nei paragrafi ; nel paragrafo 5, sono messi a confronto gli errori campionari degli indicatori complessi ottenuti secondo le due metodologie sopra dette; l appendice descrive la tecnica BRR utilizzata come approccio alternativo alla linearizzazione; infine, l appendice descrive l implementazione informatica che si è resa necessaria rispettivamente per: a) calcolare le espressioni linearizzate degli indicatori complessi; b) consentire l applicazione della tecnica BRR.. GLI INDICATORI EU DI POVERTÀ E DISUGUAGLIANZA DELL INDAGINE EU-SILC Riportiamo di seguito quattro degli indicatori EU di povertà e disuguaglianza per i quali EUROSTAT richiede di fornire il valore degli errori di campionamento 3 Una volta ottenute le espressioni linearizzate degli indicatori complessi, queste sono state usate nella procedura informatica dell ISTAT per stimare gli errori campionari degli indicatori medesimi.
4 53 oretti D., Pauselli C., Rinaldelli C. (EUROSTAT, 004a-004b); questi indicatori sono stati oggetto dello studio illustrato nel presente lavoro: ) linea di povertà relativa (at Ris-of-Poverty Threshold), definita come il 60% del valore mediano della distribuzione del reddito 4 : RPT=60%*ediana red ; () ) incidenza di povertà relativa (at Ris-of-Poverty Rate), definita come la percentuale di individui (sul totale della popolazione) con reddito inferiore alla linea di povertà relativa: RPR = Iw s ε w s ε *00 () dove denota l indice di individuo, s il campione rilevato, w il coefficiente di riporto all universo dell individuo, I variabile indicatrice così definita: I se y < RPT = 0 altrimenti (3) dove y denota il valore della variabile reddito dell individuo; 3) indice di disuguaglianza della distribuzione del reddito, il coefficiente di Gini (inequality income distribution), secondo la formulazione proposta da EUROSTAT per l indagine EU-SILC (EUROSTAT, 004b): ultima pers. pers. * y * w * w = prima pers. prima pers. = G = 00 * ultima pers. ultima pers. w * y * w = prima pers. = prima pers. ultima pers. prima pers. y * w (4) dove è l indice dell unità, y il valore della variabile reddito per la persona, w il coefficiente di riporto all universo della persona ; per l applicazione della (4) i valori y devono essere ordinati dal più piccolo al più grande; 4 Col termine reddito si intende reddito disponibile equivalente ; per l esatta definizione delle variabili richiamate in questo paragrafo si veda EUROSTAT, 004b.
5 La stima della varianza campionaria di indicatori complessi di povertà e 533 4) il Gender Pay Gap (indice di disuguaglianza della retribuzione media oraria lorda tra maschi e femmine): GPG = ε ε yw w ε ε ε yw w ε yw w *00 (5) dove denota l indice di individuo, l insieme degli individui campione di sesso maschile lavoratori dipendenti con età compresa tra 6 e 64 anni con almeno x 5 ore di lavoro settimanali, l insieme degli individui campione di sesso femminile lavoratori dipendenti con età compresa tra 6 e 64 anni con almeno x ore di lavoro settimanali, y il valore della variabile retribuzione oraria lorda dell individuo, w il coefficiente di riporto all universo dell individuo. 3. LINEARIZZAZIONE: ETODI Gli indicatori (), (), (4) e (5) sono linearizzabili, i primi tre tramite il metodo delle equazioni stimanti (descritto sinteticamente nel paragrafo 3.) e il quarto con il metodo di Taylor Woodruff (descritto nel paragrafo 3.). Il metodo delle equazioni stimanti permette di ottenere linearizzazioni di espressioni complesse quali quelle in uso nello studio della distribuzione dei redditi e più generalmente nello studio della disuguaglianza sociale. Per maggior chiarezza si introducono le notazioni che ricorreranno in seguito. Sia U = {,,, N} una popolazione finita di N elementi; sia i l indice che distingue il generico elemento della popolazione; sia s U un campione casuale di n elementi, ad ogni elemento i del campione è associato il coefficiente di riporto all universo w i (s). 3. IL ETODO DELLE EQUAZIONI STIANTI Nel descrivere il metodo si farà riferimento a quanto esposto in Kovacevic e Binder (997); per maggiori approfondimenti sull argomento si segnalano Binder e Kovacevic (994), Godambe e Thompson (986). 5 L attuale valore di 5 ore settimanali è suscettibile di modifiche da parte di EUROSTAT.
6 534 oretti D., Pauselli C., Rinaldelli C. La stima del parametro θ di una popolazione infinita si può ottenere risolvendo l equazione di massima verosimiglianza U( θ)= = 0 dove f(y;θ) log f(y i; θ) θ è la funzione di densità differenziabile. Nelle popolazioni finite il parametro θ può anche essere descritto come la soluzione dell equazione: N U( θ)= u( y i; θ)= 0 (6) i= che prende il nome di equazione stimante. La stima corretta dell equazione stimante secondo Horwitz-Thompson da un campione casuale s è: N Û( θ)= u( y i ; θ) wi () s (7) i= dove w i (s) =/π i (π i è la probabilità di inclusione dell unità i) se i è presente nel campione s, 0 altrimenti. La stima del parametro θ N è ˆθ ; soluzione dell equazione stimante Û( θ)= 0. u(y i ; θ) prende il nome di funzione stimante ed è Gauss coerente (Godambe, Kale; 99); ovvero noti tutti i valori della popolazione finita le stime del parametro sono uguali al valore del parametro. L equazione stimante è il punto di partenza per la stima della varianza di ˆθ. La (6) può essere riscritta come: N 0= U( θ)= u(y i; θˆ )-u(y i; θn) + u(y i; θn) w + i() s u(y i; ˆθ )-u(y i; θ N) wi( s) (8) i= N i= i= Sia R L ultimo termine della (8); esso è di ordine o( ˆθ θn ), diventa pertanto trascurabile per ˆθ θ N ; sviluppando u(y; ˆθ ) intorno a θ N tramite la forma di Young del teorema di Taylor (Serfling, 980) la (8) può essere riscritta come: 0 U ˆ ˆ N uy; i ˆ - N + o ˆ N θ θ θ θ θ θn ) + u(y i; θ N)w i(s) + R (9) θ θ θ = ( )= ( ) ( ) i= = N ( Trascurando il termine R la differenza ˆθ θn può essere approssimata come: N i=
7 La stima della varianza campionaria di indicatori complessi di povertà e 535 ( )= ( ) * dove u y ; θ J u y ; θ i N θ i e J θ N uy; i θ = ( ) θ. i= θ= θn Pertanto var ˆ var ˆ * ( θ)= ( θ θn)= var wiu ( y i; θn). s Poiché θ N è sconosciuto lo si stima con ˆθ (sua stima campionaria), in questo i () ( i )= s * caso: w s u y ; θˆ 0. In molti casi, soprattutto per le stime non lineari, il parametro θ è multidimensionale ed è partizionabile in due componenti: la prima θ N che è il parametro di interesse (ad esempio il rapporto tra due totali) e la seconda λ N i parametri di disturbo (ad esempio i due totali da mettere a rapporto). In questo caso la forma funzionale cambia leggermente e la (6) diventa: ( )= ( ) ( ) U θλ ; U θλ,,u θλ,. Le stime dei parametri devono essere la soluzione all equazione: ( ) ( ) Uˆ, 0 = θλ ˆ ˆ ˆ ˆ, ˆ U θλ (0). Analogamente a quanto fatto nel caso unidimensionale si può arrivare ad una linearizzazione dell espressione complessa (per i dettagli si veda Kovacevic e Binder, 977): ( ) ( ) ( N N) ˆθ θn J θ + J θjλ J λ J θjθjλ J θj θ U θn, λn J θjλ J λ J θj ˆ ( )+ θjλ U θ ; λ dove J J J θ λ θ U θλ ; θ = ( ) θ= θn; λ= λn U θλ ; λ = ( ) θ= θn; λ= λn U θλ ; θ = ( ) θ= θn; λ= λn, matrice di ordine x, matrice di ordine x, matrice di ordine x ˆ ()
8 536 oretti D., Pauselli C., Rinaldelli C. U θλ ; Jλ, matrice di ordine x, λ θ= θn; λ= λn dove sono i parametri di disturbo. In molte applicazioni U ( θλ ; ) non dipende da θ quindi J θ =0. Inoltre se le derivate prime di u (y,θ,λ) e u (y,θ,λ) rispetto a θ sono indipendenti da λ la () può esser:e scritta in modo semplificato come: = ( ) θˆ θ U ˆ θ, λ J J U ˆ θˆ ; λ J ( )+ ( ) N λ λ N N N N N θ = wi() s u( y i; θn; λn)+ J J u( y i; θn; λn) i= N * = wi () s u ( y i; N; N) i= θ λ. λ λ J θ () La u * è la variabile linearizzata ricercata. La stima della varianza del totale di questa variabile approssimerà la varianza della stima ˆθ. 3. IL ETODO DI TAYLOR WOODRU Per stimare la varianza di una funzione non lineare di più totali si utilizza l approssimazione lineare di Taylor Woodruff. Sia θ=(y,...,y q ) un parametro funzione non lineare di q totali e sia ˆ Y,...,Y ˆ ˆ q la relativa stima campionaria. Si può dimostrare che in condizioni abbastanza generali (Zannella, 989) che si può approssimare ˆθ θ con la formula di Taylor, arrestando lo sviluppo ai termini di ordine lineare: θ= ( ) q ( ) θˆ θ b ˆ j Yj Yj j = (3) b j =, Y Y Y j = ˆ j. j ( ) Elevando al quadrato entrambi i membri della (3) e calcolando i loro valori attesi si ottiene
9 La stima della varianza campionaria di indicatori complessi di povertà e 537 q q ( ) ( ) j i ( j i j = i= SE ˆ θ ˆ Var θ ˆ b b Cov ˆ Y ˆ,Y ˆ ) (4). Ovvero si può esprimere la varianza dell espressione complessa di q totali come combinazione lineare di q covarianze delle stime dei totali (sej=i si tratterà delle varianze). Il numero di stime di varianze e covarianze per ottenere la (4) aumenta in proporzione quadratica con il crescere del numero dei totali. Per semplificare i calcoli, è possibile ricorrere alla trasformata di Woodruff (Zannella, 989), in questo caso la varianza di ˆθ è approssimata dalla varianza della stima del totale: q Z= b j Y ˆ j j = (5). La (5) si ottiene dalla somma ponderata con i coefficienti di riporto all universo della variabile Z i q = bjyji (Y ji è il valore che assume la variabile Y j j = nell unità i), questo permette di ridurre la dimensionalità del problema in quanto con questa trasformazione è necessario al contrario di quanto accadeva con la (4) soltanto calcolare la stima della varianza di un solo totale. 4. LA LINEARIZZAZIONE DEGLI INDICATORI EU 4. INCIDENZA DI POVERTÀ RELATIVA (RPR) La stima della varianza dell incidenza di povertà relativa descritta nel paragrafo, può essere linearizzata come mostrato da Berger e Sinner (003) e Deville (999). Sia la linea di povertà relativa una frazione di un quantile della variabile Y (α = frazione, β = quantile): αy β. Sia p αβ la proporzione di unità della popolazione sotto tale linea di povertà. Un primo tipo di approssimazione (più semplice) è la seguente: dove Iy altrimenti. u N Iy Y p i = ( i α β ) αβ (6) αy β è una funzione indicatrice che assume valore se y α i Yβ 0 ( i )
10 538 oretti D., Pauselli C., Rinaldelli C. La (6) non tiene conto della variabilità della linea; ovvero si considera lo stato di povertà come un attributo la cui presenza è funzione di una linea determinata in maniera esterna ai dati rilevati. In realtà la linea è funzione dei dati campionari ed è perciò essa stessa soggetta a variabilità campionaria. La logica dietro questo approccio è che per campioni di grandi dimensioni, cosa questa verificata in indagini condotte dall ISTAT, la variabilità della linea è talmente ridotta da rendere trascurabile l errore che si commette considerandola fissa. A tale conclusione si era anche arrivati nei lavori relativi alla povertà regionale stimata dell indagine ISTAT sui consumi delle famiglie (De Vitiis et al., 003; Rinaldelli et al., 00; Rinaldelli, Pauselli, 004a-004b). Per tener conto della variabilità della linea si può ricorrere al metodo delle equazioni stimanti ottenendo la variabile linearizzata (Deville, 999): u ( ) = N Iy ( α Y ) p α R I { y Y } β i i β αβ αβ i β (7) R f αy ( ) β αβ = f Y (8) ( β ) dove f(x) rappresenta la densità della distribuzione nel punto x. La stima della densità di una distribuzione stimata da un campione da popolazione finita è un problema al quale la letteratura ha fornito diverse soluzioni: Deville (999) suggerisce l utilizzo di differenziazione numerica di semplice implementazione, rancisco e uller (99) utilizzano la procedura di Woodruff (95) per funzioni di quantili stimati. In questo lavoro si farà riferimento al metodo di Preston (996) descritto qui di seguito: ˆ f( y)= Nbˆ i s wk y-y i i bˆ (9) dove: - K x ) ( )=( exp( x / ) e b= 079. (ˆ Y 075 Y ˆ 05 ) N 5 (0).. e Sostituendo nelle espressioni (8) e (9) le loro stime campionarie si ottiene: u i i i ( ) = Iy ( αy ) p R Iy ( ) β αβ α αβ β β N ˆ ˆ Y ˆ
11 La stima della varianza campionaria di indicatori complessi di povertà e 539 R ˆ αβ f ( α Ŷ ) β = f ( Ŷ. β ) 4. COEICIENTE DI GINI La linearizzazione da utilizzare per la stima della varianza del coefficiente di Gini è (Kovacevic, Binder; 997): u * i ( ) N Ay ˆ y ˆ y µ ˆ G i i +B ˆ i µ ˆ = ( ) ( ) + dove A(y) ˆ = (y) ˆ (G ˆ + )/ e ˆB(y) = wiyii yi y /N. ( ) s ( ) ˆ G = w ˆ i i yi N ˆ (stima campionaria dell indice di Gini) µ s ˆi = wii( yj y i) /N e ˆµ è la stima campionaria della media del carattere Y. Per maggiori dettagli sull applicazione del metodo delle equazioni stimanti in questo caso si veda Kovacevic, Binder, LINEA DI POVERTÀ RELATIVA (RPT) Per la stima dell errore della linea di povertà relativa descritto dalla () si farà riferimento alla approssimazione lineare utilizzata nella stima dell errore di campionamento di un quantile riportato in letteratura (Kovacevic, Binder, 997; Wheeles, Shah, 988; Sarndal et al., 99). Sia ζ p un quantile p della variabile Y (ovvero I(y i ξ p )/N = p ); sia ˆζ p la sua stima campionaria (ovvero Iyi ˆξ p w/n i p ). L equazione stimante del quantile ξ p è: i s ( ) = I(y ξ )/N-p = 0. i p i U Applicando il metodo delle equazioni stimanti, descritto nel paragrafo 3., la linearizzata che si ottiene è la seguente: u i = Nfˆ ζˆ ( p ) p-i y ( i ζˆ p) i U
12 540 oretti D., Pauselli C., Rinaldelli C. fˆ ζˆ ( p ) è la stima della densità della funzione di distribuzione del carattere nel punto ˆζ p. La funzione di densità è stimata con la (0). La stima dell errore relativo di campionamento 6 della linea di povertà relativa è uguale a quella dell errore di campionamento relativo della mediana. Per ottenere l errore di campionamento assoluto della linea di povertà sarà sufficiente moltiplicare l errore di campionamento relativo della mediana per la stima della linea di povertà. 4.4 GENDER PAY GAP (GPG) L espressione (5) può essere più agevolmente espressa facendo queste sostituzioni: Y = yw, Y y w =, P w =, P w =. Poniamo inoltre ε ε Y Y = P, Y Y = P, dove: Y :è la retribuzione media oraria della popolazione maschile, con età tra i 6 e i 64 anni, lavoratore dipendente; Y : è la retribuzione media oraria della popolazione femminile, con età tra i 6 e i 64 anni, lavoratore dipendente; Y : è il totale della retribuzione oraria della popolazione maschile, con età tra i 6 e i 64 anni, lavoratore dipendente; Y : è il totale della retribuzione oraria della popolazione femminile, con età tra i 6 e i 64 anni, lavoratore dipendente; P : è il totale della popolazione maschile lavoratore dipendente, con età tra i 6 e i 64 anni, lavoratore dipendente; P : è il totale della popolazione femminile lavoratore dipendente, con età tra i 6 e i 64 anni, lavoratore dipendente; Y Il GPG può essere riscritto come θ= ; la stima campionaria del GPG è: Y ε ε 6 Si ricorda che l errore relativo è lo scarto quadratico medio dello stimatore sul valore atteso dello stimatore. Una sua stima consistente si ottiene utilizzando la stima campionaria dell errore di campionamento assoluto e la stima campionaria utilizzata.
13 La stima della varianza campionaria di indicatori complessi di povertà e 54 La varianza di tale stima è: ˆ ˆ Y θ=. ˆ Y ˆ Var ˆ Y ˆ ( θ)= Var Var ˆ ˆ = Y Y Y Pˆ Pˆ. Per la stima della varianza è necessario linearizzare il rapporto di quattro totali YP ˆ ˆ ( Y ˆ,Y ˆ,P ˆ,P ˆ )= facendo ricordo alla approssimazione lineare di Taylor YP ˆ ˆ Woodruff. Seguendo pertanto quanto descritto in Zannella (989), la variabile linearizzata è: z = b y + b y + b d + b d dove: i i i 3 i 4 i b = Y P = YP ; b = Y Y P = Y P ; b 3 = P Y = YP ; b 4 = P Y P = Y P ; d i = se i-esima unità campionaria è lavoratore dipendente con età compresa tra i 6 e i 64 anni e di sesso maschile, 0 altrimenti; d i = se i-esima unità campionaria è lavoratore dipendente con età compresa tra i 6 e i 64 anni e di sesso femminile, 0 altrimenti; y i = retribuzione oraria se i-esima unità campionaria è lavoratore dipendente con età compresa tra i 6 e i 64 anni e di sesso maschile, 0 altrimenti; y i = retribuzione oraria se i-esima unità campionaria è lavoratore dipendente con età compresa tra i 6 e i 64 anni e di sesso femminile, 0 altrimenti. 5. APPLICAZIONE E RISULTATI È stato stimato l errore di campionamento con le variabili linearizzate illustrate nel paragrafo 4 e con la tecnica di ricampionamento BRR. Poiché i dati dell indagine EU-SILC non saranno disponibili prima del 005, si è reso necessario sperimentare le linearizzazioni su dati il più possibile simili, per variabili e disegno
14 54 oretti D., Pauselli C., Rinaldelli C. di campionamento, a quelli che saranno rilevati nella futura indagine EU-SILC. A tale scopo sono stati utilizzati i dati del Panel Europeo delle amiglie (ECHP), indagine europea armonizzata su reddito e condizioni di vita delle famiglie, articolata su otto onde annuali e basata su disegno a due stadi di selezione con stratificazione delle unità primarie (comuni) (alorsi et al., 994). In particolare sono stati utilizzati i dati dell anno 994 (file delle interviste individuali del 994); la variabile considerata è il reddito equivalente calcolato come rapporto tra il reddito familiare e l ampiezza delle famiglie corretta secondo la scala OECD modificata. Gli errori di campionamento delle variabili linearizzate sono stati stimati tramite la procedura generalizzata dell ISTAT (alorsi S., Rinaldelli, 998) mentre la tecnica BRR è stata adattata per l applicazione ad un disegno campionario a più stadi come descritto nell appendice. L adattamento della tecnica BRR ad un disegno a due stadi implica una variabilità delle stime dell errore ottenute tra un iterazione e l altra ed una conseguente perdita di precisione. Per questo motivo, per ogni indicatore sono state calcolate circa cinquanta stime dell errore di campionamento relativo e se ne è poi considerata la media; questo accorgimento ha l effetto di aumentare la precisione della stima come descritto in Rao e Shao (996). I risultati dell applicazione con i due differenti metodi sono illustrati nella tabella che evidenzia una sostanziale coincidenza delle stime ottenute. Tab. : Errore campionario relativo degli indicatori EU per metodo utilizzato (dati percentuali). Indicatore Errore Campionario Relativo (%) Linearizzazione BRR Linea di povertà relativa,7%,73% Incidenza di povertà relativa 3,55% 3,53% Coefficiente di Gini,7%,60% Gender Pay Gap 30,5% 3,6% La valutazione della precisione delle stime campionarie richiesta dal Regolamento Comunitario può essere soddisfatta utilizzando le variabili linearizzate in quanto questa soluzione presenta una maggiore semplicità computazionale rispetto alla tecnica BRR, con valutazioni delle stime sostanzialmente uguali. Ovviamente i risultati ottenuti hanno valore solo come applicazione sperimentale delle metodologie qui utilizzate.
15 La stima della varianza campionaria di indicatori complessi di povertà e 543 APPENDICE. LA TECNICA DI RICAPIONAENTO BRR La tecnica BRR è stata ideata nei primi anni 60 dal Bureau of Census; si descriverà la tecnica nel caso base di un disegno campionario ad uno stadio stratificato per passare poi al caso generale di più stadi (Zannella, 989). Supponiamo che la popolazione sia suddivisa in H strati e che da ogni strato siano estratte = unità campionarie. Con la selezione casuale di una unità per strato si ottiene un sottocampione chiamato replicazione di ampiezza pari alla metà del campione originale. Sia a h un coefficiente che assume valore + se la prima unità del generico strato h appartiene alla replicazione, o se invece è la seconda unità dello strato a farne parte; allora l insieme delle possibili replicazioni potrà essere descritto da una matrice di dimensione H x H. Ogni cella di questa matrice assumerà valore + o. In questa matrice valgono le seguenti relazioni (Zannella, 989): H = 0 (h =...H) a rh r= (a.) H a a r= rh r = 0 (h=...h) (a.) La (a.) implica che le due unità campionarie sono presenti un uguale numero di volte nell insieme di tutte le replicazioni possibili; la (a.) che le colonne della matrice sono tra loro ortogonali. Sia ˆθ la stima lineare del parametro di interesse calcolata sul campione totale e sia ˆθr la corrispondente stima calcolata sulla r-esima replicazione; si dimostra che (Zannella, 989): θˆ = H θˆ (a.3) H r r= Var ( H θˆ)= ( θˆ- θˆ r ) H r = (a.4) In caso di stimatori non lineari la (a.3) non è valida e la (a.4) è una stima della varianza.
16 544 oretti D., Pauselli C., Rinaldelli C. Appare evidente che il metodo applicato per tutte le possibili replicazioni diventa estremamente oneroso anche con un H piccolo (per H=30 si hanno poco più di un miliardo di replicazioni). Si rende necessario pertanto determinare un R << H ; la scelta casuale delle replicazioni implicherebbe una stima della varianza campionaria più elevata di quella ottenuta sull insieme di tutte le replicazioni. La soluzione a questo problema è stata fornita da ccarthy (ccarthy, 969a-969b) con l introduzione delle replicazioni bilanciate ripetute (BRR). Un sottoinsieme di R replicazioni è bilanciato se vale: Se inoltre vale: R a a = 0 (h=...h, h) (a.5) r = rh r R a rh r = = 0 (h=...h) (a.6) si dice completamente bilanciato. La stima della varianza basata su R replicazioni bilanciate ripetute produce la stessa stima basata su tutte le H replicazioni. Per costruire un sottoinsieme di replicazioni bilanciate si possono utilizzare le matrici di Hadamard. Le matrici di Hadamard sono delle particolari matrici di descrizione delle replicazioni di ordine quadrato. Ogni sottoinsieme di < colonne (con esclusione della colonna composta da tutti +) della matrice soddisfa le condizioni (a.5) e (a.6) ed è quindi completamente bilanciato; l insieme di tutte le colonne soddisfa solo la condizione (a.5) ed è quindi bilanciato (Zannella, 989). La matrice di Hadamard di ordine è: Sia una matrice di Hadamard di ordine ; la procedura iterativa per la costruzione di una matrice di ordine è (Wolter, 985): Da quanto detto precedentemente solo se la matrice di Hadamard generata è
17 La stima della varianza campionaria di indicatori complessi di povertà e 545 maggiore del numero degli strati H, l utilizzo di un suo sottoinsieme di H colonne garantisce il bilanciamento delle replicazioni. Oltre alla stima della varianza espressa da: ( )= ( ) Var ˆ R ˆ θ θ θˆr R r = (a.7) è possibile calcolare la stima alternativa: ( )= ( ) R Var θ ˆ θ θ ˆ c ˆr R r= (a.8) dove ˆθ r c è la stima del parametro calcolata sulla parte complementare del campione alla r-esima replicazione (ovvero quella che si otterrebbe moltiplicando per i coefficienti della matrice di descrizione delle replicazioni). La media tra (a.7) e (a.8) fornisce una stima più precisa della varianza campionaria. Le indagini campionarie sulle famiglie eseguite dall ISTAT sono generalmente a due stadi di selezione con stratificazione delle unità di primo stadio (comuni); è pertanto necessario l adattamento della tecnica BRR. L adattamento ad un disegno complesso si svolge in quattro passi (Wolter, 985; Zannella, 989): ) si considerano solo le unità di primo stadio (PSU), solo queste saranno incluse nella replicazione; ) nel caso in cui fosse presente una sola PSU per strato, si aggrega ad uno strato contiguo; tale operazione, nota come collassamento, implica una sovrastima della varianza; 3) nel caso in cui le PSU fossero più di due, si formano in modo casuale due pseudo- PSU in cui sono contenute le PSU dello strato; 4) negli strati autorappresentativi le famiglie campione sono considerate PSU e sono suddivise in due pseudo-psu secondo quanto descritto nel passo 3. Una volta formate le pseudo-psu e calcolato il numero di strati risultanti, si applica la tecnica BRR.
18 546 oretti D., Pauselli C., Rinaldelli C. APPENDICE. IPLEENTAZIONE INORATICA Come descritto nel paragrafo, è consuetudine dell ISTAT fornire indicazioni riguardanti la precisione delle principali stime (frequenze, medie, totali) prodotte dalle indagini campionarie. A tal fine è possibile utilizzare o la procedura informatica SGCE (Procedura di tipo generalizzato per il calcolo degli errori di campionamento) (alorsi, Rinaldelli, 998) o il software GENESEES (Software per il calcolo delle stime e degli errori campionari) (ISTAT, 00). Entrambe le procedure informatiche citate implementano la metodologia standard di stima della varianza campionaria e sono state sviluppate in ambiente SAS a seguito degli studi e delle attività di alcuni ricercatori del Servizio Studi etodologici dell ISTAT negli anni 80. La procedura SGCE risale agli anni 90 ed è il prototipo del software GENESEES disponibile dalla fine del 00. Tuttavia gli indicatori EU di povertà e di disuguaglianza considerati non possono essere direttamente trattati da queste due procedure informatiche che non prevedono attualmente l applicazione automatizzata di espressioni approssimate di indicatori complessi. Come descritto nei precedenti paragrafi, per gli indicatori considerati è stato calcolato l errore di campionamento sia ricorrendo alla linearizzazione sia implementando la tecnica di ricampionamento BRR (Pauselli, Rinaldelli, 004a-004b). Preparazione Input SGCE Preparazione di variabili necessarie al calcolo degli indicatori Linearizzazione Procedura SGCE ig.: Diagramma di flusso per l approccio della linearizzazione.
19 La stima della varianza campionaria di indicatori complessi di povertà e 547 Preparazione Input Collassamento degli strati Costruzione delle pseudo-psu Calcolo delle stime per ogni replicazione, utilizzando matrice di Hadamard Calcolo dell errore campionario dell indicatore complesso ig. : Diagramma di flusso per l approccio della tecnica BRR. Secondo l approccio della linearizzazione, si è reso necessario sviluppare in ambiente SAS due procedure: la prima che predispone variabili necessarie al calcolo degli indicatori; la seconda che consente l applicazione delle linearizzazioni individuate. A seguire queste due procedure, viene applicata la procedura informatica SGCE che stima gli errori campionari degli indicatori suddetti; si veda il diagramma di flusso di figura. Per il secondo approccio, basato sulla tecnica di ricampionamento BRR, sono state sviluppate in ambiente SAS una serie di procedure per l implementazione della tecnica medesima, basandosi anche sulla esperienza maturata in precedenti studi di stimatori complessi (Pauselli, Rinaldelli, 004a-004b). Si veda il diagramma di flusso di figura che descrive le operazioni necessarie alla applicazione della tecnica BRR.
20 548 oretti D., Pauselli C., Rinaldelli C. RIERIENTI BIBLIOGRAICI BERGER Y.G., SKINNER C.J., 003, Variance estimation for a low income proportion, Applied Statistics, 5, part 4, pp BINDER D.A., KOVACEVIC.S., 994, Estimating some measures of income inequality from survey data: An application of the estimating equation approach, Survey ethodology,, pp COCCIA G., PANNUZI N., RINALDELLI C., VIGNANI D., 00, Verso una misura della povertà regionale: problemi e strategie, Sesta Conferenza Nazionale di Statistica, Roma 6-8 Novembre 00, in : DEVILLE J.C., 999, Variance Estimation for complex statistics and estimators: linearization and residual techniques, Survey ethodology, vol. 5 n., pp DE VITIIS C., DI CONSIGLIO L., ALORSI S., PAUSELLI C., RINALDELLI C., 003, La valutazione dell errore di campionamento delle stime di povertà relativa, Documento presentato al Convegno sulla Povertà Regionale ed Esclusione Sociale, Roma 7 Dicembre 003. EUROSTAT, 004a, Technical document on intermediate and final quality reports, Statistics on Income and Living Conditions (EU-SILC), doc. EU-SILC 3/04. EUROSTAT, 004b, Common cross-sectional EU indicators based on EU-SILC; the gender pay gap, Statistics on Income and Living Conditions (EU-SILC), doc. EU-SILC 3/04. ALORSI P.D., ALORSI S., RINALDELLI C., 994, The estimation ethod adopted in the first wave of the Italian European Community Household Panel Survey, Documento interno, ISTAT. ALORSI S., RINALDELLI C., 998, Un software generalizzato per il calcolo delle stime e degli errori di campionamento, Statistica Applicata, 0,, RANCISCO C.A., ULLER W.A., 99, Quantile estimation with complex survey design, Ann. Statist., 9, pp GODABE V.P., THOPSON.E., 986, Parameters of superpopulations and survey population: their relationship and estimation, International Statistical Review, 54, GODABE V.P., KALE B.K., 99, Estimating functions: an overview, in V.P. Godambe (ed.) estimating functions, London: Oxford Statistical Science Series, 7. ISTAT, 00, GENESEES v.0 Software per il calcolo delle stime e degli errori campionari, anuale Utente e Aspetti etodologici. ISTAT, 003, La povertà e l esclusione sociale nelle regioni italiane, Statistiche in Breve, 7 dicembre 003, in: KOVACEVIC.S., BINDER D.A., 997, Variance estimation for measures of income inequality and polarization The estimating equations approach, Journal Official Statistics, Vol. 3 N., pp CCARTHY P.J., 969a, Pseudoreplication: further evaluation and application of the balanced halfsample technique, Vital and Health Statistics, Series n.3, National Center for Health Statistics, Public Health Service, Washington, D.C. CCARTHY P.J., 969b, Pseudoreplication: Half-Samples, Review of the International Statistical Institute, 37, PAUSELLI C., RINALDELLI C., 004a, Stime di povertà relativa: la valutazione dell errore campionario secondo le Replicazioni Bilanciate Ripetute, Statistica Applicata, 6,, 89-0.
21 La stima della varianza campionaria di indicatori complessi di povertà e 549 PAUSELLI C., RINALDELLI C., 004b, La valutazione dell errore di campionamento delle stime di povertà relativa secondo la tecnica Replicazioni Bilanciate Ripetute, Collana ISTAT Contributi, n. 9, in : PRESTON I., 996, Sampling distributions of relative poverty statistics, Applied Statistics, 45, pp RAO N.K., SHAO J., 996, On balanced half-sample variance estimation in stratified random sampling, Journal of American Statistical Association, vol. 9, n.433. REGULATION (EC) No 77/003 of the EUROPEAN PARLIAENT and of the COUNCIL of 6 June 003 concerning Community statistics on income and living conditions (EU-SILC), L 65/ Official Journal of the European Union. RINALDELLI C., CESARINI A., COLOBINI S., ASI A., 00, Indagine sui consumi delle famiglie Calcolo e valutazione dell attendibilità delle stime di frequenze assolute di povertà, Documento interno ISTAT. SÄRNDAL C-E., SWENSSON B., WRETAN J., 99, odel assisted survey sampling, New Yor: Springer-Verlag. SERLING R.J., 980, Approximations theorems of mathematical statistics, New Yor: Wiley ed. WHELESS S.C., SHAH B.V., 988, Results of a simulation for comparing two methods for estimating quantiles and their variances for data from a sample surveys Proceedings of the Survey Research ethods Section, ASA. WOLTER K.., 985, Introduction to variance estimation, New Yor: Springer-Verlag. WOODRU R. S., 95, Confidence intervals for medians and other position measures, J. Am.Statist. Ass., 47, ZANNELLA., 989, Tecniche di stima della varianza campionaria, anuale di tecniche di indagine, Collana ISTAT Note e Relazioni, anno 989, n., vol.5. VARIANCE ESTIATION OR RELATIVE POVERTY EASURES AND INEQUALITY INDICATORS Summary Sampling errors of common estimates (frequencies, means, totals) are calculated in ISTAT using a software procedure based on standard methodology for variance estimation. Nevertheless sampling errors for complex estimates are also required; the standard methodology can not be applied to these estimates. A valid evaluation of the precision of relative poverty estimates (from Households Budget Survey) was one of the methodological aims at ISTAT in the period ; this matter is migrating from the Households Budget survey to the EU-SILC survey (Statistics on Income and Living Conditions). This paper reports the studies to evaluate the sampling errors of a subset of EU complex relative poverty and inequality indicators that will be estimated by EU-SILC survey.
22 550 oretti D., Pauselli C., Rinaldelli C.
IL RELATIVE POVERTY GAP E IL QUINTILE SHARE RATIO : LA STIMA DELL ERRORE DI CAMPIONAMENTO SECONDO LE REPLICAZIONI BILANCIATE RIPETUTE
Statistica Applicata Vol. 17, n. 2, 2005 179 IL RELATIVE POVERTY GAP E IL QUINTILE SHARE RATIO : LA STIMA DELL ERRORE DI CAMPIONAMENTO SECONDO LE REPLICAZIONI BILANCIATE RIPETUTE Diego Moretti, Claudio
DettagliIndagine sulle forze di lavoro nel Comune di Firenze. Nota metodologica
Indagine sulle forze di lavoro nel Comune di Firenze. Nota metodologica 1. Procedimento di stima La maggior parte dei caratteri che si rilevano nell indagine sulle Forze di Lavoro sono di tipo qualitativo.
DettagliAppunti su Indipendenza Lineare di Vettori
Appunti su Indipendenza Lineare di Vettori Claudia Fassino a.a. Queste dispense, relative a una parte del corso di Matematica Computazionale (Laurea in Informatica), rappresentano solo un aiuto per lo
DettagliUniversità della Calabria
Università della Calabria FACOLTA DI INGEGNERIA Corso di Laurea in Ingegneria Civile CORSO DI IDROLOGIA N.O. Prof. Pasquale Versace SCHEDA DIDATTICA N 3 CURVE DI PROBABILITÀ PLUVIOMETRICA A.A. 00- CURVE
DettagliCampionamento La statistica media campionaria e la sua distribuzione. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1
Campionamento La statistica media campionaria e la sua distribuzione 1 Definisco il problema da studiare: es. tempo di percorrenza tra abitazione e università Carattere: tempo ossia v.s. continua Popolazione:
DettagliIL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA
Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale
DettagliStatistica Metodologica Avanzato Test 1: Concetti base di inferenza
Test 1: Concetti base di inferenza 1. Se uno stimatore T n è non distorto per il parametro θ, allora A T n è anche consistente B lim Var[T n] = 0 n C E[T n ] = θ, per ogni θ 2. Se T n è uno stimatore con
DettagliIl modello di regressione lineare multipla. Il modello di regressione lineare multipla
Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa
DettagliEsercitazioni di Statistica
Esercitazioni di Statistica Stima Puntuale Prof. Livia De Giovanni statistica@dis.uniroma.it Esercizio In ciascuno dei casi seguenti determinare quale tra i due stimatori S e T per il parametro θ è distorto
DettagliTeoria e tecniche dei test
Teoria e tecniche dei test Lezione 9 LA STANDARDIZZAZIONE DEI TEST. IL PROCESSO DI TARATURA: IL CAMPIONAMENTO. Costruire delle norme di riferimento per un test comporta delle ipotesi di fondo che è necessario
DettagliCAMPIONAMENTO - ALCUNI TERMINI CHIAVE
CAMPIONAMENTO - ALCUNI TERMINI CHIAVE POPOLAZIONE = qualsiasi insieme di oggetti (unità di analisi) di ricerca N = ampiezza della popolazione PARAMETRI = caratteristiche della popolazione [media, proporzione
DettagliEsercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
DettagliCapitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica
Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università
DettagliIl processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni
La statistica inferenziale Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni E necessario però anche aggiungere con
DettagliUNIVERSITÀ DEGLI STUDI DI PERUGIA
SIGI, Statistica II, esercitazione n. 3 1 UNIVERSITÀ DEGLI STUDI DI PERUGIA FACOLTÀ DI ECONOMIA CORSO DI LAUREA S.I.G.I. STATISTICA II Esercitazione n. 3 Esercizio 1 Una v.c. X si dice v.c. esponenziale
DettagliSommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25
Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità
DettagliDerivazione Numerica
Derivazione Numerica I metodi alle differenze finite sono basati sull approssimazione numerica di derivate parziali. Per questo consideriamo come problema iniziale quello di approssimare le derivate di
DettagliOccupati e disoccupati Aprile 2010: stime provvisorie
Occupati e disoccupati Aprile 2010: stime provvisorie 1 giugno 2010 Allo scopo di migliorare la tempestività dell informazione statistica sull evoluzione del mercato del lavoro, e nell ambito degli accordi
DettagliLaboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.
5 STIMA PUNTUALE DEI PARAMETRI [Adattato dal libro Excel per la statistica di Enzo Belluco] Sia θ un parametro incognito della distribuzione di un carattere in una determinata popolazione. Il problema
DettagliIl campionamento e l inferenza. Il campionamento e l inferenza
Il campionamento e l inferenza Popolazione Campione Dai dati osservati mediante scelta campionaria si giunge ad affermazioni che riguardano la popolazione da cui essi sono stati prescelti Il campionamento
DettagliStatistica descrittiva e statistica inferenziale
Statistica descrittiva e statistica inferenziale 1 ALCUNI CONCETTI POPOLAZIONE E CAMPIONE Popolazione: insieme finito o infinito di unità statistiche classificate secondo uno o più caratteri Campione:
DettagliLEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi
DettagliSTATISTICA ESERCITAZIONE
STATISTICA ESERCITAZIONE Dott. Giuseppe Pandolfo 1 Giugno 2015 Esercizio 1 Una fabbrica di scatole di cartone evade il 96% degli ordini entro un mese. Estraendo 300 campioni casuali di 300 consegne, in
DettagliEsercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo
Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo 1. Gli studi di simulazione possono permetterci di apprezzare alcune delle proprietà di distribuzioni campionarie ricavate
DettagliSupplementi al Bollettino Statistico
Supplementi al Bollettino Statistico Note metodologice La misurazione dell errore di stima nelle statistice sui tassi di interesse bancari Nuova serie Anno XVII Numero 36-14 Giugno 2007 BANCA D ITALIA
DettagliAppunti sul corso di Complementi di Matematica mod. Analisi prof. B.Bacchelli - a.a. 2010/2011.
Appunti sul corso di Complementi di Matematica mod. Analisi prof. B.Baccelli - a.a. 2010/2011. 06 - Derivate, differenziabilità, piano tangente, derivate di ordine superiore. Riferimenti: R.Adams, Calcolo
DettagliLE DISTRIBUZIONI CAMPIONARIE
LE DISTRIBUZIONI CAMPIONARIE Argomenti Principi e metodi dell inferenza statistica Metodi di campionamento Campioni casuali Le distribuzioni campionarie notevoli: La distribuzione della media campionaria
DettagliEsercitazione: La distribuzione NORMALE
Esercitazione: La distribuzione NORMALE Uno dei più importanti esempi di distribuzione di probabilità continua è dato dalla distribuzione Normale (curva normale o distribuzione Gaussiana); è una delle
DettagliOccupati e disoccupati Dicembre 2009: stime provvisorie
Occupati e disoccupati Dicembre 2009: stime provvisorie 29 gennaio 2010 Allo scopo di migliorare la tempestività dell informazione statistica sull evoluzione del mercato del lavoro, e nell ambito degli
DettagliDistribuzioni campionarie
1 Inferenza Statistica Descrittiva Distribuzioni campionarie Statistica Inferenziale: affronta problemi di decisione in condizioni di incertezza basandosi sia su informazioni a priori sia sui dati campionari
DettagliL indagine campionaria Lezione 3
Anno accademico 2007/08 L indagine campionaria Lezione 3 Docente: prof. Maurizio Pisati Variabile casuale Una variabile casuale è una quantità discreta o continua il cui valore è determinato dal risultato
DettagliREGRESSIONE E CORRELAZIONE
REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.
DettagliAndrea Manganaro. Tecniche di campionamento a confronto per i sistemi di audit regionali
Andrea Manganaro Tecniche di campionamento a confronto per i sistemi di audit regionali Definizione del problema Le regioni finanziano ogni anno diverse attività tramite due fondi europei: il Fondo Europeo
Dettaglib) E necessario formulare delle ipotesi per calcolare l intervallo di confidenza ottenuto al punto a? (motivare brevemente la risposta):
ESERCIZIO 1 Una grande banca vuole stimare l ammontare medio di denaro che deve essere corrisposto dai correntisti che hanno il conto scoperto. Si seleziona un campione di 100 clienti su cui si osserva
DettagliDistribuzione Normale
Distribuzione Normale istogramma delle frequenze di un insieme di misure di una grandezza che può variare con continuità popolazione molto numerosa, costituita da una quantità praticamente illimitata di
DettagliEsercitazione 8 maggio 2014
Esercitazione 8 maggio 2014 Esercizio 2 dal tema d esame del 13.01.2014 (parte II). L età media di n gruppo di 10 studenti che hanno appena conseguito la laurea triennale è di 22 anni. a) Costruire un
DettagliAnalisi degli Errori di Misura. 08/04/2009 G.Sirri
Analisi degli Errori di Misura 08/04/2009 G.Sirri 1 Misure di grandezze fisiche La misura di una grandezza fisica è descrivibile tramite tre elementi: valore più probabile; incertezza (o errore ) ossia
DettagliNote sulla probabilità
Note sulla probabilità Maurizio Loreti Dipartimento di Fisica Università degli Studi di Padova Anno Accademico 2002 03 1 La distribuzione del χ 2 0.6 0.5 N=1 N=2 N=3 N=5 N=10 0.4 0.3 0.2 0.1 0 0 5 10 15
DettagliPrincipi di analisi causale Lezione 3
Anno accademico 2007/08 Principi di analisi causale Lezione 3 Docente: prof. Maurizio Pisati Approccio causale Nella maggior parte dei casi i ricercatori sociali utilizzano la regressione per stimare l
DettagliStatistica Inferenziale
Statistica Inferenziale a) L Intervallo di Confidenza b) La distribuzione t di Student c) La differenza delle medie d) L intervallo di confidenza della differenza Prof Paolo Chiodini Dalla Popolazione
DettagliDistribuzioni e inferenza statistica
Distribuzioni e inferenza statistica Distribuzioni di probabilità L analisi statistica spesso studia i fenomeni collettivi confrontandoli con modelli teorici di riferimento. Tra di essi, vedremo: la distribuzione
DettagliCalcolo Numerico con elementi di programmazione
Calcolo Numerico con elementi di programmazione (A.A. 2014-2015) Appunti delle lezioni sui metodi per la soluzione di sistemi di equazioni non lineari Sistemi di equazioni non lineari Un sistema di equazioni
DettagliCapitolo 6. La distribuzione normale
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università
DettagliSTATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo
STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)
DettagliStatistica ARGOMENTI. Calcolo combinatorio
Statistica ARGOMENTI Calcolo combinatorio Probabilità Disposizioni semplici Disposizioni con ripetizione Permutazioni semplici Permutazioni con ripetizioni Combinazioni semplici Assiomi di probabilità
Dettaglizio L'INDAGINE CAMPIONARIA Metodi, disegni e tecniche di campionamento
zio L'INDAGINE CAMPIONARIA Metodi, disegni e tecniche di campionamento B f F~ :_ ~ () ì E(.'.6.. CJ?.. E S T Luigi Fabbris L'indagine camp1onar1a Metodi, disegni e tecniche di campionamento La Nuova Italia
DettagliCapitolo 6 La distribuzione normale
Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università
DettagliStatistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2010/2011 Statistica Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza
DettagliSchema lezione 5 Intervalli di confidenza
Schema lezione 5 Intervalli di confidenza Non centrerò quella barca, ne sono convinto al 95% COMPRENDERE: Significato di intervallo di confidenza Uso degli stimatori come quantità di pivot per stime intervallari
DettagliRiforme pensionistiche e mercato del lavoro. Un analisi statistico-economica. Maria Felice Arezzo Sapienza Università di Roma
Riforme pensionistiche e mercato del lavoro. 12 OTTOBRE 2016 ROMA ROMA ISTAT 12 OTTOBRE 2016 CONVEGNO SCIENTIFICO ELEMENTI STORICO ECONOMICI DELLA STATISTICA NELLA SOCIETÀ ITALIANA NEL LUNGO PERIODO Agenda
DettagliUNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2013/2014. I Esonero - 29 Ottobre Tot.
UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2013/2014 I Esonero - 29 Ottobre 2013 1 2 3 4 5 6 7 8 Tot. Avvertenza: Svolgere ogni esercizio nello spazio assegnato,
DettagliStatistica di base per l analisi socio-economica
Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo gdibartolomeo@unite.it Definizioni di base Una popolazione è l insieme
DettagliEsercitazione 4 del corso di Statistica (parte 2)
Esercitazione 4 del corso di Statistica (parte ) Dott.ssa Paola Costantini Febbraio Esercizio n. Il tempo di percorrenza del treno che collega la stazione di Roma Termini con l aeroporto di Fiumicino è
DettagliCampionamento La statistica media campionaria e la sua distribuzione
Campionamento La statistica media campionaria e la sua distribuzione 1 Definisco il problema da studiare: es. tempo di percorrenza tra abitazione e università Carattere: tempo ossia v.s. continua Popolazione:
DettagliSistemi lineari. Lorenzo Pareschi. Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara
Sistemi lineari Lorenzo Pareschi Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara http://utenti.unife.it/lorenzo.pareschi/ lorenzo.pareschi@unife.it Lorenzo Pareschi (Univ. Ferrara)
DettagliTeorema del limite centrale TCL
Teorema del limite centrale TCL Questo importante teorema della statistica inferenziale si applica a qualsiasi variabile aleatoria che sia combinazione lineare di N variabili aleatorie le cui funzioni
DettagliElementi di base su modello binomiale e modello normale
Elementi di base su modello binomiale e modello normale (alcune note) Parte 1: il modello binomiale Di fondamentale importanza nell analisi della qualità sono i modelli. I due principali modelli statistico-probablistici
DettagliStatistica Un Esempio
Statistica Un Esempio Un indagine sul peso, su un campione di n = 100 studenti, ha prodotto il seguente risultato. I pesi p sono espressi in Kg e sono stati raggruppati in cinque classi di peso. classe
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative
DettagliLE MISURE. attendibilità = x i - X
LE MISURE COCETTI PRELIMIARI: MISURA, ATTEDIBILITÀ, PRECISIOE, ACCURATEZZA Il modo corretto di fornire il risultato di una qualunque misura è quello di dare la migliore stima della quantità in questione
DettagliCapitolo 11 Test chi-quadro
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 11 Test chi-quadro Insegnamento: Statistica Corsi di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara Docenti: Dott.
DettagliESERCIZI DI RIEPILOGO 1
ESERCIZI DI RIEPILOGO 1 ESERCIZIO 1 La tabella seguente contiene la distribuzione di frequenza della variabile X = età (misurata in anni) per un campione casuale di bambini: x i 4.6 8 3.2 3 5.4 6 2.6 2
DettagliTOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo
TOPOGRAFIA 2013/2014 L operazione di misura di una grandezza produce un numero reale che esprime il rapporto della grandezza stessa rispetto a un altra, a essa omogenea, assunta come unità di misura. L
DettagliCorso di Matematica per la Chimica
Corso di Matematica per la Chimica Dott.ssa Maria Carmela De Bonis Dipartimento di Matematica, Informatica e Economia Università della Basilicata a.a. 2014-15 Introduzione La MATEMATICA è uno strumento
DettagliCHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)
CHEMIOMETRIA Applicazione di metodi matematici e statistici per estrarre (massima) informazione chimica (affidabile) da dati chimici INCERTEZZA DI MISURA (intervallo di confidenza/fiducia) CONFRONTO CON
DettagliDistribuzione Gaussiana - Facciamo un riassunto -
Distribuzione Gaussiana - Facciamo un riassunto - Nell ipotesi che i dati si distribuiscano seguendo una curva Gaussiana è possibile dare un carattere predittivo alla deviazione standard La prossima misura
DettagliIl metodo di Gauss-Newton per le regressioni non-lineari
Il metodo di Gauss-Newton per le regressioni non-lineari Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Università degli Studi di Perugia Versione on-line: http://www.unipg.it/ onofri/rtutorial/index.html
DettagliPROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2006/07
PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 006/07 Esercizio 1 Prova scritta del 16/1/006 In un ufficio postale lavorano due impiegati che svolgono lo stesso compito in maniera indipendente, sbrigando
DettagliStatistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2011/2012 Statistica Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate.
DettagliMetodi computazionali per i Minimi Quadrati
Metodi computazionali per i Minimi Quadrati Come introdotto in precedenza si considera la matrice. A causa di mal condizionamenti ed errori di inversione, si possono avere casi in cui il e quindi S sarebbe
DettagliAnalisi delle corrispondenze
Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello
DettagliEsercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa
Esercizi Svolti Esercizio 1 Per una certa linea urbana di autobus sono state effettuate una serie di rilevazioni sui tempi di attesa ad una determinata fermata; la corrispondente distribuzione di frequenza
DettagliESERCITAZIONE IV - Soluzioni
umero di omicidi ESERCITAZIOE IV - Soluzioni Esercizio I. a),00 12,00 10,00 8,00 6,00 4,00 2,00 0,00 0 5 10 15 20 25 Popolazione povera (%) b) Poiché i due caratteri in analisi sono quantitativi per calcolare
DettagliDistribuzioni campionarie. Antonello Maruotti
Distribuzioni campionarie Antonello Maruotti Outline 1 Introduzione 2 Concetti base Si riprendano le considerazioni fatte nella parte di statistica descrittiva. Si vuole studiare una popolazione con riferimento
DettagliIndagine statistica. Indagine Totale Indagine Campionaria Fasi dell indagine
10/1 Indagine statistica Indagine Totale Indagine Campionaria Fasi dell indagine definizione degli obiettivi definizione delle unità e delle variabili da rilevare scelta del periodo di riferimento individuazione
DettagliCorso di Statistica Industriale
Corso di Statistica Industriale Corsi di Laurea Specialistica in Ingegneria Gestionale e Ingegneria Meccanica Docente: Ilia Negri Orario del corso: Martedì: dalle 14.00 alle 16.00 Venerdì: dalle 10.30
DettagliUniversita degli Studi di Ancona - Facolta di Ingegneria Laurea in Ing. Elettronica (VO) Ing. Informatica e Automatica - Ing. delle Telecomunicazioni
Universita degli Studi di Ancona - Facolta di Ingegneria Laurea in Ing. Elettronica (VO) Ing. Informatica e Automatica - Ing. delle Telecomunicazioni ANALISI NUMERICA - Primo Parziale - TEMA A (Prof. A.M.Perdon)
DettagliOCCUPATI E DISOCCUPATI
1 luglio 2013 Maggio 2013 OCCUPATI E DISOCCUPATI Dati provvisori A maggio 2013 gli occupati sono 22 milioni 576 mila, in diminuzione dello 0,1% rispetto ad aprile (-27 mila) e dell 1,7% (-387 mila) su
DettagliCorso di Calcolo Numerico
Corso di Calcolo Numerico Dott.ssa M.C. De Bonis Università degli Studi della Basilicata, Potenza Facoltà di Ingegneria Corso di Laurea in Ingegneria Meccanica Risoluzione di Equazioni Algebriche Le equazioni
DettagliTeorema di Thevenin generalizzato
Teorema di Thevenin generalizzato Si considerino due reti elettriche lineari, A e B, aventi rispettivamente N A e N B nodi interni. Esse si interfacciano attraverso n (n 3) fili di collegamento, in cui
DettagliPrefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura
INDICE GENERALE Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura XI XIV XV XVII XVIII 1 LA RILEVAZIONE DEI FENOMENI
DettagliStatistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
DettagliSTATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE
STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 2 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1.1
DettagliRegola dei trapezi. a, b punti fissi a priori. non fissi a priori (indeterminati) errore di integrazione. a, b
INTEGRAZIONE NUMERICA (Quadratura di Gauss) Regola dei trapezi I ( b a) f ( a) + f ( b) f (x) errore di integrazione f (x) f (a) f (b) a b x a a ' b' b x a, b punti fissi a priori a, b non fissi a priori
DettagliPrecorso di Matematica
UNIVERSITÀ DEGLI STUDI ROMA TRE FACOLTA DI ARCHITETTURA Precorso di Matematica Anna Scaramuzza Anno Accademico 2005-2006 4-10 Ottobre 2005 INDICE 1. ALGEBRA................................. 3 1.1 Equazioni
DettagliIndice Aspetti generali sul campionamento da popolazioni finite Campionamento probabilistico Disegno campionario semplice
Indice 1 Aspetti generali sul campionamento da popolazioni finite.. 1 1.1 Rilevazionicensuarieerilevazionicampionarie... 1 1.2 Lineemetodologichediunarilevazionestatistica... 3 1.3 Popolazioni, etichette,
DettagliProf. Anna Paola Ercolani (Università di Roma) Lez Indicatori di dispersione
Consentono di descrivere la variabilità all interno della distribuzione di requenza tramite un unico valore che ne sintetizza le caratteristiche CAMPO DI VARIAZIONE DIFFERENZA INTERQUARTILE SCOSTAMENTO
DettagliRisoluzione di sistemi lineari sparsi e di grandi dimensioni
Risoluzione di sistemi lineari sparsi e di grandi dimensioni Un sistema lineare Ax = b con A R n n, b R n, è sparso quando il numero di elementi della matrice A diversi da zero è αn, con n α. Una caratteristica
DettagliTAVOLA DI MORTALITÀ 2012
TAVOLA DI MORTALITÀ 2012 N.B. Tutti i dati presentati in questo studio sono stati elaborati dall ufficio statistica del Comune (dott.ssa Antonella Primi) in collaborazione con la laureanda presso l Università
DettagliEsercizi svolti di statistica. Gianpaolo Gabutti
Esercizi svolti di statistica Gianpaolo Gabutti (gabuttig@hotmail.com) 1 Introduzione Questo breve documento contiene lo svolgimento di alcuni esercizi di statistica da me svolti durante la preparazione
DettagliCorso di Analisi Numerica
Corso di Laurea in Ingegneria Informatica Corso di 4 - DERIVAZIONE NUMERICA Lucio Demeio Dipartimento di Scienze Matematiche 1 Calcolo numerico delle derivate 2 3 Introduzione Idea di base L idea di base
DettagliStatistica. Matematica con Elementi di Statistica a.a. 2015/16
Statistica La statistica è la scienza che organizza e analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva: dalla mole di dati
DettagliOgni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.
Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza. Misure ripetute forniscono dati numerici distribuiti attorno ad un valore centrale indicabile con un indice (indice
DettagliCarta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016
Esercitazione 12 maggio 2016 ESERCIZIO 1 Si supponga che in un sondaggio di opinione su un campione di clienti, che utilizzano una carta di credito di tipo standard (Std) o di tipo business (Bsn), si siano
DettagliCalcolo delle Probabilità 2
Prova d esame di Calcolo delle Probabilità 2 Maggio 2006 Sia X una variabile aleatoria distribuita secondo la densità seguente ke x 1 x < 0 f X (x) = 1/2 0 x 1. 1. Determinare il valore del parametro reale
DettagliIntervallo di confidenza
Intervallo di confidenza Prof. Giuseppe Verlato, Prof. Roberto de Marco Sezione di Epidemiologia e Statistica Medica, Università di Verona campione inferenza popolazione Media Riportare sempre anche Stima
DettagliUniversità del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare
Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia Corso di Statistica Medica Correlazione Regressione Lineare Corso di laurea in medicina e chirurgia - Statistica Medica Correlazione
Dettaglistandardizzazione dei punteggi di un test
DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano paola.magnano@unikore.it standardizzazione dei punteggi di un test serve a dare significato ai punteggi che una persona ottiene ad un test, confrontando la
DettagliProblema ( ) = 0,!
Domanda. Problema ( = sen! x ( è! Poiché la funzione seno è periodica di periodo π, il periodo di g x! = 4. Studio di f. La funzione è pari, quindi il grafico è simmetrico rispetto all asse y. È sufficiente
DettagliIncertezza di Misura: Concetti di Base
Incertezza di Misura: Concetti di Base Roberto Ottoboni Dipartimento di Elettrotecnica Politecnico di Milano 1 Il concetto di misura Nella sua accezione più comune si è sempre inteso come misura di una
Dettagli