MODELLO DI REGRESSIONE PER DATI DI PANEL



Похожие документы
Microeconometria (Silvia Tiezzi) 01 aprile2011 Esercitazione


Il modello di regressione lineare multivariata

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Relazioni statistiche: regressione e correlazione

Appunti di Econometria

Statistica. Lezione 6

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

GESTIONE INDUSTRIALE DELLA QUALITÀ A

E naturale chiedersi alcune cose sulla media campionaria x n

La categoria «ES» presenta (di solito) gli stessi comandi

Statistica inferenziale

Corso di Laurea a Distanza in Ingegneria Elettrica Corso di Comunicazioni Elettriche Processi casuali A.A Alberto Perotti, Roberto Garello

Esercizio 1. Proprietà desiderabili degli stimatori (piccoli campioni)

LEZIONE 23. Esempio Si consideri la matrice (si veda l Esempio ) A =

Capitolo 12 La regressione lineare semplice

Consideriamo due polinomi

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

ESAME DI STATISTICA Nome: Cognome: Matricola:

Dimensione di uno Spazio vettoriale

Inferenza statistica. Statistica medica 1

11. Analisi statistica degli eventi idrologici estremi

Metodi statistici per le ricerche di mercato

1. Distribuzioni campionarie

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Principi di analisi causale Lezione 2

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

CALCOLO COMBINATORIO

3. Confronto tra medie di due campioni indipendenti o appaiati

Automazione Industriale (scheduling+mms) scheduling+mms.

Tecniche di analisi multivariata

Analisi Statistica Spaziale

Tesina di Identificazione dei Modelli e Analisi dei Dati

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6

Soluzioni degli Esercizi del Parziale del 30/06/201 (Ippoliti-Fontanella-Valentini)

APPLICAZIONI LINEARI

Corso di. Dott.ssa Donatella Cocca

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza

Esempio. Approssimazione con il criterio dei minimi quadrati. Esempio. Esempio. Risultati sperimentali. Interpolazione con spline cubica.

Pro e contro delle RNA

Temi di Esame a.a Statistica - CLEF

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

(a cura di Francesca Godioli)

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Controlli Automatici T. Trasformata di Laplace e Funzione di trasferimento. Parte 3 Aggiornamento: Settembre Prof. L.

Capitolo 2 - Teoria della manutenzione: classificazione ABC e analisi di Pareto

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

Indice. Le curve di indifferenza sulla frontiera di Markowitz UNIVERSITA DI PARMA FACOLTA DI ECONOMIA

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

= 1, = w 2 x σ 2 x + (1 w x ) 2 σ 2 x 2 w x (1 w x ) σ x σ y, = w x 0.2. = 0,

Prova di autovalutazione Prof. Roberta Siciliano

Introduzione all analisi dei segnali digitali.

La variabile casuale Binomiale

4. Operazioni elementari per righe e colonne

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

VALORE DELLE MERCI SEQUESTRATE

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Istituzioni di Statistica e Statistica Economica

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

La distribuzione Normale. La distribuzione Normale

Strategie alternative ai metodi sperimentali

Lezione n. 2 (a cura di Chiara Rossi)

Serie Storiche Trasformazioni e Aggiustamenti

VERIFICA DELLE IPOTESI

La distribuzione Gaussiana

Il confronto fra proporzioni

Corso di Matematica per la Chimica

COS'E' UN IMPIANTO FOTOVOLTAICO E COME FUNZIONA

Applicazione alla domanda di sigarette (SW Par 12.4)

Appendice III. Criteri per l utilizzo dei metodi di valutazione diversi dalle misurazioni in siti fissi

L orizzonte temporale nei prospetti semplificati dei fondi aperti. Nota di studio. Ufficio Studi

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

4. Si consideri un economia chiusa in cui: Y = C + I + G, C = ,8YD, G = 1000, T= 0,5Y, I = r, P=1,

Nota interpretativa. La definizione delle imprese di dimensione minori ai fini dell applicazione dei principi di revisione internazionali

2. Leggi finanziarie di capitalizzazione

Onestà di un dado. Relazione sperimentale

Universita degli Studi di Roma Tor Vergata Facolta di Ingegneria Elettronica

LA CRESCITA DELLE POPOLAZIONI ANIMALI

Capitolo 11 Test chi-quadro

Forze come grandezze vettoriali

STATISTICA IX lezione

Elementi di Psicometria con Laboratorio di SPSS 1

La statistica multivariata

Diagonalizzazione di matrici e applicazioni lineari

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

Luigi Piroddi

CAPITOLO 10 I SINDACATI

Regressione Logistica: un Modello per Variabili Risposta Categoriali

a) Il campo di esistenza di f(x) è dato da 2x 0, ovvero x 0. Il grafico di f(x) è quello di una iperbole -1 1

IL RISCHIO D IMPRESA ED IL RISCHIO FINANZIARIO. LA RELAZIONE RISCHIO-RENDIMENTO ED IL COSTO DEL CAPITALE.

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

La Regressione Lineare

Транскрипт:

MODELLO DI REGRESSIONE PER DAI DI PANEL 5. Introduzione Storicamente l analisi econometrica ha proceduto in due distinte direzioni: lo studio di modelli macroeconomici, sulla base di serie temporali di dati aggregati da una parte, e la modellizzazione di fenomeni prevalentemente microeconomici, basandosi su indagini di tipo crosssection, dall altra. Successivamente sono stati proposti contributi volti a fondere i due approcci ed in particolare con lo scopo di individuare le differenze tra le stime ottenute da analisi di tipo cross section e time series sugli stessi dati. Modelli microeconometrici di tipo dinamico necessitano inevitabilmente di informazioni longitudinali sulle unità statistiche oggetto di studio. In generale si individuano dati di tipo pooled o combinati, quando l aspetto cross section viene appunto combinato con quello time series; in particolare quando si ottengono informazioni sulle stesse unità statistiche i:,,...,n, per un certo numero di istanti temporali t:,,..., vengono definiti i cosiddetti dati di panel. La presentazione dei dati panel seguita nel presente lavoro si basa sull eccellente contributo di Baltagi (995) e Hsiao (985,986), che sintetizzano i vantaggi e le limitazioni provenienti dall utilizzo dei dati panel nel seguente modo:

A) VANAGGI: ) controllo della eterogeneità tra gli individui; ) i dati panel sono più informativi, forniscono maggiore variabilità, minore collinearità tra le variabili, un numero più alto di gradi di libertà e maggiore efficienza delle stime; 3) possibilità di controllare le dinamiche degli aggiustamenti; 4) permettono di identificare e misurare effetti non osservabili da semplici cross section o time series; 5) distorsioni delle stime dovute ad aggregazioni di dati su individui o imprese sono eliminati; B) LIMIAZIONI: ) difficoltà nel disegno di campionamento e nella raccolta dei dati; ) distorsione degli errori di misura; 3) problemi di selettività, non risposte e attrito; 4) dimensione limitata delle serie storiche. Una regressione che utilizza dati di tipo panel differisce da una tradizionale regressione per la duplice dimensione caratterizzata dagli individui e gli istanti temporali: y X' u i:,,...,n t:,,..., (5.) it it it dove i denota le unità statistiche individuali, quali nuclei familiari, imprese, stati, etc..., mentre t denota l istante temporale. In una analisi panel il tradizionale errore può essere scomposto in:

u it i t it (5.) dove rappresenta un effetto specifico individuale, un effetto specifico temporale e denota il tradizionale disturbo stocastico. In letteratura i modelli vengono classificati essenzialmente per tre aspetti: ) La assenza o la presenza degli effetti specifici temporali, che permettono la dicotomizzazione tra modelli di regressione one-way error component (i primi) e two-way error component. ) La scelta tra effetti individuali e temporali fissi oppure casuali. 3) La presenza o meno di variabili endogene ritardate nell insieme dei regressori del modello, che ne determina l aspetto dinamico o statico. 5. Il modello a componente di errore ad una via Nel modello che considera solamente gli effetti individuali la (5.) si riduce a: y X' i:,,...,n t:,,..., (5.3) it it i it che può essere compattato in: y i N X Z Z Z (5.4) dove y è un vettore N x, X è una matrice N x K, 3

Z=[ i N X ] (5.5) = (, ) (5.6) i N è un vettore composto da N elementi unitari, Z IN i (5.7) I N è una matrice identità di dimensione N, i è un vettore di elementi unitari, ed infine denota l usuale prodotto di Kronecher. La matrice Z è formata esclusivamente da elementi nulli ed unitari, che permettono l inserimento di variabili dummy rappresentanti gli effetti individuali i. ale matrice ha le seguenti proprietà: Z Z' I N J (5.8) P Z ( Z' Z ) Z' (5.9) dove P è la matrice di proiezione su Z, ovvero che calcola una media delle osservazioni nel corso del tempo, e dalla quale si ricava la matrice Q ottenuta dalle deviazioni dalle medie individuali: Q = I N - P, dove P e Q sono matrici simmetriche ed idempotenti che godono di particolari proprietà note (Graybill,96). 4

5.. Il modello ad effetti fissi In questo modello si ipotizza che i siano parametri fissi da stimare, mentre it sono solamente disturbi casuali indipendenti ed identicamente distribuiti IID(0, i). Dalla (5.4) è possibile ottenere delle stime per i parametri a, b e m attraverso il tradizionale metodo dei minimi quadrati ordinali (OLS). Dal momento che la matrice Z ha dimensioni N x (K+) e ha dimensioni N x N, se N è molto grande, la (5.4) include un numero troppo alto di variabili dummy e la matrice da invertire nel procedimento OLS ha dimensione N+K; si ha così una perdita in termini di gradi di libertà e di efficienza delle stime. Viene quindi utilizzata la trasformazione least squares dummy variables (LSDV), premoltiplicando l equazione (5.4) per la matrice Q: Qy Qi N QX QZ Q QX Q (5.0) in quanto Q Z = Qi N = 0, perché la matrice Q elimina gli effetti individuali dalla regressione. Lo stimatore che si ottiene applicando gli OLS alla (5.0) è analogo, per il modello con soli effetti individuali, ad uno stimatore Within: ~ ( X' QX) X' Qy (5.) 5

var( ~ ) ( X' QX ) (5.) e sotto le usuali ipotesi sugli errori, risulta essere il migliore tra gli stimatori lineari e corretti (BLUE). 5.. Il modello ad effetti casuali Il modello ad effetti fissi appena introdotto può portare ad una grave perdita in termini di gradi di libertà, per la presenza di un alto numero di parametri da stimare; se viene ipotizzato che anche gli effetti i siano casuali come la componente erratica it, tale problema è superato. In questo caso i IID( 0, ), v IID( 0, ), inoltre gli errori sono it indipendenti tra loro e sono indipendenti dai regressori X it. Il modello ad effetti variabili casuali è normalmente utilizzato quando siamo in presenza di un grande numero N di individui, in particolare per studi panel su nuclei familiari estratti da una popolazione vasta. Dalla relazione (5.4) è possibile ricavare la matrice di varianzacovarianza della componente stocastica complessiva u: v E( uu') Z E( ') Z' E( ') ( I J ) ( I I ) N N (5.3) Da questa è possibile ricavare la varianza omoschedastica di u it : var( u it ) (5.4) 6

ed una matrice di covarianza diagonale a blocchi equicorrelati, che evidenzia una correlazione seriale solamente tra i disturbi degli stessi individui: var( u, u ) it js 0 i j, t s i j, t s altrimenti (5.5) Dalla matrice di varianza-covarianza è possibile quindi calcolare i coefficienti di correlazione: i j, t s correl( u it, u js) i j, t s (5.6) 0 altrimenti Lo stimatore adatto al modello con componenti casuali è quello ottenuto con il metodo dei minimi quadrati generalizzati (GLS): GLS ( X' X) X' y (5.7) La matrice di dimensioni (N x N) risulta, però, di non facile inversione, anche quando siamo di fronte ad un campione con numerosità N contenuta; Wansbeek e Kapteyn (98, 983) propongono un piccolo trucco per superare il problema del calcolo di - e di -/ : viene rimpiazzato J da J e I da E J, dove E è definito come differenza 7

( I J ). Con queste sostituzioni è possibile riscrivere la matrice: ( I J ) ( I E ) ( I J ) (5.8) N N N dalla quale mettendo in evidenza si ottiene: ( )( I J ) ( I E ) P Q N N (5.9) che risulta essere la scomposizione spettrale di, dove è la prima radice caratteristica di molteplicità N e è la seconda radice caratteristica di molteplicità N(-). Dalle proprietà di P e Q viste in precedenza si ottiene: P Q (5.0) / P Q (5.) Il miglior stimatore quadratico non distorto (BQU) delle componenti che costituiscono la varianza, scaturiscono direttamente dalla scomposizione spettrale: u' Pu. / ( ) N ui N tr P i: (5.) 8

u' Qu tr( Q) N i: t: v ( u u ) it N( ) i. (5.3) 5.3 Il modello a componenti di errore a due vie In questo modello vengono presi in considerazione sia gli effetti individuali che quelli temporali, cosicché la (5.) risulta essere: y X' i:,,...,n t:,,..., (5.4) it it i t it che può essere compattato in: y i N X Z Z Z Z (5.5) dove Z i I è la matrice di variabili dummy temporali che possono N essere incluse tra i regressori, se si considerano i t parametri fissi da stimare. 5.3. Il modello ad effetti fissi Quando i e t sono assunti come parametri fissi da stimare, il modello presenta troppe variabili dummy (N-)+(-), con conseguente enorme perdita in termini di gradi di libertà. Piuttosto che andare ad invertire una grande matrice di dimensione 9

(N++K-), è possibile ottenere le stime degli effetti fissi individuali e temporali, utilizzando la trasformazione within proposta da Wallace e Hussan (969): Q EN E IN I IN J JN I JN J (5.6) il cui corrispondente stimatore risulta essere: ~ W ( X' QX) X' Qy (5.7) analogamente al modello con componente d errore ad una via. 5.3. Il modello ad effetti casuali Il modello si complica quando ipotizziamo che le componenti individuali e temporali siano casuali, ovvero quando v it IID( 0, ) e tra di loro indipendenti. v i IID(, ) IID( 0, ), 0, t In questo caso si ha un grosso guadagno in termini di gradi di libertà, ma la matrice di varianza-covarianza risulta essere: E( uu') ZE( ') Z' ZE( ') Z' IN (5.8) ( I J ) ( J I ) ( I I ) N N N I disturbi u it sono omoschedastici con varianza pari a: 0

var( u it ) (5.9) ed una matrice di covarianza: cov( u, u ) it js i j, t s i j, t s 0 altrimenti (5.30) Dalla matrice di varianza covarianza è possibile quindi calcolare i coefficienti di correlazione: correl( u it, u js ) 0 i j, t s i j, t s i j, t s altrimenti (5.3) Analogamente al modello a componente di errore ad una via si procede alla scomposizione spettrale di : 4 i Q i: i (5.3) dove,, N, N 3 4 e dove Q E N E, Q E J, Q J E, Q J J N 3 N 4 N

Con tale trasformazione è possibile, in generale, ottenere una qualsiasi potenza di : r 4 Q, r i: r i i (5.33) I migliori stimatori quadratici non corretti dei parametri sono: i u' Qiu, i:,,3 (5.34) tr( Q ) i dai quali si ricavano le stime,,.