Modello. Modello statistico con errori additivi. Modello statistico. L. Grilli - Modelli statistici (corso avanzato)

Documenti analoghi
Analisi di Regressione Multipla

STATISTICA A K (60 ore)

STATISTICA CORSO BASE. Prova scritta del Tempo: 2 ore Cognome e Nome:... Matricola:...

Relazioni tra variabili (fenomeni) aziendali

STATISTICA CORSO BASE. Prova scritta del Tempo: 2 ore Cognome e Nome:... Matricola:...

Capitolo 12 La regressione lineare semplice

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

STATISTICA CORSO BASE. Prova scritta del Tempo: 2 ore Cognome e Nome:... Matricola:...

Analisi della regressione multipla

Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Modelli Statistici per l Economia. Regressione lineare con regressori multipli

Facoltà di Psicologia Università di Padova Anno Accademico Corso di Psicometria - Modulo B

1. variabili dicotomiche: 2 sole categorie A e B

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

lezione 7 AA Paolo Brunori

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello

Funzioni di Regressioni Non Lineari

Metodi statistici per le ricerche di mercato

Metodologie Quantitative

Introduzione all Economia Pubblica ANALISI POSITIVA

lezione 8 AA Paolo Brunori

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Regressione & Correlazione

STATISTICA MULTIVARIATA SSD MAT/06

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

MISURA DELLA VARIAZIONE CONCOMITANTE (COVARIAZIONE/ CONTROVARIAZIONE) DI VARIABILI CARDINALI O QUASI- CARDINALI

Psicometria con Laboratorio di SPSS 1

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Statistica di base per l analisi socio-economica

Test delle Ipotesi Parte I

Rappresentazioni grafiche di distribuzioni doppie

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Statistica economica

Corso di Psicometria Progredito

LEZIONE N. 11 ( a cura di MADDALENA BEI)

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

lezione 10 AA Paolo Brunori

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Principi di analisi causale Lezione 3

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

1. Introduzione ai disegni sperimentali. 5. Analisi della regressione lineare. 6. Confronto tra proporzioni di due o più campioni indipendenti

Corso in Fonti, metodi e strumenti per l analisi dei flussi turistici A.A Barbara Baldazzi

Dr. Marco Vicentini Anno Accademico Rev 02/04/2011

Corso di Laurea: Numero di Matricola: Esame del 31 maggio 2018 Tempo consentito: 120 minuti

STATISTICA. Regressione-4 ovvero Macron!

Analisi multivariata per osservazioni appaiate. Analisi multivariata per osservazioni appaiate

Statistica multivariata Donata Rodi 17/10/2016

Funzioni di regressione non lineari

Vogliamo determinare una funzione lineare che meglio approssima i nostri dati sperimentali e poter decidere sulla bontà di questa approssimazione.

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano

METODI E TECNICHE DELLA RICERCA IN PSICOLOGIA CLINICA E LABORATORIO MEDIAZIONE

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

Microeconometria Day # 3 L. Cembalo. Regressione con due variabili e metodo dei minimi quadrati

lezione 9 AA Paolo Brunori

Regressione lineare semplice

Il modello di regressione lineare multipla

Esercitazione 1. 6 Marzo 2019

Corso di Statistica Esercitazione 1.8

Strumenti di indagine per la valutazione psicologica

Metodi Matematici e Informatici per la biologia. Esercizi

Prova Scritta di METODI STATISTICI PER L AMMINISTRAZIONE DELLE IMPRESE (Milano, )

lezione 4 AA Paolo Brunori

Errori (o bias) negli studi epidemiologici

Corso della Scuola SIS - Metodi statistici per la valutazione e il monitoraggio della formazione universitaria Firenze, ottobre 2005

Esercitazione del

Esercizi su Regressione e Connessione

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Modelli descrittivi, statistica e simulazione

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Esercitazione 9 del corso di Statistica (parte seconda)

STATISTICA. Esercitazione 5

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

lezione 13 AA Paolo Brunori

DOMANDA DI RICERCA TIPI DI RICERCA

Indice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Analisi bivariata. Il caso di caratteri quantitativi

i) Si tratta di uno studio di osservazione V F ii) Quale delle seguenti affermazioni è corretta? a b c

Tempo disponibile: 60 minuti

Università di Pavia Econometria Esercizi 4 Soluzioni

Esercitazioni di Statistica Dott.ssa Cristina Mollica

REGRESSIONE E CORRELAZIONE

Esercizi di statistica

Esercizio 2: voto e ore dedicate allo studio

La regressione lineare multipla

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

Transcript:

L. Grilli - Modelli statistici (corso avanzato) 20 Università di Firenze - Laurea Magistrale in Scienze Statistiche Corso di Modelli Statistici Avanzato a.a. 200/20 http://www.ds.unifi.it/grilli/modellistatistici_lm82.htm Introduzione ai modelli statistici Leonardo Grilli grilli@ds.unifi.it www.ds.unifi.it/grilli Modello Modello: schema teorico che descrive un fenomeno ipotizzando le caratteristiche strutturali più rilevanti Modello statistico: modello di tipo matematico con una componente deterministica una componente stocastica Dipartimento di Statistica G. Parenti, Firenze L. Grilli - Modelli Statistici - Marzo 20 2 Modello statistico Modello statistico con errori additivi z w f () f zw,, variabile di risposta variabili esplicative molto influenti su e osservate variabili esplicative molto influenti su e non osservate variabili esplicative poco influenti su funzione ignota L. Grilli - Modelli Statistici - Marzo 20 3 Ipotesi di errori additivi: z w f () f z, e w f e e variabile di risposta variabili esplicative molto influenti su e osservate variabili esplicative molto influenti su e non osservate variabili esplicative poco influenti su funzione ignota z w L. Grilli - Modelli Statistici - Marzo 20 4

L. Grilli - Modelli statistici (corso avanzato) 20 2 Modello statistico lineare Modello statistico lineare Ipotesi di linearità -> modello di regressione lineare (multipla) β enon linearità ez e β e totale Componente sistematica (segnale): β 0+ + 22 + k k L. Grilli - Modelli Statistici - Marzo 20 5 w quantità ignota e deterministica Componente accidentale (rumore): quantità ignota e stocastica e totale 0+ + 22 + k k e Sia la componente sistematica che quella accidentale sono ignote perché includono dei parametri: Componente sistematica: k+ coefficienti di regressione Componente accidentale: o più parametri della distribuzione di e Linearità nei parametri sono ammesse trasformazioni delle variabili, es. log 0+ e L. Grilli - Modelli Statistici - Marzo 20 6 I dati Popolazione e campione Campione di n unità statistiche i, 2,, n variabili Il modello descrive la relazione fra la e le nella POPOLAZIONE e si assume valido per ogni unità del CAMPIONE Unità statistiche k n n nk L. Grilli - Modelli Statistici - Marzo 20 7 + + + e i i, 2,, n 0 i 2 i2 k ik i L. Grilli - Modelli Statistici - Marzo 20 8

L. Grilli - Modelli statistici (corso avanzato) 20 3 Assunzioni sugli errori Regressione lineare semplice Modello lineare classico: per la distribuzione degli errori (condizionatamente alle variabili esplicative) si assume errori a media nulla errori omoschedastici errori incorrelati Ee ( ) 0 Var( e i ) Cov( e, e ) 0 i j i j 2 i Le assunzioni sugli errori determinano le proprietà degli stimatori (distorsione, varianza campionaria, ) L. Grilli - Modelli Statistici - Marzo 20 9 i i Caso speciale con una sola variabile esplicativa (k=) 0 2 Parametri del modello: 0 e intercetta (nella popolazione) pendenza o coefficiente angolare (nella popolazione) Var( e ) varianza residua L. Grilli - Modelli Statistici - Marzo 20 0 Da Regressione lineare semplice E e 0 segue E( ) 0 modello per la media condizionata di (media di dato ) Interpretazione della pendenza: * * E( ) E( ) Variazione della media condizionata di corrispondente ad un aumento unitario di L. Grilli - Modelli Statistici - Marzo 20 Regressione lineare semplice Modello: relazione nella popolazione (non osservabile, ma stimabile) 0 L. Grilli - Modelli Statistici - Marzo 20 2

L. Grilli - Modelli statistici (corso avanzato) 20 4 Regressione lineare semplice Regressione lineare multipla ˆi Dati e relazione stimata............. uˆi.. i ˆ ˆ 0 k variabili esplicative Parametri del modello: intercetta (nella popolazione) 0,, pendenze o coeff. angolari (nella popolazione) + + + e k 0 2 2 k k k Var( e ) varianza residua 2 k k L. Grilli - Modelli Statistici - Marzo 20 3 L. Grilli - Modelli Statistici - Marzo 20 4 Da E e Regressione lineare multipla segue k 0 E(,, ) + + + k 0 2 2 k k modello per la media condizionata di (media di dato,, k ) Interpretazione della pendenza : * * * * * * E(, 2,, k) E 2 k Variazione della media condizionata di corrispondente ad un aumento unitario di a parità di 2,, k (,,, ) L. Grilli - Modelli Statistici - Marzo 20 5 Regressione lineare multipla = effetto di su a parità di 2,, k al netto di controllando per Il modello di regressione consente di fare esperimenti virtuali per valutare come cambia la variabile di risposta muovendo una variabile esplicativa alla volta (cioè, tenendo ferme tutte le altre) L. Grilli - Modelli Statistici - Marzo 20 6

L. Grilli - Modelli statistici (corso avanzato) 20 5 Effetti lordi e netti Effetti lordi e netti: esempio e 0 effetto lordo di + + + e 0 2 2 k k k effetto netto di Esempio: = TEATRO (spesa annua per spettacoli teatrali) = ISTRUZIONE (numero di anni di studio) 2 = REDDITO (reddito annuo) 2 0 e 2 + + e 0 2 2 2 2 2 In generale L. Grilli - Modelli Statistici - Marzo 20 7 L. Grilli - Modelli Statistici - Marzo 20 8 Effetti lordi e netti: esempio (cont.) Effetti lordi e netti: esempio (cont.) = effetto di ISTRUZIONE su TEATRO al netto di REDDITO E l effetto lordo? Ovvero come si ottiene nel modello 0 e? Soluzione: sostituendo l equazione di 2 in quella di + + + e e 0 2 0 2 2 0 2 0 2 errore L. Grilli - Modelli Statistici - Marzo 20 9 2 Effetto lordo (totale) di ISTRUZIONE su TEATRO L effetto lordo e l effetto netto consentono di rispondere a quesiti diversi (spesso entrambi interessanti) Effetto di ISTRUZIONE su TEATRO al netto di REDDITO (effetto diretto) + Effetto di ISTRUZIONE su TEATRO tramite REDDITO (effetto indiretto) L. Grilli - Modelli Statistici - Marzo 20 20

L. Grilli - Modelli statistici (corso avanzato) 20 6 Interpretazione dei coefficienti di regressione Interpretazione dei coefficienti di regressione: esempio Interpretazione predittiva (associativa): considera come la risposta differisce, in media, quando si confrontano DUE INDIVIDUI che differiscono di per il regressore in questione e che sono identici rispetto a tutti gli altri regressori Interpretazione controfattuale (causale): considera il cambiamento, in media, nella risposta di UN INDIVIDUO causato dall incremento di del regressore in questione, lasciando invariati tutti gli altri regressori L interpretazione controfattuale è più interessante ma non è sempre ammissibile e comunque richiede assunzioni più forti punteggio.test = 7 + 3*femmina + Interpretazione predittiva (associativa): il punteggio al test differisce, in media, di 3 punti quando si confrontano DUE INDIVIDUI identici in tutti i regressori fuorché per il fatto che uno è femmina e l altro è maschio Interpretazione controfattuale (causale): il punteggio al test aumenterebbe, in media, di 3 punti se UN INDIVIDUO maschio venisse trasformato in femmina, lasciando invariati tutti gli altri regressori (!!!) In questo caso l interpretazione controfattuale non ha senso L. Grilli - Modelli Statistici - Marzo 20 2 L. Grilli - Modelli Statistici - Marzo 20 22 Interpretazione dei coefficienti di regressione: esempio 2 Interpretazione dei coefficienti di regressione: esempio 2 (continua) punteggio.test = 7 + 5*libroB + Interpretazione predittiva (associativa): il punteggio al test differisce, in media, di 5 punti quando si confrontano DUE INDIVIDUI identici in tutti i regressori fuorché per il fatto che uno ha studiato sul libro B e l altro ha studiato sul libro A Interpretazione controfattuale (causale): il punteggio al test aumenterebbe, in media, di 5 punti se UN INDIVIDUO che ha studiato sul libro A avesse invece studiato sul libro B, lasciando invariati tutti gli altri regressori In questo caso l interpretazione controfattuale ha senso ed è interessante, ma in generale non è lecita L. Grilli - Modelli Statistici - Marzo 20 23 punteggio.test = 7 + 5*libroB + L interpretazione controfattuale è certamente lecita se il tipo di libro è stato assegnato a caso (esperimento controllato) dubbia se gli studenti hanno scelto autonomamente il libro: supponiamo che il libro B sia notoriamente più difficile del libro A e che quindi venga scelto solo dagli studenti migliori i 5 punti di differenza sono dovuti non solo alla qualità del libro ma anche alla qualità degli studenti! se costringiamo uno studente scarso a studiare sul libro B non ci dobbiamo aspettare un incremento di 5 punti (anzi, siccome per lui quel libro è troppo difficile potrebbe addirittura fare peggio!) L. Grilli - Modelli Statistici - Marzo 20 24

L. Grilli - Modelli statistici (corso avanzato) 20 7 Relazioni causa-effetto Relazioni causa-effetto: esempio Si può affermare che X è la causa e Y l effetto? La domanda è rilevante sia da un punto di vista teorico (come funziona il mondo?) che pratico Infatti, se si interviene nel sistema fissando la X ad un valore arbitrario, in presenza di una pura relazione causa-effetto la Y risponde assumendo il valore medio previsto dal modello, altrimenti ha un comportamento imprevedibile Sia X la spesa annuale in pubblicità e Y l ammontare annuale di vendite La pendenza stimata usando i dati degli ultimi anni è.2, cioè ogni euro in più di spesa in pubblicità è associato a.2 euro in più di vendite: se l anno prossimo l azienda aumenta la spesa in pubblicità di 00000 euro si deve attendere un aumento delle vendite di 20000 euro (e viceversa se riduce la spesa) Queste previsioni sono attendibili? No! In realtà l ammontare delle vendite dipende solo in parte dalla pubblicità, perché è fortemente influenzato da fattori come il ciclo economico Inoltre è pure possibile una relazione inversa, cioè che la spesa in pubblicità sia influenzata dall andamento delle vendite (se le vendite aumentano si rendono disponibili risorse aggiuntive che possono essere destinate alla pubblicità) L. Grilli - Modelli Statistici - Marzo 20 25 L. Grilli - Modelli Statistici - Marzo 20 26 Relazioni causa-effetto e regressione Relazioni causa-effetto e regressione Il modello di regressione può evidenziare un associazione tra X e Y ma non consente di dire niente sulla relazione causa-effetto Ad es. non vi è alcun criterio statistico per preferire () la regressione del consumo sul reddito piuttosto che (2) la regressione del reddito sul consumo (ricorda: entrambe le regressioni hanno lo stesso R 2 ): è la teoria economica che suggerisce di usare la versione (), in quanto asserisce che il reddito influenza il consumo e non viceversa Tuttavia per certe finalità può essere utile specificare la regressione in modo contrario alla relazione causa-effetto: nell esempio precedente la versione (2) potrebbe essere specificata dall Agenzia delle Entrate qualora disponga di dati sui consumi dei contribuenti e voglia usarli per inferire il loro reddito Date due variabili, i due possibili modi di specificare il modello di regressione (scambiando i ruoli di risposta ed esplicativa) sono solo due punti di vista alternativi: scegliere un punto di vista o l altro ovviamente non modifica la realtà, semplicemente si traggono impressioni diverse dello stesso fenomeno è come assistere ad un incontro di calcio dalla tribuna o dalla curva: ciò non modifica l incontro, anche se si ottengono impressioni diverse L. Grilli - Modelli Statistici - Marzo 20 27 L. Grilli - Modelli Statistici - Marzo 20 28

L. Grilli - Modelli statistici (corso avanzato) 20 8 Tipi di relazioni causa-effetto Date due variabili osservate Z e Z 2 le possibili relazioni causali sono: Z Z 2 Assenza di relazione Z Z 2 Z causa Z 2 Relazioni causa-effetto e variabili nascoste L unico modo affidabile di stabilire una relazione causaeffetto consiste nel raccogliere i dati tramite un esperimento controllato (assegnare a caso le unità statistiche ai diversi valori di X, poi osservare la Y) Al di fuori dei dati sperimentali, vi è sempre un pericolo in agguato: la relazione tra Z e Z 2 potrebbe essere in tutto o in parte dovuta ad una variabile non osservata, o comunque non inclusa nell analisi Z 0 (variabile nascosta) Z Z 2 Z 2 causa Z Z Z 2 Z causa Z 2 e viceversa L. Grilli - Modelli Statistici - Marzo 20 29 Z 0 Z Z 2 Associazione tra Z e Z 2 interamente dovuta a Z 0 Esempio. In una applicazione su bambini di diverse età: Z = lunghezza del piede; Z 2 = numero di vocaboli conosciuti; Z 0 = età. La regressione del numero di vocaboli sulla lunghezza del piede dà luogo ad una pendenza positiva significativa, ma ovviamente tra le due variabili non vi è alcuna relazione causa-effetto L. Grilli - Modelli Statistici - Marzo 20 30 Relazioni causa-effetto e variabili nascoste Esempio. In una applicazione su adulti di diverse età: Z = numero di sigari fumati al giorno Z 2 = capacità respiratoria Z 0 = età Z 0 Z Z 2 Associazione tra Z e Z 2 in parte dovuta a Z 0 La regressione della capacità respiratoria sul numero di sigari dà luogo ad una pendenza significativa (di segno negativo: cioè all aumentare del numero di sigari la capacità polmonare tende a diminuire). Tuttavia, entrambe le variabili sono associate all età: negli anziani è maggiore la frequenza sia di coloro che fumano il sigaro, sia di coloro che hanno scarsa capacità polmonare. Gli studi epidemiologici hanno dimostrato che il fumo (anche quello di sigaro) riduce la capacità polmonare, cioè esiste una relazione causa-effetto: tuttavia, se nell analisi si ignora che i soggetti hanno diverse età, risulta un associazione più forte di quanto è realmente (la pendenza della retta di regressione è troppo negativa perché incorpora anche l effetto dell età). Una semplice soluzione è di eseguire l analisi di regressione separatamente per fasce di età. [In epidemiologia si direbbe che in questo caso l età è una variabile confondente (confounder)] Qual è il modello giusto? La realtà è troppo complessa per poter essere rappresentata in modo esaustivo da un modello Pertanto: un modello è buono quando coglie gli aspetti salienti del fenomeno (ruolo descrittivo) aiuta a rispondere ai quesiti della ricerca (ruolo strumentale) Tutti i modelli sono sbagliati, ma alcuni sono utili (G.E.P. Bo) L. Grilli - Modelli Statistici - Marzo 20 3 L. Grilli - Modelli Statistici - Marzo 20 32

L. Grilli - Modelli statistici (corso avanzato) 20 9 Qual è il modello giusto? La specificazione del modello (in particolare la scelta delle variabili esplicative) è guidata da: Conoscenza del fenomeno (teoria) Dati (evidenza empirica) Lo statistico è chiamato a stabilire, caso per caso, un ragionevole compromesso tra parsimonia e complessità L. Grilli - Modelli Statistici - Marzo 20 33 MODELLO Problema reale Comportamento dei dati potenziali Dati campionari + Informazione ausiliaria V. Barnett (999) Comparative Statistical Inference (3rd ed.). Wile. L. Grilli - Modelli Statistici - Marzo 20 34