L. Grilli - Modelli statistici (corso avanzato) 20 Università di Firenze - Laurea Magistrale in Scienze Statistiche Corso di Modelli Statistici Avanzato a.a. 200/20 http://www.ds.unifi.it/grilli/modellistatistici_lm82.htm Introduzione ai modelli statistici Leonardo Grilli grilli@ds.unifi.it www.ds.unifi.it/grilli Modello Modello: schema teorico che descrive un fenomeno ipotizzando le caratteristiche strutturali più rilevanti Modello statistico: modello di tipo matematico con una componente deterministica una componente stocastica Dipartimento di Statistica G. Parenti, Firenze L. Grilli - Modelli Statistici - Marzo 20 2 Modello statistico Modello statistico con errori additivi z w f () f zw,, variabile di risposta variabili esplicative molto influenti su e osservate variabili esplicative molto influenti su e non osservate variabili esplicative poco influenti su funzione ignota L. Grilli - Modelli Statistici - Marzo 20 3 Ipotesi di errori additivi: z w f () f z, e w f e e variabile di risposta variabili esplicative molto influenti su e osservate variabili esplicative molto influenti su e non osservate variabili esplicative poco influenti su funzione ignota z w L. Grilli - Modelli Statistici - Marzo 20 4
L. Grilli - Modelli statistici (corso avanzato) 20 2 Modello statistico lineare Modello statistico lineare Ipotesi di linearità -> modello di regressione lineare (multipla) β enon linearità ez e β e totale Componente sistematica (segnale): β 0+ + 22 + k k L. Grilli - Modelli Statistici - Marzo 20 5 w quantità ignota e deterministica Componente accidentale (rumore): quantità ignota e stocastica e totale 0+ + 22 + k k e Sia la componente sistematica che quella accidentale sono ignote perché includono dei parametri: Componente sistematica: k+ coefficienti di regressione Componente accidentale: o più parametri della distribuzione di e Linearità nei parametri sono ammesse trasformazioni delle variabili, es. log 0+ e L. Grilli - Modelli Statistici - Marzo 20 6 I dati Popolazione e campione Campione di n unità statistiche i, 2,, n variabili Il modello descrive la relazione fra la e le nella POPOLAZIONE e si assume valido per ogni unità del CAMPIONE Unità statistiche k n n nk L. Grilli - Modelli Statistici - Marzo 20 7 + + + e i i, 2,, n 0 i 2 i2 k ik i L. Grilli - Modelli Statistici - Marzo 20 8
L. Grilli - Modelli statistici (corso avanzato) 20 3 Assunzioni sugli errori Regressione lineare semplice Modello lineare classico: per la distribuzione degli errori (condizionatamente alle variabili esplicative) si assume errori a media nulla errori omoschedastici errori incorrelati Ee ( ) 0 Var( e i ) Cov( e, e ) 0 i j i j 2 i Le assunzioni sugli errori determinano le proprietà degli stimatori (distorsione, varianza campionaria, ) L. Grilli - Modelli Statistici - Marzo 20 9 i i Caso speciale con una sola variabile esplicativa (k=) 0 2 Parametri del modello: 0 e intercetta (nella popolazione) pendenza o coefficiente angolare (nella popolazione) Var( e ) varianza residua L. Grilli - Modelli Statistici - Marzo 20 0 Da Regressione lineare semplice E e 0 segue E( ) 0 modello per la media condizionata di (media di dato ) Interpretazione della pendenza: * * E( ) E( ) Variazione della media condizionata di corrispondente ad un aumento unitario di L. Grilli - Modelli Statistici - Marzo 20 Regressione lineare semplice Modello: relazione nella popolazione (non osservabile, ma stimabile) 0 L. Grilli - Modelli Statistici - Marzo 20 2
L. Grilli - Modelli statistici (corso avanzato) 20 4 Regressione lineare semplice Regressione lineare multipla ˆi Dati e relazione stimata............. uˆi.. i ˆ ˆ 0 k variabili esplicative Parametri del modello: intercetta (nella popolazione) 0,, pendenze o coeff. angolari (nella popolazione) + + + e k 0 2 2 k k k Var( e ) varianza residua 2 k k L. Grilli - Modelli Statistici - Marzo 20 3 L. Grilli - Modelli Statistici - Marzo 20 4 Da E e Regressione lineare multipla segue k 0 E(,, ) + + + k 0 2 2 k k modello per la media condizionata di (media di dato,, k ) Interpretazione della pendenza : * * * * * * E(, 2,, k) E 2 k Variazione della media condizionata di corrispondente ad un aumento unitario di a parità di 2,, k (,,, ) L. Grilli - Modelli Statistici - Marzo 20 5 Regressione lineare multipla = effetto di su a parità di 2,, k al netto di controllando per Il modello di regressione consente di fare esperimenti virtuali per valutare come cambia la variabile di risposta muovendo una variabile esplicativa alla volta (cioè, tenendo ferme tutte le altre) L. Grilli - Modelli Statistici - Marzo 20 6
L. Grilli - Modelli statistici (corso avanzato) 20 5 Effetti lordi e netti Effetti lordi e netti: esempio e 0 effetto lordo di + + + e 0 2 2 k k k effetto netto di Esempio: = TEATRO (spesa annua per spettacoli teatrali) = ISTRUZIONE (numero di anni di studio) 2 = REDDITO (reddito annuo) 2 0 e 2 + + e 0 2 2 2 2 2 In generale L. Grilli - Modelli Statistici - Marzo 20 7 L. Grilli - Modelli Statistici - Marzo 20 8 Effetti lordi e netti: esempio (cont.) Effetti lordi e netti: esempio (cont.) = effetto di ISTRUZIONE su TEATRO al netto di REDDITO E l effetto lordo? Ovvero come si ottiene nel modello 0 e? Soluzione: sostituendo l equazione di 2 in quella di + + + e e 0 2 0 2 2 0 2 0 2 errore L. Grilli - Modelli Statistici - Marzo 20 9 2 Effetto lordo (totale) di ISTRUZIONE su TEATRO L effetto lordo e l effetto netto consentono di rispondere a quesiti diversi (spesso entrambi interessanti) Effetto di ISTRUZIONE su TEATRO al netto di REDDITO (effetto diretto) + Effetto di ISTRUZIONE su TEATRO tramite REDDITO (effetto indiretto) L. Grilli - Modelli Statistici - Marzo 20 20
L. Grilli - Modelli statistici (corso avanzato) 20 6 Interpretazione dei coefficienti di regressione Interpretazione dei coefficienti di regressione: esempio Interpretazione predittiva (associativa): considera come la risposta differisce, in media, quando si confrontano DUE INDIVIDUI che differiscono di per il regressore in questione e che sono identici rispetto a tutti gli altri regressori Interpretazione controfattuale (causale): considera il cambiamento, in media, nella risposta di UN INDIVIDUO causato dall incremento di del regressore in questione, lasciando invariati tutti gli altri regressori L interpretazione controfattuale è più interessante ma non è sempre ammissibile e comunque richiede assunzioni più forti punteggio.test = 7 + 3*femmina + Interpretazione predittiva (associativa): il punteggio al test differisce, in media, di 3 punti quando si confrontano DUE INDIVIDUI identici in tutti i regressori fuorché per il fatto che uno è femmina e l altro è maschio Interpretazione controfattuale (causale): il punteggio al test aumenterebbe, in media, di 3 punti se UN INDIVIDUO maschio venisse trasformato in femmina, lasciando invariati tutti gli altri regressori (!!!) In questo caso l interpretazione controfattuale non ha senso L. Grilli - Modelli Statistici - Marzo 20 2 L. Grilli - Modelli Statistici - Marzo 20 22 Interpretazione dei coefficienti di regressione: esempio 2 Interpretazione dei coefficienti di regressione: esempio 2 (continua) punteggio.test = 7 + 5*libroB + Interpretazione predittiva (associativa): il punteggio al test differisce, in media, di 5 punti quando si confrontano DUE INDIVIDUI identici in tutti i regressori fuorché per il fatto che uno ha studiato sul libro B e l altro ha studiato sul libro A Interpretazione controfattuale (causale): il punteggio al test aumenterebbe, in media, di 5 punti se UN INDIVIDUO che ha studiato sul libro A avesse invece studiato sul libro B, lasciando invariati tutti gli altri regressori In questo caso l interpretazione controfattuale ha senso ed è interessante, ma in generale non è lecita L. Grilli - Modelli Statistici - Marzo 20 23 punteggio.test = 7 + 5*libroB + L interpretazione controfattuale è certamente lecita se il tipo di libro è stato assegnato a caso (esperimento controllato) dubbia se gli studenti hanno scelto autonomamente il libro: supponiamo che il libro B sia notoriamente più difficile del libro A e che quindi venga scelto solo dagli studenti migliori i 5 punti di differenza sono dovuti non solo alla qualità del libro ma anche alla qualità degli studenti! se costringiamo uno studente scarso a studiare sul libro B non ci dobbiamo aspettare un incremento di 5 punti (anzi, siccome per lui quel libro è troppo difficile potrebbe addirittura fare peggio!) L. Grilli - Modelli Statistici - Marzo 20 24
L. Grilli - Modelli statistici (corso avanzato) 20 7 Relazioni causa-effetto Relazioni causa-effetto: esempio Si può affermare che X è la causa e Y l effetto? La domanda è rilevante sia da un punto di vista teorico (come funziona il mondo?) che pratico Infatti, se si interviene nel sistema fissando la X ad un valore arbitrario, in presenza di una pura relazione causa-effetto la Y risponde assumendo il valore medio previsto dal modello, altrimenti ha un comportamento imprevedibile Sia X la spesa annuale in pubblicità e Y l ammontare annuale di vendite La pendenza stimata usando i dati degli ultimi anni è.2, cioè ogni euro in più di spesa in pubblicità è associato a.2 euro in più di vendite: se l anno prossimo l azienda aumenta la spesa in pubblicità di 00000 euro si deve attendere un aumento delle vendite di 20000 euro (e viceversa se riduce la spesa) Queste previsioni sono attendibili? No! In realtà l ammontare delle vendite dipende solo in parte dalla pubblicità, perché è fortemente influenzato da fattori come il ciclo economico Inoltre è pure possibile una relazione inversa, cioè che la spesa in pubblicità sia influenzata dall andamento delle vendite (se le vendite aumentano si rendono disponibili risorse aggiuntive che possono essere destinate alla pubblicità) L. Grilli - Modelli Statistici - Marzo 20 25 L. Grilli - Modelli Statistici - Marzo 20 26 Relazioni causa-effetto e regressione Relazioni causa-effetto e regressione Il modello di regressione può evidenziare un associazione tra X e Y ma non consente di dire niente sulla relazione causa-effetto Ad es. non vi è alcun criterio statistico per preferire () la regressione del consumo sul reddito piuttosto che (2) la regressione del reddito sul consumo (ricorda: entrambe le regressioni hanno lo stesso R 2 ): è la teoria economica che suggerisce di usare la versione (), in quanto asserisce che il reddito influenza il consumo e non viceversa Tuttavia per certe finalità può essere utile specificare la regressione in modo contrario alla relazione causa-effetto: nell esempio precedente la versione (2) potrebbe essere specificata dall Agenzia delle Entrate qualora disponga di dati sui consumi dei contribuenti e voglia usarli per inferire il loro reddito Date due variabili, i due possibili modi di specificare il modello di regressione (scambiando i ruoli di risposta ed esplicativa) sono solo due punti di vista alternativi: scegliere un punto di vista o l altro ovviamente non modifica la realtà, semplicemente si traggono impressioni diverse dello stesso fenomeno è come assistere ad un incontro di calcio dalla tribuna o dalla curva: ciò non modifica l incontro, anche se si ottengono impressioni diverse L. Grilli - Modelli Statistici - Marzo 20 27 L. Grilli - Modelli Statistici - Marzo 20 28
L. Grilli - Modelli statistici (corso avanzato) 20 8 Tipi di relazioni causa-effetto Date due variabili osservate Z e Z 2 le possibili relazioni causali sono: Z Z 2 Assenza di relazione Z Z 2 Z causa Z 2 Relazioni causa-effetto e variabili nascoste L unico modo affidabile di stabilire una relazione causaeffetto consiste nel raccogliere i dati tramite un esperimento controllato (assegnare a caso le unità statistiche ai diversi valori di X, poi osservare la Y) Al di fuori dei dati sperimentali, vi è sempre un pericolo in agguato: la relazione tra Z e Z 2 potrebbe essere in tutto o in parte dovuta ad una variabile non osservata, o comunque non inclusa nell analisi Z 0 (variabile nascosta) Z Z 2 Z 2 causa Z Z Z 2 Z causa Z 2 e viceversa L. Grilli - Modelli Statistici - Marzo 20 29 Z 0 Z Z 2 Associazione tra Z e Z 2 interamente dovuta a Z 0 Esempio. In una applicazione su bambini di diverse età: Z = lunghezza del piede; Z 2 = numero di vocaboli conosciuti; Z 0 = età. La regressione del numero di vocaboli sulla lunghezza del piede dà luogo ad una pendenza positiva significativa, ma ovviamente tra le due variabili non vi è alcuna relazione causa-effetto L. Grilli - Modelli Statistici - Marzo 20 30 Relazioni causa-effetto e variabili nascoste Esempio. In una applicazione su adulti di diverse età: Z = numero di sigari fumati al giorno Z 2 = capacità respiratoria Z 0 = età Z 0 Z Z 2 Associazione tra Z e Z 2 in parte dovuta a Z 0 La regressione della capacità respiratoria sul numero di sigari dà luogo ad una pendenza significativa (di segno negativo: cioè all aumentare del numero di sigari la capacità polmonare tende a diminuire). Tuttavia, entrambe le variabili sono associate all età: negli anziani è maggiore la frequenza sia di coloro che fumano il sigaro, sia di coloro che hanno scarsa capacità polmonare. Gli studi epidemiologici hanno dimostrato che il fumo (anche quello di sigaro) riduce la capacità polmonare, cioè esiste una relazione causa-effetto: tuttavia, se nell analisi si ignora che i soggetti hanno diverse età, risulta un associazione più forte di quanto è realmente (la pendenza della retta di regressione è troppo negativa perché incorpora anche l effetto dell età). Una semplice soluzione è di eseguire l analisi di regressione separatamente per fasce di età. [In epidemiologia si direbbe che in questo caso l età è una variabile confondente (confounder)] Qual è il modello giusto? La realtà è troppo complessa per poter essere rappresentata in modo esaustivo da un modello Pertanto: un modello è buono quando coglie gli aspetti salienti del fenomeno (ruolo descrittivo) aiuta a rispondere ai quesiti della ricerca (ruolo strumentale) Tutti i modelli sono sbagliati, ma alcuni sono utili (G.E.P. Bo) L. Grilli - Modelli Statistici - Marzo 20 3 L. Grilli - Modelli Statistici - Marzo 20 32
L. Grilli - Modelli statistici (corso avanzato) 20 9 Qual è il modello giusto? La specificazione del modello (in particolare la scelta delle variabili esplicative) è guidata da: Conoscenza del fenomeno (teoria) Dati (evidenza empirica) Lo statistico è chiamato a stabilire, caso per caso, un ragionevole compromesso tra parsimonia e complessità L. Grilli - Modelli Statistici - Marzo 20 33 MODELLO Problema reale Comportamento dei dati potenziali Dati campionari + Informazione ausiliaria V. Barnett (999) Comparative Statistical Inference (3rd ed.). Wile. L. Grilli - Modelli Statistici - Marzo 20 34