La regressione logistica

Транскрипт

1 La regressione logistica Supponiamo che la variabile di interesse y sia una variabile dicotoma, che assuma solo i valori 0 ovvero 1, corrispondenti a successo o insuccesso. Sia p = P (S) = P (Y = 1) la probabilità di osservare un successo. In molte applicazioni è realistico pensare che p dipenda dal valore di una qualche variabile x quantitativa, o anche da più di una, p = p(x). Ad esempio la probabilità che una macchina abbia bisogno del servizio di soccorso può dipendere dai km percorsi, dal numero di interventi di manutenzione, etc. Se supponiamo un modello lineare del tipo Y = β 0 + β 1 x β k x k + ε allora E(Y x) = p(x) = β 0 + β 1 x β k x k = β x non sembra essere realistico in quanto deve essere 0 < p(x) < 1 per ogni x. Si richiede allora a E(Y x) di essere una funzione di β 0 + β 1 x β k x k. La funzione che si è dimostrata utile in molte applicazioni è la funzione logistica f(z) = 1+e ez z. Si suppone quindi che il legame sia E(Y x) = p(x) = eβ x 1 + e β x ovvero logitp(x) = ln p(x) 1 p(x) = β x 1

2 p(x) β 1 < 0 p(x) β 1 > x x I grafici rappresentano la funzione p(x) per particolari valori di β 0 e β 1. In particolare per β 1 < 0 la probabilità di successo decresce al crescere di x, mentre per β 1 > 0 la probabilità del successo cresce al crescere di x. p(x) La funzione è detto ODDS RATIO e rappresenta quante volte il 1 p(x) successo è più plausibile dell insuccesso. 2

3 La regressione logistica è una caso particolare di Modello lineare generalizzato (glm). In questi modelli è una trasformazione (tramite la link function) di E(Y ) che segue un modello lineare. Nel modello logit la link function è la funzione logit. Abbiamo infatti E(Y ) = p ln p 1 p = β x La stima dei parametri avviene, una volta costruita la funzione di verosimiglianza per le osservazioni Y i, con metodi iterativi in quanto non si riesce a dare una forma esplicita al massimo della logverosimiglianza. Il metodo usato è l IWLS (iterative weighted least squares). Si noti che nella regressione logistica si ipotizza che Y è distribuita come una Binomiale con parametri n = 1 e p incognita. Si può dimostrare che asintoticamente i parametri si distribuiscono normalmente per cui si possono effettuare i test di significatività sui parametri, e quando ci sono più parametri i test sull opportunità di includerli nel modello. 3

4 Esempio: Si considerino i dati relativi alla temperatura di lancio e all incidenza dei fallimenti per gli O rings in 24 lanci dello Space Shuttle prima del disastro del Challenger nel gennaio Temp Failure 1 53 Y 2 56 Y 3 57 Y 4 63 N 5 66 N 6 67 N 7 67 N 8 67 N Temp Failure 9 68 N N N Y Y Y N N Temp Failure N Y N N N N N N In questo caso abbiamo solo una variabile esplicativa, Temp. Ipotizziamo un modello logistico per l incidenza dei successi (No Failure= successo). ln p(x) 1 p(x) = β 0 + β 1 x p(x) è la probabilità di successo, ovvero di Failure=No, quando osserviamo T emp = x. 4

5 I valori dei parametri stimati sono riportati nella seguente tabella Estimate Std. Error z value Pr(> z ) (Intercept) Temp La curva stimata per p(x) è data da La funzione p(x) stimata p(x) x Siamo in grado anche di stimare l odds ratio per x = 31 (Temp per il Challenger esploso) che vale cioè la probabilità di un successo (N) è volte quella di un insuccesso (Y). 5

6 Regressione non lineare A volte, per motivi teorici o esaminando i risultati della diagnostica basata sull analisi dei residui, il modello lineare semplice o multiplo può risultare non adatto a spiegare la variabilità della variabile y. Si ricorre allora a modelli alternativi. Consideriamo una vasta gamma di modelli che non sono lineari nei parametri o nella variabili esplicative. Supponiamo che il legame tra le variabili y e x sia del tipo y = f(x) ma a causa di un errore non osserviamo y ma il valore di una v.c. Y = f(x) + ε In generale f è una funzione che dipende da un certo numero di parametri (θ) e da un certo numero di variabili esplicative x. Il termine di errore ε si suppone normalmente distribuito. Se la forma della funzione f è nota a meno di un numero finito di parametri si parla di regressione parametrica. Se la f è totalmente incognita si parla di regressione non parametrica. 6

7 Se il modello è del tipo Y = f(x, θ) + ε, θ = (θ 1,..., θ p ), E(ε) = 0, V ar(ε) = σ 2 supponiamo di avere n osservazioni indipendenti (x i, y i ) che soddisfano y i = f(x i, θ) + ε i, θ = (θ 1,..., θ p ), ε i i.i.d, E(ε i ) = 0, V ar(ε i ) = σ 2 Introducendo la notazione matriciale y = (y 1,..., y n ), f(x, θ) = (f(x 1, θ),..., f(x n, θ)), ɛ = (ε 1,..., ε n ) la stima ai minimi quadrati è data da ˆθ = argmin θ SSE, dove SSE = y f(x, θ) 2 = n i=1 (y i f(x i, θ)) 2 La procedura che ci da la stima ˆθ si chiama NLS (non linear least squares) e differisce da quella OLS in quanto: a) non c è una formula esplicita per la stima ˆθ b) per trovare ˆθ si usano procedure iterative c) occorre fornire dei valori iniziali ai parametri 7

8 La procedura iterativa Seppure esistano numerose tecniche per trovare ˆθ = argmin θ SSE, molte seguono questo schema. Sia θ (0) un valore iniziale del parametro θ. Possiamo scrivere f(x, θ) = f(x, θ (0) ) + p j=1 (θ j θ (0) j ) θ j f(x, θ) θ=θ (0) Questo definisce un piano tangente alla superficie definita da f nel punto θ (0). Posto F kj (x k, θ (0) ) = possiamo riscrivere θ j f(x k, θ) θ=θ (0) w (0) k = f(x k, θ (0) ) p j=1 θ (0) j F kj (x k, θ (0) ) f(x, θ) = w (0) + F (x, θ (0) ) θ, dove w (0) = (w (0) 1,..., w(0) n ) e F (x, θ (0) ) è la matrice di componenti F kj (x k, θ (0) ), k = 1,..., n, j = 1,..., p. 8

9 Il processo iterativo consiste nel regredire f sul piano tangente con intercetta w (0). Il modello approssimato diviene, posto F (x, θ) = F (θ) y = w (0) + F (θ (0) ) θ e la stima ai minimi quadrati ci da l approssimazione successiva θ (1) = ( F (θ (0) ) T F (θ (0) ) ) 1 F (θ (0) ) T (y w (0) ) Il processo continua fino a convergenza, cioè fino a quando la differenza tra due valori successivi di θ (k) non è più piccolo di un valore prefissato. La stima ˆθ ottenuta è una approssimazione della stima ˆθ NLS. Si noti che nel modello lineare w (0) = 0, F (θ (0) ) = X e il processo converge in un passo. 9

10 Inferenza per ˆθ Sotto opportune ipotesi (legate alla derivabilità) sulla funzione f si ha che asintoticamente (quando il numero delle osservazioni n ) ˆθ N(θ, σ 2 (F (θ) F (θ)) 1 ). La stima della varianza asintotica di ˆθ si ottiene sostituendo F (θ) con una sua stima ˆF = F (ˆθ) e come stima di σ 2 la quantità s 2 = SSE n p. La stima della matrice di varianza e covarianza di ˆθ risulta quindi s 2 ( ˆF ˆF ) 1. In analogia a quanto fatto nel caso dell analisi di regressione multivariata, indichiamo con C = ( ˆF ˆF ) 1. L intervallo di confidenza (asintotico) a livello di fiducia 1 α per il parametro θ i è dato da ) (ˆθ i t 1 α/2 s 2 c ii ; ˆθ i + t 1 α/2 s 2 c ii, dove c ii sono gli elementi sulla diagonale principale della matrice C. La verifica di ipotesi per la significatività dei parametri θ si basa sulla statistica che asintoticamente si distribuisce come una t n p. t = ˆθ i θ 0 i s 2 c ii 10

11 Modelli intrinsecamente lineari Una funzione y = f(x) è detta intrinsecamente lineare se attraverso una trasformazione di x, di y o di entrambe le variabili la funzione può essere espressa come y = β 0 + β 1 x, y = g(y), x = h(x). Le più utilizzate funzioni di questo tipo sono descritte nella tabella seguente dove si riportano anche le trasformazioni da applicare per rendere il legame lineare Funzione Trasf. variabile x Trasf. variabile y Forma Lineare y = αe βx y = ln y y = ln(α) + βx y = αx β x = log x y = ln y y = ln(α) + βx y = α + β log x x = log x y = α + βx y = α + β 1 x x = 1 x y = α + βx Un modello probabilistico che lega il valore di una v.c. Y a x è detto intrinsecamente lineare se attraverso una trasformazione di x o di Y o di entrambe le variabili la funzione può essere espressa come Y = β 0 + β 1 x + ε 11

12 e (βx) β > 0 e (βx) β < 0 x β β < 0 β > 1 x β < β < x x x x βlog(x) β > 0 βlog(x) β < 0 α + β1 x y = α β < 0 α + β1 x y = α β < x x x x 12

13 I modelli probabilistici che corrispondono alle quattro funzioni della tabella precedente sono Il modello esponenziale moltiplicativo: Y = αe βx ε Con la trasformazione Y = ln Y otteniamo il modello Y = β 0 +β 1 x +ε con x = x, β 0 = ln α β 1 = β e ε = ln ε. Se ε ha una distribuzione Lognormale con E(ε) = e σ2 /2 e V ar(ε) = e σ2 (e σ2 1) allora ε è N(0, σ 2 ). Il modello con potenza moltiplicativo: Y = αx β ε Otteniamo il modello Y = β 0 + β 1 x + ε con Y = ln Y, x = ln x, β 0 = ln α β 1 = β e ε = ln ε. Se ε ha una distribuzione Lognormale con E(ε) = e σ2 /2 e V ar(ε) = e σ2 (e σ2 1) allora ε è N(0, σ 2 ). 13

14 Il modello logaritmico additivo: Y = α + β log x + ε Otteniamo il modello Y = β 0 + β 1 x + ε con Y = Y, x = log x, β 0 = α β 1 = β e ε = ε. In questo caso ε = ε è N(0, σ 2 ). Il modello reciproco additivo: Y = α + β 1 x + ε Otteniamo il modello Y = β 0 + β 1 x + ε con Y = Y, x = 1 x, β 0 = α β 1 = β e ε = ε. In questo caso ε = ε è N(0, σ 2 ). Si noti che il modello esponenziale additivo Y = αe βx + ε e il modello con potenza additivo Y = αx β + ε non sono intrinsecamente lineari. I parametri dei modelli trasformati si possono direttamente stimare utilizzando OLS per i dati trasformati y e x. Dalle stime di di ˆβ 0 e ˆβ 1 si può eventualmente risalire ai parametri dei modelli di partenza trasformandoli opportunamente. Queste stime in generale non coincidono con quelle ottenute direttamente con NLS sui dati non trasformati. 14

15 Esempio: I seguenti dati sono tratti dall articolo Thermal Endurance of Polyester Enameled Wires Using Twisted Wire Specimens, IEEE Trans. Insulation, 1965, 38 44, dove in un test per verificare la resistenza termica si vuole capire il legame tra la temperatura e il tempo di vita del filo di poliestere smaltato Temp Lifetime Temp Lifetime I seguenti grafici riportano i dati con varie trasformazioni sia per la variabile x che per la variabile y. 15

16 Lifetime Lifetime Temp /Temp log(lifetime) log(lifetime) Temp /Temp 16

17 Se applichiamo il modello lineare semplice Y = β 0 + β 1 x + ε otteniamo la retta riportata in figura Modello 1 Lifetime Temp Le stime dei parametri sono β 0 = e β 1 = , entrambi significativi, la statistica r 2 = denota un discreto adattamento ma dal grafico si nota come i valori previsti per x = 240 siano negativi (y è un tempo di attesa!) L analisi dei residui mostra delle patologie per cui il modello lineare non sembra adatto a spiegare la dipendenza di y da x. 17

18 x vs residui y stimati vs residui Residui Standardizzati Residui Standardizzati x i y^i y vs y stimati Normal Q Q Plot y^i Sample Quantiles y Theoretical Quantiles 18

19 La relazione tra ln(y) e x sembra essere lineare per cui ipotizziamo un legame esponenziale del tipo y = αe βx. Il modello trasformato risulta ln y = ln α + βx. Supponendo che il modello probabilistico sia il modello esponenziale moltiplicativo, possiamo stimare con il metodo OLS i parametri del modello trasformato Otteniamo i seguenti risultati y = β 0 + β 1 x Estimate Std. Error t value Pr(> t ) (Intercept) Temp Inoltre r 2 = Questo valore si riferisce all adattibilità della retta ai dati trasformati. Per misurare la performance del modello è meglio risalire dai valori previsti dal modello ŷ i tramite l antitrasformata ai dati ŷ i = eŷ i e quindi effettuare il grafico di y i contro ŷ i 19

20 Modello 2 y vs y stimati Modello 2 log(lifetime) y^i Temp y Una ulteriore misura della performance del modello può essere valutata andando a calcolare la somma dei residui sui dati di partenza per entrambi i modelli. 20

21 Osservando il grafico dei dati originari si può anche ipotizzare un modello del tipo y = αe β 1 x In questo caso le stime sono Estimate Std. Error t value Pr(> t ) (Intercept) I(1/Temp) Si noti che calcolare la stima di s per i tre modelli sui dati originali da questi risultati s 1 = , s 2 = , s 3 = poichè il numero di parametri utilizzati nei tre modelli è lo stesso si preferisce il terzo. 21

22 I grafici riportano la retta stimata per i dati trasformati e il grafico dei valori y contro i valori ŷ ottenuti ritrasformando i dati previsti con il modello lineare Modello 3 y vs y stimati Modello 3 log(lifetime) y^i /Temp y Si noti come l adattabilità sia lievemente migliorata rispetto al modello 2. 22

23 Osservazioni 1. Stimare i parametri β 0 e β 1 del modello lineare trasformato e poi trasformare questi parametri per ottenere i parametri del modello originario non è come stimare con il metodo NLS i parametri del modello non linearizzato. 2. Se i modelli non sono intrinsecamente lineari occorre ricorrere direttamente alla stima dei parametri del modello tramite NLS. Le soluzioni si trovano con procedure iterative 3. Per i modelli trasformati le stime ottenute con OLS sono ottime per la stima dei parametri trasformati. L ottimalità non si trasmette sulla stima dei parametri dei modelli originari ottenuta trasformando le stime ottenute con OLS. 4. Una volta stimati i parametri del modello trasformato, r 2 si riferisce all adattabilità di questo modello ai dati trasformati. Sebbene un r 2 alto sia indice di una buona adattabilità del modello originario non lineare ai dati osservati, questo valore non è riferito alle osservazioni originarie. 23

24 Minimi quadrati pesati WLS In molti contesti applicativi non è realistico pensare ad errori omoschedastici. Ad esempio se pensiamo ad uno studio sulla dipendenza del profitto di un impresa dal livello di investimenti in ricerca e sviluppo è ragionevole pensare che la variabilià del profitto cresca all aumentare degli investimenti. Errori Eteroschedastici y x 24

25 Supponiamo che gli errori del modello Y = Xβ + ɛ siano tali che E(ε i ) = 0 e Var(ε i ) = λ i σ 2, Cov(ε i, ε j ) = 0 con λ i noti e σ 2 incognito. Se denotiamo con Ω la matrice (n n) varianza e covarianza del vettore ɛ il miglior stimatore lineare non distorto risulta ˆβ = (X T Ω 1 X) 1 X T Ω 1 y ˆβ è detto stima ai minimi quadrati pesati (WLS, weighted least squares) in quanto è ottenuto con OLS sui dati trasformati opportunamente in modo da ricondursi ad errori omoschedastici. La matrice varianza e covarianza per lo stimatore ˆβ è Varˆβ = σ 2 (X T Ω 1 X) 1 25

26 Esempio: il seguente grafico rappresenta i dati rilevati su 39 aziende relativi agli investimenti effettuati in ricerca e sviluppo (x in migliaia di euro) e il profitto (y in centinaia di migliaia di euro) Scatter plot y x 26

27 Dalla regressione lineare otteniamo i seguenti risultati Estimate Std. Error t value Pr(> t ) (Intercept) x con un standard error pari a s = e r 2 =

28 L analisi dei residui mostra una forte eteroschedasticità. Residui Residui x Valori Stimati 28

29 Proponiamo quindi una regressione con errori eteroschedastici e con i WLS otteniamo i seguenti risultati Estimate Std. Error t value Pr(> t ) (Intercept) x con un standard error pari a e r 2 =