Regressione Logistica: un Modello per Variabili Risposta Categoriali

Transcript

1 : un Modello per Variabili Risposta Categoriali Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 1 / 54

2 Introduzione Premessa I modelli di regressione hanno lo scopo di studiare le determinanti di variabili risposta quantitative (continue) Tuttavia è possibile costruire modelli di regressione anche per variabili risposta categoriali e/o discrete Il caso delle variabili discrete è particolarmente complesso Nel caso delle variabili categoriali possiamo distinguere 3 casi: 1 Variabili risposta dicotomiche o binarie (del tipo 0 1, V-F, Sì-No, ecc.); 2 Variabili risposta politomiche o multinomiali ordinali (almeno 3 categorie di risposta ordinate); 3 Variabili risposta politomiche o multinomiali non ordinali o nominali (almeno 3 categorie di risposta ordinate). Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 2 / 54

7 Regressione Logistica Si consideri una variabile risposta dicotomica Y. Essa prende valori 0 o 1 Solitamente si parla, rispettivamente, di fallimento e successo Ricordiamo che la µ(y) = E(Y) è pari alla proporzione di soggetti per i quali si osserva il successo (Σ1/n) Quindi i modelli di regressione logistica stimano le proporzioni dei successi in una popolazione Ovviamente P(y = 1) rappresenta la probabilità di osservare un successo per ciascun soggetto della popolazione Nel caso di Y dicotomica, si assumerà che la sua distribuzione sia una v.c. binomiale Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 3 / 54

13 La distribuzione binomiale Per dati categoriali, possono verificarsi le seguenti condizioni: 1 Ciascuna osservazione cade in una di due categorie 2 Le probabilità per le due categorie sono le stesse per ciascuna osservazione. Indichiamo le probabilità con π per la categoria 1 e (1 π) per la categoria 2 3 I risultati di osservazioni successive sono indipendenti. Cioè, il risultato per una osservazione non dipende dal risultato delle altre osservazioni Un buon esempio è rappresentato dal lancio di una moneta: due possibili risultati (T o C), probabilità costante ad ogni lancio (π = 0.50) e il risultato ad ogni lancio è indipendente dai precedenti Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 4 / 54

18 Definizione: Probabilità per una Distribuzione Binomiale Sia π la probabilità che un osservazione assuma un valore della categoria 1. Nel caso di n osservazioni indipendenti, la probabilità di x successi per la categoria 1 è P(x) = n! x!(n x)! πx (1 π) n x, x = 0,1,2,...,n. Il simbolo n! è chiamato n fattoriale. Rappresenta n! = n. Ad esempio, 1! = 1, 2! = 1 2 = 2, 3! = = 6, e così via. Per definizione, 0! è pari a 1. Sostituendo ad x il valore del numero di successi desiderato per n e π fissati, si avrà la P(x), cioè la probabilità di avere x successi in n lanci della moneta Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 5 / 54

25 Proprietà di una distribuzione binomiale Proprietà di una distribuzione binomiale La distribuzione binomiale tende alla simmetria per π 0.50 ed è perfettamente simmetrica quando π = 0.50 con µ = nπ, σ = nπ(1 π). Ciò vale anche per la distribuzione campionaria di ˆπ Inoltre tale comportamento si ha anche per valori di π vicini a 0 o a 1, ma molto più lentamente Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 6 / 54

29 Proprietà di una distribuzione binomiale Distribuzione campionaria di ˆπ per vari valori di π e n Probability n 10 Probability p.1 p p.1 Probability pˆ 1.0 n 50 Probability 0 p pˆ p.1 p.5 pˆ p.1 n 100 Probability 0 p.5 Probability pˆ 1.0 p.1 p.5 pˆ p.1 p.5 pˆ 1.0 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 7 / 54

30 Proprietà di una distribuzione binomiale Distribuzione campionaria di ˆπ per vari valori di π e n Probability n 10 Probability p.1 p p.1 Probability pˆ 1.0 n 50 Probability 0 p pˆ p.1 p.5 pˆ p.1 n 100 Probability 0 p.5 Probability pˆ 1.0 p.1 p.5 pˆ p.1 p.5 pˆ 1.0 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 7 / 54

31 Proprietà di una distribuzione binomiale Esempio 6.10 Genere e scelta degli allievi per il corso di management Nell Esempio 6.1 avevamo trattato il caso di una popolazione di dipendenti per metà M e metà F Scelti a caso n = 10 dipendenti, sia x il numero di F e π = 0.50 la probabilità di scegliere una F La probabilità di avere x F scegliendo n = 10 dipendenti è P(x) = 10! x!(10 x)! (0.50)x (0.50) 10 x, x = 0,1,...,10. Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 8 / 54

35 Proprietà di una distribuzione binomiale Ad esempio, la probabilità di non avere nessuna F (x = 0) è P(0) = 10! 0!10! (0.50)0 (0.50) 10 = (0.50) 10 = La probabilità che sia scelta esattamente una femmina è pari a P(1) = 10! 1!9! (0.50)1 (0.50) 9 = 10(0.50)(0.50) 9 = Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 9 / 54

36 Proprietà di una distribuzione binomiale Ad esempio, la probabilità di non avere nessuna F (x = 0) è P(0) = 10! 0!10! (0.50)0 (0.50) 10 = (0.50) 10 = La probabilità che sia scelta esattamente una femmina è pari a P(1) = 10! 1!9! (0.50)1 (0.50) 9 = 10(0.50)(0.50) 9 = Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 9 / 54

37 Proprietà di una distribuzione binomiale Modello a Probabilità Lineare Nel caso di un modello con una sola variabile esplicativa (che sarà continua) avremo P(y = 1) = α+βx In questo caso si suppone che la probabilità di successo sia in funzione lineare con X Per questa ragione prende il nome di Modello a Probabilità Lineare Tuttavia è facile mostrare come tale modello sia inadeguato per prevedere la P(y = 1) Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 10 / 54

41 Proprietà di una distribuzione binomiale Sappiamo che la P(y = 1) è un valore dell intevallo [0,1] e non eccede tale intervallo La figura mostra che il Modello a Probabilità Lineare non rispetta questa condizione P(y 1) 1 Logistic (1) Linear Logistic (2) 0 x Al contrario, la funzione logistica (casi 1 e 2), si dimostra adatta allo scopo A questo punto il problema è: come faccio a linearizzare una funzione logistica? Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 11 / 54

44 Il Modello di Regressione Logistica per Risposte Binarie Il Modello di Regressione Logistica per Risposte Binarie In primo luogo scriviamo l equazione di regressione di Y su X, utilizzando la funzione logistica P(y = 1) = eα+βx 1+e α+βx. In seguito riprenderemo questa formulazione. Per ora ci basti osservare come la relazione tra Y e X non sia lineare, bensì logistica Per semplificare la notazione e ottenere risultati più semplici, linearizziamo questa espressione Il modo più semplice è passare al logaritmo naturale (base e) ambo i membri dell equazione e otteniamo log[p(y = 1)] = log(e α+βx ) log(1+e α+βx ) = = log(e α+βx ) 0 log(e α+βx ) = 0 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 12 / 54

48 Il Modello di Regressione Logistica per Risposte Binarie Per risolvere il problema, si costruisce il rapporto tra la probabilità di successo e la probabilità di insuccesso e lo si passa al logaritmo [ ] P(y = 1) log = α+βx. 1 P(y = 1) Il rapporto di probabilità P(y = 1)/[1 P(y = 1)] è definito odds o rapporto tra quote Ad es., se P(y = 1) = 0.75, l odds vale 0.75/0.25= 3.0, cioè la probabilità del successo è 3 volte il valore di quella dell insuccesso La quantità log [P(y = 1)/(1 P(y = 1))] trasformazione logistica o logit In tal modo si avrà il modello di regressione logistica logit[p(y = 1)] = α+βx. Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 13 / 54

53 Il Modello di Regressione Logistica per Risposte Binarie Interpretazione del parametro β Il logit[p(y = 1)] varia linearmente in funzione di X oltre l intervallo [0, 1], mentre la [P(y = 1)] varia seguendo la funzione logistica entro l intervallo [0,1] Il valore di β indica se la [P(y = 1)] cresce (β > 0) o decresce (β < 0) al crescere di X Nelle due curve del grafico, la (2) ha un β più grande di quello della curva (1) P(y 1) 1 Logistic (1) Linear Logistic (2) 0 x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 14 / 54

56 Il Modello di Regressione Logistica per Risposte Binarie Interpretazione del parametro β Quando P(y = 1) = 0.50, l odds P(y = 1)/[1 P(y = 1)] = 1, conseguentemente il log[p(y = 1)/(1 P(y = 1))] = 0 Per determinare il valore di x per il quale P(y = 1) = 0.50, eguagliamo il log(odds) pari a 0 al secondo membro dell equazione del modello α+βx Risolvendo per x otteniamo P(y = 1) = 0.50 quando x = α/β In questo modo siamo in grado di determinare il valore di X per il quale la probabilità di successo eguaglia quella di insuccesso Le stime dei parametri α e β sono ottenute applicando il Metodo della Massima Verosimiglianza e non quello dei Minimi Quadrati Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 15 / 54

61 Il Modello di Regressione Logistica per Risposte Binarie Esempio 15.1 Reddito e Possesso delle Carte di Credito Si consideri un campione di n = 100 adulti selezionati casualmente in Italia. Si è rilevato il reddito annuale e se possedevano o meno una carta di credito La variabile risposta è dicotomica (possesso CC: 1 = Sì, 0 = No). Il predittore è quantitativo A ciascun livello di X, si può calcolare la probabilità di possedere una CC, attraverso il rapporto tra i soggetti che posseggono una CC e il totale soggetti per quel valore di X Tabella: Reddito Annuale (in Migliaia di Euro) e Possesso di una Carta di Credito. Number Credit Number Credit Number Credit Income Cases Cards Income Cases Cards Income Cases Cards Fonte: Si ringrazia R. Piccarreta, Università Bocconi University, Milano. Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 16 / 54

64 Il Modello di Regressione Logistica per Risposte Binarie Il modello stimato è logit[ˆp(y = 1)] = x. Il valore di β = > 0, indica che al crescere del Reddito Annuale cresce la probabilità di possedere una CC Il software fornisce il seguente prospetto Tabella: Modello di Regressione Logistica sul Possesso della Carta di Credito in Italia B S.E. Exp(B) reddito costante Il valore exp(b) = exp(.1054) = consente di calcolare l odds ratio (OR) Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 17 / 54

68 Il Modello di Regressione Logistica per Risposte Binarie Il grafico mostra la funzione di previsione per il logit 1 P(y ˆ 1) 0 Income La probabilità di successo vale 0.50 per x = ˆα/ˆβ = (3.518)/(0.105)= 33.5 Cioè la probabilità stimata di possedere una CC è inferiore a 0.50 per redditi inferiori a 33.5 migliaia di euro, superiore a 0.50 per redditi superiori a quella soglia Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 18 / 54

72 Il Modello di Regressione Logistica per Risposte Binarie Equazione di Regressione Logistica per le Probabilità Abbiamo visto a cosa corrisponde direttamente la P(y = 1) Si può, quindi, costruire un equazione che stimi direttamente tale probabilità e non il suo logit, cioè P(y = 1) = eα+βx 1+eα+βx. (1) In questa equazione la potenza di e rappresenta l antilogaritmo Ricordiamo che il numero di Nepero e rappresenta la base del logaritmo naturale, cioè il numero a cui bisogna elevare la base per avere l argomento. Ad es., log e (1) = 0 in quanto e 0 = 1 Attraverso la formula (1) è possibile determinare la probabilità di successo per qualunque valore di x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 19 / 54

Vedere altro