Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25
Metodi di classificazione I metodi usati per analizzare situazioni in cui Y è una variabile qualitativa sono noti come metodi di classificazione. Prevedere una variabile risposta qualitativa significa assegnare l osservazione ad una categoria o una classe. D altra parte, i metodi utilizzati per la classificazione prima di tutto predicono la probabilità che l unità appartenga ad una certa classe e poi effettuano la classificazione. In questo senso sono anche dei metodi di regressione. In molti casi può essere in effetti più interessante stimare la probabilità di appartenenza ad una certa classe che effettuare una mera classificazione. Ad esempio, per una compagnia assicuratrice, può essere più importante conoscere la probabilità che una richiesta di risarcimento sia fraudolenta piuttosto che una semplice classificazione in fraudolenta/non-fraudolenta. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 2/25
Tecniche principali I metodi di classificazione più tradizionali sono La regressione logistica L analisi discriminante (lineare e quadratica) La classificazione KNN Altri metodi, computer intensive, sono I modelli additivi generalizzati Gli alberi di classificazione, foreste casuali e boosting Support vector machines file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 3/25
Alcuni esempi Una società di analisi vuole stimare la probabilità di fallimento di un impresa sulla base di indicatori di bilancio e di tendenza del mercato Un servizio di online banking deve essere in grado di determinare se un operazione svolto sul sito è fraudolenta, sulla base dell indirizzo IP dell utente, cronologia delle transazioni passate, e così via Un general store vuole classificare i consumatori e stimare le probabilità di acquisto di determinate categorie di prodotti in base ad alcune caratteristiche demografiche (età, titolo di studio, sesso, etc.) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 4/25
Data set Default Un data set simulato (10000 casi) disponibile nella libreria ISLR in cui una società creditizia vuole stimare la probabilità di default (incapacità di fare fronte ai pagamenti ) in base ad alcune caratteristiche del debitore Y - default: variabile binaria (default o no) X 1 - student: variabile binaria (studente o no) X 2 - balance: l importo medio di debito residuo sulla carta di credito dopo i versamenti mensili X 3 - income: il reddito dell unità file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 5/25
I dati library(islr) data(default) str(default) 'data.frame': 10000 obs. of 4 variables: $ default: Factor w/ 2 levels "No","Yes": 1 1 1 1 1 1 1 1 1 1... $ student: Factor w/ 2 levels "No","Yes": 1 2 1 1 1 2 1 2 1 1... $ balance: num 730 817 1074 529 786... $ income : num 44362 12106 31767 35704 38463... head(default) default student balance income 1 No No 729.5265 44361.625 2 No Yes 817.1804 12106.135 3 No No 1073.5492 31767.139 4 No No 529.2506 35704.494 5 No No 785.6559 38463.496 6 No Yes 919.5885 7491.559 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 6/25
Defaut=Yes (arancio). Default=No (blu) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 7/25
file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 8/25
La regressione logistica La regressione logistica, anzichè modellare direttamente Y, propone un modello per la probabilità che Y appartenga ad una particolare categoria. Nel caso dei dati Default, abbiamo Y ={ 1 0 se Default altrimenti Supponiamo in prima istanza di avere un solo predittore, regressione logistica propone un modello per stimare X. La p(x) = P(Y = 1 X) Le stime prodotte dal modello sono usate per analisi e classificazione file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 9/25
Esempio Nel caso dei dati Default, utilizzando, ad esempio, balance come predittore, interessa stimare Per ogni valore dato di balance, si può fare una previsione per default. Ad esempio, si potrebbe prevedere default = Yes per ogni individuo per il quale. Alternativamente, se la società creditizia vuole essere prudente allora si può scegliere di utilizzare una soglia più bassa, come ad esempio. p(balance) > 0.1 p(balance) = P(default = Y es balance) p(balance) > 0.5 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 10/25
Il modello logistico Poiché l obbiettivo è quello di modellare una probabilità, sempre compresa in [0, 1] il modello logistico propone di utilizzare la funzione logistica con un po di manipolazione si ottiene La quantità qualsiasi valore in. p(x) = e β 0 + β 1 X 1 + e β 0 + β 1 X p(x) 1 p(x) p(x)/[1 p(x)] [0, ) = β 0 β 1 X e + è chiamata odds, e può assumere file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 11/25
Odds Un odds vicino a 0 indica una probabilità molto bassa di default Ad esempio, tra gli individui con odds in media ogni andrà in default poiché implica un odds pari a p(x) = 0.2 0.2 1 0.2 = 1/4 1 5 = 1/4 Gli odds sono tradizionalmente utilizzati al posto delle probabilità nelle scommesse. Dato un odds è possibile ricavare la probabilità da p(x) = odds 1 + odds file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 12/25
Logit Il logaritmo naturale dell odds ottiene p(x) log( ) = β + X 1 P(X) 0 β 1 che prende il nome di logit o log-odds ed è lineare in X Nella regressione logistica dunque il coefficiente β 1 è legato alla variazione del logit e non alla variazione della probabilità cui è legato non-linearmente Spesso si analizza il coefficiente e β 1 che indica la variazione dell odds in corrispondenza di una viaraizione di X poiché p(x) 1 p(x) = X = ( e β 0 + β 1 e β 0 e β 1 ) X file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 13/25
Regressione logistica o lineare? Una regressione lineare propone il modello p(x) = + X β 0 β 1 La regressione logistica propone il modello p(x) = e β 0 + β 1 X 1 + e β 0 + β 1 X Pur essendo di fatto utilizzabile in questo contesto il modello di regressione lineare può produrre stime di probabilità negative o superiori a 1 Se il numero di categorie di Y diventa inappropriato. è superiore a 2 il modello lineare file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 14/25
Confronto grafico file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 15/25
Stima dei coefficienti Il metodo dei minimi quadrati non è adatto ai modelli di regressione logistica. Si usa invece il metodo della massima verosimiglianza Per i dati Default si ottiene Estimate Std. Error z value Pr(> z ) (Intercept) -10.6513 0.3612-29.49 0.0000 balance 0.0055 0.0002 24.95 0.0000 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 16/25
Interpretazione dei risultati = 0.0055 Vediamo che β^1 ; ciò indica che un aumento in balance è associato a un aumento della probabilità di default. Per essere precisi, un aumento di una unità di balance è associato ad un aumento del log-odds di default di unità. = = 1.0055 0.0055 In alternativa e β^1 e 0.0055 indica la variazione dell odds in corrispondenza di una variazione di balance Ad esempio se balance=1500 $ allora l odds è pari a p(1500) 1 p(1500) = = 0.0906 e 10.6513+0.0055 (1500) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 17/25
Con relativa probabilità di default pari a odds 0.0906 p(1500) = = = 0.08307 (1 + odds) 1 + 0.0906 Una variazione di balance pari a 200 implica una variazione dell odds pari a 3.00417. Si verifichi infatti che p(1700) 1 p(1700) La statistica verifica dell ipotesi = 0.27218 = 0.0906 3.00417 ed il relativo p-value sono usati per la contro H a β 1 z = β^1 /SE( β^1 ) H 0 : β 1 = 0 : 0 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 18/25
Predittori qualitativi Il caso dei predittori qualitativi è trattato esattamente come nella regressione lineare, ossia attraverso l uso di variabili dummy. Ad esempio, se per i dati Default proviamo a stimare p(student), Estimate Std. Error z value Pr(> z ) (Intercept) -3.5041 0.0707-49.55 0.0000 studentyes 0.4049 0.1150 3.52 0.0004 I risultati indicano che uno studente ha, in media, probabilità di default più elevata rispetto ad un non-studente e 3.5041+0.4049 P^ (default = Y es student = Y es) = = 0.0431 1 + e 3.5041+0.4049 (default = Y es student = No) = = 0.0292 P^ e 3.5041 1 + e 3.5041 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 19/25
Regressione logistica con più predittori Per X = ( X 1,, X p ) il modello di regressione logistica multipla è ed il logit p(x) = e β 0 + β 1 X 1 + β p X p 1 + e β 0 + β 1 X 1 + β p X p p(x) logit(p(x)) = log = + + 1 p(x) β 0 β 1 X 1 β p X p file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 20/25
Esempio Per il data set Default, utilizzando tutti i predittori otteniamo Estimate Std. Error z value Pr(> z ) (Intercept) -10.8690 0.4923-22.08 0.0000 balance 0.0057 0.0002 24.74 0.0000 I(income/1000) 0.0030 0.0082 0.37 0.7115 studentyes -0.6468 0.2363-2.74 0.0062 I p-value associati a balance e student sono molto piccoli, indicando che ciascuna di queste variabili è associata alla probabilità di default. Al contrario di quanto visto prima, il coefficiente per la variabile student è negativo, indicando che gli studenti hanno meno probabilità di default dei non-studenti. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 21/25
Confounding Il coefficiente negativo per student nella regressione logistica multipla indica che per un dato valore di balance e income, uno studente ha minor probabilità di default di un non-studente. Il problema è dovuto al fenomeno, già discusso, della distorsione da variabili omesse, (o confounding) ed al fatto che le variabili student e balance sono correlate. Gli studenti hanno maggior probabilità di avere balance più elevato che è associato a tassi di default più elevati. Così, anche se un singolo studente, per un dato balance e income, tenderà ad avere una minor probabilità di default rispetto ad un nonstudente, il fatto che gli studenti nel complesso tendano ad avere un balance più elevato significa che, nel complesso, gli studenti tendono al default ad un tasso superiore a quello dei non studenti. Questa distinzione è importante per una società di carte di credito che sta cercando di stabilire a quali persone dovrebbero offrire credito. Uno studente è più rischioso di un non-studente in assenza di indicazioni relative a balance. La situazione si rovescia a parità di balance file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 22/25
Spiegazione grafica Studenti: arancio. Non-studenti: blu Sinistra: il tasso di default per student è uguale o inferiore a quello dei non-studenti per ogni dato valore di balance. Le linee tratteggiate, corrispondenti alle probabilità di default medie (calcolate du tutti i valori di balance e income) suggeriscono il contrario. Destra: Spiegazione: student e balance sono correlate. Gli studenti tendono ad avere livelli elevati di debito, che è a sua volta associato ad una maggiore probabilità di default. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 23/25
Regressione logistica con più classi di previsione La regressione logistica può essere estesa al caso in cui la variabile abbia più di due categorie. Tuttavia in questi casi l analisi discriminante è molto più agevole da usare e pertanto più diffusa nell utilizzo pratico. Y file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 24/25
Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 25/25