Regressione logistica



Documenti analoghi
Regressione logistica. Strumenti quantitativi per la gestione

Regressione logistica. Strumenti quantitativi per la gestione

Statistical learning Strumenti quantitativi per la gestione

Regressione Logistica: un Modello per Variabili Risposta Categoriali

Regressione lineare multipla Strumenti quantitativi per la gestione

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Capitolo 25: Lo scambio nel mercato delle assicurazioni

Capitolo 25: Lo scambio nel mercato delle assicurazioni

LEZIONE n. 5 (a cura di Antonio Di Marco)

Il metodo della regressione

4 3 4 = 4 x x x 10 0 aaa

Capitolo 13: L offerta dell impresa e il surplus del produttore

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

(a cura di Francesca Godioli)

Elementi di Psicometria con Laboratorio di SPSS 1

Economia Applicata ai sistemi produttivi Lezione II Maria Luisa Venuta 1

MINIMI QUADRATI. REGRESSIONE LINEARE

Prova di autovalutazione Prof. Roberta Siciliano

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

TEMPO E RISCHIO. Il valore del denaro è funzione del tempo in cui è disponibile

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Relazioni tra variabili

= variazione diviso valore iniziale, il tutto moltiplicato per 100. \ Esempio: PIL del 2000 = 500; PIL del 2001 = 520:

Analisi di scenario File Nr. 10

Elementi di Psicometria con Laboratorio di SPSS 1

Innovazione tecnologica e performance finanziaria nel settore agro-alimentare M. Baussola SIES Universita Cattolica

lezione 18 AA Paolo Brunori

Calcolo delle probabilità

Esercitazione relativa al cap. 10 INVESTIMENTI

Esercitazione n.2 Inferenza su medie

Fondamenti e didattica di Matematica Finanziaria

STATISTICA IX lezione

Soluzioni degli Esercizi del Parziale del 30/06/201 (Ippoliti-Fontanella-Valentini)

Statistica. Lezione 6

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e

Statistica inferenziale

Esercizio 1: trading on-line

Lineamenti di econometria 2

Blanchard, Macroeconomia Una prospettiva europea, Il Mulino 2011 Capitolo IV. I mercati finanziari. Capitolo IV. I mercati finanziari

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo


Capitolo 23: Scelta in condizioni di incertezza

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Teoria dei Giochi. Anna Torre

Cos è l ISC (Indicatore Sintetico del Conto Corrente) e cosa sono i Profili tipo d utilizzo

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Le operazioni di assicurazione

Selezione del modello Strumenti quantitativi per la gestione

Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale

FUNZIONI ELEMENTARI - ESERCIZI SVOLTI

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

Istituzioni di Statistica e Statistica Economica

PROBLEMI DI SCELTA. Problemi di. Scelta. Modello Matematico. Effetti Differiti. A Carattere Continuo. A più variabili d azione (Programmazione

Indici di dispersione

Introduzione all Inferenza Statistica

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Verifica di ipotesi

Capitolo 12 La regressione lineare semplice

ESERCIZI DI MATEMATICA FINANZIARIA DIPARTIMENTO DI ECONOMIA E MANAGEMENT UNIFE A.A. 2015/ Esercizi: lezione 24/11/2015

La BDCR Assilea per la valutazione del profilo di rischio delle imprese

Manuale Helpdesk per utenti

LE DETERMINANTI DELLA REDDITIVITÀ DELLE SOCIETA OPERANTI NEL COMPARTO TESSILE ABBIGLIAMENTO IN ITALIA

Lezione 1. Uniformità sistema creditizio. Basilea 1. Basilea 2, fattori di ponderazione, il concetto di rating

ISC. L indicatore sintetico di costo del conto corrente

Matematica Finanziaria Soluzione della prova scritta del 15/05/09

Relazioni statistiche: regressione e correlazione

1. PRIME PROPRIETÀ 2

Interesse, sconto, ratei e risconti

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Limited Dependent Variable Models

Tasso di interesse e capitalizzazione

evolution and innovation in SME s rating

Regressione K-Nearest Neighbors. Strumenti quantitativi per la gestione

Capitolo 2. Operazione di limite

Esercizi riassuntivi di probabilità

ROI, WACC e EVA: strumenti di pianificazione economico finanziaria Di : Pietro Bottani Dottore Commercialista in Prato

11. Analisi statistica degli eventi idrologici estremi

Master della filiera cereagricola. Impresa e mercati. Facoltà di Agraria Università di Teramo. Giovanni Di Bartolomeo Stefano Papa

FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA

Alessandro Pellegrini

Igiene e infezioni ospedaliere: un nesso quantificabile

Capitolo 10 Z Elasticità della domanda

Lineamenti di econometria 2

LA CORRELAZIONE LINEARE

Paperone e Rockerduck: a cosa serve l antitrust?

Scelta intertemporale: Consumo vs. risparmio

Consideriamo due polinomi

Econometria. lezione 17. variabili dipendenti binarie. Econometria. lezione 17. AA Paolo Brunori

VERIFICA DELLE IPOTESI

Come visto precedentemente l equazione integro differenziale rappresentativa dell equilibrio elettrico di un circuito RLC è la seguente: 1 = (1)

LE FUNZIONI A DUE VARIABILI

Esercitazione n.1 (v.c. Binomiale, Poisson, Normale)

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

ESERCIZI DI MATEMATICA FINANZIARIA DIPARTIMENTO DI ECONOMIA E MANAGEMENT UNIFE A.A. 2015/ Esercizi: lezione 03/11/2015

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

Validazione dei modelli Strumenti quantitativi per la gestione

Finanza Aziendale. Lezione 13. Introduzione al costo del capitale

Determinare la grandezza della sottorete

Transcript:

Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer Metodi di classificazione Tecniche principali Alcuni esempi Data set Default I dati La regressione logistica Esempio Il modello logistico Odds Logit Regressione logistica o lineare? Confronto grafico Stima dei coefficienti Interpretazione dei risultati Predittori qualitativi Regressione logistica con più predittori Esempio Confounding Spiegazione grafica Regressione logistica con più classi di previsione Riferimenti bibliografici Metodi di classificazione I metodi usati per analizzare situazioni in cui Y classificazione. è una variabile qualitativa sono noti come metodi di Prevedere una variabile risposta qualitativa significa assegnare l osservazione ad una categoria o una classe. D altra parte, i metodi utilizzati per la classificazione prima di tutto predicono la probabilità che l unità appartenga ad una certa classe e poi effettuano la classificazione. In questo senso sono anche dei metodi di regressione. In molti casi può essere in effetti più interessante stimare la probabilità di appartenenza ad una certa classe che effettuare una mera classificazione. Ad esempio, per una compagnia assicuratrice, può essere più importante conoscere la probabilità che una richiesta di risarcimento sia fraudolenta piuttosto che una semplice classificazione in fraudolenta/non fraudolenta. Tecniche principali file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html 1/10

I metodi di classificazione più tradizionali sono La regressione logistica L analisi discriminante (lineare e quadratica) La classificazione KNN Altri metodi, computer intensive, sono I modelli additivi generalizzati Gli alberi di classificazione, foreste casuali e boosting Support vector machines Alcuni esempi Una società di analisi vuole stimare la probabilità di fallimento di un impresa sulla base di indicatori di bilancio e di tendenza del mercato Un servizio di online banking deve essere in grado di determinare se un operazione svolto sul sito è fraudolenta, sulla base dell indirizzo IP dell utente, cronologia delle transazioni passate, e così via Un general store vuole classificare i consumatori e stimare le probabilità di acquisto di determinate categorie di prodotti in base ad alcune caratteristiche demografiche (età, titolo di studio, sesso, etc.) Data set Default Un data set simulato (10000 casi) disponibile nella libreria ISLR in cui una società creditizia vuole stimare la probabilità di default (incapacità di fare fronte ai pagamenti ) in base ad alcune caratteristiche del debitore Y default: variabile binaria (default o no) X 1 X 2 student: variabile binaria (studente o no) balance: l importo medio di debito residuo sulla carta di credito dopo i versamenti mensili I dati X 3 income: il reddito dell unità library(islr) Warning: package 'ISLR' was built under R version 3.2.2 data(default) str(default) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html 2/10

'data.frame': 10000 obs. of 4 variables: $ default: Factor w/ 2 levels "No","Yes": 1 1 1 1 1 1 1 1 1 1... $ student: Factor w/ 2 levels "No","Yes": 1 2 1 1 1 2 1 2 1 1... $ balance: num 730 817 1074 529 786... $ income : num 44362 12106 31767 35704 38463... head(default) default student balance income 1 No No 729.5265 44361.625 2 No Yes 817.1804 12106.135 3 No No 1073.5492 31767.139 4 No No 529.2506 35704.494 5 No No 785.6559 38463.496 6 No Yes 919.5885 7491.559 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html 3/10

Defaut=Yes (arancio). Default=No (blu) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html 4/10

La regressione logistica La regressione logistica, anzichè modellare direttamente Y, propone un modello per la probabilità che Y appartenga ad una particolare categoria. Nel caso dei dati Default, abbiamo Y ={ 1 0 se Default altrimenti Supponiamo in prima istanza di avere un solo predittore, X. La regressione logistica propone un modello per stimare p(x) = P(Y = 1 X) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html 5/10

Le stime prodotte dal modello sono usate per analisi e classificazione Esempio Nel caso dei dati Default, utilizzando, ad esempio, balance come predittore, interessa stimare Per ogni valore dato di balance, si può fare una previsione per default. Ad esempio, si potrebbe prevedere default = Yes per ogni individuo per il quale. Alternativamente, se la società creditizia vuole essere prudente allora si può scegliere di utilizzare una soglia più bassa, come ad esempio. Il modello logistico Poiché l obbiettivo è quello di modellare una probabilità, sempre compresa in logistico propone di utilizzare la funzione logistica con un po di manipolazione si ottiene il modello La quantità è chiamata odds, e può assumere qualsiasi valore in. Odds Un odds vicino a indica una probabilità molto bassa di default Ad esempio, tra gli individui con odds in media ogni andrà in default poiché implica un odds pari a Gli odds sono tradizionalmente utilizzati al posto delle probabilità nelle scommesse. Dato un odds è possibile ricavare la probabilità da Logit Il logaritmo naturale dell odds ottiene p(balance) = P(default = Y es balance) p(balance) > 0.1 p(x) = e β 0 + β 1 X 1 + e β 0 + β 1 X p(x) 1 p(x) p(balance) > 0.5 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html 6/10 = e β 0 + β 1 X [0, 1] p(x)/[1 p(x)] [0, ) 0 = 1/4 1 5 p(x) = 0.2 0.2 1 0.2 p(x) = = 1/4 odds 1 + odds p(x) log( ) = β + X 1 P(X) 0 β 1

che prende il nome di logit o log odds ed è lineare in X Nella regressione logistica dunque il coefficiente β 1 è legato alla variazione del logit e non alla variazione della probabilità cui è legato non linearmente Spesso si analizza il coefficiente e β 1 che indica la variazione dell odds in corrispondenza di una variazione di X poiché p(x) 1 p(x) Regressione logistica o lineare? Una regressione lineare propone il modello La regressione logistica propone il modello = e + X = ( β 0 β 1 e β 0 e β 1 ) X p(x) = + X β 0 β 1 p(x) = e β 0 + β 1 X 1 + e β 0 + β 1 X Pur essendo di fatto utilizzabile in questo contesto il modello di regressione lineare può produrre stime di probabilità negative o superiori a 1 Se il numero di categorie di Y è superiore a 2 il modello lineare diventa inappropriato. Confronto grafico Stima dei coefficienti Il metodo dei minimi quadrati non è adatto ai modelli di regressione logistica. Si usa invece il metodo della massima verosimiglianza Per i dati Default si ottiene file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html 7/10

## Warning: package 'xtable' was built under R version 3.2.2 EstimateStd. Errorz valuepr(> z ) (Intercept) 10.6513 0.3612 29.49 0.0000 balance 0.0055 0.0002 24.95 0.0000 Interpretazione dei risultati Vediamo che β^1 probabilità di default. ; ciò indica che un aumento in balance è associato a un aumento della Per essere precisi, un aumento di una unità di balance è associato ad un aumento del log odds di default di unità. 0.0055 = 0.0055 In alternativa e β^1 e 0.0055 variazione di balance = = 1.0055 Ad esempio se balance=1500 $ allora l odds è pari a p(1500) 1 p(1500) indica la variazione dell odds in corrispondenza di una = = 0.0906 e 10.6513+0.0055 (1500) Con relativa probabilità di default pari a Una variazione di balance pari a 200 implica una variazione dell odds pari a 3.00417. Si verifichi infatti che La statistica contro H a β 1 z = /SE( ) : 0 β^1 β^1 ed il relativo p value sono usati per la verifica dell ipotesi H 0 : β 1 = 0 Predittori qualitativi odds 0.0906 p(1500) = = = 0.08307 (1 + odds) 1 + 0.0906 p(1700) 1 p(1700) = 0.27218 = 0.0906 3.00417 Il caso dei predittori qualitativi è trattato esattamente come nella regressione lineare, ossia attraverso l uso di variabili dummy. Ad esempio, se per i dati Default proviamo a stimare p(student), EstimateStd. Errorz valuepr(> z ) (Intercept) 3.5041 0.0707 49.55 0.0000 studentyes 0.4049 0.1150 3.52 0.0004 I risultati indicano che uno studente ha, in media, probabilità di default più elevata rispetto ad un nonstudente 3.5041+0.4049 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html 8/10

Regressione logistica con più predittori Per P^ (default = Y es student = Y es) = = 0.0431 1 + e 3.5041+0.4049 X = ( X 1,, X p ) e 3.5041+0.4049 e P^ (default = Y es student = No) = 3.5041 = 0.0292 1 + e 3.5041 il modello di regressione logistica multipla è p(x) = e β 0 + β + 1 X 1 β p X p 1 + e β 0 + β + 1 X 1 β p X p ed il logit p(x) logit(p(x)) = log = + + 1 p(x) β 0 β 1 X 1 β p X p Esempio Per il data set Default, utilizzando tutti i predittori otteniamo EstimateStd. Errorz valuepr(> z ) (Intercept) 10.8690 0.4923 22.08 0.0000 balance 0.0057 0.0002 24.74 0.0000 I(income/1000) 0.0030 0.0082 0.37 0.7115 studentyes 0.6468 0.2363 2.74 0.0062 I p value associati a balance e student sono molto piccoli, indicando che ciascuna di queste variabili è associata alla probabilità di default. Al contrario di quanto visto prima, il coefficiente per la variabile student è negativo, indicando che gli studenti hanno meno probabilità di default dei non studenti. Confounding Il coefficiente negativo per student nella regressione logistica multipla indica che per un dato valore di balance e income, uno studente ha minor probabilità di default di un non studente. Il problema è dovuto al fenomeno, già discusso, della distorsione da variabili omesse, (o confounding) ed al fatto che le variabili student e balance sono correlate. Gli studenti hanno maggior probabilità di avere balance più elevato che è associato a tassi di default più elevati. Così, anche se un singolo studente, per un dato balance e income, tenderà ad avere una minor probabilità di default rispetto ad un non studente, il fatto che gli studenti nel complesso tendano ad avere un balance più elevato significa che, nel complesso, gli studenti tendono al default ad un tasso superiore a quello dei non studenti. Questa distinzione è importante per una società di carte di credito che sta cercando di stabilire a quali persone dovrebbero offrire credito. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html 9/10

Uno studente è più rischioso di un non studente in assenza di indicazioni relative a balance. La situazione si rovescia a parità di balance Spiegazione grafica Studenti: arancio. Non studenti: blu Sinistra: il tasso di default per student è uguale o inferiore a quello dei non studenti per ogni dato valore di balance. Le linee tratteggiate, corrispondenti alle probabilità di default medie (calcolate du tutti i valori di balance e income) suggeriscono il contrario. Destra: Spiegazione: student e balance sono correlate. Gli studenti tendono ad avere livelli elevati di debito, che è a sua volta associato ad una maggiore probabilità di default. Regressione logistica con più classi di previsione La regressione logistica può essere estesa al caso in cui la variabile Y abbia più di due categorie. Tuttavia in questi casi l analisi discriminante è molto più agevole da usare e pertanto più diffusa nell utilizzo pratico. Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html 10/10