Regressione logistica. Strumenti quantitativi per la gestione

Documenti analoghi
Regressione logistica

Statistical learning Strumenti quantitativi per la gestione

Regressione Logistica: un Modello per Variabili Risposta Categoriali

Regressione lineare multipla Strumenti quantitativi per la gestione

Capitolo 25: Lo scambio nel mercato delle assicurazioni

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

Economia Applicata ai sistemi produttivi Lezione II Maria Luisa Venuta 1

Lineamenti di econometria 2

Istituzioni di Statistica e Statistica Economica

lezione 18 AA Paolo Brunori

Relazioni tra variabili

Esercitazione n.2 Inferenza su medie

Scelta intertemporale: Consumo vs. risparmio

Elaborazione dei dati su PC Regressione Multipla

Il metodo della regressione

LEZIONE n. 5 (a cura di Antonio Di Marco)

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Capitolo 25: Lo scambio nel mercato delle assicurazioni

(a cura di Francesca Godioli)

Cos è l ISC (Indicatore Sintetico del Conto Corrente) e cosa sono i Profili tipo d utilizzo

Perché il logaritmo è così importante?

RISCHIO E CAPITAL BUDGETING

Statistica. Lezione 6

Inferenza statistica. Statistica medica 1

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Limited Dependent Variable Models

Limitazioni cognitive e comportamento del consumatore (Frank, Capitolo 8)

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità C

Capitolo 4 Probabilità

Soluzioni degli Esercizi del Parziale del 30/06/201 (Ippoliti-Fontanella-Valentini)

Analisi di dati di frequenza

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Elementi di Psicometria con Laboratorio di SPSS 1

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi

MINIMI QUADRATI. REGRESSIONE LINEARE

Gestione dei servizi all utenza. 3. Autorizzazioni

Elementi di Psicometria con Laboratorio di SPSS 1

= 1*2^7 + 1*2^6 + 0*2^5 + 1*2^4 + 0*2^3 + 0*2^2 + 1*2^1 + 0*2^0 = 210

1. Distribuzioni campionarie

Correzione dell Esame di Statistica Descrittiva (Mod. B) 1 Appello - 28 Marzo 2007 Facoltà di Astronomia

Esame di Statistica del 17 luglio 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

4 3 4 = 4 x x x 10 0 aaa

Lineamenti di econometria 2

Validazione dei modelli Strumenti quantitativi per la gestione

ESERCIZI DI RIEPILOGO 2. 7 jj(addi

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Esercizi di Calcolo delle Probabilità con Elementi di Statistica Matematica

ANALISI DEL CONDIZIONAMENTO DI UN SISTEMA LINEARE

IL FANTABASKET DEDICATO AL CAMPIONATO DI BASKET A2 FEMMINILE

Test statistici di verifica di ipotesi

Lezione n. 2 (a cura di Chiara Rossi)

TEMPO E RISCHIO. Il valore del denaro è funzione del tempo in cui è disponibile

Analisi di scenario File Nr. 10

Indice. 1 Introduzione alle Equazioni Differenziali Esempio introduttivo Nomenclatura e Teoremi di Esistenza ed Unicità...

PIL : produzione e reddito

Esercizio 1. Proprietà desiderabili degli stimatori (piccoli campioni)

Introduzione all Inferenza Statistica

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

Prestazioni CPU Corso di Calcolatori Elettronici A 2007/2008 Sito Web: Prof. G. Quarella prof@quarella.

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

SPC e distribuzione normale con Access

Verifica di ipotesi

Interesse, sconto, ratei e risconti

Calcolo delle probabilità

FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA

Regressione Mario Guarracino Data Mining a.a. 2010/2011

In alcuni casi è possibile applicare sia l analisi log lineare che la regressione logistica. Analisi log lineare e regressione logistica:


FUNZIONI ELEMENTARI - ESERCIZI SVOLTI

SISTEMI DI NUMERAZIONE IL SISTEMA DECIMALE

Capitolo 4: Ottimizzazione non lineare non vincolata parte II. E. Amaldi DEIB, Politecnico di Milano

Le equazioni. Diapositive riassemblate e rielaborate da prof. Antonio Manca da materiali offerti dalla rete.

STATISTICA IX lezione

Domande a scelta multipla 1

~ Copyright Ripetizionando - All rights reserved ~ STUDIO DI FUNZIONE

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e

ESERCIZI DI MATEMATICA FINANZIARIA DIPARTIMENTO DI ECONOMIA E MANAGEMENT UNIFE A.A. 2015/ Esercizi: lezione 24/11/2015

Temi di Esame a.a Statistica - CLEF

MAPPE DI KARNAUGH. Nei capitoli precedenti si è visto che è possibile associare un circuito elettronico o elettrico ad una funzione logica.

Statistica inferenziale

Blanchard, Macroeconomia Una prospettiva europea, Il Mulino 2011 Capitolo IV. I mercati finanziari. Capitolo IV. I mercati finanziari

Capitolo 13: L offerta dell impresa e il surplus del produttore

Edited by Foxit PDF Editor Copyright (c) by Foxit Software Company, 2004 For Evaluation Only.

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

come nasce una ricerca

Computational Game Theory

I sistemi di numerazione

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Matematica Finanziaria Soluzione della prova scritta del 15/05/09

Tesina di Identificazione dei Modelli e Analisi dei Dati

Guida all uso di Java Diagrammi ER

ECCO COME FUNZIONA. Ti mostriamo ora come acquistare un volantino.

Transcript:

Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25

Metodi di classificazione I metodi usati per analizzare situazioni in cui Y è una variabile qualitativa sono noti come metodi di classificazione. Prevedere una variabile risposta qualitativa significa assegnare l osservazione ad una categoria o una classe. D altra parte, i metodi utilizzati per la classificazione prima di tutto predicono la probabilità che l unità appartenga ad una certa classe e poi effettuano la classificazione. In questo senso sono anche dei metodi di regressione. In molti casi può essere in effetti più interessante stimare la probabilità di appartenenza ad una certa classe che effettuare una mera classificazione. Ad esempio, per una compagnia assicuratrice, può essere più importante conoscere la probabilità che una richiesta di risarcimento sia fraudolenta piuttosto che una semplice classificazione in fraudolenta/non-fraudolenta. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 2/25

Tecniche principali I metodi di classificazione più tradizionali sono La regressione logistica L analisi discriminante (lineare e quadratica) La classificazione KNN Altri metodi, computer intensive, sono I modelli additivi generalizzati Gli alberi di classificazione, foreste casuali e boosting Support vector machines file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 3/25

Alcuni esempi Una società di analisi vuole stimare la probabilità di fallimento di un impresa sulla base di indicatori di bilancio e di tendenza del mercato Un servizio di online banking deve essere in grado di determinare se un operazione svolto sul sito è fraudolenta, sulla base dell indirizzo IP dell utente, cronologia delle transazioni passate, e così via Un general store vuole classificare i consumatori e stimare le probabilità di acquisto di determinate categorie di prodotti in base ad alcune caratteristiche demografiche (età, titolo di studio, sesso, etc.) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 4/25

Data set Default Un data set simulato (10000 casi) disponibile nella libreria ISLR in cui una società creditizia vuole stimare la probabilità di default (incapacità di fare fronte ai pagamenti ) in base ad alcune caratteristiche del debitore Y - default: variabile binaria (default o no) X 1 - student: variabile binaria (studente o no) X 2 - balance: l importo medio di debito residuo sulla carta di credito dopo i versamenti mensili X 3 - income: il reddito dell unità file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 5/25

I dati library(islr) data(default) str(default) 'data.frame': 10000 obs. of 4 variables: $ default: Factor w/ 2 levels "No","Yes": 1 1 1 1 1 1 1 1 1 1... $ student: Factor w/ 2 levels "No","Yes": 1 2 1 1 1 2 1 2 1 1... $ balance: num 730 817 1074 529 786... $ income : num 44362 12106 31767 35704 38463... head(default) default student balance income 1 No No 729.5265 44361.625 2 No Yes 817.1804 12106.135 3 No No 1073.5492 31767.139 4 No No 529.2506 35704.494 5 No No 785.6559 38463.496 6 No Yes 919.5885 7491.559 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 6/25

Defaut=Yes (arancio). Default=No (blu) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 7/25

file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 8/25

La regressione logistica La regressione logistica, anzichè modellare direttamente Y, propone un modello per la probabilità che Y appartenga ad una particolare categoria. Nel caso dei dati Default, abbiamo Y ={ 1 0 se Default altrimenti Supponiamo in prima istanza di avere un solo predittore, regressione logistica propone un modello per stimare X. La p(x) = P(Y = 1 X) Le stime prodotte dal modello sono usate per analisi e classificazione file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 9/25

Esempio Nel caso dei dati Default, utilizzando, ad esempio, balance come predittore, interessa stimare Per ogni valore dato di balance, si può fare una previsione per default. Ad esempio, si potrebbe prevedere default = Yes per ogni individuo per il quale. Alternativamente, se la società creditizia vuole essere prudente allora si può scegliere di utilizzare una soglia più bassa, come ad esempio. p(balance) > 0.1 p(balance) = P(default = Y es balance) p(balance) > 0.5 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 10/25

Il modello logistico Poiché l obbiettivo è quello di modellare una probabilità, sempre compresa in [0, 1] il modello logistico propone di utilizzare la funzione logistica con un po di manipolazione si ottiene La quantità qualsiasi valore in. p(x) = e β 0 + β 1 X 1 + e β 0 + β 1 X p(x) 1 p(x) p(x)/[1 p(x)] [0, ) = β 0 β 1 X e + è chiamata odds, e può assumere file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 11/25

Odds Un odds vicino a 0 indica una probabilità molto bassa di default Ad esempio, tra gli individui con odds in media ogni andrà in default poiché implica un odds pari a p(x) = 0.2 0.2 1 0.2 = 1/4 1 5 = 1/4 Gli odds sono tradizionalmente utilizzati al posto delle probabilità nelle scommesse. Dato un odds è possibile ricavare la probabilità da p(x) = odds 1 + odds file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 12/25

Logit Il logaritmo naturale dell odds ottiene p(x) log( ) = β + X 1 P(X) 0 β 1 che prende il nome di logit o log-odds ed è lineare in X Nella regressione logistica dunque il coefficiente β 1 è legato alla variazione del logit e non alla variazione della probabilità cui è legato non-linearmente Spesso si analizza il coefficiente e β 1 che indica la variazione dell odds in corrispondenza di una viaraizione di X poiché p(x) 1 p(x) = X = ( e β 0 + β 1 e β 0 e β 1 ) X file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 13/25

Regressione logistica o lineare? Una regressione lineare propone il modello p(x) = + X β 0 β 1 La regressione logistica propone il modello p(x) = e β 0 + β 1 X 1 + e β 0 + β 1 X Pur essendo di fatto utilizzabile in questo contesto il modello di regressione lineare può produrre stime di probabilità negative o superiori a 1 Se il numero di categorie di Y diventa inappropriato. è superiore a 2 il modello lineare file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 14/25

Confronto grafico file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 15/25

Stima dei coefficienti Il metodo dei minimi quadrati non è adatto ai modelli di regressione logistica. Si usa invece il metodo della massima verosimiglianza Per i dati Default si ottiene Estimate Std. Error z value Pr(> z ) (Intercept) -10.6513 0.3612-29.49 0.0000 balance 0.0055 0.0002 24.95 0.0000 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 16/25

Interpretazione dei risultati = 0.0055 Vediamo che β^1 ; ciò indica che un aumento in balance è associato a un aumento della probabilità di default. Per essere precisi, un aumento di una unità di balance è associato ad un aumento del log-odds di default di unità. = = 1.0055 0.0055 In alternativa e β^1 e 0.0055 indica la variazione dell odds in corrispondenza di una variazione di balance Ad esempio se balance=1500 $ allora l odds è pari a p(1500) 1 p(1500) = = 0.0906 e 10.6513+0.0055 (1500) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 17/25

Con relativa probabilità di default pari a odds 0.0906 p(1500) = = = 0.08307 (1 + odds) 1 + 0.0906 Una variazione di balance pari a 200 implica una variazione dell odds pari a 3.00417. Si verifichi infatti che p(1700) 1 p(1700) La statistica verifica dell ipotesi = 0.27218 = 0.0906 3.00417 ed il relativo p-value sono usati per la contro H a β 1 z = β^1 /SE( β^1 ) H 0 : β 1 = 0 : 0 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 18/25

Predittori qualitativi Il caso dei predittori qualitativi è trattato esattamente come nella regressione lineare, ossia attraverso l uso di variabili dummy. Ad esempio, se per i dati Default proviamo a stimare p(student), Estimate Std. Error z value Pr(> z ) (Intercept) -3.5041 0.0707-49.55 0.0000 studentyes 0.4049 0.1150 3.52 0.0004 I risultati indicano che uno studente ha, in media, probabilità di default più elevata rispetto ad un non-studente e 3.5041+0.4049 P^ (default = Y es student = Y es) = = 0.0431 1 + e 3.5041+0.4049 (default = Y es student = No) = = 0.0292 P^ e 3.5041 1 + e 3.5041 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 19/25

Regressione logistica con più predittori Per X = ( X 1,, X p ) il modello di regressione logistica multipla è ed il logit p(x) = e β 0 + β 1 X 1 + β p X p 1 + e β 0 + β 1 X 1 + β p X p p(x) logit(p(x)) = log = + + 1 p(x) β 0 β 1 X 1 β p X p file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 20/25

Esempio Per il data set Default, utilizzando tutti i predittori otteniamo Estimate Std. Error z value Pr(> z ) (Intercept) -10.8690 0.4923-22.08 0.0000 balance 0.0057 0.0002 24.74 0.0000 I(income/1000) 0.0030 0.0082 0.37 0.7115 studentyes -0.6468 0.2363-2.74 0.0062 I p-value associati a balance e student sono molto piccoli, indicando che ciascuna di queste variabili è associata alla probabilità di default. Al contrario di quanto visto prima, il coefficiente per la variabile student è negativo, indicando che gli studenti hanno meno probabilità di default dei non-studenti. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 21/25

Confounding Il coefficiente negativo per student nella regressione logistica multipla indica che per un dato valore di balance e income, uno studente ha minor probabilità di default di un non-studente. Il problema è dovuto al fenomeno, già discusso, della distorsione da variabili omesse, (o confounding) ed al fatto che le variabili student e balance sono correlate. Gli studenti hanno maggior probabilità di avere balance più elevato che è associato a tassi di default più elevati. Così, anche se un singolo studente, per un dato balance e income, tenderà ad avere una minor probabilità di default rispetto ad un nonstudente, il fatto che gli studenti nel complesso tendano ad avere un balance più elevato significa che, nel complesso, gli studenti tendono al default ad un tasso superiore a quello dei non studenti. Questa distinzione è importante per una società di carte di credito che sta cercando di stabilire a quali persone dovrebbero offrire credito. Uno studente è più rischioso di un non-studente in assenza di indicazioni relative a balance. La situazione si rovescia a parità di balance file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 22/25

Spiegazione grafica Studenti: arancio. Non-studenti: blu Sinistra: il tasso di default per student è uguale o inferiore a quello dei non-studenti per ogni dato valore di balance. Le linee tratteggiate, corrispondenti alle probabilità di default medie (calcolate du tutti i valori di balance e income) suggeriscono il contrario. Destra: Spiegazione: student e balance sono correlate. Gli studenti tendono ad avere livelli elevati di debito, che è a sua volta associato ad una maggiore probabilità di default. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 23/25

Regressione logistica con più classi di previsione La regressione logistica può essere estesa al caso in cui la variabile abbia più di due categorie. Tuttavia in questi casi l analisi discriminante è molto più agevole da usare e pertanto più diffusa nell utilizzo pratico. Y file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 24/25

Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 25/25