Selezione del modello Strumenti quantitativi per la gestione Emanuele Taufer Migliorare il modello di regressione lineare (RL) Metodi Selezione Best subset Selezione stepwise Stepwise forward Stepwise backward Stepwise ibrido Comparazione e scelta fra modelli Metodi indiretti AIC BIC R 2 corretto Dati Credit.csv Confronto grafico, BIC, R 2 a Confronto grafico BIC crossvalidazione Riferimenti bibliografici Migliorare il modello di regressione lineare (RL) Un modello di regressione lineare ha indubbiamente, rispetto a modelli più sofisticati, il pregio della semplicità ed interpretabilità dei risultati. Può essere inoltre competitivo in molte situazioni complesse. In questa lezione discutiamo di una serie di tecniche per ovviare ai problemi tipici che si incontrano nelle applicazioni più moderne. I metodi sono applicabili anche alle tecniche di classificazione Metodi Y = β0 + β1x1 + β2x2 + + β p X p + ε file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 1/6
Tre classi di metodi per affrontare i problemi: Subset selection: scegliere tra i predittori disponibili quelli effettivamente rilevanti per il problema (anche nel caso in cui p > n) Shrinkage o regolarizzazione: il metodo dei minimi quadrati è modificato per effettuare la selezione delle variabili in modo automatico Riduzione della dimensionalità: in questo caso la numerosità dei predittori, p, è ridotta ricorrendo a tecniche di riduzione della dimensionalità dei dati (Componenti principali) Selezione Best subset Con questo metodo si comparano tra loro tutte le possibili combinazioni dei p predittori. 1. M 0 indica il modello senza predittori (la media di Y ) k = 1, 2,, p 2. Per adattare tutti i possibili ( p ) modelli con k predittori k scegliere il migliore (minor RSS o maggior R 2 ) tra questi: chiamiamolo M k. 3. Si scelga il modello migliore fra M 0, M 1,, M p usando la cross validazione oppure uno dei seguenti criteri (discussi sotto):, AIC, BIC, R 2 corretto. Nota: non usiamo o per confrontare poichè diminuisce e cresce monotonicamente all aumentare del numero di variabili. Nella regressione logistica, è possibile usare la devianza come indicatore al passo 2: più piccola è tanto migliore il modello. Problema: ci sono modelli possibli:,. Selezione stepwise Per ridurre il carico computazionale dell approccio best subet è possibile ricorrere ad algoritmi più semplici. Le diverse procedure forniscono spesso modelli simili ma non coincidenti Stepwise forward RSS R 2 M 0, M 1,, M p RSS R 2 2 p 2 10 = 1024 2 20 = 1.048576 10 6 0. M 0 : il modello senza predittori (la media di Y ) 1. Scegli il modello migliore con un predittore (usa RSS o R 2 ), chiamalo M 1. p 1 M 1 2. Considera i modelli ottenuti aggiungendo a uno tra i predittori rimasti e scegli il migliore: chiamalo M 2 3. Continua allo stesso modo aggiungendo un predittore per volta fra i p k rimanenti k = 2, 3,, p 1 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 2/6
,,, M p 4. Si scelga il modello migliore fra usando la cross validazione oppure uno dei seguenti criteri (discussi sotto):, AIC, BIC, R 2 corretto. In totale il metodo forward implica l adattamento di 1 + p(p + 1)/2 modelli. Per p = 20 211 Non garantisce di trovare il modello migliore tra i Inserita una variabile questa non viene più rimossa E applicabile anche quando p > n Stepwise backward possibili Simile a forward ma si parte dal un modello con tutte le p variabili: le variabili vengono eliminate una alla volta partendo dalle meno rilevanti. Stepwise ibrido Cerca di mediare tra i vantaggi e gli svantaggi dei metodi forward e backward: inizia in modalità forward, ma se necessario, procede in modalità backward e rimuovere una variabile precedentemente inserita. Comparazione e scelta fra modelli Tipicamente si individuano più modelli di RL che potrebbero essere adatti al problema in esame. RSS e R 2 sono due indicatori dell errore training dei modelli Come già discusso, l obbiettivo è quello di scegliere un modello che ha un basso valore di errore test (MSE nella RL) Per stimare l errore test ci sono due strategie: 1. stima indiretta attraverso un aggiustamento dell errore training per eliminarne il bias dovuto all overfitting (metodi tradizionali non intensivi dal punto di vista computazionale) 2. stima diretta attraverso la cross validazione o validation set approach. Metodi indiretti I metodi indiretti introducono delle penalità collegate all aumentare del numero di predittori p. 1. di Mallow 2. AIC (Akaike information criterion) 3. BIC (Bayesian information criterion) 4. R 2 a ( R 2 corretto) M 0 M 1 2 p file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 3/6
Nota: la simbologia predittori con d. è tradizionale; per evitare confusione, nelle prossime slide definiamo il numero di = (RSS + 2d ) 1 n dove σ^2 è una stima della varianza di ε del modello considerato Il criterio aggiunge una penalità 2dσ^2 all RSS training che tende a sottostimare il test error. σ^2 produce una stima corretta per il test MSE del modello. Il modello preferito è quello con AIC minore Il criterio di Akaike è basato sulla funzione di verosimiglianza e pertanto utilizzabile in diversi contesti. Nella RL il criterio assume la forma Nella regressione lineare dunque AIC e sono proporzionali tra loro e pertanto portano alla stessa scelta. BIC L indice BIC è definito come dove n indica il numero di unità training Analogamente a e AIC il modello con minor valore di BIC è preferito Se allora : pone una penalità maggiore rispetto a e e pertanto tende a scegliere modelli più piccoli. R 2 corretto Abbiamo già visto nella lezione sulla RL che In questo caso il modello preferito è quello con R 2 a maggiore. Dati Credit.csv Cp 1 AIC = (RSS + 2d σ^2 ) nσ^2 1 BIC = (RSS + log(n)d σ^2 ) n > 7 log n > 2 BIC AIC R 2 a n = 1 n 1 n (p + 1) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 4/6 RSS T SS
Un dataset che parzialmente abbiamo già indontrato (data Default). In questo caso la variabile dipendente è rappresentata da Balance, lo scoperto, che deve essere analizzato sulla base delle altre variabili credit< read.csv("http://www.cs.unitn.it/~taufer/data/credit.csv",header=t) head(credit) X Income Limit Rating Cards Age Education Gender Student Married 1 1 14.891 3606 283 2 34 11 Male No Yes 2 2 106.025 6645 483 3 82 15 Female Yes Yes 3 3 104.593 7075 514 4 71 11 Male No No 4 4 148.924 9504 681 3 36 11 Female No No 5 5 55.882 4897 357 2 68 16 Male No Yes 6 6 80.180 8047 569 4 77 10 Male No No Ethnicity Balance 1 Caucasian 333 2 Asian 903 3 Asian 580 4 Asian 964 5 Caucasian 331 6 Caucasian 1151 str(credit) 'data.frame': 400 obs. of 12 variables: $ X : int 1 2 3 4 5 6 7 8 9 10... $ Income : num 14.9 106 104.6 148.9 55.9... $ Limit : int 3606 6645 7075 9504 4897 8047 3388 7114 3300 6819... $ Rating : int 283 483 514 681 357 569 259 512 266 491... $ Cards : int 2 3 4 3 2 4 2 2 5 3... $ Age : int 34 82 71 36 68 77 37 87 66 41... $ Education: int 11 15 11 11 16 10 12 9 13 19... $ Gender : Factor w/ 2 levels " Male","Female": 1 2 1 2 1 1 2 1 2 2... $ Student : Factor w/ 2 levels "No","Yes": 1 2 1 1 1 1 1 1 1 2... $ Married : Factor w/ 2 levels "No","Yes": 2 2 1 1 2 1 1 1 1 2... $ Ethnicity: Factor w/ 3 levels "African American",..: 3 2 2 2 3 3 1 2 3 1... $ Balance : int 333 903 580 964 331 1151 203 872 279 1350... Confronto grafico, BIC, R 2 a file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 5/6
Confronto grafico BIC crossvalidazione Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 6/6