Selezione del modello Strumenti quantitativi per la gestione

Dimensione: px

Iniziare la visualizzazioe della pagina:

Download "Selezione del modello Strumenti quantitativi per la gestione"

Alessandra Viola
4 anni fa
Visualizzazioni

1 Selezione del modello Strumenti quantitativi per la gestione Emanuele Taufer Migliorare il modello di regressione lineare (RL) Metodi Selezione Best subset Selezione stepwise Stepwise forward Stepwise backward Stepwise ibrido Comparazione e scelta fra modelli Metodi indiretti AIC BIC R 2 corretto Dati Credit.csv Confronto grafico, BIC, R 2 a Confronto grafico BIC crossvalidazione Riferimenti bibliografici Migliorare il modello di regressione lineare (RL) Un modello di regressione lineare ha indubbiamente, rispetto a modelli più sofisticati, il pregio della semplicità ed interpretabilità dei risultati. Può essere inoltre competitivo in molte situazioni complesse. In questa lezione discutiamo di una serie di tecniche per ovviare ai problemi tipici che si incontrano nelle applicazioni più moderne. I metodi sono applicabili anche alle tecniche di classificazione Metodi Y = β0 + β1x1 + β2x2 + + β p X p + ε file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 1/6

2 Tre classi di metodi per affrontare i problemi: Subset selection: scegliere tra i predittori disponibili quelli effettivamente rilevanti per il problema (anche nel caso in cui p > n) Shrinkage o regolarizzazione: il metodo dei minimi quadrati è modificato per effettuare la selezione delle variabili in modo automatico Riduzione della dimensionalità: in questo caso la numerosità dei predittori, p, è ridotta ricorrendo a tecniche di riduzione della dimensionalità dei dati (Componenti principali) Selezione Best subset Con questo metodo si comparano tra loro tutte le possibili combinazioni dei p predittori. 1. M 0 indica il modello senza predittori (la media di Y ) k = 1, 2,, p 2. Per adattare tutti i possibili ( p ) modelli con k predittori k scegliere il migliore (minor RSS o maggior R 2 ) tra questi: chiamiamolo M k. 3. Si scelga il modello migliore fra M 0, M 1,, M p usando la cross validazione oppure uno dei seguenti criteri (discussi sotto):, AIC, BIC, R 2 corretto. Nota: non usiamo o per confrontare poichè diminuisce e cresce monotonicamente all aumentare del numero di variabili. Nella regressione logistica, è possibile usare la devianza come indicatore al passo 2: più piccola è tanto migliore il modello. Problema: ci sono modelli possibli:,. Selezione stepwise Per ridurre il carico computazionale dell approccio best subet è possibile ricorrere ad algoritmi più semplici. Le diverse procedure forniscono spesso modelli simili ma non coincidenti Stepwise forward RSS R 2 M 0, M 1,, M p RSS R 2 2 p 2 10 = = M 0 : il modello senza predittori (la media di Y ) 1. Scegli il modello migliore con un predittore (usa RSS o R 2 ), chiamalo M 1. p 1 M 1 2. Considera i modelli ottenuti aggiungendo a uno tra i predittori rimasti e scegli il migliore: chiamalo M 2 3. Continua allo stesso modo aggiungendo un predittore per volta fra i p k rimanenti k = 2, 3,, p 1 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 2/6

3 ,,, M p 4. Si scelga il modello migliore fra usando la cross validazione oppure uno dei seguenti criteri (discussi sotto):, AIC, BIC, R 2 corretto. In totale il metodo forward implica l adattamento di 1 + p(p + 1)/2 modelli. Per p = Non garantisce di trovare il modello migliore tra i Inserita una variabile questa non viene più rimossa E applicabile anche quando p > n Stepwise backward possibili Simile a forward ma si parte dal un modello con tutte le p variabili: le variabili vengono eliminate una alla volta partendo dalle meno rilevanti. Stepwise ibrido Cerca di mediare tra i vantaggi e gli svantaggi dei metodi forward e backward: inizia in modalità forward, ma se necessario, procede in modalità backward e rimuovere una variabile precedentemente inserita. Comparazione e scelta fra modelli Tipicamente si individuano più modelli di RL che potrebbero essere adatti al problema in esame. RSS e R 2 sono due indicatori dell errore training dei modelli Come già discusso, l obbiettivo è quello di scegliere un modello che ha un basso valore di errore test (MSE nella RL) Per stimare l errore test ci sono due strategie: 1. stima indiretta attraverso un aggiustamento dell errore training per eliminarne il bias dovuto all overfitting (metodi tradizionali non intensivi dal punto di vista computazionale) 2. stima diretta attraverso la cross validazione o validation set approach. Metodi indiretti I metodi indiretti introducono delle penalità collegate all aumentare del numero di predittori p. 1. di Mallow 2. AIC (Akaike information criterion) 3. BIC (Bayesian information criterion) 4. R 2 a ( R 2 corretto) M 0 M 1 2 p file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 3/6

4 Nota: la simbologia predittori con d. è tradizionale; per evitare confusione, nelle prossime slide definiamo il numero di = (RSS + 2d ) 1 n dove σ^2 è una stima della varianza di ε del modello considerato Il criterio aggiunge una penalità 2dσ^2 all RSS training che tende a sottostimare il test error. σ^2 produce una stima corretta per il test MSE del modello. Il modello preferito è quello con AIC minore Il criterio di Akaike è basato sulla funzione di verosimiglianza e pertanto utilizzabile in diversi contesti. Nella RL il criterio assume la forma Nella regressione lineare dunque AIC e sono proporzionali tra loro e pertanto portano alla stessa scelta. BIC L indice BIC è definito come dove n indica il numero di unità training Analogamente a e AIC il modello con minor valore di BIC è preferito Se allora : pone una penalità maggiore rispetto a e e pertanto tende a scegliere modelli più piccoli. R 2 corretto Abbiamo già visto nella lezione sulla RL che In questo caso il modello preferito è quello con R 2 a maggiore. Dati Credit.csv Cp 1 AIC = (RSS + 2d σ^2 ) nσ^2 1 BIC = (RSS + log(n)d σ^2 ) n > 7 log n > 2 BIC AIC R 2 a n = 1 n 1 n (p + 1) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 4/6 RSS T SS

5 Un dataset che parzialmente abbiamo già indontrato (data Default). In questo caso la variabile dipendente è rappresentata da Balance, lo scoperto, che deve essere analizzato sulla base delle altre variabili credit< read.csv(" head(credit) X Income Limit Rating Cards Age Education Gender Student Married Male No Yes Female Yes Yes Male No No Female No No Male No Yes Male No No Ethnicity Balance 1 Caucasian Asian Asian Asian Caucasian Caucasian 1151 str(credit) 'data.frame': 400 obs. of 12 variables: $ X : int $ Income : num $ Limit : int $ Rating : int $ Cards : int $ Age : int $ Education: int $ Gender : Factor w/ 2 levels " Male","Female": $ Student : Factor w/ 2 levels "No","Yes": $ Married : Factor w/ 2 levels "No","Yes": $ Ethnicity: Factor w/ 3 levels "African American",..: $ Balance : int Confronto grafico, BIC, R 2 a file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 5/6

6 Confronto grafico BIC crossvalidazione Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 6/6

Documenti analoghi

Regolarizzazione (Shrinkage) Strumenti quantitativi per la gestione

Regolarizzazione (Shrinkage) Strumenti quantitativi er la gestione Emanuele Taufer Metodi di regolarizzazione o shrinkage Regressione ridge Standardizzare i redittori Dati Credit.csv Ridge er i dati Credit.csv