Selezione del modello Strumenti quantitativi per la gestione

Documenti analoghi
Regolarizzazione (Shrinkage) Strumenti quantitativi per la gestione

Regressione K-Nearest Neighbors. Strumenti quantitativi per la gestione

Regressione logistica. Strumenti quantitativi per la gestione

Regressione ridge e LASSO Strumenti quantitativi per la gestione

Alberi di decisione con R

Analisi Discriminante Strumenti quantitativi per la gestione

Metodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione

Modelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione

Analisi discriminante in R Strumenti quantitativi per la gestione

Statistical learning. Strumenti quantitativi per la gestione

Regressione logistica

Analisi Discriminante. Strumenti quantitativi per la gestione

Statistical learning. Strumenti quantitativi per la gestione. Emanuele Taufer

Regressione logistica. Strumenti quantitativi per la gestione

Modelli con predittori qualitativi e modelli con interazioni

Classificazione k-nn con R. Strumenti quantitativi per la gestione

Strumenti quantitativi per la gestione (121210) A.a / 2019.

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

Regressione lineare multipla Strumenti quantitativi per la gestione

Analisi discriminante in R. Strumenti quantitativi per la gestione

Validazione dei modelli. Strumenti quantitativi per la gestione

Quiz di verifica Classificazione

Regressione lineare semplice

Statistica Applicata all edilizia Lezione: approccio stocastico all analisi delle serie storiche

Regressione lineare semplice. Strumenti quantitativi per la gestione

I modelli lineari generalizzati per la tariffazione nel ramo RCA: applicazione

Valutazione e Selezione del Modello

Cereal data- analisi con gli alberi di classificazione

Modelli non lineari e cross validazione. Strumenti quantitativi per la gestione

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

La regressione lineare semplice

Scelta della funzione di legame in un modello lineare generalizzato attraverso delle simulazioni. Fabrizio Bettella

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Statistical learning Strumenti quantitativi per la gestione

Università di Pavia Econometria Esercizi 5

Classificazione Mario Guarracino Data Mining a.a. 2010/2011

Psicometria con Laboratorio di SPSS 2

Strumenti quantitativi per la gestione. Introduzione al corso A.A

Psicometria. 9-Analisi fattoriale confermativa vers. 1.0

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) 12 Giugno 2019

Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione

Analisi della varianza

Valutazione dei modelli matematici

Correlazione e regressione

Statistica Applicata all edilizia: il modello di regressione

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

Apprendimento basato sulle istanze

VALIDAZIONE DEL MODELLO

6. Partial Least Squares (PLS)

Quiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione

Regressione lineare semplice

Argomenti della lezione:

Validazione dei modelli Strumenti quantitativi per la gestione

Computazione per l interazione naturale: Regressione probabilistica

Multicollinearità. Strumenti quantitativi per la gestione

Regressione Lineare Multipla

lezione 10 AA Paolo Brunori

HR analyics. Analisi con le CP e analisi predittiva

Computazione per l interazione naturale: Regressione probabilistica

DESCRIZIONE DEL DATA SET

Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) 21 Giugno Primo Appello

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

Regressione Lineare. Corso di Intelligenza Artificiale, a.a Prof. Francesco Trovò

Computazione per l interazione naturale: Regressione lineare

Computazione per l interazione naturale: Regressione probabilistica

Classificazione DATA MINING: CLASSIFICAZIONE - 1. Classificazione

Bagging e Foreste Casuali con R

Fasi del modello di regressione

Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) Secondo Parziale - 11 Giugno 2018

Computazione per l interazione naturale: Regressione lineare Bayesiana

Laboratorio di Apprendimento Automatico. Fabio Aiolli Università di Padova

TECNICHE DI IDENTIFICAZIONE NON PARAMETRICA. Gianluigi Pillonetto Dipartimento di Ingegneria dell Informazione Università di Padova

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Metodi statistici per la ricerca sociale Capitolo 15. Regressione logistica: modellare variabili risposta categoriali

Statistica economica

Progettazione di un Sistema di Machine Learning

Statistica Inferenziale

Statistica di base degli studi Real-life I

Statistica di base degli studi Real-life I. Scardapane Marco

STATISTICA A K (60 ore)

Misura della performance di ciascun modello: tasso di errore sul test set

Stima dei Parametri. Corso di Apprendimento Automatico Laurea Magistrale in Informatica Nicola Fanizzi

Statistica multivariata 27/09/2016. D.Rodi, 2016

Modelli a effetti misti

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione

Apprendimento automatico e Reti Neurali. Francesco Sambo tel

Alberi di Decisione (2)

LEZIONE N.8 (a cura di Teresa Fanelli) Questa forma risulta importante nel modello di regressione con più variabili.

Analisi delle serie storiche parte V Modelli autoregressivi

Argomenti della lezione:

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

Apprendimento Automatico (Feature Selection e Kernel Learning)

COMPLESSITÀ COMPUTAZIONALE DEGLI ALGORITMI

Lezione 15. L analisi della Varianza (ANOVA): i disegni entro i sogetti e misti. Argomenti della lezione: Disegni entro i soggetti

RETI NEURALI. Esempio: Stima del rendimento volumetrico η

Computazione per l interazione naturale: macchine che apprendono

Classificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Transcript:

Selezione del modello Strumenti quantitativi per la gestione Emanuele Taufer Migliorare il modello di regressione lineare (RL) Metodi Selezione Best subset Selezione stepwise Stepwise forward Stepwise backward Stepwise ibrido Comparazione e scelta fra modelli Metodi indiretti AIC BIC R 2 corretto Dati Credit.csv Confronto grafico, BIC, R 2 a Confronto grafico BIC crossvalidazione Riferimenti bibliografici Migliorare il modello di regressione lineare (RL) Un modello di regressione lineare ha indubbiamente, rispetto a modelli più sofisticati, il pregio della semplicità ed interpretabilità dei risultati. Può essere inoltre competitivo in molte situazioni complesse. In questa lezione discutiamo di una serie di tecniche per ovviare ai problemi tipici che si incontrano nelle applicazioni più moderne. I metodi sono applicabili anche alle tecniche di classificazione Metodi Y = β0 + β1x1 + β2x2 + + β p X p + ε file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 1/6

Tre classi di metodi per affrontare i problemi: Subset selection: scegliere tra i predittori disponibili quelli effettivamente rilevanti per il problema (anche nel caso in cui p > n) Shrinkage o regolarizzazione: il metodo dei minimi quadrati è modificato per effettuare la selezione delle variabili in modo automatico Riduzione della dimensionalità: in questo caso la numerosità dei predittori, p, è ridotta ricorrendo a tecniche di riduzione della dimensionalità dei dati (Componenti principali) Selezione Best subset Con questo metodo si comparano tra loro tutte le possibili combinazioni dei p predittori. 1. M 0 indica il modello senza predittori (la media di Y ) k = 1, 2,, p 2. Per adattare tutti i possibili ( p ) modelli con k predittori k scegliere il migliore (minor RSS o maggior R 2 ) tra questi: chiamiamolo M k. 3. Si scelga il modello migliore fra M 0, M 1,, M p usando la cross validazione oppure uno dei seguenti criteri (discussi sotto):, AIC, BIC, R 2 corretto. Nota: non usiamo o per confrontare poichè diminuisce e cresce monotonicamente all aumentare del numero di variabili. Nella regressione logistica, è possibile usare la devianza come indicatore al passo 2: più piccola è tanto migliore il modello. Problema: ci sono modelli possibli:,. Selezione stepwise Per ridurre il carico computazionale dell approccio best subet è possibile ricorrere ad algoritmi più semplici. Le diverse procedure forniscono spesso modelli simili ma non coincidenti Stepwise forward RSS R 2 M 0, M 1,, M p RSS R 2 2 p 2 10 = 1024 2 20 = 1.048576 10 6 0. M 0 : il modello senza predittori (la media di Y ) 1. Scegli il modello migliore con un predittore (usa RSS o R 2 ), chiamalo M 1. p 1 M 1 2. Considera i modelli ottenuti aggiungendo a uno tra i predittori rimasti e scegli il migliore: chiamalo M 2 3. Continua allo stesso modo aggiungendo un predittore per volta fra i p k rimanenti k = 2, 3,, p 1 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 2/6

,,, M p 4. Si scelga il modello migliore fra usando la cross validazione oppure uno dei seguenti criteri (discussi sotto):, AIC, BIC, R 2 corretto. In totale il metodo forward implica l adattamento di 1 + p(p + 1)/2 modelli. Per p = 20 211 Non garantisce di trovare il modello migliore tra i Inserita una variabile questa non viene più rimossa E applicabile anche quando p > n Stepwise backward possibili Simile a forward ma si parte dal un modello con tutte le p variabili: le variabili vengono eliminate una alla volta partendo dalle meno rilevanti. Stepwise ibrido Cerca di mediare tra i vantaggi e gli svantaggi dei metodi forward e backward: inizia in modalità forward, ma se necessario, procede in modalità backward e rimuovere una variabile precedentemente inserita. Comparazione e scelta fra modelli Tipicamente si individuano più modelli di RL che potrebbero essere adatti al problema in esame. RSS e R 2 sono due indicatori dell errore training dei modelli Come già discusso, l obbiettivo è quello di scegliere un modello che ha un basso valore di errore test (MSE nella RL) Per stimare l errore test ci sono due strategie: 1. stima indiretta attraverso un aggiustamento dell errore training per eliminarne il bias dovuto all overfitting (metodi tradizionali non intensivi dal punto di vista computazionale) 2. stima diretta attraverso la cross validazione o validation set approach. Metodi indiretti I metodi indiretti introducono delle penalità collegate all aumentare del numero di predittori p. 1. di Mallow 2. AIC (Akaike information criterion) 3. BIC (Bayesian information criterion) 4. R 2 a ( R 2 corretto) M 0 M 1 2 p file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 3/6

Nota: la simbologia predittori con d. è tradizionale; per evitare confusione, nelle prossime slide definiamo il numero di = (RSS + 2d ) 1 n dove σ^2 è una stima della varianza di ε del modello considerato Il criterio aggiunge una penalità 2dσ^2 all RSS training che tende a sottostimare il test error. σ^2 produce una stima corretta per il test MSE del modello. Il modello preferito è quello con AIC minore Il criterio di Akaike è basato sulla funzione di verosimiglianza e pertanto utilizzabile in diversi contesti. Nella RL il criterio assume la forma Nella regressione lineare dunque AIC e sono proporzionali tra loro e pertanto portano alla stessa scelta. BIC L indice BIC è definito come dove n indica il numero di unità training Analogamente a e AIC il modello con minor valore di BIC è preferito Se allora : pone una penalità maggiore rispetto a e e pertanto tende a scegliere modelli più piccoli. R 2 corretto Abbiamo già visto nella lezione sulla RL che In questo caso il modello preferito è quello con R 2 a maggiore. Dati Credit.csv Cp 1 AIC = (RSS + 2d σ^2 ) nσ^2 1 BIC = (RSS + log(n)d σ^2 ) n > 7 log n > 2 BIC AIC R 2 a n = 1 n 1 n (p + 1) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 4/6 RSS T SS

Un dataset che parzialmente abbiamo già indontrato (data Default). In questo caso la variabile dipendente è rappresentata da Balance, lo scoperto, che deve essere analizzato sulla base delle altre variabili credit< read.csv("http://www.cs.unitn.it/~taufer/data/credit.csv",header=t) head(credit) X Income Limit Rating Cards Age Education Gender Student Married 1 1 14.891 3606 283 2 34 11 Male No Yes 2 2 106.025 6645 483 3 82 15 Female Yes Yes 3 3 104.593 7075 514 4 71 11 Male No No 4 4 148.924 9504 681 3 36 11 Female No No 5 5 55.882 4897 357 2 68 16 Male No Yes 6 6 80.180 8047 569 4 77 10 Male No No Ethnicity Balance 1 Caucasian 333 2 Asian 903 3 Asian 580 4 Asian 964 5 Caucasian 331 6 Caucasian 1151 str(credit) 'data.frame': 400 obs. of 12 variables: $ X : int 1 2 3 4 5 6 7 8 9 10... $ Income : num 14.9 106 104.6 148.9 55.9... $ Limit : int 3606 6645 7075 9504 4897 8047 3388 7114 3300 6819... $ Rating : int 283 483 514 681 357 569 259 512 266 491... $ Cards : int 2 3 4 3 2 4 2 2 5 3... $ Age : int 34 82 71 36 68 77 37 87 66 41... $ Education: int 11 15 11 11 16 10 12 9 13 19... $ Gender : Factor w/ 2 levels " Male","Female": 1 2 1 2 1 1 2 1 2 2... $ Student : Factor w/ 2 levels "No","Yes": 1 2 1 1 1 1 1 1 1 2... $ Married : Factor w/ 2 levels "No","Yes": 2 2 1 1 2 1 1 1 1 2... $ Ethnicity: Factor w/ 3 levels "African American",..: 3 2 2 2 3 3 1 2 3 1... $ Balance : int 333 903 580 964 331 1151 203 872 279 1350... Confronto grafico, BIC, R 2 a file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 5/6

Confronto grafico BIC crossvalidazione Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 6/6