Selezione del modello Strumenti quantitativi per la gestione

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Selezione del modello Strumenti quantitativi per la gestione"

Transcript

1 Selezione del modello Strumenti quantitativi per la gestione Emanuele Taufer Migliorare il modello di regressione lineare (RL) Metodi Selezione Best subset Selezione stepwise Stepwise forward Stepwise backward Stepwise ibrido Comparazione e scelta fra modelli Metodi indiretti AIC BIC R 2 corretto Dati Credit.csv Confronto grafico, BIC, R 2 a Confronto grafico BIC crossvalidazione Riferimenti bibliografici Migliorare il modello di regressione lineare (RL) Un modello di regressione lineare ha indubbiamente, rispetto a modelli più sofisticati, il pregio della semplicità ed interpretabilità dei risultati. Può essere inoltre competitivo in molte situazioni complesse. In questa lezione discutiamo di una serie di tecniche per ovviare ai problemi tipici che si incontrano nelle applicazioni più moderne. I metodi sono applicabili anche alle tecniche di classificazione Metodi Y = β0 + β1x1 + β2x2 + + β p X p + ε file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 1/6

2 Tre classi di metodi per affrontare i problemi: Subset selection: scegliere tra i predittori disponibili quelli effettivamente rilevanti per il problema (anche nel caso in cui p > n) Shrinkage o regolarizzazione: il metodo dei minimi quadrati è modificato per effettuare la selezione delle variabili in modo automatico Riduzione della dimensionalità: in questo caso la numerosità dei predittori, p, è ridotta ricorrendo a tecniche di riduzione della dimensionalità dei dati (Componenti principali) Selezione Best subset Con questo metodo si comparano tra loro tutte le possibili combinazioni dei p predittori. 1. M 0 indica il modello senza predittori (la media di Y ) k = 1, 2,, p 2. Per adattare tutti i possibili ( p ) modelli con k predittori k scegliere il migliore (minor RSS o maggior R 2 ) tra questi: chiamiamolo M k. 3. Si scelga il modello migliore fra M 0, M 1,, M p usando la cross validazione oppure uno dei seguenti criteri (discussi sotto):, AIC, BIC, R 2 corretto. Nota: non usiamo o per confrontare poichè diminuisce e cresce monotonicamente all aumentare del numero di variabili. Nella regressione logistica, è possibile usare la devianza come indicatore al passo 2: più piccola è tanto migliore il modello. Problema: ci sono modelli possibli:,. Selezione stepwise Per ridurre il carico computazionale dell approccio best subet è possibile ricorrere ad algoritmi più semplici. Le diverse procedure forniscono spesso modelli simili ma non coincidenti Stepwise forward RSS R 2 M 0, M 1,, M p RSS R 2 2 p 2 10 = = M 0 : il modello senza predittori (la media di Y ) 1. Scegli il modello migliore con un predittore (usa RSS o R 2 ), chiamalo M 1. p 1 M 1 2. Considera i modelli ottenuti aggiungendo a uno tra i predittori rimasti e scegli il migliore: chiamalo M 2 3. Continua allo stesso modo aggiungendo un predittore per volta fra i p k rimanenti k = 2, 3,, p 1 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 2/6

3 ,,, M p 4. Si scelga il modello migliore fra usando la cross validazione oppure uno dei seguenti criteri (discussi sotto):, AIC, BIC, R 2 corretto. In totale il metodo forward implica l adattamento di 1 + p(p + 1)/2 modelli. Per p = Non garantisce di trovare il modello migliore tra i Inserita una variabile questa non viene più rimossa E applicabile anche quando p > n Stepwise backward possibili Simile a forward ma si parte dal un modello con tutte le p variabili: le variabili vengono eliminate una alla volta partendo dalle meno rilevanti. Stepwise ibrido Cerca di mediare tra i vantaggi e gli svantaggi dei metodi forward e backward: inizia in modalità forward, ma se necessario, procede in modalità backward e rimuovere una variabile precedentemente inserita. Comparazione e scelta fra modelli Tipicamente si individuano più modelli di RL che potrebbero essere adatti al problema in esame. RSS e R 2 sono due indicatori dell errore training dei modelli Come già discusso, l obbiettivo è quello di scegliere un modello che ha un basso valore di errore test (MSE nella RL) Per stimare l errore test ci sono due strategie: 1. stima indiretta attraverso un aggiustamento dell errore training per eliminarne il bias dovuto all overfitting (metodi tradizionali non intensivi dal punto di vista computazionale) 2. stima diretta attraverso la cross validazione o validation set approach. Metodi indiretti I metodi indiretti introducono delle penalità collegate all aumentare del numero di predittori p. 1. di Mallow 2. AIC (Akaike information criterion) 3. BIC (Bayesian information criterion) 4. R 2 a ( R 2 corretto) M 0 M 1 2 p file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 3/6

4 Nota: la simbologia predittori con d. è tradizionale; per evitare confusione, nelle prossime slide definiamo il numero di = (RSS + 2d ) 1 n dove σ^2 è una stima della varianza di ε del modello considerato Il criterio aggiunge una penalità 2dσ^2 all RSS training che tende a sottostimare il test error. σ^2 produce una stima corretta per il test MSE del modello. Il modello preferito è quello con AIC minore Il criterio di Akaike è basato sulla funzione di verosimiglianza e pertanto utilizzabile in diversi contesti. Nella RL il criterio assume la forma Nella regressione lineare dunque AIC e sono proporzionali tra loro e pertanto portano alla stessa scelta. BIC L indice BIC è definito come dove n indica il numero di unità training Analogamente a e AIC il modello con minor valore di BIC è preferito Se allora : pone una penalità maggiore rispetto a e e pertanto tende a scegliere modelli più piccoli. R 2 corretto Abbiamo già visto nella lezione sulla RL che In questo caso il modello preferito è quello con R 2 a maggiore. Dati Credit.csv Cp 1 AIC = (RSS + 2d σ^2 ) nσ^2 1 BIC = (RSS + log(n)d σ^2 ) n > 7 log n > 2 BIC AIC R 2 a n = 1 n 1 n (p + 1) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 4/6 RSS T SS

5 Un dataset che parzialmente abbiamo già indontrato (data Default). In questo caso la variabile dipendente è rappresentata da Balance, lo scoperto, che deve essere analizzato sulla base delle altre variabili credit< read.csv(" head(credit) X Income Limit Rating Cards Age Education Gender Student Married Male No Yes Female Yes Yes Male No No Female No No Male No Yes Male No No Ethnicity Balance 1 Caucasian Asian Asian Asian Caucasian Caucasian 1151 str(credit) 'data.frame': 400 obs. of 12 variables: $ X : int $ Income : num $ Limit : int $ Rating : int $ Cards : int $ Age : int $ Education: int $ Gender : Factor w/ 2 levels " Male","Female": $ Student : Factor w/ 2 levels "No","Yes": $ Married : Factor w/ 2 levels "No","Yes": $ Ethnicity: Factor w/ 3 levels "African American",..: $ Balance : int Confronto grafico, BIC, R 2 a file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 5/6

6 Confronto grafico BIC crossvalidazione Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 6/6

Regolarizzazione (Shrinkage) Strumenti quantitativi per la gestione

Regolarizzazione (Shrinkage) Strumenti quantitativi per la gestione Regolarizzazione (Shrinkage) Strumenti quantitativi er la gestione Emanuele Taufer Metodi di regolarizzazione o shrinkage Regressione ridge Standardizzare i redittori Dati Credit.csv Ridge er i dati Credit.csv

Dettagli

Regressione K-Nearest Neighbors. Strumenti quantitativi per la gestione

Regressione K-Nearest Neighbors. Strumenti quantitativi per la gestione Regressione K-Nearest Neighbors Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 1/13 Regressione non parametrica

Dettagli

Regressione logistica. Strumenti quantitativi per la gestione

Regressione logistica. Strumenti quantitativi per la gestione Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/4a_rlg.html#(22) 1/28 Metodi di classificazione I

Dettagli

Regressione ridge e LASSO Strumenti quantitativi per la gestione

Regressione ridge e LASSO Strumenti quantitativi per la gestione Regressione ridge e LASSO Strumenti quantitativi per la gestione Emanuele Taufer Dati Credit.csv La funzione glmnet() La funzione model.matrix() Regressione ridge Output CV Ridge Output Regressione LASSO

Dettagli

Alberi di decisione con R

Alberi di decisione con R Alberi di decisione con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-alberi_di_decisione.html#(1) 1/14 Implementare gli alberi decisionali con R Per adattare

Dettagli

Analisi Discriminante Strumenti quantitativi per la gestione

Analisi Discriminante Strumenti quantitativi per la gestione Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer Un esempio introduttivo Approccio con Bayes Perchè un altro metodo di classificazione? Classificazione con Bayes Analisi discriminante

Dettagli

Metodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione

Metodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 1/25 Introduzione Gli approcci

Dettagli

Modelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione

Modelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 1/26 Utilizzare

Dettagli

Analisi discriminante in R Strumenti quantitativi per la gestione

Analisi discriminante in R Strumenti quantitativi per la gestione Analisi discriminante in R Strumenti quantitativi per la gestione Emanuele Taufer Default data LDA con R Output Plot Previsione Tabella di classificazione Cambiare il criterio di classificazione Costruire

Dettagli

Statistical learning. Strumenti quantitativi per la gestione

Statistical learning. Strumenti quantitativi per la gestione Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/2_statistical_learning.html#(1) 1/42 Vendite Supponiamo di voler capire

Dettagli

Regressione logistica

Regressione logistica Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer Metodi di classificazione Tecniche principali Alcuni esempi Data set Default I dati La regressione logistica Esempio Il modello

Dettagli

Analisi Discriminante. Strumenti quantitativi per la gestione

Analisi Discriminante. Strumenti quantitativi per la gestione Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/classes/4-2_ad.html#(33) 1/39 AD Tecnica di classificazione che sfrutta combinazioni

Dettagli

Statistical learning. Strumenti quantitativi per la gestione. Emanuele Taufer

Statistical learning. Strumenti quantitativi per la gestione. Emanuele Taufer Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer Vendite (Sales) Supponiamo di voler capire come migliorare le vendite di un determinato prodotto. Il Set di dati Advertising

Dettagli

Regressione logistica. Strumenti quantitativi per la gestione

Regressione logistica. Strumenti quantitativi per la gestione Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25 Metodi di classificazione I metodi usati per analizzare

Dettagli

Modelli con predittori qualitativi e modelli con interazioni

Modelli con predittori qualitativi e modelli con interazioni Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer Utilizzare variabili indipendenti qualitative (VIQ) Codifica binaria 0,1 Esempio: salari

Dettagli

Classificazione k-nn con R. Strumenti quantitativi per la gestione

Classificazione k-nn con R. Strumenti quantitativi per la gestione Classificazione k-nn con R Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 1/16 Altezza e peso degli adulti Le statistiche sull

Dettagli

Strumenti quantitativi per la gestione (121210) A.a / 2019.

Strumenti quantitativi per la gestione (121210) A.a / 2019. LAUREA MAGISTRALE IN MANAGEMENT Dipartimento di Economia e Management Università degli Studi di Trento Strumenti quantitativi per la gestione (121210) A.a. 2018 / 2019. Docente: Prof. Emanuele Taufer 1.

Dettagli

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine e applicazioni al dominio del Contact Management Parte V: combinazione di Università degli Studi di Udine In collaborazione con dott. Enrico Marzano, CIO Gap srl progetto Active Contact System 1/10 Contenuti

Dettagli

Regressione lineare multipla Strumenti quantitativi per la gestione

Regressione lineare multipla Strumenti quantitativi per la gestione Regressione lineare multipla Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare multipla (RLM) Esempio: RLM con due predittori Stima dei coefficienti e previsione Advertising data

Dettagli

Analisi discriminante in R. Strumenti quantitativi per la gestione

Analisi discriminante in R. Strumenti quantitativi per la gestione Analisi discriminante in R Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l4-lda.html#(1) 1/25 Default data Carichiamo il

Dettagli

Validazione dei modelli. Strumenti quantitativi per la gestione

Validazione dei modelli. Strumenti quantitativi per la gestione Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 1/27 Validazione dei modelli In questo esempio

Dettagli

Quiz di verifica Classificazione

Quiz di verifica Classificazione Quiz di verifica Classificazione Strumenti Quantitativi per la gestione Le domande 1 4 si riferiscono al seguente problema: Supponiamo di raccogliere dati per un gruppo di studenti della classe di SQG

Dettagli

Regressione lineare semplice

Regressione lineare semplice Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare (RL) La regressione lineare per i dati Advertising Analisi d interesse Regressione lineare semplice

Dettagli

Statistica Applicata all edilizia Lezione: approccio stocastico all analisi delle serie storiche

Statistica Applicata all edilizia Lezione: approccio stocastico all analisi delle serie storiche Lezione: approccio stocastico all analisi delle serie storiche E-mail: orietta.nicolis@unibg.it 3 maggio 2011 Programma 1 Approccio stocastico all analisi delle serie storiche Programma Approccio stocastico

Dettagli

Regressione lineare semplice. Strumenti quantitativi per la gestione

Regressione lineare semplice. Strumenti quantitativi per la gestione Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3a_rls.html#(1) 1/33 Regressione lineare (RL) La RL è uno degli

Dettagli

I modelli lineari generalizzati per la tariffazione nel ramo RCA: applicazione

I modelli lineari generalizzati per la tariffazione nel ramo RCA: applicazione I modelli lineari generalizzati per la tariffazione nel ramo RCA: applicazione Giuseppina Bozzo Giuseppina Bozzo Considerazioni preliminari La costruzione di un GLM è preceduta da alcune importanti fasi:

Dettagli

Valutazione e Selezione del Modello

Valutazione e Selezione del Modello Valutazione e Selezione del Modello Fondamenti Matematici della Teoria dell Apprendimento Statistico Laura Lo Gerfo Dipartimento di Informatica e Scienze dell Informazione 18 maggio 2007 Laura Lo Gerfo

Dettagli

Cereal data- analisi con gli alberi di classificazione

Cereal data- analisi con gli alberi di classificazione Cereal data- analisi con gli alberi di classificazione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 1/32 Cereal.dat Per migliorare la commercializzazione

Dettagli

Modelli non lineari e cross validazione. Strumenti quantitativi per la gestione

Modelli non lineari e cross validazione. Strumenti quantitativi per la gestione Modelli non lineari e cross validazione Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l3-temperature_max.html#(24) 1/28 Metodi

Dettagli

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine e applicazioni al dominio del Contact Management Parte IV: valutazione dei Università degli Studi di Udine Cross- In collaborazione con dott. Enrico Marzano, CIO Gap srl progetto Active Contact System

Dettagli

La regressione lineare semplice

La regressione lineare semplice La regressione lineare semplice Il modello di regressione lineare semplice - 1 y = β 0 + βx + ε 10 8 Una retta nel piano Variabile Y 6 4 2 0 0 1 2 3 4 Variabile X 1 Il modello di regressione lineare semplice

Dettagli

Scelta della funzione di legame in un modello lineare generalizzato attraverso delle simulazioni. Fabrizio Bettella

Scelta della funzione di legame in un modello lineare generalizzato attraverso delle simulazioni. Fabrizio Bettella Scelta della funzione di legame in un modello lineare generalizzato attraverso delle simulazioni Fabrizio Bettella anno accademico 2006/2007 2 Indice 1 Introduzione 5 2 I modelli lineari generalizzati

Dettagli

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1 lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,

Dettagli

Statistical learning Strumenti quantitativi per la gestione

Statistical learning Strumenti quantitativi per la gestione Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer Vendite Simbologia Reddito Statistical learning A cosa ci serve f? 1 Previsione 2 Inferenza Previsione Errore riducibile e errore

Dettagli

Università di Pavia Econometria Esercizi 5

Università di Pavia Econometria Esercizi 5 Università di Pavia Econometria 2007-2008 Esercizi 5 Maggio, 2008 1. Una regressione lineare multipla di y su una costante, x 2 e x 3 produce i seguenti risultati: ŷ t = 4 + 0.4x t2 + 0.9x t3 con X X =

Dettagli

Classificazione Mario Guarracino Data Mining a.a. 2010/2011

Classificazione Mario Guarracino Data Mining a.a. 2010/2011 Classificazione Mario Guarracino Data Mining a.a. 2010/2011 Introduzione I modelli di classificazione si collocano tra i metodi di apprendimento supervisionato e si rivolgono alla predizione di un attributo

Dettagli

Psicometria con Laboratorio di SPSS 2

Psicometria con Laboratorio di SPSS 2 Psicometria con Laboratorio di SPSS 2 Analisi fattoriale confermativa (v. 1.1a, 17 aprile 2018) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2017-18

Dettagli

Strumenti quantitativi per la gestione. Introduzione al corso A.A

Strumenti quantitativi per la gestione. Introduzione al corso A.A Strumenti quantitativi per la gestione Introduzione al corso A.A. 2018-2019 Un esempio introduttivo: salari dei manager Y = Salario annuale (in dollari) x 1 = Anni di esperienza (Experience) x 2 = Anni

Dettagli

Psicometria. 9-Analisi fattoriale confermativa vers. 1.0

Psicometria. 9-Analisi fattoriale confermativa vers. 1.0 Psicometria 9-Analisi fattoriale confermativa vers. 1.0 Germano Rossi 1 germano.rossi@unimib.it Giovanni Battista Flebus 1 giovannibattista.flebus@unimib.it 1 Dipartimento di Psicologia, Università di

Dettagli

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa

Dettagli

Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) 12 Giugno 2019

Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) 12 Giugno 2019 DIPARTIMENTO DI INGEGNERIA GESTIONALE, DELL INFORMAZIONE E DELLA PRODUZIONE Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) 12 Giugno 2019 Nome: Cognome: Matricola: Riga: Colonna:

Dettagli

Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione

Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione Metodi er la riduzione della dimensionalità Strumenti quantitativi er la gestione Emanuele Taufer Introduzione Combinazioni lineari Regressione lineare sulle variabili trasformate Dettaglio teorico Metodi

Dettagli

Analisi della varianza

Analisi della varianza Università degli Studi di Padova Facoltà di Medicina e Chirurgia Facoltà di Medicina e Chirurgia - A.A. 2009-10 Scuole di specializzazione Lezioni comuni Disciplina: Statistica Docente: dott.ssa Egle PERISSINOTTO

Dettagli

Valutazione dei modelli matematici

Valutazione dei modelli matematici Valutazione dei modelli matematici Andrea Onofri 30 aprile 2013 Indice 1 Introduzione 2 2 Metodi grafici di valutazione 2 3 Metodi numerici 3 3.1 Il coefficiente di determinazione................... 5

Dettagli

Correlazione e regressione

Correlazione e regressione Correlazione e regressione Correlazione 1 Come posso determinare il legame tra due o più variabili? Correlazione COEFFICIENTE DI CORRELAZIONE (r di Pearson) massimo consumo di ossigeno e prestazione nelle

Dettagli

Statistica Applicata all edilizia: il modello di regressione

Statistica Applicata all edilizia: il modello di regressione Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione

Dettagli

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine al e applicazioni al dominio del Contact Management Parte I: Il Processo di, Principali tipologie di al Cos è il Il processo di Università degli Studi di Udine Unsupervised In collaborazione con dott.

Dettagli

Apprendimento basato sulle istanze

Apprendimento basato sulle istanze Apprendimento basato sulle istanze Apprendimento basato sulle istanze Apprendimento: semplice memorizzazione di tutti gli esempi Classificazione di una nuova istanza x j : reperimento degli

Dettagli

VALIDAZIONE DEL MODELLO

VALIDAZIONE DEL MODELLO VALIDAZIONE DEL MODELLO Validazione del Modello Non è sufficiente stimare il vettore θ per dichiarare concluso il processo di identificazione. E necessario ottenere una misura della sua affidabilità L

Dettagli

6. Partial Least Squares (PLS)

6. Partial Least Squares (PLS) & C. Di Natale: (PLS) Partial Least Squares PLS toolbox di MATLAB 1 Da PCR a PLS approccio geometrico Nella PCR la soluzione del problema della regressione passa attraverso la decomposizione della matrice

Dettagli

Quiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione

Quiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione Quiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione Le domande 1-6 si riferiscono al seguente problema Un data set contiene i dati sui consumi di diversi tipi di automobili e alcune loro

Dettagli

Regressione lineare semplice

Regressione lineare semplice Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro

Dettagli

Argomenti della lezione:

Argomenti della lezione: Lezione 9 Argomenti della lezione: La regressione multipla: Approcci analitici Regressione standard Regressione gerarchica Regressione statistica Strategie Analitiche per la regressione Tre principali

Dettagli

Validazione dei modelli Strumenti quantitativi per la gestione

Validazione dei modelli Strumenti quantitativi per la gestione Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test

Dettagli

Computazione per l interazione naturale: Regressione probabilistica

Computazione per l interazione naturale: Regressione probabilistica Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2018.html

Dettagli

Multicollinearità. Strumenti quantitativi per la gestione

Multicollinearità. Strumenti quantitativi per la gestione Multicollinearità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 1/13 Quando non tutto va come dovrebbe Si parla di multi-collinearità

Dettagli

Regressione Lineare Multipla

Regressione Lineare Multipla Regressione Lineare Multipla Fabio Ruini Abstract La regressione ha come scopo principale la previsione: si mira, cioè, alla costruzione di un modello attraverso cui prevedere i valori di una variabile

Dettagli

lezione 10 AA Paolo Brunori

lezione 10 AA Paolo Brunori AA 2016-2017 Paolo Brunori Redditi svedesi - il dataset contiene i dati di reddito di 838 individui - il dataset contiene le variabili: sex = sesso age = età edu = anni di istruzione y_gross = reddito

Dettagli

HR analyics. Analisi con le CP e analisi predittiva

HR analyics. Analisi con le CP e analisi predittiva HR analyics Analisi con le CP e analisi predittiva SQG file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 1/24 Dati Human Resources (HR) In questa esercitazione viene analizzato

Dettagli

Computazione per l interazione naturale: Regressione probabilistica

Computazione per l interazione naturale: Regressione probabilistica Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2016.html

Dettagli

DESCRIZIONE DEL DATA SET

DESCRIZIONE DEL DATA SET DESCRIZIONE DEL DATA SET Fonte: UC Irvine Machine Learning Repository Autore: Michael Redmond Nome data set: Communities and Crime CONTENUTI DEL DATA SET DI PARTENZA 125 POTENZIALI PREDITTORI Dati socio-economici

Dettagli

Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) 21 Giugno Primo Appello

Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) 21 Giugno Primo Appello DIPARTIMENTO DI INGEGNERIA GESTIONALE, DELL INFORMAZIONE E DELLA PRODUZIONE Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) 21 Giugno 2018 - Primo Appello Nome: Cognome: Matricola:

Dettagli

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

0 altimenti 1 soggetto trova lavoroentro 6 mesi} Lezione n. 16 (a cura di Peluso Filomena Francesca) Oltre alle normali variabili risposta che presentano una continuità almeno all'interno di un certo intervallo di valori, esistono variabili risposta

Dettagli

Regressione Lineare. Corso di Intelligenza Artificiale, a.a Prof. Francesco Trovò

Regressione Lineare. Corso di Intelligenza Artificiale, a.a Prof. Francesco Trovò Regressione Lineare Corso di Intelligenza Artificiale, a.a. 2017-2018 Prof. Francesco Trovò 23/04/2018 Regressione Lineare Supervised Learning Supervised Learning: recap È il sottocampo del ML più vasto

Dettagli

Computazione per l interazione naturale: Regressione lineare

Computazione per l interazione naturale: Regressione lineare Computazione per l interazione naturale: Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it http://homes.dsi.unimi.it/~boccignone/l

Dettagli

Computazione per l interazione naturale: Regressione probabilistica

Computazione per l interazione naturale: Regressione probabilistica Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2017.html

Dettagli

Classificazione DATA MINING: CLASSIFICAZIONE - 1. Classificazione

Classificazione DATA MINING: CLASSIFICAZIONE - 1. Classificazione M B G Classificazione ATA MINING: CLASSIFICAZIONE - 1 Classificazione Sono dati insieme di classi oggetti etichettati con il nome della classe di appartenenza (training set) L obiettivo della classificazione

Dettagli

Bagging e Foreste Casuali con R

Bagging e Foreste Casuali con R Bagging e Foreste Casuali con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-bagging-fc.html#(10) 1/10 Bagging e Foreste casuali con R Utilizziamo ancora una

Dettagli

Fasi del modello di regressione

Fasi del modello di regressione Fasi del modello di regressione Specificazione del modello: scelta del tipo di funzione da utilizzare per descrivere un fenomeno; definizione delle ipotesi di base Stima dei parametri: uso di stimatori

Dettagli

Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) Secondo Parziale - 11 Giugno 2018

Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) Secondo Parziale - 11 Giugno 2018 DIPARTIMENTO DI INGEGNERIA GESTIONALE, DELL INFORMAZIONE E DELLA PRODUZIONE Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) Secondo Parziale - 11 Giugno 2018 Nome: Cognome: Matricola:

Dettagli

Computazione per l interazione naturale: Regressione lineare Bayesiana

Computazione per l interazione naturale: Regressione lineare Bayesiana Computazione per l interazione naturale: Bayesiana Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@di.unimi.it

Dettagli

Laboratorio di Apprendimento Automatico. Fabio Aiolli Università di Padova

Laboratorio di Apprendimento Automatico. Fabio Aiolli Università di Padova Laboratorio di Apprendimento Automatico Fabio Aiolli Università di Padova Underfitting e Overfitting Complessità spazio ipotesi SVM: aumenta con kernel non lineari, RBF con maggiore pendenza, aumenta con

Dettagli

TECNICHE DI IDENTIFICAZIONE NON PARAMETRICA. Gianluigi Pillonetto Dipartimento di Ingegneria dell Informazione Università di Padova

TECNICHE DI IDENTIFICAZIONE NON PARAMETRICA. Gianluigi Pillonetto Dipartimento di Ingegneria dell Informazione Università di Padova TECNICHE DI IDENTIFICAZIONE NON PARAMETRICA Gianluigi Pillonetto Dipartimento di Ingegneria dell Informazione Università di Padova Il problema dell identificazione di sistema? v k u(t) SISO SYSTEM z(t)

Dettagli

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è

Dettagli

Metodi statistici per la ricerca sociale Capitolo 15. Regressione logistica: modellare variabili risposta categoriali

Metodi statistici per la ricerca sociale Capitolo 15. Regressione logistica: modellare variabili risposta categoriali Metodi statistici per la ricerca sociale Capitolo 15. Regressione logistica: modellare variabili risposta categoriali Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni (DiSIA) Università

Dettagli

Statistica economica

Statistica economica Statistica economica a.a. 013/14 Dr. Luca Secondi 10.a. Output tipico di un modello di regressione lineare multipla 1 Le analisi basate sul modello di regressione prevedono la stima dei coefficienti associati

Dettagli

Progettazione di un Sistema di Machine Learning

Progettazione di un Sistema di Machine Learning Progettazione di un Sistema di Machine Learning Esercitazioni per il corso di Logica ed Intelligenza Artificiale a.a. 2013-14 Vito Claudio Ostuni Data analysis and pre-processing Dataset iniziale Feature

Dettagli

Statistica Inferenziale

Statistica Inferenziale Statistica Inferenziale Prof. Raffaella Folgieri Email: folgieri@mtcube.com aa 2009/2010 Riepilogo lezione 6 Abbiamo visto: Definizione di popolazione, di campione e di spazio campionario Distribuzione

Dettagli

Statistica di base degli studi Real-life I

Statistica di base degli studi Real-life I Statistica di base degli studi Real-life I Scardapane Marco Gli alberi di regressione Gli alberi di regressione, o tecniche di regressione ad albero, sono metodi originariamente nati nel campo del data

Dettagli

Statistica di base degli studi Real-life I. Scardapane Marco

Statistica di base degli studi Real-life I. Scardapane Marco Statistica di base degli studi Real-life I Scardapane Marco Gli alberi di regressione Gli alberi di regressione, o tecniche di regressione ad albero, sono metodi originariamente nati nel campo del data

Dettagli

STATISTICA A K (60 ore)

STATISTICA A K (60 ore) STATISTICA A K (60 ore) Marco Riani mriani@unipr.it http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta

Dettagli

Misura della performance di ciascun modello: tasso di errore sul test set

Misura della performance di ciascun modello: tasso di errore sul test set Confronto fra modelli di apprendimento supervisionato Dati due modelli supervisionati M 1 e M costruiti con lo stesso training set Misura della performance di ciascun modello: tasso di errore sul test

Dettagli

Stima dei Parametri. Corso di Apprendimento Automatico Laurea Magistrale in Informatica Nicola Fanizzi

Stima dei Parametri. Corso di Apprendimento Automatico Laurea Magistrale in Informatica Nicola Fanizzi Laurea Magistrale in Informatica Nicola Fanizzi Dipartimento di Informatica Università degli Studi di Bari 20 gennaio 2009 Sommario Introduzione Stima dei parametri di massima verosimiglianza Stima dei

Dettagli

Statistica multivariata 27/09/2016. D.Rodi, 2016

Statistica multivariata 27/09/2016. D.Rodi, 2016 Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche

Dettagli

Modelli a effetti misti

Modelli a effetti misti Probabilità e Statistica per l analisi di dati sperimentali Modelli a effetti misti Sviluppo e gestione di Data Center per il calcolo scientifico ad alte prestazioni Master Progetto PRISMA, UniBA/INFN

Dettagli

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Corso di Bioinformatica Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di machine learning I metodi

Dettagli

Apprendimento automatico e Reti Neurali. Francesco Sambo tel

Apprendimento automatico e Reti Neurali. Francesco Sambo  tel Apprendimento automatico e Reti Neurali Francesco Sambo www.dei.unipd.it/~sambofra francesco.sambo@dei.unipd.it tel. 049 827 7834 Apprendimento automatico Capacità di un agente di sintetizzare nuova conoscenza

Dettagli

Alberi di Decisione (2)

Alberi di Decisione (2) Alberi di Decisione (2) Corso di AA, anno 2018/19, Padova Fabio Aiolli 05 Novembre 2018 Fabio Aiolli Alberi di Decisione (2) 05 Novembre 2018 1 / 19 Apprendimento di alberi di decisione: Bias induttivo

Dettagli

LEZIONE N.8 (a cura di Teresa Fanelli) Questa forma risulta importante nel modello di regressione con più variabili.

LEZIONE N.8 (a cura di Teresa Fanelli) Questa forma risulta importante nel modello di regressione con più variabili. LEZIONE N.8 (a cura di Teresa Fanelli) Forma matriciale del Modello di Regressione Semplice L assunzione di base del modello è: Y i =β 0 +x i β 1 +ε i i=1,2,..n. Lo stesso modello può essere scritto attraverso

Dettagli

Analisi delle serie storiche parte V Modelli autoregressivi

Analisi delle serie storiche parte V Modelli autoregressivi Analisi delle serie storiche parte V Modelli autoregressivi a.a. 2016/2017 Economiche Internazionali 1 Definizioni introduttive Autoregressione: modello di regressione che spiega una serie temporale con

Dettagli

Argomenti della lezione:

Argomenti della lezione: Lezione 7 Argomenti della lezione: La regressione semplice Il modello teorico Il calcolo dei parametri Regressione lineare Esamina la relazione lineare tra una o più variabili esplicative (o indipendenti,

Dettagli

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova

Dettagli

Apprendimento Automatico (Feature Selection e Kernel Learning)

Apprendimento Automatico (Feature Selection e Kernel Learning) Apprendimento Automatico (Feature Selection e Kernel Learning) Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Servono tutti gli attributi? Gli

Dettagli

COMPLESSITÀ COMPUTAZIONALE DEGLI ALGORITMI

COMPLESSITÀ COMPUTAZIONALE DEGLI ALGORITMI COMPLESSITÀ COMPUTAZIONALE DEGLI ALGORITMI Fondamenti di Informatica a.a.00.005/06 Prof. V.L. Plantamura Dott.ssa A. Angelini Classificazione degli algoritmi Tassonomia di costo: algoritmo costante: c

Dettagli

Lezione 15. L analisi della Varianza (ANOVA): i disegni entro i sogetti e misti. Argomenti della lezione: Disegni entro i soggetti

Lezione 15. L analisi della Varianza (ANOVA): i disegni entro i sogetti e misti. Argomenti della lezione: Disegni entro i soggetti Lezione 15 L analisi della Varianza (ANOVA): i disegni entro i sogetti e misti Argomenti della lezione: Disegni entro i soggetti Disegni misti Effect size e potenza Disegni entro i soggetti Gli stessi

Dettagli

RETI NEURALI. Esempio: Stima del rendimento volumetrico η

RETI NEURALI. Esempio: Stima del rendimento volumetrico η RETI NEURALI Contenuti: Reti di percettroni Reti neurali a base radiale Esempio: Stima del rendimento volumetrico η Conclusioni Motivazione: Modelli flessibili e modulari (= costituiti dalla interconnessione

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Computazione per l interazione naturale: macchine che apprendono Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it

Dettagli

Classificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Classificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Classificazione Introduzione I modelli di classificazione si collocano tra i metodi di apprendimento supervisionato e si rivolgono alla predizione di un attributo target categorico. A partire da un insieme

Dettagli