Selezione del modello Strumenti quantitativi per la gestione
|
|
- Alessandra Viola
- 4 anni fa
- Visualizzazioni
Transcript
1 Selezione del modello Strumenti quantitativi per la gestione Emanuele Taufer Migliorare il modello di regressione lineare (RL) Metodi Selezione Best subset Selezione stepwise Stepwise forward Stepwise backward Stepwise ibrido Comparazione e scelta fra modelli Metodi indiretti AIC BIC R 2 corretto Dati Credit.csv Confronto grafico, BIC, R 2 a Confronto grafico BIC crossvalidazione Riferimenti bibliografici Migliorare il modello di regressione lineare (RL) Un modello di regressione lineare ha indubbiamente, rispetto a modelli più sofisticati, il pregio della semplicità ed interpretabilità dei risultati. Può essere inoltre competitivo in molte situazioni complesse. In questa lezione discutiamo di una serie di tecniche per ovviare ai problemi tipici che si incontrano nelle applicazioni più moderne. I metodi sono applicabili anche alle tecniche di classificazione Metodi Y = β0 + β1x1 + β2x2 + + β p X p + ε file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 1/6
2 Tre classi di metodi per affrontare i problemi: Subset selection: scegliere tra i predittori disponibili quelli effettivamente rilevanti per il problema (anche nel caso in cui p > n) Shrinkage o regolarizzazione: il metodo dei minimi quadrati è modificato per effettuare la selezione delle variabili in modo automatico Riduzione della dimensionalità: in questo caso la numerosità dei predittori, p, è ridotta ricorrendo a tecniche di riduzione della dimensionalità dei dati (Componenti principali) Selezione Best subset Con questo metodo si comparano tra loro tutte le possibili combinazioni dei p predittori. 1. M 0 indica il modello senza predittori (la media di Y ) k = 1, 2,, p 2. Per adattare tutti i possibili ( p ) modelli con k predittori k scegliere il migliore (minor RSS o maggior R 2 ) tra questi: chiamiamolo M k. 3. Si scelga il modello migliore fra M 0, M 1,, M p usando la cross validazione oppure uno dei seguenti criteri (discussi sotto):, AIC, BIC, R 2 corretto. Nota: non usiamo o per confrontare poichè diminuisce e cresce monotonicamente all aumentare del numero di variabili. Nella regressione logistica, è possibile usare la devianza come indicatore al passo 2: più piccola è tanto migliore il modello. Problema: ci sono modelli possibli:,. Selezione stepwise Per ridurre il carico computazionale dell approccio best subet è possibile ricorrere ad algoritmi più semplici. Le diverse procedure forniscono spesso modelli simili ma non coincidenti Stepwise forward RSS R 2 M 0, M 1,, M p RSS R 2 2 p 2 10 = = M 0 : il modello senza predittori (la media di Y ) 1. Scegli il modello migliore con un predittore (usa RSS o R 2 ), chiamalo M 1. p 1 M 1 2. Considera i modelli ottenuti aggiungendo a uno tra i predittori rimasti e scegli il migliore: chiamalo M 2 3. Continua allo stesso modo aggiungendo un predittore per volta fra i p k rimanenti k = 2, 3,, p 1 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 2/6
3 ,,, M p 4. Si scelga il modello migliore fra usando la cross validazione oppure uno dei seguenti criteri (discussi sotto):, AIC, BIC, R 2 corretto. In totale il metodo forward implica l adattamento di 1 + p(p + 1)/2 modelli. Per p = Non garantisce di trovare il modello migliore tra i Inserita una variabile questa non viene più rimossa E applicabile anche quando p > n Stepwise backward possibili Simile a forward ma si parte dal un modello con tutte le p variabili: le variabili vengono eliminate una alla volta partendo dalle meno rilevanti. Stepwise ibrido Cerca di mediare tra i vantaggi e gli svantaggi dei metodi forward e backward: inizia in modalità forward, ma se necessario, procede in modalità backward e rimuovere una variabile precedentemente inserita. Comparazione e scelta fra modelli Tipicamente si individuano più modelli di RL che potrebbero essere adatti al problema in esame. RSS e R 2 sono due indicatori dell errore training dei modelli Come già discusso, l obbiettivo è quello di scegliere un modello che ha un basso valore di errore test (MSE nella RL) Per stimare l errore test ci sono due strategie: 1. stima indiretta attraverso un aggiustamento dell errore training per eliminarne il bias dovuto all overfitting (metodi tradizionali non intensivi dal punto di vista computazionale) 2. stima diretta attraverso la cross validazione o validation set approach. Metodi indiretti I metodi indiretti introducono delle penalità collegate all aumentare del numero di predittori p. 1. di Mallow 2. AIC (Akaike information criterion) 3. BIC (Bayesian information criterion) 4. R 2 a ( R 2 corretto) M 0 M 1 2 p file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 3/6
4 Nota: la simbologia predittori con d. è tradizionale; per evitare confusione, nelle prossime slide definiamo il numero di = (RSS + 2d ) 1 n dove σ^2 è una stima della varianza di ε del modello considerato Il criterio aggiunge una penalità 2dσ^2 all RSS training che tende a sottostimare il test error. σ^2 produce una stima corretta per il test MSE del modello. Il modello preferito è quello con AIC minore Il criterio di Akaike è basato sulla funzione di verosimiglianza e pertanto utilizzabile in diversi contesti. Nella RL il criterio assume la forma Nella regressione lineare dunque AIC e sono proporzionali tra loro e pertanto portano alla stessa scelta. BIC L indice BIC è definito come dove n indica il numero di unità training Analogamente a e AIC il modello con minor valore di BIC è preferito Se allora : pone una penalità maggiore rispetto a e e pertanto tende a scegliere modelli più piccoli. R 2 corretto Abbiamo già visto nella lezione sulla RL che In questo caso il modello preferito è quello con R 2 a maggiore. Dati Credit.csv Cp 1 AIC = (RSS + 2d σ^2 ) nσ^2 1 BIC = (RSS + log(n)d σ^2 ) n > 7 log n > 2 BIC AIC R 2 a n = 1 n 1 n (p + 1) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 4/6 RSS T SS
5 Un dataset che parzialmente abbiamo già indontrato (data Default). In questo caso la variabile dipendente è rappresentata da Balance, lo scoperto, che deve essere analizzato sulla base delle altre variabili credit< read.csv(" head(credit) X Income Limit Rating Cards Age Education Gender Student Married Male No Yes Female Yes Yes Male No No Female No No Male No Yes Male No No Ethnicity Balance 1 Caucasian Asian Asian Asian Caucasian Caucasian 1151 str(credit) 'data.frame': 400 obs. of 12 variables: $ X : int $ Income : num $ Limit : int $ Rating : int $ Cards : int $ Age : int $ Education: int $ Gender : Factor w/ 2 levels " Male","Female": $ Student : Factor w/ 2 levels "No","Yes": $ Married : Factor w/ 2 levels "No","Yes": $ Ethnicity: Factor w/ 3 levels "African American",..: $ Balance : int Confronto grafico, BIC, R 2 a file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 5/6
6 Confronto grafico BIC crossvalidazione Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6a_sm.html 6/6
Regolarizzazione (Shrinkage) Strumenti quantitativi per la gestione
Regolarizzazione (Shrinkage) Strumenti quantitativi er la gestione Emanuele Taufer Metodi di regolarizzazione o shrinkage Regressione ridge Standardizzare i redittori Dati Credit.csv Ridge er i dati Credit.csv
DettagliRegressione K-Nearest Neighbors. Strumenti quantitativi per la gestione
Regressione K-Nearest Neighbors Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 1/13 Regressione non parametrica
DettagliRegressione logistica. Strumenti quantitativi per la gestione
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/4a_rlg.html#(22) 1/28 Metodi di classificazione I
DettagliRegressione ridge e LASSO Strumenti quantitativi per la gestione
Regressione ridge e LASSO Strumenti quantitativi per la gestione Emanuele Taufer Dati Credit.csv La funzione glmnet() La funzione model.matrix() Regressione ridge Output CV Ridge Output Regressione LASSO
DettagliAlberi di decisione con R
Alberi di decisione con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-alberi_di_decisione.html#(1) 1/14 Implementare gli alberi decisionali con R Per adattare
DettagliAnalisi Discriminante Strumenti quantitativi per la gestione
Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer Un esempio introduttivo Approccio con Bayes Perchè un altro metodo di classificazione? Classificazione con Bayes Analisi discriminante
DettagliMetodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione
Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 1/25 Introduzione Gli approcci
DettagliModelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 1/26 Utilizzare
DettagliAnalisi discriminante in R Strumenti quantitativi per la gestione
Analisi discriminante in R Strumenti quantitativi per la gestione Emanuele Taufer Default data LDA con R Output Plot Previsione Tabella di classificazione Cambiare il criterio di classificazione Costruire
DettagliStatistical learning. Strumenti quantitativi per la gestione
Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/2_statistical_learning.html#(1) 1/42 Vendite Supponiamo di voler capire
DettagliRegressione logistica
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer Metodi di classificazione Tecniche principali Alcuni esempi Data set Default I dati La regressione logistica Esempio Il modello
DettagliAnalisi Discriminante. Strumenti quantitativi per la gestione
Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/classes/4-2_ad.html#(33) 1/39 AD Tecnica di classificazione che sfrutta combinazioni
DettagliStatistical learning. Strumenti quantitativi per la gestione. Emanuele Taufer
Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer Vendite (Sales) Supponiamo di voler capire come migliorare le vendite di un determinato prodotto. Il Set di dati Advertising
DettagliRegressione logistica. Strumenti quantitativi per la gestione
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25 Metodi di classificazione I metodi usati per analizzare
DettagliModelli con predittori qualitativi e modelli con interazioni
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer Utilizzare variabili indipendenti qualitative (VIQ) Codifica binaria 0,1 Esempio: salari
DettagliClassificazione k-nn con R. Strumenti quantitativi per la gestione
Classificazione k-nn con R Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 1/16 Altezza e peso degli adulti Le statistiche sull
DettagliStrumenti quantitativi per la gestione (121210) A.a / 2019.
LAUREA MAGISTRALE IN MANAGEMENT Dipartimento di Economia e Management Università degli Studi di Trento Strumenti quantitativi per la gestione (121210) A.a. 2018 / 2019. Docente: Prof. Emanuele Taufer 1.
Dettaglie applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine
e applicazioni al dominio del Contact Management Parte V: combinazione di Università degli Studi di Udine In collaborazione con dott. Enrico Marzano, CIO Gap srl progetto Active Contact System 1/10 Contenuti
DettagliRegressione lineare multipla Strumenti quantitativi per la gestione
Regressione lineare multipla Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare multipla (RLM) Esempio: RLM con due predittori Stima dei coefficienti e previsione Advertising data
DettagliAnalisi discriminante in R. Strumenti quantitativi per la gestione
Analisi discriminante in R Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l4-lda.html#(1) 1/25 Default data Carichiamo il
DettagliValidazione dei modelli. Strumenti quantitativi per la gestione
Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 1/27 Validazione dei modelli In questo esempio
DettagliQuiz di verifica Classificazione
Quiz di verifica Classificazione Strumenti Quantitativi per la gestione Le domande 1 4 si riferiscono al seguente problema: Supponiamo di raccogliere dati per un gruppo di studenti della classe di SQG
DettagliRegressione lineare semplice
Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare (RL) La regressione lineare per i dati Advertising Analisi d interesse Regressione lineare semplice
DettagliStatistica Applicata all edilizia Lezione: approccio stocastico all analisi delle serie storiche
Lezione: approccio stocastico all analisi delle serie storiche E-mail: orietta.nicolis@unibg.it 3 maggio 2011 Programma 1 Approccio stocastico all analisi delle serie storiche Programma Approccio stocastico
DettagliRegressione lineare semplice. Strumenti quantitativi per la gestione
Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3a_rls.html#(1) 1/33 Regressione lineare (RL) La RL è uno degli
DettagliI modelli lineari generalizzati per la tariffazione nel ramo RCA: applicazione
I modelli lineari generalizzati per la tariffazione nel ramo RCA: applicazione Giuseppina Bozzo Giuseppina Bozzo Considerazioni preliminari La costruzione di un GLM è preceduta da alcune importanti fasi:
DettagliValutazione e Selezione del Modello
Valutazione e Selezione del Modello Fondamenti Matematici della Teoria dell Apprendimento Statistico Laura Lo Gerfo Dipartimento di Informatica e Scienze dell Informazione 18 maggio 2007 Laura Lo Gerfo
DettagliCereal data- analisi con gli alberi di classificazione
Cereal data- analisi con gli alberi di classificazione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 1/32 Cereal.dat Per migliorare la commercializzazione
DettagliModelli non lineari e cross validazione. Strumenti quantitativi per la gestione
Modelli non lineari e cross validazione Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l3-temperature_max.html#(24) 1/28 Metodi
Dettaglie applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine
e applicazioni al dominio del Contact Management Parte IV: valutazione dei Università degli Studi di Udine Cross- In collaborazione con dott. Enrico Marzano, CIO Gap srl progetto Active Contact System
DettagliLa regressione lineare semplice
La regressione lineare semplice Il modello di regressione lineare semplice - 1 y = β 0 + βx + ε 10 8 Una retta nel piano Variabile Y 6 4 2 0 0 1 2 3 4 Variabile X 1 Il modello di regressione lineare semplice
DettagliScelta della funzione di legame in un modello lineare generalizzato attraverso delle simulazioni. Fabrizio Bettella
Scelta della funzione di legame in un modello lineare generalizzato attraverso delle simulazioni Fabrizio Bettella anno accademico 2006/2007 2 Indice 1 Introduzione 5 2 I modelli lineari generalizzati
Dettaglilezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1
lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,
DettagliStatistical learning Strumenti quantitativi per la gestione
Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer Vendite Simbologia Reddito Statistical learning A cosa ci serve f? 1 Previsione 2 Inferenza Previsione Errore riducibile e errore
DettagliUniversità di Pavia Econometria Esercizi 5
Università di Pavia Econometria 2007-2008 Esercizi 5 Maggio, 2008 1. Una regressione lineare multipla di y su una costante, x 2 e x 3 produce i seguenti risultati: ŷ t = 4 + 0.4x t2 + 0.9x t3 con X X =
DettagliClassificazione Mario Guarracino Data Mining a.a. 2010/2011
Classificazione Mario Guarracino Data Mining a.a. 2010/2011 Introduzione I modelli di classificazione si collocano tra i metodi di apprendimento supervisionato e si rivolgono alla predizione di un attributo
DettagliPsicometria con Laboratorio di SPSS 2
Psicometria con Laboratorio di SPSS 2 Analisi fattoriale confermativa (v. 1.1a, 17 aprile 2018) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2017-18
DettagliStrumenti quantitativi per la gestione. Introduzione al corso A.A
Strumenti quantitativi per la gestione Introduzione al corso A.A. 2018-2019 Un esempio introduttivo: salari dei manager Y = Salario annuale (in dollari) x 1 = Anni di esperienza (Experience) x 2 = Anni
DettagliPsicometria. 9-Analisi fattoriale confermativa vers. 1.0
Psicometria 9-Analisi fattoriale confermativa vers. 1.0 Germano Rossi 1 germano.rossi@unimib.it Giovanni Battista Flebus 1 giovannibattista.flebus@unimib.it 1 Dipartimento di Psicologia, Università di
DettagliIl modello di regressione lineare multipla. Il modello di regressione lineare multipla
Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa
DettagliUniversità degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) 12 Giugno 2019
DIPARTIMENTO DI INGEGNERIA GESTIONALE, DELL INFORMAZIONE E DELLA PRODUZIONE Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) 12 Giugno 2019 Nome: Cognome: Matricola: Riga: Colonna:
DettagliMetodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione
Metodi er la riduzione della dimensionalità Strumenti quantitativi er la gestione Emanuele Taufer Introduzione Combinazioni lineari Regressione lineare sulle variabili trasformate Dettaglio teorico Metodi
DettagliAnalisi della varianza
Università degli Studi di Padova Facoltà di Medicina e Chirurgia Facoltà di Medicina e Chirurgia - A.A. 2009-10 Scuole di specializzazione Lezioni comuni Disciplina: Statistica Docente: dott.ssa Egle PERISSINOTTO
DettagliValutazione dei modelli matematici
Valutazione dei modelli matematici Andrea Onofri 30 aprile 2013 Indice 1 Introduzione 2 2 Metodi grafici di valutazione 2 3 Metodi numerici 3 3.1 Il coefficiente di determinazione................... 5
DettagliCorrelazione e regressione
Correlazione e regressione Correlazione 1 Come posso determinare il legame tra due o più variabili? Correlazione COEFFICIENTE DI CORRELAZIONE (r di Pearson) massimo consumo di ossigeno e prestazione nelle
DettagliStatistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
Dettaglie applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine
al e applicazioni al dominio del Contact Management Parte I: Il Processo di, Principali tipologie di al Cos è il Il processo di Università degli Studi di Udine Unsupervised In collaborazione con dott.
DettagliApprendimento basato sulle istanze
Apprendimento basato sulle istanze Apprendimento basato sulle istanze Apprendimento: semplice memorizzazione di tutti gli esempi Classificazione di una nuova istanza x j : reperimento degli
DettagliVALIDAZIONE DEL MODELLO
VALIDAZIONE DEL MODELLO Validazione del Modello Non è sufficiente stimare il vettore θ per dichiarare concluso il processo di identificazione. E necessario ottenere una misura della sua affidabilità L
Dettagli6. Partial Least Squares (PLS)
& C. Di Natale: (PLS) Partial Least Squares PLS toolbox di MATLAB 1 Da PCR a PLS approccio geometrico Nella PCR la soluzione del problema della regressione passa attraverso la decomposizione della matrice
DettagliQuiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione
Quiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione Le domande 1-6 si riferiscono al seguente problema Un data set contiene i dati sui consumi di diversi tipi di automobili e alcune loro
DettagliRegressione lineare semplice
Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro
DettagliArgomenti della lezione:
Lezione 9 Argomenti della lezione: La regressione multipla: Approcci analitici Regressione standard Regressione gerarchica Regressione statistica Strategie Analitiche per la regressione Tre principali
DettagliValidazione dei modelli Strumenti quantitativi per la gestione
Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test
DettagliComputazione per l interazione naturale: Regressione probabilistica
Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2018.html
DettagliMulticollinearità. Strumenti quantitativi per la gestione
Multicollinearità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 1/13 Quando non tutto va come dovrebbe Si parla di multi-collinearità
DettagliRegressione Lineare Multipla
Regressione Lineare Multipla Fabio Ruini Abstract La regressione ha come scopo principale la previsione: si mira, cioè, alla costruzione di un modello attraverso cui prevedere i valori di una variabile
Dettaglilezione 10 AA Paolo Brunori
AA 2016-2017 Paolo Brunori Redditi svedesi - il dataset contiene i dati di reddito di 838 individui - il dataset contiene le variabili: sex = sesso age = età edu = anni di istruzione y_gross = reddito
DettagliHR analyics. Analisi con le CP e analisi predittiva
HR analyics Analisi con le CP e analisi predittiva SQG file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 1/24 Dati Human Resources (HR) In questa esercitazione viene analizzato
DettagliComputazione per l interazione naturale: Regressione probabilistica
Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2016.html
DettagliDESCRIZIONE DEL DATA SET
DESCRIZIONE DEL DATA SET Fonte: UC Irvine Machine Learning Repository Autore: Michael Redmond Nome data set: Communities and Crime CONTENUTI DEL DATA SET DI PARTENZA 125 POTENZIALI PREDITTORI Dati socio-economici
DettagliUniversità degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) 21 Giugno Primo Appello
DIPARTIMENTO DI INGEGNERIA GESTIONALE, DELL INFORMAZIONE E DELLA PRODUZIONE Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) 21 Giugno 2018 - Primo Appello Nome: Cognome: Matricola:
Dettagli0 altimenti 1 soggetto trova lavoroentro 6 mesi}
Lezione n. 16 (a cura di Peluso Filomena Francesca) Oltre alle normali variabili risposta che presentano una continuità almeno all'interno di un certo intervallo di valori, esistono variabili risposta
DettagliRegressione Lineare. Corso di Intelligenza Artificiale, a.a Prof. Francesco Trovò
Regressione Lineare Corso di Intelligenza Artificiale, a.a. 2017-2018 Prof. Francesco Trovò 23/04/2018 Regressione Lineare Supervised Learning Supervised Learning: recap È il sottocampo del ML più vasto
DettagliComputazione per l interazione naturale: Regressione lineare
Computazione per l interazione naturale: Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it http://homes.dsi.unimi.it/~boccignone/l
DettagliComputazione per l interazione naturale: Regressione probabilistica
Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2017.html
DettagliClassificazione DATA MINING: CLASSIFICAZIONE - 1. Classificazione
M B G Classificazione ATA MINING: CLASSIFICAZIONE - 1 Classificazione Sono dati insieme di classi oggetti etichettati con il nome della classe di appartenenza (training set) L obiettivo della classificazione
DettagliBagging e Foreste Casuali con R
Bagging e Foreste Casuali con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-bagging-fc.html#(10) 1/10 Bagging e Foreste casuali con R Utilizziamo ancora una
DettagliFasi del modello di regressione
Fasi del modello di regressione Specificazione del modello: scelta del tipo di funzione da utilizzare per descrivere un fenomeno; definizione delle ipotesi di base Stima dei parametri: uso di stimatori
DettagliUniversità degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) Secondo Parziale - 11 Giugno 2018
DIPARTIMENTO DI INGEGNERIA GESTIONALE, DELL INFORMAZIONE E DELLA PRODUZIONE Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) Secondo Parziale - 11 Giugno 2018 Nome: Cognome: Matricola:
DettagliComputazione per l interazione naturale: Regressione lineare Bayesiana
Computazione per l interazione naturale: Bayesiana Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@di.unimi.it
DettagliLaboratorio di Apprendimento Automatico. Fabio Aiolli Università di Padova
Laboratorio di Apprendimento Automatico Fabio Aiolli Università di Padova Underfitting e Overfitting Complessità spazio ipotesi SVM: aumenta con kernel non lineari, RBF con maggiore pendenza, aumenta con
DettagliTECNICHE DI IDENTIFICAZIONE NON PARAMETRICA. Gianluigi Pillonetto Dipartimento di Ingegneria dell Informazione Università di Padova
TECNICHE DI IDENTIFICAZIONE NON PARAMETRICA Gianluigi Pillonetto Dipartimento di Ingegneria dell Informazione Università di Padova Il problema dell identificazione di sistema? v k u(t) SISO SYSTEM z(t)
DettagliMetodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è
DettagliMetodi statistici per la ricerca sociale Capitolo 15. Regressione logistica: modellare variabili risposta categoriali
Metodi statistici per la ricerca sociale Capitolo 15. Regressione logistica: modellare variabili risposta categoriali Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni (DiSIA) Università
DettagliStatistica economica
Statistica economica a.a. 013/14 Dr. Luca Secondi 10.a. Output tipico di un modello di regressione lineare multipla 1 Le analisi basate sul modello di regressione prevedono la stima dei coefficienti associati
DettagliProgettazione di un Sistema di Machine Learning
Progettazione di un Sistema di Machine Learning Esercitazioni per il corso di Logica ed Intelligenza Artificiale a.a. 2013-14 Vito Claudio Ostuni Data analysis and pre-processing Dataset iniziale Feature
DettagliStatistica Inferenziale
Statistica Inferenziale Prof. Raffaella Folgieri Email: folgieri@mtcube.com aa 2009/2010 Riepilogo lezione 6 Abbiamo visto: Definizione di popolazione, di campione e di spazio campionario Distribuzione
DettagliStatistica di base degli studi Real-life I
Statistica di base degli studi Real-life I Scardapane Marco Gli alberi di regressione Gli alberi di regressione, o tecniche di regressione ad albero, sono metodi originariamente nati nel campo del data
DettagliStatistica di base degli studi Real-life I. Scardapane Marco
Statistica di base degli studi Real-life I Scardapane Marco Gli alberi di regressione Gli alberi di regressione, o tecniche di regressione ad albero, sono metodi originariamente nati nel campo del data
DettagliSTATISTICA A K (60 ore)
STATISTICA A K (60 ore) Marco Riani mriani@unipr.it http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta
DettagliMisura della performance di ciascun modello: tasso di errore sul test set
Confronto fra modelli di apprendimento supervisionato Dati due modelli supervisionati M 1 e M costruiti con lo stesso training set Misura della performance di ciascun modello: tasso di errore sul test
DettagliStima dei Parametri. Corso di Apprendimento Automatico Laurea Magistrale in Informatica Nicola Fanizzi
Laurea Magistrale in Informatica Nicola Fanizzi Dipartimento di Informatica Università degli Studi di Bari 20 gennaio 2009 Sommario Introduzione Stima dei parametri di massima verosimiglianza Stima dei
DettagliStatistica multivariata 27/09/2016. D.Rodi, 2016
Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche
DettagliModelli a effetti misti
Probabilità e Statistica per l analisi di dati sperimentali Modelli a effetti misti Sviluppo e gestione di Data Center per il calcolo scientifico ad alte prestazioni Master Progetto PRISMA, UniBA/INFN
DettagliMachine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione
Corso di Bioinformatica Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di machine learning I metodi
DettagliApprendimento automatico e Reti Neurali. Francesco Sambo tel
Apprendimento automatico e Reti Neurali Francesco Sambo www.dei.unipd.it/~sambofra francesco.sambo@dei.unipd.it tel. 049 827 7834 Apprendimento automatico Capacità di un agente di sintetizzare nuova conoscenza
DettagliAlberi di Decisione (2)
Alberi di Decisione (2) Corso di AA, anno 2018/19, Padova Fabio Aiolli 05 Novembre 2018 Fabio Aiolli Alberi di Decisione (2) 05 Novembre 2018 1 / 19 Apprendimento di alberi di decisione: Bias induttivo
DettagliLEZIONE N.8 (a cura di Teresa Fanelli) Questa forma risulta importante nel modello di regressione con più variabili.
LEZIONE N.8 (a cura di Teresa Fanelli) Forma matriciale del Modello di Regressione Semplice L assunzione di base del modello è: Y i =β 0 +x i β 1 +ε i i=1,2,..n. Lo stesso modello può essere scritto attraverso
DettagliAnalisi delle serie storiche parte V Modelli autoregressivi
Analisi delle serie storiche parte V Modelli autoregressivi a.a. 2016/2017 Economiche Internazionali 1 Definizioni introduttive Autoregressione: modello di regressione che spiega una serie temporale con
DettagliArgomenti della lezione:
Lezione 7 Argomenti della lezione: La regressione semplice Il modello teorico Il calcolo dei parametri Regressione lineare Esamina la relazione lineare tra una o più variabili esplicative (o indipendenti,
DettagliData Mining. Prova parziale del 20 aprile 2017: SOLUZIONE
Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova
DettagliApprendimento Automatico (Feature Selection e Kernel Learning)
Apprendimento Automatico (Feature Selection e Kernel Learning) Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Servono tutti gli attributi? Gli
DettagliCOMPLESSITÀ COMPUTAZIONALE DEGLI ALGORITMI
COMPLESSITÀ COMPUTAZIONALE DEGLI ALGORITMI Fondamenti di Informatica a.a.00.005/06 Prof. V.L. Plantamura Dott.ssa A. Angelini Classificazione degli algoritmi Tassonomia di costo: algoritmo costante: c
DettagliLezione 15. L analisi della Varianza (ANOVA): i disegni entro i sogetti e misti. Argomenti della lezione: Disegni entro i soggetti
Lezione 15 L analisi della Varianza (ANOVA): i disegni entro i sogetti e misti Argomenti della lezione: Disegni entro i soggetti Disegni misti Effect size e potenza Disegni entro i soggetti Gli stessi
DettagliRETI NEURALI. Esempio: Stima del rendimento volumetrico η
RETI NEURALI Contenuti: Reti di percettroni Reti neurali a base radiale Esempio: Stima del rendimento volumetrico η Conclusioni Motivazione: Modelli flessibili e modulari (= costituiti dalla interconnessione
DettagliComputazione per l interazione naturale: macchine che apprendono
Computazione per l interazione naturale: macchine che apprendono Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it
DettagliClassificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Classificazione Introduzione I modelli di classificazione si collocano tra i metodi di apprendimento supervisionato e si rivolgono alla predizione di un attributo target categorico. A partire da un insieme
Dettagli