Validazione dei modelli. Strumenti quantitativi per la gestione
|
|
- Ambrogio Caruso
- 4 anni fa
- Visualizzazioni
Transcript
1 Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 1/27
2 Validazione dei modelli In questo esempio consideriamo il data set Auto e: adattiamo un modello di regressione lineare adattiamo una regressione una regressione quadratica ed un cubica adattiamo una regressione KNN (nonparametrica) compariamo i modelli attraverso il calcolo del test MSE file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 2/27
3 Il data set Auto In questo data set vi sono alcuni valori mancanti indicati con?. Nella lettura del file specifichiamo che? indica un valore mancante (NA) Auto<-read.csv(" str(auto) ## 'data.frame': 397 obs. of 9 variables: ## $ mpg : num ## $ cylinders : int ## $ displacement: num ## $ horsepower : int ## $ weight : int ## $ acceleration: num ## $ year : int ## $ origin : int ## $ name : Factor w/ 304 levels "amc ambassador brougham",..: file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 3/27
4 I dati Nel data.frame eliminiamo le righe con i valori mancanti attraverso la funzione complete.cases che crea un vettore logico (T,F,T...) con F in corrispondenza di una riga con uno o più valori mancanti Auto<-Auto[complete.cases(Auto),] ## elimino le righe con "NA" head(auto) ## mpg cylinders displacement horsepower weight acceleration year origin ## ## ## ## ## ## ## name ## 1 chevrolet chevelle malibu ## 2 buick skylark 320 ## 3 plymouth satellite ## 4 amc rebel sst ## 5 ford torino ## 6 ford galaxie 500 nrow(auto) ## [1] 392 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 4/27
5 Il problema analizzato Poiché l obiettivo di questa esercitazione è l applicazione di tecniche di scelta dei modelli, consideriamo un solo predittore: questo ci permetterà di visualizzare i risultati. Proviamo a prevedere il consumo (mpg) in funzione della potenza del motore (horsepower) L obiettivo è dunque stimare f nel modello mpg = f(horsepower) + ε Stimiamo f attraverso diversi modelli: 1. regressione lineare semplice, quadratica e cubica (modello parametrico) 2. regressione KNN (non parametrico) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 5/27
6 Validation set approach Per validare i modelli utilizzeremo il cd validation set approach, in cui una parte dei dati a disposizione è messa da parte e utilizzata come test set. Il test MSE calcolato dai dati test sarà utilizzato per scegliere K nella regressione KNN comparare i diversi modelli stimati file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 6/27
7 Diagramma a dispersione plot(auto$horsepower,auto$mpg) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 7/27
8 Test set e training set Il dataset è composto da 392 unità. Suddividiamo casualmente il dataset in due parti: il training set 292 unità il test set 100 unità Individuiamo le unità del training set con la funzione sample(). Il vettore train definito sotto contiene le posizioni selezionate set.seed(1) train=sample(392,292) train [1] [18] [35] [52] [69] [86] [103] [120] [137] [154] [171] [188] [205] [222] [239] [256] [273] [290] file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 8/27
9 Costruiamo i due data set, test e training, utilizzando i risultati del campionamento: Auto.test<-Auto[-train,] nrow(auto.test) [1] 100 Auto.train<-Auto[train,] nrow(auto.train) [1] 292 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 9/27
10 Regressione lineare semplice rls<-lm(mpg~horsepower, data=auto.train) summary(rls) Call: lm(formula = mpg ~ horsepower, data = Auto.train) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** horsepower <2e-16 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 4.89 on 290 degrees of freedom Multiple R-squared: 0.611, Adjusted R-squared: 0.61 F-statistic: 456 on 1 and 290 DF, p-value: <2e-16 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 10/27
11 plot(auto$horsepower,auto$mpg) abline(rls,col="red",lwd=2) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 11/27
12 RLS: Test MSE Il calcolo del test MSE può essere fatto molto semplicemente definendo la media delle differenze al quadrato tra i valori di mpg nel test set e la loro previsione in base al modello rls test.mse.rls<-mean((auto.test$mpg-predict(rls,auto.test))^2) test.mse.rls [1] 24.7 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 12/27
13 Regressione quadratica rq<-lm(mpg~horsepower+i(horsepower^2), data=auto.train) summary(rq) Call: lm(formula = mpg ~ horsepower + I(horsepower^2), data = Auto.train) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** horsepower < 2e-16 *** I(horsepower^2) e-15 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 4.41 on 289 degrees of freedom Multiple R-squared: 0.685, Adjusted R-squared: F-statistic: 314 on 2 and 289 DF, p-value: <2e-16 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 13/27
14 plot(auto$horsepower,auto$mpg) lines(sort(auto$horsepower),predict(rq,auto)[order(auto$horsepower)],col="red",lwd=2) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 14/27
15 Rq: Test MSE test.mse.rq<-mean((auto.test$mpg-predict(rq,auto.test))^2) test.mse.rq [1] 18.4 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 15/27
16 Regressione cubica rc<-lm(mpg~horsepower+i(horsepower^2)+i(horsepower^3), data=auto.train) summary(rc) Call: lm(formula = mpg ~ horsepower + I(horsepower^2) + I(horsepower^3), data = Auto.train) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 5.75e e <2e-16 *** horsepower -4.96e e *** I(horsepower^2) 1.57e e I(horsepower^3) -1.04e e Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 4.41 on 288 degrees of freedom Multiple R-squared: 0.685, Adjusted R-squared: F-statistic: 209 on 3 and 288 DF, p-value: <2e-16 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 16/27
17 plot(auto$horsepower,auto$mpg) lines(sort(auto$horsepower),predict(rc,auto)[order(auto$horsepower)],col="red",lwd=2) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 17/27
18 Rc: Test MSE test.mse.rc<-mean((auto.test$mpg-predict(rc,auto.test))^2) test.mse.rc ## [1] 18.4 file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 18/27
19 Regressione KNN Per adattare una regressione KNN ai dati è necessario costruire una funzione ad hoc. La funzione knn.reg.1() disponibile nel file KNNR.r è appropriata per il caso di un solo regressore e automaticamente produce le previsioni per il vettore di dati x.test dato l input x.train e l output y.train. E possibile specificare una lista (o anche solo uno) di valori di K da considerare Per indicare ad R dove trovare la funzione knn.reg.1(), copiare il file KNNR.r nella directory di lavoro di R e richiamarlo con la funzione source() knn.reg.1 <- function(klist,x.train,y.train,x.test) # Regressione k-nearest neighbors # # klist è la lista dei valori K da usare # x.train, y.train: il training set (indipendente-dipendente) # x.test: il test set # Output: una matrice di valori previsti per il test set (una colonna per ogni K in klist) source("knnr.r") file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 19/27
20 Input nella funzione knn.reg.1() In questo caso, la funzione knn.reg.1(), ci chiede di fornire come input i dati separati in variabile dipendente -indipendente, test e training. x.train<-auto.train$horsepower y.train<-auto.train$mpg x.test<-auto.test$horsepower y.test<-auto.test$mpg file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 20/27
21 Calcolare le previsioni con KNN Con il codice seguente calcoliamo le previsioni del modello KNN per valori di K da 1 a 60 (klist=seq(60)): y.pred.train contiene i valori previsti per il training set y.pred.test contiene i valori previsti per il test set klist<- seq(60) # testiamo i risultati per k=1,2, y.pred.train<- knn.reg.1(klist,x.train,y.train,x.train) y.pred.test<- knn.reg.1(klist,x.train,y.train,x.test) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 21/27
22 Modelli K-NN file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 22/27
23 Test MSE e training MSE mse.train <- apply((y.pred.train - y.train)^2, 2, mean) mse.test <- apply((y.pred.test - y.test)^2, 2, mean) MSE.table<-data.frame("K"=klist, "test MSE"=mse.test,"training MSE"=mse.train) knitr::kable(mse.table[1:15,]) K test.mse training.mse file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 23/27
24 Plot degli MSE Riportiamo in un grafico i valori di MSE ottenuti. Dalla tavola precedente notiamo che il valore di test MSE più basso corrisponde al caso K = 10. Tuttavia per un intervallo di valori K piuttosto ampio questo rimane molto basso. Il valore K = 50 produce una adattamento molto più smussato rispetto al caso K = 10 plot(mse.train, type='l', xlab='k', ylab='mse', col=1, lwd=2) lines(mse.test, col=2, lwd=2) legend("bottomright",legend=c('train','test'),text.col=seq(2), lty=1, col=seq(2)) file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 24/27
25 Confronto test MSE 1. RLS: test MSE = RQ: test MSE = RC: test MSE = KNN, K = 10: test MSE = KNN, K = 50: test MSE = file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 25/27
26 Previsione Proviamo ad utilizzare i modelli per la previsione in alcuni casi dfp=data.frame(horsepower=c(80,130,180,230,280,330)) p.rls=predict(rls,dfp) p.rq=predict(rq,dfp) p.rc=predict(rc,dfp) p.knn10=knn.reg.1(10,x.train,y.train,dfp$horsepower) p.knn50=knn.reg.1(50,x.train,y.train,dfp$horsepower) dfp2=data.frame(hp=dfp$horsepower, "ReLin"=p.rls,ReQua=p.rq,ReCub=p.rc,KNN.10=p.knn10,KNN.50=p.knn50) knitr::kable(dfp2) HP ReLin ReQua ReCub KNN.10 KNN file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 26/27
27 Curve di previsione I modelli K-NN forniscono le previsioni più affidabili al di fuori dell area di osservazione dei dati. file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 27/27
Validazione dei modelli Strumenti quantitativi per la gestione
Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test
DettagliModelli non lineari e cross validazione. Strumenti quantitativi per la gestione
Modelli non lineari e cross validazione Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l3-temperature_max.html#(24) 1/28 Metodi
DettagliGrafici in R Strumenti quantitativi per la gestione
Grafici in R Strumenti quantitativi per la gestione Emanuele Taufer Caricare il dataset da una libreria Plot Boxplot Istogramma Scatterplot matrice Disegnare linee aggiuntive Caricare il dataset da una
DettagliRegressione. Monica Marabelli. 15 Gennaio 2016
Regressione Monica Marabelli 15 Gennaio 2016 La regressione L analisi di regressione é una tecnica statistica che serve a studiare la relazione tra variabili. In particolare, nel modello di regressione
DettagliStatistiche di sintesi
Esercizio 2 E stato condotto uno studio per valutare la variazione della pressione sistolica in funzione dell etá. I dati sono riportati nel file sbp.xls. Effettua un analisi di regressione e disegna gli
DettagliIl modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.
DettagliR - base Emanuele Taufer
R - base Emanuele Taufer Contents Preliminari................................................. 1 Oggetti................................................... 1 Oggetti - 2.................................................
DettagliEsercitazione finale - corso R base Francesco Vidoli Ottobre 2018
Esercitazione finale - corso R base Francesco Vidoli Ottobre 2018 Passo 1: Leggere il file di input (il file si trova a questo indirizzo: https://fvidoli.weebly.com/uploads/2/3/0/8/ 23088460/dati_medici.csv),
DettagliLABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 6 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI REGRESSIONE LINEARE: SPORT - COLESTEROLO ESERCIZIO 8: La tabella seguente
DettagliModelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 1/26 Utilizzare
DettagliAnova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011
Anova e regressione Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011 Nella sperimentazione agronomica e biologica in genere è normale organizzare
Dettagli1. ISTOGRAMMI E GRAFICI DI ALCUNE DENSITA (COMPLEMENTO ALLA LEZIONE PRECEDENTE)
1. ISTOGRAMMI E GRAFICI DI ALCUNE DENSITA (COMPLEMENTO ALLA LEZIONE PRECEDENTE) Riprendiamo l esempio X = seq(-5,5,0.01) Y= dnorm(x) plot(x,y) Si poteva automatizzare la scelta delle X ponendo: X=rnorm(1000)
DettagliAnalisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura
Analisi grafica residui in R Da output grafico analisi regressionelm1.csv Vedi dispensa peso-statura 1) Il plot in alto a sinistra mostra gli errori residui contro i loro valori stimati. I residui devono
DettagliLaboratorio di Statistica Aziendale Modello di regressione lineare multipla
Laboratorio di Statistica Aziendale Modello di regressione lineare multipla Michela Pasetto michela.pasetto2@unibo.it Definizione del modello OLS (semplice) L obiettivo della regressione lineare è di valutare
DettagliModelli con predittori qualitativi e modelli con interazioni
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer Utilizzare variabili indipendenti qualitative (VIQ) Codifica binaria 0,1 Esempio: salari
DettagliLABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE
LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE 5.1 ESEMPIO DI ANOVA AD UNA VIA In un esperimento un gruppo di bambini è stato assegnato a caso a 3 trattamenti, allo scopo di determinare
DettagliRegressione lineare semplice. Strumenti quantitativi per la gestione
Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3a_rls.html#(1) 1/33 Regressione lineare (RL) La RL è uno degli
DettagliLaboratorio R Corso di Algebra e Modelli lineari (Anno Accademico )
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 05-6) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola
DettagliFac-simile prova di esame
UNIVERSITÀ CA FOSCARI DI VENEZIA FACOLTÀ DI ECONOMIA Statistica Computazionale I Prof. Stefano Tonellato COGNOME.................................... NOME.................................... MATRICOLA....................................
DettagliRegressione lineare semplice
Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare (RL) La regressione lineare per i dati Advertising Analisi d interesse Regressione lineare semplice
Dettagli0.1 Percorrenza e Cilindrata
0.1 Percorrenza e Cilindrata Iniziamo ora un analisi leggermente più complessa basata sempre sui concetti appena introdotti. Innanzi tutto possiamo osservare, dal grafico ottenuto con il comando pairs,
DettagliRegressione lineare multipla Strumenti quantitativi per la gestione
Regressione lineare multipla Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare multipla (RLM) Esempio: RLM con due predittori Stima dei coefficienti e previsione Advertising data
DettagliAntonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR
Antonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR Materiale ad uso dei ricercatori che hanno seguito il corso di formazione interna in Statistica, edizione
DettagliLABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi Corso di laurea in Informatica e Bioinformatica 4 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI 1 - STATISTICA DESCRITTIVA
DettagliWord ha il vantaggio che possiamo salvare un po' di risultati, anche grafici
INTRODUZIONE. TABELLE, CORRELAZIONE E PLOT Usare un foglio txt (o word o simile) di appoggio Word ha il vantaggio che possiamo salvare un po' di risultati, anche grafici Copiare su R il comando A
DettagliProva scritta di Statistica Applicata alle Decisioni Aziendali Prof.ssa Conigliani -...
Prova scritta di Statistica Applicata alle Decisioni Aziendali Prof.ssa Conigliani -... COGNOME:............................................................ NOME:.....................................................................
DettagliAnalisi della varianza a due fattori
Laboratorio 11 Analisi della varianza a due fattori 11.1 Analisi del dataset PENICILLIN.DAT I dati contenuti nel file penicillin.dat, si riferiscono ad un esperimento di produzione di penicillina tendente
DettagliREGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori
REGRESSIONE lineare e CORRELAZIONE Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori Y X La NATURA e la FORZA della relazione tra variabili si studiano con la REGRESSIONE
DettagliAlberi di decisione con R
Alberi di decisione con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-alberi_di_decisione.html#(1) 1/14 Implementare gli alberi decisionali con R Per adattare
DettagliRegressione logistica. Strumenti quantitativi per la gestione
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/4a_rlg.html#(22) 1/28 Metodi di classificazione I
DettagliAnalisi discriminante in R. Strumenti quantitativi per la gestione
Analisi discriminante in R Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l4-lda.html#(1) 1/25 Default data Carichiamo il
DettagliOld Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.
Coppie o vettori di dati Spesso i dati osservati sono di tipo vettoriale. Ad esempio studiamo 222 osservazioni relative alle eruzioni del geyser Old Faithful. Old Faithful, Yellowstone Park. Old Faithful
DettagliEsercizio 1 GRAFICO 1. X e Y sono indipendenti. X e Y non sono correlate. La correlazione tra X e Y è <1. X e Y sono perfettamente correlate
Esercizio 1 Osservare il grafico 1 riportato in figura che mette in relazione una variabile dipendente Y ed una variabile indipendente X e rispondere alle seguenti domande. 400 300 200 GRAFICO 1 100 0
DettagliSelezione del modello Strumenti quantitativi per la gestione
Selezione del modello Strumenti quantitativi per la gestione Emanuele Taufer Migliorare il modello di regressione lineare (RL) Metodi Selezione Best subset Selezione stepwise Stepwise forward Stepwise
DettagliESERCITAZIONE C. Analisi di dati sperimentali PARTE 3: REGRESIONE
Università degli Studi di Padova Facoltà di Scienze MM.FF.NN. Corso di Laurea Magistrale: Biologia Sanitaria/Biologia Molecolare Insegnamento: Statistica Applicata Docente: Prof.ssa Alessandra R. Brazzale
DettagliLaboratorio 8. Regressione multipla. 8.1 Analisi del dataset HOOK.DAT
Laboratorio 8 Regressione multipla 8.1 Analisi del dataset HOOK.DAT I dati contenuti nel file hook.dat, raccolti da Joseph Hooker sulle montagne dell Himalaya, riportano le temperature di ebollizione dell
DettagliLABORATORIO DI PROBABILITA E STATISTICA
LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 3 LA REGRESSIONE LINEARE ES. STUDIO RELAZIONE ALTEZZA - PESO Soggetto Altezza Peso A 174 75 B 166 63 C 173 70 D 171 71 E 168 68 F 167 68 G 165
DettagliSTATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:
esercitazione 7 p. 1/13 STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: 20-05-2004 Luca Monno Università degli studi di Pavia luca.monno@unipv.it http://www.lucamonno.it
DettagliESERCITAZIONE REGRESSIONE MULTIPLA
ESERCITAZIONE REGRESSIONE MULTIPLA Dati delle Nazioni Unite del 2005 riferiti, per diverse nazioni, al tasso di feconditá (bambini per donna) (variabile Fert), alla percentuale di donne che usa contraccettivi
DettagliRegressione ridge e LASSO Strumenti quantitativi per la gestione
Regressione ridge e LASSO Strumenti quantitativi per la gestione Emanuele Taufer Dati Credit.csv La funzione glmnet() La funzione model.matrix() Regressione ridge Output CV Ridge Output Regressione LASSO
DettagliEsercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017
Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017 Contents 1 Inferenza sulla regressione semplice 1 1.1 Test sulla pendenza della retta................................... 1 1.2 Test sull
DettagliI modelli lineari generalizzati: il modello di Poisson
I modelli lineari generalizzati: il modello di Poisson Massimo Borelli May 13, 2014 Massimo Borelli () I modelli lineari generalizzati: il modello di Poisson May 13, 2014 1 / 15 Contenuti 1 Motivazioni
DettagliEsercizio 8. Ne segue, ovviamente che le aree geografiche di riferimento sono Africa e America del Sud.
Esercizio 8 La Swiss Economic Research della Union Bank of Switzerland conduce un controllo periodico dei livelli dei prezzi e dei salari nella principali città del mondo. Una delle variabili rilevate
Dettagli> cement <- read.table("i:/modelli/cement.dat", col.names=c("tempo", "resist")) > attach(cement)
Laboratorio 6 Analisi dei residui 6.1 Analisi dei dati CEMENT.DAT I dati riportati nel file cement.dat si riferiscono ad uno studio sulla resistenza del cemento alla tensione. La resistenza dipende, tra
DettagliMulticollinearità. Strumenti quantitativi per la gestione
Multicollinearità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 1/13 Quando non tutto va come dovrebbe Si parla di multi-collinearità
DettagliEsercitazione su outliers e osservazioni influenti
Esercitazione su outliers e osservazioni influenti Quando si stima un modello di regressione è fondamentale identificare eventuali osservazioni influenti. Una osservazione si definisce influente se la
DettagliQuiz di verifica Classificazione
Quiz di verifica Classificazione Strumenti Quantitativi per la gestione Le domande 1 4 si riferiscono al seguente problema: Supponiamo di raccogliere dati per un gruppo di studenti della classe di SQG
DettagliBagging e Foreste Casuali con R
Bagging e Foreste Casuali con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-bagging-fc.html#(10) 1/10 Bagging e Foreste casuali con R Utilizziamo ancora una
DettagliAnalisi della regressione
Analisi della regressione L analisi della regressioneè una tecnica statistica per modellare e investigare le relazioni tra due (o più) variabili. Nella tavola è riportata la % di purezza di ossigeno, rilasciata
DettagliLaboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12)
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 011-1) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola
DettagliEsercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza
Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza 3 maggio 2005 Esercizio 1 Consideriamo l esempio del libro di testo Annette
DettagliINTRODUZIONE AI MODELLI LINEARI
INTRODUZIONE AI MODELLI LINEARI Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia Versione on-line: http://www.unipg.it/ onofri/rtutorial/index.html Indice 1
DettagliVariabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.
Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:
DettagliCAPITOLO 3 Esperimenti con un singolo fattore: l Analisi della Varianza
Douglas C. Montgomery Progettazione e analisi degli esperimenti 006 McGraw-Hill CAPITOLO 3 Esperimenti con un singolo fattore: l Analisi della Varianza Metodi statistici e probabilistici per l ingegneria
DettagliModelli non lineari Strumenti quantitativi per la gestione
Modelli non lineari Strumenti quantitativi per la gestione Emanuele Taufer Metodi per affrontare problemi non lineari Regressione polinomiale Esempio: modellare i picchi di domanda di energia Fattori che
DettagliModelli non lineari. Strumenti quantitativi per la gestione
Modelli non lineari Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/7_gam.html#(5) 1/54 Metodi per affrontare problemi nonlineari Regressione
DettagliIntroduzione alla Regressione Logistica
Introduzione alla Regressione Logistica Contenuto regressione lineare semplice e multipla regressione logistica lineare semplice La funzione logistica Stima dei parametri Interpretazione dei coefficienti
DettagliLaboratorio di R - 3 a lezione Prof. Mauro Gasparini
Laboratorio di R - 3 a lezione Prof. Mauro Gasparini 1. Verifica di ipotesi: il test t di Student In R è disponibile la funzione t.test che effettua il test t di Student ad un campione, a due campioni
DettagliANALISI DELLA VARIANZA
ANALISI DELLA VARIANZA Il data set coagulation contenuto nella libreria faraway contiene i tempi di coagulazione del sangue (misurato in secondi) di 24 animali sottoposti casualmente a quattro tipi di
DettagliProva scritta di Affidabilità dei sistemi e controllo statistico di qualità
Prova scritta di Affidabilità dei sistemi e controllo statistico di qualità 1. a) La funzione di affidabilità è: Soluzioni 28 Gennaio 2016 = = 4. b) La probabilità che il sistema si guasti tra 0.4 e 1.4
DettagliModelli statistici: sessione 1
Modelli statistici: sessione 1 Francesco Lagona Università Roma Tre 1 R ed R Studio IDE R è un ambiente costituito da oggetti e librerie di comandi per la gestione e l analisi di dati statistici. R è disponibile
Dettagli> d = alimentazione == "benz" > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] 2.385627. > sd(percorr.urbana[d]) [1] 2.
A questo punto vale la pena di soffermarci di più sull alimentazione. Intanto cerchiamo di indagare se l alimentazione è davvero un fattore significativo per la percorrenza come è luogo comune pensare.
DettagliCereal data- analisi con gli alberi di classificazione
Cereal data- analisi con gli alberi di classificazione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-cereal-tree.html#(1) 1/32 Cereal.dat Per migliorare la commercializzazione
DettagliTest F per la significatività del modello
Test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F Si vuole verificare l ipotesi H 0 : β 1 = 0,, β k = 0 contro l alternativa che almeno
DettagliStatistica 1- parte II
Statistica 1- parte II Esercitazione 5 Dott.ssa Antonella Costanzo 10/03/016 Esercizio 1. Analisi della varianza - ANOVA Per confrontare l efficacia di tre diete (A, B, C) si sono scelti 30 individui con
DettagliMetodi di regressione multivariata
Metodi di regressione multivariata Modellamento dei dati per risposte quantitative I metodi di regressione multivariata sono strumenti utilizzati per ricercare relazioni funzionali quantitative tra un
DettagliRegressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
DettagliDAL CAMPIONE ALLA POPOLAZIONE: LA STIMA DEI PARAMETRI
DAL CAMPIONE ALLA POPOLAZIONE: LA STIMA DEI PARAMETRI Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Università degli Studi di Perugia Versione on-line: http://www.unipg.it/ onofri/rtutorial/index.html
DettagliTabelle di variabili categoriche e Test CHI-quadro
Tabelle di variabili categoriche e Test CHI-quadro Relazioni tra variabili categoriche Vogliamo un metodo per studiare eventuali relazioni tra variabili categoriche Per esempio vogliamo studiare come l
DettagliConfronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23
Confronto fra gruppi: il metodo ANOVA Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23 1 Nella popolazione, per ciascun gruppo la distribuzione della variabile risposta
DettagliStatistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1
Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare
DettagliLABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 4 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI 1 - STATISTICA DESCRITTIVA VENDITE PC ESERCIZIO 1: La seguente tabella
DettagliCAPITOLO 5 Introduzione ai piani fattoriali
Douglas C. Montgomery Progettazione e analisi degli esperimenti 2006 McGraw-Hill CAPITOLO 5 Introduzione ai piani fattoriali Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria
DettagliCapitolo 12 La regressione lineare semplice
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università
DettagliRegressione multipla
Regressione multipla L obiettivo è costruire un modello probabilistico per spiegare la variabile y tramite più di una variabile indipendente x 1, x 2,..., x k. Esempio: Per un efficiente progettazione
DettagliUniversità di Pavia Econometria Esercizi 5
Università di Pavia Econometria 2007-2008 Esercizi 5 Maggio, 2008 1. Una regressione lineare multipla di y su una costante, x 2 e x 3 produce i seguenti risultati: ŷ t = 4 + 0.4x t2 + 0.9x t3 con X X =
DettagliEsame Prototipo Statistica A-Di. Prof. M. Romanazzi
1 Università di Venezia Esame Prototipo Statistica A-Di Prof. M. Romanazzi Cognome e Nome..................................... N. Matricola.......... Valutazione Il punteggio massimo teorico di questa
DettagliParità del potere d'acquisto - è vera?
Parità del potere d'acquisto - è vera? Il principio della parità del potere d'acquisto (PPP) aerma che nel lungo periodo i tassi di cambio tendono a riprodurre le dierenze nel tasso di inazione tra le
DettagliMinimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi
Minimi quadrati ordinari Interpretazione geometrica Eduardo Rossi Il MRLM Il modello di regressione lineare multipla è usato per studiare le relazioni tra la variabile dipendente e diverse variabili indipendenti
DettagliVARIETÀ. zona geografica A B C D
Anova a 2 vie con repliche (( chiarire che non devono essere esattamente nello stesso numero per ogni cella ovvero per le ripetizioni dei de fattori ma che excel li legge così) Esercizio-esempio 1 Il valore
DettagliINTRODUZIONE A R Lezione 4
INTRODUZIONE A R Lezione 4 Silvia Bacci e Silvia Pandolfi 1 La regressione lineare 1.1 Regressioni lineare semplice Per applicare il metodo di regressione lineare scegliamo il dataset cars relativo alle
DettagliEsperimenti longitudinali e misure ripetute. Massimo Borelli. Motivazioni. Un esempio tipicamente biotec. Anova sbagliate Anova r.m.
May 14, 2014 Contenuti 1 2 il peso delle gemelle: 1 misura > alice = 73.6 > ellen = 73.8 Le gemelle hanno lo stesso peso? Alice è laureata in matematica Ellen è laureata in statistica il peso delle gemelle:
DettagliLaboratorio di Statistica e Analisi Dati: Lezione 6
Laboratorio di Statistica e Analisi Dati: Lezione 6 Tommaso C. & Marco G. 30 Novembre - 2 Dicembre 2016 Esercizio1 1. Importare il dataset autos.csv 2. Visualizzare le struttura e le prime 6 righe 3. Modificare
DettagliMetodi Statistici per il Management
Metodi Statistici per il Management Statistica Multivariata I Simone Borra - Roberto Rocci Introduzione e obiettivi La statistica multivariata si occupa di analizzare e studiare in modo simultaneo un set
Dettagliprevedere y in funzione di x, per variabili linearmente associate
prevedere y in funzione di x, per variabili linearmente associate concetto di regressione idea di base se x e y sono associate, posso usare x per prevedere y (con una certa approssimazione) per farlo
Dettaglistima per intervallo
stima per intervallo intervalli di fiducia confidence interval una affermazione come questa: CI(95%): lim inf < µ < lim sup p = 0.95 che la media della popolazione sia compresa nell intervallo fra lim
DettagliRegressione. Lineare Simple linear regression Multiple linear regression Regression vs Geometrical fitting
Lineare Simple linear regression Multiple linear regression Regression vs Geometrical fitting Non lineare Variabile indipendente non lineare Ottimizzazione numerica (metodi iterativi) 1 Definizioni Nei
DettagliLaboratorio 1 Strumenti quantitativi per la gestione
Laboratorio 1 Strumenti quantitativi per la gestione Emanuele taufer Lab: Introduzione a R Comandi di base Lab: Introduzione a R Comandi di base R utilizza funzioni per eseguire le operazioni. Per eseguire
DettagliSTATISTICA 1 ESERCITAZIONE 6
STATISTICA 1 ESERCITAZIONE 6 Dott. Giuseppe Pandolfo 5 Novembre 013 CONCENTRAZIONE Osservando l ammontare di un carattere quantitativo trasferibile su un collettivo statistico può essere interessante sapere
DettagliCorso di Riconoscimento di Forme. Sommario: Matrice di confusione Cross validation Prestazioni nel KNN
Corso di Riconoscimento di Forme Sommario: Matrice di confusione Cross validation Prestazioni nel KNN Matrice di confusione Il semplice calcolo dell'errore di classificazione non permette di capire il
DettagliIl BOOM degli ascolti dei programmi culinari. ha inciso sulle iscrizioni all istituto alberghiero???
Il BOOM degli ascolti dei programmi culinari ha inciso sulle iscrizioni all istituto alberghiero??? 60000 50000 40000 30000 20000 10000 0 2007 2008 2009 2010 2011 2012 2013 2014 gli ingredienti sono: Anno
DettagliStima dei parametri di modelli lineari
Stima dei parametri di modelli lineari Indice Introduzione................................ 1 Il caso studio................................ 2 Stima dei parametri............................ 3 Bontà delle
DettagliClassificatore K-NN 1
Classificatore K-NN 1 Esercizio: Implementare il classificatore K-NN: [labelassegnate_test error_test] = mio_knn( ds_train, ds_test, k) Traccia: La funzione DIST(A,B') del toolbox reti neurali calcola
DettagliIntroduzione a R. Silvia Parolo. 14 November 2014
Introduzione a R Silvia Parolo 14 November 2014 Cos è R?? è un tool per l analisi di dati è anche un linguaggio di programmazione si può scaricare da http: // www. r-project. org/ primi passi in R R può
DettagliRegressione semplice: come applicarla come interpretare i risultati
Regressione semplice: come applicarla come interpretare i risultati Questo materiale è utile ai fini dell esecuzione della regressione con software statistico. Questo materiale non è in alcun modo utile
DettagliESERCITAZIONE ANCOVA
ESERCITAZIONE ANCOVA I dati provengono da un articolo di Cyril Burt del 1996 intitolato The genetic determination of differences in intelligence: A study of monozygotic twins reared apart. I dati contengono
DettagliNel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.
Regressione [] el modello di regressione lineare si assume una relazione di tipo lineare tra il valore medio della variabile dipendente Y e quello della variabile indipendente X per cui Il modello si scrive
DettagliStatistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
DettagliIl modello di regressione lineare multipla. Il modello di regressione lineare multipla
Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa
Dettagli