Siete invitati a cambiare un po di parametri dell esercizio (es. aumentare Nrow; diminuire sig2; diminuire i coefficienti di X3 ed X4).

Documenti analoghi
Word ha il vantaggio che possiamo salvare un po' di risultati, anche grafici

1. GRAFICO DEI DUE R^2. Si riprenda l esercitazione del 19/10, relativa alla tabella IB. IB <- read.table ("clipboard", header=true)

1. ISTOGRAMMI E GRAFICI DI ALCUNE DENSITA (COMPLEMENTO ALLA LEZIONE PRECEDENTE)

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

LABORATORIO DI PROBABILITA E STATISTICA

Statistiche di sintesi

1. ESEMPIO DI PCA. A <- read.table ('clipboard', header=true)

Anova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011

1. SOLUZIONE ESERCIZIO RIASSUNTIVO. n=1000. Z1 = rnorm(n); Z2 = rnorm(n); plot(z1,z2) X1 = 3*Z1; X2 = Z2; plot(x1,x2)

Esercizio Dire quale variabile debba essere usata come regressore e quale sia la variabile risposta.

Analisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura

Laboratorio di Statistica Aziendale Modello di regressione lineare multipla

Metodi statistici per la ricerca sociale ANOVA e ANCOVA in

0.1 Percorrenza e Cilindrata

LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE

Regressione. Monica Marabelli. 15 Gennaio 2016

1. ESEMPIO DI PCA. (nota: sono valori assoluti, non percentualizzati al numeri di abitanti e sono espressi in quintali) PCA = princomp(a) biplot(pca)

Esercitazione finale - corso R base Francesco Vidoli Ottobre 2018

Validazione dei modelli Strumenti quantitativi per la gestione

Validazione dei modelli. Strumenti quantitativi per la gestione

Esercizio 1 GRAFICO 1. X e Y sono indipendenti. X e Y non sono correlate. La correlazione tra X e Y è <1. X e Y sono perfettamente correlate

Quiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione

Analisi della varianza a due fattori

Modelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione

LABORATORIO DI PROBABILITA E STATISTICA

Ancora sulla regressione multipla

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico )

Regressione lineare semplice. Strumenti quantitativi per la gestione

Antonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR

Modelli con predittori qualitativi e modelli con interazioni

Regressione lineare semplice

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

LABORATORIO DI PROBABILITA E STATISTICA

Ancova: il modello lineare in generale

ESERCITAZIONE REGRESSIONE MULTIPLA

Regressione lineare multipla Strumenti quantitativi per la gestione

ESERCITAZIONE C. Analisi di dati sperimentali PARTE 3: REGRESIONE

Fac-simile prova di esame

> cement <- read.table("i:/modelli/cement.dat", col.names=c("tempo", "resist")) > attach(cement)

Scheda n. 13: modelli lineari

Modelli non lineari e cross validazione. Strumenti quantitativi per la gestione

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

Fallstudium 8 - Soluzioni Dr Giorgio Pioda 15 gennaio 2019

Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza

LABORATORIO DI PROBABILITA E STATISTICA

> d = alimentazione == "benz" > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] > sd(percorr.urbana[d]) [1] 2.

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017

Laboratorio 8. Regressione multipla. 8.1 Analisi del dataset HOOK.DAT

Esercizio 8. Ne segue, ovviamente che le aree geografiche di riferimento sono Africa e America del Sud.

DAL CAMPIONE ALLA POPOLAZIONE: LA STIMA DEI PARAMETRI

Il BOOM degli ascolti dei programmi culinari. ha inciso sulle iscrizioni all istituto alberghiero???

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico )

Esperimenti longitudinali e misure ripetute. Massimo Borelli. Motivazioni. Un esempio tipicamente biotec. Anova sbagliate Anova r.m.

Multicollinearità. Strumenti quantitativi per la gestione

Esercitazione su outliers e osservazioni influenti

INTRODUZIONE AI MODELLI LINEARI

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello

Statistica 1- parte II

Modellare le vendite di Lowe's

Introduzione alla Regressione Logistica

REGRESSIONE MULTIPLA E CORRELAZIONE. Nicola Tedesco (Statistica Sociale) REGRESSIONE MULTIPLA E CORRELAZIONE 1 / 16

Università di Pavia Econometria Esercizi 5

I modelli lineari generalizzati: il modello di Poisson

Modelli statistici: sessione 1

Parte I. Statistica descrittiva

Analisi discriminante in R. Strumenti quantitativi per la gestione

INTRODUZIONE A R Lezione 4

Parità del potere d'acquisto - è vera?

Analisi della regressione

Psicometria. 9-Analisi fattoriale confermativa vers. 1.0

Introduzione alla regressione multipla. Giovanni Battista Flebus Lezioni di psicometria

Esame Prototipo Statistica A-Di. Prof. M. Romanazzi

Analisi di Regressione Multipla

1. CLUSTER ANALYSIS. E <- read.table ('clipboard', header=true) PCA = princomp(e); biplot(pca) Parte 1: analisi preliminari, di tipo grafico.

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Laboratorio di R - 3 a lezione Prof. Mauro Gasparini

Modelli non lineari Strumenti quantitativi per la gestione

PROVA SCRITTA DI AFFIDABILITA DEI SISTEMI E CONTROLLO STATISTICO DI QUALITA 9 Maggio 2014

Regressione & Correlazione

Prova scritta di Affidabilità dei sistemi e controllo statistico di qualità

Verifica di ipotesi sui coefficienti di regressione. Verifica di ipotesi sul coefficiente angolare

Probablità, Statistica e Processi Stocastici

Modelli non lineari. Strumenti quantitativi per la gestione

REGRESSIONE LINEARE SEMPLICE

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Indice. 1 Introduzione ai modelli lineari 2. 2 Dataset 3. 3 Il Modello 8. 4 In pratica Peso e percorrenza... 12

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Modelli che spiegano l attività fotosintetica alla luce di parametri fisiologici della vegetazione. Dr. Alessandro Ferrarini

ESERCITAZIONE ANCOVA

LABORATORIO DI PROBABILITA E STATISTICA

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Regressione multipla

Psicometria con Laboratorio di SPSS 2

LABORATORIO DI PROBABILITA E STATISTICA

Prova scritta di Affidabilità dei sistemi e controllo statistico di qualità

Statistica II, Laurea magistrale in Ing. Gestionale, a.a. 2013/14 10/01/2014

HR analyics. Analisi con le CP e analisi predittiva

Indice: Strategie generali Strategie specifiche Ripetizione Metodi per aumentare la validità

LABORATORIO DI PROBABILITA E STATISTICA

La previsione delle vendite dei lm

Transcript:

1. ALLINEAMENTO DI FATTORI, ESEMPI SINTETICI Esercizio. Creare una tabella con dati sintetici in cui sia percepibile il fenomeno dell allineamento ed esaminare le sue conseguenze. Consideriamo il modello Y = X1 + X2 + 0.5*X3 0.5*X4 + sig1*eps1 dove X1,X3,X4 sono normali standard indipendenti e X2 = X1 + sig2*eps2 e dove, infine, eps1 ed eps2 sono normali standard indipendenti. Nrow=20; Ncol=5;sig1=0.5 ;sig2=0.1 A = matrix(nrow=nrow, ncol=ncol ) A[,1] = rnorm(nrow) A[,2] = A[,1] + sig2*rnorm(nrow) A[,3] = rnorm(nrow) A[,4] = rnorm(nrow) A[,5]= A[,1]+ A[,2]+ 0.5*A[,3]-0.5* A[,4]+ sig1*rnorm(nrow) Reg.prova = lm(a[,5]~ A[,1]+ A[,2]+ A[,3]+ A[,4]) summary(reg.prova) Siete invitati a cambiare un po di parametri dell esercizio (es. aumentare Nrow; diminuire sig2; diminuire i coefficienti di X3 ed X4). Eliminamo X2: Nrow=20; Ncol=5;sig1=0.5 ;sig2=0.1 A = matrix(nrow=nrow, ncol=ncol ) A[,1] = rnorm(nrow) A[,2] = A[,1] + sig2*rnorm(nrow) A[,3] = rnorm(nrow)

A[,4] = rnorm(nrow) A[,5]= A[,1]+ A[,2]+ 0.5*A[,3]-0.5* A[,4]+ sig1*rnorm(nrow) Reg.prova = lm(a[,5]~ A[,1]+ A[,2]+ A[,3]+ A[,4]) summary(reg.prova) Reg.prova2 = lm(a[,5]~ A[,1]+ A[,3]+ A[,4]) summary(reg.prova2) Si confrontino i risultati. 2. PROSEGUIMENTO DEL METODO DI ELIMINAZIONE DI FATTORI (RLM) A <- read.table ('clipboard', header=true) PLIC SC SA.SC TD TMI Piem 0.088 0.471-0.707-0.607-0.3950 Vaos -1.545 0.348-0.642-0.813 1.5780 Lomb 0.202 1.397-0.836-0.790-0.5380 TrAA 0.677 0.435-1.269-0.966-0.0750 Vene 0.088 1.334-1.210-0.848-0.4970 FrVG 0.639-0.005-1.028-0.804-1.3010 Ligu 1.190-0.247 0.470-0.429-0.3540 EmRo 0.658 1.177-1.315-0.863-0.3470 Tosc 0.126 1.092-0.795-0.644-1.3550 Umbr -1.431 0.675-0.140-0.524-1.2870 Marc 0.278 1.090-0.265-0.702-0.0006 Lazi 2.329 0.546-0.080-0.113-0.0140 Abru 0.335-0.373 0.402-0.456 0.0400

Moli 0.658-1.289 0.065 0.451-1.1510 Camp -1.811-1.314 2.031 1.664 0.4140 Pugl -0.766-0.926 1.038 0.648 1.1090 Basi -0.747-1.154 0.661 0.844 2.0010 Cala -0.500-1.727 1.571 2.153 0.6320 Sici -0.918-1.130 1.332 1.517 1.7830 Sard 0.449-0.403 0.717 1.285-0.2380 cor(a) PLIC SC SA.SC TD TMI PLIC 1.0000000 0.3223197-0.4110268-0.3664348-0.4432647 SC 0.3223197 1.0000000-0.8417383-0.8501667-0.4834029 SA.SC -0.4110268-0.8417383 1.0000000 0.9054169 0.5136762 TD -0.3664348-0.8501667 0.9054169 1.0000000 0.4868433 TMI -0.4432647-0.4834029 0.5136762 0.4868433 1.0000000 PLIC = A[,1] SC = A[,2] SA.SC = A[,3] TD = A[,4] TMI = A[,5] ------------------------ richiamo ------------------ Reg2 = lm(td~sc+sa.sc+tmi) > summary(reg2) Call: lm(formula = TD ~ SC + SC.SA + TMI) Residuals: Min 1Q Median 3Q Max -0.8290-0.2070 0.0137 0.2329 0.7014 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 0.000103 0.095430 0.001 0.9992 SC -0.300484 0.182547-1.646 0.1192 SC.SA 0.647871 0.186253 3.478 0.0031 **

TMI 0.008717 0.114857 0.076 0.9404 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.4268 on 16 degrees of freedom Multiple R-squared: 0.8464, Adjusted R-squared: 0.8176 F-statistic: 29.4 on 3 and 16 DF, p-value: 9.597e-07 --------------------- fine richiamo ---------------- Reg3 = lm(td~sc+sa.sc) summary(reg3) Call: lm(formula = TD ~ SC + SC.SA) Residuals: Min 1Q Median 3Q Max -0.83048-0.20756 0.00737 0.22957 0.69637 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 0.0001047 0.0925974 0.001 0.99911 SC -0.3020096 0.1760508-1.715 0.10443 SC.SA 0.6510650 0.1760519 3.698 0.00179 ** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.4141 on 17 degrees of freedom Multiple R-squared: 0.8464, Adjusted R-squared: 0.8283 F-statistic: 46.83 on 2 and 17 DF, p-value: 1.216e-07 > R^2 non è diminuito. R^2 adjusted è migliorato ancora. Persino i singoli p-values sono migliorati. Togliamo anche l intercetta: Reg.int = lm(td~sc+sa.sc+0) summary(reg.int) E migliorato ancora. Nel seguito verrà lasciata. A questo punto è naturale fermarsi, per varie ragioni: due fattori non sono certo troppi, entrambi hanno p- value accettabili, entrambi hanno correlazione accettabile con TD. Però, a titolo di studio, eliminiamo il peggiore, SC: Reg4 = lm(td~sa.sc)

summary(reg4) > summary(reg4) Call: lm(formula = TD ~ SC.SA) Residuals: Min 1Q Median 3Q Max -0.85463-0.24693 0.05422 0.26318 0.73066 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 0.00015 0.09747 0.002 0.999 SC.SA 0.90528 0.10005 9.049 4.06e-08 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.4359 on 18 degrees of freedom Multiple R-squared: 0.8198, Adjusted R-squared: 0.8098 F-statistic: 81.88 on 1 and 18 DF, p-value: 4.064e-08 [Si provi anche togliere il migliore: Reg5 = lm(td~sc); summary(reg5) ] > Il p-value del fattore rimasto è molto migliorato: coincide ora col p-value globale. Ma R^2 è diminuito ed anche R^2 adjusted. Tutto sommato, visto che due fattori non sono troppi, forse è meglio tenerli. Riassumiamo i risultati di due degli indicatori principali nella seguente tabella: Reg1: Multiple R-squared: 0.8464, Adjusted R-squared: 0.8055 Reg2: Multiple R-squared: 0.8464, Adjusted R-squared: 0.8176 Reg3: Multiple R-squared: 0.8464, Adjusted R-squared: 0.8283 Reg4: Multiple R-squared: 0.8198, Adjusted R-squared: 0.8098 Si vede che fino a Reg3 c è sicuramente un miglioramento, mentre Reg4 è peggiore da questi punti di vista. Multiple R-squared ha un gomito passando da 2 ad 1 fattore Adjusted R-squared ha un massimo per 2 fattori. Entrambi quindi indicano che 2 fattori è il punto dove fermarsi. 3. PREVISIONE CON MODELLO DI REGRESSIONE Illustriamo ora come si usa un modello di regressione per fare previsioni. Supponiamo di avere solo la tabella di alcune regioni italiane. Ad esempio, togliamo FRVG e Basi dalla precedente (fingiamo di non averle):

B <- read.table ('clipboard', header=true) PLIC SC SA.SC TD TMI Piem 0.088 0.471-0.707-0.607-0.395 Vaos -1.545 0.348-0.642-0.813 1.578 Lomb 0.202 1.397-0.836-0.790-0.538 TrAA 0.677 0.435-1.269-0.966-0.075 Vene 0.088 1.334-1.210-0.848-0.497 Ligu 1.190-0.247 0.470-0.429-0.354 EmRo 0.658 1.177-1.315-0.863-0.347 Tosc 0.126 1.092-0.795-0.644-1.355 Umbr -1.431 0.675-0.140-0.524-1.287 Marc 0.278 1.090-0.265-0.702-0.0006 Lazi 2.329 0.546-0.080-0.113-0.014 Abru 0.335-0.373 0.402-0.456 0.040 Moli 0.658-1.289 0.065 0.451-1.151 Camp -1.811-1.314 2.031 1.664 0.414 Pugl -0.766-0.926 1.038 0.648 1.109 Cala -0.500-1.727 1.571 2.153 0.632 Sici -0.918-1.130 1.332 1.517 1.783 Sard 0.449-0.403 0.717 1.285-0.238 Osserviamo che si ottiene lo stesso risultato con B0 = A[-6,] B1=B0[-16,] Ora vale: > cor(b) PLIC SC SA.SC TD TMI PLIC 1.0000000 0.2951897-0.3749463-0.3261446-0.3936708 SC 0.2951897 1.0000000-0.8696647-0.8617002-0.4473247 SA.SC -0.3749463-0.8696647 1.0000000 0.9003586 0.4666751 TD -0.3261446-0.8617002 0.9003586 1.0000000 0.4255334 TMI -0.3936708-0.4473247 0.4666751 0.4255334 1.0000000 Si noti che certe correlazioni sono calate. Questa volta non assegnamo i vettori PLIC = B[,1]

Ecc, ma usiamo una nuova sintassi: B$PLIC. Ad esempio: B$PLIC Costruiamo ora i due modelli per TD già interessanti: RegB3 = lm(b$td~ B$SC+ B$SA.SC) RegB4 = lm(b$td~ B$SA.SC) Vediamo i due summary: summary(regb3) > summary(regb3) dove vediamo che i risultati sono un po inferiori al modello con tutte le regioni. Ora passiamo alla previsione. Supponiamo di avere i valori di SC.SA ed SC di FRVG e Basi: C <- read.table ('clipboard', header=true) SC SA.SC FrVG -0.005-1.028 Basi -1.154 0.661 Prevediamo il valore di TD usando i due modelli e questi valori: TD.RegB3.FrVG = RegB3$coef %*%c(1, -0.005, -1.028) TD.RegB3.Basi = RegB3$coef %*%c(1, -1.154, 0.661) c(td.regb3.frvg, TD.RegB3.Basi) -0.6317142 0.7902160 > Confrontati coi valori veri: TD FrVG -0.804 Basi 0.844

Il risultato non è così cattivo. Coglie il segno rispetto alla media nazionale ed anche l ordine di grandezza della variazione. Considerazioni conclusive. Il metodo ora esposto di eliminare uno o pochi individui, trovare il modello relativo a quelli mantenuti e testarlo sugli individui eliminati viene detto cross-validation e può essere usato per testare la bontà di un modello rispetto ad un altro (confrontare modelli). Ovviamente R^e ecc. sono già indicatori che servono a confrontare modelli; ad essi si aggiunge la cross-validation.