1. GRAFICO DEI DUE R^2. Si riprenda l esercitazione del 19/10, relativa alla tabella IB. IB <- read.table ("clipboard", header=true)

Documenti analoghi
Word ha il vantaggio che possiamo salvare un po' di risultati, anche grafici

Siete invitati a cambiare un po di parametri dell esercizio (es. aumentare Nrow; diminuire sig2; diminuire i coefficienti di X3 ed X4).

1. ESEMPIO DI PCA. A <- read.table ('clipboard', header=true)

1. SOLUZIONE ESERCIZIO RIASSUNTIVO. n=1000. Z1 = rnorm(n); Z2 = rnorm(n); plot(z1,z2) X1 = 3*Z1; X2 = Z2; plot(x1,x2)

1. ESEMPIO DI PCA. (nota: sono valori assoluti, non percentualizzati al numeri di abitanti e sono espressi in quintali) PCA = princomp(a) biplot(pca)

Ancora sulla regressione multipla

Scheda n. 13: modelli lineari

Statistiche di sintesi

Regressione. Monica Marabelli. 15 Gennaio 2016

Laboratorio 8. Regressione multipla. 8.1 Analisi del dataset HOOK.DAT

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

ESERCITAZIONE REGRESSIONE MULTIPLA

1. ISTOGRAMMI E GRAFICI DI ALCUNE DENSITA (COMPLEMENTO ALLA LEZIONE PRECEDENTE)

Probablità, Statistica e Processi Stocastici

Statistica II, Laurea magistrale in Ing. Gestionale, a.a. 2013/14 10/01/2014

Probablità, Statistica e Processi Stocastici

Anova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011

0.1 Soluzioni esercitazione IV, del 28/10/2008

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

Psicometria. 9-Analisi fattoriale confermativa vers. 1.0

Esercitazione su outliers e osservazioni influenti

Tabelle di variabili categoriche e Test CHI-quadro

ANOVA. ANalysis Of VAriance. Federico Plazzi. 1 Dicembre 2015

Esercitazione del

Esercitazione

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

Ax = b ; b = b 1 b 2. a 11 a 12 a 1n a 21 a 22 a 2n. b m. a m1 a m2 a mn

Esercitazione 1. 6 Marzo 2019

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

Variabili tutte osservabili: regressione Si parla di regressione quando si ha a disposizione un campione sperimentale di numerosità n della forma X 1

Esercizio 1. Trovare un intervallo della distribuzione di COR che contenga il 95% dell'area.

Psicometria con Laboratorio di SPSS 2

LABORATORIO DI PROBABILITA E STATISTICA

Sistemi lineari. Lorenzo Pareschi. Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara

La regressione lineare. Rappresentazione analitica delle distribuzioni

Validazione dei modelli. Strumenti quantitativi per la gestione

Modelli non lineari e cross validazione. Strumenti quantitativi per la gestione

lezione 13 AA Paolo Brunori

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Identificazione di modello

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione 4

Matematica II,

Università degli Studi di Bergamo Modulo di Geometria e Algebra Lineare (nuovo programma) 28 aprile 2014 Tema A

Laboratorio di Analisi ed Esplorazione Dati A.A. 2008/09 Terzo foglio di esercizi per l esame.

Analisi di regressione: approccio matriciale. Abbiamo rilevato i seguenti caratteri su n = 25

0.1 Soluzioni Esercitazione III, del 21/10/2008

1 1, { x1 2x 2 + x 3 = 0 2x 2 8x 3 = 1 x 1 x 4 = = 0

CORSO DI ALGEBRA LINEARE Anno Accademico 2004/2005 Appunti su SISTEMI di EQUAZIONI LINEARI

Comprendere i fenomeni vuol dire studiare le relazioni tra 2 o più variabili. Esiste un legame tra le variabili?

Esercitazione 8 maggio 2014

Esame di Statistica del 1 settembre 2004 (Corso di Laurea in Biotecnologie, Università degli Studi di Padova). Cognome Nome Matricola

Università di Pavia Econometria Esercizi 5

Registro Lezioni di Algebra lineare del 15 e 16 novembre 2016.

Dispense di Statistica II

1. CLUSTER ANALYSIS. E <- read.table ('clipboard', header=true) PCA = princomp(e); biplot(pca) Parte 1: analisi preliminari, di tipo grafico.

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello

0.1 Percorrenza e Cilindrata

Laboratorio di Probabilità e Statistica

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Note sui sistemi lineari per il Corso di Geometria per Chimica, Facoltà di Scienze MM.FF.NN., UNICAL (Dott.ssa Galati C.) Rende, 4 Maggio 2010

Regressione & Correlazione

Analisi della varianza a due fattori

Esame di Istituzioni di Matematica II del 18 gennaio 2001 (Corso di Laurea in Biotecnologie, Universitá degli Studi di Padova). Cognome Nome Matricola

Istituzioni di Matematiche (V): Seconda Prova Parziale, 13 Gennaio 2015 (versione 1)

Indice: Strategie generali Strategie specifiche Ripetizione Metodi per aumentare la validità

Statistica Applicata all edilizia: il modello di regressione

Regressione lineare semplice. Strumenti quantitativi per la gestione

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

Argomento 13 Sistemi lineari

Regressione Lineare Semplice e Correlazione

Statistica descrittiva in due variabili

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Lezione 10: Teorema di Rouchè-Capelli e la classificazione dei sistemi lineari

Regressione lineare semplice

Esercitazione finale - corso R base Francesco Vidoli Ottobre 2018

LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE

Sistemi II. Sistemi II. Elisabetta Colombo

Esercizio Dire quale variabile debba essere usata come regressore e quale sia la variabile risposta.

ESERCITAZIONE 17 : CORREZIONE DEL COMPITINO

Correlazione. Daniela Valenti, Treccani Scuola 1

Sistemi lineari. a 11 x 1 + a 12 x a 1n x n = b 1 a 21 x 1 + a 22 x a 2n x n = b 2 : : : a m1 x 1 + a m2 x 2 +..

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Metodi per la risoluzione di sistemi lineari

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

PROVA SCRITTA DI STATISTICA (COD COD ) 7 luglio 2005 APPROSSIMARE TUTTI I CALCOLI ALLA QUARTA CIFRA DECIMALE SOLUZIONI MODALITÀ A


Il metodo delle proporzioni crescenti

1 Indipendenza lineare e scrittura unica

Metodi per la risoluzione di sistemi lineari

Inversa di una matrice

STATISTICA. Esercitazione 6

Capitolo 12 La regressione lineare semplice

11.2. Introduzione alla statistica 2/ed. Marilyn K. Pelosi, Theresa M. Sandifer, Paola Cerchiello, Paolo Giudici

1 Combinazioni lineari.

La retta di regressione

Analisi dei dati qualitativi: omogeneità/eterogeneità, test del chi quadrato, analisi delle corrispondenze semplici e multiple

I Pagamenti Diretti e l obiettivo di sostenere un reddito agricolo sufficiente. Simone Severini -

REGRESSIONE E CORRELAZIONE

Transcript:

1. GRAFICO DEI DUE R^2 Si riprenda l esercitazione del 19/10, relativa alla tabella IB IB <- read.table ("clipboard", header=true) PLIC SC SA.SC TD TMI Piem 0.088 0.471-0.707-0.607-0.3950 Vaos -1.545 0.348-0.642-0.813 1.5780 Lomb 0.202 1.397-0.836-0.790-0.5380 TrAA 0.677 0.435-1.269-0.966-0.0750 Vene 0.088 1.334-1.210-0.848-0.4970 FrVG 0.639-0.005-1.028-0.804-1.3010 Ligu 1.190-0.247 0.470-0.429-0.3540 EmRo 0.658 1.177-1.315-0.863-0.3470 Tosc 0.126 1.092-0.795-0.644-1.3550 Umbr -1.431 0.675-0.140-0.524-1.2870 Marc 0.278 1.090-0.265-0.702-0.0006 Lazi 2.329 0.546-0.080-0.113-0.0140 Abru 0.335-0.373 0.402-0.456 0.0400 Moli 0.658-1.289 0.065 0.451-1.1510 Camp -1.811-1.314 2.031 1.664 0.4140 Pugl -0.766-0.926 1.038 0.648 1.1090 Basi -0.747-1.154 0.661 0.844 2.0010 Cala -0.500-1.727 1.571 2.153 0.6320 Sici -0.918-1.130 1.332 1.517 1.7830 Sard 0.449-0.403 0.717 1.285-0.2380

Ricordiamo i risultati qui rilevanti: fit.1 = lm(td~plic+sc+sa.sc+tmi, data=ib) Multiple R-squared: 0.8464, Adjusted R-squared: 0.8055 F-statistic: 20.67 on 4 and 15 DF, p-value: 5.801e-06 [Curiosità: fit.1 = lm(ib$td~ib$plic+ib$sc+ib$sa.sc+ib$tmi) fornisce lo stesso risultato.] fit.2 = lm(td~sc+sa.sc+tmi, data=ib) Multiple R-squared: 0.8464, Adjusted R-squared: 0.8176 F-statistic: 29.4 on 3 and 16 DF, p-value: 9.597e-07 fit.3 = lm(td~sc+sa.sc, data = IB) Multiple R-squared: 0.8464, Adjusted R-squared: 0.8283 F-statistic: 46.83 on 2 and 17 DF, p-value: 1.216e-07 fit.4 = lm(td~sc+sa.sc+0, data=ib) Multiple R-squared: 0.8464, Adjusted R-squared: 0.8293 F-statistic: 49.58 on 2 and 18 DF, p-value: 4.766e-08 fit.5 = lm(td~sa.sc+0, data=ib) Multiple R-squared: 0.8198, Adjusted R-squared: 0.8098 F-statistic: 81.88 on 1 and 18 DF, p-value: 4.064e-08 Riassumiamo i risultati di due degli indicatori principali nella seguente tabella (è stata compilata manualmente; sarebbe interessante automatizzare l uso di tali numeri): fit.1: Multiple R-squared: 0.8464, Adjusted R-squared: 0.8055 fit.2: Multiple R-squared: 0.8464, Adjusted R-squared: 0.8176 fit.3: Multiple R-squared: 0.8464, Adjusted R-squared: 0.8283 fit.4: Multiple R-squared: 0.8464, Adjusted R-squared: 0.8293 fit.5: Multiple R-squared: 0.8198, Adjusted R-squared: 0.8098 Si vede che fino a fit.4 c è sicuramente un miglioramento, mentre fit.5 è peggiore da questi punti di vista. Visualizziamo come grafici questi risultati: R.square = c(0.8464, 0.8464, 0.8464, 0.8464, 0.8198) Adjusted = c(0.8055, 0.8176, 0.8283, 0.8293, 0.8098)

ts.plot(r.square) ts.plot(adjusted) Multiple R-squared ha un gomito passando da 2 ad 1 fattore Adjusted R-squared ha un massimo per 2 fattori. Entrambi quindi indicano che 2 fattori è il punto dove fermarsi.

Possiamo mettere i due grafici su una stessa schermata: par(mfrow=c(1,2)) ts.plot(r.square) ts.plot(adjusted) oppure metterli su uno stesso grafico, ma bisogna lavorare su alcuni parametri: par(mfrow=c(1,1)) plot(c(0,6),c(0.8,0.85),type="n") lines(r.square) lines(adjusted)

Esercizio. Costruire artificialmente una tabella con 5 colonne e 30 righe, in cui le prime due colonne siano molto allineate e l ultima colonna sia molto correlata ad esse. Applicare poi la regressione lineare multipla, in cui l ultima colonna sia l output del modello ed osservare che, nonostante il forte legame, i p-value sono scarsi. 2. PREVISIONE CON MODELLO DI REGRESSIONE Illustriamo ora come si usa un modello di regressione per fare previsioni. Nota: la previsione si fa per diverse ragioni: una è prevedere un valore incognito; l altra, anche se il valore è noto, può essere di valutare come tale valore si colloca rispetto al modello. Supponiamo di avere solo la tabella di alcune regioni italiane. Ad esempio, togliamo FRVG e Basi dalla precedente (fingiamo di non averle): IB.1 = IB[-6,] IB.2=IB.1[-16,] Calcolare cor(ib.2) e notare che certe correlazioni sono calate. Costruiamo il modello per TD plausibilmente più interessante: fit = lm(td~ SC+ SA.SC+0,data=IB.2) Osservare summary(fit) per accertarsi che continua ad essere un buon modello. Passiamo alla previsione. Supponiamo di avere i valori di SC.SA ed SC di FRVG e Basi: C <- read.table ('clipboard', header=true) PLIC SC SA.SC TMI FrVG 0.639-0.005-1.028-1.3010 Basi -0.747-1.154 0.661 2.0010 Prevediamo il valore di TD usando il modello e questi valori: TD.FrVG.prev = fit$coef %*%c(-0.005, -1.028)

oppure TD.FrVG.prev = fit$coef %*%c(c[1,2],c[1,3]) TD.Basi.prev = fit$coef %*% c(c[2,2],c[2,3]) > c(td.frvg.prev, TD.Basi.prev) [1] -0.6396872 0.7831046 Confrontati coi valori veri: TD FrVG -0.804 Basi 0.844 Il risultato non è così cattivo. Coglie il segno rispetto alla media nazionale ed anche l ordine di grandezza della variazione. Nei termini accennati sopra secondo cui la previsione si può fare per valutare come si colloca la regione rispetto allo schema nazionale, possiamo dire che FrVG va meglio di quanto predirebbe il modello nazionale, Basi va peggio. Proviamo col modello completo, con tutti i fattori: fit.1 = lm(td~plic+sc+sa.sc+tmi, data=ib.2) TD.FrVG.prev = fit.1$coef %*% c(1,c[1,1],c[1,2],c[1,3],c[1,4]) TD.Basi.prev = fit.1$coef %*% c(1,c[2,1],c[2,2],c[2,3],c[2,4]) > c(td.frvg.prev, TD.Basi.prev) [1] -0.6197502 0.7701555 Il risultato è ugualmente buono, quindi in questo caso l eliminazione non ha prodotto grossi vantaggi. Si noti tuttavia che, pur di poco, il risultato è migliore con meno fattori. Gli altri, invece che contribuire ad un fit più preciso, fungono da disturbo. Considerazione conclusiva. Il metodo ora esposto di eliminare uno o pochi individui, trovare il modello relativo a quelli mantenuti e testarlo sugli individui eliminati viene detto cross-validation e può essere usato per testare la bontà di un modello rispetto ad un altro (confrontare modelli). Ovviamente R^2 ecc. sono già indicatori che servono a confrontare modelli; ad essi si aggiunge la cross-validation.