0.1 Percorrenza e Cilindrata

Dimensione: px

Iniziare la visualizzazioe della pagina:

Download "0.1 Percorrenza e Cilindrata"

Carmelo Poletti
7 anni fa
Visualizzazioni

1 0.1 Percorrenza e Cilindrata Iniziamo ora un analisi leggermente più complessa basata sempre sui concetti appena introdotti. Innanzi tutto possiamo osservare, dal grafico ottenuto con il comando pairs, che sembra esistere anche una forte relazione tra la percorrenza urbana e cilindrata, relazione che non sembra affatto di tipo lineare: > auto = read.table("auto.dat", header = TRUE) > attach(auto) > plot(cilindrata, percorr.urbana, xlab = "Cilindrata (litri)", + ylab = "Percorrenza Urbana (Km/litro)") Percorrenza Urbana (Km/litro) Cilindrata (litri) 1

2 Si ha infatti che la correlazione tra i due valori è molto alta (in modulo): > cor(percorr.urbana, cilindrata) [1] Sembra quindi che la percorrenza non sia una funzione lineare della cilindrata ma bensì una funzione polinomiale, o meglio se poniamo la cilindrata uguale a x e la percorrenza uguale a y si ha in formule: y = β 0 + β 1 x + β 2 x β p 1 x p 1. Ora questa è sempre una funzione lineare nei parametri e quindi possiamo applicare le tecniche introdotte nella sezione precedente. Poniamo, ad esempio, p = 4 e x i = x i per i = 1,..., 3 y = β 0 + β 1 x + β 2 x 2 + β 3 x 3 + ɛ. Aggiungiamo inoltre la componente che riguarda l alimentazione: y = β 0 + β 1 x + β 2 x 2 + β 3 x 3 + β 4 I A ɛ. Per creare il modello in R dobbiamo scrivere > rel = percorr.urbana ~ cilindrata + I(cilindrata^2) + I(cilindrata^3) + + alimentazione > fit = lm(rel) > fit Call: lm(formula = rel) Coefficients: (Intercept) cilindrata I(cilindrata^2) I(cilindrata^3) alimentazionediesel

3 Facciamo attenzione alla sintassi: nella formula le variabili esplicative sono separate da un + e la funzione I() serve per far capire ad R che il simbolo + non è, in questo caso, una somma algebrica; perl alimentazione non è necessaria in quanto le sue variabili non sono di tipo numerico. Come al solito possiamo trarre maggiori informazioni utilizzando la funzione summary: > s.fit = summary(fit) > s.fit Call: lm(formula = rel) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-14 *** cilindrata ** I(cilindrata^2) I(cilindrata^3) alimentazionediesel e-12 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: 1.79 on 198 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 4 and 198 DF, p-value: < 2.2e-16 3

4 Vediamo ora graficamente come il polinomio di terzo grado ottenuto si adatta ai dati: > x <- seq(1, 5.5, length = 200) > beta <- coef(fit) > plot(cilindrata, percorr.urbana, xlab = "Cilindrata (litri)", + ylab = "Percorrenza Urbana (Km/litro)", type = "n") > points(cilindrata[d], percorr.urbana[d], col = 2, pch = 2) > points(cilindrata[!d], percorr.urbana[!d], col = 3, pch = 3) > legend(4, 20, pch = c(2, 3), col = c(2, 3), legend = c("benzina", + "diesel")) > lines(x, beta[1] + beta[2] * x + beta[3] * x^2 + beta[4] * x^3, + col = 2) > lines(x, beta[1] + beta[5] + beta[2] * x + beta[3] * x^2 + beta[4] * + x^3, col = 3) 4

5 Percorrenza Urbana (Km/litro) benzina diesel Cilindrata (litri) La curva per le macchine a benzina sembra adattarsi abbastanza bene ai dati corrispondenti a macchine di grossa cilindrata, ma le macchine di bassa cilindrata (sotto il litro e mezzo) hanno una percorrenza molto più alta da quella prevista dalla retta. Per quanto riguarda le macchine diesel ogni previsione per le macchine sopra i 3 litri di cilindrata è piuttosto inverosimile. Il modello e le sue applicazioni hanno senso se sono valide le ipotesi di omoschedasticità sopracitate. Per verificarle dobbiamo studiare il comportamento dei residui. Guardando l istogramma, che da un idea della distribuzione di un campione, è possibile vedere che c è una certa asimmetria nei residui e soprattuto non sembrano verificate le ipotesi di normalità 5

6 > hist(fit$res, prob = T, nclass = 20, xlab = "residui", ylab = "frequenze relative", + main = "Istogramma dei Residui", col = 2) > curve(dnorm(x, mean = mean(fit$res), sd = sd(fit$res)), add = T, + col = "green") Istogramma dei Residui frequenze relative residui Ci sono anche altre diagnostiche grafiche che ci permettono di verificare le ipotesi sui residui. Possiamo per esempio vedere se la varianza è davvero la stessa per tutte le osservazioni, confrontando i valori della percorrenza sulla curva stimata con i residui corrispondenti. Dal grafico si vede che al crescere della percorrenza aumentano i residui, cosa per altro già osservata in precedenza. Si possono inoltre confrontare anche i quantili teorici di una normale con i quantili campionari dei residui standardizzati. Se questi avessero distribuzione normale dovrebbero distribuirsi precisamente su una 6

7 retta mentre nel nostro caso vediamo che questo comportamento è vero solo per la parte centrale ovvero solo per valori medi. > par(mfrow = c(1, 2)) > plot(fit, which = 1) > plot(fit, which = 2) Residuals vs Fitted Normal Q Q plot Residuals Standardized residuals Fitted values Theoretical Quantiles Un altro utile strumento di analisi è l ANOVA, ovvero l analisi della varianza. Questo strumento ci permette di suddivere la variabilità totale presente nel modello nelle sue compoenti: > anova(fit) 7

8 Analysis of Variance Table Response: percorr.urbana Df Sum Sq Mean Sq F value Pr(>F) cilindrata < 2.2e-16 *** I(cilindrata^2) e-07 *** I(cilindrata^3) alimentazione e-12 *** Residuals Signif. codes: 0 *** ** 0.01 * Osserviamo che il p-value della componente cubica è molto alto quindi non sembra molto significativa. Lo stesso risultato si può ottenere confranto il modello senza la componente cubica con quello appena costruito: > fit2 = lm(percorr.urbana ~ cilindrata + I(cilindrata^2) + alimentazione) > anova(fit2, fit) Analysis of Variance Table Model 1: percorr.urbana ~ cilindrata + I(cilindrata^2) + alimentazione Model 2: percorr.urbana ~ cilindrata + I(cilindrata^2) + I(cilindrata^3) + alimentazione Res.Df RSS Df Sum of Sq F Pr(>F) Inoltre il valore R 2 è praticamente lo stesso: > summary(fit)$r.sq 8

9 [1] > summary(fit2)$r.sq [1] Vediamo graficamente come si comporta il polinomio di secondo grado. Percorrenza Urbana (Km/litro) benzina diesel Cilindrata (litri) Vediamo che anche se la componente di terzo grado non era significativa la curva senza di essa ha un comportamento del tutto irreale. Non è infatti possibile che per cilindrate molto alte il comportamento della percorrenza migliori! 9

Documenti analoghi

> d = alimentazione == "benz" > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] 2.385627. > sd(percorr.urbana[d]) [1] 2.

> d = alimentazione == benz > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] 2.385627. > sd(percorr.urbana[d]) [1] 2. A questo punto vale la pena di soffermarci di più sull alimentazione. Intanto cerchiamo di indagare se l alimentazione è davvero un fattore significativo per la percorrenza come è luogo comune pensare.