Regressione multipla

Похожие документы
Statistica Applicata all edilizia: il modello di regressione

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Esercitazione del

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Esercitazione 8 del corso di Statistica 2

Metodi di regressione multivariata

Premessa: la dipendenza in media

Intervalli di confidenza

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

LEZIONE N. 11 ( a cura di MADDALENA BEI)

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Modelli Multilineari e Misure di adeguatezza del modello

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Analisi della correlazione canonica

> Ciliegi <- read.table("i:/modelli/cherry.dat", + col.names=c( diametro, altezza, volume ))

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

Il modello di regressione lineare classico

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Esercizi riassuntivi di Inferenza

STATISTICA. Esercizi vari

La regressione fuzzy. Capitolo I limiti della regressione classica. a cura di Fabrizio Maturo

Statistica. Alfonso Iodice D Enza

Il test (o i test) del Chi-quadrato ( 2 )

L indagine campionaria Lezione 3

Matematica II: Calcolo delle Probabilità e Statistica Matematica

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

Analisi della correlazione canonica

Gli errori nella verifica delle ipotesi

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo

Statistica. Alfonso Iodice D Enza

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Capitolo 11 Test chi-quadro

Distribuzioni campionarie

Esercitazione 8 maggio 2014

UNIVERSITÀ DEGLI STUDI DI PERUGIA

Esercitazioni di statistica

Tema d esame del 15/02/12

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

STATISTICA BIVARIATA: ALCUNI STIMOLI DI APPROFONDIMENTO (Tecn. Lab. Biomedico e Tecn. Fisiop. e Perfus. Cardiovascolare 3 Anno)

ANOVA: ANALISI DELLA VARIANZA Prof. Antonio Lanzotti

ANALISI DELLA VARIANZA A DUE VIE CON INTERAZIONE Prof. Antonio Lanzotti

Analisi della varianza a una via

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Il metodo delle osservazioni indirette

Introduzione alla Regressione Logistica

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI

Esercitazioni di Statistica Matematica A Esercitatori: Dott. Fabio Zucca - Dott. Maurizio U. Dini Lezioni del 7/1/2003 e del 14/1/2003

Capitolo 5 Confidenza, significatività, test di Student e del χ 2

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

METODO DEI MINIMI QUADRATI

Test di ipotesi su due campioni

Introduzione all Analisi della Varianza (ANOVA)

Vedi: Probabilità e cenni di statistica

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

STATISTICA ESERCITAZIONE

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

SISTEMI LINEARI: APPROFONDIMENTI ED ESEMPI

Regressione con una variabile dipendente binaria

Si consideri il sistema a coefficienti reali di m equazioni lineari in n incognite

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Esercizi di ottimizzazione vincolata

(a) Determinare lo stimatore di massima verosimiglianza θ di θ. (b) Calcolare la funzione di score e l informazione di Fisher.

I. Foglio di esercizi su vettori linearmente dipendenti e linearmente indipendenti. , v 2 = α v 1 + β v 2 + γ v 3. α v 1 + β v 2 + γ v 3 = 0. + γ.

8. ANALISI DELLA COVARIANZA (ANCOVA)

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

Il modello di regressione

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Analisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura

Note sulla probabilità

= elemento che compare nella seconda riga e quinta colonna = -4 In generale una matrice A di m righe e n colonne si denota con

Capitolo 9 Verifica di ipotesi: test basati su un campione

La matrice delle correlazioni è la seguente:

Il modello lineare misto

Analisi della varianza

Транскрипт:

Regressione multipla L obiettivo è costruire un modello probabilistico per spiegare la variabile y tramite più di una variabile indipendente x 1, x 2,..., x k. Esempio: Per un efficiente progettazione degli inceneritori di rifiuti municipali è necessario che l informazione relativa al contenuto di energia dei rifiuti sia disponibile. Abbiamo a disposizione 30 campioni di rifiuti di una certa regione per i quali abbiamo i valori delle variabili y contenuto di energia (Kcal/kg), x 1 % di plastica sul peso, x 2 % di carta sul peso, x 3 % di altri rifiuti organici sul peso, x 4 % di umidità sul totale del campione esaminato. Il modello proposto potrebbe essere Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε, (1) Occorre capire quali variabili servono a spiegare la variabile di interesse (selezione delle variabili) e in che misura vi contribuisce. 1

Plastics 15 20 25 30 44 48 52 56 14 18 22 15 20 25 30 Paper Garbage 35 45 44 48 52 56 Water 14 18 22 35 45 1000 1400 1000 1400 Energy.content 2

Analisi della correlazione tra le variabili Calcoliamo la matrice di correlazione tra le variabili in gioco. dell esempio abbiamo: Per i dati Plastics Paper Garbage Water Energy.content Plastics 1.00 0.15 0.09 0.26 0.59 Paper 0.15 1.00 0.63 0.01 0.04 Garbage 0.09 0.63 1.00 0.07 0.09 Water 0.26 0.01 0.07 1.00 0.90 Energy.content 0.59 0.04 0.09 0.90 1.00 Come regola generale è bene che entrino nel modello le variabili maggiormente correlate con la variabile da spiegare e le meno incorrelate tra loro. In questo caso potremmo considerare un modello in cui entrino solo le variabili Water e Plastics 3

Scatter Plot Matrix Plastics 14 14 16 16 18 18 20 20 22 22 24 24 Paper 15 15 20 20 25 25 30 30 Garbage 35 35 40 40 45 45 50 50 Water 45 45 50 50 50 50 55 55 Energy.content 1000 1000 1200 1200 1400 1400 1600 1600 4

Consideriamo il modello generale Y = β 0 + β 1 x 1 +... + β k x k + ε, (2) Posto θ = (β 0, β 1,..., β k ) se abbiamo n osservazioni possiamo riscrivere le n equazioni (2) in forma matriciale Y = Xθ + ɛ 1 x 11... x 1k dove Y = (Y 1,..., Y n ) 1 x, X = 21... x 2k........, ɛ = (ε 1,..., ε n ). La stima 1 x n1... x nk ottenuta coi minimi quadrati (OLS=Ordinary Least Squares) è data da ˆθ = (X X) 1 X Y dove Y = (y 1,..., y n ). In seguito p = k + 1 è il numero dei parametri. La stima OLS si ottiene se solo se XX è invertibile, cioè se e solo se la matrice X ha rango massimo p. 5

Le osservazioni y = (y 1,..., y n ) provengono dal modello Y i = x i β + ε i Y i variabile casuale dipendente x i = [1, x i1, x i2,..., x ik ] vettore dei regressori (deterministici o stocastici) β = [ β 0, β 1, β 2,..., β k ] vettore dei parametri ε i : componente stocastica di valore atteso nullo FUNZIONE DI REGRESSIONE E(Y i x i ) = x i β 6

Y = Xβ + ɛ X = x 1 x 2 matrice n p dei regressori x n Y = Y 1 Y 2 vettore delle variabili risposta Y n ɛ = ε 1 ε 2.. ε n vettore delle componenti stocastiche 7

ASSUNZIONI DEL MODELLO DI REGRESSIONE LINEARE CLASSICO A0: la funzione di regressione E(Y X) = Xβ è correttamente specificata A1: ɛ è un vettore di n variabili casuali indipendenti A2: le componenti di ɛ sono variabili casuali di valore atteso nullo e varianza σ 2 (omoschedastiche) A3: le componenti di ɛ sono variabili casuali normali A4: X è una matrice di costanti note (regressori non stocastici) A5: le colonne di X sono linearmente indipendenti =: X X è invertibile 8

STIMA di β, σ 2 Da Y i = x i β + ε i e per le A1, A2, A3, A4 si ha che le Y i sono variabili casuali indipendenti normali con valore atteso µ i = x i β e varianza σ2. La verosimiglianza è: L(β, σ 2 ) = e la log verosimiglianza: n i=1 { 1 2πσ 2 exp 1 } 2σ 2(y i x i β)2 L(β, σ 2 ) = n 2 ln(2πσ2 ) 1 2σ 2 (y i x i β)2 = = n 2 ln(2πσ2 ) 1 2σ 2 (y Xβ) (y Xβ) se σ 2 è noto massimizzare la log verosimiglianza equivale a minimizzare (CRITERIO DEI MINIMI QUADRATI): Q(β) = (y Xβ) (y Xβ) i 9

RISULTATO FONDAMENTALE Q(β) = (y Xβ) (y Xβ) ha un unico minimo in b = ( X X ) 1 X y È importante notare che: y Xb = y X ( X X ) 1 X y = (I n M) y dove M = X ( X X ) 1 X è una matrice n n idempotente (M = MM). Quindi anche (I n M) è idempotente. Ne consegue SSE = Q(b) = (y Xb) (y Xb) = = y (I T M) y = y y y My = = y y y X ( X X ) 1 X y = y y y Xb 10

Ovvero più semplicemente (ma non per i calcoli) SSE = Q(b) = i (y i x i b)2 = i y 2 i i y i x i b Verosimiglianza concentrata Sostituendo b a β nella log verosimiglianza si ottiene la log verosimiglianza concentrata: L(σ 2 ) = n 2 ln(2πσ2 ) 1 2σ 2Q(b) che ha un massimo in ˆσ 2 = Q(b) n. CONCLUDENDO: gli stimatori M.V. sono ˆσ 2 = Q(b) n b= ( X X ) 1 X y 11

Esempio: Nel caso dell esempio presentato le stime dei parametri del modello con le quattro variabili sono contenute nella seguente tabella. Estimate Std. Error t value Pr(> t ) (Intercept) 2245.0933 177.8922 12.62 0.0000 Plastics 28.9224 2.8235 10.24 0.0000 Paper 7.6429 2.3137 3.30 0.0029 Garbage 4.2969 1.9161 2.24 0.0340 Water 37.3559 1.8342 20.37 0.0000 La matrice di varianza e covarianza dei parametri è Σ(θ) = (X X) 1 σ 2. La stima di tale matrice la si ottiene stimando σ 2 con s 2 = SSE n p, dove SSE = (y i ŷ i ) 2. ˆ Σ(θ) = (X X) 1 s 2 = c 00 c 01... c 0k c 10 c 11... c 1k........ c k0 c k1... c kk I termini sulla diagonale principale della matrice (X X) 1 s 2 sono la stima di V ar(θ). Std.Error è la radice quadrata di questi termini. 12

Verifica di ipotesi per la significatività dei singoli parametri Sotto le ipotesi che ε i N(0, σ 2 ) i.i.d. si deduce che lo stimatore dei parametri θ è uno stimatore non distorto, cioè E(θ) = θ, la matrice di varianza e covarianza è data da Σ(θ) la cui stima è data da ˆΣ(θ), e inoltre ogni stimatore ˆβ i è gaussiano. Se si vuole quindi verificare l ipotesi contro l alternativa H 0 : β i = 0 H 1 : β i 0 da questi fatti si deduce che la statistica t i = ˆβ cii i, sotto l ipotesi nulla β i = 0, è una t-student con n p g.d.l dove c ii è l elemento sulla diagonale della matrice (X X) 1 s 2. Quindi, fissato un livello di fiducia α, si rifiuta l ipotesi H 0 se t i > t 1 α 2,n p. 13

Il p-value, questo sconosciuto Quasi tutti i software statistici non ci dicono se accettare o rifiutare l ipotesi nulla, ma ci danno il p-value! Cerchiamo di capire cosa è. Indichiamo solo per il momento con T i la statistica e con t i il valore calcolato sui dati. Allora p-value = P ( T i > t i ) Quindi il p-value non è altro che la probabilità con cui la statistica (T i ) può assumere valori più elevati di quello osservato (t i ).La regola di rifiuto dell ipotesi H 0 è: Rifiuto H 0 se t i > t 1 α 2,n p. Il valore di t 1 α 2,n p è ricavato da P ( T i > t 1 α 2,n p ) = α Si deduce che per α fissato noi rifiutiamo l ipotesi nulla se il p-value è minore di α 14

Dalla tabella possiamo effettuare la verifica di ipotesi per la significatività di ogni parametro singolarmente. I valori della statistica t i sono riportati nella penultima colonna della tabella. Mentre i valori del p-value sono riportati nell ultima colonna. Estimate Std. Error t value Pr(> t ) (Intercept) 2245.0933 177.8922 12.62 0.0000 Plastics 28.9224 2.8235 10.24 0.0000 Paper 7.6429 2.3137 3.30 0.0029 Garbage 4.2969 1.9161 2.24 0.0340 Water 37.3559 1.8342 20.37 0.0000 Supponiamo di avere fissato il l.d.s. α = 0.05. Tutti i parametri sono significativamente diversi da zero. Se invece α = 0.01, β 1, β 2 e β 4 sono significativamente diversi da zero mentre β 3 non lo è. Per α = 0.001 solo β 1 e β 4 sono diversi da zero. 15

test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F. Si vuole verificare l ipotesi H 0 : β 1 = 0,..., β k = 0 contro l alternativa che almeno uno dei parametri sia diverso da zero. La devianza totale ammette sempre la scomposizione SST = SSE + SSR e sotto l ipotesi che gli errori siano N(0, σ 2 ) vale che La statistica F = SST = (Y i Ȳ ) 2 σ 2 χ 2 n 1 SSE = (Y i Ŷ i ) 2 σ 2 χ 2 n p SSR = (Ŷ i Ȳ i ) 2 σ 2 χ 2 p 1 (Ŷi Ȳ ) 2 /(p 1) (Yi Ŷ i ) 2 /(n p) = SSR/(p 1) SSE/(n p) se è vera H 0, si distribuisce come una F di Snedecor con p 1 e n p g.d.l, e può essere utilizzata per verificare la significatività del modello. Infatti si decide di rifiutare l ipotesi nulla se F > c e per determinare c, fissato α si pone P (F > c) = α. Quindi dalle tavole della distribuzione F si trova il valore c α tale per cui P (F > c α ) = α. 16

Df Sum Sq Df SSR F Pr(>F) Totale 29 689709.87 Residui 25 24775.33 4 664934.53 167.74 0.0000 Il valore della statistica F 4,25 è SSR/(p 1) F = SSE/(n p) = 664934.53/4 24775.33/25 = 167.7 Il p-value < 2.2e-16. Quindi il modello è significativo. L indice di determinazione multiplo è dato da r 2 = 1 SSE SST. Nel caso del modello stimato vale r 2 = 0.96. Interessa poi sapere come l aggiunta di più variabili nel modello riesca a spiegare la variabilità totale della variabile da spiegare. Si calcola allora la SSR(1) per il modello con una sola variabile, la SSR(2) del modello con due variabili e così via. Allora la differenza SSR(2) SSR(1) ha il significato di quanta variabilità il secondo modello riesce a spiegare in più rispetto al primo. In generale SSR(j) SSR(j 1) SSE/(n p) F 1,n p, j = 2,..., p 1 17

Tavola dell Analisi della Varianza (ANOVA) Df Sum Sq Mean Sq F value Pr(>F) Plastics 1 239734.97 239734.97 241.91 0.0000 Paper 1 11239.07 11239.07 11.34 0.0025 Garbage 1 2887.82 2887.82 2.91 0.1002 Water 1 411072.67 411072.67 414.80 0.0000 Residuals 25 24775.33 991.01 Nella prima riga abbiamo la SSR per il modello con solo la prima variabile. Nella seconda abbiamo la differenza tra la SSR del modello con due variabili e il modello con una sola. La statistica F serve per verificare l attendibilità dell aggiunta di questa variabile al modello. Chiaramente ha importanza l ordine con cui le variabili entrano nel modello. Df Sum Sq Mean Sq F value Pr(>F) Water 1 560181.11 560181.11 565.26 0.0000 Plastics 1 93926.58 93926.58 94.78 0.0000 Paper 1 5843.14 5843.14 5.90 0.0227 Garbage 1 4983.71 4983.71 5.03 0.0340 Residuals 25 24775.33 991.01 18

In questa tabella sono riportate le stime cambiando l ordine delle variabili. Estimate Std. Error t value Pr(> t ) (Intercept) 2245.0933 177.8922 12.62 0.0000 Water 37.3559 1.8342 20.37 0.0000 Plastics 28.9224 2.8235 10.24 0.0000 Paper 7.6429 2.3137 3.30 0.0029 Garbage 4.2969 1.9161 2.24 0.0340 Come indice di adattabilità si utilizza il coefficiente di correlazione multipla r 2 = 1 SSE SST Per bilanciare i costi dovuti all utilizzo di tanti parametri rispetto ai guadagni in r 2 si può usare il coefficiente di correlazione multiplo corretto r 2 corretto = 1 In questo esempio abbiamo (n 1) (n p) SSE SST = (n 1)r2 k n p r 2 = 0.9641, r 2 corretto = 0.9583 19

Test F per il modello ridotto Supponiamo di avere il modello completo Vogliamo verificare l ipotesi Y = β 0 + β 1 x 1 + β 2 x 2 +... + β k x k + ε H 0 : β 1 = β 2 =... = β q = 0, q < k Se fosse vera l ipotesi H 0 il modello sarebbe Y = β 0 + β q+1 1x q+1 + β q+2 1x q+2 +... + β k x k + ε Denotiamo con SSR r e SSE r le somme dei quadrati spiegati e residui del modello ridotto. La statistica (SSR SSR r )/q SSE/(n p) = (SSE r SSE)/q SSE/(n p) sotto l ipotesi nulla si distribuisce come una F con q e n p gradi di libertà. 20

Con i dati dell esempio andiamo a considerare il modello ridotto solo con le variabili Water e Plastics. L ipotesi H 0 pone i coefficienti delle variabili Garbage e Paper uguali a zero (q = 2). I risultati della stima e dell analisi della varianza sono riassunti da queste tabelle. Estimate Std. Error t value Pr(> t ) (Intercept) 2647.1663 137.0094 19.32 0.0000 Water 37.4528 2.1127 17.73 0.0000 Plastics 26.4516 3.1341 8.44 0.0000 Df Sum Sq Mean Sq F value Pr(>F) Water 1 560181.11 560181.11 424.83 0.0000 Plastics 1 93926.58 93926.58 71.23 0.0000 Residuals 27 35602.18 1318.60 Da queste tabelle e da quelle del modello completo deduciamo: SSE r = 35602.18, SSE = 24775.33 21

La tabella dell analisi della varianza per il modello ridotto e il modello completo è Df SSE Df Sum of Sq F Pr(>F) Ridotto 27 35602.18 Completo 25 24775.33 2 10826.85 5.46 0.0108 La terza colonna contiene gli SSE del modello ridotto (con 27 g.d.l.) e del modello completo (con 25 g.d.l.). La colonna Sum of Sq contiene la differenza SSE r SSE e la colonna Df i suoi gradi di libert`a. La statistica F è data da F = (SSE r SSE)/q SSE/(n p) = 10826.85/2 24775.33/25 = 5.46 Si tratta di una statistica F di Snedecor con 2 e 25 gradi di libertà. Il p-value è pari a 0.0108. Quindi rifiutiamo l ipotesi nulla con un livello di significatività α = 0.05, le variabili Garbage e Paper non possono essere omesse. A livello di significatività α = 0.01 la conclusione sarebbe di accettare H 0 : le variabili Garbage e Paper possono essere omesse. 22

Esempio L articolo Measurements of the Thermal Conductivity and Thermal Diffusivity of Polymer Melts with the Short-Hot-Wire Method (X. Zhang, W. Hendro, et al., International Journal of Thermophysics, 2002:1077 1090) riporta le misure della conducibilità termica (in W m 1 K 1 ) e della diffusività di alcuni polimeri a diverse temperature (in 1000 C). La tabella seguente presenta i risultati per la conducibilità termica del policarbonato. Cond. Temp. Cond. Temp. Cond. Temp. Cond. Temp. 0.236 0.028 0.259 0.107 0.254 0.159 0.249 0.215 0.241 0.038 0.257 0.119 0.256 0.169 0.230 0.225 0.244 0.061 0.257 0.130 0.251 0.181 0.230 0.237 0.251 0.083 0.261 0.146 0.249 0.204 0.228 0.248 Denotata la conducibilità con y e la temperatura con x, troviamo il modello che si adatta meglio a questi dati. 23

1. Stimare i parametri del modello lineare y = β 0 + β 1 x + ε. Per ogni parametro verificare l ipotesi che il suo valore sia uguale a 0. 2. Stimare i parametri del modello quadratico y = β 0 + β 1 x + β 2 x 2 + ε. Per ogni parametro verificare l ipotesi che sia uguale a 0. 3. Stimare i parametri del modello cubico y = β 0 + β 1 x + β 2 x 2 + β 3 x 3 + ε. Per ogni parametro verificare l ipotesi che sia uguale a 0. 4. Stimare i parametri del modello alla quarta potenza y = β 0 + β 1 x + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε. Per ogni parametro verificare l ipotesi che sia uguale a 0. 5. Quale dei modelli nelle parti dalla (a) alla (d) è il più appropriato? 6. Utilizzare il modello più appropriato per stimare la conducibilità ad una temperatura di 120 C. 24

Conductivity 0.230 0.235 0.240 0.245 0.250 0.255 0.260 0.05 0.10 0.15 0.20 0.25 Temperature 25

I risultati per la stima del modello lineare sono riportati nella seguente tabella. Estimate Std. Error t value Pr(> t ) (Intercept) 0.2532 0.0065 38.82 0.0000 Temperature 0.0416 0.0403 1.03 0.3197 La variabile Temperatura non è significativamente diversa da 0. Il valore di r 2 = 0.071 denota una bontà di adattamento praticamente nulla. La variabili non sono legate da una relazione lineare. 26

I risultati per la stima del modello quadratico sono riportati nella seguente tabella. Estimate Std. Error t value Pr(> t ) (Intercept) 0.2200 0.0038 57.23 0.0000 Temperature 0.5893 0.0615 9.59 0.0000 Temperature 2 2.2679 0.2155 10.52 0.0000 I parametri di x e di x 2 sono significativamente diversi da 0. r 2 = 0.9024 mentre r 2 corretto vale 0.8874. Il modello sembra adattarsi molto bene ai dati. Verifichiamo che l introduzione del termine quadratico è significativa: Df SSE Df Sum of Sq F Pr(>F) Lineare 14 0.00169 Quadratico 13 0.00018 1 0.00151 110.75 0.0000 27

Passiamo al modello cubico. seguente tabella. I risultati per la stima sono riportati nella Estimate Std. Error t value Pr(> t ) (Intercept) 0.2251 0.0069 32.65 0.0000 Temperature 0.4110 0.2058 2.00 0.0689 Temperature 2 0.7465 1.6887 0.44 0.6663 Temperature 3 3.6728 4.0430 0.91 0.3815 È plausibile che i coefficienti di x, x 2 e x 3 siano 0. r 2 = 0.9087 mentre r 2 corretto vale 0.8858. Il modello sembra lo stesso adattarsi molto bene ai dati. Df SSE Df Sum of Sq F Pr(>F) Quadratico 13 1.7719e-04 Cubico 12 1.6579e-04 1 1.1401e-05 0.8252 0.3815 La variabile x 3 può essere omessa. 28

Passiamo al modello con la potenza quarta. riportati nella seguente tabella. I risultati per la stima sono Estimate Std. Error t value Pr(> t ) (Intercept) 0.2315 0.0135 17.15 0.0000 Temperature 0.1091 0.5834 0.19 0.8551 Temperature 2 3.4544 7.7602 0.45 0.6648 Temperature 3 26.0224 40.4496 0.64 0.5332 Temperature 4 40.1571 72.2925 0.56 0.5897 È plausibile che i coefficienti di x, x 2, x 3 e x 4 siano 0, ma la statisitca F = 28.2 segnala che almeno una delle variabili del modello ha un qualche legame con la variabile y. r 2 = 0.9111 mentre r 2 corretto vale 0.8788. Il modello sembra lo stesso adattarsi molto bene ai dati. Il valore di r 2 corretto è diminuito: non serve aggiungere questa variabile. 29

La seguente tavola della varianza conferma che l aggiunta del termine cubico e alla potenza quarta non apporta significativi miglioramenti nella spiegazione della variabilità di y. Df Sum Sq Mean Sq F value Pr(>F) Temperature 1 0.00013 0.00013 8.74823 0.01303 Temperature 2 1 0.00151 0.00151 102.96538 0.00000 Temperature 3 1 0.00001 0.00001 0.77769 0.39671 Temperature 4 1 0.00000 0.00000 0.30856 0.58968 Residui 11 0.00016 0.00001 La stima per la conducibilità per un polimero con temperatura x = 120 è 0.2580149. L intervallo di confidenza a livello di fiducia del 95% è (0.2550702, 0.2609596). 30