Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico )

Documenti analoghi
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico )

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Laboratorio di Statistica Aziendale Modello di regressione lineare multipla

Anova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011

0.1 Percorrenza e Cilindrata

Regressione. Monica Marabelli. 15 Gennaio 2016

LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

LABORATORIO DI PROBABILITA E STATISTICA

Analisi della varianza a due fattori

1. ISTOGRAMMI E GRAFICI DI ALCUNE DENSITA (COMPLEMENTO ALLA LEZIONE PRECEDENTE)

Metodi statistici per la ricerca sociale ANOVA e ANCOVA in

Statistiche di sintesi

Esercizio Dire quale variabile debba essere usata come regressore e quale sia la variabile risposta.

Antonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR

ANALISI DELLA VARIANZA

Capitolo 12 La regressione lineare semplice

Esercitazione finale - corso R base Francesco Vidoli Ottobre 2018

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017

Stima dei parametri di modelli lineari

Statistica Applicata all edilizia: il modello di regressione

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

LABORATORIO DI PROBABILITA E STATISTICA

Corso in Statistica Medica

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value

STATISTICA A K (60 ore)

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

Statistica. Alfonso Iodice D Enza

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Analisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura

Statistica 1- parte II

Ancova: il modello lineare in generale

VARIETÀ. zona geografica A B C D

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Test F per la significatività del modello

INTRODUZIONE AI MODELLI LINEARI

Validazione dei modelli. Strumenti quantitativi per la gestione

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Statistica. Alfonso Iodice D Enza

Esercizi di statistica

COGNOME.NOME...MATR..

Indice. L Editore ringrazia. Ringraziamenti. Autori. Prefazione. Obiettivi formativi XIII XVII

STATISTICA MULTIVARIATA SSD MAT/06

> d = alimentazione == "benz" > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] > sd(percorr.urbana[d]) [1] 2.

Regressione lineare semplice. Strumenti quantitativi per la gestione

STATISTICA. Esercitazione 5

Regressione lineare semplice

Fac-simile prova di esame

Laboratorio di Probabilità e Statistica

ESERCIZIO 1. Biondi Castani Rossi Neri TOTALE

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

STATISTICA. Esonero 8 novembre 2014 Soluzione. Quesito 1.

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Esercizio 8. Ne segue, ovviamente che le aree geografiche di riferimento sono Africa e America del Sud.

Regressione lineare semplice

Casa dello Studente. Casa dello Studente

Regressione & Correlazione

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello

Quiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione

Esercizio 1 GRAFICO 1. X e Y sono indipendenti. X e Y non sono correlate. La correlazione tra X e Y è <1. X e Y sono perfettamente correlate

Correlazione e regressione

Modelli statistici: sessione 1

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Esercitazioni di Statistica Dott.ssa Cristina Mollica

Metodi Statistici per il Management

LM 88 SOCIOLOGIA E RICERCA SOCIALE. Metodi Statistici per la Ricerca Sociale. Regressione lineare e correlazione

Relazioni tra variabili (fenomeni) aziendali

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 5 Test d Ipotesi

Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Argomenti della lezione:

Livello di esposizione. animale Basso Moderato Alto

Regressione Lineare Semplice e Correlazione

1. variabili dicotomiche: 2 sole categorie A e B

Statistica economica

Giorno n. clienti di attesa

Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione

Laboratorio 8. Regressione multipla. 8.1 Analisi del dataset HOOK.DAT

docente: J. Mortera/P. Vicard Nome

Ancora sulla regressione multipla

La regressione lineare semplice

STATISTICA. Esonero 8 novembre 2014 Soluzione. Quesito 1.

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

> cement <- read.table("i:/modelli/cement.dat", col.names=c("tempo", "resist")) > attach(cement)

LABORATORIO DI PROBABILITA E STATISTICA

Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo

Laboratorio di Statistica Aziendale Modello di regressione lineare semplice

Siete invitati a cambiare un po di parametri dell esercizio (es. aumentare Nrow; diminuire sig2; diminuire i coefficienti di X3 ed X4).

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Validazione dei modelli Strumenti quantitativi per la gestione

Correlazione tra due variabili

CAPITOLO 5 Introduzione ai piani fattoriali

Regressione lineare. Lo studio della relazione lineare tra due variabili. X e Y caratteri entrambi quantitativi. variabile dipendente

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Transcript:

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 05-6) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola a una certa data, sono stati rilevati il numero X di pagine dedicate ad arte e cultura e le vendite Y (in milioni di lire) effettuate nella settimana. I dati sono riportati nella seguente tabella: X 0 5 7 0 4 0 Y 375 450 500 75 800 950 05 00 a) Si stimino con il metodo dei minimi quadrati i parametri β 0 e β del modello: Y=β 0 + β X + ε In R i due vettori dei dati X e Y vengono costruiti come segue: > <-c(0,,,5,7,0,4,0) > y<-c(375,450,500,75,800,950,05,00) Può essere interessante visualizzare la nube dei punti attraverso un grafico che contenga la cosiddetta spezzata di regressione. In R si utilizza la funzione plot che visualizza la successione dei punti seguita dalla funzione lines che ha l obiettivo di congiungere con una linea i punti del diagramma. Gli argomenti delle funzioni sono nell ordine il vettore delle X e quello delle Y: > plot(,y) > lines(,y)

Esistono altri argomenti opzionali per la personalizzazione del grafico (relativamente agli assi, ai titoli, legenda, colori ecc.). Per una più dettagliata trattazione si rimanda all help in linea del linguaggio R: > help(plot) Per stimare i parametri della retta di regressione si può procedere calcolando dettagliatamente tutte le formule derivanti dal metodo dei minimi quadrati oppure utilizzando le funzioni già predisposte a questo proposito in R. Relativamente al primo approccio, (più laborioso ma sicuramente più costruttivo!) è necessario valutare medie, devianze e codevianze. Si costruiscano i vettori scarto dalle medie utilizzando la funzione mean che calcola la media aritmetica di una successione di valori: >.scarti<- -mean() > y.scarti<- y-mean(y) La devianza di X, quella di Y e la codevianza risultano allora: > dev. <- sum(.scarti^) > dev.y <- sum(y.scarti^) > codev.y <- sum(.scarti*y.scarti) L intercetta e il coefficiente di regressione risultano quindi: > b <- codev.y/dev. [] 4.4586 > b0 <- mean(y)-mean()*b [] 447.3704 Alternativamente per stimare un modello di regressione lineare si può utilizzare la funzione lm. Tale funzione è può essere utilizzata più in generale per vari tipi di modelli lineari, quali modelli di regressione lineari e multipli, analisi della varianza e analisi della covarianza. Come ogni altra funzione, lm prevede argomenti necessari e facoltativi. Quello indispensabile in questo caso è una formula, ovvero una descrizione simbolica del modello da stimare. La descrizione deve essere fatta in questo modo: pertanto in questo contesto la funzione sarà: > output.reg.lin <- lm(y~) variabile risposta ~ variabili esplicative Il risultato della regressione lineare è racchiuso in una lista un oggetto complesso in R articolato in più vettori, matrici o altri oggetti. Al fine di visualizzare separatamente gli oggetti della lista si utilizza il simbolo $ seguito dal nome dell oggetto stesso. La stima dei parametri è contenuta nel vettore coefficients: > output.reg.lin$coefficients (Intercept) 447.37036 4.4586 A questo punto è possibile visualizzare graficamente la retta di regressione. A tal proposito si valutino i valori teorici: > y.teorici<-b0+b*

Se si vuole ottenere un grafico che visualizzi la retta passante attraverso la nube dei punti osservata si digitino le funzioni plot per la nube dei punti e points che aggiunge una serie di dati ad un grafico corrente. Con le opzioni type= l e col= (rosso) si intende rappresentare una linea continua e di colore rosso: > plot(,y) > points(,y.teorici,type="l",col="") Si potevano altresì utilizzare i comandi: > plot(,y) > abline(output.reg.lin) b) Si determinino gli intervalli di confidenza al 99% per il coefficiente angolare e l intercetta Prima di utilizzare l output derivante dalla funzione lm si proceda per passi, calcolando tutte le quantità necessarie per le formule: b ± tα ; n ( ) s + n ydisp bo ± tα ; n s ydisp ( ) La radice quadrata della varianza di dispersione si può calcolare nel seguente modo: > dev.disp<-sum((y-y.teorici)^) [] 304.3 > s.disp<-sqrt(dev.disp/6) [] 70.8568 3

Alternativamente l output della funzione lm comprende i valori teorici e i residui negli oggetti denominati rispettivamente fitted.values e residuals. Pertanto la devianza di dispersione si poteva ottenere anche nel seguente modo: > dev.disp<-sum((output.reg.lin$residuals)^) Il valore teorico della distribuzione t di Student in corrispondenza di un determinato livello di significatività lo si determina facendo ricorso alla funzione qt. Tale funzione (cosi come le funzioni qnorm, qbinom, qf, ecc.) determina il valore di ascissa della funzione di ripartizione in modo che l area alla sua sinistra corrisponda ad una determinata frazione percentuale. La funzione prende due argomenti necessari: la frazione percentuale dell area e i gradi di libertà. Essendo l intervallo di confidenza pari al 99% si noti che > qt(0.005,6) [] -3.70748 > qt(0.995,6) [] 3.70748 essendo la distribuzione t simmetrica e pertanto il valore teorico di t è dato da: > t.value<-qt(0.995,6) Ora gli estremi dell intervallo di confidenza per il coefficiente angolare sono dati da: > inf.b<-b-t.value*s.disp/sqrt(dev.) [] 7.089 > sup.b<-b+t.value*s.disp/sqrt(dev.) [] 55.7076 mentre quelli per l intercetta sono dati da: > sup.b0<-b0+t.value*s.disp*sqrt(/8+(mean()^/dev.)) [] 587.696 > inf.b0<-b0-t.value*s.disp*sqrt(/8+(mean()^/dev.)) [] 307. c) Il valore della variabile Y, y 0, quando d =7 Si tratta di un problema di previsione: poiché non si è in grado di prevedere in maniera esatta il valore di una singola estrazione occorre determinare l intervallo di confidenza per il valore y 0. Tale intervallo viene determinato applicando la formula: Dunque si avrà: ( ) ± t α ;n s ydisp + n + ( d ) i = b 0 + b d ( ) > inf.y0<-b0+b*7-(t.value*s.disp*sqrt(+/8+((7-mean())^/dev.))) [] 458.895 > sup.y0<-b0+b*7+(t.value*s.disp*sqrt(+/8+((7-mean())^/dev.))) [] 06.6 4

OPEN STATISTICA 8.44 Si sono valutati i consumi di 0 utilitarie di case automobilistiche diverse con i seguenti risultati: Velocità in miglia per ora (X) 50 55 60 65 70 75 Consumo in miglia per gallone (Y) 34.8 33.6 34.6 34. 3.8 3.9 3.6 3.6 3.8 30.9 a) Si stimi il modello di regressione di Y su X > <-c(50,50,55,55,60,60,65,70,70,75) > y<-c(34.8,33.6,34.6,34.,3.8,3.9,3.6,3.6,3.8,30.9) > output.reg.lin<-lm(y~) > output.reg.lin$coefficients (Intercept) 4.3304348-0.386957 b) Si valuti con un test opportuno l esistenza di un legame lineare tra la velocità e il consumo di benzina, scegliendo α=0,0. Si tratta di verificare l ipotesi nulla H 0: β =0 attraverso la statistica test: in cui la devianza di dispersione è: t = b * ( y y ) ) ( ) ( n > dev.disp<-sum(output.reg.lin$residuals^) [] 3.4786 la devianza di è: > dev.<-sum((-mean())^) [] 690 c mentre b è il secondo elemento del vettore output.reg.lin$coefficients e lo si seleziona mediante > b<-output.reg.lin$coefficients[] Pertanto la statistica test risulta : > tc<-b/sqrt(dev.disp/(8*dev.)) [] -5.808006 5

Per verificare l ipotesi nulla si confronta tale valore con quello teorico ottenuto in corrispondenza di α=0,0 e di 8 gradi di libertà: > qt(0.005,8) [] -3.355387 Poiché 5.808006 < -3.355387 si rifiuta l ipotesi nulla. In modo analogo si poteva calcolare il p-value associato alla statistica test -5.808006. La funzione pt (e così le funzioni pnorm, pbinom, pf ecc.) calcola l area della coda della distribuzione t di Student in corrispondenza di due argomenti: l ascissa e i gradi di libertà. Pertanto: > *pt( 5.808006,8) [] 0.000404839 ed essendo 0.000404839<0.0 (=α) si conclude che o si è verificato un evento molto raro, oppure l ipotesi nulla non è vera. Quindi si rifiuta l ipotesi nulla di indipendenza lineare tra i consumi e la velocità. Agli stessi risultati si poteva arrivare utilizzando la funzione summary applicata all output di lm. La funzione produce alcune informazioni di sintesi sulla stima del modello lineare: > summary(output.reg.lin) Call: lm(formula = y ~ ) Residuals: Min Q Median 3Q Ma -.0870-0.6359 0.0786 0.36957 0.89783 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 4.33043.4703 8.3.77e-09 *** -0.3870 0.0388-5.808 0.00040 *** --- Signif. codes: 0 `***' 0.00 `**' 0.0 `*' 0.05 `.' 0. ` ' Residual standard error: 0.673 on 8 degrees of freedom Multiple R-Squared: 0.8083, Adusted R-squared: 0.7843 F-statistic: 33.73 on and 8 DF, p-value: 0.000405 Vi sono elencate informazioni sui residui, sulla verifica di ipotesi dei parametri, sull indice di determinazione lineare e sul test F per valutare la significatività del modello di regressione. Con riferimento alla parte intitolata Coefficients si ritrova la statistica test e il p-value calcolati per la stima del coefficiente di regressione. L indice di determinazione lineare R-Squared risulta 0.8083 e lo si poteva altresì ottenere con i seguenti passaggi: > dev.tot<-sum((y-mean(y))^) > dev.reg<-dev.tot-dev.disp > dev.reg/dev.tot [] 0.8083048 Dev La statistica F, F c = reg (Y ) Dev disp (Y ) (n ) = s reg la si può calcolare anche come: > dev.reg/(dev.disp/8) [] 33.7393 s disp 6

Se si vuole visualizzare la tabella dell analisi della varianza per questo modello di regressione si può utilizzare il comando anova: > anova(output.reg.lin) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) 3.73 3.73 33.733 0.000405 *** Residuals 8 3.478 0.3935 --- Signif. codes: 0 `***' 0.00 `**' 0.0 `*' 0.05 `.' 0. ` ' 7