Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12)



Documenti analoghi
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico )

> d = alimentazione == "benz" > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] > sd(percorr.urbana[d]) [1] 2.

Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza

Capitolo 12 La regressione lineare semplice

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

LEZIONE n. 5 (a cura di Antonio Di Marco)

Relazioni statistiche: regressione e correlazione

Statistica. Lezione 6

Indice. 1 Introduzione ai modelli lineari 2. 2 Dataset 3. 3 Il Modello 8. 4 In pratica Peso e percorrenza... 12

Validazione dei modelli Strumenti quantitativi per la gestione

Metodi statistici per le ricerche di mercato

(a cura di Francesca Godioli)

FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA

La distribuzione Normale. La distribuzione Normale

Prof.ssa Paola Vicard

Soluzioni degli Esercizi del Parziale del 30/06/201 (Ippoliti-Fontanella-Valentini)

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

Corso di Psicometria Progredito

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 8:

Lineamenti di econometria 2

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Grafici delle distribuzioni di frequenza

Prova di autovalutazione Prof. Roberta Siciliano

La grafica. La built-in funzione grafica plot. x spezzata poligonale. discretizzato

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Analisi della performance temporale della rete

Inferenza statistica. Statistica medica 1

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

Esercitazione n.1 (v.c. Binomiale, Poisson, Normale)

Esercizi di riepilogo Statistica III canale, anno 2008

ESAME DI STATISTICA Nome: Cognome: Matricola:

Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

Elementi di Psicometria con Laboratorio di SPSS 1

STATISTICA IX lezione

Regressione lineare multipla Strumenti quantitativi per la gestione

Il concetto di valore medio in generale

Excel Terza parte. Excel 2003

MATEMATICA p = 4/6 = 2/3; q = 1-2/3 = 1/3. La risposta corretta è quindi la E).

VERIFICA DELLE IPOTESI

Rapporto dal Questionari Insegnanti

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE


Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Anova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011

Esercitazione n.2 Inferenza su medie

2 + (σ2 - ρσ 1 ) 2 > 0 [da -1 ρ 1] b = (σ ρσ1 σ 2 ) = (σ 1

INDICE PREFAZIONE VII

L analisi dei dati. Capitolo Il foglio elettronico

INTRODUZIONE AL DOE come strumento di sviluppo prodotto Francesca Campana Parte 3 Piani a fattore singolo e relativi test di interpretazione

Elementi di Psicometria con Laboratorio di SPSS 1

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995).

ANALISI DELLE FREQUENZE: IL TEST CHI 2

LA CORRELAZIONE LINEARE

LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE

Excel avanzato. I nomi. Gli indirizzi e le formule possono essere sostituiti da nomi. Si creano tramite Inserisci Nome Definisci

LE FUNZIONI A DUE VARIABILI

Laboratorio di Statistica Aziendale Modello di regressione lineare multipla

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Tema A Se due eventi A e B sono indipendenti e tali che P (A) = 1/2 e P (B) = 2/3, si può certamente concludere che

1) A partire dalla seguente tabella a doppia entrata per le variabili QUALIFICA FUNZIONALE e STIPENDIO PERCEPITO (3 classi): STIPENDIO PERCEPITO

Elaborazione dei dati su PC Regressione Multipla

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE SIMULAZIONE della PROVA SCRITTA di STATISTICA 23/03/2011

Che cosa e come valutano le prove di matematica e con quali risultati. nell A.S

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

Dimensione di uno Spazio vettoriale

Metodi statistici per la ricerca sociale ANOVA e ANCOVA in

3. Confronto tra medie di due campioni indipendenti o appaiati

Lineamenti di econometria 2

General Linear Model. Esercizio

Opportunità e rischi derivanti dall'impiego massivo dell'informatica in statistica. Francesco Maria Sanna Roma, 3 maggio 2012

Corso di Psicometria Progredito

VALIDAZIONE SECONDO LE NORME ISO ED UNI-ENV-ISO DEL METODO COLORIMETRICO QUANTITATIVO MBS CONTA DI COLIFORMI IN ACQUE SUPERFICIALI

0.1 Percorrenza e Cilindrata

Lineamenti di econometria 2

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Capitolo 13: L offerta dell impresa e il surplus del produttore

Basi di matematica per il corso di micro

Come costruire una distribuzione di frequenze per caratteri quantitativi continui

6. Modelli statistici: analisi della regressione lineare

Criteri di Valutazione della scheda - Solo a carattere indicativo -

Potenzialità statistiche Excel

Indici di dispersione

4. Confronto tra medie di tre o più campioni indipendenti

età sesso luogo-abitazione scuola superiore esperienza insegnamento

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

Metodi Matematici e Informatici per la Biologia Maggio 2010

Elementi di Psicometria con Laboratorio di SPSS 1

Analisi delle relazioni tra due caratteri

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

Strumenti per la costruzione di modelli economici in Excel. Parte 4. Altre Funzioni

LA STATISTICA NEI TEST INVALSI

Transcript:

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 011-1) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola a una certa data, sono stati rilevati il numero X di pagine dedicate ad arte e cultura e le vendite Y (in milioni di lire) effettuate nella settimana. I dati sono riportati nella seguente tabella: X 0 1 5 7 10 14 0 Y 375 450 500 75 800 950 105 100 a) Si stimino con il metodo dei minimi quadrati i parametri β 0 e β 1 del modello: Y=β 0 + β 1X + ε In R i due vettori dei dati X e Y vengono costruiti come segue: x<-c(0,1,,5,7,10,14,0) y<-c(375,450,500,75,800,950,105,100) Può essere interessante visualizzare la nube dei punti attraverso un grafico che contenga la cosiddetta spezzata di regressione. In R si utilizza la funzione plot che visualizza la successione dei punti seguita dalla funzione lines che ha l obiettivo di congiungere con una linea i punti del diagramma. Gli argomenti delle funzioni sono nell ordine il vettore delle X e quello delle Y: plot(x,y) lines(x,y) 1

Esistono altri argomenti opzionali per la personalizzazione del grafico (relativamente agli assi, ai titoli, legenda, colori ecc.). Per una più dettagliata trattazione si rimanda all help in linea del linguaggio R: help(plot) Per stimare i parametri della retta di regressione si può procedere calcolando dettagliatamente tutte le formule derivanti dal metodo dei minimi quadrati oppure utilizzando le funzioni già predisposte a questo proposito in R. Relativamente al primo approccio, (più laborioso ma sicuramente più costruttivo!) è necessario valutare medie, devianze e codevianze. Si costruiscano i vettori scarto dalle medie utilizzando la funzione mean che calcola la media aritmetica di una successione di valori: x.scarti<- x-mean(x) y.scarti<- y-mean(y) La devianza di X, quella di Y e la codevianza risultano allora: dev.x <- sum(x.scarti^) dev.y <- sum(y.scarti^) codev.xy <- sum(x.scarti*y.scarti) L intercetta e il coefficiente di regressione risultano quindi: b1 <- codev.xy/dev.x 41.4586 b0 <- mean(y)-mean(x)*b1 447.3704 Alternativamente per stimare un modello di regressione lineare si può utilizzare la funzione lm. Tale funzione è può essere utilizzata più in generale per vari tipi di modelli lineari, quali modelli di regressione lineari e multipli, analisi della varianza e analisi della covarianza. Come ogni altra funzione, lm prevede argomenti necessari e facoltativi. Quello indispensabile in questo caso è una formula, ovvero una descrizione simbolica del modello da stimare. La descrizione deve essere fatta in questo modo: pertanto in questo contesto la funzione sarà: output.reg.lin <- lm(y~x) variabile risposta ~ variabili esplicative Il risultato della regressione lineare è racchiuso in una lista un oggetto complesso in R articolato in più vettori, matrici o altri oggetti. Al fine di visualizzare separatamente gli oggetti della lista si utilizza il simbolo $ seguito dal nome dell oggetto stesso. La stima dei parametri è contenuta nel vettore coefficients: output.reg.lin$coefficients (Intercept) x 447.37036 41.4586 A questo punto è possibile visualizzare graficamente la retta di regressione. A tal proposito si valutino i valori teorici: y.teorici<-b0+b1*x

Se si vuole ottenere un grafico che visualizzi la retta passante attraverso la nube dei punti osservata si digitino le funzioni plot per la nube dei punti e points che aggiunge una serie di dati ad un grafico corrente. Con le opzioni type= l e col= (rosso) si intende rappresentare una linea continua e di colore rosso: plot(x,y) points(x,y.teorici,type="l",col="") Si potevano altresì utilizzare i comandi: plot(x,y) abline(output.reg.lin) b) Si determinino gli intervalli di confidenza al 99% per il coefficiente angolare e l intercetta Prima di utilizzare l output derivante dalla funzione lm si proceda per passi, calcolando tutte le quantità necessarie per le formule: b 1 ± tα ; n ( x x) s ydisp 1 x + n bo ± tα ; n s ydisp ( x x) La radice quadrata della varianza di dispersione si può calcolare nel seguente modo: dev.disp<-sum((y-y.teorici)^) 3014.13 s.disp<-sqrt(dev.disp/6) 70.85681 3

Alternativamente l output della funzione lm comprende i valori teorici e i residui negli oggetti denominati rispettivamente fitted.values e residuals. Pertanto la devianza di dispersione si poteva ottenere anche nel seguente modo: dev.disp<-sum((output.reg.lin$residuals)^) Il valore teorico della distribuzione t di Student in corrispondenza di un determinato livello di significatività lo si determina facendo ricorso alla funzione qt. Tale funzione (cosi come le funzioni qnorm, qbinom, qf, ecc.) determina il valore di ascissa della funzione di ripartizione in modo che l area alla sua sinistra corrisponda ad una determinata frazione percentuale. La funzione prende due argomenti necessari: la frazione percentuale dell area e i gradi di libertà. Essendo l intervallo di confidenza pari al 99% si noti che qt(0.005,6) -3.70748 qt(0.995,6) 3.70748 essendo la distribuzione t simmetrica e pertanto il valore teorico di t è dato da: t.value<-qt(0.995,6) Ora gli estremi dell intervallo di confidenza per il coefficiente angolare sono dati da: inf.b1<-b1-t.value*s.disp/sqrt(dev.x) 7.089 sup.b1<-b1+t.value*s.disp/sqrt(dev.x) 55.7076 mentre quelli per l intercetta sono dati da: sup.b0<-b0+t.value*s.disp*sqrt(1/8+(mean(x)^/dev.x)) 587.6196 inf.b0<-b0-t.value*s.disp*sqrt(1/8+(mean(x)^/dev.x)) 307.111 c) Il valore medio della variabile Y, E(Y x d) quando x d =7 Si tratta di un problema di previsione: poiché non si è in grado di prevedere in maniera esatta il valore di una singola estrazione occorre determinare l intervallo di confidenza per il valore medio E(Y x d). Tale intervallo viene determinato applicando la formula: Dunque si avrà: 1 ( xd x) i = ( b0 + b1 xd ) ± tα ; n s ydisp + n ( x x) inf.prev<-b0+b1*7-(t.value*s.disp*sqrt(1/8+((7-mean(x))^/dev.x))) 644.5473 sup.prev<-b0+b1*7+(t.value*s.disp*sqrt(1/8+((7-mean(x))^/dev.x))) 830.609 4

Per visualizzare graficamente le bande di confidenza attorno alla retta di regressione si costruisce una variabile xx contenente una successione di valori da 0 a 0 e si procede come al passo precedente al calcolo dell estremo inferiore e superiore per tali valori: xx<-0:0 inf.prev.xx<-b0+b1*xx-(t.value*s.disp*sqrt(1/8+((xx-mean(x))^/dev.x))) sup.prev.xx<-b0+b1*xx+(t.value*s.disp*sqrt(1/8+((xx-mean(x))^/dev.x))) plot(x,y.teorici,"l") lines(x=xx,y=inf.prev.xx,col=,type="c") lines(x=xx,y=sup.prev.xx,col=,type="c") y.teorici 600 800 1000 100 0 5 10 15 0 x 5

open statistica 8.44 Si sono valutati i consumi di 10 utilitarie di case automobilistiche diverse con i seguenti risultati: Velocità in miglia per ora (X) 50 55 60 65 70 75 Consumo in miglia per gallone (Y) 34.8 33.6 34.6 34.1 3.8 31.9 3.6 31.6 31.8 30.9 a) Si stimi il modello di regressione di Y su X x<-c(50,50,55,55,60,60,65,70,70,75) y<-c(34.8,33.6,34.6,34.1,3.8,31.9,3.6,31.6,31.8,30.9) output.reg.lin<-lm(y~x) output.reg.lin$coefficients (Intercept) x 41.3304348-0.1386957 b) Si valuti con un test opportuno l esistenza di un legame lineare tra la velocità e il consumo di benzina, scegliendo α=0,01. Si tratta di verificare l ipotesi nulla H 0: β 1=0 attraverso la statistica test: t c = b 1 * ( y y ) ) ( x ) ( n x in cui la devianza di dispersione è: dev.disp<-sum(output.reg.lin$residuals^) 3.14786 la devianza di x è: dev.x<-sum((x-mean(x))^) 690 mentre b 1 è il secondo elemento del vettore output.reg.lin$coefficients e lo si seleziona mediante b1<-output.reg.lin$coefficients[] Pertanto la statistica test risulta : tc<-b1/sqrt(dev.disp/(8*dev.x)) -5.808006 Per verificare l ipotesi nulla si confronta tale valore con quello teorico ottenuto in corrispondenza di α=0,01 e di 8 gradi di libertà: 6

qt(0.005,8) -3.355387 Poiché 5.808006 < -3.355387 si rifiuta l ipotesi nulla. In modo analogo si poteva calcolare il p-value associato alla statistica test -5.808006. La funzione pt (e così le funzioni pnorm, pbinom, pf ecc.) calcola l area della coda della distribuzione t di Student in corrispondenza di due argomenti: l ascissa e i gradi di libertà. Pertanto: *pt( 5.808006,8) 0.0004014839 ed essendo 0.0004014839<0.01 (=α) si conclude che o si è verificato un evento molto raro, oppure l ipotesi nulla non è vera. Quindi si rifiuta l ipotesi nulla di indipendenza lineare tra i consumi e la velocità. Agli stessi risultati si poteva arrivare utilizzando la funzione summary applicata all output di lm. La funzione produce alcune informazioni di sintesi sulla stima del modello lineare: summary(output.reg.lin) Call: lm(formula = y ~ x) Residuals: Min 1Q Median 3Q Max -1.10870-0.16359 0.0786 0.36957 0.89783 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 41.33043 1.47013 8.113.77e-09 *** x -0.13870 0.0388-5.808 0.000401 *** --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 0.673 on 8 degrees of freedom Multiple R-Squared: 0.8083, Adusted R-squared: 0.7843 F-statistic: 33.73 on 1 and 8 DF, p-value: 0.0004015 Vi sono elencate informazioni sui residui, sulla verifica di ipotesi dei parametri, sull indice di determinazione lineare e sul test F per valutare la significatività del modello di regressione. Con riferimento alla parte intitolata Coefficients si ritrova la statistica test e il p-value calcolati per la stima del coefficiente di regressione. L indice di determinazione lineare R-Squared risulta 0.8083 e lo si poteva altresì ottenere con i seguenti passaggi: dev.tot<-sum((y-mean(y))^) dev.reg<-dev.tot-dev.disp dev.reg/dev.tot 0.8083048 sreg La statistica F, Fc = la si può calcolare anche come: s disp dev.reg/(dev.disp/8) 33.7393 7

Se si vuole visualizzare la tabella dell analisi della varianza per questo modello di regressione si può utilizzare il comando anova: anova(output.reg.lin) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x 1 13.73 13.73 33.733 0.0004015 *** Residuals 8 3.1478 0.3935 --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 8