Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Documenti analoghi
LABORATORIO DI PROBABILITA E STATISTICA

Statistica multivariata Donata Rodi 17/10/2016

0.1 Percorrenza e Cilindrata

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

RICHIAMI DI STATISTICA DESCRITTIVA E DI INFERENZA: LA VERIFICA DI IPOTESI: TEST BASATI SU UN CAMPIONE

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Analisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

LABORATORIO DI PROBABILITA E STATISTICA

Regressione Lineare Semplice e Correlazione

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017

Esercitazione del

LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE

Fac-simile prova di esame

Esercizio 1 GRAFICO 1. X e Y sono indipendenti. X e Y non sono correlate. La correlazione tra X e Y è <1. X e Y sono perfettamente correlate

LABORATORIO DI PROBABILITA E STATISTICA

Statistica. Alfonso Iodice D Enza

STATISTICA A K (60 ore)

Regressione lineare semplice

Statistica. Alfonso Iodice D Enza

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Regressione lineare semplice

Antonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR

Esercizio 2: voto e ore dedicate allo studio

Statistica 1 A.A. 2015/2016

Introduzione alla Regressione Logistica

Statistica. Alfonso Iodice D Enza

Laboratorio di Statistica Aziendale Modello di regressione lineare semplice

LEZIONE N. 11 ( a cura di MADDALENA BEI)

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Modelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

> cement <- read.table("i:/modelli/cement.dat", col.names=c("tempo", "resist")) > attach(cement)

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

Esercizio 8. Ne segue, ovviamente che le aree geografiche di riferimento sono Africa e America del Sud.

Teoria e tecniche dei test. Concetti di base

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico )

Validazione dei modelli Strumenti quantitativi per la gestione

Test F per la significatività del modello

Statistica Applicata all edilizia: il modello di regressione

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Modelli con predittori qualitativi e modelli con interazioni

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

ESERCITAZIONE C. Analisi di dati sperimentali PARTE 3: REGRESIONE

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Laboratorio di R - 3 a lezione Prof. Mauro Gasparini

Università degli Studi di Padova Facoltà di Scienze Politiche

DISTRIBUZIONE CAMPIONARIA CONGIUNTA

ESERCITAZIONE IV - Soluzioni

CAPITOLO 11 ANALISI DI REGRESSIONE

Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo

Stima dei parametri di modelli lineari

docente: J. Mortera/P. Vicard Nome

Analisi della regressione

Lab. 2 - Excel. Prof. De Michele e Farina

ANALISI DELLA VARIANZA

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Capitolo 12 La regressione lineare semplice

SCOPO DELL ANALISI DI CORRELAZIONE

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Dispensa di Statistica

REGRESSIONE E CORRELAZIONE

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

La regressione lineare. Rappresentazione analitica delle distribuzioni

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Il modello di regressione

PROBABILITÀ ELEMENTARE

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

La regressione lineare multipla

Corso di Laurea in Economia Aziendale. Docente: Marta Nai Ruscone. Statistica

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

Associazione tra caratteri quantitativi: gli indici di correlazione

Regressione Semplice. Correlazioni. sconto leverage. sconto Correlazione di Pearson 1,275. Sign. (a due code),141

Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii

Indice. 1 Introduzione ai modelli lineari 2. 2 Dataset 3. 3 Il Modello 8. 4 In pratica Peso e percorrenza... 12

STATISTICA 1 ESERCITAZIONE 6

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

Quiz di verifica Classificazione

Covarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2

> d = alimentazione == "benz" > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] > sd(percorr.urbana[d]) [1] 2.

lezione 10 AA Paolo Brunori

Transcript:

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione. La regressione lineare può essere impiegata per studiare l effetto casuale di una variabile indipendente X su una variabile dipendente Y. La regressione lineare multipla consente di prevedere una grandezza ignota da un insieme di caratteristiche note.

Regressione e Correlazione Regressione: costruire un modello attraverso cui prevedere i valori di una variabile dipendente o di risposta Y a partire da una o più variabili indipendenti o esplicative X. Correlazione: studio dell associazione tra due variabili quantitative.

La regressione lineare semplice e multipla

Il diagramma a dispersione Per studiare la relazione tra due variabili è utile il diagramma di dispersione in cui si riportano i valori della variabile esplicativa X sull asse delle ascisse e i valori della variabile dipendente Y sull asse delle ordinate. La relazione tra due variabili può essere espressa mediante funzioni matematiche più o meno complesse tramite un modello di regressione. Il modello di regressione lineare semplice è adatto quando i valori delle variabili X e Y si distribuiscono lungo una retta nel diagramma di dispersione.

Il modello di regressione lineare semplice y i x i i L inclinazione β indica come varia Y in corrispondenza di una variazione unitaria di X. L intercetta α corrisponde al valore medio di Y quando X è uguale a 0. Il segno di β indica se la relazione lineare è positiva o negativa. ε i errore casuale in Y corrispondente alla i-esima osservazione

La scelta del modello matematico appropriato

Il modello di regressione lineare semplice Una volta individuati i parametri α e β, possiamo rappresentare ciascun punto, quindi, ciascuna unità statistica, in riferimento alla sua posizione su questa retta. ESEMPIO: creare una sottocartella in C:/temp/ di nome REG e inserire il dataset4 dati<- read.table("c:/temp/reg/dataset4.csv", header=true, sep=";") dati N_viaggi Red SESSO TITOLO 1 0 1000 M D 2 2 1500 M L 3 1 900 F D 4 4 3000 F L 5 1 1100 F D 6 1 1400 F D 7 0 850 M D 8 2 1500 M L 9 3 3100 M L 10 0 1100 M D

Il modello di regressione lineare semplice attach(dati) reg<-lm(n_viaggi~red) reg ## PER OTTENERE IL SIMBOLO ~ digitare ## ALT+126 (sulla tastiera numerica) Call: lm(formula = N_viaggi ~ Red) Coefficients: (Intercept) Red -0.877728 0.001474 Yi=-0.87728+0.001474Xi

Inserire nella figura la retta di regressione plot(red, N_viaggi) abline(-0.877728, 0.001474) oppure posso richiamare il nome che ho dato alla funzione di reg abline(reg)

Il modello di regressione lineare semplice La regressione ha come obiettivo quello di individuare la retta che meglio si adatta ai dati. Esistono vari modi per valutare la capacità di adattamento Il criterio più semplice è quello di valutare le differenze tra i valori osservati (Yi) e i valori previsti (Ŷi) Esempio I valori stimati si ottengono attraverso il comando fitted(reg) I valori dei residui resid(reg)

L indice di determinazione (R 2 ) per valutare la bontà del modello R 2 Dev(R) Dev(Y ) 1 Dev(E) Dev(Y ) Dev (R )= Devianza di regressione Dev (Y) = Devianza Totale Dev (E)= Devianza dei residui n n y y 2 y y 2 y y i i i i i 1 i 1 n i 1 2

Devianza di totale n i 1 y y 2 i

Devianza di Regressione n i 1 y y 2 i

Devianza dei residui n i 1 y i y 2 i

Sull indice di determinazione Quando la devianza di regressione è nulla, l indice di determinazione assume valore zero, quindi, la variabilità di Y non è spiegata dalla retta di regressione. Quando la devianza di regressione coincide con la devianza totale, l indice di deteminazione assume valore uno, quindi, la variabilità di Y è spiegata interamente dalla retta di regressione. La radice quadrata dell indice di determinazione coincide con il coefficiente di regressione di Pearson.

Modello di regressione lineare La previsione di un valore di Y in corrispondenza di un certo valore di X può essere definita in due modi, in relazione all intervallo di valori di X usati per stimare il modello: interpolazione: se la previsione di Y corrisponde ad un valore di X interno all intervallo estrapolazione: se la previsione di Y corrisponde ad un valore di X che non cade nell intervallo

Valutazione delle ipotesi: Omoschedasticità: il grafico dei residui rispetto a X consente di stabilire anche se la variabilità degli errori varia a seconda dei valori di X. Il grafico a lato evidenzia ad esempio che la variabilità dei residui aumenta all aumentare dei valori di X. Normalità: rappresentazione della distribuzione di frequenze dei residui (es. istogramma) Indipendenza: rappresentando i residui nell ordine con cui sono stati raccolti i dati emerge un eventuale autocorrelazione tra osservazioni successive.

Analisi dei residui Il residuo ei è una stima dell errore che commetto nel prevedere Yi tramite Ŷi. Per stimare la capacità di adattamento ai dati della retta di regressione è opportuna una analisi grafica grafico di dispersione dei residui (ordinate) e dei valori di X (ascisse). Se si evidenzia una relazione particolare il modello non è adeguato. Nell esempio a lato il modello di regressione lineare non sembra appropriato. Il grafico a destra evidenzia lo scarso adattamento ai dati del modello (lackof fit). Quindi il modello polinomiale è più appropriato.

Analisi dei residui plot(red, resid(reg)) abline(h=n_viaggi)

summary(reg) Diagramma a dispersione Call: lm(formula = N_viaggi ~ Red) plot(red, N_viaggi) Residuals: Min 1Q Median 3Q Max -0.74396-0.54125 0.03491 0.52691 0.66634 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -0.8777277 0.4298077-2.042 0.075423. Red 0.0014743 0.0002481 5.943 0.000345 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.6153 on 8 degrees of freedom Multiple R-squared: 0.8153, Adjusted R-squared: 0.7923 F-statistic: 35.32 on 1 and 8 DF, p-value: 0.0003446