Laboratorio di Probabilità e Statistica

Documenti analoghi
Laboratorio di Probabilità e Statistica

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

STATISTICA A K (60 ore)

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Statistica multivariata Donata Rodi 17/10/2016

Regressione. Monica Marabelli. 15 Gennaio 2016

Capitolo 12 La regressione lineare semplice

Covarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2

STATISTICA. Esercitazione 5

Laboratorio di Statistica Aziendale Modello di regressione lineare multipla

Esercizi vari sulle schede di statistica

Esercitazione del

per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Test delle Ipotesi Parte I

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

Regressione Lineare Semplice e Correlazione

La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.

Laboratorio di Probabilità e Statistica

LABORATORIO DI PROBABILITA E STATISTICA

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

1. variabili dicotomiche: 2 sole categorie A e B

Laboratorio di Probabilità e Statistica

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

lezione 7 AA Paolo Brunori

COGNOME.NOME...MATR..

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Errori sistematici e casuali

STATISTICA A D (72 ore)

Regressione lineare. Lucio Demeio Dipartimento di Ingegneria Industriale e Scienze Matematiche Università Politecnica delle Marche.

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

Laboratorio 8. Regressione multipla. 8.1 Analisi del dataset HOOK.DAT

Relazioni tra variabili (fenomeni) aziendali

ECONOMETRIA: Laboratorio I

Laboratorio di Probabilità e Statistica

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Statistica Applicata all edilizia: il modello di regressione

Rappresentazioni grafiche di distribuzioni doppie

Regressione & Correlazione

lezione 4 AA Paolo Brunori

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

Limiti di funzioni 1 / 41

Fasi del modello di regressione

Statistica descrittiva: analisi di regressione

ESAME. 9 Gennaio 2017 COMPITO B

Statistica Inferenziale

Regressione lineare semplice

Dispensa di Statistica

Corso di Laurea: Numero di Matricola: Esame del 31 maggio 2018 Tempo consentito: 120 minuti

Analisi bivariata. Il caso di caratteri quantitativi

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Statistica. Alfonso Iodice D Enza

INTRODUZIONE AL DOE come strumento di sviluppo prodotto Francesca Campana Parte 2 Concetti di base

La regressione lineare semplice

Correlazione e regressione

Cognome e Nome:... Matricola e corso di laurea:...

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Statistica di base per l analisi socio-economica

1. ISTOGRAMMI E GRAFICI DI ALCUNE DENSITA (COMPLEMENTO ALLA LEZIONE PRECEDENTE)

Statistica. Alfonso Iodice D Enza

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

PROGRAMMA DI STATISTICA BITETTO-BOGLI aa. 2018/2019 CON DETTAGLIO ARGOMENTI DA STUDIARE E LEGGERE * SUI LIBRI ADOTTATI

II ESERCITAZIONE ESERCIZIO

Argomenti della lezione:

Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1

CAPITOLO 11 ANALISI DI REGRESSIONE

Tipi di variabili. Indici di tendenza centrale e di dispersione

Facoltà di Psicologia Università di Padova Anno Accademico Corso di Psicometria - Modulo B

Teoria e tecniche dei test. Concetti di base

tabelle grafici misure di

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

LEZIONE N.8 (a cura di Teresa Fanelli) Questa forma risulta importante nel modello di regressione con più variabili.

Soluzioni della prova scritta del 6 Marzo 2013 (a.a. 2012/2013)

Esercizio 2: voto e ore dedicate allo studio

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Metodo dei Minimi Quadrati. Dott. Claudio Verona

Prova di recupero di Probabilità e Statistica - A * 21/04/2006

Correlazione e regressione

Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione

Regressione lineare semplice. Strumenti quantitativi per la gestione

Corso di Statistica Industriale

1.1 Obiettivi della statistica Struttura del testo 2

Laboratorio di Statistica Aziendale Modello di regressione lineare semplice

Esercitazioni di Statistica Matematica A Lezione 7. Variabili aleatorie continue

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

LABORATORIO DI PROBABILITA E STATISTICA

Statistica Applicata all edilizia Lezione: approccio stocastico all analisi delle serie storiche

PROBABILITA' E STATISTICA Prova del 16/09/2016 Traccia A

Test per la correlazione lineare

Parametri statistici

Transcript:

Laboratorio di Probabilità e Statistica lezione 9 Massimo Guerriero Ettore Benedetti

Indice Lezione Prerequisiti dalla lezione scorsa Analisi di regressione: Cambiamenti di scala Schema generale sull analisi di regressione Analisi di regressione in ambito inferenziale Bande di confidenza Estensioni del modello di regressione

Prerequisiti dalla lezione scorsa Disegnare grafici di dispersione Costruzione del modello (es retta di regressione) Valutazione del modello Considerazioni, deduzioni sul modello (es trattamento outlier, significatività)

Cambiamenti di scala 1/3 Spesso ci si accorge dal grafico di dispersione dei dati che questi non si distribuiscono lungo una retta del tipo Y=a+bX Es > x<-c(75,76,77,78,79,80,81) > y<-c(21,155,117,107,92,89,8) > cor(x,y) [1] -09124984 > plot(x,y) > model<-lm(y~x) > abline(model, col="blue",lw=2) > yy<-predict(model,dataframe(x)) > e<-y-yy > plot(e) > abline(h=0, col="blue", lwd=2)

Cambiamenti di scala 2/3 L andamento dei punti nel grafico sembra di tipo esponenziale negativo quindi, se vogliamo ricondurci ad una forma funzionale lineare, possiamo passare ai logaritmi naturali Y = e -X log(y) = log(e -X ) = -X Vogliamo quindi pensare ad un modello di regressione lineare del tipo: log(y) = a+bx (trascuriamo il segno meno, verrà incluso nei coefficienti a e b)

Cambiamenti di scala 3/3 Abbiamo quindi semplicemente effettuato un cambiamento di scala sulla variabile Y Es > cor(x,log(y)) [1] -09559023 > plot(x,log(y)) > model2<-lm(log(y)~x) > abline(model2, col="blue",lw=2) < yy<-predict(model2,dataframe(x)) < e<-log(y)-yy < plot(e) < abline(h=0,col="blue",lwd=2)

Schema generale sull analisi di regressione 1 Decidere chi è la variabile dipendente (Y) e chi quella indipendente (X) 2 Rappresentare i dati su un grafico di dispersione: plot(x,y) 3 Se i dati non appaiono allineati, provare ad effettuare cambiamenti di scala 4 Calcolare l indice di correlazione: cor(x,y) se risulta troppo vicino a 0, non eseguire l analisi 5 Calcolare i coefficienti a e b della retta di regressione: lm(y~x) e rappresentarla sul grafico: abline(lm(y~x)) 6 Tracciare il grafico dei residui e calcolare R 2, se compaiono evidenti irregolarità, o l indice è troppo basso, il modello è sospetto (ripartire dal 3) 7 Utilizzare il modello per le previsioni con cautela (range conosciuto fissato xmin, xmax)

Consegna 1 Calcolare e confrontare R 2 per i due modelli che abbiamo visto nelle slide precedenti 2 Si sono raccolti i risultati di 7 prove di frenata a velocità diverse Studiare la relazione tra le due variabili spazio di frenata Y e velocità X, proponendo un modello interpretativo per spiegarle < x <- c(33, 49, 65, 33, 79, 49, 93) < y <- c(53, 145, 2121, 65, 3845, 1123, 5042) Suggerimento Provare con Y = a + b X

Indice Lezione Prerequisiti dalla lezione scorsa Analisi di regressione: Cambiamenti di scala Schema generale sull analisi di regressione Analisi di regressione in ambito inferenziale Bande di confidenza Estensioni del modello di regressione

Analisi di regressione in ambito inferenziale 1/2 L analisi di regressione può essere effettuata anche su osservazioni campionarie modellando gli errori con un opportuna legge di probabilità Il modello di regressione lineare diventa del tipo: Y i = a + bx i + ε i Dove le Y i sono variabili casuali per effetto delle ε i Ipotesi minimali fatte sugli errori del modello sono: E(ε i ) = 0 (errori centrati) Cov(ε i, ε j ) = 0 se i j (incorrelazione) Var(ε i ) = σ 2 costante (omoschedasticità)

Analisi di regressione in ambito inferenziale 2/2 I coefficienti a e b si calcolano sempre allo stesso modo, si può però migliorare la parte inferenziale del problema aggiungendo ulteriori ipotesi sugli errori ε i In particolare si può assumere che gli errori siano distribuiti come delle variabili casuali di tipo normale ovvero: ε i ~ N(0, σ 2 ) Questo implica due risultati importanti relativi alle distribuzioni degli stimatori a e b: a ~ N(a, σ a2 ) b ~ N(b, σ b2 ) Con σ a 2 = Var( a) = σ 2 1 n + n i=1 x2 n x i x n 2 e σ b 2 = Var( b) = n i=1 σ 2 x i x 2 n

Bande di confidenza 1/2 Sempre in ambito inferenziale, è possibile studiare intervalli di confidenza per la retta di regressione: le cosiddette bande di confidenza Esistono due tipi di bande di confidenza: 1 Bande di confidenza: forniscono un indicazione sulla qualità della retta di regressione stessa 2 Bande di previsione: Sono molto più larghe delle bande di confidenza, esprimono l attendibilità previsiva della retta di regressione

Bande di confidenza 2/2 Esempio in R: > data(cars) > attach(cars) > model<-lm(dist~speed) > plot(speed,dist) > abline(model, col="blue",lw=2) «confidence» > pc<-predict(model,interval="c") > matlines(speed,pc[,2:3],lty=1:1,col=6:6, lwd=2:2) «prediction» > pp<-predict(model,interval="p") > matlines(speed,pp[,2:3],lty=1:1,col=3:3, lwd=2:2) > detach()

Estensioni del modello di regressione 1/5 Molto spesso è riduttivo pensare che solo le variabili X e Y entrino in gioco in un modello di tipo lineare: L andamento di Y è intuitivamente spiegato da più variabili Stiamo parlando di un modello del tipo: Y= f(x 1, X 2,, X k ) Che assume il seguente aspetto: Y = β 0 + β 1 X 1 + β 2 X 2 + + β k X k dove β =(β 0, β 1,, β k ) è il vettore dei coefficienti del modello Come nel caso unidimensionale, si suppone che vi sia un errore gaussiano: yi = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik + ε i

Estensioni del modello di regressione 2/5 Tale modello (con ε i ), può essere scritto in forma matriciale: Dove: y = Xβ y = (y1, y2,, yn) e X = 1 1 1 x 11 x 21 x n1 x 12 x 22 x n2 x 1k x 2k x nk

Estensioni del modello di regressione 3/5 In R: Vediamo un applicazione di modello con 2 regressori: > x1<-dataset$hlib_lv > x2<-dataset$hlib_we > y<-dataset$h_pc > lm(y~x1+x2) Call: lm(formula = y ~ x1 + x2) Coefficients: (Intercept) x1 x2 714214 01716 05690 Spesso i dati si presentano come dataframe, quindi si può usare la forma contratta: > lm(h_pc ~ hlib_lv + hlib_we, data=dataset) Call: lm(formula = h_pc ~ hlib_lv + hlib_we, data = dataset) Coefficients: (Intercept) hlib_lv hlib_we 714214 01716 05690

Estensioni del modello di regressione 4/5 In R: Infine, se si vuole un modello passante per l origine, si deve includere «-1» tra i regressori, ovvero: > lm(h_pc ~ hlib_lv + hlib_we -1, data=dataset) Call: lm(formula = h_pc ~ hlib_lv + hlib_we - 1, data = dataset) Coefficients: hlib_lv hlib_we 4325 6901

Estensioni del modello di regressione 5/5 - Rappresentazione Grafica - > x1<-dataset$hlib_lv > x2<-dataset$hlib_we > y<-dataset$h_pc > model<-lm(y~x1+x2) > installpackages("scatterplot3d") > library("scatterplot3d") > scatter<-scatterplot3d(x1, x2, y,highlight3d=t) > scatter$plane3d(model)

Consegna 1 Riprendendo il secondo esercizio dell ultima consegna della lezione scorsa (numero 8), calcolare le bande di confidenza e quelle di previsione 2 Provare ad installare il pacchetto scatterplot3d dalla sezione packages -> Install Packages, finita l installazione selezionarlo 3 Generare un modello che metta in relazione lineare la spesa per internet al mese spesa_mese con le ore passate al pc e sul table (h_pc, h_tablet) 4 Verificare se la relazione lineare potrebbe effettivamente esistere generando lo scatteplot3d