La regressione lineare semplice

Documenti analoghi
Correlazione e regressione

Regressione lineare semplice

Argomenti della lezione:

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Indipendenza, Dipendenza e interdipendenza

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Statistica 1 A.A. 2015/2016

Regressione Lineare Semplice e Correlazione

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Regressione & Correlazione

Statistica multivariata Donata Rodi 17/10/2016

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

La regressione lineare multipla

Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Esercitazione del

Metodologie Quantitative

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Associazione tra caratteri quantitativi: gli indici di correlazione

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Statistica Applicata all edilizia: il modello di regressione

Correlazione e regressione

Analisi della varianza

STATISTICA A K (60 ore)

Analisi della Regressione Lineare

Statistica. Alfonso Iodice D Enza

STATISTICA. Regressione-2

LM 88 SOCIOLOGIA E RICERCA SOCIALE. Metodi Statistici per la Ricerca Sociale. Regressione lineare e correlazione

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value

1. variabili dicotomiche: 2 sole categorie A e B

Relazione tra variabili (cont.) Due variabili continue. Una variabile continua e un altra qualitativa o discreta.

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

Corso in Statistica Medica

Regressione lineare. Lo studio della relazione lineare tra due variabili. X e Y caratteri entrambi quantitativi. variabile dipendente

Esercizi di statistica

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

STIMA DELLA PIENA INDICE

Test F per la significatività del modello

Statistica. Alfonso Iodice D Enza

Statistica descrittiva: analisi di regressione

1.1 Obiettivi della statistica Struttura del testo 2

lezione 4 AA Paolo Brunori

Test d ipotesi: confronto fra medie

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

STATISTICA. Esercitazione 5

per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione

Verifica delle ipotesi

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

PROBABILITÀ ELEMENTARE

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Esercizio 2: voto e ore dedicate allo studio

Università del Piemonte Orientale Corso di Laurea specialistica in Biotecnologie mediche. Corso di Statistica Medica. Correlazione

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Capitolo 12 La regressione lineare semplice

Statistica. Alfonso Iodice D Enza

STIMA DELLA PIENA INDICE

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Vogliamo determinare una funzione lineare che meglio approssima i nostri dati sperimentali e poter decidere sulla bontà di questa approssimazione.

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

Metodi statistici per la ricerca sociale Capitolo 12. Confronto fra gruppi: L analisi della varianza. Esercitazione

Statistica economica

CONFRONTO TRA LA MEDIE DI DUE CAMPIONI INDIPENDENTI

Corso di Statistica Industriale

Esercitazione 5 Sta/s/ca Aziendale

LEZIONE N.8 (a cura di Teresa Fanelli) Questa forma risulta importante nel modello di regressione con più variabili.

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

LEZIONI DI STATISTICA MEDICA

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

lezione 7 AA Paolo Brunori

Questo calcolo richiede che si conoscano media e deviazione standard della popolazione.

Metodi statistici per le ricerche di mercato

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. La distribuzione t - student

Laboratorio di Statistica Aziendale Modello di regressione lineare multipla

Esercitazione 9 del corso di Statistica (parte seconda)

Dispensa di Statistica

Confronto tra due popolazioni Lezione 6

Statistica di base per l analisi socio-economica

Lezione 7 Corso di Statistica. Francesco Lagona

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Effettuazione di un TEST D IPOTESI. = stima del parametro di interesse calcolata sui dati campionari

Regressione semplice: come applicarla come interpretare i risultati

Rappresentazioni grafiche di distribuzioni doppie

Modelli e procedure per l educazione degli adulti

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Ringraziamenti dell Editore

Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23

Transcript:

La regressione lineare semplice Il modello di regressione lineare semplice - 1 y = β 0 + βx + ε 10 8 Una retta nel piano Variabile Y 6 4 2 0 0 1 2 3 4 Variabile X 1

Il modello di regressione lineare semplice - 2 Variabile di risposta (dipendente, response variable) Parte sistematica del modello y = β 0 + β x + ε Termine di errore coefficiente di intercetta lineare {regressione parametri ignoti del modello, stimati sulla base dei dati disponibili Variabile esplicativa (predittiva, indipendente, explanatory) Il modello di regressione lineare semplice - 3 Variabile di risposta (dipendente) y = β 0 + βx + ε Predittore lineare, parte deterministica del modello, senza variabilità casuale Termine di errore, parte probabilistica L errore, e quindi la variabile di risposta, si distribuisce NORMALMENTE 2

Il modello di regressione lineare semplice - 4 Il peso (Y) dipende dalla statura (X 1 ) E(y) = β 0 + β 1 x 1 E(y) = valore atteso (media) del peso degli individui che hanno quella determinata statura y = β 0 + β 1 x 1 + ε y = peso di un determinato individuo, che dipende dalla statura, (parte sistematica del modello), ma anche da altre caratteristiche individuali (ε, parte probabilistica) Il modello di regressione lineare semplice - 5 Modello teorico (ignoto) y = β 0 + β 1 x + ε Regressione Lineare stimata y = b 0 + b 1 x 3

SCOMPOSIZIONE DELLA DEVIANZA nella Regressione lineare semplice - 1 y = β 0 + β x + ε 10 8 Variabile Y 6 4 media y = 5.63 ŷ - y { 2 } y-ŷ 0 0 1 2 3 4 Variabile X (y- y) = (ŷ - y) + (y-ŷ ) SCOMPOSIZIONE DELLA DEVIANZA nella Regressione lineare semplice - 2 Variabilità totale (y- y) = (ŷ - y) + (y-ŷ ) Variabilità spiegata dalla regressione Variabilità residua Si può dimostrare che: Devianza totale, SST Σ(y- y) 2 = Σ (ŷ - y) 2 + Σ(y-ŷ) 2 Devianza spiegata dalla regressione, SSR Devianza residua, SSE 4

Regressione lineare semplice Si cerca di trovare la retta che meglio interpola, che meglio si adatta alla nuvola di punti. METODO DEI MINIMI QUADRATI Si sceglie la retta che riduce al minimo la devianza residua, SSE, Σ(y-ŷ) 2 La retta di regressione approssima bene i dati. devianza spiegata >dev.residua La retta di regressione approssima male i dati. devianza spiegata <dev.residua b prossimo a zero b elevato 5

COEFFICIENTE DI DETERMINAZIONE r 2 = Σ (ŷ - y) 2 / Σ(y- y) 2 r 2 = 1-SSE/SST=SSR/SST SST = Devianza (o Somma dei quadrati) totale SSR = Devianza (o Somma dei quadrati) spiegata dalla Regressione Proporzione di variazione totale della variabile dipendente Y che è spiegata dalla variabile indipendente X Regressione = relazione di tipo asimmetrico: una variabile casuale (Y) dipende da una variabile fissa (X) Correlazione = relazione di tipo simmetrico: le due variabili sono sullo stesso piano 6

Regressione lineare semplice y = β 0 + βx + ε ASSUNZIONI 1) Il valore atteso degli errori E(ε) deve essere pari a ZERO 2) OMOSCEDASTICITA (La varianza degli errori rimane costante) 3) INDIPENDENZA degli errori se le provette tra un esame e l altro non vengono lavate adeguatamente, una determinazione risente della determinazione precedente 4) Distribuzione NORMALE degli errori variabile Y σ σ variabile X 1 7

Inferenza sui parametri: i dati supportano il modello proposto? I punti hanno distanze dalla retta di regressione che sono sensibilmente minori di quelle dalla media. Il valore stimato mediante la retta di regressione si avvicina molto all osservazione reale. Raccogliendo altri punti campionari, la retta calcolata resterebbe probabilmente immutata. La retta di regressione esprime la relazione reale che esiste tra X ed Y. Inferenza sui parametri: i dati supportano il modello proposto? La retta calcolata non rappresenta un miglioramento effettivo della distribuzione dei punti, rispetto alla loro media. La retta calcolata non è rappresentativa di una relazione reale tra X ed Y. 8

Inferenza sui parametri: i dati supportano il modello proposto? Test t di Student, basato su b 1 (stima di β 1 ) H 0 : β 1 = 0 b { 1 ~ N (β 1, σ 2 ε ) H 1 : β 1 0 Σ(x- x) 2 Non conosco la quantità σ 2 ε, ne ottengo una stima: ^ σ 2 ε = Σ(y-ŷ) 2 n-2 b t = 1-0 b = 1 b = 1 ~ t n-2 g.d.l. ES b ^ σ 2 Σ(y-ŷ) ε 2 Σ(x- x) 2 (n-2) Σ(x- x) 2 ESEMPIO: Esiste una relazione tra altezza dei padri e altezza dei figli maschi? (A padri più bassi corrispondono figli più bassi? A padri più alti corrispondono figli più alti?) Padre Figlio 167 cm 168 cm 175 cm 180 cm 183 cm 178 cm 170 cm 178 cm 181 cm 184 cm 172 cm 170 cm 177 cm 177 cm 179 cm 180 cm 9

I passo: rappresentazione grafica mediante diagramma di dispersione (scatterplot) statura figlio (cm) 186 184 182 180 178 176 174 172 170 168 166 165 170 175 180 185 statura padre (cm) II passo: si ipotizza un modello statistico, che possa essere utile ad interpretare i dati Ipotizziamo un modello lineare del tipo: y = β 0 + βx + ε (altezza figli) = β 0 + β (altezza padri) + ε (i figli di uno stesso padre hanno statura abbastanza simile, ma non necessariamente uguale, anche se οµοιοµετρός, cioè figli della stessa madre) 10

IV passo: Stima dei parametri del modello con il metodo dei minimi quadrati codevianza b 1 = xy = 150,5 / 216 = 0,697 cm/cm devianza x b 0 = y - b 1 x= 176,875 0,697 *175,5 = 54,59 cm Retta di regressione: altezza figlio (cm)= 54,6 cm + 0,697 cm/cm *altezza * padre (cm) Quando la statura del padre cresce di 1 cm, la statura del figlio cresce in media di 7 mm. VI passo: Inferenza sui parametri: i dati supportano il modello proposto? Test t di Student, basato su b 1 (stima di β 1 ) { H 0 : β 1 = 0 H 1 : β 1 0 test a due code Livello di significatività = 5% Gradi di libertà = n - 2 = 8-2 = 6 Soglia critica = t 6, 0,025 = 2,447 b-0 b 0,697 t = = = = 2,588 ES b var res /dev x 15,67 / 216 dev res = dev y - codev xy2 /dev x =198,9-150,5 2 / 216 = 94,01 var res = dev res / (n-2) = 94,01 / 6 = 15,67 11

VII passo: Previsione sui valori della variabile Y Per x = 185 cm, qual è il valore atteso di Y? Retta di regressione: ŷ = 54,6 cm + 0,697cm/cm *185 cm = 183,49 cm ES ŷ = var res [1/n + (x-x) 2 / dev x ] = = 15,67 [1/8 + (185-175,5) 2 / 216 ] = 2,916 IC 95% = ŷ ± t ν,α/2 * ES ŷ = 183,49 ± 2,447 * 2,916 = 190,63 [ 176,36 12