Regressione Lineare Semplice e Correlazione

Regressione Lineare Semplice e Correlazione 1

Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y) di una variabile dipendente, in funzione del valore di un altra variabile indipendente (x 1, x, x k.) La funzione di regressione che viene individuata esprime la relazione di dipendenza in media della variabile Y dalla variabile X

Il modello Il modello lineare y b0 b1x y = variabile dipendente x = variabile indipendente b 0 = y-intercetta b 1 = coefficiente angolare = variabile errore y b 0 b 0 e b 1 non sono conosciuti, quindi devono essere stimati dai dati. variazione incremento b 1 = incremento/variazione x 3

Stima dei Coefficienti Le stime sono determinate da: Estrazione del campione dalla popolazione di riferimento Calcolo delle statistiche semplici Ricerca della migliore retta di interpolazione dei dati y La domanda è: Quale retta interpola meglio i dati? x 4

La retta di regressione è quella che minimizza la somma dei quadrati delle differenze tra le osservazioni e la retta Somma quadrati delle diff. = ( - 1) (4 - ) (1.5-3) (3. - 4) = 6.89 Somma quadrati delle diff. = ( -.5) (4 -.5) (1.5 -.5) (3. -.5) = 3.99 4 3.5 1 (1,) (,4) (3,1.5) Confrontiamo due rette La seconda è orizzontale (4,3.) La retta che interpola meglio i dati è quella a cui corrisponde la più piccola somma dei quadrati delle differenze 1 3 4 5

h i ih 0 1x h y ( b b ) min Derivando rispetto a b 0 e b 1 e ponendo le derivate parziali uguali a zero, otteniamo la formula L equazione di regressione che stima l equazione del modello lineare è b b 1 0 cov(x,y) s x y b 1 x ŷ b0 b1x 6

Esercizio 1 Esempio Relazione tra i Km effettuati e il prezzo di un auto usata Esercizio Esercizio 3 Esercizio 4 Esercizio 5 Esercizio 6 Un venditore di auto usate vuole capire la relazione tra i Km effettuati e il prezzo della macchina usata Un campione casuale di 100 auto è selezionato e i dati Trovare la retta di regressione. Esercizio 7 Auto Km. Prezzo 1 37388 5318 44758 5061 3 45833 5008 4 3086 5795 5 31705 5784 6 34010 5359......... Variabile indipendente x Variabile dipendente y 7

Soluzione Per calcolare b 0 and b 1 abbiamo bisogno di calcolare: Esempio 7.1 x 36,009.45; y 5,411.41; dove n = 100. cov(x,y) b1 s b 0 x y b 1 s x (x cov(x,y) n 1 x) (x 1,356,56.031 43,58,688 43,58,688 x)(y n 1 x 5411.41 (.031)(36,009.45) 6,533 i i i y) 1,356,56 ŷ 1 b0 b x 6,533.031x 8

Prezzo 6533 6000 5500 5000 0 No dati 4500 19000 9000 39000 49000 Km. ŷ 6,533.031x L intercetta è b 0 = 6533. Questo è il coefficiente angolare. Per ogni chilometro addizionale, il prezzo decresce in media di 0.031 L intercetta può essere interpretata come: Il prezzo delle auto che non sono mai state guidate 9

La variabile Errore Le ipotesi alla base del modello L errore è una parte critica del modello di regressione Devono essere soddisfatte quattro ipotesi forti sulla variabile casuale : si distribuisce in modo normale Il valore atteso di è zero ovvero E( i ) = 0 La deviazione standard di è s per tutti i valori di x ovvero E( i )= s I set di errori associati a differenti valori di y sono tutti tra loro indipendenti ovvero Cov ( i, j )=0 10

Per le prime tre ipotesi alla base del modello: y si distribuisce in modo normale con valore atteso E(y) = b 0 b 1 x, e deviazione standard s La deviazione standard è costante, E(y x 3 ) b 0 b 1 x 3 E(y x ) m 3 b 0 b 1 x ma il valore atteso varia con x b 0 b 1 x 1 E(y x 1 ) m 1 m x 1 x x 3 11

Valutazione del modello Il metodo dei minimi quadrati produce una regressione lineare anche quando non ci sia una relazione lineare tra x ed y. E importante, perciò, valutare la bontà di adattamento del modello lineare Numerosi metodi sono utilizzati per fare ciò: Test dei coefficienti Indici sintetici 1

Somma dei quadrati degli errori La somma dei quadrati degli scarti tra i punti e la retta di regressione è una misura di come la retta approssimi bene la nube dei punti. SSE n i1 ( y i yˆ i ) SSE (n 1)s Y cov(x,y) s x 13

L errore standard delle stime Il valore atteso di è uguale a 0 Se s è piccolo, gli errori tendono a concentrarsi attorno alla media (=0). Dunque il modello approssima bene i dati Così, possiamo usare s come una misura di adattabilità del modello lineare Uno stimatore non distorto di s è dato da s Errore Standard delle Stime s SSE n 14

Esempio. Calcolare l errore standard delle stime Esempio 7.1 Soluzione ( y ˆ ) i yi 6,434,890 sy 64,999 n 1 99 cov( X, Y ) SSE ( n 1) sy 99(64,999) s Dunque, s SSE n x,51,363 98 151.6 ( 1,356,56) 43,58,688 Calcolati prima,5,363 Il modello approssima bene i dati, soprattutto se confrontiamo s con il valore medio di y. s 151.6, y 5,411.4 15

Test della pendenza della retta Quando non esiste una relazione lineare tra le due variabili la retta di regressione è orizzontale q qq q q q q q q q q q Relazione lineare La pendenza non è uguale a zero Relazione non lineare La pendenza è uguale a zero 16

Possiamo fare inferenza su b 1 partendo da b 1, facendo il seguente test di ipotesi: H 0 : b 1 = 0 H 1 : b 1 = 0 (< 0; > 0) La statistica test è t b 1 s b b 1 1 dove sb 1 s (n 1)s x Errore standard di b 1. Se la variabile casuale errore si distribuisce in modo normale la statistica è una t di Student con n- g.d. 17

Soluzione dell esempio Per calcolare t abbiamo bisogno dei valori di b 1 e di s b1 Esempio 7.1 b s 1 b 1 t.31 b 1 s b s (n 1)s b 1 1 x 151.6 (99)(43,58,688.31 0 13.49.0031.0031 P-value= 4.4 4E-4 C è una schiacciante evidenza della dipendenza lineare del prezzo dell auto usata, dal numero di Km effettuati 18

Coefficiente di determinazione Quando vogliamo misurare la forza della relazione lineare, usiamo l indice di Determinazione lineare R R [cov( X, Y)] SSE o R 1 s s ( y y) x y i 19

Per capire tale coefficiente bisogna ricordare che : Tutta la variabilità di y Modello di Regressione L errore 0

Consideriamo due punti (x 1,y 1 ) e (x,y ) di un campione y y y 1 x 1 x Variazione Totale in y = Variazione espressa dalla Variazione dell errore retta di regressione (y1 y) (y y) 1 y) (ŷ y) ( ŷ ( y 1 ŷ1) (y ŷ ) 1

Variazione in y = SSR SSE R misura la proporzione di variabilità di y espressa dalla variabilità di x R 1 SSE (y i y) (y i y) (y i y) SSE SSR (y i y) R varia tra 0 e 1 - Quando è uguale ad 1 (R = 1), i punti giacciono sulla retta di regressione - Quando è uguale ad 0 (R = 0), non c è relazione lineare tra x e y

Esempio. Trovare il coefficiente di determinazione Esempio 7.1 Soluzione [cov(x,y)] [ 1,356,56 ] R (43,58,688)(64,999) sxsy.6501 Il 65% della varianza del prezzo è spiegata dalla variazione dei Km segnati dal tachimetro. Il restante 35% non viene spiegato dal modello 3

Uso del modello di Regressione lineare Esempio 7.1 Se siamo soddisfatti della bontà di adattamento della retta di regressione, possiamo utilizzare l equazione stimata per predire valori di y Esempio Prevedere il prezzo una una macchina con 40,000 Km ŷ 6533.031x 6533.031(40,000) 5,85 Esempio 7.6 4

Intervallo di confidenza Due sono gli intervalli importanti per le previsioni di y. Intervallo di previsione per un valore particolare di y Intervallo di confidenza per il valore atteso di y Intervallo di previsione Intervallo di confidenza ŷ t s 1 1 (x g x) n (xi x) ŷ t s 1 (x g x) n (xi x) L intervallo di previsione è più ampio dell intervallo di confidenza 5

Esempio Calcolare un intervallo di previsione per una macchina con 40,000 Km Soluzione L intervallo di previsione al 95% = ŷ t s 1 1 (x g x) n (xi x) Esempio 7.5 t.05,98 [6533.031(40000)] 1.984(151.6) 1 1 100 (40,000 36,009) 4,309,340,160 5,85 303 6

Il venditore di auto vuole prendere un lotto di 40,000 KM. Calcolare l intervallo di confidenza per y al 95% Soluzione ŷ t s 1 n (x g x) (x i x) [6533.031(40000)] 1.984(151.6) 1 100 (40,000 36,009) 4,309,340,160 5,85 35 7

L effetto di un valore dato di x nell intervallo Appena x g si allontana da x l intervallo diventa più grande. Il più piccolo intervallo è trovato per x. ŷ(x g x 1) ŷ(x g x 1) ŷ b 0 b1x g Intervallo 1 (xg x) ŷ t di s confidenza con x g = nx (x i x) ŷ t 1 1 s Intervallo n di confidenza (xi x) con x g = x 1 x x 1 x 1 x x ( x( x ) 1) xx 1 ( x 1) ) x 1 Intervallo di confidenza 1 ŷ t s con x g = xn (xi x) 8

Coefficiente di correlazione Il coefficiente di correlazione è utilizzato per misurare il legame tra due variabili. Assume un valore tra -1 e 1 Se r = -1 (associazione negativa) o r = 1 (associazione positiva) ogni punto giace sulla retta di regressione. Se r = 0 non c è legame lineare. Il coefficiente di correlazione può essere utilizzato per testare una relazione lineare tra due variabili. 9

Test del coefficiente di correlazione dove Quando non c è relazione lineare r = 0. Le ipotesi sono: H 0 : r = 0 H 1 : r = 0 La statistica test è: r èil calcolato n t r 1 r coefficien te di correlazione nel da r cov( X, Y ) s s x y X La statistica è una t di Student co n g.d.l. campione Y 30

Esempio Test di relazione lineare Effettuare un test sul coefficiente di correlazione dell esempio 7.1 per vedere se c è relazione lineare Soluzione H 0 : r = 0 H 1 : r 0 La zona di rifiuto è t > t /,n- = t.05,98 = 1.984 Nel campione il coefficiente di correlazione è r=cov(x,y)/s x s y =-.806 Il valore della statistica t è n t r 1 r Conclusione: 13.49 Esempio 7.1 C è sufficiente evidenza ad un livello di significatività = 5% per dire che c è un legame lineare tra le due variabili. 31

La Diagnostica di Regressione Prima di utilizzare un modello di regressione per fare inferenza, bisogna verificare che le ipotesi alla base del modello siano rispettate che non ci siano dati anomali che possano inficiare i risultati Come vedere se le ipotesi forti: si distribuisce in modo normale La varianza di è costante per tutti i valori di x: E( i )= s Gli errori sono tra loro indipendenti: Cov ( i, j )=0 sono rispettate? 3

Analisi dei residui Esempio 7.1 Analizzando i residui (o i residui standardizzati), si può vedere se ci sono violazioni alle ipotesi poste alla base del modello Non normalità Esempio Sui dati dell Esempio costruiamo gli istogrammi dei residui standardizzati Esaminiamo gli istogrammi e guardiamo alla forma della distribuzione centrata attorno allo zero 33

RESIDUI OUTPUT Lista praziale Osservazioni Residui Residui Standardizzati 1-50,4574997-0,334595895-77,849648-0,516076186 3-97,33039568-0,6454141 4 3,070978 1,48014031 5 38,4730715 1,5813768 Per ogni residuo calcoliamo: sr i h i s 1 n 1 h i dove (xi x) (x j x) 40 30 0 10 Possiamo inoltre fare il test c di normalità 0 -.5-1.5-0.5 0.5 1.5.5 More 34

Eteroschedasticità Quando la varianza di non è costante per tutti i valori di x, allora si ha eteroschedasticità i ^ L intervallo cresce con y y^ ^y 35

36 y^ Residui ^y L intervallo non cresce Quando la varianza di è costante per tutti i valori di x, allora c è omoschedasticità

37 y^ Residui ^y E questa è una situazione migliore Quando la varianza di è costante per tutti i valori di x, allora c è omoschedasticità

Non indipendenza delle variabili errore Quando le variabili errore non sono indipendenti si parla di autocorrelazione dei residui (soprattutto per le Serie Storiche) Residui Esempi di autocorrelazione dei residui Residui 0 0 Tempo Tempo Andamento positivo dei residui alternato con un andamento negativo Oscillazione dei residui attorno allo zero 38

Outliers Un outlier è un valore o troppo piccolo o troppo grande, che può influenzare la retta di regressione e per questo deve essere identificato con un scatter-plot Un outlier Un osservazione influente ma, può influenzare ancora di più l analisi!! Gli outliers portano uno spostamento della retta di regressione 39