Regressione Lineare Semplice e Correlazione

Похожие документы
Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Statistica multivariata Donata Rodi 17/10/2016

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Statistica di base per l analisi socio-economica

Statistica. Alfonso Iodice D Enza

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Statistica. Alfonso Iodice D Enza

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Regressione lineare semplice

Esercitazione 9 del corso di Statistica (parte seconda)

Statistica. Alfonso Iodice D Enza

Esercitazione del

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

STATISTICA A K (60 ore)

La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

CAPITOLO 11 ANALISI DI REGRESSIONE

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

Dispensa di Statistica

ESERCITAZIONE IV - Soluzioni

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Il modello di regressione

Assunzioni (Parte I)

11.2. Introduzione alla statistica 2/ed. Marilyn K. Pelosi, Theresa M. Sandifer, Paola Cerchiello, Paolo Giudici

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

La regressione lineare multipla

Regressione lineare con un solo regressore

PROBABILITÀ ELEMENTARE

Analisi Multivariata dei Dati. Regressione Multipla

Test delle Ipotesi Parte I

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

REGRESSIONE E CORRELAZIONE

Statistica Applicata all edilizia: il modello di regressione

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017

Corso di Statistica Industriale

Test F per la significatività del modello

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

Test per la correlazione lineare

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Esercizi di statistica

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

Introduzione all Analisi della Varianza (ANOVA)

Teoria e tecniche dei test. Concetti di base

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Regressione e Correlazione (cap. 11) Importazione dati da file di testo

ANALISI MULTIVARIATA

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

Tipi di variabili. Indici di tendenza centrale e di dispersione

Covarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2

STATISTICA. Esercizi vari

Esercitazione 5 Sta/s/ca Aziendale

Esplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi

Statistica 1 A.A. 2015/2016

viii Indice generale

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE E MULTIPLA* La violazione delle ipotesi. Statistica Economica A.A. 2011/2012. Prof.ssa Tiziana Laureti

Econometria. lezione 13. validità interna ed esterna. Econometria. lezione 13. AA Paolo Brunori

Esercitazioni di statistica

Esercitazione di Statistica Indici di associazione

Statistica. Alfonso Iodice D Enza

Regressione Semplice. Correlazioni. sconto leverage. sconto Correlazione di Pearson 1,275. Sign. (a due code),141

LEZIONE N. 11 ( a cura di MADDALENA BEI)

Транскрипт:

Regressione Lineare Semplice e Correlazione 1

Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y) di una variabile dipendente, in funzione del valore di un altra variabile indipendente (x 1, x, x k.) La funzione di regressione che viene individuata esprime la relazione di dipendenza in media della variabile Y dalla variabile X

Il modello Il modello lineare y b0 b1x y = variabile dipendente x = variabile indipendente b 0 = y-intercetta b 1 = coefficiente angolare = variabile errore y b 0 b 0 e b 1 non sono conosciuti, quindi devono essere stimati dai dati. variazione incremento b 1 = incremento/variazione x 3

Stima dei Coefficienti Le stime sono determinate da: Estrazione del campione dalla popolazione di riferimento Calcolo delle statistiche semplici Ricerca della migliore retta di interpolazione dei dati y La domanda è: Quale retta interpola meglio i dati? x 4

La retta di regressione è quella che minimizza la somma dei quadrati delle differenze tra le osservazioni e la retta Somma quadrati delle diff. = ( - 1) (4 - ) (1.5-3) (3. - 4) = 6.89 Somma quadrati delle diff. = ( -.5) (4 -.5) (1.5 -.5) (3. -.5) = 3.99 4 3.5 1 (1,) (,4) (3,1.5) Confrontiamo due rette La seconda è orizzontale (4,3.) La retta che interpola meglio i dati è quella a cui corrisponde la più piccola somma dei quadrati delle differenze 1 3 4 5

h i ih 0 1x h y ( b b ) min Derivando rispetto a b 0 e b 1 e ponendo le derivate parziali uguali a zero, otteniamo la formula L equazione di regressione che stima l equazione del modello lineare è b b 1 0 cov(x,y) s x y b 1 x ŷ b0 b1x 6

Esercizio 1 Esempio Relazione tra i Km effettuati e il prezzo di un auto usata Esercizio Esercizio 3 Esercizio 4 Esercizio 5 Esercizio 6 Un venditore di auto usate vuole capire la relazione tra i Km effettuati e il prezzo della macchina usata Un campione casuale di 100 auto è selezionato e i dati Trovare la retta di regressione. Esercizio 7 Auto Km. Prezzo 1 37388 5318 44758 5061 3 45833 5008 4 3086 5795 5 31705 5784 6 34010 5359......... Variabile indipendente x Variabile dipendente y 7

Soluzione Per calcolare b 0 and b 1 abbiamo bisogno di calcolare: Esempio 7.1 x 36,009.45; y 5,411.41; dove n = 100. cov(x,y) b1 s b 0 x y b 1 s x (x cov(x,y) n 1 x) (x 1,356,56.031 43,58,688 43,58,688 x)(y n 1 x 5411.41 (.031)(36,009.45) 6,533 i i i y) 1,356,56 ŷ 1 b0 b x 6,533.031x 8

Prezzo 6533 6000 5500 5000 0 No dati 4500 19000 9000 39000 49000 Km. ŷ 6,533.031x L intercetta è b 0 = 6533. Questo è il coefficiente angolare. Per ogni chilometro addizionale, il prezzo decresce in media di 0.031 L intercetta può essere interpretata come: Il prezzo delle auto che non sono mai state guidate 9

La variabile Errore Le ipotesi alla base del modello L errore è una parte critica del modello di regressione Devono essere soddisfatte quattro ipotesi forti sulla variabile casuale : si distribuisce in modo normale Il valore atteso di è zero ovvero E( i ) = 0 La deviazione standard di è s per tutti i valori di x ovvero E( i )= s I set di errori associati a differenti valori di y sono tutti tra loro indipendenti ovvero Cov ( i, j )=0 10

Per le prime tre ipotesi alla base del modello: y si distribuisce in modo normale con valore atteso E(y) = b 0 b 1 x, e deviazione standard s La deviazione standard è costante, E(y x 3 ) b 0 b 1 x 3 E(y x ) m 3 b 0 b 1 x ma il valore atteso varia con x b 0 b 1 x 1 E(y x 1 ) m 1 m x 1 x x 3 11

Valutazione del modello Il metodo dei minimi quadrati produce una regressione lineare anche quando non ci sia una relazione lineare tra x ed y. E importante, perciò, valutare la bontà di adattamento del modello lineare Numerosi metodi sono utilizzati per fare ciò: Test dei coefficienti Indici sintetici 1

Somma dei quadrati degli errori La somma dei quadrati degli scarti tra i punti e la retta di regressione è una misura di come la retta approssimi bene la nube dei punti. SSE n i1 ( y i yˆ i ) SSE (n 1)s Y cov(x,y) s x 13

L errore standard delle stime Il valore atteso di è uguale a 0 Se s è piccolo, gli errori tendono a concentrarsi attorno alla media (=0). Dunque il modello approssima bene i dati Così, possiamo usare s come una misura di adattabilità del modello lineare Uno stimatore non distorto di s è dato da s Errore Standard delle Stime s SSE n 14

Esempio. Calcolare l errore standard delle stime Esempio 7.1 Soluzione ( y ˆ ) i yi 6,434,890 sy 64,999 n 1 99 cov( X, Y ) SSE ( n 1) sy 99(64,999) s Dunque, s SSE n x,51,363 98 151.6 ( 1,356,56) 43,58,688 Calcolati prima,5,363 Il modello approssima bene i dati, soprattutto se confrontiamo s con il valore medio di y. s 151.6, y 5,411.4 15

Test della pendenza della retta Quando non esiste una relazione lineare tra le due variabili la retta di regressione è orizzontale q qq q q q q q q q q q Relazione lineare La pendenza non è uguale a zero Relazione non lineare La pendenza è uguale a zero 16

Possiamo fare inferenza su b 1 partendo da b 1, facendo il seguente test di ipotesi: H 0 : b 1 = 0 H 1 : b 1 = 0 (< 0; > 0) La statistica test è t b 1 s b b 1 1 dove sb 1 s (n 1)s x Errore standard di b 1. Se la variabile casuale errore si distribuisce in modo normale la statistica è una t di Student con n- g.d. 17

Soluzione dell esempio Per calcolare t abbiamo bisogno dei valori di b 1 e di s b1 Esempio 7.1 b s 1 b 1 t.31 b 1 s b s (n 1)s b 1 1 x 151.6 (99)(43,58,688.31 0 13.49.0031.0031 P-value= 4.4 4E-4 C è una schiacciante evidenza della dipendenza lineare del prezzo dell auto usata, dal numero di Km effettuati 18

Coefficiente di determinazione Quando vogliamo misurare la forza della relazione lineare, usiamo l indice di Determinazione lineare R R [cov( X, Y)] SSE o R 1 s s ( y y) x y i 19

Per capire tale coefficiente bisogna ricordare che : Tutta la variabilità di y Modello di Regressione L errore 0

Consideriamo due punti (x 1,y 1 ) e (x,y ) di un campione y y y 1 x 1 x Variazione Totale in y = Variazione espressa dalla Variazione dell errore retta di regressione (y1 y) (y y) 1 y) (ŷ y) ( ŷ ( y 1 ŷ1) (y ŷ ) 1

Variazione in y = SSR SSE R misura la proporzione di variabilità di y espressa dalla variabilità di x R 1 SSE (y i y) (y i y) (y i y) SSE SSR (y i y) R varia tra 0 e 1 - Quando è uguale ad 1 (R = 1), i punti giacciono sulla retta di regressione - Quando è uguale ad 0 (R = 0), non c è relazione lineare tra x e y

Esempio. Trovare il coefficiente di determinazione Esempio 7.1 Soluzione [cov(x,y)] [ 1,356,56 ] R (43,58,688)(64,999) sxsy.6501 Il 65% della varianza del prezzo è spiegata dalla variazione dei Km segnati dal tachimetro. Il restante 35% non viene spiegato dal modello 3

Uso del modello di Regressione lineare Esempio 7.1 Se siamo soddisfatti della bontà di adattamento della retta di regressione, possiamo utilizzare l equazione stimata per predire valori di y Esempio Prevedere il prezzo una una macchina con 40,000 Km ŷ 6533.031x 6533.031(40,000) 5,85 Esempio 7.6 4

Intervallo di confidenza Due sono gli intervalli importanti per le previsioni di y. Intervallo di previsione per un valore particolare di y Intervallo di confidenza per il valore atteso di y Intervallo di previsione Intervallo di confidenza ŷ t s 1 1 (x g x) n (xi x) ŷ t s 1 (x g x) n (xi x) L intervallo di previsione è più ampio dell intervallo di confidenza 5

Esempio Calcolare un intervallo di previsione per una macchina con 40,000 Km Soluzione L intervallo di previsione al 95% = ŷ t s 1 1 (x g x) n (xi x) Esempio 7.5 t.05,98 [6533.031(40000)] 1.984(151.6) 1 1 100 (40,000 36,009) 4,309,340,160 5,85 303 6

Il venditore di auto vuole prendere un lotto di 40,000 KM. Calcolare l intervallo di confidenza per y al 95% Soluzione ŷ t s 1 n (x g x) (x i x) [6533.031(40000)] 1.984(151.6) 1 100 (40,000 36,009) 4,309,340,160 5,85 35 7

L effetto di un valore dato di x nell intervallo Appena x g si allontana da x l intervallo diventa più grande. Il più piccolo intervallo è trovato per x. ŷ(x g x 1) ŷ(x g x 1) ŷ b 0 b1x g Intervallo 1 (xg x) ŷ t di s confidenza con x g = nx (x i x) ŷ t 1 1 s Intervallo n di confidenza (xi x) con x g = x 1 x x 1 x 1 x x ( x( x ) 1) xx 1 ( x 1) ) x 1 Intervallo di confidenza 1 ŷ t s con x g = xn (xi x) 8

Coefficiente di correlazione Il coefficiente di correlazione è utilizzato per misurare il legame tra due variabili. Assume un valore tra -1 e 1 Se r = -1 (associazione negativa) o r = 1 (associazione positiva) ogni punto giace sulla retta di regressione. Se r = 0 non c è legame lineare. Il coefficiente di correlazione può essere utilizzato per testare una relazione lineare tra due variabili. 9

Test del coefficiente di correlazione dove Quando non c è relazione lineare r = 0. Le ipotesi sono: H 0 : r = 0 H 1 : r = 0 La statistica test è: r èil calcolato n t r 1 r coefficien te di correlazione nel da r cov( X, Y ) s s x y X La statistica è una t di Student co n g.d.l. campione Y 30

Esempio Test di relazione lineare Effettuare un test sul coefficiente di correlazione dell esempio 7.1 per vedere se c è relazione lineare Soluzione H 0 : r = 0 H 1 : r 0 La zona di rifiuto è t > t /,n- = t.05,98 = 1.984 Nel campione il coefficiente di correlazione è r=cov(x,y)/s x s y =-.806 Il valore della statistica t è n t r 1 r Conclusione: 13.49 Esempio 7.1 C è sufficiente evidenza ad un livello di significatività = 5% per dire che c è un legame lineare tra le due variabili. 31

La Diagnostica di Regressione Prima di utilizzare un modello di regressione per fare inferenza, bisogna verificare che le ipotesi alla base del modello siano rispettate che non ci siano dati anomali che possano inficiare i risultati Come vedere se le ipotesi forti: si distribuisce in modo normale La varianza di è costante per tutti i valori di x: E( i )= s Gli errori sono tra loro indipendenti: Cov ( i, j )=0 sono rispettate? 3

Analisi dei residui Esempio 7.1 Analizzando i residui (o i residui standardizzati), si può vedere se ci sono violazioni alle ipotesi poste alla base del modello Non normalità Esempio Sui dati dell Esempio costruiamo gli istogrammi dei residui standardizzati Esaminiamo gli istogrammi e guardiamo alla forma della distribuzione centrata attorno allo zero 33

RESIDUI OUTPUT Lista praziale Osservazioni Residui Residui Standardizzati 1-50,4574997-0,334595895-77,849648-0,516076186 3-97,33039568-0,6454141 4 3,070978 1,48014031 5 38,4730715 1,5813768 Per ogni residuo calcoliamo: sr i h i s 1 n 1 h i dove (xi x) (x j x) 40 30 0 10 Possiamo inoltre fare il test c di normalità 0 -.5-1.5-0.5 0.5 1.5.5 More 34

Eteroschedasticità Quando la varianza di non è costante per tutti i valori di x, allora si ha eteroschedasticità i ^ L intervallo cresce con y y^ ^y 35

36 y^ Residui ^y L intervallo non cresce Quando la varianza di è costante per tutti i valori di x, allora c è omoschedasticità

37 y^ Residui ^y E questa è una situazione migliore Quando la varianza di è costante per tutti i valori di x, allora c è omoschedasticità

Non indipendenza delle variabili errore Quando le variabili errore non sono indipendenti si parla di autocorrelazione dei residui (soprattutto per le Serie Storiche) Residui Esempi di autocorrelazione dei residui Residui 0 0 Tempo Tempo Andamento positivo dei residui alternato con un andamento negativo Oscillazione dei residui attorno allo zero 38

Outliers Un outlier è un valore o troppo piccolo o troppo grande, che può influenzare la retta di regressione e per questo deve essere identificato con un scatter-plot Un outlier Un osservazione influente ma, può influenzare ancora di più l analisi!! Gli outliers portano uno spostamento della retta di regressione 39