Regressione & Correlazione

Documenti analoghi
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Corso in Statistica Medica

Rappresentazioni grafiche di distribuzioni doppie

Statistica. Alfonso Iodice D Enza

ESERCITAZIONI N. 3 corso di statistica

Indipendenza, Dipendenza e interdipendenza

Correlazione lineare e regressione

Esercitazione del

Statistica. Alfonso Iodice D Enza

ESERCITAZIONI N. 3 corso di statistica

Statistica. Alfonso Iodice D Enza

Regressione Lineare Semplice e Correlazione

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

Regressione lineare. Lo studio della relazione lineare tra due variabili. X e Y caratteri entrambi quantitativi. variabile dipendente

La correlazione e la regressione. Antonello Maruotti

Analisi bivariata. Il caso di caratteri quantitativi

Matematica Lezione 22

Correlazione e regressione

Statistica. Alfonso Iodice D Enza

Capitolo 12 La regressione lineare semplice

STATISTICA. Esercitazione 5

La regressione lineare semplice

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value

Esercitazione III Soluzione

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

REGRESSIONE E CORRELAZIONE

ESERCITAZIONE IV - Soluzioni

Metodi statistici per le ricerche di mercato

Statistica 1 A.A. 2015/2016

Regressione lineare semplice

SCOPO DELL ANALISI DI CORRELAZIONE

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Metodologie Quantitative

Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

Prova d esame di Statistica - II canale - nuovo ordinamento Dott.ssa C. Conigliani 19/06/2003

Vogliamo determinare una funzione lineare che meglio approssima i nostri dati sperimentali e poter decidere sulla bontà di questa approssimazione.

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Esercizi di statistica

Statistica multivariata Donata Rodi 17/10/2016

8. RELAZIONE TRA CARATTERI

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Associazione tra caratteri quantitativi: gli indici di correlazione

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli

Statistica descrittiva in due variabili

La regressione lineare. Rappresentazione analitica delle distribuzioni

Consideriamo due variabili quantitative Y e X, e supponiamo di essere interessati a comprendere come la Y

Statistica di base per l analisi socio-economica

Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione

lezione 7 AA Paolo Brunori

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Corso di Psicometria Progredito

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Relazioni Statistiche

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

METODO DEI MINIMI QUADRATI

LM 88 SOCIOLOGIA E RICERCA SOCIALE. Metodi Statistici per la Ricerca Sociale. Regressione lineare e correlazione

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

Esercizi su Regressione e Connessione

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

lezione 4 AA Paolo Brunori

STATISTICA. Regressione-2

Lezione 7 Corso di Statistica. Francesco Lagona

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

STATISTICA A K (60 ore)

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 4 Analisi Bivariata I Parte

Fondamenti e metodi analisi empirica nelle scienze sociali

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

1. variabili dicotomiche: 2 sole categorie A e B

Corso di formazione per Mathesis

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Laboratorio di Probabilità e Statistica

Statistica. Alfonso Iodice D Enza

Esercizio 2: voto e ore dedicate allo studio

docente: J. Mortera/P. Vicard Nome

Indici di variabilità ed eterogeneità

Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii

Indice di contingenza quadratica media (phi quadro) χ n

STATISTICA. Regressione-4 ovvero Macron!

Analisi Multivariata Prova intermedia del 20 aprile 2011

Dispensa di Statistica

1.1 Obiettivi della statistica Struttura del testo 2

La dipendenza. Antonello Maruotti

Statistica descrittiva: analisi di regressione

LA REGRESSIONE LINEARE SEMPLICE

EsercitazioneII. In questa esercitazione faremi un ripasso generale: rappresentazioni grafiche, medie e varianze;

Transcript:

Regressione & Correlazione Monia Ranalli Ranalli M. Dipendenza Settimana # 4 1 / 20

Sommario Regressione Modello di regressione lineare senplice Stima dei parametri Adattamento del modello ai dati Correlazione Covarianza Coefficiente di correlazione lineare Proprietà del coefficiente di correlazione lineare Ranalli M. Dipendenza Settimana # 4 2 / 20

Esempio - Introduzione alla regressione Obiettivo: Studiare il legame che intercorre tra due variabili quantitative Y e X. Esempio. 25 famiglie secondo reddito e spesa (dato mensile medio) Il grafico pone in evidenza l esistenza di un legame tra il reddito e la spesa. Ranalli M. Dipendenza Settimana # 4 3 / 20

Funzioni Lineari Il legame tra due variabili viene espresso mediante una funzione del tipo y = f (x) Una delle funzioni più semplici è quella lineare y = β 0 + β 1 x Interpretazione β 0 : valore di y per x = 0; β 1 : variazione di y per un aumento unitario di x. Ranalli M. Dipendenza Settimana # 4 4 / 20

Modello di regressione lineare semplice Nella realtà due variabili non sono legate da una relazione deterministica, ma statistica del tipo y i = β 0 + β 1 x i + ɛ i con i = 1, 2,..., n. β 0 : intercetta β 1 : coefficiente di regressione (pendenza) y i : variabile risposta (dipendente) x i : variabile esplicativa (indipendente) ɛ i : residuo o errore (riflette le imperfezioni della relazione lineare ed eventuali variabili esplicative omesse) Ranalli M. Dipendenza Settimana # 4 5 / 20

Stima dei parametri: metodo dei minimi quadrati Ipotizziamo che il termine residuale sia di minima entità. Determiniamo quindi la retta (ossia β 0 e β 1 ) in modo da rendere minima la somma n (y i β 0 β 1 x i ) 2 Ranalli M. Dipendenza Settimana # 4 6 / 20

Soluzione del problema dei minimi quadrati Coefficiente di regressione. n b 1 = (x i µ X )(y i µ Y ) n (x i µ X ) 2 Intercetta. b 0 = µ Y b 1 µ X La retta dei minimi quadrati passa per il baricentro (alla media di x corrisponde la media di y) Fitted value. ŷ i = b 0 + b 1 x i Residuo. ˆɛ i = e i = y i ŷ i Ranalli M. Dipendenza Settimana # 4 7 / 20

Esempio Per sette famiglie abbiamo rilevato il reddito x ed il consumo y x i y i sx i = (x i µ X ) sy i = (y i µ Y ) sx i sy i sxi 2 syi 2 2 1.5-1.714-1.643 2.816 2.938 2.699 3 3.0-0.714-0.143 0.102 0.510 0.020 2 1.5-1.714-1.643 2.816 2.938 2.699 4 3.5 0.286 0.357 0.102 0.082 0.127 5 4.0 1.286 0.857 1.102 1.654 0.734 4 3.5 0.286 0.357 0.102 0.082 0.127 6 5.0 2.286 1.857 4.245 5.226 3.448 Totale 26 22.0 0.000 0.000 11.285 13.430 9.854 µ X = 26 7 = 3.714; µ Y = 22 7 = 3.143 b 1 = 11.285 13.43 = 0.84 b 0 = 3.143 0.84 3.714 = 0.023 ŷ 1 = 0.023 + 0.84 2 = 1.703; e 1 = 1.5 1.703 = 0.203 Ranalli M. Dipendenza Settimana # 4 8 / 20

Adattamento del modello ai dati Varianza totale σy 2 = 1 n (y i µ Y ) 2 n Varianza spiegata σ 2 Ŷ = 1 n (ŷ i µ Y ) 2 n Varianza residua σe 2 = 1 n (y i ŷ i ) 2 = 1 n n n Scomposizione della varianza totale σy 2 = σ2 Ŷ + σ2 e e 2 i Ranalli M. Dipendenza Settimana # 4 9 / 20

Coefficiente di determinazione un indice della bontà di adattamento del modello ai dati è dato dal rapporto tra variabilità spiegata dalla regressione e variabilità totale r 2 = σ2 Ŷ σ 2 Y = n (y i ŷ i ) 2 n (y i µ Y ) 2 la decomposizione della devianza totale garantisce che r 2 varia tra 0 (pessimo adattamento) e 1 (ottimo adattamento, la relazione è perfettamente lineare). una formula utile per il calcolo è r 2 = [ n (x i µ X )(y i µ Y )] 2 n (x i µ X ) 2 n (y i µ Y ) 2 Riprendendo lesempio precedente: r 2 11.285 2 = 13.43 9.854 = 0.962 Ranalli M. Dipendenza Settimana # 4 10 / 20

Osservazione & Esempio Importante. Se con la variabile x otteniamo intercetta b 0 e coefficiente b 1, allora con la variabile scarto x µ X otteniamo la diversa intercetta b 0 + b 1 µ X ma lo stesso coefficiente b 1. Esempio. Riprendiamo lesempio precedente e calcoliamo la retta di regressione di y sulla variabile scarto x µ X x i y i sx i = (x i µ X ) sy i = (y i µ Y ) sx i sy i sxi 2 syi 2-1.714 1.5-1.714-1.643 2.816 2.938 2.699-0.714 3.0-0.714-0.143 0.102 0.510 0.020-1.714 1.5-1.714-1.643 2.816 2.938 2.699 0.286 3.5 0.286 0.357 0.102 0.082 0.127 1.286 4.0 1.286 0.857 1.102 1.654 0.734 0.286 3.5 0.286 0.357 0.102 0.082 0.127 2.286 5.0 2.286 1.857 4.245 5.226 3.448 Totale 0.002 22.0 0.000 0.000 11.285 13.430 9.854 µ X = 0.002 = 0; µ Y = 22 7 7 = 3.143 b 1 = 11.285 13.43 = 0.84 b 0 = 3.143 0.84 0 = 3.143 Ranalli M. Dipendenza Settimana # 4 11 / 20

Esempio - Introduzione alla correlazione Una distribuzione doppia secondo due variabili quantitative può essere rappresentata graficamente mediante un diagramma di dispersione Esempio. 25 famiglie secondo reddito e spesa (dato mensile medio) È interessante osservare come il grafico pone in evidenza l esistenza di una relazione (di concordanza) tra il reddito e la spesa. Ranalli M. Dipendenza Settimana # 4 12 / 20

Osservazione Date due variabili quantitative, diremo che sono correlate positivamente se variano in modo concorde, ossia all aumentare [diminuire] dell una aumenta [diminuisce] anche l altra; correlate negativamente se variano in modo discorde, ossia all aumentare [diminuire] dell una l altra diminuisce [aumenta]; incorrelate se sono indifferenti, ossia non c è regolarità fra le variazioni dell una e dell altra. Osserviamo che due caratteri risultano concordi se gli scarti dalla media tendono ad essere dello stesso segno mentre risultano discordi se tali scarti tendono ad essere di segno opposto. Ranalli M. Dipendenza Settimana # 4 13 / 20

Covarianza la covarianza è una misura del legame lineare tra due caratteri quantitativi X e Y. È data dalla media aritmetica del prodotto degli scarti di due caratteri dalle loro rispettive medie σ XY = 1 n n (x i µ X )(y i µ Y ) = n x i y i µ X µ Y n scarti positivi (negativi) di X tendono ad associarsi a scarti positivi (negativi) di Y i loro prodotti saranno positivi e σ XY risulterà positiva scarti positivi di X tendono ad associarsi a scarti negativi di Y (o viceversa) i loro prodotti saranno negativi e σ XY risulterà negativa Minimo e massimo: non è un indice relativo σ X σ Y < σ XY < σ X σ Y Ranalli M. Dipendenza Settimana # 4 14 / 20

Il coefficiente di correlazione lineare Al fine di avere un indice relativo, calcoliamo il coefficiente di correlazione lineare. Come? standardizziamo le variabili z xi = x i x σ X, z yi = y i ȳ σ Y costruiamo la variabile prodotto degli scarti standardizzati c i = z xi z yi = x i x σ X y i ȳ σ Y e ne calcoliamo la media aritmetica r = 1 n n c i = 1 n n x i x σ X y i ȳ σ Y Tale media è detta coefficiente di correlazione lineare. Ranalli M. Dipendenza Settimana # 4 15 / 20

Proprietà I del coefficiente di correlazione lineare è positivo nel caso di correlazione positiva, negativo nel caso di correlazione negativa e pari a zero nel caso di incorrelazione; ha lo stesso segno del coefficiente di regressione b 1 ; è compreso tra -1 e 1 estremi inclusi; è pari a 1 se i punti sono allineati su di una retta con inclinazione positiva; è pari a -1 se i punti sono allineati su di una retta con inclinazione negativa; si può anche calcolare come r = n (x i x)(y i ȳ) n (x i x) 2 n (y i ȳ) 2 Ranalli M. Dipendenza Settimana # 4 16 / 20

Proprietà II del coefficiente di correlazione lineare elevato al quadrato è uguale all indice di determinazione r 2, quindi tanto più vicino è vicino a 1 o -1, quanto più la nuvola dei punti può essere ben interpolata con una retta; non cambia in valore assoluto (i.e. può cambiare solo il segno) se a una delle due variabili viene sommata e/o moltiplicata una costante (una delle variabili è trasformata linearmente). In formule: se X : x 1, x 2,..., x n ; Y : y 1, y 2,..., y n e W : w 1, w 2,..., w n con w i = a + by i, allora r XW = 1 n = 1 n = n n b 1 b n x i x σ X x i x σ X n w i w σ W a + by i a bȳ b σ Y x i x σ X y i ȳ σ Y = b b r XY Ranalli M. Dipendenza Settimana # 4 17 / 20

Esempio Calcolo del coefficiente di correlazione lineare x i y i sx i = x i x sy i = y i ȳ sx i sy i sxi 2 syi 2 8 15 2.6 7.2 18.72 6.76 51.84 5 5-0.4-2.8 1.12 0.16 7.84 7 9 1.6 1.2 1.92 2.56 1.44 1 3-4.4-4.8 21.12 19.36 23.04 6 7 0.6-0.8-0.48 0.36 0.64 Totale 27 39 0 0 42.40 29.20 84.80 x = 27 5 = 5.4 ȳ = 39 5 = 7.8 42.40 r = = 0.8520 29.20 84.80 Ranalli M. Dipendenza Settimana # 4 18 / 20

Diversi valori di r Ranalli M. Dipendenza Settimana # 4 19 / 20

Osservazioni r coglie solo l esistenza di un legame di tipo lineare; una relazione di causa-effetto implica l esistenza di un legame, non è necessariamente vero il vice versa. Esempio x i y i (x i µ X ) (y i µ Y ) (x i µ X )(y i µ Y ) 3 12-3 5.5-16.5 4 7-2 0.5-1 5 4-1 -2.5 2.5 6 3 0-3.5 0 6 3 0-3.5 0 7 4 1-2.5-2.5 8 7 2 0.5 1 9 12 3 5.5 16.5 Totale 48 52 0 0 0 µ X = 48 8 = 6 e µ Y = 52 8 = 6.5 La correlazione è nulla ma il legame è molto forte Y = 3 + (X 6) 2. Ranalli M. Dipendenza Settimana # 4 20 / 20