Il modello di regressione

Il modello di regressione Capitolo e 3 A M D Marcello Gallucci Milano-Bicocca Lezione: II

Concentti fondamentali Consideriamo ora questa ipotetica ricerca: siamo andati in un pub ed abbiamo contato quanti sorrisi le persone ai tavoli producevano (ogni 10 minuti) e quante birre avevano bevuto fino a quel momento Birre Sorrisi 0 1 1 3 4 3 3 4 5 5 6 6 8 7 8 8 9 9 8 10 7 SMILES 10 8 6 4 0 0 NBEERS 4 6 8 10 1

Concentti fondamentali Lo scopo della retta di regressione è di rappresentare la relazione lineare tra la variabile indipendente e la dipendente Nel caso più semplice, abbiamo una retta senplice y i =a+ b y i + e i ŷ i =a+ b x i

Concetti fondamentali La retta può essere descritta mediante due coefficienti: il termine costante ed il coefficiente angolare Coefficients a ŷ i =a+ b x i Model 1 (Constant) NBEERS Unstandardized Coefficients a. Dependent Variable: SMILES Standardized Coefficients B Std. Error Beta t Sig..091.684 3.057.014.709.116.898 6.13.000 Termine constante (o intercetta) Coefficiente di regressione (angolare)

Coefficiente costante a l'intercetta della linea: indica il valore atteso (medio) della VD per la VI=0 ŷ=a+ b 0 Y Y Quando un partecipante ha bevuto zero birre, mostra (in media).09 sorrisi

Coefficiente di regressione B è il coefficiente angolare della retta: indica il cambiamento atteso nella VD al variare di una unità della VI I sorrisi aumentano di B unità Per ogni birra che si beve, i sorrisi aumentano in media di.709 unità Per una unità in più della VI: una birra in più

Coefficienti standardizzati Il coefficiente Beta equivale al coefficiente di regressione calcolato dopo aver standardizzato tutte le variabili Model 1 (Constant) NBEERS Coefficients a Unstandardized Coefficients a. Dependent Variable: SMILES Standardized Coefficients B Std. Error Beta t Sig..091.684 3.057.014.709.116.898 6.13.000 Il coefficiente standardizzato è uguale al coefficiente r di Pearson

Correlazione: Interpretazione La correlazione indica il cambiamento atteso in v, al variare di x di una deviazione standard dettaglio Legge di relazione r=0.78 v ˆ = r z xv x z.78 Mi aspetto una scostamento pari a 78% della dev.std di v 1 Mi muovo di una dev.std. Lezione: I

Test inferenziale I coefficenti vengono testati per la loro significatività statistica mediante il t-test t test Model 1 (Constant) NBEERS Coefficients a Unstandardized Coefficients a. Dependent Variable: SMILES Standardized Coefficients B Std. Error Beta t Sig..091.684 3.057.014.709.116.898 6.13.000 Se Sig. < 0.05, diremo che B (e β) sono significativamente diversi da zero

Bonta di adattamento Non tutte le rette di regressione hanno lo stesso potere predittivo, cioè la stessa capacità di adattarsi ai dati osservati bassa alta

Errore di regressione Notiamo che la predizione non corrisponde di norma ai valori osservati y ˆ = a + i b yx x i predetti Discrepanza osservatipredetti y yˆ = y ( a + i i i b yx x i ) errore Dunque i valori osservati di Y possono essere espressi come somma dei valori predetti e l errore y i = ( a + b ) ( ˆ yxxi + yi yi ) retta errore

Quanto e grande l errore di regressione Calcoliamoci la distanza media tra i punti osservati e la retta Le distanze si calcolano mediante le differenze al quadrato Discrepanza osservatipredetti n i= 1 ( y ˆ i yi n 1 ) = s e Notiamo che questa e una varianza, che chiameremo varianza di errore

Proporzione riduzione errore Il modello si adatterà ai dati tanto più riduce l'errore di predizione rispetto a non usare tale modello La logica è di confrontare due casi: L'errore calcolato per la regressione data L'errore associato alla media, cioè errore associato a non utilizzare la regressione

Proporzione riduzione errore Senza regressione l unica predizione plausibile di Y e la media di Y Predizione senza regressione Errore senza regressione y ˆ = M i y s y ( = yi n M 1 ) Le deviazioni dalla media (la varianza) non siamo in grado di spiegarle YY s y

Predizione senza regressione Ricordiamo che in assenza di ogni ulteriore informazione, la miglior predizione che si può fare dei punteggi di una variabile è predire il valore medio Istogramma 10 Quale è lo stipendio più probabile di un accademico? y ˆ = M i y Frequenza 100 80 60 40 Media=145 Varianza=599 0 0 500,00 1000,00 1500,00 000,00 500,00 3000,00 3500,00 4000,00 4500,00 Mean = 145,3403 Std. Dev. = 599,06439 N = 1.00 stipendio

Varianza ed errore di predizione Se predicessimo che tutti hanno un punteggio pari al valore medio, quale sarebbe il nostro errore? Istogramma Tutto ciò che si distanzia dalla media 10 100 y i yˆ i = y i M y Frequenza 80 60 s = y i M y n 1 Media=16.14 Varianza=0.38 40 0 0 500,00 1000,00 1500,00 000,00 500,00 stipendio 3000,00 3500,00 4000,00 4500,00 Mean = 145,3403 Std. Dev. = 599,06439 N = 1.00

Varianza ed errore di predizione La varianza della variabile da predire rappresenta sia l errore che commettiamo nell usare la media come predittore, sia tutta l informazione che possiamo spiegare se usassimo un predittore migliore della media s = y i M y n 1 Y Y

Varianza ed errore di predizione Consideriamo il diagramma di dispersione tra la nostra variabile dipendente ed una altra variabile, sempre nel caso volessimo usare il 4500,00 valore medio come predittore della VD 4000,00 Errore di predizione: Tutto ciò che si distanzia dalla media yi M y 3500,00 stipendio 3000,00 500,00 000,00 y i M y s= n 1 1500,00 1000,00 500,00 0,00 0,00 40,00 60,00 pub 80,00 100,00

Regressione Se ora usiamo i valori di una variabile indipendente, pesati per i coefficienti di regressione, come predittori, il nostro punteggio predetto sarà generalmente diverso da prima 4500,00 4000,00 Valori predetti 3500,00 stipendio yˆ i = a + byx xi 3000,00 500,00 000,00 1500,00 1000,00 500,00 0,00 0,00 40,00 60,00 pub 80,00 100,00

Errore della Regressione Anche la predizione fatta con la regressione commetterà degli errori, cioè il valore predetto non coinciderà perfettamente con il valore osservato 4500,00 4000,00 Errore che commettiamo 3500,00 stipendio yi yˆ i = yi (a + byx xi ) 3000,00 500,00 000,00 [ y i a b yx x i ] se= n 1 1500,00 1000,00 500,00 0,00 0,00 40,00 60,00 pub 80,00 100,00

Varianza di errore Questa varianza, detta di errore, indica la parte della varianza della VD che non è predicibile mediante i punteggi della VI Media degli errori di regressione e s e = [ y i a b yx x i ] n 1 X

% Varianza di errore Rapportando tutto a 1 (standardizzando) otteniamo la percentuale di errore % di errore di regressione e s e errore di regressione s = [ y i (a+ b yx x i )] y ( y i M y ) X massimo errore totale

Riduzione dell errore Potremo dire che l errore di predizione si è ridotto, al confronto con l errore che facevamo senza usare la regressione (usando cioè la media di Y come valore predetto) e % di riduzione s s y y s s e = 1 e = 1 s s y y e X

Varianza spiegata Quella parte della varianza che non è di errore, sarà varianza che possiamo spiegare (predire) grazie all uso della regressione Chiamiamo tale % di varianza: R 1 yx R s s s s s s y e y e y y = = e X

Decomposizione della Varianza Dunque la varianza di errore iniziale, cioè la varianza della y, dopo la regressione si può decomporre in % di varianza di errore:1-r e % di varianza spiegata: R X s s y y = s reg s y + s s e y

Predizione e Spiegazione All aumentare della correlazione, aumenta la nostra capacità di predire il cambiamento di una variabile usando la variabilità dell altra All aumentare della correlazione, aumenta la nostra capacità di spiegare la variabilità una variabile usando la variabilità dell altra In sostanza, predire una variabile mediante un altra ci consente di spiegarne la variabilità. Migliore è l adeguatezza della nostra predizione, migliore è la capacità esplicativa

Spiegazione e Causalità Spiegare la variabilità statistica di una variabile non significa spiegare le cause del fenomeno che la variabile misura La spiegazione statistica dipende dalla bontà del modello statistico e dall associazione fra variabili La spiegazione causale dipende dalla spiegazione statistica e dalla fondatezza teorica del modello utilizzato

Esempio In ricerca sull anoressia sono state misurate su un campione di 85 donne la propria figura reale, la figura ideale e l autostima. Pictorial Body Image Scale

Regressione con SPSS Lezione III

Regressione Ci proponiamo di capire se la propria corporatura ideale (variabile figura_ideale) dipenda (cioè sia influenzata) dalla autostima (media di dieci items su scala da 0 a 6). Statistiche descrittive figura_ideale Autostima Validi (listwise) Deviazione N Minimo Massimo Media std. 85 1 4 3.15.681 85.6617 6.00000 4.0000000 1.50000000 85 Lezione: II

Regressione Ci proponiamo di capire se la propria corporatura ideale (variabile figura_ideale) dipenda (cioè sia influenzata) dalla autostima. Lezione: II

Output Modello 1 (Costante) Autostima Coefficienti non standardizzati a. Variabile dipendente: figura_ideale Coefficienti a Coefficienti standardizzati B Errore std. Beta t Sig..683.06 13.048.000.117.048.58.437.017 Lezione: II

Output Modello 1 (Costante) Autostima Coefficienti non standardizzati a. Variabile dipendente: figura_ideale Coefficienti a Coefficienti standardizzati B Errore std. Beta t Sig..683.06 13.048.000.117.048.58.437.017 Per ogni punto in più di autostima, la figura ideale aumenta di.117 Per autostima molto bassa (x=0) si preferisce una figura molto magra (.6) Lezione: II

Cioè Media attesa per autostima molto bassa Aumentando l autostima Lezione: II

Output Modello 1 (Costante) Autostima Coefficienti non standardizzati a. Variabile dipendente: figura_ideale Coefficienti a Coefficienti standardizzati B Errore std. Beta t Sig..683.06 13.048.000.117.048.58.437.017 In termini di correlazione Ad una devizione standard sopra la media di autostima, corrisponde un incremento della figura di.5 deviazioni standad Lezione: II

Interpretazione C è dunque una relazione tra figura ideale ed autostima, nel senso che per minori livelli di autostima si tende ad una figura ideale più magra Quanto è forte questa relazione? Lezione: II

Interpretazione Lezione: II

Corrispondenze Modello 1 (Costante) Autostima Coefficienti non standardizzati a. Variabile dipendente: figura_ideale Coefficienti a Coefficienti standardizzati B Errore std. Beta t Sig..683.06 13.048.000.117.048.58.437.017 Lezione: II

Il modello di regressione Multipla

Effetti multipli Consideriamo ora il caso in cui la variabile dipendente possa essere spiegata da più di una variabile Parleremo di Regressione Multipla x b yx. w w y b yw. x

Esempio Effetti multipli Vogliamo predire il numero di sorrisi sia con il numero di birre che con il tratto estroversione del soggetto Regressione Multipla Birre b yx. w Estrovers. Sorrisi b yw. x

Effetti multipli La regressione multipla aggiunge termini lineari (altre VI) alla retta di regressione Legge di relazione della Regressione Multipla x w y Standardizzata Non Standardizzata ˆ y = β x + β z yx. w z yw. x yˆ = a + b x + b yx. w yw. x w z w

Interpretazione Il coefficiente di regressione esprime l effetto diretto di x su y, togliendo l effetto che passa indirettamente per w Effetto diretto b yx. w = byx byw. x b wx Effetto indiretto x b yx. w b wx w b yw. x y

Effetti Parziali Togliere l effetto indiretto è equivalente a bloccare la possibilità che x vada su y mediante w: Il coefficiente viene dunque detto coefficiente parziale, cioè l effetto di x parzializzando l effetto di w Effetto diretto Effetto indiretto b wx x w b yx. w b yw. x y

Rappresentazione geometrica yˆ = a + B y 1x1 + B y x

Interpretazione geometrica Effetto Unico of X for X 1 =-10 Effetto unico di X per X 1 =0 Effetto unico di X per X 1 =10

Intercetta (o costante) L'intercetta indica il valore atteso della VD per tutte le VI uguali a 0 Y =a B y1. 0 B y.1 0 Y ˆ = a

Esempio Un ricercatore ha misurato la capacita di lettura e la produzione linguistica con due test in bimbi da 5 e 8 anni Si propone di studiare se la capacità di lettura è influenzata dalla produzione linguistica eta Validi 5.00 6.00 7.00 8.00 Totale Percentuale Percentuale Frequenza Percentuale valida cumulata 36 30.0 30.0 30.0 7.5.5 5.5 5 0.8 0.8 73.3 3 6.7 6.7 100.0 10 100.0 100.0 Statistiche descrittive lettura lingua Validi (listwise) Deviazione N Minimo Massimo Media std. 10 1.8 5.68 1.869 3.98934 10.0 13.41 6.3781.9360 10

Esempio Incominciamo con una regressione semplice Riepilogo del modello lettura = b yx lingua Modello 1 R-quadrato Errore std. R R-quadrato corretto della stima.178 a.03.03 3.9446 a. Stimatori: (Costante), lingua ANOVA b Varianza spiegata Coefficienti a Modello 1 Regressione Residuo Totale a. Stimatori: (Costante), lingua b. Variabile dipendente: lettura Somma dei Media dei quadrati df quadrati F Sig. 59.794 1 59.794 3.847.05 a 1834.070 118 15.543 1893.864 119 Modello 1 (Costante) lingua a. Variabile dipendente: lettura Coefficienti non Coefficienti standardizzati standardizzati Coefficienti di regressione B Errore std. Beta t Sig. 11.316.867 13.057.000.4.14.178 1.961.05

Esempio Aggiungiamo l età Riepilogo del modello lettura=b yx. w lingua b yw. x eta Modello 1 R-quadrato Errore std. R R-quadrato corretto della stima.641 a.411.401 3.08750 a. Stimatori: (Costante), eta, lingua Varianza spiegata Modello 1 Regressione Residuo Totale a. Stimatori: (Costante), eta, lingua b. Variabile dipendente: lettura ANOVA b Somma dei Media dei quadrati df quadrati F Sig. 778.541 389.71 40.835.000 a 1115.33 117 9.533 1893.864 119 Coefficienti a Modello 1 (Costante) lingua eta a. Variabile dipendente: lettura Coefficienti non standardizzati Coefficienti standardizzati B Errore std. Beta t Sig. -1.003 1.573 -.638.55 -.077.104 -.056 -.74.460.9.57.659 8.683.000 Notiamo come è cambiato l effetto della lettura Coefficienti di regressione

Esempio Concluderemo che la produzione linguistica è debolmente associata alla capacità di lettura Coefficienti a Regressione semplice Modello 1 (Costante) lingua a. Variabile dipendente: lettura Coefficienti non standardizzati Coefficienti standardizzati B Errore std. Beta t Sig. 11.316.867 13.057.000.4.14.178 1.961.05 Coefficienti a Regressione multipla Modello 1 (Costante) lingua eta Coefficienti non standardizzati Coefficienti standardizzati B Errore std. Beta t Sig. -1.003 1.573 -.638.55 -.077.104 -.056 -.74.460.9.57.659 8.683.000 a. Variabile dipendente: lettura Ma questa associazione dipende dalle differenze dovute all età A parità di età, non vi è una relazione tra produzione linguistica e capacità di lettura

Fine Fine della Lezione II