Il modello di regressione

Documenti analoghi
Il modello di regressione

Analisi Multivariata dei Dati

Analisi Multivariata dei Dati. Regressione Multipla

Metodologie Quantitative

Metodologie Quantitative

Introduzione all Analisi della Varianza (ANOVA)

Analisi Multivariata dei Dati. Regressione Multipla (cap. 3)

Metodologie Quantitative

Analisi avanzate basate sulla regressione (Cap. 7)

Regressione Lineare Semplice e Correlazione

Metodologie Quantitative

Il modello lineare misto

Assunzioni (Parte I)

Argomenti della lezione:

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Statistica multivariata Donata Rodi 17/10/2016

Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii

Regressione & Correlazione

Capitolo 12 La regressione lineare semplice

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

LABORATORI DI STATISTICA SOCIALE

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Analisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca

Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Esercitazione del

1. variabili dicotomiche: 2 sole categorie A e B

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

ESERCIZIO 1. Di seguito vengono riportati i risultati di una regressione multipla effettuata secondo il metodo standard (o per blocchi )

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

viii Indice generale

Facoltà di Psicologia Università di Padova Anno Accademico Corso di Psicometria - Modulo B

Correlazione e regressione

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Laboratorio di Statistica Aziendale Modello di regressione lineare multipla

Analisi della Varianza Fattoriale. (Cap. 8)

Analisi della Varianza Fattoriale

Regressione Semplice. Correlazioni. sconto leverage. sconto Correlazione di Pearson 1,275. Sign. (a due code),141

Indipendenza, Dipendenza e interdipendenza

La regressione lineare semplice

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Statistica descrittiva: analisi di regressione

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Test F per la significatività del modello

Fasi del modello di regressione

Strumenti di indagine per la valutazione psicologica

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Università del Piemonte Orientale Corso di Laurea specialistica in Biotecnologie mediche. Corso di Statistica Medica. Correlazione

Analisi delle medie (post ANOVA)

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

Metodologie Quantitative

Es. la performance all esame in relazione alle ore di studio a casa e alle abilità cognitive

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Teoria e tecniche dei test. Concetti di base

Metodi statistici per le ricerche di mercato

Psicometria con Laboratorio di SPSS 1

Analisi avanzate della regressione: la moderazione (Cap. 5 )

PROBABILITÀ ELEMENTARE

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Anova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011

Regressione lineare semplice

2) REGRESSIONE. 1) Creo un diagramma a dispersione per ispezionare i dati. 2) Selezionare in SPSS Analizza -> Regressione Lineare.

Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi

Corso in Statistica Medica

Statistica 1 A.A. 2015/2016

Statistica. Alfonso Iodice D Enza

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Misure Ripetute. Analisi dei dati in disegni di ricerca con misure ripetute. Marcello Gallucci

Statistica. Alfonso Iodice D Enza

Argomenti della lezione:

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Esercizio 2: voto e ore dedicate allo studio

Statistica. Alfonso Iodice D Enza

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

Regressione semplice: come applicarla come interpretare i risultati

P S I C O M T R I A Marcello Gallucci. Analisi Fattoriale. Esempi. Milano-Bicocca. Lezione: 20

Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi Esercitazione

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017

Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

STATISTICA. Regressione-2

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

Analisi della varianza a una via

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Metodologia della ricerca sul singolo e gruppi di individui

Indice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75

La regressione lineare. Rappresentazione analitica delle distribuzioni

LM 88 SOCIOLOGIA E RICERCA SOCIALE. Metodi Statistici per la Ricerca Sociale. Regressione lineare e correlazione

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Minimi quadrati pesati per la Regressione Lineare

Transcript:

Il modello di regressione Capitolo e 3 A M D Marcello Gallucci Milano-Bicocca Lezione: II

Concentti fondamentali Consideriamo ora questa ipotetica ricerca: siamo andati in un pub ed abbiamo contato quanti sorrisi le persone ai tavoli producevano (ogni 10 minuti) e quante birre avevano bevuto fino a quel momento Birre Sorrisi 0 1 1 3 4 3 3 4 5 5 6 6 8 7 8 8 9 9 8 10 7 SMILES 10 8 6 4 0 0 NBEERS 4 6 8 10 1

Concentti fondamentali Lo scopo della retta di regressione è di rappresentare la relazione lineare tra la variabile indipendente e la dipendente Nel caso più semplice, abbiamo una retta senplice y i =a+ b y i + e i ŷ i =a+ b x i

Concetti fondamentali La retta può essere descritta mediante due coefficienti: il termine costante ed il coefficiente angolare Coefficients a ŷ i =a+ b x i Model 1 (Constant) NBEERS Unstandardized Coefficients a. Dependent Variable: SMILES Standardized Coefficients B Std. Error Beta t Sig..091.684 3.057.014.709.116.898 6.13.000 Termine constante (o intercetta) Coefficiente di regressione (angolare)

Coefficiente costante a l'intercetta della linea: indica il valore atteso (medio) della VD per la VI=0 ŷ=a+ b 0 Y Y Quando un partecipante ha bevuto zero birre, mostra (in media).09 sorrisi

Coefficiente di regressione B è il coefficiente angolare della retta: indica il cambiamento atteso nella VD al variare di una unità della VI I sorrisi aumentano di B unità Per ogni birra che si beve, i sorrisi aumentano in media di.709 unità Per una unità in più della VI: una birra in più

Coefficienti standardizzati Il coefficiente Beta equivale al coefficiente di regressione calcolato dopo aver standardizzato tutte le variabili Model 1 (Constant) NBEERS Coefficients a Unstandardized Coefficients a. Dependent Variable: SMILES Standardized Coefficients B Std. Error Beta t Sig..091.684 3.057.014.709.116.898 6.13.000 Il coefficiente standardizzato è uguale al coefficiente r di Pearson

Correlazione: Interpretazione La correlazione indica il cambiamento atteso in v, al variare di x di una deviazione standard dettaglio Legge di relazione r=0.78 v ˆ = r z xv x z.78 Mi aspetto una scostamento pari a 78% della dev.std di v 1 Mi muovo di una dev.std. Lezione: I

Test inferenziale I coefficenti vengono testati per la loro significatività statistica mediante il t-test t test Model 1 (Constant) NBEERS Coefficients a Unstandardized Coefficients a. Dependent Variable: SMILES Standardized Coefficients B Std. Error Beta t Sig..091.684 3.057.014.709.116.898 6.13.000 Se Sig. < 0.05, diremo che B (e β) sono significativamente diversi da zero

Bonta di adattamento Non tutte le rette di regressione hanno lo stesso potere predittivo, cioè la stessa capacità di adattarsi ai dati osservati bassa alta

Errore di regressione Notiamo che la predizione non corrisponde di norma ai valori osservati y ˆ = a + i b yx x i predetti Discrepanza osservatipredetti y yˆ = y ( a + i i i b yx x i ) errore Dunque i valori osservati di Y possono essere espressi come somma dei valori predetti e l errore y i = ( a + b ) ( ˆ yxxi + yi yi ) retta errore

Quanto e grande l errore di regressione Calcoliamoci la distanza media tra i punti osservati e la retta Le distanze si calcolano mediante le differenze al quadrato Discrepanza osservatipredetti n i= 1 ( y ˆ i yi n 1 ) = s e Notiamo che questa e una varianza, che chiameremo varianza di errore

Proporzione riduzione errore Il modello si adatterà ai dati tanto più riduce l'errore di predizione rispetto a non usare tale modello La logica è di confrontare due casi: L'errore calcolato per la regressione data L'errore associato alla media, cioè errore associato a non utilizzare la regressione

Proporzione riduzione errore Senza regressione l unica predizione plausibile di Y e la media di Y Predizione senza regressione Errore senza regressione y ˆ = M i y s y ( = yi n M 1 ) Le deviazioni dalla media (la varianza) non siamo in grado di spiegarle YY s y

Predizione senza regressione Ricordiamo che in assenza di ogni ulteriore informazione, la miglior predizione che si può fare dei punteggi di una variabile è predire il valore medio Istogramma 10 Quale è lo stipendio più probabile di un accademico? y ˆ = M i y Frequenza 100 80 60 40 Media=145 Varianza=599 0 0 500,00 1000,00 1500,00 000,00 500,00 3000,00 3500,00 4000,00 4500,00 Mean = 145,3403 Std. Dev. = 599,06439 N = 1.00 stipendio

Varianza ed errore di predizione Se predicessimo che tutti hanno un punteggio pari al valore medio, quale sarebbe il nostro errore? Istogramma Tutto ciò che si distanzia dalla media 10 100 y i yˆ i = y i M y Frequenza 80 60 s = y i M y n 1 Media=16.14 Varianza=0.38 40 0 0 500,00 1000,00 1500,00 000,00 500,00 stipendio 3000,00 3500,00 4000,00 4500,00 Mean = 145,3403 Std. Dev. = 599,06439 N = 1.00

Varianza ed errore di predizione La varianza della variabile da predire rappresenta sia l errore che commettiamo nell usare la media come predittore, sia tutta l informazione che possiamo spiegare se usassimo un predittore migliore della media s = y i M y n 1 Y Y

Varianza ed errore di predizione Consideriamo il diagramma di dispersione tra la nostra variabile dipendente ed una altra variabile, sempre nel caso volessimo usare il 4500,00 valore medio come predittore della VD 4000,00 Errore di predizione: Tutto ciò che si distanzia dalla media yi M y 3500,00 stipendio 3000,00 500,00 000,00 y i M y s= n 1 1500,00 1000,00 500,00 0,00 0,00 40,00 60,00 pub 80,00 100,00

Regressione Se ora usiamo i valori di una variabile indipendente, pesati per i coefficienti di regressione, come predittori, il nostro punteggio predetto sarà generalmente diverso da prima 4500,00 4000,00 Valori predetti 3500,00 stipendio yˆ i = a + byx xi 3000,00 500,00 000,00 1500,00 1000,00 500,00 0,00 0,00 40,00 60,00 pub 80,00 100,00

Errore della Regressione Anche la predizione fatta con la regressione commetterà degli errori, cioè il valore predetto non coinciderà perfettamente con il valore osservato 4500,00 4000,00 Errore che commettiamo 3500,00 stipendio yi yˆ i = yi (a + byx xi ) 3000,00 500,00 000,00 [ y i a b yx x i ] se= n 1 1500,00 1000,00 500,00 0,00 0,00 40,00 60,00 pub 80,00 100,00

Varianza di errore Questa varianza, detta di errore, indica la parte della varianza della VD che non è predicibile mediante i punteggi della VI Media degli errori di regressione e s e = [ y i a b yx x i ] n 1 X

% Varianza di errore Rapportando tutto a 1 (standardizzando) otteniamo la percentuale di errore % di errore di regressione e s e errore di regressione s = [ y i (a+ b yx x i )] y ( y i M y ) X massimo errore totale

Riduzione dell errore Potremo dire che l errore di predizione si è ridotto, al confronto con l errore che facevamo senza usare la regressione (usando cioè la media di Y come valore predetto) e % di riduzione s s y y s s e = 1 e = 1 s s y y e X

Varianza spiegata Quella parte della varianza che non è di errore, sarà varianza che possiamo spiegare (predire) grazie all uso della regressione Chiamiamo tale % di varianza: R 1 yx R s s s s s s y e y e y y = = e X

Decomposizione della Varianza Dunque la varianza di errore iniziale, cioè la varianza della y, dopo la regressione si può decomporre in % di varianza di errore:1-r e % di varianza spiegata: R X s s y y = s reg s y + s s e y

Predizione e Spiegazione All aumentare della correlazione, aumenta la nostra capacità di predire il cambiamento di una variabile usando la variabilità dell altra All aumentare della correlazione, aumenta la nostra capacità di spiegare la variabilità una variabile usando la variabilità dell altra In sostanza, predire una variabile mediante un altra ci consente di spiegarne la variabilità. Migliore è l adeguatezza della nostra predizione, migliore è la capacità esplicativa

Spiegazione e Causalità Spiegare la variabilità statistica di una variabile non significa spiegare le cause del fenomeno che la variabile misura La spiegazione statistica dipende dalla bontà del modello statistico e dall associazione fra variabili La spiegazione causale dipende dalla spiegazione statistica e dalla fondatezza teorica del modello utilizzato

Esempio In ricerca sull anoressia sono state misurate su un campione di 85 donne la propria figura reale, la figura ideale e l autostima. Pictorial Body Image Scale

Regressione con SPSS Lezione III

Regressione Ci proponiamo di capire se la propria corporatura ideale (variabile figura_ideale) dipenda (cioè sia influenzata) dalla autostima (media di dieci items su scala da 0 a 6). Statistiche descrittive figura_ideale Autostima Validi (listwise) Deviazione N Minimo Massimo Media std. 85 1 4 3.15.681 85.6617 6.00000 4.0000000 1.50000000 85 Lezione: II

Regressione Ci proponiamo di capire se la propria corporatura ideale (variabile figura_ideale) dipenda (cioè sia influenzata) dalla autostima. Lezione: II

Output Modello 1 (Costante) Autostima Coefficienti non standardizzati a. Variabile dipendente: figura_ideale Coefficienti a Coefficienti standardizzati B Errore std. Beta t Sig..683.06 13.048.000.117.048.58.437.017 Lezione: II

Output Modello 1 (Costante) Autostima Coefficienti non standardizzati a. Variabile dipendente: figura_ideale Coefficienti a Coefficienti standardizzati B Errore std. Beta t Sig..683.06 13.048.000.117.048.58.437.017 Per ogni punto in più di autostima, la figura ideale aumenta di.117 Per autostima molto bassa (x=0) si preferisce una figura molto magra (.6) Lezione: II

Cioè Media attesa per autostima molto bassa Aumentando l autostima Lezione: II

Output Modello 1 (Costante) Autostima Coefficienti non standardizzati a. Variabile dipendente: figura_ideale Coefficienti a Coefficienti standardizzati B Errore std. Beta t Sig..683.06 13.048.000.117.048.58.437.017 In termini di correlazione Ad una devizione standard sopra la media di autostima, corrisponde un incremento della figura di.5 deviazioni standad Lezione: II

Interpretazione C è dunque una relazione tra figura ideale ed autostima, nel senso che per minori livelli di autostima si tende ad una figura ideale più magra Quanto è forte questa relazione? Lezione: II

Interpretazione Lezione: II

Corrispondenze Modello 1 (Costante) Autostima Coefficienti non standardizzati a. Variabile dipendente: figura_ideale Coefficienti a Coefficienti standardizzati B Errore std. Beta t Sig..683.06 13.048.000.117.048.58.437.017 Lezione: II

Il modello di regressione Multipla

Effetti multipli Consideriamo ora il caso in cui la variabile dipendente possa essere spiegata da più di una variabile Parleremo di Regressione Multipla x b yx. w w y b yw. x

Esempio Effetti multipli Vogliamo predire il numero di sorrisi sia con il numero di birre che con il tratto estroversione del soggetto Regressione Multipla Birre b yx. w Estrovers. Sorrisi b yw. x

Effetti multipli La regressione multipla aggiunge termini lineari (altre VI) alla retta di regressione Legge di relazione della Regressione Multipla x w y Standardizzata Non Standardizzata ˆ y = β x + β z yx. w z yw. x yˆ = a + b x + b yx. w yw. x w z w

Interpretazione Il coefficiente di regressione esprime l effetto diretto di x su y, togliendo l effetto che passa indirettamente per w Effetto diretto b yx. w = byx byw. x b wx Effetto indiretto x b yx. w b wx w b yw. x y

Effetti Parziali Togliere l effetto indiretto è equivalente a bloccare la possibilità che x vada su y mediante w: Il coefficiente viene dunque detto coefficiente parziale, cioè l effetto di x parzializzando l effetto di w Effetto diretto Effetto indiretto b wx x w b yx. w b yw. x y

Rappresentazione geometrica yˆ = a + B y 1x1 + B y x

Interpretazione geometrica Effetto Unico of X for X 1 =-10 Effetto unico di X per X 1 =0 Effetto unico di X per X 1 =10

Intercetta (o costante) L'intercetta indica il valore atteso della VD per tutte le VI uguali a 0 Y =a B y1. 0 B y.1 0 Y ˆ = a

Esempio Un ricercatore ha misurato la capacita di lettura e la produzione linguistica con due test in bimbi da 5 e 8 anni Si propone di studiare se la capacità di lettura è influenzata dalla produzione linguistica eta Validi 5.00 6.00 7.00 8.00 Totale Percentuale Percentuale Frequenza Percentuale valida cumulata 36 30.0 30.0 30.0 7.5.5 5.5 5 0.8 0.8 73.3 3 6.7 6.7 100.0 10 100.0 100.0 Statistiche descrittive lettura lingua Validi (listwise) Deviazione N Minimo Massimo Media std. 10 1.8 5.68 1.869 3.98934 10.0 13.41 6.3781.9360 10

Esempio Incominciamo con una regressione semplice Riepilogo del modello lettura = b yx lingua Modello 1 R-quadrato Errore std. R R-quadrato corretto della stima.178 a.03.03 3.9446 a. Stimatori: (Costante), lingua ANOVA b Varianza spiegata Coefficienti a Modello 1 Regressione Residuo Totale a. Stimatori: (Costante), lingua b. Variabile dipendente: lettura Somma dei Media dei quadrati df quadrati F Sig. 59.794 1 59.794 3.847.05 a 1834.070 118 15.543 1893.864 119 Modello 1 (Costante) lingua a. Variabile dipendente: lettura Coefficienti non Coefficienti standardizzati standardizzati Coefficienti di regressione B Errore std. Beta t Sig. 11.316.867 13.057.000.4.14.178 1.961.05

Esempio Aggiungiamo l età Riepilogo del modello lettura=b yx. w lingua b yw. x eta Modello 1 R-quadrato Errore std. R R-quadrato corretto della stima.641 a.411.401 3.08750 a. Stimatori: (Costante), eta, lingua Varianza spiegata Modello 1 Regressione Residuo Totale a. Stimatori: (Costante), eta, lingua b. Variabile dipendente: lettura ANOVA b Somma dei Media dei quadrati df quadrati F Sig. 778.541 389.71 40.835.000 a 1115.33 117 9.533 1893.864 119 Coefficienti a Modello 1 (Costante) lingua eta a. Variabile dipendente: lettura Coefficienti non standardizzati Coefficienti standardizzati B Errore std. Beta t Sig. -1.003 1.573 -.638.55 -.077.104 -.056 -.74.460.9.57.659 8.683.000 Notiamo come è cambiato l effetto della lettura Coefficienti di regressione

Esempio Concluderemo che la produzione linguistica è debolmente associata alla capacità di lettura Coefficienti a Regressione semplice Modello 1 (Costante) lingua a. Variabile dipendente: lettura Coefficienti non standardizzati Coefficienti standardizzati B Errore std. Beta t Sig. 11.316.867 13.057.000.4.14.178 1.961.05 Coefficienti a Regressione multipla Modello 1 (Costante) lingua eta Coefficienti non standardizzati Coefficienti standardizzati B Errore std. Beta t Sig. -1.003 1.573 -.638.55 -.077.104 -.056 -.74.460.9.57.659 8.683.000 a. Variabile dipendente: lettura Ma questa associazione dipende dalle differenze dovute all età A parità di età, non vi è una relazione tra produzione linguistica e capacità di lettura

Fine Fine della Lezione II