Il modello di regressione

Documenti analoghi
Il modello di regressione

Analisi Multivariata dei Dati. Regressione Multipla

Analisi Multivariata dei Dati

Introduzione all Analisi della Varianza (ANOVA)

Metodologie Quantitative

Analisi avanzate basate sulla regressione (Cap. 7)

Metodologie Quantitative

Regressione Lineare Semplice e Correlazione

Il modello lineare misto

Assunzioni (Parte I)

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Analisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca

Statistica multivariata Donata Rodi 17/10/2016

LABORATORI DI STATISTICA SOCIALE

Indipendenza, Dipendenza e interdipendenza

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Capitolo 12 La regressione lineare semplice

Esercitazione del

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

viii Indice generale

Analisi della Varianza Fattoriale. (Cap. 8)

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Analisi della Varianza Fattoriale

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Regressione Semplice. Correlazioni. sconto leverage. sconto Correlazione di Pearson 1,275. Sign. (a due code),141

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

PROBABILITÀ ELEMENTARE

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Statistica. Alfonso Iodice D Enza

Analisi avanzate della regressione: la moderazione (Cap. 5 )

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Test F per la significatività del modello

Argomenti della lezione:

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Es. la performance all esame in relazione alle ore di studio a casa e alle abilità cognitive

Teoria e tecniche dei test. Concetti di base

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

La regressione lineare. Rappresentazione analitica delle distribuzioni

Minimi quadrati pesati per la Regressione Lineare

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Strumenti di indagine per la valutazione psicologica

REGRESSIONE E CORRELAZIONE

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza

Corso di Psicometria Progredito

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

P S I C O M T R I A Marcello Gallucci. Analisi Fattoriale. Esempi. Milano-Bicocca. Lezione: 20

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

Statistica 1 A.A. 2015/2016

Anova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011

Metodologie Quantitative. Analisi Fattoriale

Esercizi di statistica

Misure Ripetute. Analisi dei dati in disegni di ricerca con misure ripetute. Marcello Gallucci

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Transcript:

Il modello di regressione Capitolo e 3 A M D Marcello Gallucci Milano-Bicocca Lezione: II

Concentti fondamentali Consideriamo ora questa ipotetica ricerca: siamo andati in un pub ed abbiamo contato quanti sorrisi le persone ai tavoli producevano (ogni 10 minuti) e quante birre avevano bevuto fino a quel momento 8 6 4 SMILES Birre Sorrisi 0 1 1 3 4 3 3 4 5 5 6 6 8 7 8 8 9 9 8 10 7 10 0 0 NBEERS 4 6 8 10 1

Concentti fondamentali Lo scopo della retta di regressione è di rappresentare la relazione lineare tra la variabile indipendente e la dipendente Nel caso più semplice, abbiamo una retta senplice y i =a+ b y i+ e i y i =a+ b x i

Concetti fondamentali La retta può essere descritta mediante due coefficienti: il termine costante ed il coefficiente angolare Coefficientsa y i =a+ b x i Model 1 (Constant) NBEERS Unstandardized Coefficients B Std. Error.091.684.709.116 a. Dependent Variable: SMILES Termine constante (o intercetta) Coefficiente di regressione (angolare) Standardized Coefficients Beta.898 t 3.057 6.13 Sig..014.000

Coefficiente costante a l'intercetta della linea: indica il valore atteso (medio) della VD per la VI=0 y =a+ b 0 Quando un partecipante ha bevuto zero birre, mostra (in media).09 sorrisi Y

Coefficiente di regressione B è il coefficiente angolare della retta: indica il cambiamento atteso nella VD al variare di una unità della VI I sorrisi aumentano di B unità Per ogni birra che si beve, i sorrisi aumentano in media di.709 unità Per una unità in più della VI: una birra in più

Coefficienti standardizzati Il coefficiente Beta equivale al coefficiente di regressione calcolato dopo aver standardizzato tutte le variabili Coefficientsa Model 1 (Constant) NBEERS Unstandardized Coefficients B Std. Error.091.684.709.116 Standardized Coefficients Beta.898 t 3.057 6.13 Sig..014.000 a. Dependent Variable: SMILES Il coefficiente standardizzato è uguale al coefficiente r di Pearson

Correlazione: Interpretazione La correlazione indica il cambiamento atteso in v, al variare di x di una deviazione standard dettaglio Legge di relazione r=0.78.78 vˆz rxv x z Mi aspetto una scostamento pari a 78% della dev.std di v 1 Mi muovo di una dev.std. Lezione: I

Test inferenziale I coefficenti vengono testati per la loro significatività statistica mediante il t-test t test Coefficientsa Model 1 (Constant) NBEERS Unstandardized Coefficients B Std. Error.091.684.709.116 a. Dependent Variable: SMILES Se Sig. < 0.05, diremo che B (e ) sono significativamente diversi da zero Standardized Coefficients Beta.898 t 3.057 6.13 Sig..014.000

Bonta di adattamento Non tutte le rette di regressione hanno lo stesso potere predittivo, cioè la stessa capacità di adattarsi ai dati osservati bassa alta

Errore di regressione Notiamo che la predizione non corrisponde di norma ai valori osservati yˆ i a byx xi predetti errore yi yˆ i yi (a byx xi ) Dunque i valori osservati di Y possono essere espressi come somma dei valori predetti e l errore yi (a byx xi ) ( yi yˆ i ) retta errore Discrepanza osservatipredetti

Quanto e grande l errore di regressione Calcoliamoci la distanza media tra i punti osservati e la retta Le distanze si calcolano mediante le differenze al quadrato ˆ ( yi yi ) s e n 1 i 1 n Notiamo che questa e una varianza, che chiameremo varianza di errore Discrepanza osservatipredetti

Proporzione riduzione errore Il modello si adatterà ai dati tanto più riduce l'errore di predizione rispetto a non usare tale modello La logica è di confrontare due casi: L'errore calcolato per la regressione data L'errore associato alla media, cioè errore associato a non utilizzare la regressione

Proporzione riduzione errore Senza regressione l unica predizione plausibile di Y e la media di Y Errore senza regressione Predizione senza regressione yˆ i M y s y (y i M) n 1 Le deviazioni dalla media (la varianza) non siamo in grado di spiegarle s Y Y y

Predizione senza regressione Ricordiamo che in assenza di ogni ulteriore informazione, la miglior predizione che si può fare dei punteggi di una variabile è predire il valore medio Quale è lo stipendio più probabile di un accademico? yˆ i M y Media=145 Varianza=599

Varianza ed errore di predizione Se predicessimo che tutti hanno un punteggio pari al valore medio, quale sarebbe il nostro errore? Tutto ciò che si distanzia dalla media yi yˆ i yi M y y M i y s= n 1 Media=16.14 Varianza=0.38

Varianza ed errore di predizione La varianza della variabile da predire rappresenta sia l errore che commettiamo nell usare la media come predittore, sia tutta l informazione che possiamo spiegare se usassimo un predittore migliore della media YY y i M y s= n 1

Varianza ed errore di predizione Consideriamo il diagramma di dispersione tra la nostra variabile dipendente ed una altra variabile, sempre nel caso volessimo usare il valore medio come predittore della VD Errore di predizione: Tutto ciò che si distanzia dalla media yi M y y i M y s= n 1

Regressione Se ora usiamo i valori di una variabile indipendente, pesati per i coefficienti di regressione, come predittori, il nostro punteggio predetto sarà generalmente diverso da prima Valori predetti yˆ i a byx xi

Errore della Regressione Anche la predizione fatta con la regressione commetterà degli errori, cioè il valore predetto non coinciderà perfettamente con il valore osservato Errore che commettiamo yi yˆ i yi (a byx xi ) [ y i a b yx x i ] s= e n 1

Varianza di errore Questa varianza, detta di errore, indica la parte della varianza della VD che non è predicibile mediante i punteggi della VI e Media degli errori di regressione [ y a b x ] i yx i se= n 1 X

% Varianza di errore Rapportando tutto a 1 (standardizzando) otteniamo la percentuale di errore % di errore di regressione e errore di regressione e y s s [ y i (a+ b yx x i)] = ( y i M y ) massimo errore totale X

Riduzione dell errore Potremo dire che l errore di predizione si è ridotto, al confronto con l errore che facevamo senza usare la regressione (usando cioè la media di Y come valore predetto) e % di riduzione s y se sy =R X

Varianza spiegata Quella parte della varianza che non è di errore, sarà varianza che possiamo spiegare (predire) grazie all uso della regressione e Chiamiamo tale % di varianza: R s y se sy X =R

Decomposizione della Varianza Dunque la varianza di errore iniziale, cioè la varianza della y, dopo la regressione si può decomporre in % di varianza di errore:1-r e X % di varianza spiegata: R

Predizione e Spiegazione All aumentare della correlazione, aumenta la nostra capacità di predire il cambiamento di una variabile usando la variabilità dell altra All aumentare della correlazione, aumenta la nostra capacità di spiegare la variabilità una variabile usando la variabilità dell altra In sostanza, predire una variabile mediante un altra ci consente di spiegarne la variabilità. Migliore è l adeguatezza della nostra predizione, migliore è la capacità esplicativa

Spiegazione e Causalità Spiegare la variabilità statistica di una variabile non significa spiegare le cause del fenomeno che la variabile misura La spiegazione statistica dipende dalla bontà del modello statistico e dall associazione fra variabili La spiegazione causale dipende dalla spiegazione statistica e dalla fondatezza teorica del modello utilizzato

Esempio In ricerca sull anoressia sono state misurate su un campione di 85 donne la propria figura reale, la figura ideale e l autostima. Pictorial Body Image Scale

Regressione con SPSS Lezione III

Regressione Ci proponiamo di capire se la propria corporatura ideale (variabile figura_ideale) dipenda (cioè sia influenzata) dalla autostima (media di dieci items su scala da 0 a 6). Statistiche descrittive N figura_ideale Autostima Validi (listwise) Minimo 85 85 85 1.6617 Massimo 4 6.00000 Media 3.15 4.0000000 Deviazione std..681 1.50000000 Lezione: II

Regressione Ci proponiamo di capire se la propria corporatura ideale (variabile figura_ideale) dipenda (cioè sia influenzata) dalla autostima. Lezione: II

Output Coefficientia Modello 1 (Costante) Autostima Coefficienti non standardizzati B Errore std..683.06.117.048 Coefficienti standardizzati Beta.58 t 13.048.437 Sig..000.017 a. Variabile dipendente: figura_ideale Lezione: II

Output Coefficientia Modello 1 (Costante) Autostima Coefficienti non standardizzati B Errore std..683.06.117.048 Coefficienti standardizzati Beta.58 t 13.048.437 Sig..000.017 a. Variabile dipendente: figura_ideale Per ogni punto in più di autostima, la figura ideale aumenta di.117 Per autostima molto bassa (x=0) si preferisce una figura molto magra (.6) Lezione: II

Cioè Media attesa per autostima molto bassa Aumentando l autostima Lezione: II

Output Coefficientia Modello 1 (Costante) Autostima Coefficienti non standardizzati B Errore std..683.06.117.048 Coefficienti standardizzati Beta.58 t 13.048.437 Sig..000.017 a. Variabile dipendente: figura_ideale In termini di correlazione Ad una devizione standard sopra la media di autostima, corrisponde un incremento della figura di.5 deviazioni standad Lezione: II

Interpretazione C è dunque una relazione tra figura ideale ed autostima, nel senso che per minori livelli di autostima si tende ad una figura ideale più magra Quanto è forte questa relazione? Lezione: II

Interpretazione Lezione: II

Corrispondenze Coefficientia Modello 1 (Costante) Autostima Coefficienti non standardizzati B Errore std..683.06.117.048 Coefficienti standardizzati Beta.58 t 13.048.437 Sig..000.017 a. Variabile dipendente: figura_ideale Lezione: II

Il modello di regressione Multipla

Effetti multipli Consideriamo ora il caso in cui la variabile dipendente possa essere spiegata da più di una variabile Parleremo di Regressione Multipla x byx.w y w byw. x

Esempio Effetti multipli Vogliamo predire il numero di sorrisi sia con il numero di birre che con il tratto estroversione del soggetto Regressione Multipla Birre byx.w Sorrisi Estrovers. byw. x

Effetti multipli La regressione multipla aggiunge termini lineari (altre VI) alla retta di regressione Legge di relazione della Regressione Multipla x y w Standardizzata yˆ z yx.w x z yw. x wz Non Standardizzata yˆ a byx.w x byw. x w

Interpretazione Il coefficiente di regressione esprime l effetto diretto di x su y, togliendo l effetto che passa indirettamente per w Effetto diretto byx.w byx byw. x bwx Effetto indiretto x bwx w byx.w byw. x y

Effetti Parziali Togliere l effetto indiretto è equivalente a bloccare la possibilità che x vada su y mediante w: Il coefficiente viene dunque detto coefficiente parziale, cioè l effetto di x parzializzando l effetto di w Effetto diretto Effetto indiretto x bwx w byx.w byw. x y

Rappresentazione geometrica yˆ a B y1 x1 B y x

Interpretazione geometrica Effetto Unico of X for X1=-10 Effetto unico di X per X1=0 Effetto unico di X per X1=10

Intercetta (o costante) L'intercetta indica il valore atteso della VD per tutte le VI uguali a 0 Y =a B y1. 0 B y.1 0 Yˆ a

Esempio Un ricercatore ha misurato la capacita di lettura e la produzione linguistica con due test in bimbi da 5 e 8 anni Si propone di studiare se la capacità di lettura è influenzata dalla produzione linguistica eta Validi 5.00 6.00 7.00 8.00 Totale Frequenza 36 7 5 3 10 Percentuale 30.0.5 0.8 6.7 100.0 Percentuale valida 30.0.5 0.8 6.7 100.0 Percentuale cumulata 30.0 5.5 73.3 100.0 Statistiche descrittive N lettura lingua Validi (listwise) 10 10 10 Minimo 1.8.0 Massimo 5.68 13.41 Media 1.869 6.3781 Deviazione std. 3.98934.9360

Esempio Incominciamo con una regressione semplice lettura byxlingua Riepilogo del modello Modello 1 R R-quadrato a.178.03 R-quadrato corretto.03 Errore std. della stima 3.9446 a. Stimatori: (Costante), lingua ANOVAb Modello 1 Varianza spiegata Coefficientia Modello 1 (Costante) lingua Coefficienti non standardizzati B Errore std. 11.316.867.4.14 a. Variabile dipendente: lettura Regressione Residuo Totale Somma dei quadrati 59.794 1834.070 1893.864 df 1 118 119 Media dei quadrati 59.794 15.543 F 3.847 a. Stimatori: (Costante), lingua b. Variabile dipendente: lettura Coefficienti standardizzati Beta.178 t 13.057 1.961 Coefficienti di regressione Sig..000.05 Sig..05a

Esempio Aggiungiamo l età lettura=b yx.w lingua b yw. x eta Riepilogo del modello Modello 1 R R-quadrato a.641.411 R-quadrato corretto.401 Errore std. della stima 3.08750 a. Stimatori: (Costante), eta, lingua ANOVAb Modello 1 Varianza spiegata Regressione Residuo Totale Somma dei quadrati 778.541 1115.33 1893.864 df 117 119 Media dei quadrati 389.71 9.533 F 40.835 a. Stimatori: (Costante), eta, lingua b. Variabile dipendente: lettura Coefficientia Modello 1 (Costante) lingua eta Coefficienti non standardizzati B Errore std. -1.003 1.573 -.077.104.9.57 Coefficienti standardizzati Beta -.056.659 t -.638 -.74 8.683 Sig..55.460.000 a. Variabile dipendente: lettura Notiamo come è cambiato l effetto della lettura Coefficienti di regressione Sig..000a

Esempio Concluderemo che la produzione linguistica è debolmente associata alla capacità di lettura Coefficientia Regressione semplice Modello 1 (Costante) lingua Coefficienti non standardizzati B Errore std. 11.316.867.4.14 Coefficienti standardizzati Beta.178 t 13.057 1.961 Sig..000.05 t -.638 -.74 8.683 Sig..55.460.000 a. Variabile dipendente: lettura Coefficientia Regressione multipla Modello 1 (Costante) lingua eta Coefficienti non standardizzati B Errore std. -1.003 1.573 -.077.104.9.57 Coefficienti standardizzati Beta -.056.659 a. Variabile dipendente: lettura Ma questa associazione dipende dalle differenze dovute all età A parità di età, non vi è una relazione tra produzione linguistica e capacità di lettura

Fine Fine della Lezione II