Esercizio 4 (Regressione multipla)

Documenti analoghi
Esempio 1 (Regressione semplice, punti influenti, regressione multipla, multicollinearità)

Es. la performance all esame in relazione alle ore di studio a casa e alle abilità cognitive

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Il modello di regressione

Strumenti informatici Realizzare l analisi di regressione multipla con SPSS

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo

Metodi di regressione multivariata

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Esercitazione del

Statistica Applicata all edilizia: il modello di regressione

Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia

ESERCIZIO 1. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con 3 fattori tra i soggetti.

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

ANOVA: ANALISI DELLA VARIANZA Prof. Antonio Lanzotti

LEZIONE N. 11 ( a cura di MADDALENA BEI)

Statistica. Alfonso Iodice D Enza

Corso di Statistica Medica. Studio dell effetto di più variabili indipendenti su una variabile dipendente: Regressione lineare multipla

Modelli con predittori qualitativi e modelli con interazioni

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

La matrice delle correlazioni è la seguente:

Analisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Statistica. Alfonso Iodice D Enza

Approfondimento La regressione multipla

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Strumenti informatici Realizzare l analisi della varianza con Excel e SPSS

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

ANALISI MULTIVARIATA

ANALISI DELLA VARIANZA

Strumenti informatici Calcolare il coefficiente di correlazione di Pearson con Excel e SPSS

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Tema d esame del 15/02/12

Università di Padova

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Politecnico di Milano - Scuola di Ingegneria Industriale. II Prova in Itinere di Statistica per Ingegneria Energetica 25 luglio 2011

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:

Test per la correlazione lineare

La regressione lineare multipla

Introduzione all Analisi della Varianza (ANOVA)

Applicazioni statistiche e utilizzo del package statistico Spss - 7

Corso di laurea in Statistica Statistica I Esercizi sulla regressione lineare semplice

Carte di controllo CUSUM. Le carte a somme cumulate risultano utili quando occorre individuare scostamenti dal valore centrale di piccola entità.

Esercizio 1 GRAFICO 1. X e Y sono indipendenti. X e Y non sono correlate. La correlazione tra X e Y è <1. X e Y sono perfettamente correlate

I. Foglio di esercizi su vettori linearmente dipendenti e linearmente indipendenti. , v 2 = α v 1 + β v 2 + γ v 3. α v 1 + β v 2 + γ v 3 = 0. + γ.

SCOPO DELL ANALISI DI CORRELAZIONE

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

REGRESSIONE E CORRELAZIONE

3) ANALISI DEI RESIDUI

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Teoria e tecniche dei test. Concetti di base

METODO DEI MINIMI QUADRATI

A1. La curva normale (o di Gauss)

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

ESERCIZI DI RIEPILOGO 1

Università del Piemonte Orientale. Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Statistica Descrittiva Variabili numeriche

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

Analisi della Varianza Fattoriale

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

GENETICA QUANTITATIVA

Università del Piemonte Orientale. Corso di Laurea in Biotecnologie. Corso di Statistica Medica. Statistica Descrittiva: Variabili numeriche

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Elementi di Psicometria con Laboratorio di SPSS 1

Verifica di ipotesi sui coefficienti di regressione. Verifica di ipotesi sul coefficiente angolare

Misure Ripetute. Analisi dei dati in disegni di ricerca con misure ripetute. Marcello Gallucci

percorso 4 Estensione on line lezione 2 I fattori della produzione e le forme di mercato La produttività La produzione

Università degli Studi di Padova Facoltà di Scienze Politiche

Analisi in componenti principali

La Variabilità statistica

STATISTICHE DESCRITTIVE Parte II

Il modello lineare misto

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

Modelli Multilineari e Misure di adeguatezza del modello

ANALISI DEI DATI PER IL MARKETING 2014

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

Un applicazione della modellistica ARCH-GARCH

Analisi della correlazione canonica

Contrasti e confronti multipli

Metodologie Quantitative

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Soluzione degli esercizi di riepilogo sul controllo statistico di qualità e sull ANOVA.

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Esercizio 1 Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche:

Analisi della Varianza - II

Transcript:

Esercizio (Regressione multipla) DATI Il data set employee.sav (o employee.xls; fonte SPSS) contiene 7 dati relativi agli impiegati di un azienda. Le variabili sono ID Employee Code BDATE Date of Birth EDUC Educational Level (years) (livello di istruzione, in anni di studio) JOBCAT Employment Category (=clerical =custodial =manager) SALARY Current Salary (in $) (stipendio attuale) SALBEGIN Beginning Salary (in $) (stipendio iniziale) JOBTIME Months since Hire (months) (anzianità, mesi dall assunzione) PREVEXP Previous Experience (months) MINORITY Minority Classification (=no, =yes) GENDER Sex (=male, =female) Domanda Vogliamo studiare da quali variabili dipenda lo stipendio (SALARY), utilizzando un modello di regressione lineare. Analisi Primi passi. Il problema: ci chiediamo quali variabili, fra quelle disponibili, possano spiegare, ovvero consentire di prevedere, lo stipendio ( salary ). La variabile dipendente (detta anche output) dunque è lo stipendio, ed è quantitativa continua. Fra le variabili indipendenti (dette anche esplicative, o regressori, o input), alcune sono quantitative continue (stipendio iniziale), altre quantitative discrete (ad esempio, istruzione intesa come numero di anni di studio), altre sono qualitative (o fattori ; ad esempio, il genere o la categoria). Per un primo sguardo sui dati, è utile, se la numerosità non è troppo elevata, disegnare le nuvole di punti (o diagrammi di dispersione) per ciascuna coppia di variabili (quantitative), oppure calcolare la matrice di correlazione. La tabella Correlations contiene i coefficienti di correlazione lineare tra le variabili che compaiono nel modello.

Pearson Correlation Current Salary Beginning Salary Previous Experience (months) Educational Level (years) Months since Hire Correlations Previous Educational Months Current Beginning Experience Level since Salary Salary (months) (years) Hire,, -,97,,,,,5, -, -,97,5, -,5,,, -,5,,7, -,,,7, Osserviamo che le variabili SALBEGIN e EDUC risultano correlate positivamente con la variabile SALARY ed anche correlate positivamente tra loro. Potrebbe perciò essere sufficiente inserire una sola delle due (ragionevolmente, SALBEGIN) fra le variabili esplicative del modello. (Nota: bisogna comunque fare attenzione nell interpretare la matrice di correlazione. La correlazione fra due variabili può essere influenzata dalla presenza di una terza variabile e dalla sua interazione con le due in esame Per tener conto di questo, può essere preferibile calcolare i coefficienti di correlazione parziale). ) Come primo esercizio, scegliamo come variabili esplicative tutte le variabili quantitative presenti nel data set. Ipotizziamo, cioè, che valga il seguente modello: SALARY = β PREVEXP+ + β EDUC + β SALBEGIN + β JOBTIME + β ε e supponiamo che siano soddisfatte le ipotesi forti.

Dal menu Analyse, selezioniamo Regression e quindi Linear. Selezioniamo come Dependent variable SALARY e come Independent(s) variable EDUC, JOBTIME, SLBEGIN, PREVEXP. Dalla finestra Linear Regression selezioniamo Statistics => Descriptives, Collinearity Diagnostics, Part e partial correlations e dalla finestra Residuals => Casewise Diagnostics, con Outliers outside: standard deviations. Save => dalla finestra Predicted values => Unstandardized dalla finestra Residuals => Standardized (in questo modo vengono salvate nella Window SPSS data editor, contenente la matrice di dati le variabili PRE_ (che contiene i valori stimati) e ZRE_ (che contiene i residui standardizzati) Plots => Histogram, Normal probability plot e produce all partial plots La tabella Descriptive Statistics contiene media e scarto quadratico medio (standard deviation) delle variabili che compaiono nel modello. Descriptive Statistics Current Salary Beginning Salary Previous Experience (months) Educational Level (years) Months since Hire Std. Mean Deviation N $,9.57 $7,75. 7 $7,.9 $7,7. 7 95,,59 7,9, 7,, 7 La tabella Correlations contiene i coefficienti di correlazione lineare tra le variabili che compaiono nel modello. Correlations Pearson Correlation Current Salary Beginning Salary Previous Experience (months) Educational Level (years) Months since Hire Previous Educational Months Current Beginning Experience Level since Salary Salary (months) (years) Hire,, -,97,,,,,5, -, -,97,5, -,5,,, -,5,,7, -,,,7, La tabella ANOVA contiene la somma dei quadrati del modello di regressione (Regression), la somma dei quadrati dei residui (Residuals) e la somma dei quadrati totali (Total). La statistica F data da Regression/( n k ) F = Residuals/ ( n )

dove k = (numero di variabili esplicative che compaiono nel modello), è altamente significativa (con un p-value prossimo a zero), perciò si rifiuta l ipotesi nulla del test H: β = β = β = β contro H: β per almeno un i Model = Regression Residual Total ANOVA b i Sum of Mean Squares df Square F Sig.,E+,79E+ 5,5, a,e+ 9 5577,E+ 7 a. Predictors: (Constant), Previous Experience (months), Months since Hire, Beginning Salary, Educational Level (years) b. Dependent Variable: Current Salary La tabella Coefficients contiene le stime dei parametri del modello (B), gli errori standard degli stimatori ottenuti con il metodo dei minimi quadrati (Std.Error) e le statistiche (t) e i p-values (Sig.) dei test di Students che verificano se i parametri siano significativamente diversi da zero. Model (Constant) Educational Level (years) Beginning Salary Months since Hire Previous Experience (months) a. Dependent Variable: Current Salary Unstandardized Coefficients B Std. Error Standardized Coefficients Beta Coefficients a Correlations t Sig. Zero-order Partial Part Collinearity Statistics Tolerance VIF -9,7 55,7 -,9, 9,9 5,59,,5,,,,,5,97,7,59,5,,,,,5,55,,,,95,75,,,,95,99, -7,,5 -, -,9, -,97 -, -,99,5,5 Il p-value del test che verifica H: β = contro H: β è prossimo a zero, quindi a tutti i livelli di significatività, si rifiuta l ipotesi che β sia zero. Analogamente i p-value dei test che verificano H: β i = contro H: β i, per i =, K,, sono prossimi a zero. Dalla matrice di correlazione non emerge in maniera evidente un problema di multicollinearità, salvo per le variabili stipendio iniziale (SALBEGIN) e anni di istruzione (EDUC), la cui correlazione è.; le altre variabili esplicative non risultano fortemente correlate tra di loro. Tuttavia, per approfondire questo aspetto, abbiamo, a priori, selezionato Statistics Collinearity Diagnostics, per cui la tabella Coefficients contiene i valori delle statistiche: Tolerance e VIF. Per la variabile esplicativa i -esima la statistica Tolerance è data da Tolerance=- R dove R i è il coefficiente di correlazione multipla tra la variabile i-esima e le altre variabili indipendenti. I valori di questa statistica sono compresi tra zero e uno. Quando questa statistica assume valori piccoli, allora la variabile è una combinazione lineare delle altre variabili indipendenti. La statistica VIF (Variance Inflation Factor) è il reciproco della statistica Tolerance. Un valore di soglia per la statistica VIF è rappresentato da (corrispondente a Tolerance=.). Nel nostro caso tutti i valori della statistica VIF risultano inferiori al valore di soglia, e ciò non segnala problemi di multicollinearità. i

Al fine di verificare se si è in presenza di un problema di multicollinearità, SPSS calcola anche o Gli autovalori della matrice X ( s) ' X ( s) (Eigenvalue), dove X è la matrice disegno di n ( p +), con n numero di osservazioni e p numero di regressori, e o o dimensione ( ) ( ) ( s) = XD( s) ( s) = [],, [ k] e x [ j] j -esimo vettore colonna della matrice X. i condition indices, dati da condition index j = X, con D diag ( x K x ) dove λ j è il j -esimo autovalore della matrice X ( s) ' X ( s) e λmax = max j p λ j Un condition index molto grande (maggiore di ) indica un elevato grado di collinearità la matrice coefficient variance-decomposition. Ogni riga di tale matrice mostra la proporzione di varianza dello stimatore di ogni coefficiente di regressione attribuibile all autovalore corrispondente. L ultima riga della matrice coefficient variance-decomposition mostra che la proporzione di varianza dello stimatore dell intercetta e dello stimatore del coefficiente di JOBTIME, attribuibili al quinto autovalore, sono molto elevate, anche se il condition index rimane al di sotto del valore di soglia. λ max λ j Collinearity Diagnostics a Model Dimension 5 a. Dependent Variable: Current Salary Educational Level (years) Variance Proportions Previous Experience (months) Condition Beginning Months Eigenvalue Index (Constant) Salary since Hire,5,,,,,,,5,9,,,,,, 5,95,,,5,,,75E- 5,79,,7,5,,,E- 5,,97,,,79, Il modello lineare stimato è: SALARY = 9.7 + 9.9 EDUC +.7 SALBEGIN +. JOBTIME 7. PREVEXP ˆβ = 9.9$ rappresenta l incremento che subisce la variabile dipendente SALARY, allorché il il numero di anni di studio (EDUC) aumenta di uno, fermi restando i valori assunti dalle altre variabili. ˆβ =.7$ rappresenta l incremento che subisce la variabile dipendente SALARY, allorché il salario iniziale (SALBEGIN) subisce un incremento di $, fermi restando i valori assunti dalle altre variabili. βˆ =. $ rappresenta l incremento che subisce la variabile dipendente SALARY, allorché il numero di mesi lavorativi nell azienda (JOBTIME) subisce un incremento di uno, fermi restando i valori assunti dalle altre variabili. 5

ˆβ = -7.$ rappresenta il decremento che subisce la variabile dipendente SALARY, allorché il numero di anni di esperienza lavorativa aumenta di uno, fermi restando i valori assunti dalle altre variabili. I partial residuals plots forniscono una versione grafica della correlazione parziale di ogni variabile esplicativa con la variabile dipendente, dopo che è stata rimossa l influenza delle altre variabili. Nel grafico relativo a SALBEGIN, riportato sotto, sono rappresentati sull asse delle ascisse i residui della regressione di SALBEGIN sulle altre variabili esplicative (EDUC, JOBTIME, PREVEXP), sull asse delle ordinate i residui della regressione di SALARY su SALBEGIN. La correlazione tra i due insiemi di residui rappresenta la correlazione parziale tra SALARY e SALBEGIN, al netto dell influenza delle altre variabili esplicative. Vi sono, in particolare, due osservazioni che si allontanano dalla nuvola di punti sia rispetto all asse delle ascisse che rispetto all asse delle ordinate. Partial Regression Plot Dependent Variable: Current Salary Current Salary - - - - 5 Beginning Salary La correlazione semplice tra SALARY e SALBEGIN è.. Dopo aver rimosso l influenza delle altre variabili, questo legame diminuisce, ma rimane comunque molto forte. Il coefficiente di correlazione parziale tra SALARY e SALBEGIN, al netto dell influenza delle altre variabili è pari a. (Tabella Coefficients) Nel grafico relativo a EDUC, riportato sotto, sono rappresentati sull asse delle ascisse i residui della regressione di EDUC sulle altre variabili esplicative (SALBEGIN, JOBTIME, PREVEXP) e sull asse delle ordinate i residui della regressione di SALARY su EDUC. La correlazione tra i due insiemi di residui rappresenta la correlazione parziale tra SALARY e EDUC, al netto dell influenza delle altre variabili.

Partial Regression Plot Dependent Variable: Current Salary Current Salary - - - - - - - Educational Level (years) La correlazione semplice tra SALARY e EDUC è.. Dopo aver rimosso l influenza delle altre variabili esplicative, questo legame diminuisce notevolmente. Il coefficiente di correlazione parziale tra SALARY e EDUC, al netto dell influenza delle altre variabili esplicative è pari a. (Tabella Coefficients). Analogamente è costruito il grafico relativo a JOBTIME. Partial Regression Plot Dependent Variable: Current Salary Current Salary - - - - Months since Hire La correlazione semplice tra SALARY e JOBTIME è.. Dopo aver rimosso l influenza delle altre variabili esplicative, questo legame aumenta.. Il coefficiente di correlazione parziale tra SALARY e JOBTIME, al netto dell influenza delle altre variabili esplicative, è pari a. (Tabella Coefficients). Analogamente, il grafico relativo a PREVEXP illustra la correlazione parziale tra SALARY e PREVEXP, al netto dell influenza delle altre variabili. 7

Partial Regression Plot Dependent Variable: Current Salary Current Salary - - - - Previous Experience (months) La correlazione semplice tra SALARY e PREVEXP è -.97. Dopo aver rimosso l influenza delle altre variabili esplicative, questo legame aumenta.. Il coefficiente di correlazione parziale tra SALARY e PREVEXP, al netto dell influenza delle altre variabili esplicative è pari a -.. (Tabella Coefficients) Il coefficiente di determinazione multipla R, che possiamo leggere sull output riportato sotto, è pari a.. Le variabili SALBEGIN, EDUC, JOBTIME, PREVEXP spiegano circa il % della variabilità di SALARY. Model Model Summary b Std. Error Adjusted R of the R R Square Square Estimate,9 a,,9 $7,5. a. Predictors: (Constant), Previous Experience (months), Months since Hire, Beginning Salary, Educational Level (years) b. Dependent Variable: Current Salary Analisi dei residui. Un ulteriore strumento per controllare la bontà di un modello di regressione è dato dall analisi dei residui. Se sono verificate le ipotesi forti i residui sono normali di media zero e varianza costante; i residui sono indipendenti i residui e i valori stimati sono indipendenti I due grafici successivi, un istogramma e un normal probability plot (NPP) dei residui standardizzati, sono utilizzati per verificare se sia plausibile l assunzione di normalità dei residui. Come possiamo osservare i residui seguono approssimativamente una distribuzione normale, sebbene sia riscontrabile una certa asimmetria nei dati, e l istogramma risulti più appuntito. Nel NPP, i punti tendono a disporsi, anche se con approssimazione non del tutto soddisfacente, lungo una retta. Si può concludere tuttavia che non c è grossa evidenza di una forte violazione dell ipotesi di normalità.

,. Histogram Dependent Variable: Current Salary Frequency Std. Dev =, Mean =, N = 7, 5,,,,,, -, -, -, -, Regression NPP of, Dependent Variable: Current Salary,75 Expected Cum Prob,5,5,,,5,5,75, Observed Cum Prob Il plot dei residui standardizzati rispetto agli indici del data set, riportato sotto, mostra che vi sono alcune osservazioni con residui standardizzati superiori a in valore assoluto (si veda anche la tabella Casewise Diagnostics). 9

- - - - 5 Employee Code Case Number 5 7 9 5 Casewise Diagnostics a Std. Residual Current Salary,7 $,75, $97,,7 $9,5 -,9 $, -,95 $,75, $, 5, $,75,59 $7,, $9,5 a. Dependent Variable: Current Salary Sono riportati di seguito i plots dei residui standardizzati rispetto alle variabili esplicative. - - - Educational Level (years)

- - - Beginning Salary - - - 7 9 Months since Hire - - - - 5 Previous Experience (months)

Se sono verificate le ipotesi forti, residui standardizzati e valori stimati sono indipendenti, quindi la nuvola di punti nel grafico riportato sotto deve disporsi in modo casuale. - - - Unstandardized Predicted Value Il grafico sembra mostrare presenza di eteroschedasticità con varianza crescente. Ricordiamo però che i dati sono riferiti a impiegati uomini e donne; l eteroschedasticità potrebbe essere dovuta ad una diversa variabilità all interno dei due gruppi. L analisi successiva inserisce l informazione GENDER (uomo/donna) nel modello. ) Nell analisi precedente abbiamo considerato come regressori le sole variabili quantitative. Inseriamo ora tra le variabili esplicative la variabile qualitativa (dummy) GENDER, a valori (maschio) e (femmina). Ipotizziamo, cioè, che valga il seguente modello: SALARY = β GENDER+ + β EDUC + β SALBEGIN + β JOBTIME + β PREVEXP + γ ε e supponiamo che siano soddisfatte le ipotesi forti. Dal menu Analyse, selezioniamo Regression e quindi Linear. Selezioniamo come Dependent variable SALARY e come Independent(s) variable EDUC, JOBTIME, SLBEGIN, PREVEXP, GENDER. Dalla finestra Linear Regression selezioniamo Statistics => dalla finestra Residuals => Casewise Diagnostics, con Outliers outside: standard deviations. Save => dalla finestra Predicted values => Unstandardized dalla finestra Residuals => Standardized (in questo modo vengono salvate nella Window SPSS data editor, contenente la matrice di dati, le variabili PRE_ (che contiene i valori stimati) e la variabile ZRE_ (che contiene i residui standardizzati) Plots => Histogram, Normal probability plot La statistica F contenuta nella tabella ANOVA Regression/( n k ) F = Residuals/ ( n )

dove k = 5 (numero di variabili esplicative che compaiono nel modello), è altamente significativa (con un p-value prossimo a zero), perciò si rifiuta l ipotesi nulla del test che i coefficienti siano tutti nulli. Model Regression Residual Total ANOVA b Sum of Mean Squares df Square F Sig.,E+ 5,E+,9, a,57e+ 5975,E+ 7 a. Predictors: (Constant), Sex, Months since Hire, Previous Experience (months), Beginning Salary, Educational Level (years) b. Dependent Variable: Current Salary I coefficienti delle variabili esplicative, contenuti nella tabella Coefficients, risultano tutti significativamente diversi da zero. Model (Constant) Beginning Salary Months since Hire Previous Experience (months) Educational Level (years) Gender a. Dependent Variable: Current Salary Coefficients a Unstandardized Coefficients B Std. Error Standardized Coefficients Beta -7,9 7,7 -,5,,7,,79,7, 5,5,5,9,5, -9,,5 -,9-5,, 59,,,,559,,97 79,7,5,9,5 t Sig. Il modello lineare stimato è dato da SALARY = -59.9+ 9. EDUC +,7 SALBEGIN + + 5.5 JOBTIME 9. PREVEXP se GENDER= SALARY = 7.9 + 59. EDUC +.7 SALBEGIN + + 5.5 JOBTIME 9. PREVEXP se GENDER = (male) (female) Il coefficiente di determinazione R, nella tabella Model Summary, è pari a. (leggermente superiore rispetto al coefficiente R del modello con quattro regressori). Tuttavia Regression Residual R = = cresce all aumentare del numero di regressori, per cui è utile, Total Total per confrontare due modelli, considerare Residual/( n-k-) R ad = (Adjusted R square) Total/( n-) che tiene conto del numero k di regressori. Si ha R =. 9 per il modello con quattro regressori stimato al punto (), e R ad =. per il modello con cinque regressori, per cui la variabile GENDER si dimostra utile nello spiegare la variabile dipendente SALARY (c è differenza fra uomini e donne..). ad

, L istogramma e il normal probability plot dei residui standardizzati, riportati sotto, mostrano una maggiore simmetria rispetto agli stessi grafici relativi al modello con quattro regressori (soprattutto tra e.5). E ancora presente tuttavia uno scostamento dalla normalità. Histogram Dependent Variable: Current Salary Frequency Std. Dev =,99 Mean =, N = 7, Regression 5,,,,,, -, -, -, -, NPP of, Dependent Variable: Current Salary,75 Expected Cum Prob,5,5,,,5,5,75, Observed Cum Prob Sono riportati sotto i grafici dei residui standardizzati (ZRE_), rispetto agli indici del data set (ID) e rispetto ai valori stimati (PRE_) rispettivamente. Non c è evidenza di un marcato miglioramento rispetto agli stessi grafici relativi al modello con quattro regressori.

- - - 5 Employee Code Case Number 5 7 9 5 Casewise Diagnostics a Std. Current Residual Salary,79 $,75, $97,,79 $9,5 -, $, -,9 $,75, $, 5, $,75,97 $7,,9 $9,5 a. Dependent Variable: Current Salary - - Unstandardized Predicted Value Riportiamo ora il grafico che ha sull asse delle ordinate i residui standardizzati e sull asse delle ascisse i valori stimati, contrassegnando i residui in base alla variabile GENDER. 5

Osserviamo che i residui tendono ad avere un comportamento differente all interno delle due categorie. Il modello costruito sembra più adeguato a spiegare il salario delle donne che non quello degli uomini. - - Gender m f Unstandardized Predicted Value ) Inseriamo ora tra le variabili esplicative due nuove variabili dummy che rappresentino le tre categorie lavorative descritte dalla variabile JOBCAT. Definiamo le variabili se JOBCAT = JB = altrimenti se JOBCAT = JB = altrimenti Quindi per JOBCAT= (clerical) JB=, JB= per JOBCAT= (custodial) JB=, JB= per JOBCAT= (manager) JB=, JB= Il modello di regressione diventa: SALARY = β + β EDUC + β + δ JB + δ JB + ε SALBEGIN + β JOBTIME + β PREVEXP+ γ GENDER+ Valutando l equazione riportata sopra, per i differenti valori delle variabili dummy, otteniamo sei differenti equazioni:

GENDER JOBCAT Equazione di regressione SALARY = β + γ + δ + β EDUC + β SALBEGIN + β male clerical ( ) + β PREVEXP+ ε male custodial SALARY = ( β + γ + δ ) + β male manager SALARY = ( β + γ ) + β female clerical SALARY = ( β + δ ) PREVEXP+ ε + β female custodial SALARY = ( β + δ ) PREVEXP+ ε + β EDUC + β + β EDUC + β + β EDUC + β PREVEXP+ ε + β EDUC + β SALBEGIN + β SALBEGIN + β SALBEGIN + β SALBEGIN + β + β PREVEXP+ ε female manager SALARY = β + β EDUC + β SALBEGIN + β + β PREVEXP+ ε JOBTIME + JOBTIME + JOBTIME + JOBTIME + JOBTIME + JOBTIME + Dal menu Analyse, selezioniamo Regression e quindi Linear. Selezioniamo come Dependent variable SALARY e come Independent(s) variable EDUC, JOBTIME, SLBEGIN, PREVEXP, GENDER, JB, JB. Dalla finestra Linear Regression selezioniamo Statistics => dalla finestra Residuals => Casewise Diagnostics, con Outliers outside: standard deviations. Save => dalla finestra Predicted values => Unstandardized dalla finestra Residuals => Standardized (in questo modo vengono salvate nella Window SPSS data editor, contenente la matrice di dati le variabili PRE_ (che contiene i valori stimati) e ZRE_ (che contiene i residui standardizzati) Otteniamo il seguente output: Model Model Summary b Std. Error Adjusted R of the R R Square Square Estimate,9 a,, $,.57 a. Predictors: (Constant), JB, Months since Hire, Beginning Salary, Previous Experience (months), Gender, Educational Level (years), JB b. Dependent Variable: Current Salary 7

Model Regression Residual Total ANOVA b Sum of Mean Squares df Square F Sig.,E+ 7,E+ 57,, a,e+,e+ 7 a. Predictors: (Constant), JB, Months since Hire, Beginning Salary, Previous Experience (months), Gender, Educational Level (years), JB b. Dependent Variable: Current Salary Model (Constant) Educational Level (years) Beginning Salary Months since Hire Previous Experience (months) Gender JB JB a. Dependent Variable: Current Salary Coefficients a Unstandardized Coefficients Standardized Coefficients B Std. Error Beta t Sig. 799,97 7,5,75, 99, 59,9,,,,,7,,97,,5,,,7, -,,57 -, -,, 7, 7,,55,59, -55,5, -,79 -,5, -5,5,5 -, -,9,7 Case Number 5 7 5 Casewise Diagnostics a Std. Current Predicted Residual Salary Value Residual,7 $,75 $,5. $,.9,59 $,5 $,. $,5. a. Dependent Variable: Current Salary,5 $97, $7,5.9 $,7., $9,5 $,7. $,55.5 -, $,75 $9,5. -$,95., $, $,59. $,5.97, $,75 $5,. $,.7, $, $7,7. $,.5,7 $9,5 $5,. $5,9. Osserviamo che il p-value del test che verifica l ipotesi nulla che tutti i coefficienti siano nulli (tabella ANOVA) è prossimo a zero, quindi rifiutiamo l ipotesi nulla La tabella Coefficients mostra che il p-value che verifica l ipotesi nulla H : β = contro H : β è molto elevato, per cui la costante non è statisticamente significativa.

Il coefficiente R ad (pari a.) è maggiore rispetto a quello dei modelli considerati precedentemente. Sono riportati sotto i grafici che riportano i residui standardizzati (rispetto agli indice del data set e ai valori stimati rispettivamente) contrassegnati in base alle sei categorie descritte dal modello lineare (=male clerical, =male custodial, =male manager, =female clerical, 5=female custodial, = female manager). Il secondo grafico, in particolare, mostra che i residui relativi alla categoria tendono ad avere un comportamento diverso rispetto a quelli relativi alle altre categorie. - - - CATEG 5 Employee Code - - CATEG Unstandardized Predicted Value E possibile che gli effetti di GENDER e JOBCAT sulla determinazione dello stipendio non siano additivi. Effetti non additivi di queste variabili possono essere valutati costruendo delle variabili aggiuntive che misurino gli effetti moltiplicativi o di interazione. Tuttavia l inserimento 9

di tali variabili tra le variabile esplicative non ha condotto alla costruzione di un modello migliore. Perciò un modello lineare risulta inadeguato a descrivere il salario degli impiegati appartenenti alla terza categoria.