Esercizio 5 (Scelta delle variabili)
|
|
- Simona Cuomo
- 5 anni fa
- Visualizzazioni
Transcript
1 Esercizio (Scelta delle variabili) DATI Il data set macro.sav (o macro.xls) contiene dati relativi al e riferiti a stati, raccolti dall UNDP (United Nations Development Programme). Le variabili sono COUNTRY name of country per capita (PPP US $) LIFE_EXP Life expectancy at birth (years) Urban population (as % of total) EXP_EDUC Public expenditure on education as % of (998-) NET Net secondary enrolment ratio TELEPH Telephone mainlines (per people) Cellular subscribers (per people) PAT Patents granted to residents (per million people) REC Receipts of royalties and licence fees (US$ per person) SCIEN Scientist and engineers in R & D (per million people) Domanda Vogliamo studiare quali siano le variabili maggiormente rilevanti per prevedere la speranza di vita (LIFE_EXP). A questo scopo si vuole costruire un modello di regressione lineare per la speranza di vita, utilizzando il metodo cosiddetto di backward elimination per selezionare le variabile esplicative da includere nel modello. Analisi Vogliamo costruire e stimare un modello di regressione per la variabile speranza di vita (LIFE_EXP), in funzione delle variabili esplicative disponibile nel data-set. L analisi da condurre richiede dunque due passi: selezionare il modello, ovvero studiare quali siano le variabili rilevanti da includere nel modello di regressione; procedere alla stima del modello costruito. SPSS contiene alcune procedure di selezione automatica del modello (backward, forward, stepwise). Qui illustriamo l uso della procedura backward. Dal menu Analyse, selezioniamo Regression e quindi Linear. Selezioniamo come Dependent variable LIFE_EXP, come Independent(s) variable,, EXP_EDUC, NET, TELEPH,, PAT, REC, SCIEN e come metodo di selezione del modello Method Backward. Dalla finestra Linear Regression selezioniamo Statistics => Descriptives e Collinearity diagnostics
2 Output La tabella Descriptive Statistics contiene media e deviazione standard delle variabili prese in esame. Descriptive Statistics LIFE_EXP EXP_EDUC NET TELEPH PATENTS RECEIPTS SCIENTIS Std. Mean Deviation N,,99, 9,,8,8,8,8 88,8 8,99 9, 8,,8,89 9, 9,,9,9,, Dalla tabella Correlations, riportata sotto, si osserva che la variabile che ha correlazione (positiva) più alta con la variabile dipendente LIFE_EXP è NET (.), mentre la variabile che ha correlazione (positiva) più bassa con la variabile dipendente LIFE_EXP è PATENTS (.9). Al di fuori della prima riga e della prima colonna vi sono le correlazioni tra le variabili indipendenti. Possiamo osservare come alcune variabili siano fortemente correlate tra loro (ad esempio NET, TELEPH,, SCIENTIS), quindi ci aspettiamo che un modello che include tutte le variabili disponibili come regressori risulti sovraparametrizzato. Correlations Pearson Correlation LIFE_EXP EXP_EDUC NET TELEPH PATENTS RECEIPTS SCIENTIS LIFE_EXP EXP_EDUC NET TELEPH PATENTS RECEIPTS SCIENTIS Si tratta dunque di studiare quali siano le variabili maggiormente rilevanti per prevedere la speranza di vita. La tabella Variables Entered/Removed contiene i risultati del metodo di selezione delle variabili detto backward elimination. SPSS stima un modello con tutti e nove i regressori. Quindi ad ogni step elimina la variabile meno significativa. Nella colonna variables removed, PATENTS è la prima variabile eliminata e così via fino a che nel modello rimangono le tre variabili, e.
3 Variables Entered/Removed b Variables Model Variables Entered Removed Method SCIENTIS,, EXP_EDUC,, PATENTS, RECEIPTS,, NET, TELEPH a. Enter Backward (criterion: Probability of. PATENTS F-to-remove >=.). Backward (criterion: Probability of. EXP_EDUC F-to-remove >=.). Backward (criterion: Probability of. TELEPH F-to-remove >=.). Backward (criterion: Probability of. NET F-to-remove >=.). Backward (criterion: Probability of. RECEIPTS F-to-remove >=.). Backward (criterion: Probability of. SCIENTIS F-to-remove >=.). a. All requested variables entered. b. Dependent Variable: LIFE_EXP Il valore di R per il modello con tutti e nove predittori (modello pieno ) è., e per l ultimo modello indicato, con tre predittori, è minore, pari a.. Il confronto fra modelli va fatto tuttavia sulla base dell indice aggiustato, che introduce una penalità per il maggior numero di parametri. Il valore di R per il modello pieno è.8, mentre per il modello a ad regressori R ad è.. La differenza fra i valori di R ad nei due modelli è ridotta. R assume il valore più elevato (.) in corrispondenza al quinto modello, caratterizzato da ad cinque regressori:,,, SCIENTIS e RECEIPTS. Model R Model Summary h R Square Adjusted R Square Std. Error of the Estimate.89 a b....8 c....8 d....8 e f g...9 a. Predictors: (Constant), SCIENTIS,, EXP_EDUC,, PATENTS, RECEIPTS,, NET, TELEPH b. Predictors: (Constant), SCIENTIS,, EXP_EDUC,, RECEIPTS,, NET, TELEPH c. Predictors: (Constant), SCIENTIS,,, RECEIPTS,, NET, TELEPH d. Predictors: (Constant), SCIENTIS,,, RECEIPTS,, NET e. Predictors: (Constant), SCIENTIS,,, RECEIPTS, f. Predictors: (Constant), SCIENTIS,,, g. Predictors: (Constant),,, Dependent Variable: LIFE_EXP h. La tabella seguente contiene la parte della tabella Coefficients relativa alla stima dei coefficienti del modello completo. Il modello completo è caratterizzato da sette valori della
4 statistica T molto bassi (minori di in valore assoluto). Le variabili corrispondenti sono perciò candidate ad essere eliminate. Il metodo Backward elimination elimina inizialmente proprio la variabile con il valore della statistica T più basso (PATENTS). In questa tabella compaiono anche le Collinearity Statistics: Tolerance e VIF. Per la variabile i -esima la statistica Tolerance è data da Tolerance=-R dove R è il coefficiente di correlazione multipla tra quella variabile e le altre variabili i indipendenti. I valori di questa statistica sono compresi tra e. Quando questa statistica assume valori piccoli, allora la variabile è una combinazione lineare delle altre variabili indipendenti. In SPSS il valore soglia per questa statistica è.. Per essere inclusa nel modello, una variabile deve essere caratterizzata da un valore della statistica Tolerance maggiore del valore soglia, indipendentemente dal metodo di selezione usato. La statistica VIF (Variance Inflation Factor) è il reciproco della statistica Tolerance. In questo caso la variabile che ha tolleranza più bassa e quindi VIF più alta, è TELEPH. Ciò significa che il 9.% della variabilità di TELEPH, nel modello, è spiegato dagli altri predittori, segnalando quindi la presenza di forte collinerità. La variabile TELEPH è fra quelle che saranno escluse nella costruzione del modello ottimale. La tabella successiva contiene la parte della tabella Coefficients relativa alla stima dei coefficienti per i modelli,,,,,. Ad ogni passo viene eliminata la variabile con il valore più basso della statistica T. Il valore più basso della statistica T nel modello è.99. Dal momento che, per default, vengono escluse le variabili che hanno una statistica T associata minore di., non viene eliminata alcuna altra variabile. Formalmente, per eliminare le variabili non significative SPSS fa riferimento, in questo caso, al p-value relativo alla statistica F-to-remove che è data dal quadrato della statistica T. Per default le variabili con p-value minore di. vengono eliminate dal modello. i
5 Model (Constant) EXP_EDUC NET TELEPH PATENTS RECEIPTS SCIENTIS Unstandardized Coefficients a. Dependent Variable: LIFE_EXP a Coefficients Standardi zed Coefficie nts Collinearity Statistics t Sig. Tolerance VIF B Std. Error Beta E E E E E E E Model (Constant) EXP_EDUC NET TELEPH RECEIPTS SCIENTIS (Constant) NET TELEPH RECEIPTS SCIENTIS (Constant) NET RECEIPTS SCIENTIS (Constant) RECEIPTS SCIENTIS (Constant) SCIENTIS (Constant) a. Dependent Variable: LIFE_EXP Unstandardized Coefficients B Std. Error Coefficients a Standardi zed Coefficie nts Beta Collinearity Statistics t Sig. Tolerance VIF E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E E
6 Al fine di verificare se si è in presenza di un problema di multicollinearità, SPSS calcola anche o Gli autovalori della matrice X ( s) ' X ( s) (Eigenvalue), dove X è la matrice disegno di n ( p +), con n numero di osservazioni e p numero di regressori, e o o dimensione ( ) X, con D diag ( x K x ) ( ) ( s) = XD( s) X. i condition indices, dati da ( s) [],, [ k] = e x [ j] j -esimo vettore colonna della matrice condition index j = dove λ j è il j -esimo autovalore della matrice X ( s) ' X ( s) e λmax = max j p λ j Un condition index molto grande (maggiore di ) indica un elevato grado di collinearità la matrice coefficient variance-decomposition. Ogni riga di tale matrice mostra la proporzione di varianza dello stimatore di ogni coefficiente di regressione attribuibile all autovalore corrispondente. λ max Collinearity Diagnostics a λ j Model Dimension a. Dependent Variable: LIFE_EXP Condition Variance Proportions Eigenvalue Index (Constant) EXP_EDUC NET TELEPH PATENTS RECEIPTS SCIENTIS 8,,,,,,,,,,,,,9,,,,,,,,,,,,8,,,,,,,,,,8, 9,E- 9,98,,,,,,,,,8,,E-,,,,,,,,,,,9,88E-,9,,,,,,,,,,,8E-,8,,,,,,8,,,,,E-,,,,,,,,,,,,E-,,,,,,,9,,,8,,E- 8,,9,,9,,88,,,,, 8,9,,,,,,,,,,,,,,,,,,,,,, 8,899,,,,,,,,,,989E-,88,,,,,,,,,,9E-,,,,,,,,,,,E- 9,,,,,,,,,,,E-,9,,,,,,,,,,E- 8,9,,,,8,,,8,9,,E- 8,88,9,,,8,89,,,,,9,,,,,,,,,,,,,,,,,,,, 8,,,,,,,,9,8,98E-,,,,,,,,,,E-,9,,,,,,8,,,E-,,,,,,,,,,99E-,9,,8,,,,8,,,E- 9,,9,,,9,,,,,,,,,,,,,,,,,,,,,8, 9,E- 8,,,,,,,,8,9E- 9,,,,,,8,,,99E-,,,8,,,,, 8,99E-,,,,9,,9,,,8E- 8,,8,,,9,,,,8,,,,,,,,9,8,,,,,, 9,9E-,8,,,,,,,89E- 8,89,,,,9,,,99E-,,,9,,,,,9E-,,98,,9,,9,,8,,,,,,,,,,,,,,898E- 8,9,,,,9,,E-,,,9,,, 8,E-,8,9,,9,,,8,,,,, 8,8E-,9,,8,,,9E- 9,9,,8,, 8,E-,,9,,9,
7 L ultima riga della matrice coefficient variance-decomposition, relativa al settimo modello, mostra che la proporzione di varianza dello stimatore dell intercetta e dello stimatore del coefficiente di, attribuibili al quarto autovalore, sono molto elevate, anche se il condition index rimane al di sotto del valore di soglia. Il modello finale, stimato con il metodo Backward elimination, è LIFE _ EXP = POP _ URB +. Esaminando i Beta coefficients (si tratta delle stime dei coefficienti di regressione basate su variabili standardizzate e quindi espresse nella stessa unità di misura), nella tabella Coefficients, si può osservare che, e rispettivamente, hanno un peso via via crescente nella previsione di LIFE_EXP. Correlazione parziale e analisi dei residui. Approfondiamo ora l analisi del modello finale ottenuto con la procedura di backward selection. Per poter svolgere ulteriori elaborazioni, ristimiamolo separatamente. Dal menu Analyse, selezioniamo Regression e quindi Linear. Selezioniamo come Dependent variable LIFE_EXP e come Independent(s) variable, e. Dalla finestra Linear Regression selezioniamo Statistics => Part and Partial correlations e dalla finestra Residuals => Casewise Diagnostics, con Outliers outside: standard deviations. Save => dalla finestra Predicted values => Unstandardized dalla finestra Residuals => Standardized (in questo modo vengono salvate nella Window SPSS data editor, contenente la matrice di dat,i le variabili PRE_ (che contiene i valori stimati) e la variabile ZRE_ (che contiene i residui standardizzati) e Studentized deleted dalla finestra Distances => Cook s and Leverage values dalla finestra Influence Statistics => Standardized DfBeta(s) e DfFit Plots => Normal probability plot e Produce all partial plots I partial residuals plots, riportati sotto, forniscono una versione grafica della correlazione parziale di ogni variabile esplicativa con la variabile dipendente, dopo che è stata rimossa l influenza delle altre variabili. I valori assunti dai coefficienti di correlazione parziale sono contenuti in una parte della tabella Coefficients, riportata di seguito Coefficients a Model Correlations Zero-order Partial,89,,,,, a. Dependent Variable: LIFE_EXP
8 Partial Regression Plot Dependent Variable: LIFE_EXP LIFE_EXP France Sweden Australi New Italy Zeal Slovakia Portugal Argentin Israel - Korea, R - - Partial Regression Plot Dependent Variable: LIFE_EXP France Sweden New Zeal Australi Israel LIFE_EXP Italy Slovakia Portugal - - Argentin Korea, R 8
9 Partial Regression Plot LIFE_EXP Dependent Variable: LIFE_EXP Sweden Italy France New Zeal Portugal Slovakia Australi Korea, United R K - Argentin Israel _ Uno strumento per controllare la bontà di un modello di regressione è dato dall analisi dei residui. Se sono verificate le ipotesi forti, allora i residui sono normali di media zero e varianza costante; i residui sono indipendenti i residui e i valori stimati sono indipendenti I due grafici successivi, un istogramma e un normal probability plot (NPP) dei residui standardizzati, sono utilizzati per verificare se sia plausibile l assunzione di normalità dei residui. Come possiamo osservare i residui seguono approssimativamente una distribuzione normale, sebbene sia riscontrabile una certa asimmetria nei dati. Nel NPP, i punti tendono a disporsi approssimativamente lungo una retta. Si può concludere che i residui standardizzati sono realizzazioni di una distribuzione normale standard. Histogram Dependent Variable: LIFE_EXP Frequency -, -, -, -,,,,,,, Std. Dev =,9 Mean =, N =, Regression Standardized Residual 9
10 . NPP of Standardized Residual Dependent Variable: LIFE_EXP. Expected Cum Prob Observed Cum Prob Il plot dei residui standardizzati rispetto agli indici del data set mostra che l osservazione con il residuo più elevato (.99, si veda la tabella Casewise diagnostic, dove sono riportati i residui standardizzati maggiori di in valore assoluto) è quella relativa al Giappone. Standardized Residual Australi - - Sweden France New Italy Zeal Israel Portugal Argentin Korea, R Slovakia INDEX Casewise Diagnostics a Case Number Std. Predicted Residual LIFE_EXP Value Residual,99 8,,8, a. Dependent Variable: LIFE_EXP Sono di seguito riportati i grafici dei residui standardizzati rispetto alle variabili esplicative. Tali grafici non mostrano in maniera evidente la presenza di non linearità
11 Standardized Residual - - Slovakia Argentin Korea, R New Zeal Portugal Israel Sweden France Italy Australi Standardized Residual - - Slovakia Italy Portugal France Sweden New Zeal Australi Israel Argentin Korea, R 8 9 Standardized Residual - - Argentin France Sweden New Zeal Italy Slovakia Australi Portugal Israel Korea, R 8 E riportato di seguito il grafico dei residui standardizzati rispetto ai valori stimati. Non c è forte evidenza di eteroschedasticità o di dipendenza tra residui e valori stimati.
12 Standardized Residual Slovakia - - Argentin France Sweden New ZealItaly Australi Portugal Israel Korea, R Unstandardized Predicted Value Studiamo ora se vi siano punti influenti. La Cook s distance, calcolata in corrispondenza ad ogni osservazione e salvata come variabile COO_, può evidenziare la presenza di eventuali punti influenti, cioè di punti che influenzano le stime dei coefficienti di regressione. La statistica Centered Leverage Value, calcolata in corrispondenza ad ogni osservazione e salvata come variabile LEV_, può evidenziare la presenza di potenziali punti outliers per le variabili indipendenti. Nel nostro caso entrambe le statistiche assumono valori inferiori al valore di soglia, in corrispondenza ad ogni osservazione. La distanza di Cook misura l influenza di un singolo caso sulla stima dei coefficienti di regressione, quando il singolo caso viene rimosso dal processo di stima. Un valore della distanza di Cook > indica che il punto è influente Il leverage di un caso è una misura della distanza tra il vettore contenente i valori delle variabili esplicative associate a quel caso e la media dei vettori contenenti i valori delle variabili esplicative associate a tutti i casi. Per n>, p> (dove n è il numero dei dati e p è il numero di variabili esplicative) il valore soglia per individuare potenziali punti outlier per le variabili esplicative è p/n (Belsley et al., 98), altrimenti Vellmann e Welsch (98) suggeriscono p/n. Nel nostro caso p/n=.
13 Predicted Value Std. Predicted Value Standard Error of Predicted Value Adjusted Predicted Value Residual Std. Residual Stud. Residual Deleted Residual Stud. Deleted Residual Mahal. Distance Cook's Distance Centered Leverage Value a. Dependent Variable: LIFE_EXP Residuals Statistics a Std. Minimum Maximum Mean Deviation N, 9,,,9 -,,8,,,,9,9,,9 8,,, -,9, -,E-,9 -,,99,,9 -,9, -,, -,88, -,E-,8 -,9, -,,8,,9,8,,,8,,9,,8,,8 Tuttavia il grafico che riporta i valori della statistica Centered Leverage Value sull asse delle ascisse e i Studentized Deleted Residuals sull asse delle ordinate, evidenzia come Stati Uniti sia potenzialmente un osservazione outlier per le variabili indipendenti. Inoltre lo stesso grafico, con le etichette rappresentate dai valori della distanza di Cook, evidenzia come Stati Uniti, con distanza di Cook pari a.8, sia potenzialmente un osservazione che influenza la stima dei coefficienti. I successivi due valori più elevati della distanza di Cook corrispondono alle osservazioni Ungheria (.) e Irlanda (.). Studentized Deleted Residual FranceSweden New Zeal Italy Australi Slovakia Portugal Israel Argentin Korea, United R K Centered Leverage Value
14 ,9 Studentized Deleted Residual,9,,,,,,,,8,,,8,8,,9,,, -,8 -,,, -,,,,,8, Centered Leverage Value La statistica DFIT di un caso misura l influenza di quel caso sulla stima dei coefficienti di regressione e sulla loro varianza, quando viene rimosso dal processo di stima. Le statistiche DFBETA(s) di un caso misurano l influenza di quel caso, quando viene rimosso dal processo di stima, sulle stime di ogni coefficiente di regressione separatamente.
15 ,, Sweden Italy Slovakia Australi France New Zeal, Israel Portugal Korea, R Argentin -, -, DFFIT -, INDEX Standardized DFBETA Intercept,,, Australi -, -, -, -,8 Sweden Slovakia Italy Israel France Korea, R New Zeal Portugal Argentin INDEX,, Standardized DFBETA, Argentin Sweden Italy Australi New Zeal Slovakia, France Israel Portugal Korea, R -, -, INDEX
16 , Standardized DFBETA, Korea, R France Australi United Israel Portugal Argentin K New Zeal Italy Slovakia, Sweden -, -, -, INDEX,, Standardized DFBETA, Sweden Australi, -, -, New Zeal Portugal France Israel Slovakia Italy Korea, R Argentin INDEX I grafici confermano che le osservazioni Stati Uniti, Irlanda e Ungheria sono quelle che influenzano maggiormente la stima dei coefficienti di regressione.
Esempio 1 (Regressione semplice, punti influenti, regressione multipla, multicollinearità)
Esempio (Regressione semplice, punti influenti, regressione multipla, multicollinearità) DATI Il data set cigarettes.sav (fonte http://www.amstat.org/publications/jse/jse_data_archive.html) contiene dati
Esercizio 4 (Regressione multipla)
Esercizio (Regressione multipla) DATI Il data set employee.sav (o employee.xls; fonte SPSS) contiene 7 dati relativi agli impiegati di un azienda. Le variabili sono ID Employee Code BDATE Date of Birth
Regressione Semplice. Correlazioni. sconto leverage. sconto Correlazione di Pearson 1,275. Sign. (a due code),141
Regressione Semplice Analisi Per avere una prima idea della struttura di dipendenza fra le variabili in esame, possiamo cominciare col costruire la matrice di correlazione delle variabili presenti nel
Es. la performance all esame in relazione alle ore di studio a casa e alle abilità cognitive
Regressione Tale tecnica esamina e studia la relazione tra una o più variabili indipendenti e una variabile dipendente. L insieme dei parametri riassumono la relazione tra VD e VI, sotto le ipotesi che
Metodi Quantitativi per Economia, Finanza e Management
Metodi Quantitativi per Economia, Finanza e Management Lezione n 9 Regressione lineare multipla: la valutazione del modello, multicollinearità, metodi automatici di selezione dei regressor, analisi di
Regressione. Monica Marabelli. 15 Gennaio 2016
Regressione Monica Marabelli 15 Gennaio 2016 La regressione L analisi di regressione é una tecnica statistica che serve a studiare la relazione tra variabili. In particolare, nel modello di regressione
OLS multivariato: effetti parziali, multicollinearità
OLS multivariato: effetti parziali, multicollinearità CONCETTI DA RECUPERARE Per stimare questo modello utilizziamo le seguenti variabili esplicative educ, exper e tenure Primo passo da compiere sarà quello
Metodologia della ricerca sul singolo e gruppi di individui
TIPI DI RICERCA Metodologia della ricerca sul singolo e gruppi di individui Chiara Valeria Marinelli Chiaravaleria.marinelli@unisalento.it DESCRITTIVA. Obiettivo: osservare e registrare la frequenza con
Strumenti informatici 7.5 - Realizzare l analisi di regressione multipla con SPSS
Strumenti informatici 7.5 - Realizzare l analisi di regressione multipla con SPSS Nella sua forma base, Excel non consente di realizzare un analisi di regressione multipla, mentre SPSS offre un ventaglio
Regressione semplice: come applicarla come interpretare i risultati
Regressione semplice: come applicarla come interpretare i risultati Questo materiale è utile ai fini dell esecuzione della regressione con software statistico. Questo materiale non è in alcun modo utile
Capitolo 12 La regressione lineare semplice
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.
Correlazione e regressione
Correlazione e regressione Il termine associazione è largamente usato nella letteratura scientifica ed esprime la relazione che esiste tra due variabili Per studiare l associazione tra due variabili bisogna
Analisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura
Analisi grafica residui in R Da output grafico analisi regressionelm1.csv Vedi dispensa peso-statura 1) Il plot in alto a sinistra mostra gli errori residui contro i loro valori stimati. I residui devono
Modelli che spiegano l attività fotosintetica alla luce di parametri fisiologici della vegetazione. Dr. Alessandro Ferrarini
Modelli che spiegano l attività fotosintetica alla luce di parametri fisiologici della vegetazione Dr. Alessandro Ferrarini variabile dipendente: NDVI (indice di attività fotosintetica) variabili indipendenti:
0.1 Percorrenza e Cilindrata
0.1 Percorrenza e Cilindrata Iniziamo ora un analisi leggermente più complessa basata sempre sui concetti appena introdotti. Innanzi tutto possiamo osservare, dal grafico ottenuto con il comando pairs,
Regressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value
Inferenza: singolo parametro Sistema di ipotesi: H 0 : β j = β j0 H 1 : β j β j0 statistica test t b j - b s a jj j0 > t a, 2 ( n-k) confronto con valore t o p-value Se β j0 = 0 X j non ha nessuna influenza
Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.
Coppie o vettori di dati Spesso i dati osservati sono di tipo vettoriale. Ad esempio studiamo 222 osservazioni relative alle eruzioni del geyser Old Faithful. Old Faithful, Yellowstone Park. Old Faithful
Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1
Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare
Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE
Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova
Laboratorio di Statistica Aziendale Modello di regressione lineare multipla
Laboratorio di Statistica Aziendale Modello di regressione lineare multipla Michela Pasetto michela.pasetto2@unibo.it Definizione del modello OLS (semplice) L obiettivo della regressione lineare è di valutare
Il modello di regressione
Il modello di regressione Capitolo e 3 A M D Marcello Gallucci Milano-Bicocca Lezione: II Concentti fondamentali Consideriamo ora questa ipotetica ricerca: siamo andati in un pub ed abbiamo contato quanti
ESERCIZIO 1. Di seguito vengono riportati i risultati di una regressione multipla effettuata secondo il metodo standard (o per blocchi )
ESERCIZIO. Di seguito vengono riportati i risultati di una regressione multipla effettuata secondo il metodo standard (o per blocchi ) a. b. Riepilogo del modello b R-quadrato Errore std. Durbin-W R R-quadrato
MODELLI RIDOTTI COME SI EFFETTUA IL TEST DI NULLITÀ DI UN SOTTOINSIEME DI COEFFICIENTI IN SAS
MODELLI RIDOTTI COME SI EFFETTUA IL TEST DI NULLITÀ DI UN SOTTOINSIEME DI COEFFICIENTI IN SAS proc reg data=fitness; model Oxygen=Age Weight RunTime RunPulse RestPulse MaxPulse ; test Weight, RestPulse;
Fasi del modello di regressione
Fasi del modello di regressione Specificazione del modello: scelta del tipo di funzione da utilizzare per descrivere un fenomeno; definizione delle ipotesi di base Stima dei parametri: uso di stimatori
Descrizione per la costruzione del modello di regressione
Descrizione per la costruzione del modello di regressione Formulazione delle Ipotesi Ricerca delle variabili esplicative Dati Modello Stima dei parametri Verifica Modello IL MODELLO DI REGRESSIONE LINEARE
Anova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011
Anova e regressione Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011 Nella sperimentazione agronomica e biologica in genere è normale organizzare
Multicollinearità. Strumenti quantitativi per la gestione
Multicollinearità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 1/13 Quando non tutto va come dovrebbe Si parla di multi-collinearità
Regressione lineare. Metodi Quantitativi per Economia, Finanza e Management. Esercitazione n 9
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n 9 Metodi Quantitativi per Economia, Finanza e Management Obiettivi di questa esercitazione: 1 2 3 4 Proc Reg Variabili
Il modello di regressione
Il modello di regressione Capitolo e 3 A M D Marcello Gallucci Milano-Bicocca Lezione: II Concentti fondamentali Consideriamo ora questa ipotetica ricerca: siamo andati in un pub ed abbiamo contato quanti
Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo
Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo 1 Controllo di ipotesi sui parametri In questo contesto risulta necessario avvalersi dell assunzione di normalita
STATISTICA. Regressione-2
STATISTICA Regressione-2 Fare sempre il grafico! Fig. 5.12 pg 178, Statistica di S. Iacus Fare sempre il grafico! y 0 2 4 6 8 10 =-1 =+0.79 outlier o dato influente 0 2 4 6 8 10 x Inferenza Il modello
Metodi Statistici per il Management
Metodi Statistici per il Management Statistica Multivariata I Simone Borra - Roberto Rocci Introduzione e obiettivi La statistica multivariata si occupa di analizzare e studiare in modo simultaneo un set
Metodi statistici per le ricerche di mercato
Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2015-2016 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per
LABORATORI DI STATISTICA SOCIALE
Università degli Studi di Bergamo Dipartimento di Scienze Umane e Sociali Corso di Laurea in Scienze Psicologiche LABORATORI DI STATISTICA SOCIALE Lezione V Prof. Andrea Greco Dott.ssa Roberta Adorni Dott.
Regressione lineare. Metodi Quantitativi per Economia, Finanza e Management. Esercitazione n 9
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n 9 Metodi Quantitativi per Economia, Finanza e Management Obiettivi di questa esercitazione: 1 2 3 4 lm step lm.beta
II ESERCITAZIONE ESERCIZIO
II ESERCITAZIONE ESERCIZIO 1 Quale percentuale di osservazioni sotto la curva normale standardizzata cade nell'intervallo compreso tra i valori z=-1 e z=+1? a) 66% circa b) 70,2% circa c) 68,2% circa d)
Metodi di regressione multivariata
Metodi di regressione multivariata Modellamento dei dati per risposte quantitative I metodi di regressione multivariata sono strumenti utilizzati per ricercare relazioni funzionali quantitative tra un
LE OPINIONI DEI CONSUMATORI CIRCA LE NUOVE TIPOLOGIE DI ALIMENTAZIONE PER AUTOMOBILI
LE OPINIONI DEI CONSUMATORI CIRCA LE NUOVE TIPOLOGIE DI ALIMENTAZIONE PER AUTOMOBILI - GRUPPO Codari Stefano (19492) Ferrigno Chiara (19853) De Agostini Karin (19507) Giraldo Andrea (19723) Analisi fattoriale
ESERCITAZIONE REGRESSIONE MULTIPLA
ESERCITAZIONE REGRESSIONE MULTIPLA Dati delle Nazioni Unite del 2005 riferiti, per diverse nazioni, al tasso di feconditá (bambini per donna) (variabile Fert), alla percentuale di donne che usa contraccettivi
GRUPPO QUATTRO RUOTE. Alessandro Tondo Laura Lavazza Matteo Scordo Alessandro Giosa Gruppo Quattro Ruote 1
GRUPPO QUATTRO RUOTE Alessandro Tondo 19632 Laura Lavazza 19758 Matteo Scordo 19813 Alessandro Giosa 19894 Gruppo Quattro Ruote 1 3.1 Analisi fattoriale (continua) Confrontando dal punto di vista interpretativo
LABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 6 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI REGRESSIONE LINEARE: SPORT - COLESTEROLO ESERCIZIO 8: La tabella seguente
Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.
Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:
La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.
Lezione 14 (a cura di Ludovica Peccia) MULTICOLLINEARITA La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative. In un modello di regressione Y= X 1, X 2, X 3
Il modello di regressione lineare multipla. Il modello di regressione lineare multipla
Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa
DIAGNOSTICA DEI RESIDUI
DIAGNOSTICA DEI RESIDUI Per valutare la bontà dei residui in un modello di regressione lineare esistono diverse possibilità, alcune di tipo esplorativo basate sulla costruzione di opportuni grafici ed
Statistica descrittiva: analisi di regressione
Statistica descrittiva: analisi di regressione L analisi di regressione permette di esplorare le relazioni tra due insiemi di valori (p.e. i valori di due attributi di un campione) alla ricerca di associazioni.
Stima dei parametri di modelli lineari
Stima dei parametri di modelli lineari Indice Introduzione................................ 1 Il caso studio................................ 2 Stima dei parametri............................ 3 Bontà delle
Prova scritta di Statistica Applicata alle Decisioni Aziendali Prof.ssa Conigliani -...
Prova scritta di Statistica Applicata alle Decisioni Aziendali Prof.ssa Conigliani -... COGNOME:............................................................ NOME:.....................................................................
Metodologie Quantitative
Metodologie Quantitative Regressione Lineare Nozioni di base M Q Marco Perugini Milano-Bicocca 1 I COMUNICAZIONE MERCOLEDI 11 NOVEMBRE NON CI SARA LEZIONE DI MQ Concetti base Con l analisi di regressione
mercato A.A. 2014/15 modello di regressione lineare
Statistica per le ricerche di mercato A.A. 2014/15 12. Violazione delle ipotesi nel modello di regressione lineare La violazione delle ipotesi Fino ad ora le assunzioni ipotizzate per il modello di regressione
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Associazione, correlazione e dipendenza tra caratteri In un collettivo di 11 famiglie è stata
lezione 9 AA Paolo Brunori
AA 2016-2017 Paolo Brunori Dove siamo arrivati? - la regressione lineare multipla ci permette di stimare l effetto della variabile X sulla Y tenendo ferme tutte le altre variabili osservabili che hanno
Validazione ediagnostica
Validazione ediagnostica Il processo di identificazione di un modello di regressione consiste nell iterazione delle seguenti fasi: 1. formulazione di un modello provvisorio 2. stima dei parametri 3. critica
Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23
Confronto fra gruppi: il metodo ANOVA Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23 1 Nella popolazione, per ciascun gruppo la distribuzione della variabile risposta
Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia
Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia Alessandra Pelliccia Matteo Cataldi Matteo Filippo Donadi 0 AGENDA Fonti Descrizione dei dati Variabili
2) REGRESSIONE. 1) Creo un diagramma a dispersione per ispezionare i dati. 2) Selezionare in SPSS Analizza -> Regressione Lineare.
Si vogliono studiare gli effetti delle spese pubblicitarie sulle vendite di album nella prima settimana dopo il lancio. Si tiene conto di altre due variabili: la presenza sulle radio e l appeal della band.
Test F per la significatività del modello
Test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F Si vuole verificare l ipotesi H 0 : β 1 = 0,, β k = 0 contro l alternativa che almeno
3) ANALISI DEI RESIDUI
3) ANALISI DEI RESIDUI Dopo l analisi di regressione si eseguono alcuni test sui residui per avere una ulteriore conferma della validità del modello e delle assunzioni (distribuzione normale degli errori,
Statistica per le ricerche di mercato. 12. Violazione delle ipotesi nel modello di regressione lineare
Statistica per le ricerche di mercato A.A. 2012/13 Dr. Luca Secondi 12. Violazione delle ipotesi nel modello di regressione lineare La violazione delle ipotesi Fino ad ora le assunzioni ipotizzate per
STATISTICA. Regressione-2
STATISTICA Regressione-2 Esempio Su un campione di =5unità sono state osservate due variabili, ed : x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 1. Rappresentare l andamento congiunto di in funzione di mediante
La regressione lineare. Rappresentazione analitica delle distribuzioni
La regressione lineare Rappresentazione analitica delle distribuzioni Richiamiamo il concetto di dipendenza tra le distribuzioni di due caratteri X e Y. Ricordiamo che abbiamo definito dipendenza perfetta
Corso di Laurea: Numero di Matricola: Esame del 31 maggio 2018 Tempo consentito: 120 minuti
Corso di Laurea: Numero di Matricola: Esame del 31 maggio 2018 Tempo consentito: 120 minuti Professor Paolo Vitale Anno Accademico 2017-8 UdA, Scuola d Economia Domanda 1 [6 punti]. (a) La multi-collineartità
Minimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi
Minimi quadrati ordinari Interpretazione geometrica Eduardo Rossi Il MRLM Il modello di regressione lineare multipla è usato per studiare le relazioni tra la variabile dipendente e diverse variabili indipendenti
Regressione Lineare Multipla
Regressione Lineare Multipla Fabio Ruini Abstract La regressione ha come scopo principale la previsione: si mira, cioè, alla costruzione di un modello attraverso cui prevedere i valori di una variabile
Antonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR
Antonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR Materiale ad uso dei ricercatori che hanno seguito il corso di formazione interna in Statistica, edizione
Corso di Statistica Medica. Studio dell effetto di più variabili indipendenti su una variabile dipendente: Regressione lineare multipla
Studio dell effetto di più variabili indipendenti su una variabile dipendente: Regressione lineare multipla Regressione logistica Regressione lineare multipla Nel modello di regressione lineare semplice
Metodi Statistici e Probabilistici per l Ingegneria MODELLI EMPIRICI. Corso di Laurea in Ingegneria Civile
Metodi Statistici e Probabilistici per l Ingegneria Corso di Laurea in Ingegneria Civile Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain E-mail: livio.corain@unipd.it Home page: www.gest.unipd.it/~livio/corso_civile.html
Soluzioni Capitolo
Soluzioni Capitolo 13 13.1 (a) Mantenendo costante l effetto di X 2, ci aspettiamo che per ogni unità addizionale di X 1 la variabile risposta Y aumenti in media di 5 unità. Mantenendo costante l effetto
LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE
LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE 5.1 ESEMPIO DI ANOVA AD UNA VIA In un esperimento un gruppo di bambini è stato assegnato a caso a 3 trattamenti, allo scopo di determinare
Regressione Logistica
Regressione Logistica Esercizio Data set: Nel data set heart.txt (o heart.sav) sono contenute informazioni riguardo 302 pazienti che hanno avuto infarto e 60 che non hanno avuto infarto in uno studio retrospettivo
Università di Padova
Università di Padova Dipartimento di Tecnica e Gestione dei sistemi industriali Corso di Laurea Specialistica in Ingegneria Civile Elaborato di analisi statistica a.a. 5-6 Prof. L. Salmaso Dott. L. Corain
Università del Piemonte Orientale Corso di Laurea specialistica in Biotecnologie mediche. Corso di Statistica Medica. Correlazione
Università del Piemonte Orientale Corso di Laurea specialistica in Biotecnologie mediche Corso di Statistica Medica Correlazione Regressione Lineare Statistica Medica Correlazione e Regressione lineare
Indice. Prefazione all edizione italiana, di Piero Veronese » XI. Prefazione
Indice Prefazione all edizione italiana, di Piero Veronese pag. IX Prefazione 1. EE: un introduzione alle distribuzioni di probabilità e ai metodi di stima statistica 1.1. EE: incertezza e probabilità
Analisi Multivariata dei Dati. Regressione Multipla
Analisi Multivariata dei Dati Regressione Multipla A M D Marcello Gallucci Milano-Bicocca Lezione: III Effetti multipli Consideriamo ora il caso in cui la variabile dipendente possa essere spiegata da
I modelli lineari generalizzati: il modello di Poisson
I modelli lineari generalizzati: il modello di Poisson Massimo Borelli May 13, 2014 Massimo Borelli () I modelli lineari generalizzati: il modello di Poisson May 13, 2014 1 / 15 Contenuti 1 Motivazioni
LEZIONE N.8 (a cura di Teresa Fanelli) Questa forma risulta importante nel modello di regressione con più variabili.
LEZIONE N.8 (a cura di Teresa Fanelli) Forma matriciale del Modello di Regressione Semplice L assunzione di base del modello è: Y i =β 0 +x i β 1 +ε i i=1,2,..n. Lo stesso modello può essere scritto attraverso
La regressione lineare semplice
La regressione lineare semplice Il modello di regressione lineare semplice - 1 y = β 0 + βx + ε 10 8 Una retta nel piano Variabile Y 6 4 2 0 0 1 2 3 4 Variabile X 1 Il modello di regressione lineare semplice
CAPITOLO 5 Introduzione ai piani fattoriali
Douglas C. Montgomery Progettazione e analisi degli esperimenti 2006 McGraw-Hill CAPITOLO 5 Introduzione ai piani fattoriali Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria
Valutazione dei modelli matematici
Valutazione dei modelli matematici Andrea Onofri 30 aprile 2013 Indice 1 Introduzione 2 2 Metodi grafici di valutazione 2 3 Metodi numerici 3 3.1 Il coefficiente di determinazione................... 5
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico )
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 05-6) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola
lezione 4 AA Paolo Brunori
AA 2016-2017 Paolo Brunori dove eravamo arrivati - abbiamo individuato la regressione lineare semplice (OLS) come modo immediato per sintetizzare una relazione fra una variabile dipendente (Y) e una indipendente
Strumenti informatici Calcolare il coefficiente di correlazione di Pearson con Excel e SPSS
Strumenti informatici 7.3 - Calcolare il coefficiente di correlazione di Pearson con Excel e SPSS Il coefficiente di correlazione di Pearson può essere calcolato con la funzione di Excel =CORRELAZIONE(Matrice1;Matrice2),
Correlazione e regressione
Correlazione e regressione Correlazione 1 Come posso determinare il legame tra due o più variabili? Correlazione COEFFICIENTE DI CORRELAZIONE (r di Pearson) massimo consumo di ossigeno e prestazione nelle
ESERCIZI 1) A fianco sono riportati i risultati di due rilevazioni quantitative su 10 elementi. Per questi dati si ha: 10
ESERCIZI 1) A fianco sono riportati i risultati di due rilevazioni quantitative su elementi. Per questi dati si ha: x i = 1 y i = 1 x y i = 1 i = 6514 i i = 1 i = 1 i = 281627 x y 2 i 2 i = 18629 = 62260
Università di Pavia Econometria Esercizi 4 Soluzioni
Università di Pavia Econometria 2008-2009 Esercizi 4 Soluzioni Maggio, 2009 Istruzioni: I commenti devono essere concisi! 1. Dato il modello di regressione lineare, con K regressori con E(ɛ) = 0 e E(ɛɛ
Argomenti della lezione:
Lezione 9 Argomenti della lezione: La regressione multipla: Approcci analitici Regressione standard Regressione gerarchica Regressione statistica Strategie Analitiche per la regressione Tre principali
le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:
DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano paola.magnano@unikore.it si basano su tre elementi: le scale di misura sistema empirico: un insieme di entità non numeriche (es. insieme di persone; insieme
Laboratorio di Statistica I
Salvatore Ingrassia Carmela Senatore Laboratorio di Statistica I Guida alle Attività Facoltà di Economia, Università della Calabria Corso di Laurea in Statistica Anno Accademico 2002-2003 Indice 1 Modelli
Statistica multivariata Donata Rodi 08/11/2016
Statistica multivariata Donata Rodi 08/11/2016 MANOVA: Multivariate Analysis of Variance Due o più variabili dipendenti quantitative Una o più variabili indipendenti categoriali (con più livelli) Residui
Analisi Multivariata dei Dati
Analisi Multivariata dei Dati Introduzione al corso e al modello statistico A M D Marcello Gallucci Milano-Bicocca Lezione: I Programma Odierno I numeri del corso Programma del corso Concetti Statistici
Determinazione delle legge di Michaelis-Menten con Minitab (Belluco Enzo statistico)
Determinazione delle legge di Michaelis-Menten con Minitab (Belluco Enzo statistico). Introduzione La legge di Michaelis-Menten descrive l'andamento della velocità di una reazione catalizzata da enzimi,
Statistiche di sintesi
Esercizio 2 E stato condotto uno studio per valutare la variazione della pressione sistolica in funzione dell etá. I dati sono riportati nel file sbp.xls. Effettua un analisi di regressione e disegna gli
Regressione logistica
Regressione logistica Metodi Quantitativi per Economia, Finanza e Management Esercitazione n 11 Consegna Lavoro di gruppo Scadenza per la consegna del lavoro di gruppo e dell homework facoltativo (per
Analisi delle corrispondenze
Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza
Approfondimento La regressione multipla
Approfondimento 7.6 - La regressione multipla Al di là dell aspetto didattico o di casi di ricerca particolari, è abbastanza irrealistico pensare che i fenomeni possano essere spiegati nei termini di una