Strumenti informatici Realizzare l analisi di regressione multipla con SPSS

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Strumenti informatici 7.5 - Realizzare l analisi di regressione multipla con SPSS"

Transcript

1 Strumenti informatici Realizzare l analisi di regressione multipla con SPSS Nella sua forma base, Excel non consente di realizzare un analisi di regressione multipla, mentre SPSS offre un ventaglio di opzioni di analisi molto ampio. Supponiamo di avere a disposizione i dati di 00 studenti di psicometria al primo anno riguardo al, al punteggio in un test di profitto in matematica, al numero di lezioni seguite durante il corso e al punteggio alla scala Spatial di OSIVQ: il criterio da predire è l ansia nei confronti della statistica, misurata anch essa mediante apposito test. I dati sono raccolti nel file regressione_esempio.sav. Dopo aver organizzato i dati in colonne come abbiamo visto nel Scheda strumenti informatici 7.4, il percorso da seguire è sempre Analyze Regression Linear. Nella finestra che si apre, dovremo inserire la variabile dipendente Ansia nel campo Dependent e i predittori nel campo Independent(s) (Figura 7.5.) Figura 7.5. Impostazione di un analisi di regressione multipla in SPSS Il riquadro che contiene il campo Independent(s) è indicato come Block of. I blocchi sono i gruppi di variabili che possono essere inserite o tutte insieme per realizzare una regressione simultanea, o una o più alla volta per realizzare una regressione gerarchica. Clickando su Next il nome del riquadro diventa Block of e il campo Independent(s) risulta vuoto, in quanto costituisce il secondo blocco di variabili da inserire nell equazione. Sempre clickando su Next si possono inserire quanti blocchi si desidera. Per tornare ai blocchi precedenti basta clickare su Previous. Sempre nel medesimo riquadro è presente anche il campo Method, con un menu a tendina: mediante questa opzione è possibile scegliere se realizzare per quel blocco una regressione simultanea (tutti i predittori inseriti nel modello simultaneamente, opzione Enter, che è anche quella di default) o statistica. Oltre alle opzioni Stepwise, Forward e Backward descritte nel testo, è presente anche un ulteriore metodo, Remove. Remove può essere utilizzato solo dal secondo blocco di variabili in avanti, poiché permette di decidere in anticipo la rimozione di alcune variabili dal modello, indipendentemente dagli aspetti statistici. Ad esempio, potremmo inserire nel blocco tutti i predittori, e decidere, al blocco, di rimuovere forzatamente il genere. Per far questo inseriremo nel campo Independent(s), Block of tutti i predittori e sceglieremo il metodo Enter. Clickeremo su Next e nel Block of inseriremo nel campo Independent(s) il e sceglieremo il metodo Remove. Ad ogni modo, è una procedura per certi versi insolita e che per essere applicata richiede una notevole competenza nella specificazione del modello.

2 Il campo Selection Variable permette di specificare una variabile di selezione dei soggetti. Supponiamo di voler realizzare l analisi di regressione separatamente per maschi e femmine. Inseriamo la variabile nel campo Selection Variable, e clickiamo su Rule. Si aprirà una finestra che ci consentirà di indiacre un valore, Value, e di scegliere la regola: equal to (uguale a), not equal to (diverso da), less than (minore di), less than or equal to (minore o uguale a), greater than (maggiore di), greater than or equal to (maggiore o uguale a). Nel caso del genere sceglieremo dal menu a tendina equal to e nel campo Value inseriremo 0 per le femmine e per i maschi. Si noti che la variabile di selezione non può comparire fra i predittori nel campo Independent(s). Nel campo Case Labels è possibile inserire una variabile che contiene le etichette delle unità di analisi (numeri, nome, etc.). E utile perché l etichetta viene riportata nei diagrammi a dispersione, e consente di identificare direttamente dal grafico quale soggetto corrisponde ad un determinato punto della nube: se è un potenziale outlier, è possibile sapere subito quale soggetto è. Per poter sfruttare questa possibilità, però, occorre aver predisposto una variabile che contenga i nomi o i codici dei soggetti. Nel campo WLS Weight viene inserita una variabile che contiene dei pesi da assegnare ad ogni caso per realizzare in base alla sua varianza. In pratica, i punti vengono pesati per il reciproco della loro varianza, in modo che i soggetti con varianze maggiori abbiano minore impatto sui risultati rispetto a quelli con varianze più contenute. Se il valore del peso è zero, negativo o mancante, il caso viene escluso dall analisi. Anche questa opzione viene utilizzata in analisi un po più complesse e che richiedono una preparazione più approfondita. Clickando su Statistics si apre la finestra in Figura 7.5. Figura 7.5. Finestra Statistics per la scelta delle statistiche da produrre per un analisi di regressione multipla Nel riquadro in alto a sinistra (Regression Coefficients) è possibile scegliere quali statistiche ottenere per i coefficienti di regressione. E ovviamente spuntato di default Estimates, ossia le stime, ma è possibile richiedere anche Confidence Intervals (intervalli di fiducia), che permette di ottenere i limiti degli intervalli di fiducia delle stime dei parametri ad un livello del 95%, e Covariance Matrix, ossia la matrice di covarianza e di correlazione dei coefficienti di regressione. Questa matrice viene utilizzata per calcolare gli errori standard delle stime, e rappresenta una stima delle correlazioni e delle covarianze che si osserverebbero fra i coefficienti di regressione se dalla popolazione venissero estratti tutti i possibili campioni di n elementi e si stimassero i coefficienti di regressione per ognuno di essi. Nella parte di sinistra della finestra in Figura 7.5. troviamo le opzioni per ottenere gli indici che ci permetteranno di valutare la bontà di adattamento del modello ai dati, la dimensione dell effetto ed eventuali problemi di collinearità.

3 Model fit produce le tabelle Model Summary e ANOVA che abbiamo visto in Figura nella scheda Strumenti informatici 7.4 e che permettono di ottenere il valore di R (correlazione del criterio col set di predittori), R (proporzione di variabilità del criterio spiegata dai predittori), Adjusted R e l errore standard della stima. L opzione R squared change è utile nel caso in cui si scelga una strategia di regressione multipla di tipo gerarchico o statistico, in quanto mostrerà come varia il valore di R in base alla successive inclusioni e/o esclusioni di predittori (o blocchi di predittori) a partire dal modello iniziale e se questo cambiamento è statisticamente significativo. Questa informazione è fondamentale soprattutto quando si studia la validità incrementale di un test: se l aggiunta del punteggio al test come predittore nell equazione di regressione multipla non comporta un aumento significativo della proporzione di variabilità spiegata dal predittore, il test non possiede validità incrementale. Descriptives permette di ottenere le statistiche descrittive (media, deviazions standard e numero di casi validi) del criterio e dei predittori e, soprattutto, la matrice di correlazione bivariata fra tutte le variabili interessate dall analisi, che ci interessa particolarmente per due motivi: ci consente infatti di:. valutare da subito l entità della correlazione fra il criterio e i predittori, individuando eventualmente i predittori da escludere dal modello poiché la loro correlazione bivariata col criterio è inferiore, a,0 (o altro valore di correlazione scelto). realizzare un esame iniziale delle possibili collinearità fra i predittori, indicate da coefficienti di correlazione maggiori di,50. Ad ogni modo, quale che sia il risultato di questo screening iniziale, deve poi essere confermato dalle diagnostiche di collinearità (vedi oltre) L opzione Part and partial correlations è anch essa importante perché ci consente di ottenere nella stessa tabella dove compaiono i coefficienti di regressione (Coefficients, vedi Figura della scheda Strumenti informatici 7.4) la correlazione di ordine zero (ossia le bivariate), la correlazione parziale (Part) e la correlazione parziale indipendente (Partial) fra ogni predittore e il criterio. La correlazione Part è la correlazione residua fra predittore e criterio dopo che è stata rimossa statisticamente la correlazione dovuta alla loro associazione con le altre variabili, ossia la correlazione che rimane dopo che gli effetti lineari delle altre variabili indipendenti del modello sono state rimosse da sia dal predittore in questione che dal criterio. La correlazione Partial, invece, è la correlazione residua fra un predittore e il criterio dopo che gli effetti lineari degli altri predittori sono stati rimossi solo dal criterio. Se elevato al quadrato, questo valore corrisponde al cambiamento in R quando la variabile viene aggiunta all equazione di regressione. L opzione Collinearity diagnostics permette di ottenere le diagnostiche di collinearità, ossia il valore di Tolerance e VIF nella tabella Coefficients e un altra tabella, chiamata proprio Collienarity Diagnostics, che permette un analisi più approfondita delle eventuali cause di collinearità. Nel riquadro Residuals troviamo due opzioni importanti per la verifica delle assunzioni della regressione e della presenza di outliers. Il Durbin-Watson è un test di autocorrelazione dei residui, ossia degli errori di predizione, che in base alle assunzioni della regressione non devono essere correlati fra loro. Il valore atteso di questo indice in caso di assenza di autocorrelazione fra i residui è : se è inferiore a l autocorrelazione fra gli errori è negativa, se è superiore è positiva. Se l analisi è condotta su almeno 00 soggetti e con almeno predittori, la gamma di valori accettabili va da,5 a, (Dillon & Goldstein, 984). L opzione Casewise diagnostics permette invece di In questo caso purtroppo i termini utilizzati da SPSS sono un po fuorvianti, in quanto la correlazione indicata come Part corrisponde alla definizione di correlazione parziale (si veda la sezione.3.3 di questo capitolo), mentre la correlazione indicata come Partial corrisponde a quella che usualmente viene chiamata correlazione semiparziale, in quanto gli effetti della terza (o delle altre variabili) sono rimossi solo dalla variabilità di una delle due variabili interessate dall analisi.

4 ottenere informazioni sui possibili outliers, perché produce una tabella con i valori dei residui (sia grezzi che standardizzati), il valore atteso e il valore osservato del criterio per tutti quei casi che presentano un residuo standardizzato superiore al numero di deviazioni standard indicate in Outliers outside o per tutti i casi (All cases) e un altra tabella, chiamata Residual Statistics che contienele statistiche descrittive (minimo, massimo, media, deviazione standard e numero di casi validi) per i valori predetti, per il residui, per i valori predetti standardizzati e per i residui standardizzati. Se dalla finestra principale (Figura 7.5.) clickiamo su Plots, otteniamo una finestra che ci consente di richiedere la produzione di alcuni grafici che permettono l esame visivo delle assunzioni di normalità, linearità, e omogeneità delle varianze e di individuare casi non validi, outliers e i cosiddetti casi influenti (influential data) (Figura 7.5.3) Figura Finestra di SPSS per l impostazione dei grafici per la regressione multipla Le etichette nel campo sulla sinistra della finestra significano: DEPENDNT = punteggio grezzo nel criterio (variabile dipendente) *ZPRED = punteggi predetti (stimati) standardizzati *ZRESID = residui standardizzati *DRESID = residui cancellati (D sta per deleted), ossia residui quando l unità di analisi viene eliminata dall analisi *ADJPRED = punteggio teorico aggiustato di un caso quando questo viene eliminato dalla regressione *SRESID = residuo studentizzato (da cui la S), che è un tipo particolare di residuo standardizzato calcolato dividendolo per la sua deviazione standard e che dipende dalla distanza dei valori di ogni caso sulle variabili indipendenti dalle medie delle variabili indipendenti. *SDRESID = residuo cancellato studentizzato, che viene ottenuto dividendo il residuo per il suo errore standard. La differenza fra un residuo cancellato studentizzato e il suo residuo studentizzato indica quanta differenza fa eliminare quel caso sul suo valore predetto Per costruire un diagramma a dispersione fra due di questi valori basta inserire nel campo Y: e nel campo X: le variabili che si desidera compaiano sull asse verticale e orizzontale, rispettivamente. Per impostare più di un grafico occorre clickare sul pulsante Next. Dal riquadro Standardized Residual Plots è possibile ottenere l istogramma (Histogram) e il grafico di probabilità normale (Normal probability plot), che rappresentano la distribuzione dei residui standardizzati e il confronto fra la distribuzione dei residui standardizzati e una distribuzione normale. Se si spunta Produce alla partial plots si ottengono i grafici parziali, ossia i diagrammi a dispersione dei residui di un singolo predittore e dei residui del criterio quando entrambe vengono fatte regredire separatamente sul resto dei predittori (per cui è necessario che nel modello vi siano

5 almeno due variabili). Tali grafici possono essere utilizati per esaminare le assunzioni di linearità, additività e omoschedasticità. Se dalla finestra principale (Figura 7.5.) clickiamo su Save si apre una finestra con lo stesso nome che permette di scegliere quali risultati o indici salvare come nuove variabili nel file di dati. L esame di questi valori permette di evidenziare eventuali outliers (Figura 7.5.4). Figura Finestra di SPSS per la produzione degli indici per la valutazione degli outliers I valori nei riquadri Predicted Value e Residuals sono gli stessi descritti a proposito della finestra Plots. Si noti che Unstandardized in Predicted Values è semplicemente Ŷ e in Residuals è Ŷ Y. Nel riquadro Distances è possibile chiedere la produzione di indici che permettono di identificare gli outliers determinati da combinazioni rare di valori sui predittori. Mahalanobis: è una misura della distanza di un caso dalla media di tutti i casi sui predittori e consente di individuare quei casi che hanno valori estremi su uno o più dei predittori. E utile perché è distribuito come chi-quadrato con gradi di libertà uguali al numero di predittori, da cui la possibilità di valutare statisticamente lo status di outlier di un caso. In questo caso è raccomandato l uso di un livello α di significatività di,00. Cook s: è una misura di quanto i residui di tutti i casi varierebbero se un particolare caso fosse escluso dalla stima dei parametri. Un valore elevato è indice di una variazione sostanziale nei coefficientidi regressione se quel caso non fosse incluso nell analisi, ma differentemente dal caso delle distanze mahalanobiane quelle di Cook non possono essere sottoposte a verifica delle ipotesi. Norusis (998) suggerisce comunque di considerare con sospetto valori superiori a. Leverage values (o valori di influenza): sono un indice dell influenza di un caso sulla bontà di adattamento del modello di regressione ai dati. Tali indici variano fra 0 (nessuna influenza) e n/(n ) (massima influenza), che è l influenza massima. I valori dediserabili per questo indice sono quelli inferiori a,0, mentre valori fra,0 e,50 indicano casi sospetti

6 e valori superiori a,50 identificano casi da prendere in seria considerazione per l esclusione dall analisi (Barbaranelli, 006). Nel riquadro Influence Statistics viene offerta la possibilità di chiedere indici che consentono di esaminare il cambiamento, sia come punteggio grezzo che standardizzato, che avverrebbe nel/nei coefficiente/i di regressione (Dfbeta(s) e Standardized DfBeta(s)) e nei valori predetti dalla regressione (DfFit e Standardized DfFit) se il caso venisse escluso dall analisi. Cambiamenti in valore assoluto nell ordine di / n (Norusis, 998) o 3 / n (Pedhazur, 997) sono da considerarsi sostanziali. Il Covariance ratio indica quale sarebbe il risultato del rapporto fra il determinante della matrice di covarianza se il caso venisse escluso dall analisi e il determinante della matrice di covarianza includendo nell analisi tutti i casi. Il rapporto ottimale deve essere vicino ad. Nel riquadro Prediction Intervals è possibile chiedere la produzione dei limiti superiore e inferiore degli intervalli dei punteggi previsti nel criterio, sia medi (Mean) che individuali (Individual) per un certo livello di probabilità (Confidence interval). Il primo tipo di intervallo viene ottenuto considerando l errore standard medio dei punteggi predetti, il secondo tenendo conto di una stima individuale. Per ragioni statistiche, l intervallo medio sarà sempre più ristretto di quello individuale. L ultimo riquadro (Export model information to XML file) consente di creare un file in cui le informazioni sul modello siano esportate in un file di formato particolare (XML). Se dalla finestra principale (Figura 7.5.) clickiamo su Options, si apre la finestra in Figura Figura Finestra di SPSS per le opzioni dell analisi di regressione Nel riquadro Stepping Method Criteria è possibile indicare i criteri statistici in base ai quali i predittori vengono inseriti (Entry) o esclusi (Removal) dal modello di regressione se si usa una strategia statistica (stepwise, remove, backward, forward). Se si seleziona Use probability of F, il predittore è inserito nel modello se il livello di significatività di F è inferiore al valore indicato in Entry ed escluso se il livello di significatività di F è superiore a Removal, oppure, se si seleziona Use F value, il predittore viene inserito nel modello se il valore di F calcolato è maggiore di quello indicato in Entry e viene escluso se il valore di F calcolato è minore di quello di quello indicato in Removal. Il determinante di una matrice è una funzione che associa ad ogni matrice quadrata un particolare valore che ne sintetizza alcune proprietà algebriche.

7 L opzione Include constant in equation, se non spuntata, fa sì che l intercetta del modello venga fissata a zero. Di default, comunque, è selezionata. Nel riquadro Missing Values si può infine scegliere come trattare i dati mancanti, ossia se considerare solo i casi validi per tutte le variabili (listwise, opzione consigliata), se calcolare i coefficienti di regressione usando tutti i casi validi per le due variabili considerate in quella fase dell analisi (pairwise, si tenga però conto che i gradi di libertà sono basati sul valore di n minimo per tutte le coppie di variabili analizzate) oppure se sostituire i dati mancanti con la media della variabile interessata (Replance with mean). Questa opzione è in genere sconsigliabile, perché, oltre a rendere disponibile per l analisi un dato che di fatto non è stato osservato, tende a ridurre la variabilità nei dati. Un caso in cui potrebbe essere utilizzata è quello in cui si hanno pochissimi missing in pochi soggetti di un campione molto ampio e con molte variabili Analisi delle assunzioni Prima di procedere con l analisi di regressione, occorre che siano verificate le assunzioni per la sua applicabilità. Utilizziamo in questo caso i dati nel file regressione_esempio.sav. In primo luogo, dobbiamo assicurarci che tutte le variabili posseggano sufficiente variabilità, perché costanti o in ogni caso variabili con dispersione dei punteggi molto bassa non devono essere presenti nel modello. Inoltre, dobbiamo anche verificare che le variabili presentino valori di skewness e curtosi inferiori a,00, perché l inclusione nel modello di regressone di variabili la cui distribuzione è troppo diversa dalla normale può portare alla violazione delle assunzioni di linearità, noamlità e omoschedasticità dei residui. Seguiamo il percorso Analyze Descriptive Statistics Descriptives, inseriamo tutte le variabili nel campo Variable(s), spuntiamo Save standardized values as variables e mediante Options spuntiamo anche i valori di skewness e curtosi. Il risultato è quello in Figura Descriptive Statistics Profitto in Matematica Numero lezioni seguite Punteggio Ansia verso la Statistica Valid N (listwise) N Minimum Maximum Mean Std. Skewness Kurtosis Statistic Statistic Statistic Statistic Deviation Statistic Statistic Std. Error Statistic Std. Error 00 0,55,500 -,04,4 -,999, ,8 5,364 -,53,4 -,447, ,0 5,059 -,93,4 -,60, ,08,88,37,4 -,93, ,0,33 -,8,4 -,090, Figura Statistiche descrittive di predittori e criterio La Figura mostra che tutte le variabili hanno una deviazione standard sufficientemente superiore a zero e che i valori di skewness e curtosi sono inferiori a,00. L unico valore al di fuori di questa gamma è la curtosi del, che però è una variabile dummy, ossia dicotomica. In questo caso, poiché si tratta di una distribuzione binomiale, la skewness e la curtosi vanno calcolate con le formule: P,55 SK Binomiale = = = 0,0 np( P) 00,55 (,55) 6P( P) 6,55 (,55) KU Binomiale = = = 0,0 np( P) 00,55 (,55) dove P è la proporzione di casi con valore, che corrisponde alla media del riportata in Figura 7.5.6: la media è calcolata come somma dei valori diviso n, per cui se i valori sono tutti o 0, la media risulta uguale alla somma degli diviso il numero di soggetti, ossia la proporzione di

8 soggetti con valore, cioè i maschi. Anche nel caso del genere la distribuzione presenta valori di Skewness e Curtosi adeguati. Nel file dei dati sono state aggiunte le colonne relative ai punteggi standardizzati per ogni variabile. Esaminando i valori standardizzati è possibile eseguire primo screening degli outliers eliminando i casi che abbiano un punteggio standardizzato maggiore di 3 o minore di 3 su almeno una delle variabili. Ignoriamo i punteggi standardizzati del genere, e consideriamo solo quelli nelle altre variabili. Per eseguire rapidamente questa procedura, occorre ordinare i valori per ogni variabile: per far questo, seguiamo il percorso Data Sort Cases (Figura 7.5.7a) e inseriamo nel campo Sort By: la variabile zmate, a cui corrisponde l etichetta Z score: Profitto in matematica (Figura 7.5.7b). a b Figura Procedura per ordinare i casi in base ai valori di un variabile in SPSS Clickiamo su OK. A questo punti i casi saranno stati ordinati in base al punteggio nella variabile zmate. Esaminiamo i punteggi più bassi e quelli più alti scorrendo verso l alto e verso il basso il dataset e troviamo che il punteggio standardizzato minore è,38989 del soggetto sogg04 e il il punteggio standardizzato maggiore è,0846 del soggetto sogg094, per cui per questa variabile non sono presenti outliers. Eseguiamo la stessa procedura per verificare la presenzadi outliers nelle altre variabili. Non ci sono valori standardizzati superiori a 3,00 in nessuna variabile. Nella variabile relativa al numero di lezioni seguite c è un valore uguale a,96885 (caso sogg076, Figura 7.5.8). Figura Screening dei valori anomali in base ai punteggi standardizzati delle variabili Non ci sono gli estremi per eliminarlo, ma se proprio lo vogliamo fare non dobbiamo far altro che clickare col tasto destro del mouse sulla cella grigia a sinistra della finestra col numero (e che identifica la prima riga del foglio di dati) e scegliere Clear. Si tenga conto che tutte le volte che si elimina un caso, le analisi per lo screening degli outliers vanno ricondotte da capo, in modo valutare se la variazione nel set di dati prodotta dall esclusione di quel caso non abbia reso outliers altri casi inizialmente non identificati come tali. La procedura di screening degli outliers può quindi comportare una serie di controlli, basati sull ispezione degli indici, eliminazione di casi, nuova ispezione degli indici, nuova eliminazione di casi, e così via. Si tenga conto del fatto che per

9 variabili distribuite in modo molto non normale le eliminazioni di casi possono essere numerose, con conseguente di riduzione dell ampiezza e/o della rappresentatività del campione. Nel caso di individuino variabili con skewness al di fuori del range consigliato si può procedere con la trasformazione dei punteggi vista nella sezione.3. di questo capitolo, ma non è detto che questo risolva il problema e, in ogni caso, rende più complicata l interpretazione del risultato. Una volta controllati gli outliers a livello univariato (variabile per variabile), occorre verificare quelli a livello multivariato (nelle variabili nel loro insieme). Per far questo utilizziamo le opzioni offerte dalla procedura di regressione multipla di SPSS. Seguiamo quindi il percorso Analyze Regression Linear, inseriamo i predittori nel campo Independent(s) e il criterio nel campo Dependent. Clickiamo su Save e spuntiamo Mahalanobis. Clickiamo su OK e ignoriamo per il momento l output, concentrandoci sulla nuova variabile, MAH_ che è stata creata nel dataset. Perché un valore sia considerato un outlier, deve essere maggiore del chi-quadrato critico per α =,00 e gradi di libertà uguali al numero di predittori. In questo caso abbiamo 4 predittori, per cui il valore di chi-quadrato critico può essere individuato con la funzione di Excel =INV.CHI(,00;4), che è A questo punto ordiniamo i dati in base al valore di MAH_ e vediamo che il valore minimo è,0303 (caso sogg047) e il massimo è,60 (caso sogg065). Nessun valore è superiore al valore critico, per cui non sembrano essere presenti outliers univariati. Ci fossero stati, avremmo potuto eliminarli, ma a quel punto avremmo dovuto riprendere tutta la procedura di screening da capo. Grazie ai valori delle distanze mahalanobiane è possibile calcolare anche un indice di normalità multivariata, detto indice di curtosi multivariata di Mardia, che permette di verificare se le relazoni fra le variabili possono essere considerate lineari. Per questo, seguiamo il percorso Transform Compute (Figura 7.5.9a) Nel campo Target Variable inseriamo il nome della nuova variabile che stiamo per calcolare (ad esempio, MAH). Selezioniamo la variabile MAH_ e la spostiamo campo Numeric Expression. Clickiamo sul tasto col doppio asterisco ( ) e aggiungiamo, e poi OK (Figura 7.5.9b) a b Figura Trasformare una variabile mediante un operazione matematica in SPSS Questo ci permette di ottenere una nuova variabile, MAH, che corrisponde alle distanze mahalanobiane elevate al quadrato. Mediante Analyze Descriptive Statistics Descriptives, otteniamo la media di questa variabile, che è,03. Il valore critico con cui confrontare quello

10 ottenuto è uguale a numero di predittori k moltiplicato per il numero di predittori più due, k(k+), e perché sia soddisfatta la normalità multivariata il valore calcolato deve essere inferiore a questo. Nel nostro caso abbiamo 4 predittori, quindi 4 (4+) = 4. Poiché il valore calcolato (,03) è inferiore a quello critico (4), possiamo concludere che i dati presentano una normalità multivariata. Le assunzioni relative alla specificazione del modello (non omettere predittori rilevanti e non includere predittori irrilevanti) possono essere verificate solo a livello teorico, in base alla conoscenza che si ha del fenomeno, oppure valutando le correlazioni bivariate fra i predittori e il criterio. Per far questo, dalla finestra in Figura 7.5., clickiamo su Statistics e spuntiamo l opzione Descriptives, che produrrà le statistiche descrittive di predittori e criterio e, soprattutto, le correlazioni fra queste variabili. L output è riportato in Figura Correlations Pearson Correlation Sig. (-tailed) N Punteggio Ansia verso la Statistica Profitto in Matematica Numero lezioni seguite Punteggio Ansia verso la Statistica Profitto in Matematica Numero lezioni seguite Punteggio Ansia verso la Statistica Profitto in Matematica Numero lezioni seguite Punteggio Ansia verso la Statistica Profitto in Matematica Numero lezioni seguite Punteggio SPATIAL,000,03,384,469,468,03,000,80,07,8,384,80,000,45,7,469,07,45,000,049,468,8,7,049,000.,0,000,000,000,0.,036,09,05,000,036.,075,003,000,09,075.,33,000,05,003, Figura Correlazioni fra i predittori e il criterio Dalla matrice di correlazione in Figura notiamo che tutti predittori sono correlati almeno a,0 con il criterio (prima colonna, Punteggio Ansia verso la statistica), per cui sembrerebbe che tutte le variabili inserite nel modello abbiano una sufficiente relazione, almeno a livello bivariato, con il criterio. I predittori sono solo debolmente correlati fra loro, e questo risultato è un primo indice di assenza di collinearità, che comunque andrà verificata anche in seguito con altre statistiche. L assunzione relativa all assenza di errori di misurazione può essere verificata consultando l attendibilità dei punteggi se questi sono stati ottenuti mediante la somministrazione di test psicologici (vedi Volume II). Per gli altri tipi di variabili, occorre assicurarsi prima di raccogliere i dati che la procedura garantisca la raccolta di valori attendibili: ad esempio, per la variabile numero di lezioni frequentate, si può tenere un registro delle presenze. Il controllo più importante da eseguire dopo quello degli outliers è quello della collinearità dei predittori. Per questo, seguiamo di nuovo il percorso Analyze Regression Linear, clickiamo su Statistics e spuntiamo Collinearity diagnostics. Quindi clickiamo su Continue e poi su OK. Cerchiamo nell output la tabella Coefficients e consultiamo le colonne a destra (Figura 7.5.)

11 Model (Constant) Profitto in Matematica Numero lezioni seguite Unstandardized Coefficients a. Dependent Variable: Punteggio Ansia verso la Statistica Coefficients a Standardized Coefficients Collinearity Statistics t Sig. Tolerance VIF B Std. Error Beta,90 4,56,694,008 -,05,953 -,008 -,05,97,904,06,503,83,9,758,007,899,,04,89,40 5,4,000,944,059,394,080,389 4,896,000,896,6 Figura 7.5. Tabella di output dei coefficienti con le statistiche di collinearità (destra) Abbiamo visto nel testo che i valori di Tolerance devono essere maggiori di,50 e quelli di VIF inferiori a, ed è il caso dei valori riportati in Figura Nell output sotto a questa tabella ne è presente un altra chaimata Collinearity Diagnostics (Figura 7.5.) Collinearity Diagnostics a Model Dimension Numero Condition Profitto in lezioni Punteggio Eigenvalue Index (Constant) Matematica seguite SPATIAL 4,459,000,00,0,00,00,00,357 3,535,0,96,0,0,0,09 6,979,00,00,,70,6,063 8,45,0,00,77,00,45,030,37,98,03,,8,38 a. Dependent Variable: Punteggio Ansia verso la Statistica Figura 7.5. Tabella di output con le diagnostiche di collinearità Variance Proportions Questa tabella ci permette di esaminare la correlazione fra i predittori. In particolare, ci interessa la colonna Condition Index: se anche uno solo dei valori è compreso fra 5 e 30 siamo in una condizione di sospetta collinearità, mentre la collinearità è grave se questo valore è superiore a 30 (Barbaranelli, 006). Nelle colonne Variance Proportions vi è la proporzione di variabilità spiegata per ogni predittore dalle dimensioni (colonna Dimensions sulla sinistra). Senza stare troppo ad entrare nel dettaglio di questa analisi, diciamo solo che la condizione ideale è quella in cui per ogni riga della sottomatrice Variance Proportions contiene un solo valore superiore a,40 e tutti gli altri prossimi a zero. Nella Figura 7.5., sulla riga della dimensione 4 abbiamo due valori superiori a,40, relativi ai predittori Profitto in matematica e. Questo significa che i due predittori sono correlati, ma dato che il valore di Tolerance non ha suggerito problemi, possiamo considerare questo risultato trascurabile. Se così non fosse stato, avremmo dovuto pensare a come gestire la collinearità dei due predittori (si veda il testo per le possibili soluzioni). Passiamo adesso a verificare le assunzioni sugli errori (residui). Nella finestra Statistics selezioniamo Durbin-Watson e Casewise Diagnostics (lasciando a 3 la soglia per Outliers outside), mentre nella finestra Plots inseriamo *ZRESID nel campo X e *ZPRED nel campo Y, e spuntiamo Histogram, Normal probability plot e Produce alla partial plots. Eseguiamo quindi l analisi. Come primo passo, cerchiamo nell output la tabella Residual Statistics (Figura 7.5.3).

12 Predicted Value Std. Predicted Value Standard Error of Predicted Value Adjusted Predicted Value Residual Std. Residual Stud. Residual Deleted Residual Stud. Deleted Residual Mahal. Distance Cook's Distance Centered Leverage Value Residuals Statistics a Minimum Maximum Mean Std. Deviation N 4,97 68,59 5,0 8, ,50,956,000,000 00,34 3,49,07, ,4 68,46 5, 8, ,770 3,564,000 9, ,465 3,47,000, ,497 3,476 -,00, ,368 3,663 -,08 9, ,570 3,70,00,09 00 a. Dependent Variable: Punteggio Ansia verso la Statistica,03,60 3,960,34 00,000,084,009,05 00,00,4,040,03 00 Figura Tabella di output delle statistiche dei residui Nella tabella in Figura ci interessa in particolare verificare se la media dei residui (Residual) è uguale a zero, e così è. L assunzione prevede poi che i residui siano distribuiti normalmente: questo lo verifichiamo ispezionando i grafici *zresid Histogram e *zresid Normal P-P plot (Figura 7.5.4) a b Figura Grafici con la distribuzione dei residui della regressione La Figura 7.5.4a mostra che la forma della distribuzione dei residui è molto prossima alla normale, conclusione confermata dalla Figura 7.5.4b: in questo tipo di grafico se tutti i punti sono perfettamente allineati sulla linea diagonale che taglia a metà il quadrante significa che la distribuzione è perfettamente normale. Nel caso che stiamo considerando, gli scostamenti da questa linea ideale sono rari e di entità limitata, per cui possiamo concludere che l assunzione di normalità della distribuzione dei residui (errori) è rispettata. Cerchiamo adesso nell output il grafico che ha sull asse orizzontale i residui standardizati e sull asse verticale i valori predetti standardizzati (*zpred by *resid Scatterplot, Figura 7.5.5).

13 Figura Diagramma a dispersione residui standardizzati per valori predetti standardizzati Se nella nube di punti potesse essere distinta una qualche forma particolare (Figura 7.5.6) ci sarebbero gli estremi per supporre una violazione dell assunzione di linearità degli effetti, che non è però il caso della Figura Assunzioni rispettate Non normalità Non linearità Valori Predetti Standardizzati Residui Standardizzati Valori Predetti Standardizzati Residui Standardizzati Valori Predetti Standardizzati Residui Standardizzati Non omogeneità delle varianze Outliers Autocorrelazione errori Valori Predetti Standardizzati Residui Standardizzati Valori Predetti Standardizzati Residui Standardizzati Valori Predetti Standardizzati Residui Standardizzati Figura Esempi di diagrammi a dispersione residui standardizzati per valori predetti standardizzati indicativi di una violazione delle assunzioni per l applicazione della regressione multipla (adattato da Barbaranelli, 003) Fin qui abbiamo valutato i predittori nel loro insieme. Vediamo invece nei grafici parziali i predittori uno per uno (Figura 7.5.7).

14 Figura Grafici di regressione parziale dei predittori I grafici in Figura non mostrano particolari relazioni fra i punteggi dei predittori (asse orizzontale) e i residui del criterio (asse verticale), se si esclude forse una debole relazione nel caso del numero di lezioni seguite e del punteggio SPATIAL (per aiutarci nella valutazione potremmo modificare il grafico per inserire la retta di regressione, come abbiamo visto nella scheda Strumenti informatici 7.4). Ad ogni modo, l assunzione di assenza di relazione fra valori dei predittori e residui sembra confermata. L assunzione di autocorrelazione dei residui può essere verificata mediante il test Durbin- Watson, che può essere richiesto nella finestra Statistics. La statistica comparirà nella tabella Model Summary (Figura 7.5.8) Model Model Summary b Adjusted Std. Error of Durbin- R R Square R Square the Estimate Watson,679 a,46,439 9,36,84 a. Predictors: (Constant),, Numero lezioni seguite,, Profitto in Matematica b. Dependent Variable: Punteggio Ansia verso la Statistica Figura Tabella Model Summary con la statistica Durbin-Watson per la valutazione dell assunzione di autocorrelazione degli errori Il valore riportato nella tabella in Figura è,8, di poco al di fuori dell intervallo,5-, indicato in precedenza. Questo risultato sembrerebbe indicare che è presente una certa autocorrelazione positiva fra gli errori, per cui eventuali risultati anomali dell analisi dovranno essere considerati con attenzione, perché potrebbero dipendere da questa lieve violazione di una delle assunzioni. La tabella Casewise Diagnostics (Figura 7.5.9) mostra che un soggetto, il 57, ha un residuo standardizzato maggiore di 3, il che lo rende un caso potenzialmente influente sui risultati.

15 Case Number 57 Casewise Diagnostics a Punteggio Ansia verso Predicted Std. Residual la Statistica Value Residual 3, ,44 3,564 a. Dependent Variable: Punteggio Ansia verso la Statistica Figura Tabella per l analisi dei residui caso per caso Per approfondire la questione, andiamo nella finestra Save e chiediamo che vengano salvate come nuove variabili del dataset le distanze di Cook e i levarage values (riquadro Distances), i residui standardizzati (Standardized in Residuals) e spuntiamo le opzioni Standardized DfBeta(s), Standardized DfFit e Covariance ratio nel riquadro Influence Statistics. Una volta prodotto l output tutte queste nuove variabili compariranno nel dataset. Innazitutto verifichiamo la correlazione fra i residui standardizzati della variabile dipendente e i predittori mediante il percorso Analyze Correlate Bivariate (Figura 7.5.0) Standardized Residual Profitto in Matematica Numero lezioni seguite Pearson Correlation Sig. (-tailed) N Pearson Correlation Sig. (-tailed) N Pearson Correlation Sig. (-tailed) N Pearson Correlation Sig. (-tailed) N Pearson Correlation Sig. (-tailed) N *. Correlation is significant at the 0.05 level (-tailed). **. Correlation is significant at the 0.0 level (-tailed). Correlations Numero Standardized Profitto in lezioni Punteggio Residual Matematica seguite SPATIAL,000,000,000,000,000,000,000, ,000,80,07*,8*,000,07,039, ,000,80,45,7**,000,07,49, ,000,07*,45,049,000,039,49, ,000,8*,7**,049,000,09,006, Figura Correlazioni fra residui standardizzati e valori de predittori Le correlazioni fra residui standardizzati e predittori sono tutte uguali a zero (Figura 7.5.0, colonna Standardized Residual). Si noti che questi coefficienti non corrispondono ai grafici parziali di Figura 7.5.7, perché quei grafici sono prodotti dall analisi di regressione parziale, ossia per un solo predittore alla volta indipendentemente dagli altri, mentre in questo caso vengono cosiderati i residui della regressione con tutti i predittori. Mediante la procedura di ordinamento dei casi in base alle variabili vista in precedenza, ordiniamo il dataset in base ai valori della distanza di Cook (COO_). Il massimo valore è,0846, ben al di sotto dell indicato da Norusis (998) come critico. Allo stesso modo, i valori di leverage (LEV_) sono tutti al di sotto del valore,0 considerato il limite superiore dei valori accettabili. Quando andiamo a considerare i valori di rapporto di covarianza (COV_), notiamo che c è un caso il cui valore è molto lontano da, che, non casualmente, è il soggetto 57, proprio quello che era risultato con un residuo standardizzato troppo alto. Andiamo allora ad esaminare i sui valori di influenza standardizzati (SDB0_, SDB_, SDB_, SDB3_, SDB4_), che, come detto, non

16 devono essere superiori a a / n o 3 / n in valore assoluto. In questo caso abbiamo 00 soggetti, per cui il primo valore critico è 0,0, il secondo 0,30. In effetti, il soggetto in questione ha valori di influenzza standardizzati maggiori di 0,30 in valore assoluto per SDB0_ (intercetta), SDB_ () e SDB4_ (). Questo soggetto dovrebbe quindi essere escluso dalle analisi. Naturalmente potremmo ordinare i casi per tutti i valori di influenza standardizzati e valutare quali cadono al di fuori dell intervallo che va da 0,30 a +0,30, e considerarli per l esclusione. Tuttavia, per eseguire correttamente questa operazione, i casi dovrebbero essere eliminati uno alla volta, e le analisi ripetute dopo l esclusione di questo caso. Tale procedimento può essere molto lungo, e potrebbe portare all esclusione di molti casi, per cui è da eseguire con attenzione soprattutto quando si hanno pochi casi. Inoltre, è importante non decidere l esclusione solo in base ad un unico indice: il soggetto 83, ad esempio, mostra un indice di influenza uguale,4586 in SDB_, ma ha valori nella norma in tutti gli altri indici, per cui potrebbe essere ragionevolmente mantenuto nel campione. Per semplicità, in questo esempio eseguiremo le analisi escludendo il soggetto 57, che ha mostrato i maggiori problemi in una molteplicità di indici Scelta della strategia di regressione da adottare Dopo aver verificato le assunzioni, dobbiamo decidere quale strategia di regressione multipla utilizzare. La Tabella 7.5. ci aiuta a capire come sceglierla in base alla domanda di ricerca. Tabella 7.5. Scelta della strategia di regressione multipla in base alla domanda di ricerca Domande di ricerca Qual è la dimensione della relazione generale fra l ansia nei confronti della statistica e il genere, la competenza matematica di base, il numero di lezioni seguite e il punteggio alla scala Spatial di OSIVQ? A quanta parte della relazione contribuisce singolarmente ogni predittore indipendentemente dagli altri? L inserimento nel modello del numero di lezioni seguite aumenta significativamente la precisione della predizione dell ansia nei confronti della statistica? E aggiungendo come ulteriore predittore il punteggio nella scala Spatial di OSIVQ cosa succede? Qual è la migliore combinazione lineare dei predittori per predire con la maggiore precisione possibile l ansia nei confronti della statistica? Strategia di regressione multipla da scegliere Standard Gerarchica Statistica Regressione standard Nella regressione multipla standard i predittori vengono inseriti nel modello simultaneamente. Per realizzare una regressione multipla standard in SPSS seguiamo il percorso Analyze Regression Linear e inseriamo tutti i predittori insieme nel campo Independent(s), e lasciamo selezionata l opzione di default per il metodo (Method: Enter). Clickiamo su Statistics e spuntiamo l opzione Part and Partial Correlations, che ci forniranno gli indici per calcolare la dimensione dell effetto. Realizziamo a questo punto l analisi.

17 Nella prima tabella di output, Variables Entered/Removed, qui non riportata, vengono indicate tutte le variabili inserite nel modello come blocco unico. Nella tabella successiva, Model Summary, possiamo invece osservare la bontà di adattamento del modello ai dati mediante l ispezione del valore di R e Adjusted R (Figura 7.5.) Model Model Summary Adjusted Std. Error of R R Square R Square the Estimate,7 a,506,485 8,675 a. Predictors: (Constant),, Numero lezioni seguite, Profitto in Matematica, Figura 7.5. Valori di bontà di adattamento del modello di regressione multipla standard ai dati I dati in Figura 7.5. indicano che il modello ha un buon adattamento ai dati, poiché il valore di R è,508 e quello di Adjusted R,485: in pratica, il modello di regressione spiega quasi il 50% della variabilità della variabile dipendente. La piccola differenza fra i due valori, peraltro, è un ulteriore indice di assenza di ridondanza (collinearità) nei predittori. Non esistono linee guida precise per valutare questi indici, perché R dipende dal numero di soggetti e dal numero di predittori: la situazione migliore è quella in cui si riesce a spiegare gran parte della variabilità del criterio (più del 50%) con un numero ristretto di predittori, e il caso che stiamo considerando sembrerebbe ricadere in questa situazione. Nella tabella successiva, ANOVA, viene riportato il test di significatività che verifica l ipotesi nulla che R sia diverso da zero. La Figura 7.5. mostra che lo è ad un livello di significatività p <,00. Model Regression Residual Total ANOVA b Sum of Squares df Mean Square F Sig. 754, ,685 4,0,000 a 7073, ,53 438, a. Predictors: (Constant),, Numero lezioni seguite, Profitto in Matematica, b. Dependent Variable: Punteggio Ansia verso la Statistica Figura 7.5. Tavola di ANOVA per una regressione multipla standard Poiché questo test statistico è fortemente influenzato dall ampiezza campionaria, è preferibile eseguire una valutazione della bontà di adattamento del modello ai dati basata sulla dimensione di R. Nell ultima tabella, Coefficients, troviamo le stime de parametri e la loro significatività (Figura 7.5.3) Model (Constant) Profitto in Matematica Numero lezioni seguite Unstandardized Coefficients a. Dependent Variable: Punteggio Ansia verso la Statistica Coefficients a Standardized Coefficients Correlations t Sig. Zero-order Partial Part B Std. Error Beta 0,867 4,30,56,03 -,993,847 -,04 -,538,59,89 -,055 -,039,58,7,3 3,0,003,40,97,9,0,77,49 5,758,000,477,5,47,46,076,430 5,60,000,504,500,406 Figura Tavola dei coefficienti di regressione per una regressione multipla standard

18 La colonna della significatività dei predittori (Sig.) mostra che il non è un predittore con un coefficiente di regressione statisticamente diverso da zero (p =,59), mentre tutti gli altri predittori e l intercetta lo sono. Questo ci porta concludere che il genere non è un predittore dell ansia nei confronti della statistica, mentre lo sono il profitto in matematica, il numero di lezioni seguite e il punteggio nella scala Spatial di OSIVQ. Interpretare i coefficienti di regressione non standardizzati non ci aiuta particolarmente, in quanto dovremmo affermare che per ogni punto in più alla prova di profitto in matematica l ansia nei confronti della statistica aumenta, in media, di,58 punti, così come per ogni lezione in più seguita il punteggio di ansia umenta di,0 punti, e per ogni punto in più alla scala Spatial il punteggio di Ansia aumenta di,46 punti. Per quanto corretta da un punto di vista statistico, tale interpretazione ha poco significato da un punto di vista pratico. Passiamo allora ad analizzare la dimensione dell effetto f dei vari predittori: R Rk,506 (,3,40+,49,477+,430,504) f = = = 0,0 R,506 f f f R R R,506 ( 0,04,89+,49,477+,430,504) =,506 k Profitto matematica = = R R R,506 ( 0,04,89+,3,40+,430,504) =,506 k Numero lezioni = = R R R,506 ( 0,04,89+,3,40+,49,477) =,506 k Spatial = = In base alla dimensione dell effetto, possiamo osservare che il numero di lezioni seguite e il punteggio alla scala Spatial, ossia uno stile cognitivo di tipo analitico, sembrano contribuire in modo consistente (dimensione dell effetto Grande, vedi Tabella 7.33) alla predizione del punteggio di ansia nei confronti della statistica, mentre il profitto in matematica contribuisce in modo Moderato. Si noti che la dimensione dell effetto così calcolata riguarda la variabilità spiegata complessivamente dai predittori, comprensiva del loro contributo unico e del contributo simultaneo, dovuto alla loro parziale associazione. Se volessimo separare le due componenti, dovremmo moltiplicare i coefficienti standardizzati beta per le Part Correlations e sommare questi prodotti, in modo da ottenere la quota di variabilità del criterio spiegata in modo unico dai predittori, indipendentemente da effetti di sovrapposizione. In base ai dati in Figura 7.5.3, il contributo unico dei predittori β rpart è,406, che sottratto a,506 dà,00. Questo significa che un 0% della variabilità del criterio è spiegato da effetti congiunti dei predittori, mentre quasi il 4% è spiegato unicamente dai predittori. In una tesi di laurea o in un articolo scientifico riporteremo la tabella con i coefficienti in Figura e scriveremo: E stata eseguita sui dati provenienti di 00 soggetti un analisi di regressione multipla standard per la predizione dell ansia nei confronti della statistica in base al genere, ai punteggi di un test per il profitto in matematica, al numero di lezioni del corso di psicometria seguite e al punteggio nella scala Spatial di OSIVQ. Le analisi preliminari hanno rivelato l assenza di problemi di collinearità e che un soggetto era probabilmente un outlier, per cui stato escluso dall analisi. Tutti i predittori tranne il genere sono risultati statisticamente significativi (vedi Tabella coi coefficienti). Il modello spiega il 5% di variabilità dell ansia nei confronti della statistica (R aggiustato =,485) e in base alla dimensione dell effetto f sono risultati predittori più importanti il punteggio alla scala Spatial (f =,44) e il numero di lezioni seguite (f =,4), mentre il profitto in matematica aveva una dimensione dell effetto meno forte (f =,9). 0,44 0,4 0,9

19 Regressione gerarchica Nel caso della regressione gerarchica, la domanda di ricerca di Tabella 7.5. indica che vogliamo sapere quanto può contribuire in più alla spiegazione della variabilità del criterio il predittore numero di lezioni seguite rispetto al genere e al profitto in matematica, e, in seguito, quanto può contribuire a sua volta il punteggio nella scala Spatial. Questo significa che i predittori devono essere inseriti nel modello in fasi successive. Per farlo, dopo aver seguito il percorso Analyze Regression Linear, inseriamo nel campo Independent(s) solo e Profitto in Matematica, poi clickiamo su Next, e inseriamo nel campo Independent(s) il numero di lezioni seguite, clickiamo di nuovo su Next e inseriamo nel campo Independent(s) il punteggio nella scala Spatial. A questo punto il nome del riquadro dovrebbe essere Block 3 of 3. Come Method lasciamo sempre Enter in ogni blocco. Clickiamo su Statistics e spuntiamo R squared change: nella regressione gerarchica questa opzione è fondamentale perché ci permette di verificare che la quota di variabilità spiegata del criterio che aggiungono i predittori o i blocchi di predittori successivi al primo sia statisticamente diversa da zero. Eseguiamo quindi l analisi. Nella prima tabella di output, Variables Entered/Removed, osserviamo che sono stati verificati tre modelli (colonna Model), e per ogni modello vengono indicate le variabili inserite (Figura 7.5.4). Model 3 Variables Entered/Removed b Variables Variables Entered Removed Method Profitto in Matematic a, a. Enter Numero lezioni seguite a. Enter Punteggio SPATIAL a. Enter a. All requested variables entered. b. Dependent Variable: Punteggio Ansia verso la Statistica Figura Tabella dei modelli verificati per una regressione multipla gerarchica In gergo ogni modello successivo è detto step. Questo significa che allo Step sono state inserite nel modello Profitto in Matematica e, allo Step il numero di lezioni seguite e allo Step 3 il punteggio di Spatial, esattamente come specificato. Nella tabella successiva, Model Summary, vengono riportati i valori di R e Adjusted R per ognuno dei tre step, con il test di significatività di R nel passaggio da un modello all altro (parte destra della tabella in Figura 7.5.5).

20 Model Summary Model 3 Change Statistics Adjusted Std. Error of R Square R R Square R Square the Estimate Change F Change df df Sig. F Change,48 a,75,58,097,75 0,76 96,000,584 b,34,3 9,966,67 4,07 95,000,7 c,506,485 8,675,65 3,387 94,000 a. Predictors: (Constant), Profitto in Matematica, b. Predictors: (Constant), Profitto in Matematica,, Numero lezioni seguite c. Predictors: (Constant), Profitto in Matematica,, Numero lezioni seguite, Figura Tabella con gli indici di bontà di adattamento dei dati e i test di significatività per gli incrementi di R ad ogni step per una regressione multipla gerarchica Il test del cambiamento in R (R Square Change) per lo Step riguarda il miglioramento della predizione rispetto ad un modello privo di predittori, ed è statisticamente significativo al pari di tutti gli altri cambiamenti. Questo significa che non solo genere e profitto in matematica premettono una predizione migliore dell ansia nei confronti della statistica rispetto a quella che potremmo ottenee tirando a indovinare, ma anche che l aggiunta del numero di lezioni seguite, prima, e del punteggio alla scala Spatial, poi, consentono un ulteriore miglioramento della predizione. La tavola di analisi della varianza (ANOVA) che segue mostra i test di significatività di R modello per modello (Figura 7.5.6). Model 3 Regression Residual Total Regression Residual Total Regression Residual Total ANOVA d Sum of Squares df Mean Square F Sig. 506,398 53,99 0,76,000 a 8, ,47 438, , ,938 6,4,000 b 9435, ,33 438, , ,685 4,0,000 c 7073, ,53 438, a. Predictors: (Constant), Profitto in Matematica, b. Predictors: (Constant), Profitto in Matematica,, Numero lezioni seguite c. Predictors: (Constant), Profitto in Matematica,, Numero lezioni seguite, d. Dependent Variable: Punteggio Ansia verso la Statistica Figura Tavola di ANOVA per tutti i modelli verificati in un analisi di regressione multipla gerarchica Come era prevedibile, in tutti i modelli R è statisticamente diverso da zero (Sig. <,00). Nella tavola successiva, Coefficients, troviamo i coefficienti di regressione e il loro test di significatività ad ogni step dell analisi (Figura 7.5.7).

Approfondimento 5.2. Individuare gli outlier

Approfondimento 5.2. Individuare gli outlier Approfondimento 5.2 Individuare gli outlier Gli outlier sono quei valori che, rispetto agli altri del campione, risultano particolarmente estremi. Questo non significa che non siano punteggi validi, ma

Dettagli

Strumenti informatici 2.3 - Le statistiche descrittive con Excel e SPSS

Strumenti informatici 2.3 - Le statistiche descrittive con Excel e SPSS Strumenti informatici 2.3 - Le statistiche descrittive con Excel e SPSS Per ottenere le statistiche descrittive di una o più variabili in Excel occorre utilizzare le funzioni, che sono operatori matematici,

Dettagli

3) ANALISI DEI RESIDUI

3) ANALISI DEI RESIDUI 3) ANALISI DEI RESIDUI Dopo l analisi di regressione si eseguono alcuni test sui residui per avere una ulteriore conferma della validità del modello e delle assunzioni (distribuzione normale degli errori,

Dettagli

ANALISI DEI DATI CON SPSS

ANALISI DEI DATI CON SPSS STRUMENTI E METODI PER LE SCIENZE SOCIALI Claudio Barbaranelli ANALISI DEI DATI CON SPSS II. LE ANALISI MULTIVARIATE ISBN 978-88-7916-315-9 Copyright 2006 Via Cervignano 4-20137 Milano Catalogo: www.lededizioni.com

Dettagli

Elaborazione dei dati su PC Regressione Multipla

Elaborazione dei dati su PC Regressione Multipla 21 Elaborazione dei dati su PC Regressione Multipla Analizza Regressione Statistiche Grafici Metodo di selezione Analisi dei dati 21.1 Introduzione 21.2 Regressione lineare multipla con SPSS 21.3 Regressione

Dettagli

Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia

Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia Alessandra Pelliccia Matteo Cataldi Matteo Filippo Donadi 0 AGENDA Fonti Descrizione dei dati Variabili

Dettagli

Strumenti informatici 2.1 - Realizzare grafici e tabelle con Excel e SPSS

Strumenti informatici 2.1 - Realizzare grafici e tabelle con Excel e SPSS Strumenti informatici 2.1 - Realizzare grafici e tabelle con Excel e SPSS Realizzare un grafico con Excel è molto semplice, e permette tutta una serie di varianti. Il primo passo consiste nell organizzare

Dettagli

Strumenti Informatici 8.1. Realizzare il test della binomiale (o test dei segni) con Excel e SPSS

Strumenti Informatici 8.1. Realizzare il test della binomiale (o test dei segni) con Excel e SPSS 1 Strumenti Informatici 8.1 Realizzare il test della binomiale (o test dei segni) con Excel e SPSS Il test della binomiale (o test dei segni) può essere eseguito con Excel impostando le formule adeguate

Dettagli

Strumenti informatici 7.1 - Realizzare analisi statistiche su una tavola di contingenza con Excel e SPSS

Strumenti informatici 7.1 - Realizzare analisi statistiche su una tavola di contingenza con Excel e SPSS Strumenti informatici 7.1 - Realizzare analisi statistiche su una tavola di contingenza con Excel e SPSS Excel può essere utilizzato per realizzare un test del chi-quadrato per l indipendenza di variabili

Dettagli

Approfondimento 4.6. La valutazione statistica della discriminatività di un item

Approfondimento 4.6. La valutazione statistica della discriminatività di un item Approfondimento.6 La valutazione statistica della discriminatività di un item. Item di test di prestazione massima Per valutare la discriminatività di un item di un test di prestazione massima occorre

Dettagli

Capitolo 12 La regressione lineare semplice

Capitolo 12 La regressione lineare semplice Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara

Dettagli

Corso di Statistica Medica. Studio dell effetto di più variabili indipendenti su una variabile dipendente: Regressione lineare multipla

Corso di Statistica Medica. Studio dell effetto di più variabili indipendenti su una variabile dipendente: Regressione lineare multipla Studio dell effetto di più variabili indipendenti su una variabile dipendente: Regressione lineare multipla Regressione logistica Regressione lineare multipla Nel modello di regressione lineare semplice

Dettagli

Strumenti informatici 13.1

Strumenti informatici 13.1 1 Strumenti informatici 1.1 I test post-hoc nel caso del confronto fra tre o più proporzioni dipendenti e la realizzazione del test Q di Cochran in SPSS Nel caso dei test post-hoc per il test Q di Cochran,

Dettagli

Strumenti informatici 11.1. Realizzare un test per proporzioni dipendenti in Excel ed SPSS

Strumenti informatici 11.1. Realizzare un test per proporzioni dipendenti in Excel ed SPSS 1 Strumenti informatici 11.1 Realizzare un test per proporzioni dipendenti in Excel ed SPSS Excel non dispone di una funzione che consenta di realizzare il test statistico z per il confronto di proporzioni

Dettagli

1 BREVE RIPASSO DEI TEST STATISTICI 2 I TEST STATISTICI NEI SOFTWARE ECONOMETRICI E IL P-VALUE 3 ESERCIZI DI ALLENAMENTO

1 BREVE RIPASSO DEI TEST STATISTICI 2 I TEST STATISTICI NEI SOFTWARE ECONOMETRICI E IL P-VALUE 3 ESERCIZI DI ALLENAMENTO I TEST STATISTICI E IL P-VALUE Obiettivo di questo Learning Object è ripassare la teoria ma soprattutto la pratica dei test statistici, con un attenzione particolare ai test che si usano in Econometria.

Dettagli

Excel Terza parte. Excel 2003

Excel Terza parte. Excel 2003 Excel Terza parte Excel 2003 TABELLA PIVOT Selezioniamo tutti i dati (con le relative etichette) Dati Rapporto tabella pivot e grafico pivot Fine 2 La tabella pivot viene messa di default in una pagina

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it TRATTAMENTI PRELIMINARI DEI DATI Pulizia dei dati (data cleaning) = processo capace di garantire, con una certa soglia

Dettagli

Regressione Lineare con un Singolo Regressore

Regressione Lineare con un Singolo Regressore Regressione Lineare con un Singolo Regressore Quali sono gli effetti dell introduzione di pene severe per gli automobilisti ubriachi? Quali sono gli effetti della riduzione della dimensione delle classi

Dettagli

L analisi fattoriale

L analisi fattoriale L analisi fattoriale Scopo dell analisi fattoriale e quello di identificare alcune variabili latenti (fattori) in grado di spiegare i legami, le interrelazioni e le dipendenze tra le variabili statistiche

Dettagli

1 La Matrice dei dati

1 La Matrice dei dati Dispense sull uso di Excel Daniela Marella 1 La Matrice dei dati Un questionario è costituito da un insieme di domande raccolte su un determinato supporto (cartaceo o elettronico) e somministrate alla

Dettagli

Metodi di analisi dei dati in MINITAB

Metodi di analisi dei dati in MINITAB Metodi di analisi dei dati in MINITAB 73 Metodi di analisi dei dati in MINITAB 4.1 Introduzione ai metodi di analisi dei dati con MINITAB MINITAB dispone di diverse tipologie di comandi per l analisi grafica

Dettagli

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE STATISTICA DESCRITTIVA SCHEDA N. : REGRESSIONE LINEARE Nella Scheda precedente abbiamo visto che il coefficiente di correlazione fra due variabili quantitative X e Y fornisce informazioni sull esistenza

Dettagli

Esplorazione dei dati

Esplorazione dei dati Esplorazione dei dati Introduzione L analisi esplorativa dei dati evidenzia, tramite grafici ed indicatori sintetici, le caratteristiche di ciascun attributo presente in un dataset. Il processo di esplorazione

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Dipartimento di Scienze dell Educazione Università degli studi Roma Tre

Dipartimento di Scienze dell Educazione Università degli studi Roma Tre Dipartimento di Scienze dell Educazione Università degli studi Roma Tre Materiale del Laboratorio sulle Procedure Statistiche di base con SPSS CASD Centro Analisi Statistica Dati 1 1. Il Questionario Nella

Dettagli

La Regressione Lineare

La Regressione Lineare La Regressione Lineare. Cos è l Analisi della Regressione Multipla? L analisi della regressione multipla è una tecnica statistica che può essere impiegata per analizzare la relazione tra una variabile

Dettagli

EPG Metodologia della ricerca e Tecniche Multivariate dei dati. Dott.ssa Antonella Macchia E-mail: a.macchia@unich.it. www.psicometria.unich.

EPG Metodologia della ricerca e Tecniche Multivariate dei dati. Dott.ssa Antonella Macchia E-mail: a.macchia@unich.it. www.psicometria.unich. EPG Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Antonella Macchia E-mail: a.macchia@unich.it www.psicometria.unich.it GIORNI E ORARI LEZIONI Sabato 01-03-2014 h 08:00-12:00 Sabato

Dettagli

Regressione Logistica

Regressione Logistica Regressione Logistica Esercizio Data set: Nel data set heart.txt (o heart.sav) sono contenute informazioni riguardo 302 pazienti che hanno avuto infarto e 60 che non hanno avuto infarto in uno studio retrospettivo

Dettagli

Prof.ssa Paola Vicard

Prof.ssa Paola Vicard Questa nota consiste per la maggior parte nella traduzione (con alcune integrazioni) da Descriptive statistics di J. Shalliker e C. Ricketts, 2000, University of Plymouth Consideriamo come esempio il data

Dettagli

Elaborazione dati in Analisi Sensoriale

Elaborazione dati in Analisi Sensoriale Elaborazione dati in Analisi Sensoriale Si è parlato di interpretazione corretta dei risultati ottenuti; a questo concorrono due fattori: affidabilità e validità. Se i test fossero stati ripetuti con lo

Dettagli

Regressione lineare multipla Strumenti quantitativi per la gestione

Regressione lineare multipla Strumenti quantitativi per la gestione Regressione lineare multipla Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare multipla (RLM) Esempio: RLM con due predittori Stima dei coefficienti e previsione Advertising data

Dettagli

Prof.ssa Paola Vicard

Prof.ssa Paola Vicard Questa nota consiste perlopiù nella traduzione (con alcune integrazioni) da Descriptive statistics di J. Shalliker e C. Ricketts, 2000, University of Plymouth Consideriamo i dati nel file esercizio10_dati.xls.

Dettagli

Modello di regressione lineare

Modello di regressione lineare Modello di regressione lineare a cura di Giordano dott. Enrico enrico.giordano@meliorbanca.com Nel presente lavoro viene descritto in modo dettagliato (attraverso anche un impatto visivo), l analisi di

Dettagli

Microeconometria (Silvia Tiezzi) 01 aprile2011 Esercitazione

Microeconometria (Silvia Tiezzi) 01 aprile2011 Esercitazione Microeconometria (Silvia Tiezzi) 01 aprile2011 Esercitazione Esercizio 1 Si consideri il seguente modello ad effetti fissi con variabili binarie: + 1 2 a) supponete che N=3. Si mostri che i regressori

Dettagli

La regressione lineare multipla

La regressione lineare multipla 13 La regressione lineare multipla Introduzione 2 13.1 Il modello di regressione multipla 2 13.2 L analisi dei residui nel modello di regressione multipla 9 13.3 Il test per la verifica della significatività

Dettagli

Prof.ssa Paola Vicard

Prof.ssa Paola Vicard Questa nota consiste perlopiù nella traduzione da Descriptive statistics di J. Shalliker e C. Ricketts, 2000, University of Plymouth Consideriamo come esempio il data set contenuto nel foglio excel esercizio2_dati.xls.

Dettagli

RICERCHE DI MERCATO. 5.6 Analisi Fattoriale (Componenti Principali)

RICERCHE DI MERCATO. 5.6 Analisi Fattoriale (Componenti Principali) RICERCHE DI MERCATO 5.6 Analisi Fattoriale (Componenti Principali) Prof. L. Neri Dip. di Economia Politica Premessa Come evidenziato in precedenza l approccio di segmentazione per omogeneità prevede la

Dettagli

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2. Analisi multivariata Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Cercare di capire le relazioni

Dettagli

EMBA PART TIME 2012 ROMA I ANNO

EMBA PART TIME 2012 ROMA I ANNO BUSINESS STATISTICS: ASSIGNMENT II: EMBA PART TIME 2012 ROMA I ANNO PROF. MOSCONI ESERCIZIO 1: USO DEL MODELLO DI REGRESSIONE PER DETERMINARE IL VALORE DEGLI IMMOBILI. ESERCIZIO 2: PREVISIONE DI VARIABILI

Dettagli

Confronto di metodologie statistiche per l analisi di risultati di Customer Satisfaction

Confronto di metodologie statistiche per l analisi di risultati di Customer Satisfaction Confronto di metodologie statistiche per l analisi di risultati di Customer Satisfaction S. Gorla: Citroën Italia S.p.A. e Consigliere di giunta AicqCN; E. Belluco: statistico, PG. Della Role: master Black

Dettagli

Elementi di Psicometria

Elementi di Psicometria Elementi di Psicometria 12-Correlazione vers. 1.1 (27 novembre 2012) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2011-2012 G. Rossi (Dip. Psicologia)

Dettagli

Note introduttive Il software econometrico Easy Reg è scaricabile gratuitamente da internet (http://econ.la.psu.edu/~hbierens/easyreg.

Note introduttive Il software econometrico Easy Reg è scaricabile gratuitamente da internet (http://econ.la.psu.edu/~hbierens/easyreg. Note introduttive Il software econometrico Easy Reg è scaricabile gratuitamente da internet (http://econ.la.psu.edu/~hbierens/easyreg.htm) Per importare i dati in Easy Reg bisogna: 1. Cambiare le impostazioni

Dettagli

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL 1 RAPPRESENTAZIONE GRAFICA Per l analisi dati con Excel si fa riferimento alla versione 2007 di Office, le versioni successive non differiscono

Dettagli

Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza

Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza 3 maggio 2005 Esercizio 1 Consideriamo l esempio del libro di testo Annette

Dettagli

Esercizio 1. Nella Tabella A sono riportati i tempi di percorrenza, in minuti, di un tratto autostradale da parte di 40 autoveicoli.

Esercizio 1. Nella Tabella A sono riportati i tempi di percorrenza, in minuti, di un tratto autostradale da parte di 40 autoveicoli. Esercizio 1 Nella Tabella A sono riportati i tempi di percorrenza, in minuti, di un tratto autostradale da parte di 40 autoveicoli. Tabella A 138 150 144 149 164 132 125 157 161 135 150 145 145 142 156

Dettagli

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE DESCRIZIONE DEI DATI DA ESAMINARE Sono stati raccolti i dati sul peso del polmone di topi normali e affetti da una patologia simile

Dettagli

STATISTICA ECONOMICA ED ANALISI DI MERCATO Previsioni Economiche ed Analisi di Serie Storiche A.A. 2003 / 04 ESERCITAZIONE 2

STATISTICA ECONOMICA ED ANALISI DI MERCATO Previsioni Economiche ed Analisi di Serie Storiche A.A. 2003 / 04 ESERCITAZIONE 2 STATISTICA ECONOMICA ED ANALISI DI MERCATO Previsioni Economiche ed Analisi di Serie Storiche A.A. 2003 / 04 ESERCITAZIONE 2 Introduzione all uso di EViews di Daniele Toninelli 1. INTRODUZIONE ad EViews

Dettagli

Approfondimento 4.8. La pulitura dei dati

Approfondimento 4.8. La pulitura dei dati Approfondimento 4.8 La pulitura dei dati Una volta terminata la raccolta dei dati e averli inseriti in un database è finalmente giunto il momento di condurre le analisi statistiche. Ad esempio, vogliamo

Dettagli

2. Forma di investimento di ingresso 3. Forme di investimento: presenza in portafoglio 4. Forme di investimento più rilevanti

2. Forma di investimento di ingresso 3. Forme di investimento: presenza in portafoglio 4. Forme di investimento più rilevanti Analisi delle scelte di investimento dei clienti In questo documento verranno analizzati i caratteri relativi alle scelte di investimento dei clienti, e verrà valutato anche se tali caratteristiche sono

Dettagli

Dott.ssa Caterina Gurrieri

Dott.ssa Caterina Gurrieri Dott.ssa Caterina Gurrieri Le relazioni tra caratteri Data una tabella a doppia entrata, grande importanza riveste il misurare se e in che misura le variabili in essa riportata sono in qualche modo

Dettagli

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12)

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12) Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 011-1) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola

Dettagli

3. Piano di lavoro: - applicazione di alcune semplici procedure, con il confronto tra le diverse soluzioni possibili nell ambito del programma SPSS

3. Piano di lavoro: - applicazione di alcune semplici procedure, con il confronto tra le diverse soluzioni possibili nell ambito del programma SPSS Per utilizzare SPSS sui PC dell aula informatica occorre accedere come: ID: SPSS Password: winidams Testo rapido di consultazione: Fideli R. Come analizzare i dati al computer. ed. Carocci, Urbino, 2002.

Dettagli

Il corso si colloca nell ambito del corso integrato di scienze quantitative, al secondo anno, primo semestre.

Il corso si colloca nell ambito del corso integrato di scienze quantitative, al secondo anno, primo semestre. Corso di Statistica Medica 2004-2005 Il corso si colloca nell ambito del corso integrato di scienze quantitative, al secondo anno, primo semestre. Sono previste 30 ore di lezione di statistica e 12 di

Dettagli

ELEMENTI DI STATISTICA DESCRITTIVA

ELEMENTI DI STATISTICA DESCRITTIVA Metodi Statistici e Probabilistici per l Ingegneria ELEMENTI DI STATISTICA DESCRITTIVA Corso di Laurea in Ingegneria Civile Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain E-mail:

Dettagli

Metodi statistici e probabilistici per l ingegneria. Corso di Laurea in Ingegneria Civile A.A. 2009-10. Facoltà di Ingegneria. Università di Padova

Metodi statistici e probabilistici per l ingegneria. Corso di Laurea in Ingegneria Civile A.A. 2009-10. Facoltà di Ingegneria. Università di Padova Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile A.A. 29- Facoltà di Ingegneria Università di Padova Docente: Dott. L. Corain ESERCIZIO (TEST AD UN CAMPIONE) Un

Dettagli

LA MODELLAZIONE EMPIRICA DELLE RELAZIONI ECONOMICHE: APPLICAZIONI IN STATA 7. Maria Elena Bontempi e.bontempi@economia.unife.it

LA MODELLAZIONE EMPIRICA DELLE RELAZIONI ECONOMICHE: APPLICAZIONI IN STATA 7. Maria Elena Bontempi e.bontempi@economia.unife.it LA MODELLAZIONE EMPIRICA DELLE RELAZIONI ECONOMICHE: APPLICAZIONI IN STATA 7 Maria Elena Bontempi e.bontempi@economia.unife.it VI LEZIONE: Analisi dei residui di stima: outlier, eteroschedasticità. Leverage.

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 12-Il t-test per campioni appaiati vers. 1.2 (7 novembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Come costruire una distribuzione di frequenze per caratteri quantitativi continui

Come costruire una distribuzione di frequenze per caratteri quantitativi continui Come costruire una distribuzione di frequenze per caratteri quantitativi continui Consideriamo i dati contenuti nel primo foglio di lavoro (quello denominato dati) del file esempio2.xls. I dati si riferiscono

Dettagli

MICROSOFT EXCEL INTRODUZIONE PRIMI PASSI

MICROSOFT EXCEL INTRODUZIONE PRIMI PASSI MICROSOFT EXCEL INTRODUZIONE Si tratta di un software appartenente alla categoria dei fogli di calcolo: con essi si intendono veri e propri fogli elettronici, ciascuno dei quali è diviso in righe e colonne,

Dettagli

Patente Europea di Informatica ECDL Modulo 4. Lezione 3: Grafici Impostazione e verifica del foglio Opzioni di stampa. Anno 2011/2012 Syllabus 5.

Patente Europea di Informatica ECDL Modulo 4. Lezione 3: Grafici Impostazione e verifica del foglio Opzioni di stampa. Anno 2011/2012 Syllabus 5. Patente Europea di Informatica ECDL Modulo 4 Lezione 3: Grafici Impostazione e verifica del foglio Opzioni di stampa Anno 2011/2012 Syllabus 5.0 Una delle funzioni più importanti di un foglio elettronico

Dettagli

FACOLTA DI PSICOLOGIA Scienze della Mente TESINA DI INFORMATICA. Fossataro Carlotta Di Rienzo Ariana Basso Alessandra Marchetto Helena

FACOLTA DI PSICOLOGIA Scienze della Mente TESINA DI INFORMATICA. Fossataro Carlotta Di Rienzo Ariana Basso Alessandra Marchetto Helena FACOLTA DI PSICOLOGIA Scienze della Mente TESINA DI INFORMATICA Fossataro Carlotta Di Rienzo Ariana Basso Alessandra Marchetto Helena SPSS INDICE INTRODUZIONE...3 FINESTRE...4 EDITOR DEI DATI...4 OUTPUT...11

Dettagli

Prof.ssa Paola Vicard

Prof.ssa Paola Vicard DISTRIBUZIONE DI FREQUENZE PER CARATTERI QUALITATIVI Questa nota consiste per la maggior parte nella traduzione (con alcune integrazioni) da Descriptive statistics di J. Shalliker e C. Ricketts, 2000,

Dettagli

Traccia delle lezioni svolte in laboratorio Excel 2003. Excel 2003 Excel 2010

Traccia delle lezioni svolte in laboratorio Excel 2003. Excel 2003 Excel 2010 Traccia delle lezioni svolte in laboratorio Excel 2003 Excel 2003 Excel 2010 INTRODUZIONE A EXCEL EXCEL è un programma di Microsoft Office che permette di analizzare grandi quantità di dati (database)

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 10-Il test t per un campione e la stima intervallare (vers. 1.1, 25 ottobre 2015) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia,

Dettagli

Gestione ed Analisi Statistica dei dati

Gestione ed Analisi Statistica dei dati Master in Evidence Based Practice e Metodologia della Ricerca clinico-assistenziale assistenziale Gestione ed Analisi Statistica dei dati Daniela Fortuna 13 giugno 2014 Argomenti Parte teorica Relazioni

Dettagli

Indice. 1 Introduzione ai modelli lineari 2. 2 Dataset 3. 3 Il Modello 8. 4 In pratica 12 4.1 Peso e percorrenza... 12

Indice. 1 Introduzione ai modelli lineari 2. 2 Dataset 3. 3 Il Modello 8. 4 In pratica 12 4.1 Peso e percorrenza... 12 Indice 1 Introduzione ai modelli lineari 2 2 Dataset 3 3 Il Modello 8 4 In pratica 12 41 Peso e percorrenza 12 1 Capitolo 1 Introduzione ai modelli lineari Quando si analizzano dei dati, spesso si vuole

Dettagli

Approfondimento 4.9. La gestione dei dati mancanti

Approfondimento 4.9. La gestione dei dati mancanti Approfondimento 4.9 La gestione dei dati mancanti Quando si eseguono ricerche sui test psicologici, ci si trova spesso nella situazione di dover somministrare molti item a molti soggetti. Ad esempio, immaginate

Dettagli

CPU Performance: Regressione multipla e Analisi Cluster in Matlab

CPU Performance: Regressione multipla e Analisi Cluster in Matlab CPU Performance: Regressione multipla e Analisi Cluster in Matlab Alberto Lusoli Abstract Il seguente documento, illustra le tecniche utilizzate nell analisi del dataset CPU Performance. Gli scopi dello

Dettagli

qwertyuiopasdfghjklzxcvbnmqwerty AppuntiBicoccaAppuntiBicoccaAppu ntibicoccaappuntibicoccaappuntibic occaappuntibicoccaappuntibicoccaa

qwertyuiopasdfghjklzxcvbnmqwerty AppuntiBicoccaAppuntiBicoccaAppu ntibicoccaappuntibicoccaappuntibic occaappuntibicoccaappuntibicoccaa qwertyuiopasdfghjklzxcvbnmqwerty AppuntiBicoccaAppuntiBicoccaAppu ntibicoccaappuntibicoccaappuntibic occaappuntibicoccaappuntibicoccaa Analisi multivariata dei dati Teoria e procedimento con SPSS ppuntibicoccaappuntibicoccaappunt

Dettagli

Il risultato di un analisi chimica è un informazione costituita da: un numero un incertezza un unità di misura

Il risultato di un analisi chimica è un informazione costituita da: un numero un incertezza un unità di misura Il risultato di un analisi chimica è un informazione costituita da: un numero un incertezza un unità di misura Conversione del risultato in informazione utile È necessario fare alcune considerazioni sul

Dettagli

Elementi di Statistica

Elementi di Statistica Elementi di Statistica Contenuti Contenuti di Statistica nel corso di Data Base Elementi di statistica descrittiva: media, moda, mediana, indici di dispersione Introduzione alle variabili casuali e alle

Dettagli

Cluster gerarchica. Capitolo

Cluster gerarchica. Capitolo Cluster gerarchica Capitolo 33 Questa procedura consente di identificare gruppi di casi relativamente omogenei in base alle caratteristiche selezionate, utilizzando un algoritmo che inizia con ciascun

Dettagli

In una tabella 2 x 2 il valore del chiquadrato, che quantifica la differenza fra i numero osservati e quelli attesi, è la somma delle quattro celle

In una tabella 2 x 2 il valore del chiquadrato, che quantifica la differenza fra i numero osservati e quelli attesi, è la somma delle quattro celle Test statistici il chi quadrato Valutare la differenza tra due percentuali o proporzioni L'ipotesi zero (o ipotesi nulla) afferma che la differenza osservata - di qualsiasi entità essa sia - è dovuta al

Dettagli

Appunti sulla regressione lineare semplice e multipla

Appunti sulla regressione lineare semplice e multipla Appunti sulla regressione lineare semplice e multipla Germano Rossi 9 aprile 004 vers. 0.3. Indice Indice 1 1 Appunti sulla regressione lineare semplice e multipla 1.1 Introduzione.......................................

Dettagli

Il modello di regressione lineare multivariata

Il modello di regressione lineare multivariata Il modello di regressione lineare multivariata Eduardo Rossi 2 2 Università di Pavia (Italy) Aprile 2013 Rossi MRLM Econometria - 2013 1 / 39 Outline 1 Notazione 2 il MRLM 3 Il modello partizionato 4 Collinearità

Dettagli

Design of Experiments

Design of Experiments Design of Experiments Luigi Amedeo Bianchi 1 Introduzione Cominciamo spiegando cosa intendiamo con esperimento, ossia l investigare un processo cambiando i dati in ingresso, osservando i cambiamenti che

Dettagli

Multicollinearità Strumenti quantitativi per la gestione

Multicollinearità Strumenti quantitativi per la gestione Strumenti quantitativi per la gestione Emanuele Taufer Quando non tutto va come dovrebbe I dati Scatter plot Correlazioni RLS e RLM Individuare la MC Variance Inflation Factor Cosa fare in caso di MC Alcune

Dettagli

STIMARE valori ed eseguire ANALISI DI REGRESSIONE

STIMARE valori ed eseguire ANALISI DI REGRESSIONE STIMARE valori ed eseguire ANALISI DI REGRESSIONE È possibile impostare una serie di valori che seguono una tendenza lineare semplice oppure una tendenza con crescita esponenziale. I valori stimati vengono

Dettagli

Prof.ssa Paola Vicard

Prof.ssa Paola Vicard Questa nota consiste perlopiù nella traduzione da Descriptive statistics di J. Shalliker e C. Ricketts, 2000, University of Plymouth Consideriamo come esempio il data set contenuto nel foglio excel esercizio1_dati.xls.

Dettagli

Indice Statistiche Univariate Statistiche Bivariate

Indice Statistiche Univariate Statistiche Bivariate Indice 1 Statistiche Univariate 1 1.1 Importazione di un file.data.............................. 1 1.2 Medie e variabilità................................... 6 1.3 Distribuzioni di frequenze...............................

Dettagli

Analizza/Confronta medie. ELEMENTI DI PSICOMETRIA Esercitazione n. 7-8-9-107. Test t. Test t. t-test test e confronto tra medie chi quadrato

Analizza/Confronta medie. ELEMENTI DI PSICOMETRIA Esercitazione n. 7-8-9-107. Test t. Test t. t-test test e confronto tra medie chi quadrato Analizza/Confronta medie ELEMENTI DI PSICOMETRIA Esercitazione n. 7-8-9-107 t-test test e confronto tra medie chi quadrato C.d.L. Comunicazione e Psicologia a.a. 2008/09 Medie Calcola medie e altre statistiche

Dettagli

Capitolo 7 Guida operativa del programma TQ Controlla

Capitolo 7 Guida operativa del programma TQ Controlla Capitolo 7 Guida operativa del programma TQ Controlla Panoramica delle funzionalità Fornisce un ampio ventaglio di strumenti per il controllo statistico dei processi (SPC) in modo da soddisfare ogni esigenza

Dettagli

Note sull esperienza Misura di g versione 1, Francesco, 7/05/2010

Note sull esperienza Misura di g versione 1, Francesco, 7/05/2010 Note sull esperienza Misura di g versione 1, Francesco, 7/05/010 L esperienza, basata sullo studio di una molla a spirale in condizioni di equilibrio e di oscillazione, ha diversi scopi e finalità, tra

Dettagli

Lezione 6 Introduzione a Microsoft Excel Parte Terza

Lezione 6 Introduzione a Microsoft Excel Parte Terza Lezione 6 Introduzione a Microsoft Excel Parte Terza I grafici in Excel... 1 Creazione di grafici con i dati di un foglio di lavoro... 1 Ricerca del tipo di grafico più adatto... 3 Modifica del grafico...

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2013-2014 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda Premessa Con l analisi di sensitività il perito valutatore elabora un range di valori invece di un dato

Dettagli

Università del Piemonte Orientale. Corsi di Specialità. Corso di Statistica Medica. Analisi dei dati quantitativi : Analisi della varianza

Università del Piemonte Orientale. Corsi di Specialità. Corso di Statistica Medica. Analisi dei dati quantitativi : Analisi della varianza Università del Piemonte Orientale Corsi di Specialità Corso di Statistica Medica Analisi dei dati quantitativi : Analisi della varianza Università del Piemonte Orientale Corso di laurea in biotecnologie

Dettagli

Laboratorio di Chimica Fisica 04/03/2015. Introduzione all uso di Microcal Origin 6.0 (TM)

Laboratorio di Chimica Fisica 04/03/2015. Introduzione all uso di Microcal Origin 6.0 (TM) Introduzione all uso di Microcal Origin 6.0 (TM) Origin lavora solo in ambiente Windows, ma ci sono degli omologhi per linux e apple. Sui computer del laboratorio è installato windows XP e troverete la

Dettagli

L analisi dei dati. Capitolo 4. 4.1 Il foglio elettronico

L analisi dei dati. Capitolo 4. 4.1 Il foglio elettronico Capitolo 4 4.1 Il foglio elettronico Le più importanti operazioni richieste dall analisi matematica dei dati sperimentali possono essere agevolmente portate a termine da un comune foglio elettronico. Prenderemo

Dettagli

Facoltà di Psicologia Università di Padova Anno Accademico 2010-2011

Facoltà di Psicologia Università di Padova Anno Accademico 2010-2011 Facoltà di Psicologia Università di Padova Anno Accademico 010-011 Corso di Psicometria - Modulo B Dott. Marco Vicentini marco.vicentini@unipd.it Rev. 10/01/011 La distribuzione F di Fisher - Snedecor

Dettagli

Pivot è bello. Principali. misure di variabilità. Il contesto è di tipo matematico, in particolare riguarda l uso di dati numerici e delle loro

Pivot è bello. Principali. misure di variabilità. Il contesto è di tipo matematico, in particolare riguarda l uso di dati numerici e delle loro Pivot è bello Livello scolare: 1 biennio Abilità Conoscenze interessate Predisporre la struttura della Distribuzioni delle matrice dei dati grezzi con frequenze a seconda del riguardo a una rilevazione

Dettagli

Natura dei dati e della statistica

Natura dei dati e della statistica INDICE SEZIONE PRIMA Natura dei dati e della statistica 1 Le basi 2 Statistica: ma a che serve? 2 Statistica descrittiva e statistica inferenziale 2 Variabili 3 Tipi di dati 3 Dati discreti e dati continui

Dettagli

USO DI EXCEL COME DATABASE

USO DI EXCEL COME DATABASE USO DI EXCEL COME DATABASE Le funzionalità di calcolo intrinseche di un foglio di lavoro ne fanno uno strumento eccellente per registrarvi pochi dati essenziali, elaborarli con formule di vario tipo e

Dettagli

3.3 Formattazione. Formattare un testo. Copyright 2008 Apogeo. Formattazione del carattere

3.3 Formattazione. Formattare un testo. Copyright 2008 Apogeo. Formattazione del carattere 3.3 Formattazione Formattare un testo Modificare la formattazione del carattere Cambiare il font di un testo selezionato Modificare la dimensione e il tipo di carattere Formattazione del carattere In Word,

Dettagli

Il corso si colloca nell ambito del corso integrato di scienze quantitative, al primo anno.

Il corso si colloca nell ambito del corso integrato di scienze quantitative, al primo anno. Corso di Statistica Medica Il corso si colloca nell ambito del corso integrato di scienze quantitative, al primo anno. Sono previste 40 ore complessive, di cui almeno 16 di lezione frontale e le restanti

Dettagli

In questa parte vi mostreremo come utilizzare QlikView. Esamineremo le componenti di questo programma, che verranno descritte una ad una.

In questa parte vi mostreremo come utilizzare QlikView. Esamineremo le componenti di questo programma, che verranno descritte una ad una. 1 Manuale per QlikView Web Cos è QlikView? QlikView è un programma che consente di visualizzare dati statistici offrendo la possibilità di operare in modo facile e comprensivo. Per usare QlikView non bisogna

Dettagli

Università del Piemonte Orientale. Corso di dottorato in medicina molecolare. a.a. 2002 2003. Corso di Statistica Medica. Inferenza sulle medie

Università del Piemonte Orientale. Corso di dottorato in medicina molecolare. a.a. 2002 2003. Corso di Statistica Medica. Inferenza sulle medie Università del Piemonte Orientale Corso di dottorato in medicina molecolare aa 2002 2003 Corso di Statistica Medica Inferenza sulle medie Statistica U Test z Test t campioni indipendenti con uguale varianza

Dettagli

Laboratorio di Analisi ed Esplorazione Dati A.A. 2008/09 Secondo foglio di esercizi per l esame.

Laboratorio di Analisi ed Esplorazione Dati A.A. 2008/09 Secondo foglio di esercizi per l esame. Laboratorio di Analisi ed Esplorazione Dati A.A. 2008/09 Secondo foglio di esercizi per l esame. Ognuno deve svolgere ambedue gli esercizi (a) e (b) del numero (da 1 a 9) assegnato. Bisogna scrivere un

Dettagli

ESERCITAZIONE 4 SOCIALE. Corso di Laurea Comunicazione e A.A. 2012/2013

ESERCITAZIONE 4 SOCIALE. Corso di Laurea Comunicazione e A.A. 2012/2013 ESERCITAZIONE 4 STATISTICA PER LA RICERCA SOCIALE Corso di Laurea Comunicazione e Psicologia A.A. 2012/2013 \\lib\psico\corsi\esercitazioni_cp1 Il programma SPSS 1) Aprire spss 2) Immettere dati / aprire

Dettagli

6 Analisi della regressione lineare

6 Analisi della regressione lineare 6 Analisi della regressione lineare L'obiettivo dell'analisi della regressione è quello di studiare la distribuzione di una variabile, diciamo Y, per valori fissi di una'altra variabile che indichiamo

Dettagli