Approfondimento La regressione multipla
|
|
|
- Ruggero Alberti
- 9 anni fa
- Visualizzazioni
Transcript
1 Approfondimento La regressione multipla Al di là dell aspetto didattico o di casi di ricerca particolari, è abbastanza irrealistico pensare che i fenomeni possano essere spiegati nei termini di una sola variabile indipendente, soprattutto nel campo delle scienze sociali, dove la presenza di molti fattori né necessari né sufficienti è la regola, e niente affatto un eccezione. Per questo motivo, i modelli di regressione contengono quasi sempre più di una variabile indipendente o predittore. Quando i predittori in un modello di regressione sono più di uno si parla di modello di regressione multipla. Un modello di regressione multipla non offre solo una spiegazione più esauriente della variabilità della variabile dipendente, ma permette di verificare in modo più approfondito l effetto di una particolare variabile indipendente, dal momento che la variabilità della variabile dipendente viene suddivisa nelle quote dovute all effetto di ognuno dei predittori. In questo senso, la regressione multipla è analoga all ANOVA fattoriale, fatta eccezione per il fatto che un modello di regressione multipla classico non incorpora effetti di interazione fra i predittori. In pratica, quindi, una regressione multipla è l equivalente di un modello di ANOVA fattoriale in cui siano considerati solo gli effetti principali di variabili indipendenti metriche. Se quindi vogliamo verificare l effetto delle variabili socio-demografiche classiche (età, genere 1, titolo di studio) sul punteggio di Coscienziosità, è possibile inserire tutti questi predittori in un unico modello di regressione e verificare l influenza di ognuno di essi al netto della quota di variabilità della variabile dipendente spiegata dagli altri predittori (Figura 7.6.1). Figura Suddivisone della devianza della variabile dipendente nel caso di una regressione multipla Esiste in ogni caso la possibilità di inserire effetti di interazione nel modello di regressione, ma è un operazione tutt altro che banale e che implica una diversa logica nell interpretazione dei risultati. Il lettore interessato a questa procedura troverà utile il testo di Jaccard e Turrisi (003). L equazione generale di un modello di regressione multipla è: Y a + b1 X 1 + b X bk X k + e dove a è l intercetta e b 1, b,, b k sono detti coefficienti di regressione parziali (o pendenze parziali). A livello di interpretazione del significato dei coefficienti, l intercetta è il valore medio atteso che ci aspettiamo di osservare nelle popolazione in Y quando tutte le variabili indipendenti (predittori) sono uguali a zero, mentre ogni coefficiente di regressione parziale rappresenta il cambiamento medio che possiamo aspettarci di osservare nella popolazione in Y in corrispondenza ad cambiamento unitario di un predittore X k quando tutti gli altri predittori sono mantenuti costanti, ossia è stato rimosso dalla variabilità della variabile dipendente l effetto di tutte le altre variabili indipendenti. Per questo, potremmo anche dire che in un modello di regressione multipla le variabili 1 I lettori più attenti potrebbero avere qualche perplessità sull inserimento di un variabile dicotomica come il genere in un modello di regressione. Come sarà illustrato più avanti, esiste una procedura per inserire nel modello di regressione multipla anche variabili nominali. Carlo Chiorri, Fondamenti di psicometria Copyright 010 The McGraw-Hill Companies S.r.l., Publishing Group Italia
2 indipendenti fungono da variabili di controllo le une con le altre. Questo ci permette di valutare in modo molto più preciso l effetto di un predittore, dato che altre possibili cause della variabilità della variabile dipendente sono state rimosse (o controllate) statisticamente. Nella regressione multipla la procedura di stima dei parametri è un estensione di quella della regressione bivariata, così come i test di significatività e, in parte, l interpretazione di. Nella regressione multipla non è la proporzione di variabilità comune fra due variabili, ma è la proporzione di variabilità comune fra la variabile dipendente e l insieme (set) delle variabili indipendenti. In altre parole, è il coefficiente di correlazione multipla al quadrato fra criterio e predittori e la proporzione di variabilità della variabile dipendente spiegata dall insieme dei predittori. Come in tutti gli altri casi che abbiamo visto, è possibile verificare statisticamente che il valore di sia maggiore di zero. Quando si considera più di un predittore, però, occorre utilizzare la formula di correzione analoga a quella che abbiamo già visto nel caso della correlazione multipla, che produce un valore di Adjusted ( aggiustato ), Adjusted ( n 1) 1 (1 ( n k 1) ) dove n è il numero di soggetti e k il numero di predittori. Il motivo della necessità dell aggiustamento di è che, per ragioni legate alla particolare procedura di calcolo, al ridursi della differenza fra numero di soggetti n e numero di predittori k, il valore di tende a gonfiarsi indipendentemente dal fatto che i predittori del modello rappresentino effettivamente le maggiori fonti di variazione della variabile dipendente, finché, quando il numero di predittori è uguale al numero di soggetti meno uno, il valore di è in ogni caso uguale a 1. Nel caso di una regressione multipla, quindi, è fondamentale consultare questo indice, e non quello grezzo, per valutare la bontà di adattamento del modello di regressione ai dati osservati. La significatività di Adjusted viene verificata con un test F esattamente come quella di per la regressione bivariata. In questo caso, però, il valore di F critico va cercato per gradi libertà a numeratore uguali a numero di predittori (k) e gradi di libertà a denominatore uguali al numero di soggetti meno il numero di predittori meno uno (n k 1): ( n k 1) Adjusted F k, n k 1 k(1 Adjusted ) Supponiamo di aver eseguito una regressione multipla con 4 predittori e 00 soggetti, e che il valore di ottenuto sia,56. Le ipotesi sono: H 0 : Adjusted ρ 0 il coefficiente di determinazione aggiustato nella popolazione è uguale a zero i dati osservati non sono coerenti con un modello lineare di regressione multipla H 1 : Adjusted ρ > 0 il coefficiente di determinazione aggiustato nella popolazione è maggiore di zero i dati osservati non sono coerenti con un modello lineare di regressione multipla Il valore di F critico per un livello di significatività α,05, k 4 e n k gradi di libertà è,4. Calcoliamo Adjusted : Adjusted ( n 1) 1 (1 ( n k 1) (00 1) ) 1 (1,56),55 (00 4 1) A questo punto calcoliamo F: in Excel: INV.F(,05;4;195) Carlo Chiorri, Fondamenti di psicometria Copyright 010 The McGraw-Hill Companies S.r.l., Publishing Group Italia
3 F ( n k 1) Adjusted k(1 Adjusted ) (00 4 1),55 4(1,55) 4,195 59,58 Conclusione: poiché F calcolato > F critico (59,58 >,4), è troppo improbabile che quanto osservato sia il risultato di un ipotesi nulla vera, per cui la rifiutiamo. Questi risultati suggeriscono che il coefficiente di determinazione aggiustato nella popolazione sia significativamente maggiore di zero, per cui i dati osservati sono coerenti con un modello lineare di regressione multipla In precedenza abbiamo detto che se il numero di predittori è uguale al numero di soggetti meno uno il valore di risulterà in ogni caso uguale a 1. Nella realizzazione di una regressione multipla, quindi, occorre considerare attentamente il problema del numero di soggetti ottimale in rapporto al numero di predittori. Storicamente, vale la rule of thumb di 10 soggetti per predittore (Harris, 1985; Wampold & Freund, 1987), ma la questione è stata affrontata in modo molto più approfondito da Green (1991), Maxwell (000) e Kelley e Maxwell (003). Questi autori forniscono una trattazione molto sofisticata del problema, per cui il lettore interessato ad approfondire l argomento è rinviato ai loro lavori. Per quanto nell articolo non appaia proprio lieto di farlo, Maxwell (000) fornisce comunque una formula per la stima della dimensione ottimale del campione basata sulla dimensione dell effetto f che si intende individuare a livello statistico: 7,85 n ottimale + k f dove k numero di predittori. Con questa formula è possibile ottenere una dimensione campionaria che assicuri una potenza del test statistico di,80, ossia la probabilità di accettare l ipotesi alternativa che i coefficienti di regressione siano significativamente diversi da zero è dell 80%. Questo significa che se prendiamo i valori di f che Cohen (1988) considera limite fra un effetto trascurabile e un effetto piccolo (f 0,0), fra un effetto piccolo e un effetto moderato (f 0,15) e fra un effetto moderato e un effetto grande (f 0,35; vedi anche Tabella 7.4 del manuale) avremo: 7,85 7,85 n ottimale ; effetto piccolo + k k, n ottimale ; effetto moderato + k 53 + k, 0,0 0,15 7,85 n ottimale ; effetto grande + k 3 + k 0,35 Supponiamo però che i soggetti ormai siano stati raccolti e che in base alla loro numerosità le formule appena mostrate ci rivelino che non sia possibile inserire nel modello di regressione multipla tutti i predittori a cui avevamo pensato. In questi casi, occorre valutare inizialmente le correlazioni bivariate fra ogni predittore e il criterio. In genere, conviene inserire nel modello solo quei predittori che abbiano una correlazione bivariata col criterio di almeno,0. Se la limitazione al numero massimo di predittori che è possibile inserire rispetto all ampiezza campionaria è maggiore, si può rendere più severo il cut-off aumentano la correlazione bivariata minima a,30 o,40. Strategie di regressione multipla Una regressione multipla può essere realizzata in un gran numero di modi diversi. Le principali strategie di regressione multipla sono fondamentalmente tre: Carlo Chiorri, Fondamenti di psicometria Copyright 010 The McGraw-Hill Companies S.r.l., Publishing Group Italia
4 1. standard (o simultanea). gerarchica (o sequenziale) 3. statistica Le tre strategie si differenziano in base a come viene determinato l ordine di entrata dei predittori nell equazione di regressione e ai criteri statistici per mantenere o meno nel modello i predittori. Nel modello standard o simultaneo tutte le variabili indipendenti vengono inserite insieme nell equazione di predizione. L impatto sulla variabile dipendente di ogni variabile indipendente viene valutato come la variabile indipendente in questione se fosse stata inserita nel modello di regressione dopo che tutte le altre variabili indipendenti sono già state inserite nel modello. Ogni variabile indipendente viene quindi valutata in termini di cosa aggiunge alla predizione della variabile dipendente rispetto alla predizione garantita da tutte le altre variabili indipendenti. Nella regressione gerarchica o sequenziale, le variabili indipendenti sono inserite nell equazione in un ordine specificato dal ricercatore, una alla volta, oppure, più comunemente, a blocchi. Ogni variabile o blocco di variabili indipendenti viene valutato in termini di cosa aggiunge alla spiegazione della variabilità della variabile dipendente al momento del suo ingresso. Il ricercatore di solito assegna l ordine di entrata delle variabili nel modello in base a considerazioni di ordine logico o teorico, per cui non esiste una regola fissa. In ogni caso, devono essere inserite per prime nel modello le variabili di maggiore importanza teorica, e poi le altre. Un caso abbastanza tipico in psicometria potrebbe essere quello dello studio della validità incrementale di un nuovo test psicologico. La validità incrementale di un test può essere rappresentata, ad esempio, da quanto l inserimento del test in una batteria composta da altri strumenti aggiunge al potere diagnostico della batteria stessa: la regressione multipla gerarchica permette di rispondere alla domanda il punteggio al test da inserire nella batteria aggiunge qualcosa in termini di variabilità spiegata della variabile dipendente dopo che nel modello sono stati inseriti tutti gli altri strumenti della batteria? In questo caso, andremmo a considerare il cambiamento in prodotto dall inserimento del punteggio del nuovo test: se è statisticamente diverso da zero, allora il test possiede validità incrementale e varrà la pena inserirlo nella batteria, altrimenti no. In altri casi, la sequenza più comune di inserimento sequenziale dei predittori nel modello è la seguente: I. Variabili esogene (ossia, variabili non psicologiche): sono le variabili, in genere sociodemografiche, sulle quali il soggetto non ha controllo (ad esempio, età, genere, etc.) II. Variabili esogene sulle quali il soggetto può avere un controllo, più o meno forte (ad esempio, numero di figli, reddito, scolarizzazione, etc.) III. Variabili endogene, ossia le variabili psicologiche La logica della sequenza di inserimento appena presentata non è valida sempre, perché ragioni teoriche o specifiche per un determinato campo di indagine potrebbero suggerire un ordine di inserimento diverso. Nondimeno, quando la variabile dipendente è un punteggio ad un test psicologico è prassi abbastanza comune cercare di rimuovere innanzitutto la variabilità della variabile dipendente dovuta fattori non psicologici, come l età o la condizione clinica, e solo dopo inserire nel modello le altre variabili psicologiche. Questo è il motivo per cui la regressione multipla viene spesso utilizzata per tarare i punteggi ad un test: in pratica, si cerca di ottenere un punteggio ripulito dall influenza di alcune variabili del soggetto rilevanti. Nelle batterie neuropsicologiche per la valutazione dell efficienza cognitiva degli anziani, il punteggio osservato, ad esempio, nelle prove di memoria a breve termine viene corretto mediante apposite tavole in base al genere, all età e al grado di scolarizzazione del soggetto, poiché è noto come il punteggio osservato in queste prove sia in relazione con queste variabili. La procedura statistica per individuare i fattori di correzione prevede l impiego della regressione multipla. La regressione statistica è una procedura in cui l ordine di entrata nel modello delle variabili è basato unicamente su criteri statistici. Le decisioni circa quali variabili inserire o escludere dall equazione di regressione sono basate solo sulle statistiche calcolate nel campione oggetto della Carlo Chiorri, Fondamenti di psicometria Copyright 010 The McGraw-Hill Companies S.r.l., Publishing Group Italia
5 ricerca, e per questo motivo i ricercatori più attenti agli aspetti teorici e di generalizzazione dei risultati non amano particolarmente questa strategia, che è invece è quella prediletta da chi invece ha come unico scopo dell analisi quello di individuare il sottoinsieme di predittori che permetta di predire il punteggio nel criterio con la massima precisione possibile, indipendentemente dalle implicazioni del risultato sul piano teorico. Nella regressione multipla statistica le procedure di selezione dei predittori sono fondamentalmente di tre tipi: a. Forward Selection (selezione in avanti): l analisi comincia con l equazione di regressione vuota e le variabili indipendenti sono aggiunte una alla volta in base al fatto che soddisfino i criteri statistici di entrata. Il criterio più semplice di selezione è che il predittore, al momento dell inserimento nel modello di regressione, abbia un coefficiente di regressione significativo almeno ad un livello α,05. Una volta inclusa nell equazione di regressione, la variabile indipendente selezionata vi rimane anche se con l aggiunta delle successive il suo coefficiente di regressione non è più significativo al livello scelto. b. Backward Deletion (selezione all indietro): l analisi comincia con tutte le variabili indipendenti inserite nell equazione di regressione, e queste vengono eliminate una alla volta se non contribuiscono significativamente alla regressione. Anche in questo caso, il criterio più semplice di esclusione è che il predittore, al momento della verifica statistica, abbia un coefficiente di regressione non significativo ad un livello, ad esempio, α,10. Una volta esclusa dall equazione di regressione, la variabile indipendente eliminata non può più rientrarvi. c. Stepwise: questa procedura è un compromesso fra la Forward e la Backward Deletion, in quanto l analisi comincia con l equazione di regressione vuota e le variabili indipendenti sono aggiunte una alla volta se soddisfano un criterio statistico (ad esempio, coefficiente di regressione significativo ad un livello α,05), ma possono essere eliminate in uno qualunque degli stadi di selezione successivi se non contribuiscono più in modo significativo (ad esempio, il coefficiente di regressione non è più significativo ad un livello α,10) alla spiegazione della variabilità della variabile dipendente. Questa è considerata la procedura da scegliere per giungere alla migliore equazione di predizione. E importante notare come le strategie di regressione multipla qui presentate non siano intercambiabili, ma debbano essere scelte in base alla domanda di ricerca. La Tabella mostra un esempio di quali possano essere le strategie di regressione multipla ottimali per diverse domande di ricerca. Tabella Criteri di selezione della strategia di regressione multipla in base alla domanda di ricerca per un modello che intenda prevedere il Voto all Esame di Maturità in base al Genere, alla Media Voto degli Anni Precedenti, alla Motivazione allo Studio (misurata mediante apposito test) e alle Abilità Cognitive (misurate mediante apposito test). Domanda di ricerca Qual è la dimensione della relazione generale fra il voto di maturità e i suoi predittori? A quanta parte della relazione contribuisce singolarmente ogni predittore indipendentemente dagli altri? L inserimento nel modello delle variabili psicologiche (motivazione allo studio e abilità cognitive) aumenta significativamente la precisione nella predizione del voto di maturità dopo aver considerato l influenza delle differenze di genere e della media voto degli anni precedenti? Qual è la migliore combinazione lineare dei predittori per predire con la maggiore precisione possibile il voto di maturità nel campione? Strategia di regressione multipla da scegliere Standard Gerarchica Statistica Carlo Chiorri, Fondamenti di psicometria Copyright 010 The McGraw-Hill Companies S.r.l., Publishing Group Italia
6 Spesso si tendono ad utilizzare anche strategie miste: ad esempio, si creano blocchi di predittori che vengono inseriti nel modello mediante una strategia di tipo gerarchico, ma al momento per la selezione dei predittori all interno di ogni blocco si adotta una strategia di selezione di tipo statistico. Il problema della collinearità Le assunzioni per l applicazione di un modello di regressione multipla sono le stesse della regressione bivariata (si veda Paragrafo 7.3. del manuale), più quella dell assenza di collinearità dei predittori. Il termine collinearità (collinearity) si riferisce alla possibilità che almeno due variabili indipendenti siano perfettamente correlate fra loro oppure che una variabile indipendente sia una combinazione lineare 3 di alcune o di tutte le altre variabili indipendenti. Il caso più banale di collinearità è quello in cui si inseriscono nel modello di regressione le variabili Numero di risposte corrette, Numero di risposte errate e Numero di risposte totali, dove il numero di risposte totali è la somma del numero di risposte corrette e del numero di risposte errate. In questo caso, il numero di risposte totali è una combinazione lineare delle altre due variabili indipendenti: Numero di risposte totale Numero di risposte corrette + Numero di risposte errate Il problema è che se esiste una perfetta collinearità fra due o più predittori, è impossibile arrivare ad una soluzione unica per le stime dei parametri del modello di regressione. Le situazioni di perfetta collinearità per fortuna sono abbastanza semplici da individuare, per cui difficilmente possono costituire una reale minaccia per il ricercatore attento. Una minaccia molto più seria è costituita dall alta collinearità, ossia una situazione in cui una o più variabili indipendenti sono troppo, per quanto non perfettamente, correlate fra loro. Nella pratica comune, le variabili indipendenti sono sempre un po correlate fra loro, per cui sono in parte collineari. Quando questa situazione diviene estrema, si verificano seri problemi di stima dei parametri, che diviene tanto più inattendibile quanto maggiore è la proporzione di variabilità comune fra i predittori. In questi casi, uno specifico coefficiente di regressione non può essere confrontato con gli altri nell equazione così da arrivare ad una valutazione attendibile degli effetti di ogni variabile indipendente. La stima potrebbe risultare non statisticamente significativa anche se, in effetti, la variabile indipendente e la variabile dipendente sono in relazione nella popolazione. In pratica che cosa succede? Poniamo il caso di utilizzare l età e il titolo di studio come predittori del livello di coscienziosità. Se età e titolo di studio sono entrambi correlati con la coscienziosità, ci aspettiamo che ogni predittore si prenda la sua parte di variabilità della variabile dipendente, analogamente a quanto illustrato in Figura 7.6.1, per cui la variabilità dei punteggi di coscienziosità sarà spiegata in parte dall età e in parte dal titolo di studio. Se però età e titolo di studio sono eccessivamente correlate fra loro, e quindi collineari, solo una di esse si riuscirà a prendersi (spiegare) una quota sostanziale di variabilità della variabile dipendente, mentre l altra rimarrà a bocca asciutta. In pratica, è come se i predittori collineari costituissero un gruppo di amici seduti attorno ad un tavolo al ristorante: se alla fine della cena il cameriere porta un solo cioccolatino per tavolo, e lo prende uno dei commensali, tutti i suoi compagni di tavolo (ossia, tutti coloro che in quel momento sono in stretta in relazione fra loro) non avranno niente, anche se il cioccolatino è per il tavolo, e non specificamente per la persona che riesce ad accaparrarselo. Prima di procedere con l esecuzione di una regressione multipla, quindi, è sempre bene esaminare la matrice di correlazione dei predittori. Alcuni manuali suggeriscono di considerare con sospetto coefficienti di correlazione estremi, come ad esempio,80, ma chi ha un minimo di 3 Una combinazione lineare è una somma pesata di elementi: l equazione di regressione multipla è una combinazione lineare in quanto è una somma di punteggi nelle variabili pesati per i coefficienti di regressione più l errore. Nell esempio successivo del numero di risposte corrette il peso di ogni elemento è assunto essere uguale a 1. Carlo Chiorri, Fondamenti di psicometria Copyright 010 The McGraw-Hill Companies S.r.l., Publishing Group Italia
7 esperienza sa benissimo che anche correlazioni più deboli (ad esempio,,50) sono a rischio collinearità. Sfortunatamente, però, questa operazione da sola non è sufficiente, per quanto necessaria, all individuazione di una situazione di collinearità, in quanto ci permette di verificare solo l eventuale presenza di una collinearità fra coppie di predittori, mentre, come abbiamo visto prima, la collinearità può essere dovuta anche ad una combinazione lineare di alcuni predittori. Il miglior metodo per individuare la collinearità fra uno o più predittori, quindi, è far regredire ogni variabile indipendente su tutte le altre ed esaminare l risultante: se è troppo alto (>,50), significa che fra quelle variabili indipendenti vi è collinearità. In pratica, è come se, a turno, ogni predittore venisse considerato la variabile dipendente di un modello di regressione in cui le variabili indipendenti sono gli altri predittori. Il valore di di questa analisi è la proporzione di variabilità comune fra quel predittore e l insieme di tutti gli altri: se questa proporzione è maggiore del 50%, c è ragione di sospettare la collinearità. ealizzare questo tipo di analisi non è immediato come la produzione di una matrice di correlazione, ma SPSS produce nell output dell analisi di regressione un valore, detto Tolerance (si veda imando SPSS 7.5) che rappresenta la proporzione di variabilità di un predittore che non è spiegata dagli altri predittori: in pratica, è 1 della regressione di quel predittore su tutti gli altri. Se non vi è collinearità, questo valore è uguale a 1: ossia, 1 1 poiché l della regressione di quel predittore sugli altri è uguale a zero: i predittori non hanno variabilità in comune. Se però questo valore è inferiore a,50, ad esempio,35, significa che 1,65, ossia il predittore in questione condivide con gli altri il 65% della sua variabilità: in questo caso c è ragione di sospettare la collinearità. SPSS riporta insieme al valore di Tolerance anche il suo reciproco, il fattore di inflazione della varianza o Variance Inflation Factor (VIF). Se consideriamo come valore limite, 50 per la Tolerance, quello del VIF è 1 /,50. Se quindi osserviamo un VIF maggiore di, significa che la Tolerance è inferiore a,50, e quindi i predittori hanno un eccessiva quota di variabilità comune. Nella pratica possono capitare situazioni ambigue, per così dire, per cui non siamo in grado di stabilire ancor prima di eseguire l analisi di regressione se ci troviamo effettivamente in una situazione di collinearità. La collinearità va quindi indagata anche dopo aver eseguito l analisi, ispezionando i risultati ottenuti. Lo stesso SPSS, del resto, riporta i valori di Tolerance e di VIF insieme alla stima dei parametri, e non prima. I sintomi principali di collinearità sono fondamentalmente due: 1. Un alto ma parametri statisticamente non significativi a causa di alti errori standard delle stime dei parametri. Se l insieme dei predittori spiega una quota sostanziale di variabilità della variabile dipendente ma nessuno di essi risulta statisticamente significativo, evidentemente c è qualcosa che non quadra. Il motivo potrebbe essere la collinearità, che è nota produrre stime degli errori standard delle stime dei parametri molto alte: dato che il test di significatività di un coefficiente di regressione è dato dal rapporto fra la stima del parametro e il suo errore standard, se l errore standard è molto alto il valore di t calcolato tenderà ad essere molto basso, e quindi probabilmente inferiore al t critico, da cui impossibilità a rifiutare l ipotesi nulla che nella popolazione quel coefficiente di regressione sia uguale a zero.. Coefficienti di regressione che cambiano in modo sistematico quando alcune variabili indipendenti sono escluse o incluse nell equazione. In generale la regressione multipla serve proprio a capire quanto ogni predittore è importante nella predizione del criterio, per cui può capitare che un predittore risulti significativo quando è da solo nell equazione, e cessi di esserlo quando viene inserito nel modello di regressione multipla un predittore più importante. Occorre però verificare che questo non sia il risultato del fatto che i predittori sono collineari. Supponiamo di voler predire il punteggio di coscienziosità. Inseriamo nel modello l età e risulta un predittore significativo. Poi inseriamo il titolo di studio, e notiamo che l età non è più un predittore significativo, mentre il titolo di studio sì. Se inseriamo un terzo predittore, ad esempio il genere, è l età torna ad essere significativa, mentre il titolo di studio non lo è più, c è nuovamente qualcosa di strano, perché se vi è assenza di collinearità Carlo Chiorri, Fondamenti di psicometria Copyright 010 The McGraw-Hill Companies S.r.l., Publishing Group Italia
8 la significatività dei predittori non cambia in modo così eclatante. Se età e titolo di studio non fossero collineari, l aggiunta del genere potrebbe sì modificare in parte la stima dei loro coefficienti di regressione, ma non in modo tale da invertire le significatività. Altri sintomi di collinearità, meno discriminanti di quelli appena illustrati, sono l entità dei coefficienti, ossia coefficienti inaspettatamente alti o bassi in assoluto o relativamente ad altri nell equazione, e coefficienti col segno sbagliato, nel senso che fra predittore e criterio risulta una relazione positiva quando invece in base alla teoria ci aspettavamo una relazione negativa, o viceversa. Queste due situazioni possono essere di difficile interpretazione, poiché non esistono linee guida precise per dire che un coefficiente di regressione è troppo maggiore di un altro, né possiamo sapere con certezza, e in anticipo, quale sarà il segno giusto di un coefficiente di regressione. Per riuscire ad utilizzare questi indizi in modo adeguato occorre una profonda conoscenza del fenomeno in esame, per cui sono sconsigliati per i meno esperti. La domanda da un milione di euro, a questo punto, è: se otteniamo una diagnosi di collinearità, che cosa si fa? Purtroppo non c è una soluzione che va bene sempre. A volte la collinearità è il risultato di campioni troppo ristretti, per cui l eccessiva relazione fra una o più variabili è dovuta all errore di campionamento e non esiste nella popolazione. In questi casi aumentare il campione, posto che il campionamento sia eseguito nel modo corretto, può aiutare a risolvere il problema. Non sempre però questo è possibile, oppure il campione è già sufficientemente ampio. In questo caso, di solito si prova ad accorpare le variabili collineari in un solo indicatore. Il problema, però, è che non sempre questo è possibile: se i predittori collineari fossero due punteggi ottenuti dai soggetti in due diversi test psicologici, si può trasformare questi punteggi a punti z e sommarli, così da ottenere un unico indice. Oppure si può ricorrere a procedure statistiche più sofisticate, come l analisi delle componenti principali. Il punto però è: quando accorpiamo le variabili, che cosa rappresenta la nuova variabile? Se accorpiamo lerisposte di frequenza di variabili come Ascolto della radio, Assistere a programmi TV e Leggere i giornali possiamo ragionevolmente pensare di aver ottenuto una variabile più generale come Fruizione di mass-media, ma se sono collineari genere e titolo di studio che cosa otteniamo accorpandoli? Si tenga poi presente che qualunque operazione di trasformazione dei predittori va inevitabilmente a modificare l interpretazione del coefficiente di regressione ad esso associato. Se otteniamo nel modo descritto in precedenza un indicatore composito costituito dalla somma dei punteggi standardizzati di ansia e depressione, il coefficiente di regressione indicherà la variazione media attesa in Y per una variazione unitaria della somma dei punteggi standardizzati di ansia e depressione. In questi casi, c è da augurare ogni bene a chi dovrà fornire una spiegazione del risultato. Un altro possibile rimedio alla collinearità è considerare l equazione di regressione solo per il suo valore predittivo:, infatti, può comunque può essere molto alto, al netto della mancanza di significatività delle stime dei parametri, per cui gli errori di predizione di Y in base ai punteggi delle variabili indipendenti saranno comunque limitati. Questa soluzione, ad ogni modo, è praticabile solo in casi in cui la pragmatica della predizione prevalga sulla necessità di trovare una spiegazione al fenomeno in esame. Infine, potremmo pensare di eliminare la/e variabile/i problematica/e e confrontare i risultati dei diversi modelli. Ad esempio, se X 1 e X risultano collineari, dal modello: Y a + b 1 X 1 + b X + e si scarta X, ottenendo il seguente modello alternativo: Y a + b 1 X 1 + e*. Questa soluzione, però, può facilmente condurre all errore di specificazione, per cui sarebbe meglio stimare anche il modello in cui è X 1 ad essere scartata: Y a + b X + e**, in modo da valutare in modo completo le conseguenze dell eventuale errore di specificazione. Occorre in ogni caso una buona esperienza per essere in grado di valutare al meglio queste situazioni, e riuscire a decidere quale/i dei predittori collineari escludere. Carlo Chiorri, Fondamenti di psicometria Copyright 010 The McGraw-Hill Companies S.r.l., Publishing Group Italia
9 L impiego di predittori misurati su scala nominale: le variabili dummy Le variabili categoriali possono essere inserite in un modello di regressione multipla dopo averle trasformate in variabili dummy 4. Il caso più semplice è quello delle variabili dicotomiche, come il genere: una categoria viene codificata come 0 (di solito le femmine) e l altra come 1 (di solito i maschi), e la variabile così codificata viene inserita nel modello di regressione. Supponiamo di aver stimato un modello di regressione multipla in cui i predittori della coscienziosità sono l età e il genere, e che l equazione di regressione risultante sia la seguente: Y 5,31 + 0,6X + 3, 6X Genere Il coefficiente di regressione relativo all età ci informa che, al netto dell effetto del genere, per ogni anno in più di vita della persona possiamo aspettarci un aumento medio di coscienziosità di 0.6 punti. Il coefficiente di regressione del genere, invece, ci dice che, a parità di età, l essere 1 (Maschio) su questa variabile significa ottenere in media un punteggio di coscienziosità 3,6 punti superiore rispetto a quello di chi è 0 (Femmine). Per dimostrarlo basta sostituire i valori 1 e 0 nella formula e confrontare i risultati: Maschio (X Genere 1): Y 5,31+ 0,6X + 3,6 1 5,31 + 0,6X + 3, 6 Femmina (X Genere 0): Y 5,31+ 0,6X + 3,6 0 5,31 + 0, 6X Il caso dicotomico è il più semplice da gestire. Se però vogliamo inserire nel modello una variabile politomica, come ad esempio la diagnosi di disturbo di personalità di Cluster A (Paranoide, Schizoide, Schizotipico), la questione si fa leggermente più complessa. Si genererà un numero di variabili dummy uguale al numero di categorie della variabile meno una, quindi nel caso che stiamo considerano 3 1. Chiameremo queste categorie, ad esempio Essere o meno Paranoide ed Essere o meno Schizoide. Nella prima variabile dummy codificheremo con 1 i Paranoidi e con zero tutti gli altri, indipendentemente dalla diagnosi. Nella seconda variabile dummy, codificheremo con 1 gli Schizoidi e con 0 tutti gli altri, indipendentemente dalla diagnosi. E gli Schizotipici? Gli Schizotipici saranno coloro che hanno un punteggio zero su entrambe le variabili dummy, ossia non sono né Paranoidi (0 sulla prima variabile dummy) né Schizoidi (0 sulla seconda variabile dummy, Tabella 7.6.). Tabella 7.6. Generazione di variabili dummy per la variabile categoriale Disturbo di Personalità Cluster A (Paranoide, Schizoide, Schizotipico) Diagnosi Prima variabile dummy Essere (1) o non essere (0) Paranoide Seconda variabile dummy Essere (1) o non essere (0) Schizoide Paranoide 1 0 Schizoide 0 1 Schizotipico 0 0 Paranoide 1 0 Paranoide 1 0 Schizoide 0 1 Schizotipico 0 0 Schizotipico 0 0 Schizoide dummy in inglese significa manichino, fantoccio Carlo Chiorri, Fondamenti di psicometria Copyright 010 The McGraw-Hill Companies S.r.l., Publishing Group Italia
10 Supponiamo che le due variabili dummy generate in Tabella siano inserire in un modello di regressione multipla per la predizione delle difficoltà interpersonali (Y, misurato mediante apposito test) insieme all età, e di ottenere la seguente equazione di regressione: Y ,0 X +,10 X + 1, 50X Paranoide Schizoide In una situazione come questa, le equazioni possibili in base alla diagnosi sono: Paranoide (X Paranoide 1; X Schizoide 0): Y ,0 X +, 10 Schizoide (X Paranoide 0; X Schizoide 1): Y ,0 X + 1, 50 Schizotipico (X Paranoide 0; X Schizoide 0): Y 33 +1, 0X Il valore del coefficiente di regressione di X Paranoide indica che essere Paranoide, a parità di età, comporta un aumento medio di,10 punti nel test sulle difficoltà interpersonali rispetto al non esserlo (e quindi rispetto ad essere Schizoide o Paranoide), mentre il valore del coefficiente di regressione di X Schiozide indica che essere Schizoide, al netto dell età, comporta un aumento medio al test di 1,50 punti rispetto al non esserlo (e quindi essere Paranoide o Schizotipico). Questi risultati, però, forniscono indirettamente informazioni anche sulla variazione di punteggio al test di chi è Schizotipico, perché chi è Schizotipico otterrà al test di difficoltà interpersonali un punteggio di,10 punti inferiore rispetto ai Paranoidi e 1,50 punti inferiore rispetto agli Schizoidi. Confrontare i coefficienti di regressione e valutarne la dimensione dell effetto Quando il modello di regressione prevede più di un predittore, occorre verificare quale di essi è più importante, ossia, mostra la relazione più forte con il criterio al netto delle relazioni col criterio degli altri predittori. Il problema è che non possiamo basarci sull entità del coefficiente di regressione, perché questo dipende dall unità di misura delle variabili, né sul livello di significatività, che dipende dal numero di soggetti. Come abbiamo visto nel caso della regressione bivariata, quindi, possiamo esaminare i coefficienti di regressione standardizzati β, che possono essere trasformati nella dimensione dell effetto f. Supponiamo di aver realizzato un analisi di regressione multipla strandard per predire il punteggio di Coscienziosità in base all età, al genere (variabile dummy codificata M 1, F 0) e agli anni di scolarizzazione 5. Abbiamo raccolto i dati su 00 soggetti e i risultati dell analisi eseguita con SPSS sono quelli riportati in Figura Model 1 Model Summary Adjusted Std. Error of Square Square the Estimate,768 a,589,583 5,95495 a. Predictors: (Constant), Anni di Scolarizzazione, Genere, 5 Gli anni di scolarizzazione possono essere ottenuti ricodificando il titolo di studio in base al numero di anni di studio necessari per raggiungere quel titolo: quindi avremo che nessun titolo 0, licenza elementare 5, licenza media 8, diploma di scuola superiore 13, laurea triennale 16, laurea specialistica 18, dottorato di ricerca /master / specializzazione 1,5. Carlo Chiorri, Fondamenti di psicometria Copyright 010 The McGraw-Hill Companies S.r.l., Publishing Group Italia
11 Model 1 egression esidual Total ANOVA b Sum of Squares df Mean Square F Sig. 9979, ,481 93,806,000 a 6950, , , a. Predictors: (Constant), Anni di Scolarizzazione, Genere, b. Dependent Variable: Coscienziosità Model 1 (Constant) Genere Anni di Scolarizzazione a. Dependent Variable: Coscienziosità Unstandardized Coefficients Standardized Coefficients Coefficients a Correlations t Sig. Zero-order Partial Part Collinearity Statistics VIF B Std. Error Beta Tolerance 5,167 1,85,789,006,,04,418 9,064,000,488,543,415,986 1,014 6,173,845,335 7,308,000,370,463,334,996 1,004 1,110,105,486 10,563,000,538,60,483,989 1,011 Figura 7.46 Output di SPSS per un analisi di regressione multipla standard Nella prima tabella di Figura 7.6.1, Model Summary, vengono riportati il valore di, che è la correlazione del criterio con l insieme (set) dei predittori (e quindi rappresenta il coefficiente di correlazione multipla fra criterio e predittori), il valore grezzo di ( Square), il valore di aggiustato (Adjusted Square) e l errore standard dei punteggi stimati (Std. Error of the Estimate). Questa tabella mostra come l insieme dei predittori spieghi nel complesso quasi il 60% della variabilità della variabile dipendente. Il valore di Adjusted è calcolato come: Adjusted ( n 1) 1 (1 ( n k 1) (00 1) ) 1 (1,589),583 (00 3 1) Per verificare la sua significatività dobbiamo consultare la tabella ANOVA, dove troviamo il valore di F. Si noti come il rapporto fra la devianza (Sum of Squares) dovuta alla regressione (egression 9979,443) e quella totale (Total 1699,875) sia uguale al valore di,589. La significatività di F è calcolata su (e non su Adjusted ) per gradi di libertà a numeratore uguali al numero di predittori (3) e a denominatore uguali al numero di soggetti meno numero di predittori meno uno (n k ): F ( n k 1) Adjusted k(1 Adjusted ) (00 3 1),589 3(1,589) 3,196 93,81 Nella tabella Coefficients sono riportate tutte le informazioni relative alle stime dei parametri. Il valore (Constant) è l intercetta, il cui valore stimato è 5,17, ed è significativamente diversa da zero (p,006, colonna Sig.). Questo significa che quando tutti i predittori sono uguali a zero, il punteggio medio di Coscienziosità atteso nella popolazione è 5,17. Questo valore in realtà non ci dice niente perché corrisponde ad un individuo che ha zero anni, è femmina (Genere 0) e ha zero anni di scolarizzazione: naturalmente è possibile trovare una donna che non abbia titolo di studio, mentre è assurdo pensare di aver misurato la coscienziosità in un bambino appena nato. Nella colonna Unstandardized Coefficients troviamo i valori di b (sottocolonna B) e il loro errore standard (sottocolonna Std. Error). Se facciamo il rapporto B / Std. Error troviamo il valore di t nella colonna t, dal quale è calcolata la significatività nella colonna Sig.. Ad esempio, nel caso dell età abbiamo, /,04 9,5 (al netto degli errori di approssimazione al terzo decimale). Tutti e tre i coefficienti di regressione sono statisticamente significativi (Sig. <,05). Possiamo quindi scrivere l equazione di regressione multipla: Carlo Chiorri, Fondamenti di psicometria Copyright 010 The McGraw-Hill Companies S.r.l., Publishing Group Italia
12 Y ˆ 5,17 + 0,X + 6,17 X + 1, 11X Coscienziosità Genere Scolarizzazione Che informazioni ci danno i coefficienti di regressione parziali? Che, mantenendo tutte le altre condizioni costanti, quando l età aumenta di un anno, possiamo attenderci un aumento medio del punteggio di Coscienziosità di 0, punti; che i maschi (Genere 1) ottengono al test per la misura della Coscienziosità 6,17 punti in più delle femmine (Genere 0), e che per ogni anno in più di scolarizzazione possiamo attenderci un aumento medio di coscienziosità di 1,11 punti. Se dovessimo indicare quale predittore ha la maggiore influenza sulla variabile dipendente non potremmo basarci su questi risultati, dato che i tre predittori hanno unità di misura diverse (nel caso del genere di fatto nemmeno esiste un unità di misura). Non ha senso utilizzare il livello di significatività, e in questo caso lo avrebbe ancora meno dato che per tutti i predittori è minore di,001, per cui rivolgiamo la nostra attenzione alla colonna Standardized Coefficients Beta, dove sono riportati i coefficienti di regressione parziali calcolati sulle variabili standardizzate. Aver standardizzato predittori e criterio significa aver riportato tutte le misure sulla stessa scala in cui media 0 e deviazione standard 1, per cui l intercetta è uguale a zero, ma non significa aver eseguito una standardizzazione anche dei coefficienti di regressione, che quindi, a differenza di come molti pensano, possono risultare maggiori di 1.0 (Courville & Thompson, 001). Se scrivessimo l equazione di regressione con i β avremmo: Y ˆ 0,418X + 0,335X + 0,486X * Coscienziosità * * Genere * Scolarizzazione I β rappresentano la variazione media attesa in Y in termini di numero di deviazioni standard che ci attendiamo di osservare quando il predittore varia di una deviazione standard. L interpretazione di questo dato non è immediata come quella del coefficiente di regressione calcolato sui dati grezzi, e in ogni caso non è scritto da nessuna parte che la variazione di una deviazione standard nel punteggio di età sia equivalente alla variazione di una deviazione standard del numero di anni di scolarizzazione. Ma c è di più: come fa il genere a variare di una deviazione standard? La sola considerazione dei β come indici di dimensione dell effetto è dunque insufficiente e fondamentalmente fuorviante (Courville & Thompson, 001). Dobbiamo quindi consultare anche la sottocolonna Zero-order della colonna Correlations: in questa colonna sono riportati i coefficienti di correlazione bivariati fra i predittori e il criterio, che nel contesto della regressione multipla sono detti coefficienti strutturali r S (structure coefficients). E interessante notare come la somma dei prodotti β r S produca il valore di : β Sj jr,418,488+,335,370+,486,538,589 Questo significa che un certo predittore può avere una correlazione con Y (r S ) molto alta ma un coefficiente standardizzato β molto basso, o viceversa, quando i predittori hanno un certo grado di correlazione fra di loro. Nel caso che stiamo esaminando questo non succede perché i predittori sono indipendenti fra di loro (si noti come nella colonna Collinearity Statistics tutti i valori di Tolerance siano prossimi a 1, il che significa che la variabilità spiegata di ogni predittore da parte degli altri sia praticamente uguale a zero), ma come fanno notare Courville e Thompson (001) quello di considerare solo i β è un errore che viene commesso molto spesso, anche in articoli pubblicati dalle riviste scientifiche. Questa strategia, infatti, è corretta solo se i predittori sono perfettamente indipendenti fra loro e si è certi di aver specificato il modello di regressione esatto: se questo non succede, l aggiunta o l esclusione di un altro predittore dal modello può radicalmente alterare i valori del β di uno specifico predittore (Thompson, 1999). L entità del β infatti dipende dagli altri predittori inclusi nell equazione di regressione, per cui è sensibile ai cambiamenti che avvengono nel numero di predittori (Dunlap & Landis, 1998). Carlo Chiorri, Fondamenti di psicometria Copyright 010 The McGraw-Hill Companies S.r.l., Publishing Group Italia
13 Per valutare adeguatamente l impatto di un predittore sulla variabile dipendente, quindi, dobbiamo tenere conto sia del coefficiente β che del coefficiente strutturale r S calcolando la dimensione dell effetto f. Nel caso della regressione multipla, l f di un predittore si calcola: f 1 k 1 dove k-1 è il valore di calcolato senza il predittore del quale si vuole determinare la dimensione dell effetto. Calcolare questo valore è semplicissimo perché basta calcolare Σβ j r Sj senza il predittore. Quindi avremo che i tre f per i tre predittori sono: f f f Genere 1 Scolarizza zione k 1 1,589 (,335,370 +,486,538),50 1,589 k 1 1,589 (,418,488+,486,538),30 1,589 k 1,589 (,418,488+,335,370),64 1,589 In base alle linee guida della Tabella 7.4 del manuale possiamo considerare questi effetti come Grande, Moderato e Grande, rispettivamente. Carlo Chiorri, Fondamenti di psicometria Copyright 010 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Strumenti informatici Realizzare un test z, un test t e un test F per campioni indipendenti con Excel e SPSS
Strumenti informatici 5.2 - Realizzare un test z, un test t e un test F per campioni indipendenti con Excel e SPSS Sia Excel che SPSS consentono di realizzare in modo abbastanza rapido il test sulle medie
Corso di Psicometria Progredito
Corso di Psicometria Progredito 5. La correlazione lineare Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014 Sommario 1 Tipi di relazione
Il modello di regressione
Il modello di regressione Capitolo e 3 A M D Marcello Gallucci Milano-Bicocca Lezione: II Concentti fondamentali Consideriamo ora questa ipotetica ricerca: siamo andati in un pub ed abbiamo contato quanti
Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni
La statistica inferenziale Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni E necessario però anche aggiungere con
METODO DEI MINIMI QUADRATI
METODO DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura. Ripetendo varie volte l esperimento con diverse quantità
STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo
STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)
ESERCIZIO 1. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con 3 fattori tra i soggetti.
ESERCIZIO. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con fattori tra i soggetti. Variabile dipendente: PERF Sorgente Modello corretto Intercept SEX_96
TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo
TOPOGRAFIA 2013/2014 L operazione di misura di una grandezza produce un numero reale che esprime il rapporto della grandezza stessa rispetto a un altra, a essa omogenea, assunta come unità di misura. L
LEZIONE N. 11 ( a cura di MADDALENA BEI)
LEZIONE N. 11 ( a cura di MADDALENA BEI) F- test Assumiamo l ipotesi nulla H 0 :β 1,...,Β k =0 E diverso dal verificare che H 0 :B J =0 In realtà F - test è più generale H 0 :Aβ=0 H 1 :Aβ 0 A è una matrice
Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:
Analisi chimica strumentale Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da: (31.4) dove s y è la varianza dei valori
Analisi della varianza a una via
Analisi della varianza a una via Statistica descrittiva e Analisi multivariata Prof. Giulio Vidotto PSY-NET: Corso di laurea online in Discipline della ricerca psicologico-sociale SOMMARIO Modelli statistici
PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA
PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA
Esercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
Strumenti informatici Calcolare il coefficiente di correlazione di Pearson con Excel e SPSS
Strumenti informatici 7.3 - Calcolare il coefficiente di correlazione di Pearson con Excel e SPSS Il coefficiente di correlazione di Pearson può essere calcolato con la funzione di Excel =CORRELAZIONE(Matrice1;Matrice2),
Il modello lineare misto
Il modello lineare misto (capitolo 9) A M D Marcello Gallucci Univerisità Milano-Bicocca Lezione: 15 GLM Modello Lineare Generale vantaggi Consente di stimare le relazioni fra due o più variabili Si applica
Tema d esame del 15/02/12
Tema d esame del 15/0/1 Volendo aprire un nuovo locale, una catena di ristoranti chiede ad un consulente di valutare la posizione geografica ideale all interno di un centro abitato. A questo scopo, avvalendosi
Il modello di regressione lineare multipla. Il modello di regressione lineare multipla
Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa
SCOPO DELL ANALISI DI CORRELAZIONE
CORRELAZIONE 1 SCOPO DELL ANALISI DI CORRELAZIONE STUDIARE LA RELAZIONE TRA DUE VARIABILI X E Y 2 diagrammi di dispersione un diagramma di dispersione (o grafico di dispersione) èuna rappresentazione grafica
Elementi di Psicometria con Laboratorio di SPSS 1
Elementi di Psicometria con Laboratorio di SPSS 1 13-Il t-test per campioni indipendenti vers. 1.1 (12 novembre 2014) Germano Rossi 1 [email protected] 1 Dipartimento di Psicologia, Università di
ANALISI MULTIVARIATA
ANALISI MULTIVARIATA Marcella Montico Servizio di epidemiologia e biostatistica... ancora sulla relazione tra due variabili: la regressione lineare semplice VD: quantitativa VI: quantitativa Misura la
Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.
Statistica inferenziale La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione. Verifica delle ipotesi sulla medie Quando si conduce una
Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica
Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università
Multicollinearità. Strumenti quantitativi per la gestione
Multicollinearità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3c_mc.html#(1) 1/13 Quando non tutto va come dovrebbe Si parla di multi-collinearità
Teoria e tecniche dei test
Teoria e tecniche dei test Lezione 9 LA STANDARDIZZAZIONE DEI TEST. IL PROCESSO DI TARATURA: IL CAMPIONAMENTO. Costruire delle norme di riferimento per un test comporta delle ipotesi di fondo che è necessario
Es. la performance all esame in relazione alle ore di studio a casa e alle abilità cognitive
Regressione Tale tecnica esamina e studia la relazione tra una o più variabili indipendenti e una variabile dipendente. L insieme dei parametri riassumono la relazione tra VD e VI, sotto le ipotesi che
MISURAZIONE. Sistema empirico (SE): ciò che si vuole misurare; costituito da elementi legati tra loro da relazioni
Attendibilità Misurazione I problemi di misurazione degli oggetti di studio sono comuni a tutte le discipline scientifiche. In psicologia il problema è solo più evidente, non più grave. I costrutti che
Statistica multivariata Donata Rodi 17/10/2016
Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare
Gli errori nella verifica delle ipotesi
Gli errori nella verifica delle ipotesi Nella statistica inferenziale si cerca di dire qualcosa di valido in generale, per la popolazione o le popolazioni, attraverso l analisi di uno o più campioni E
Proprietà della varianza
Proprietà della varianza Proprietà della varianza Proprietà della varianza Proprietà della varianza Intermezzo: ma perché dovremmo darci la pena di studiare come calcolare la varianza nel caso di somme,
PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI
PSICOMETRIA Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI CAMPIONI INDIPENDENTI Campioni estratti casualmente dalla popolazione con caratteristiche omogenee Assegnazione
Analisi della Varianza Fattoriale
Analisi della Varianza Fattoriale AMD Marcello Gallucci [email protected] Ripasso dell ANOVA Lo studio degli effetti di una serie di variabili indipendenti nominale (gruppi) su un variabile dipendente
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri
CAPITOLO 11 ANALISI DI REGRESSIONE
VERO FALSO CAPITOLO 11 ANALISI DI REGRESSIONE 1. V F Se c è una relazione deterministica tra due variabili,x e y, ogni valore dato di x,determinerà un unico valore di y. 2. V F Quando si cerca di scoprire
Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.
Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:
Elementi di Psicometria con Laboratorio di SPSS 1
Elementi di Psicometria con Laboratorio di SPSS 1 05-Deviazione standard e punteggi z vers. 1.1 (22 ottobre 2014) Germano Rossi 1 [email protected] 1 Dipartimento di Psicologia, Università di Milano-Bicocca
Misure Ripetute. Analisi dei dati in disegni di ricerca con misure ripetute. Marcello Gallucci
Misure Ripetute Analisi dei dati in disegni di ricerca con misure ripetute Marcello Gallucci Introduzione Consideriamo una ricerca in cui un gruppo di pazienti è sottoposto ad un trattamento terapeutico
Principi di analisi causale Lezione 3
Anno accademico 2007/08 Principi di analisi causale Lezione 3 Docente: prof. Maurizio Pisati Approccio causale Nella maggior parte dei casi i ricercatori sociali utilizzano la regressione per stimare l
Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.
5 STIMA PUNTUALE DEI PARAMETRI [Adattato dal libro Excel per la statistica di Enzo Belluco] Sia θ un parametro incognito della distribuzione di un carattere in una determinata popolazione. Il problema
lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1
lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,
standardizzazione dei punteggi di un test
DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano [email protected] standardizzazione dei punteggi di un test serve a dare significato ai punteggi che una persona ottiene ad un test, confrontando la
CORSO ZERO DI MATEMATICA
UNIVERSITÀ DEGLI STUDI DI PALERMO FACOLTÀ DI ARCHITETTURA CORSO ZERO DI MATEMATICA RADICALI Dr. Erasmo Modica [email protected] LE RADICI Abbiamo visto che l insieme dei numeri reali è costituito da tutti
I TEST STATISTICI. dott.ssa Gabriella Agrusti
I TEST STATISTICI dott.ssa Gabriella Agrusti Dulcis in fundo.. come scegliere un test statistico in base all ipotesi come stabilire se due variabili sono associate (correlazione di Pearson) come stabilire
La matrice delle correlazioni è la seguente:
Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA
Sistemi lineari. Lorenzo Pareschi. Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara
Sistemi lineari Lorenzo Pareschi Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara http://utenti.unife.it/lorenzo.pareschi/ [email protected] Lorenzo Pareschi (Univ. Ferrara)
Regressione Semplice. Correlazioni. sconto leverage. sconto Correlazione di Pearson 1,275. Sign. (a due code),141
Regressione Semplice Analisi Per avere una prima idea della struttura di dipendenza fra le variabili in esame, possiamo cominciare col costruire la matrice di correlazione delle variabili presenti nel
Ulteriori applicazioni del test del Chi-quadrato (χ 2 )
Ulteriori applicazioni del test del Chi-quadrato (χ 2 ) Finora abbiamo confrontato con il χ 2 le numerosità osservate in diverse categorie in un campione con le numerosità previste da un certo modello
Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII
Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Un breve richiamo sul test t-student Siano A exp (a 1, a 2.a n ) e B exp (b 1, b 2.b m ) due set di dati i cui
Il metodo della regressione
Il metodo della regressione Consideriamo il coefficiente beta di una semplice regressione lineare, cosa significa? È una differenza tra valori attesi Anche nel caso classico di variabile esplicativa continua
viii Indice generale
Indice generale 1 Introduzione al processo di ricerca 1 Sommario 1 Il processo di ricerca 3 Concetti e variabili 5 Scale di misura 8 Test di ipotesi 10 Evidenza empirica 10 Disegni di ricerca 11 Sintesi
Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento
Capitolo Suggerimenti agli esercizi a cura di Elena Siletti Esercizio.: Suggerimento Per verificare se due fenomeni sono dipendenti in media sarebbe necessario confrontare le medie condizionate, in questo
le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:
DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano [email protected] si basano su tre elementi: le scale di misura sistema empirico: un insieme di entità non numeriche (es. insieme di persone; insieme
Disequazioni - ulteriori esercizi proposti 1
Disequazioni - ulteriori esercizi proposti Trovare le soluzioni delle seguenti disequazioni o sistemi di disequazioni:. 5 4 >. 4. < 4. 4 9 5. 9 > 6. > 7. < 8. 5 4 9. > > 4. < 4. < > 9 4 Non esitate a comunicarmi
Concetti principale della lezione precedente
Corso di Statistica medica e applicata 9 a Lezione Dott.ssa Donatella Cocca Concetti principale della lezione precedente I concetti principali che sono stati presentati sono: Variabili su scala nominale
0 altimenti 1 soggetto trova lavoroentro 6 mesi}
Lezione n. 16 (a cura di Peluso Filomena Francesca) Oltre alle normali variabili risposta che presentano una continuità almeno all'interno di un certo intervallo di valori, esistono variabili risposta
CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)
CHEMIOMETRIA Applicazione di metodi matematici e statistici per estrarre (massima) informazione chimica (affidabile) da dati chimici INCERTEZZA DI MISURA (intervallo di confidenza/fiducia) CONFRONTO CON
Insiemistica. Capitolo 1. Prerequisiti. Obiettivi. Gli insiemi numerici di base Divisibilità e fattorizzazione nei numeri interi
Capitolo 1 Insiemistica Prerequisiti Gli insiemi numerici di base Divisibilità e fattorizzazione nei numeri interi Obiettivi Sapere utilizzare opportunamente le diverse rappresentazioni insiemistiche Sapere
Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica
13. Regressione lineare parametrica Esistono numerose occasioni nelle quali quello che interessa è ricostruire la relazione di funzione che lega due variabili, la variabile y (variabile dipendente, in
Esercizio 4 (Regressione multipla)
Esercizio (Regressione multipla) DATI Il data set employee.sav (o employee.xls; fonte SPSS) contiene 7 dati relativi agli impiegati di un azienda. Le variabili sono ID Employee Code BDATE Date of Birth
Introduzione all Analisi della Varianza (ANOVA)
Introduzione all Analisi della Varianza (ANOVA) AMD Marcello Gallucci [email protected] Variabili nella Regressione Nella regressione, la viariabile dipendente è sempre quantitativa e, per quello
Test per la correlazione lineare
10 Test per la correlazione lineare Istituzioni di Matematica e Statistica 2015/16 E. Priola 1 Introduzione alla correlazione lineare Problema: In base ai dati che abbiamo possiamo dire che c è una qualche
Analisi della varianza
Analisi della varianza Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona ANALISI DELLA VARIANZA - 1 Abbiamo k gruppi, con un numero variabile di unità statistiche.
Analisi delle corrispondenze
Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello
La domanda che ci si deve porre innanzitutto per iniziare a risolvere questa disequazione è la seguente:
Disequazioni: caso generale Consideriamo ora la risoluzione di disequazioni che presentino al suo interno valori assoluti e radici. Cercheremo di stabilire con degli esempio delle linee guida per la risoluzione
Approssimazione normale alla distribuzione binomiale
Approssimazione normale alla distribuzione binomiale P b (X r) costoso P b (X r) P(X r) per N grande Teorema: Se la variabile casuale X ha una distribuzione binomiale con parametri N e p, allora, per N
REGRESSIONE E CORRELAZIONE
REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.
Il test (o i test) del Chi-quadrato ( 2 )
Il test (o i test) del Chi-quadrato ( ) I dati: numerosità di osservazioni che cadono all interno di determinate categorie Prima di tutto, è un test per confrontare proporzioni Esempio: confronto tra numero
Esercitazione 8 maggio 2014
Esercitazione 8 maggio 2014 Esercizio 2 dal tema d esame del 13.01.2014 (parte II). L età media di n gruppo di 10 studenti che hanno appena conseguito la laurea triennale è di 22 anni. a) Costruire un
SISTEMI LINEARI. x y + 2t = 0 2x + y + z t = 0 x z t = 0 ; S 3 : ; S 5x 2y z = 1 4x 7y = 3
SISTEMI LINEARI. Esercizi Esercizio. Verificare se (,, ) è soluzione del sistema x y + z = x + y z = 3. Trovare poi tutte le soluzioni del sistema. Esercizio. Scrivere un sistema lineare di 3 equazioni
Esercitazioni di statistica
Esercitazioni di statistica Misure di associazione: Indipendenza assoluta e in media Stefania Spina Universitá di Napoli Federico II [email protected] 22 ottobre 2014 Stefania Spina Esercitazioni
Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi
Esercitazione 14 Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () 1 / 14 Ex.1: Verifica Ipotesi sulla media (varianza nota) Le funi prodotte da un certo macchinario hanno una
CAMPIONAMENTO - ALCUNI TERMINI CHIAVE
CAMPIONAMENTO - ALCUNI TERMINI CHIAVE POPOLAZIONE = qualsiasi insieme di oggetti (unità di analisi) di ricerca N = ampiezza della popolazione PARAMETRI = caratteristiche della popolazione [media, proporzione
Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione dei numeri relativi
Codice BCD Prima di passare alla rappresentazione dei numeri relativi in binario vediamo un tipo di codifica che ha una certa rilevanza in alcune applicazioni: il codice BCD (Binary Coded Decimal). È un
i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente
TEST DI AUTOVALUTAZIONE - SETTIMANA 6 I diritti d autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Metodi statistici per la biologia Parte A. La retta di regressione.2
Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria
Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata Prof. Massimo Aria [email protected] Il concetto di interpolazione In matematica, e in particolare in
Elementi di Psicometria
Elementi di Psicometria 7-Punti z e punti T vers. 1.0a (21 marzo 2011) Germano Rossi 1 [email protected] 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2010-2011 G. Rossi (Dip. Psicologia)
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative
Contrasti e confronti multipli
Contrasti e confronti multipli Andrea Onofri 25 gennaio 2012 Indice 1 Introduzione 1 2 I contrasti pianificati 2 Test di confronto multiplo 4 4 Limitazione delle MCP 5 5 Scegliere la MCP 7 Sommario Scopo
Test d Ipotesi Introduzione
Test d Ipotesi Introduzione Uno degli scopi più importanti di un analisi statistica è quello di utilizzare i dati provenienti da un campione per fare inferenza sulla popolazione da cui è stato estratto
Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo
UIVERSITA DEGLI STUDI DI BASILICATA FACOLTA DI ECOOMIA Corso di laurea in Economia Aziendale anno accademico 2012/2013 Lezioni di Statistica del 15 e 18 aprile 2013 Docente: Massimo Cristallo LA RELAZIOE
I. Foglio di esercizi su vettori linearmente dipendenti e linearmente indipendenti. , v 2 = α v 1 + β v 2 + γ v 3. α v 1 + β v 2 + γ v 3 = 0. + γ.
ESERCIZI SVOLTI DI ALGEBRA LINEARE (Sono svolti alcune degli esercizi proposti nei fogli di esercizi su vettori linearmente dipendenti e vettori linearmente indipendenti e su sistemi lineari ) I. Foglio
UNITÀ DIDATTICA 5 LA RETTA
UNITÀ DIDATTICA 5 LA RETTA 5.1 - La retta Equazione generica della retta Dalle considerazioni emerse nel precedente capitolo abbiamo compreso come una funzione possa essere rappresentata da un insieme
Analisi della varianza
1. 2. univariata ad un solo fattore tra i soggetti (between subjects) 3. univariata: disegni fattoriali 4. univariata entro i soggetti (within subjects) 5. : disegni fattoriali «misti» L analisi della
Metodo dei minimi quadrati e matrice pseudoinversa
Scuola universitaria professionale della Svizzera italiana Dipartimento Tecnologie Innovative Metodo dei minimi quadrati e matrice pseudoinversa Algebra Lineare Semestre Estivo 2006 Metodo dei minimi quadrati
GENETICA QUANTITATIVA
GENETICA QUANTITATIVA Caratteri quantitativi e qualitativi I caratteri discontinui o qualitativi esibiscono un numero ridotto di fenotipi e mostrano una relazione genotipo-fenotipo semplice I caratteri
3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
Statistica di base per l analisi socio-economica
Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo [email protected] Definizioni di base Una popolazione è l insieme
IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA
Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale
Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill
- metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill Es. Soluzione degli esercizi del capitolo 8 home - indice In base agli arrotondamenti effettuati nei calcoli, si
Sviluppo di programmi
Sviluppo di programmi Per la costruzione di un programma conviene: 1. condurre un analisi del problema da risolvere 2. elaborare un algoritmo della soluzione rappresentato in un linguaggio adatto alla
Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva
Fondamenti di Informatica Ester Zumpano Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva Lezione 5 Statistica descrittiva La statistica descrittiva mette a disposizione il calcolo di
Derivazione numerica. Introduzione al calcolo numerico. Derivazione numerica (II) Derivazione numerica (III)
Derivazione numerica Introduzione al calcolo numerico Il calcolo della derivata di una funzione in un punto implica un processo al limite che può solo essere approssimato da un calcolatore. Supponiamo
1 Definizione di sistema lineare omogeneo.
Geometria Lingotto. LeLing1: Sistemi lineari omogenei. Ārgomenti svolti: Definizione di sistema lineare omogeneo. La matrice associata. Concetto di soluzione. Sistemi equivalenti. Operazioni elementari
IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI
IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI Perchè confrontare le varianze stimate in due campioni? Torniamo all'esempio dei frinosomi Per poter applicare il test t avevamo detto che le varianze, e
