Metodologie Quantitative Attendibilita e validita M Q Marco Perugini Milano-Bicocca 1
Proprieta di una misura Distribuzione Il test ha una distribuzione che si avvicina alla normale e consente di discriminare punteggi diversi Attendibilita Il test (misura) rappresenta una misura affidabile (fedele, attendibile) del costrutto Validita (classica) Il test misura cio che dovrebbe misurare (Cronbach & Meehl, 1955), cioe e valido (con sottoaspetti) (alternativa I) Un test e valido per misurare un concetto se e solo se a) il concetto esiste b) variazioni nel concetto producono causalmente variazioni negli esiti della procedura di misurazione (Borsboom et al., 2004) (alternativa II) Definizione moderna globale di validità 2
Distribuzione Bevi acqua ogni giorno? Quanta acqua bevi al giorno? 3
Esempio di indicatori e costrutto 1. Costrutto 2. Definizione Estroversione Tendenza stabile ad essere aperto, interessato agli altri, loquace, dominante 3. Indicatori Aggettivi: Estroverso, Loquace, Dinamico, Introverso (-), Riservato (-), Timido (-) Items: E il primo a prendere l iniziativa, Gli piace chiacchierare, Si tiene a distanza (-), E silenzioso con persone che non conosce (-) 4
Calcolo della misura (punteggio semplice) Dato che il costrutto e latente, dobbiamo stimarlo dalle misure empiriche Un modo semplice: pesare ugualmente le risposte agli items (indicatori) che misurano il costrutto Si ricodifica l item se misura in modo negativo/inverso (ad es., Introverso per il costrutto Estroversione). Se la scala di risposta varia da 1 a 7, sara 7=1, 6=2, 5=3,..., 1=7. Si puo usare una formula generale per ricodificare (invertire) un item: Xr=(maxteor-X)+minteor ad es., risposta «5» da ricodificare; (7-5)+1=3 (risposta ricodificata) Si calcola il valore medio (o la somma) di questi items Quello sara il punteggio nel costrutto (dimensione, scala) o misura del costrutto. 5
Scala di risposta da 1 a 7 Esempio di calcolo Giovanni Anna -------- -------- --------- + Item1 5 7 + Item2 1 6 + Item3 3 5 + Item4 2 7 - Item5 6 2 GIOVANNI 51 3 2 (8 6) Mc 5 ANNA Xr=(maxteor-X)+minteor= ( 7-6 ) + 1= 2 7 6 5 7 (8 2) Mc 5 13 5 2.6 31 6.2 5 6
Attendibilita I Le misura di un costrutto (scale, test) possono essere piu o meno attendibili Attendibilita : porzione di varianza sistematica rispetto alla varianza totale La varianza sistematica e quella varianza non dovuta all errore di misurazione Se usiamo un metro di gomma avremo una misura meno attendibile di un metro rigido La definizione specifica di attendibilita dipende da come viene verificata empiricamente. La validita (grigia) e considerata come un sottoinsieme della attendibilita (grigia + blu) errore 20% non valida 30% valida 50% 7
Attendibilita II Tipi diversi a) Consistenza interna: In un test, le persone dovrebbere rispondere in un modo sistematico (consistente, parallelo) a tutte le domande (items, stimoli) b) Test-retest: Le persone dovrebbe ottenere lo stesso punteggio (a meno di cambiamenti nel costrutto) se fanno il test piu di una volta. Si calcola come correlazione tra i punteggi nel primo e secondo test (sulle stesse persone dopo un periodo x) r x1x2 8
Attendibilita III Secondo la teoria classica dei test (Lord & Novick, 1968), una misura e composta da un punteggio sistematico ed uno di errore X L attendibilita (r) puo essere definita come il rapporto tra la varianza sistematica (T) e la varianza osservata (X) Attendibil ita' Ci sono modi diversi di definire operativamente l attendibilita (ad es., nel tempo, nelle forme, nei giudici). L attendibilita negli items (consistenza interna) e la definizione piu comune ed e misurata dalla a di Cronbach a T e Var ( T) Var ( e) ( r) 1 Var ( X ) Var ( X ) var( x 1 1 var( C) n n i ) 9
Calcolo della a a n var( x 1 n 1 var( C) i ) x=varianza variabili C=varianza totale x 1111 4 Matrice di correlazione fra item aggressivo bellicoso collerico irascibile aggressivo 1.000.391.202.371 bellicoso.391 1.000.182.245 collerico.202.182 1.000.350 irascibile.371.245.350 1.000 La matrice di covarianza verrà calcolata e utilizzata nell'analisi. C 1.391.202.371.3911.182.245.202.182 1.350.371.245.350 1 7.482 a 4 1 3 4 7.482 4 3 1 0.535 1.3330.465 0. 62 10
a di Cronbach (indicata come r nella tabella per generalita ) dipende da due parametri: a) la correlazione tra gli items, b) il numero di items. X1 X2 X3 X1 X2 X3 X1 1 X1 1 X2 0.5 1 X2 0.7 1 X3 0.5 0.5 1 X3 0.7 0.7 1 r=.75 r=.88 X1 X2 X1 X2 X3 X4 X1 1 X1 1 X2 0.5 1 X2 0.5 1 X3 0.5 0.5 1 X4 0.5 0.5 0.5 1 r=.67 a di Cronbach r=.80 Qual e un valore buono? Dipende dal costrutto, dall area teorica, dal tipo di misura, ecc. In termini del tutto indicativi, >.90 e eccellente, >.80 e buono, >. 70 e ok, >.60 e ai limiti della decenza, <.60 non e buono Limitazione fondamentale: Alfa non ci dice nulla sulla dimensionalita (per questo abbiamo l analisi fattoriale) e vale solo per una dimensione 11
Validita Contenuto ( interna) Criterio ( esterna) Costrutto ( nomologica) 12
Validita di Contenuto I Riguarda il disegno della misura Qualita del paradigma di misura (operazioni di misurazione) Punto cruciale: massimizare la variazione nei punteggi dovuta al costrutto rispetto a quella dovuta a fattori teoricamente irrelevanti 13
Validita di Contenuto II Esempi di fattori che influenzano la validita di contenuto Qualita teorica/psicometrica: (Qualita della definizione teorica, sistematicita nella generazione degli items, procedure di selezione degli items e di validazione del test) Qualita degli items (Un solo concetto in una frase, linguaggio chiaro, affermazioni specifiche, no domande dirette in qualche modo) Condizioni di somministrazione (Non troppi items, atmosfera collaborativa, concentrazione) Riduzione bias valutativi (ordine randomizzato ma fisso degli items, istruzioni adeguate, direzione items bilanciata, evitare effetti sequenza ) Vogliamo ridurre l errore sistematico (eventualmente trasformarlo in errore random) ed aumentare la varianza valida 14
Qual e il problema? Questi fattori riducono la nostra confidenza nell interpretare i punteggi come veri Noi otteniamo soltanto una stima fallibile (con errore) del punteggio vero nel costrutto Il grado in cui possiamo fidarci dei punteggi riflette anche la validita interna (contenuto) della misura Un continuum da abbastanza fiducia fino a molta sfiducia Non si possono eliminare tutti gli errori, possiamo soltanto cercare di ridurli e comunque di esserne consapevoli Esempio: E noto che le persone tendono a rispondere nella direzione della domanda (acquiescenza). E buona regola bilanciare gli items Il grado di acquiescenza varia tra le persone Abbiamo una scala di misura di Dominanza con items solo positivi (nessun items nella direzione inversa del costrutto) 15
Qual e il problema? Punteggio nel test? Varianza valida (Dominanza) Varianza sistematica d'errore (Accondiscendenza) Varianza random d'errore (fatica, umore, ecc.) Varianza sistematica 16
Validita di Contenuto III Differenze individuali sistematiche in aspetti irrelevanti al costrutto possono influenzare il punteggio e diminuire la sua validita Ma massimizzare la validita di contenuto non implica necessariamente massimizzare gli altri tipi di validita A volte puo creare anche l effetto contrario Bisogna pero cercare di aumentarla, avendo cura che cio non implichi inavvertitamente una sua diminuzione complessiva Si puo comunque fare attenzione ed evitare errori banali o comuni che possono danneggiare la validita di contenuto 17
Validita di Criterio I Si focalizza sulla predizione (concorrente o predittiva) Concorrente: Misura e criterio sono misurati allo stesso tempo Predittiva: La misura e ottenuta prima del criterio I criteri sono stabiliti teoricamente come conseguenze rilevanti che devono essere predette dalla misura (ad es., scala di depressione e benessere soggettivo) 18
Validita di Criterio II Predittori e criteri NON sono proprieta intrinsiche delle variabili Si verifica tramite modelli di regressione Correlazione tra VI (predittore) e VD (criterio) o regressione lineare semplice Quando abbiamo piu predittori simultaneamente usiamo la regressione multipla Validita incrementale: La capacita predittiva unica di una VI (al netto delle altre VI, coefficienti parziali) Sarà un focus di questo corso 19
Validita di Costrutto Quanto il test (misura) è connesso al costrutto che si intende misurare Un primo senso della validita di costrutto e dimostrare empiricamente che il test anzitutto misura quello che dovrebbe misurare L analisi fattoriale e la tecnica che ci consente di rispondere a questa domanda Si tratta di verificare che la dimensionalita sottostante agli items corrisponda ad un certo costrutto teorico (o piu costrutti) Sara un focus di questo corso 20
Validita di Costrutto II Oltre alla logica interna, ci sono logiche esterne per stabilire la validita di costrutto Si osservano le correlazioni (alte) con altri test che misurano la medesima variabile (convergente) oppure (basse) con test che misurano altre variabili non rilevanti (discriminante) e si cerca di verificare la validita nomologica (inserimento coerente della misura in un pattern di relazioni tra costrutti teoricamente sensato) Ci sono alcune tecniche statistiche, come i modelli Multi- Tratto Multi-Metodo (MTMM) e la path analysis, che aiutano a stabilirla 21
Validita di Costrutto III Borsboom et al. (2004, p. 1061) p. 1062 22
Validita di Costrutto IV Borsboom et al. (2004, p. 1070) Implicazioni: la validità predittiva è solo un aspetto della validità. Studi sperimentali per stabilire la validità di costrutto sono fondamentali. Se possibile, la variabile deve essere manipolabile. Altrimenti, le condizioni di funzionamento ed influenze devono essere specificate nel modo più preciso possibile e testate sperimentalmente. 23
Validità (definizione moderna) Borsboom et al. (2004) Validità Furr & Bacharach (2008)
Come stabilire se una misura e buona Il test deve discriminare ed essere anzitutto attendibile Validita interna (contenuto): giudizio teorico/metodologico sulla misura. Qualita degli items, chiarezza del costrutto, criteri di somministrazione, riduzione effetto bias valutativi, ecc. Validita criterio: accumulazione di dati empirici. La validita predittiva e solitamente la piu importante. Si tratta di fornire evidenza empirica che la misura predice quello che teoricamente dovrebbe predire Validita costrutto: accumulazione di dati empirici. La validita di costrutto si stabilisce prima in termini di dimensionalita (con l analisi fattoriale), poi tramite una rete di variabili (misure e criteri). La misura dove convergere (validita convergente) con misure simili e divergere da misure dissimili (validita discriminante). La misura deve essere inserita in modo teoricamente congruo all interno di una rete nomologica (validita nomologica). 25
Validita di una misura? http://www.colorquiz.com/ 26
Validita di una misura Una misura psicologica deve essere attendibile e valida Scrivere alcuni items per misurare un qualche costrutto non significa sviluppare una misura psicologica Si confrontino i vari test psicologici pubblicati su riviste non-scientifiche (o anche vagamente scientifiche) con i criteri di attendibilita e validita Quanti test in giro sono misure valide psicometricamente? Quante volte le informazioni statistiche necessarie vengono fornite? 27