Validità
Che cosa è la Validità? Un test è valido quando misura ciò che intende misurare. Si tratta di un giudizio complessivo della misura in cui prove empiriche e principi teorici supportano l adeguatezza e l appropriatezza delle conclusioni basate su punteggi al test (Messick, 1989: 13)
Tassonomia Tradizionale Validità di Facciata COSTRUTTO Construct Validità Validità del Contenuto Validità di Criterio Validità di Costrutto Concorrente Predittiva
Validità di facciata Il test sembra una misura sensata del costrutto. Leggendo gli item, riesco a capire che costrutto voglio misurare. È importante nelle situazioni di selezione Una buona validità di facciata motiva i candidati (aspetto positivo) Una buona validità di facciata permette ai candidati di aggiustare le proprie risposte (aspetto negativo)
Validità di Contenuto Rappresentatività del Contenuto del costrutto. (Campionamento degli item) Rilevanza del Contenuto Gli item del test devono coprire l intera definizione teorica del costrutto in esame, e cogliere gli aspetti più importanti del costrutto. Senza validità del contenuto non ci sono altre forme di validità Se non abbiamo colto adeguatamente gli aspetti del costrutto, non può esservi alcuna forma di validità Questa forma di validità non viene valutata in modo quantitativo
Validità Rispetto al Criterio Validità Concorrente : il punteggio al test concorda con altre misure valide dello stesso costrutto. La validità concorrente si stabilisce, in generale, tramite la correlazione. Esempio Il punteggio nella scala di autovalutazione dell Aggressività da parte degli scolari correla.70 con la valutazione degli scolari fatta dagli insegnanti Il punteggio nella Scala di Disperazione di Beck (Beck Hopelessness Scale) correla.81 con il Beck Depression Inventory.
Difficoltà di verificare la validità concorrente Stricto sensu, misurare la validità concorrente è possibile se esiste una misura valida che che funga da paragone. Se non abbiamo una misura valida di confronto, la validità concorrente non può essere verificata. Può essere però indagata in modo indiretto. È possibile verificare se esistono delle relazioni coerenti fra il nuovo test e misure (valide) di altri costrutti che debbono essere in vario modo collegate al costrutto per il quale si vuole sviluppare una misura
Validità Rispetto al Criterio Se un test è usato per avere una stima del punteggio in un criterio differito nel tempo parliamo di Validità Predittiva del Test. Validità Predittiva - il punteggio nel test è capace di predire accuratamente la prestazione nel dominio teorico cui il test appartiene. Esempi: Il punteggio verbale del SAT (una specie di test d ingresso) correla.40 con la media degli esami del primo anno alla fine del primo semestre. La scala delle Relazioni Spaziali correla.70 con il successo nella prova di disegno tecnico per studenti degli Istituti Tecnici.
Difficoltà di verificare la validità predittiva Il criterio deve essere valido concettualmente: il criterio deve essere teoricamente connesso al costrutto che si vuole misurare. Il criterio deve essere misurato in modo valido: Se un criterio concettualmente valido non è misurato in modo valido e attendibile, non posso interpretare la validità predittiva. La validità, in tutti i suoi aspetti, è un problema attinente sia alle variabili indipendenti, sia dipendenti
Validità Rispetto al Criterio Validità Concorrente Generalmente si valuta questa validità sul coefficiente di correlazione tra i due test. Problema: quando la correlazione è bassa come la interpretiamo? Accertare i requisiti di attendibilità di ciascun test Accertare la validità di contenuto, predittiva o rispetto alla funzione di ciascun test Accertare quale test è più rapido da somministrare Accertare quale test può essere somministrato ad un ampia gamma di persone Accertare quali attributi rendono un test preferibile all altro
Validità Rispetto al Criterio Validità Predittiva (il criterio è un altra misura) Gli elementi da prendere in considerazione sono: Problema pratico al quale si vuole offrire una soluzione (es. selezionare in un azienda i soggetti con migliori qualità manageriali) Criterio riconosciuto adeguato (sia dal cliente sia dal ricercatore) Intervallo di tempo tra la somministrazione del test e la rilevazione della misura criterio Campione ritenuto accettabile (es. anno di corso degli studenti) Test utilizzato per la predizione (dipende dalla misura che ci interessa)
Validità Rispetto al Criterio: riassunto Si differenzia in: Validità Concorrente il criterio è contemporaneo al test; a volte si tratta di altri strumenti simili al test in esame Validità Predittiva il criterio è successivo al test, spesso si tratta di esiti importanti per l individuo Si stima con: Coefficiente di Validità correlazione r Coefficiente di Determinazione = r 2 Accuratezza della diagnosi (ROC)
Validità di Costrutto Validità di Costrutto - cerca di verificare se un punteggio al test misura il costrutto d interesse. Poiché i costrutti sono astrazioni concettuali, la validità bisogna derivarla in maniera indiretta Il modo di procedere è quello di valutare un insieme di prove che nel loro complesso stabiliscono la validità di Costrutto
Validità di Costrutto La Validità Concorrente è di grande aiuto nel determinare la Validità di Costrutto di un Test. Nell indagare la validità di costrutto si distingue la validità concorrente in due aspetti differenti: Validità Convergente - Alta Correlazione con altre Misure dello stesso Costrutto. Validità Discriminante - Bassa correlazione con altre Misure di altri Costrutti
Validità di Costrutto Approccio per Gruppi Contrapposti Matrici Multi-Tratto-Multi-Metodo MTMM Matrici Multi-Tratto-Multi-Item MTMI Analisi Fattoriale
Validità Rispetto al Criterio Un modo diverso rispetto alla correlazione per valutare la validità del criterio è: Risultato al Criterio + - + Risultato al Test Positivi Falsi positivi - Falsi negativi Negativi
La rappresentatività del campione
Il problema fondamentale della campionatura riguarda la rappresentatività del campione rispetto alla popolazione Individuare la popolazione di riferimento e da questa estrarre il campione
Estrazione del campione Campione casuale semplice: estrazione da una lista con metodo puramente casuale Campionatura sistematica: estrarre ad intervalli regolari i soggetti attinti da una lista Campionatura a quote o mirata: somministrare il test a persone che abbiano certe caratteristiche Campionatura a palla di neve: reperito u piccolo campione, lo si utilizza per reperire altri soggetti campionatura di convenienza: (studenti, pazienti), si può ovviare a problemi di distorsione con validazioni incrociate
La rappresentatività del campione non dipende dalla numerosità ma dalle modalità seguite per estrarre il campione dalla popolazione. Quando il campione è rappresentativo la numerosità aumenta la potenza del campione
Qualunque misura presa su un campione invece che sulla popolazione ha un suo errore standard (in base al quale noi possiamo sapere quanto si discosta dalla misura corrispondente che potremmo prendere sull intera popolazione
Potenza dei test statistici La numerosità del campione garantisce potenza ai test (probabilità che una ricerca porti a risultati significativi) La potenza di un test è data dalla probabilità di respingere l ipotesi nulla quando è falsa Potenza = 1-probablità di commettere un errore di II tipo = 1-β
Validità Predittiva MALATO/ BOCCIATO Risultato al Criterio SANO/ PROMOSSO VP = Veri Positivi FP = Falsi Positivi FN = Falsi Negativi VN = Veri negativi + - Risultato al Test VP e VN = DECISIONE CORRETTA FP e FN = DECISIONE ERRATA Falsi Positivi sono Errori di I Tipo Falsi Negativi sono Errori di II Tipo
Validità Predittiva TOTALE + TOTALE - MALATO/ BOCCIATO VP = Veri Positivi FN = Falsi Negativi TOTALE MALATI/ BOCCIATI SANO/ PROMOSSO FP = Falsi Positivi VN = veri negativi TOTALE SANI/ PROMOSSI Totale + Totale - Potere Predittivo Positivo = Quanti VP sul totale dei malati? Potere Predittivo Negativo = Quanti VN sul totale dei sani? Sensitività = Quanti VP sul totale dei Positivi? Specificità = Quanti VN sul totale dei Negativi?
Validità Predittiva (Extra) PPP = Quanti VP sul totale dei malati? = 50/54 =.93 PPN = Quanti VN sul totale dei sani? =121/124 =.98 Sensitività = Quanti VP sul totale dei Positivi? = 50/53 =.94 Specificità = Quanti VN sul totale dei Negativi? = 121/125 =.97
Validità Predittiva In realtà schizofrenici In realtà normali Totale T=70 o più (diagnosticati come schizofrenici) 30 VP 1 FP 31 T=69 o meno (diagnosticati come normali 20 49 FN VN 50 50 69 100 Scala MMPI M=50 e ds =10. Nella validazione originale nel gruppo sperimentale di pazienti psichiatrici il 60% otteneva Un punteggio superiore a T=70, solo il 2% del gruppo di normali otteneva un punteggio T= 70 (BUONA VALIDITA DEL TEST In tabella viene sottoposto MMPI ad 100 persone il 50% sano e il 50% schizofrenico
Validità Predittiva In realtà schizofrenici In realtà normali Totale T=70 o più (diagnosticati come schizofrenici) 0.6 VP 2,0 FP 2,6 T=69 o meno (diagnosticati come normali 0,4 97,0 FN VN 1,0 99,0 97,4 100 Nella popolazione normale 1% di soggetti è schizofrenico. Popolazione di riferimento diversa dalla precedente Il 97,6% coincidono con la diagnosi e lo 0,4% è di falsi negativi Tutto dipende dalla somiglianza fra la composizione del campione di validazione e la composizione delle popolazioni a cui vengono generalizzati i risultati Conclusione: stare attenti all uso dei punteggi cut-off
Ipotizziamo che lo 0.01% (1%) dei bambini di età compresa tra i 3 anni e i dieci anni risulta aver subito una abuso sessuale. Dai dati pubblicati in letteratura sappiamo che lo 0.80 (80%) dei bambini di età compresa tra i tre e i dieci anni che ha subito un abuso sessuale risulta positivo al test X In letteratura è anche noto che lo 0.096 (9.6%) dei bambini di età superiore ai tre anni che non ha subito abusi sessuali ottiene un risultato positivo al test. A questo punto qual è la probabilità che il bambino A.R., di età compresa tra i tre e i 10 anni abbia subito un abuso sessuale se ha ottenuto un risultato positivo al test?
In altre parole: qual è la probabilità condizionata che il bambino A.R. abbia subito un abuso sessuale avendo ottenuto un risultato positivo al test X? La risposta più frequente, ma errata, varia tra il 70% e 80% di probabilità (sovrastima del fenomeno)
Alcuni autori (Gigerenzer e Hoffrage, 1995) hanno ipotizzato che sia i professionisti che le persone comuni siano in grado di operare ragionamento corretti a patto di poter ragionar su dati assoluti e non relativi
Ipotizziamo che 100 bambini su 10 000 (1%) dei bambini di età compresa tra i tre anni e i dieci anni risulta aver subito una abuso sessuale. Dai dati pubblicati in letteratura sappiamo che 80 su 100 (80%) dei bambini di età superiore ai tre anni che ha subito un abuso sessuale risulta positivo al test X In letteratura è anche noto che 950 bambini su 9900 (9.6%) dei bambini di età compresa tra i tre anni e i dieci anni che non ha subito abusi sessuali ottiene un risultato positivo al test X. A questo punto, se 10000 bambini avessero ottenuto un risultato positivo al test quanti di loro sarebbero abusati? Anche in questo caso risulta una sovrastima del fenomeno.
Sappiamo che su un totale di 10000 bambini con un età compresa tra i tre e i dieci anni ve ne sono 100 che hanno subito un abuso sessuale. Questa informazione rappresenta la PREVALENZA dell abuso sessuale nella popolazione esaminata, (probabilità a priori di un bambino MR di essere stato abusato). 80 di questi 100 bambini abusati risultano positivi al test X. Escludendo i 100 bambini abusati, ne rimangono 9900 in uno stato di non abuso (sani). Tra questi 950 ottengono un risultato positivo al test X, nonostante non siano stati abusati. La probabilità di avere un test positivo, data l assenza di abuso sessuale è il complemento della probabilità di avere un test negativo, data l assenza di abuso. Tirando le somme vi sono 950 + 80 bambini che hanno un risultato positivo al test, per un totale di 1030 bambini. Di questi, tuttavia 80 su 1030 hanno subito un abuso sessuale.
Quindi la risposta corretta è che la proporzione di bambini con un test positivo che ha effettivamente subito un abuso, e quindi che un bambino sia stato abusato dato la positività del test è pari a 0.077 (8%). L errore è l ignorare il tasso di prevalenza della problematica che è invece determinante nell influenzare il potere predittivo di un test.
Validità Predittiva (Extra) 1,00,75,50 ROC Curve La curva ROC (Receiver Operating Curve) mette in relazione sensitività e specificità di un test. Sensitivity,25 0,00 Un buon test quello la cui area sotto la curva è massima 0,00,25,50,75 1,00 1 - Specificity
Attenuazione I coefficienti di validità basati sulla correlazione sono distorti dall attendibilit attendibilità (sempre 0) Attendibilità meno che perfette attenuano la stima della vera validità Errore Tratto Tratto Errore
Attenuazione È stata quindi proposta una correzione per l attenuazione (rapporto tra il coefficiente di validità trovato e i coefficienti di attendibilità dei due test posti a confronto)
Correzione per l attenuazione Correzione del criterio ' 12 r = r 12 r 22 Correzione del Test e del Criterio '' 12 r = r r 12 11 r 22
Correzione per l attenuazione Attenzione: quando si dice che è stata introdotta la correzione per attenuazione, bisogna per prima cosa controllare i valori dei coefficienti di attendibilità, se sono bassi, anche un valore elevato del coefficiente di validità corretto non è sufficiente a sanare la debolezza metrica del test
Approccio per Gruppi Contrapposti Se un test misura ciò che dichiara di misurare allora soggetti con punteggi Alti e Bassi nel test devono comportarsi in maniera differente entro il dominio concettuale del costrutto. Esempi banali: Alti Ansiosi vs. Bassi Ansiosi: ci si aspetta che i due gruppi si comportino in maniera diversa mentre aspettano i risultati di un esame. Attenti vs. Disattenti: ci si aspetta che i due gruppi si comportino in maniera diversa mentre l insegnante parla a lezione.