Strumenti di indagine per la valutazione psicologica 2.3 Validazione di un test clinico Davide Massidda davide.massidda@gmail.com Definire un cut-off Per ogni scala del questionario, sommando o mediando i punteggi ottenuti ai vari item, per ogni persona possiamo calcolare un punteggio totale per una scala. I test che trovano applicazione nell'ambito clinico spesso richiedono, per ogni scala, la definizione di un cut-off in grado di stabilire una linea di demarcazione tra salute e patologia. Come definire questo cut-off? Università di Cagliari, a.a. 2013/2014 Distribuzione normale e percentili Distribuzione normale e percentili Lo studio di validazione prevede di somministrare il test a un campione molto ampio della popolazione (in generale, siamo sopra i 1000 intervistati). Questo campione può essere trattato come se fosse tutta la popolazione: si possono usare le proprietà della distribuzione normale oppure i percentili per individuare il cut-off. 2.5% 95% 2.5% z= x μ σ La domanda è: «Quali sono i punteggi a partire dai quali ci si trova nelle code della distribuzione?» Nello stabilire la dimensione dell'area che identifica la patologia, dovremmo tenere in considerazione la prevalenza della condizione clinica nella popolazione.
Trasformazione dei punteggi Falsi positivi e falsi negativi Nota bene: i punti z, talvolta, vengono trasformati in punti T o in punti stanine (standard nine). T =50+10z Se z ha media 0 e deviazione standard 1, T ha media 50 e deviazione standard 10. Solo se z è inferiore a -5 (cosa decisamente improbabile) allora T assume valori inferiori a 0. stanine =5+ 2z Per individuare il cut-off, possiamo anche prendere spunto dall'epidemiologia. Criteri troppo restrittivi tendono a generare falsi negativi, mentre criteri troppo larghi tendono a generare falsi positivi. Situazione reale Falso negativo Classificazione Falso positivo Gli stanine sono di solito compresi tra 1 e 9 (i punteggi possono quindi essere classificati in nove categorie). Caratteristiche operative Caratteristiche operative Classificazione Classificazione Situazione reale a b c d Situazione reale a b c d Accuratezza: capacità del test di classificare correttamente positivi e negativi. Ac= a +d a+b+c+d Sensibilità: capacità di individuare correttamente i malati: quanti dei malati risultano positivi al test? Se= d c+d Specificità: capacità di individuare correttamente i sani: quanti dei sani risultano negativi al test? Sp= a a +b
Due facce della stessa medaglia Serve un compromesso Un buon test individua sì i malati (sensibilità) ma senza prendere per malati anche quelli che malati non sono (specificità). Variando il criterio di cut-off, possiamo avere degli esiti di classificazione diversi. Criteri a maglie larghe favoriranno la sensibilità a scapito della specificità. Criteri a maglie strette favoriranno la specificità a scapito della sensibilità. Il cut-off migliore sarà quello che permette di ottenere il miglior compromesso tra sensibilità e specificità. Dato un certo cut-off, per calcolare sensibilità e specificità, devo sapere se il test sta classificando bene oppure male. Sorge un problema: come faccio a sapere se le persone classificate dal test come sane e malate sono davvero sane e malate? Il gold standard L'esempio dell'mdq C'è di bisogno di un criterio esterno, un parere autorevole con cui confrontare la classificazione del test. Questo parere autorevole (che in verità non sempre è possibile reperire) è il gold standard, rappresentato dal miglior strumento di valutazione attualmente in circolazione. In ambito clinico, spesso il gold standard è rappresentato dalla diagnosi effettuata da professionisti sulla base di manuali diagnostici come il DSM. Come si procede? Mood Disorders Questionnaire (MDQ): questionario di 13 item con risposta verso/falso che indaga la presenza di maniacalità e ipomaniacalità. Lo scoring avviene per somma delle risposte agli item: Falso 0 Vero 1 I punteggi possono variare tra 0 (nessun item selezionato) e 13 (tutti gli item selezionati). I cut-off candidati variano tra 1 e 13. (Versione italiana validata da Hardoy et al., 2005).
un vero positivo un falso positivo un vero positivo 1 Possibili cut-off (da 13 a 1) 13 un falso positivo Cut-off 6: Oltre il 70% di positivi individuati correttamente con meno del 20% di falsi positivi.
Quindi... Per ogni possibile cut-off, si calcola la probabilità di commettere un falso positivo e la si confronta con la probabilità di individuare un vero positivo. Il cut-off migliore è quello che individua il maggior numero di veri positivi facendo il minor numero possibile di falsi positivi. Nello scegliere il cut-off, considerare se è opportuno dare maggior peso alla sensibilità oppure alla specificità. Altro metodo: scegliere il cut-off che sottende l'area maggiore.
Punteggi normativi diversificati Punteggi normativi diversificati Ci sono dimensioni psicologiche che variano in funzione di caratteristiche fisiche e socio-economiche come età, sesso, scolarizzazione, status sociale, ecc. Per questo motivo, una buona validazione dovrebbe raggiungere tutti gli strati della popolazione. (In ogni caso, la scelta del campione deve essere legata a quella che è la popolazione target dello strumento). La generica popolazione può quindi racchiudere in sé diverse sotto-popolazioni. In questi casi, ogni sotto-popolazione avrà la sua distribuzione con la sua media e la sua deviazione standard. Anche i cut-off dovrebbero essere calcolati in maniera diversificata per ogni sotto-popolazione (es. QI).