La statistica e i test diagnostici Laura Ventura Dipartimento di Scienze Statistiche Università degli Studi di Padova ventura@stat.unipd.it XXIII Settimana della Cultura Scientifica e Tecnologica Liceo Scientifico P. Paleocapa Rovigo, 10 Aprile 2013 Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 1/ 36
Dal dottore: Prologo Sceneggiatura. Ambientazione: nello studio del pediatra del vostro fratellino. Il bambino piagnucola e la mamma appare piuttosto agitata. Vostra mamma: Il mio piccino ha la febbre alta e la lingua a lampone. Dottore... che sia la scarlattina????? Da Wikipedia: La scarlattina è una malattia infettiva acuta contagiosa, caratteristica dell età 6-12 anni, che si manifesta con febbre e enantema. A differenza di rosolia, varicella ecc. è l unica provocata da batteri. Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 2/ 36
Dal dottore: Primo tempo L indagine. Il dottore prende un tampone faringeo, lo passa leggermente sulle tonsille del bimbo. Quindi inserisce il bastoncino nell apposito astuccio e attende l esito. Il test diagnostico (tampone faringeo) è positivo. Il medico sa anche che nella popolazione in età 6-12 anni la proporzione di soggetti affetti da una certa malattia (prevalenza) è del 10%. E sa anche che il tampone fornisce la risposta corretta nel 98% dei casi. Sulla base dell esito, il dottore può comunicare alla mamma quanto vale la probabilità che il figlio abbia davvero la scarlattina, dato che è risultato positivo al test. Il secondo tempo alla fine del seminario. Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 3/ 36
Test diagnostico Una delle ragioni principali per effettuare misurazioni cliniche è fornire uno strumento di supporto alle diagnosi. La misurazione clinica fornisce un test diagnostico, che consente di classificare i soggetti in due gruppi: gruppo dei pazienti sani (M ) e gruppo dei pazienti malati (M + ). Il test è positivo (T + ) se segnala la presenza della malattia ed è negativo (T ) se non la segnala. Ma perchè la statistica è utile al test diagnostico? Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 4/ 36
Un esempio Misure della creatinachinasi (CK) in pazienti con angina instabile (AI) ed infarto miocardico acuto (IMA). I dati: IMA AI 3 4 5 6 7 8 9 creat creat pat 1 3.13 AI 2 3.49 AI 3 3.58 AI 4 3.61 AI... 92 5.86 AI 93 5.88 AI 94 4.49 IMA 95 5.27 IMA 96 5.71 IMA... 119 8.93 IMA 120 9.31 IMA Dal momento che i pazienti con IMA tendono a presentare valori di CK maggiori, questa misurazione può rappresentare un test diagnostico? Se sì, come scegliere il punto di soglia? Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 5/ 36
Test diagnostico Ipotesi di interesse: valutare l accuratezza diagnostica del test basato sulla misura della CK per discriminare tra pazienti con IMA (malati) e con AI (sani). IMA AI 3 4 5 6 7 8 9 creat Il CK più basso tra i pazienti con IMA è 4.49. Una soglia inferiore a k = 4.49 permette di identificare tutti i pazienti con IMA. Ma il 58% dei pazienti con AI è al di sopra di quella soglia. È importante capire la classificazione dei pazienti a seconda della soglia k fissata. Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 6/ 36
Una prima analisi con soglia di CK fissata Distribuzioni di CK nei due gruppi. Histogram of AI Histogram of IMA Density 0.0 0.2 0.4 0.6 3 6 9 AI Density 0.0 0.1 0.2 0.3 0.4 3 6 9 IMA 0.0 0.2 0.4 0.6 AI IMA 0 2 4 6 8 10 CK Consideriamo una soglia di CK pari a k = 5. Il test diagnostico è positivo (T + ) se CK > 5. Quali sono le conseguenze della scelta del cut-off k = 5? Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 7/ 36
Distribuzioni di CK nei due gruppi 0.0 0.2 0.4 0.6 AI IMA 0 2 4 6 8 10 CK Con k = 5 si commettono due errori: si classificano alcuni pazienti AI (sani) come IMA (malati) si classificano alcuni pazienti IMA (malati) come AI (sani) Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 8/ 36
Distribuzioni ideali nei due gruppi 0.0 0.2 0.4 0.6 0 2 4 6 8 10 12 CK Con k = 5 non si commettono errori: si classificano tutti i pazienti AI come sani si classificano tutti i pazienti IMA come malati Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 9/ 36
Distribuzioni peggiori nei due gruppi 0.0 0.2 0.4 0.6 2 3 4 5 6 7 8 CK La classificazione del paziente avviene lanciando una moneta. Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 10/ 36
Falsi Positivi e Falsi Negativi In genere le distribuzioni delle misurazioni del test diagnostico nei due gruppi (pazienti M + e pazienti M ) si sovrappongono. Per ogni soglia k (criterion value o cut-off) ci saranno: 1. dei pazienti malati correttamente classificati come positivi (TP = True Positive o Veri Positivi) 2. dei pazienti malati classificati come negativi (FN = False Negative o Falsi Negativi) 3. dei pazienti sani correttamente classificati come negativi (TN = True Negative o Veri Negativi) 4. dei pazienti sani classificati come positivi (FP = False Positive o Falsi Positivi) Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 11/ 36
La matrice di confusione I quattro valori TP, FN, TN e FP possono essere rappresentati in una tabella a doppia entrata (matrice di confusione o tabella di errata classificazione) che conta il numero di casi classificati correttamente o meno: Paziente Malato Paziente Sano Totale Test Positivo TP (Veri Positivi) FP (Falsi Positivi) TP + FP Test Negativo FN (Falsi Negativi) TN (Veri Negativi) FN + TN Totale TP + FN FP + TN Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 12/ 36
L accuratezza del test diagnostico Paziente Malato Paziente Sano Totale Test Positivo TP (Veri Positivi) FP (Falsi Positivi) TP + FP Test Negativo FN (Falsi Negativi) TN (Veri Negativi) FN + TN Totale TP + FN FP + TN La validità del test può essere misurata tramite la corretta classificazione dei pazienti sani e malati. L accuratezza del test è definita come accuratezza = TP+TN TP+FN+FP+TN Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 13/ 36
Cosa chiediamo a un test? Ma a partire dalla classificazione, si possono ottenere due importanti indici della qualità del test: la sensibilità e la specificità. La sensibilità (sensitivity) è definita come sensibilità = TP TP+FN ed esprime la proporzione di Veri Positivi (TP) rispetto al numero totale di positivi effettivi, ossia di pazienti malati (TP+FN). Un test diagnostico è sensibile al 100% quando tutti i malati risultano positivi. La specificità (specificity) è definita come specificità = TN FP+TN e misura la proporzione di Veri Negativi (TN) rispetto al numero totale di negativi effettivi, ossia di pazienti sani (FP+TN). Un test diagnostico è specifico al 100% quando tutti i sani risultano negativi. Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 14/ 36
Sensibilità e Specificità È chiaro che un test diagnostico sensibile e specifico al 100% non lascerebbe dubbi. Un test specifico ha alta capacità di classificare i SANI come NEGATIVI al test (basso rischio di Falsi Positivi). Un test sensibile ha alta capacità di classificare i MALATI come POSTIVI al test (basso rischio di Falsi Negativi). I valori della sensibilità e della specificità dipendono ovviamente dalla soglia k fissata nella classificazione. L aspirazione è minimizzare gli errori. P.S. Per la scarlattina, sensibilità e specificità sono entrambe del 98% Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 15/ 36
Sensibilità o Specificità? Per un valore elevato di k, i Veri Positivi e la sensibilità decrescono, con la specificità e i Veri Negativi che aumentano. Per un valore basso di k, i Veri Positivi e la sensibilità aumentano, e i Veri Negativi e la specificità diminuiscono. Elevata sensibilità e bassa specificità o viceversa? Se la malattia è a grave rischio e richiede un intervento immediato, è preferibile un test molto sensibile. Se la malattia ha conseguenze non gravi, è meglio un test molto specifico. 0.0 0.3 0.6 0 4 8 0.0 0.3 0.6 0 4 8 0.0 0.3 0.6 0 4 8 CK CK CK Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 16/ 36
Nell esempio Il calcolo della sensibilità e della specificità per un valore della soglia fissato a k = 5 per i dati sul CK fornisce: IMA (M + ) AI (M ) Totale Test Positivo (creat> 5) 26 16 42 Test Negativo (creat 5) 1 77 78 Totale 27 93 120 accuratezza = (26+77)/120 = 0.858 sensibilità = 26/27 = 0.962 specificità = 77/93 = 0.827 Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 17/ 36
Adeguatezza del test diagnostico: la curva ROC Uno strumento per valutare l adeguatezza di un test diagnostico, basato sulla sensibilità e specificità, è fornito dalla curva ROC. È stata introdotta negli anni della II Guerra Mondiale nel contesto della teoria delle comunicazioni, per lo studio di particolari immagini radar rilevate nei campi di battaglia, dove si rendeva necessario che il ricevitore del segnale riconoscesse il segnale proveniente da oggetti bellici rispetto al rumore di fondo. È stata poi ampiamente utilizzata in altri ambiti applicativi, tra cui in particolare in controllo della qualità e in statistica medica. Ricordiamo che i valori della sensibilità e della specificità sono determinati dal valore di soglia k adottato. Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 18/ 36
La curva ROC Si pensi di far variare la soglia k e di calcolare in corrispondenza di ogni valore di k la sensibilità e la specificità. Il complesso delle sensibilità e delle specificità ai vari livelli discriminanti può essere rappresentato graficamente con la cosiddetta curva ROC. Si tratta di un diagramma cartesiano in cui sono riportati i punti di coordinate (1-specificità, sensibilità). Come si interpreta? Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 19/ 36
Interpretazione della curva ROC Un test perfetto dal punto di vista diagnostico (assenza di sovrapposizione tra i due gruppi) è rappresentato da una curva ROC che passa per l angolo superiore sinistro del sistema di assi cartesiani (100% specificità, 100% sensibilità). Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 20/ 36
Interpretazione della curva ROC Al contrario, la bisettrice dell angolo nell origine corrisponde alla classificazione casuale dei pazienti. Pertanto, un buon test diagnostico avrà curva ROC il più sopra possibile della diagonale. Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 21/ 36
Interpretazione della curva ROC Nelle situazioni reali: Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 22/ 36
Curva ROC per CK ROC Curve Hit Rate 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 False Alarm Rate Potrebbe essere utile avere una misura sintetica ed oggettiva dell efficacia del test, attraverso un indicatore di sintesi della curva ROC. Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 23/ 36
Area sotto la curva ROC Un indicatore molto utilizzato della bontà del test diagnostico è costituito dall area sottesa alla curva ROC (AUC = Area Under the Roc Curve). Sia X la variabile che rappresenta la misura nel gruppo dei pazienti sani e Y quella nel gruppo dei pazienti malati. L AUC può essere espressa come AUC = P (X < Y ) Tale quantità, in letteratura, è nota anche come modello sollecitazione-resistenza (stress-strength model). 0.0 0.2 0.4 0.6 0 2 4 6 8 10 CK Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 24/ 36
Interpretazione AUC L interpretazione del valore dell AUC avviene convenzionalmente secondo la seguente scala: AUC = 0.5: test non informativo 0.5 < AUC 0.7: test poco accurato 0.7 < AUC 0.9: test moderatamente accurato 0.9 < AUC < 1.0: test altamente accurato AUC = 1.0: test perfetto Nei dati su CK si trova AUC = 0.975: il test diagnostico basato su CK è altamente accurato. Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 25/ 36
Confronto di test diagnostici tramite curve ROC È intuitivo come la curva ROC (e l AUC) possa essere anche utilizzata per confrontare l efficienza di test diagnostici differenti di una particolare patologia: la curva più spostata verso il centro del grafico appartiene all esame peggiore. Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 26/ 36
Scelta della soglia k ottimale: accuratezza È possibile determinare in maniera automatica un valore per la soglia k per discriminare tra i due gruppi di pazienti, che risponda ad un qualche criterio di ottimalità. Ad esempio, tra le misure di adeguatezza della previsione in una matrice di confusione, la più immediata è costituita dalla frazione totale di casi correttamente classificati: TP + TN accuratezza = TP +FN +FP +TN ROC Curve Hit Rate 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.4 0.8 Average accuracy 0.2 0.4 0.6 0.8 3 4 5 6 7 8 9 k = 5.89 False Alarm Rate Cutoff Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 27/ 36
Nell esempio Il calcolo della sensibilità e della specificità per il valore della soglia fissato a k = 5.89 per i dati sul CK fornisce: IMA (M + ) AI (M ) Totale Test Positivo (creat> 5) 19 0 19 Test Negativo (creat 5) 8 93 101 Totale 27 93 120 accuratezza = (19+93)/120 = 0.93 sensibilità = 19/27 = 0.70 specificità = 93/93 = 1.0 Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 28/ 36
Scelta della soglia k ottimale: distanza Il punto sulla curva ROC più vicino all angolo superiore sinistro rappresenta il miglior compromesso tra sensibilità e specificità. La distanza di ogni punto della curva ROC al punto (0,1) è d = (1 Sensibilità) 2 + (1 Specificità) 2 Capitolo 1. La curva ROC Il cut-off ottimale è il punto con distanza minore. k d = 5.70 sensibilità=0.925 specificità=0.967 Figura 6. Criterio della minima distanza d e indice di Youden J. Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 29/ 36
Scelta della soglia k ottimale: distanza L indice J di Youden misura la distanza verticale tra la change line e il generico punto della curva ROC J = Sensibilità + Specificità 1 Il cut-off ottimale è il punto con distanza J massima. Capitolo 1. La curva ROC k J = 5.70 sensibilità=0.925 specificità=0.967 coincide con k d Figura 6. Criterio della minima distanza d e indice di Youden J. Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 30/ 36
Scelta della soglia k ottimale: considerazioni Per concludere, si nota che la scelta della soglia k non può essere dettata solo da considerazioni di tipo probabilistico volte a minimizzare la proporzione di classificazioni errate. È anche necessario basarsi sul prevedibile impatto di tipo sanitario, economico, sociale, ecc. di ciascuno dei due tipi di misclassificazione (Falsi Positivi e Falsi Negativi). Ad esempio, per malattie ad alta contagiosità potrebbe essere opportuno minimizzare la quota di Falsi Negativi, e quindi privilegiare la sensibilità a scapito della specificità. Viceversa, in altre situazioni (quali, ad esempio, malattie non contagiose, trattabili soltanto con una terapia molto costosa o invasiva) il prezzo di un Falso Positivo sarà verosimilmente superiore a quello di un Falso Negativo, e quindi la soglia k verrà determinata in modo da privilegiare la specificità. Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 31/ 36
Ritorniamo dal dottore: Secondo tempo Definiamo gli eventi: M + = (il bimbo ha la scarlattina) M = (il bimbo non ha la scarlattina) T + = (il test è risultato positivo) T = (il test è risultato negativo) e assegniamo i valori: P(M + ) = 0.10 P(M ) = 1 0.9 = 0.1 P(T + M + ) = P(T M ) = 0.98 P(T M + ) = P(T + M ) = 0.02 Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 32/ 36
La tabella Paziente Malato Paziente Sano Totale Test Positivo P(M + T + ) P(M T + ) P(T + ) Test Negativo P(M + T ) P(M T ) P(T ) Totale P(M + )=0.1 P(M )=0.9 Da P(T + M + ) = P(M + T + ) / P(M + ) = 0.98, si trova P(M + T + ) = P(T + M + ) P(M + ) = 0.98 0.1 = 0.098 Analogamente: P(M T ) = 0.098 e P(T M + ) = P(T + M ) = 0.02 0.9 = 0.018 Vogliamo P(M + T + ) Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 33/ 36
Da P(M + ) a P(M + T + ) Paziente Malato Paziente Sano Totale Test Positivo P(M + T + ) P(M T + ) P(T + ) Test Negativo P(M + T ) P(M T ) P(T ) Totale P(M + )=0.1 P(M )=0.9 P (M + T + ) = P (M + T + )/P (T + ) = P (T + M + )P (M + ) P (M + T + ) + P (M T + ) = P (T + M + )P (M + ) P (T + M + )P (M + ) + P (T + M )P (M ) = 0.98 0.1 0.98 0.1 + 0.02 0.9 = 0.844 (P.S. questo è il Teorema di Bayes) Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 34/ 36
Teorema di Bayes Vi è una probabilità a priori che il paziente sia malato (P(M + ) = 0.10). Si conoscono le proprietà del test diagnostico (sensibilità e specificità). Vi è l evidenza sperimentale: il test risulta positivo. Tramite il teorema di Bayes si aggiorna la P(M + ) in P(M + T + ), ottendendo la probabilità a posteriori. P (M + T + ) = P (T + M + )P (M + ) P (T + M + )P (M + ) + P (T + M )P (M ) Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 35/ 36
THE END Liceo Scientifico P. Paleocapa, Rovigo, 10 Aprile 2013 36/ 36