Come modellare il rischio Luigi Santoro Hyperphar Group S.p.A., MIlano
Gli argomenti discussi Le definizioni del termine rischio L utilità di un modello predittivo di rischio Come costruire modelli predittivi Come confrontare modelli predittivi: le curve ROC La validazione di modelli predittivi
Le definizioni del termine rischio Rischio di popolazione: probabilità di un evento sanitario sfavorevole in una data popolazione. Rischio individuale: probabilità che un individuo appartenente ad una data popolazione sviluppi un evento sanitario sfavorevole. Rischio relativo (RR): probabilità di un evento sanitario sfavorevole per un individuo esposto ad un dato fattore rispetto alla probabilità di evento in un individuo non esposto al fattore. Odds ratio (OR): approssimazione del RR. Molto usato nel confronti tra classi di rischio prodotti da modelli predittivi.
Le definizioni del termine rischio Semplici notazioni matematiche: Rischio di popolazione: p=n evento /N Rischio individuale: p e (funzione delle caratteristiche individuali e del modello statistico usato per stimare il rischio) Rischio relativo (RR): p e /p ne Odds ratio (OR): p e /(1-p e ) / p ne /(1-p ne )
L utilità di un modello predittivo di rischio Il modello predittivo è un algoritmo statisticomatematico che permette di valutare: in una data popolazione; prima di un dato intervento; in termini probabilistici, quali soggetto siano a maggior rischio (individuale) di evento. La stratificazione dei pazienti in classi di rischio diverse può essere un supporto per decisioni di tipo clinico, chirurgico, terapeutico
Come costruire modelli predittivi Necessità di garantirsi una sufficiente generalizzabilità del campione (Training Set) su cui costruire il modello predittivo; le variabili predittive devono essere facili da raccogliere (al fine di minimizzare i dati mancanti), clinicamente rilevanti e immediatamente disponibili; calibrare il numero di variabili predittive sulla base del numero totale di eventi osservati; rapporto 10 tra eventi e numero di predittori
Come costruire modelli predittivi In mancanza di questi pre-requisiti il modello perde in accuratezza e validità.
Come costruire modelli predittivi Quali modelli statistici per la stima del rischio? Il modello di analisi discriminante Il modello di regressione logistica
Come costruire modelli predittivi Il modello di analisi discriminante Scopo: definire modalità di assegnazione di nuovi casi a differenti gruppi di rischio in funzione di una serie di variabili predittive; I passi: 1) Scelta di un Training Set, in cui gli esiti sui pazienti (casi e non casi) e le variabili predittive (x 1, x 2,,x n ) sono noti; 2) Definizione di uno score individuale di discriminazione per ciascun paziente: D= b 0 + b 1 x 1 + b 2 x 2 +. + b n x n ; 3) Stima dei coefficienti (b 1,b 2 b n ) della funzione discriminante: metodo dei minimi quadrati; 4) Stima dello score medio di discriminazione D e della relativa SEM per casi e non casi;
Come costruire modelli predittivi Il modello di analisi discriminante Scopo: definire modalità di assegnazione di nuovi casi a differenti gruppi di rischio in funzione di una serie di variabili predittive; I passi: 5) Stima della soglia discriminante (cut-off): media pesata delle due medie di gruppo con pesi pari alla SEM dell altro gruppo (tanto minore è la SEM di un gruppo tanto più la soglia sarà vicina alla media corrispondente); valore che ottimizza sensibilità e specificità; altri metodi; 6) Identificazione delle classi di rischio: BASSO RISCHIO: scores individuali inferiori al cut-off ALTO RISCHIO: scores individuali superiori al cut-off.
Come costruire modelli predittivi I passi successivi: Valutazione della capacità predittiva del modello e della sua utilità : Analisi della proporzione di assegnazione corretta del campione secondo il modello predittivo: Quanti non-casi classificati a basso rischio? Quanti casi classificati ad alto rischio? Validazione del modello.
Come costruire modelli predittivi Il modello di regressione logistica Scopo: definire modalità di assegnazione di nuovi casi a differenti gruppi di rischio in funzione di una serie di variabili predittive; I passi: 1) Scelta di un Training Set, in cui gli esiti sui pazienti (casi e non casi) e le variabili predittive (x 1, x 2,,x n ) sono note; 2) Definizione di una funzione logistica: logit(p)=log(p/(1-p))= b 0 + b 1 x 1 + b 2 x 2 +. + b n x n ; 3) Definizione della probabilità individuale di evento: 1 p = 1+ exp logit( p) 4) Stima dei coefficienti della funzione logistica (b 1,b 2 b n );
Come costruire modelli predittivi Il modello di regressione logistica Scopo: definire modalità di assegnazione di nuovi casi a differenti gruppi di rischio in funzione di una serie di variabili predittive; I passi: 5) Calcolo, per ciascun soggetto, della probabilità individuale di evento; 6) Stima della soglia discriminante (cut-off): valore che ottimizza sensibilità e specificità; valore mediano della probabilità di evento; altri metodi. 6) Identificazione delle classi di rischio: BASSO RISCHIO: probabilità individuale di evento < cut-off ALTO RISCHIO: probabilità individuale di evento > cut-off.
Come costruire modelli predittivi I passi successivi: Valutazione della capacità predittiva del modello e della sua utilità: Analisi della proporzione di assegnazione corretta del campione secondo il modello predittivo: Quanti non-casi classificati a basso rischio? Quanti casi classificati ad alto rischio? Validazione del modello.
Il confronto tra modelli predittivi: le curve ROC (receiving-operator characteristics) Ogni modello predittivo genera per ogni paziente uno score individuale; Per ogni modello si ordinano in senso decrescente gli scores calcolati sul campione di pazienti; Si individua un certo numeri di scores tipici (es: i 9 decili della distribuzione) come cut-off di rischio. In corrispondenza di ogni cut-off: Ogni paziente è classificato a basso rischio se lo score individuale è inferiore al cut-off; ad alto rischio altrimenti si valuta l assegnazione corretta (veri positivi) o scorretta (falsi positivi) dei soggetti classificati ad alto rischio : Veri Positivi: i casi classificati (correttamente) ad alto rischio Falsi Positivi: i non-casi classificati (erroneamente) ad alto rischio ;
Il confronto tra modelli predittivi: le curve ROC (receiving-operator characteristics) Al descrescere del valore soglia considerato, Basso rischio Alto rischio tra i pazienti classificati ad alto rischio, il tasso di incremento dei veri positivi rallenta rispetto a quello dei falsi positivi. Non eventi Eventi VN 84 FN 6 FP 6 90 VP 4 10 90 10 100
Il confronto tra modelli predittivi: le curve ROC (receiving-operator characteristics) In un sistema di assi cartesiani (ascisse: veri positivi; ordinate: falsi positivi) è possibile individuare 10 punti; uniti tra loro i punti generano una curva ROC e delimitano un area sottesa alla curva (AUC, area under curve).
Il confronto tra modelli predittivi: le curve ROC (receiving-operator characteristics) La statistica di sintesi per valutare l accuratezza di un modello predittivo è l area sottesa alla curva (AUC). E possibile confrontare statisticamente due modelli predittivi attraverso il confronto delle AUC.
La validazione di modelli predittivi Validazione interna Confronto tra modelli predittivi costruiti sullo stesso Training Set Validazione esterna Il modello predittivo costruito sul Training Set, deve essere validato su (almeno) un altro campione (Test set), indipendente dal primo. Selezione stesso set di variabili predittive (x 1, x 2,,x n ) ; Applicazione dei coefficienti (b 1,b 2 b n ) individuati nel training set; Applicazione dello stesso cut-off individuato nel training set; Valutazione capacità predittiva. In alternativa: Metodi di ricampionamento dallo stesso training set.
Come modellare il rischio Grazie per l attenzione