Statistica nelle applicazioni sanitarie

Dipartimento di Fisica Scuola di Specializzazione in Fisica Medica A.A. 0/03 Statistica nelle applicazioni sanitarie Maria Roberta Monge: Roberta.Monge@ge.infn.it

Epidemiologia Classica: studia le origini dei problemi di salute nella popolazione. Clinica: studia pazienti sani e malati al fine di migliorare diagnosi, prognosi e terapia di particolari malattie.

Fonti di dati epidemiologici definizioni e misure utilizzate (diagnosi, caso, incidenza, prevalenza, tassi, etc.) MEDICI / EPIDEMIOLOGI!! Noi ci concentriamo sui diversi tipi di studi epidemiologici più frequenti e sulla traduzione del linguaggio classico della Statistica alla Statistica medica.

Tipi di studi epidemiologici Classificazione temporale Studio trasversale: studio condotto su una popolazione in un ben preciso istante. I dati, sia sulla presenza/assenza della malattia sia sull esposizione o meno ad un fattore di rischio sono raccolti contemporaneamente. Non è possibile determinare la corretta relazione temporale causa/effetto. Selettivo per patologie croniche ma non acute.

Studio longitudinale: prevede la sorveglianza continuativa (follow up) su lunghi periodi di tempo per lo studio di tassi di malattia e la relazione della malattia con altre variabili. Classificazione in base al gruppo Studi di coorte Coorte > gruppo di soggetti chiaramente identificato e sottoposto ad osservazione. Dal punto di vista statistico: la coorte può essere considerata un campione estratto da una ben determinata popolazione.

Studi di coorte prospettivi: studi longitudinali di soggetti esposti e non esposti ad un fattore di rischio per lo studio del rischio di malattia partendo dal presente per un certo periodo di tempo. Studi di coorte retrospettivi: la definizione del gruppo di esposti e non esposti al fattore di rischio avviene seguendo i gruppi dal passato al presente per valutare gli esiti dell esposizione. Studi caso-controllo: I gruppi sotto studio sono quello dei casi (soggetti che hanno contratto la malattia sotto studio) e quello dei controlli (soggetti sani). Si studia il rischio relativo di malattia (malattie rare)

Da Jekel-Katz-Elmore Epidemiologia, Biostatistica e Medicina preventiva

NOTA: negli studi di coorte e negli studi caso controllo sono diverse le popolazioni da cui si estraggono le coorti (campioni). Nel primo caso sono popolazioni soggette o non soggette a fattori di rischio per la malattia sotto studio di cui si vanno a vedere gli esiti. Nel secondo, i gruppi sono estratti dalla popolazione dei malati e dei sani rispettivamente. Non è quindi possibile valutare il rischio assoluto.

Studio prospettivo e studio caso controllo (retrospettivo) Fattore di rischio Malati Sani TOTALE Esposti a b a+b Non esposti c d c+d TOTALE a+c b+d na+b+c+d

Studio prospettivo: Si considerano a+b soggetti esposti al fattore di rischio (di cui a si sono ammalati) e c+d soggetti non esposti (di cui c si sono ammalati) e si calcolano i fattori di rischio nei due gruppi. Studio caso-controllo (retrospettivo): Si considerano a+c soggetti malati (casi) e b+d soggetti sani (controlli) e si esaminano i fattori di esposizione nei due gruppi.

Studi retrospettivi e prospettivi

Definizioni Rischio (R): probabiltà che l evento si verifichi in un gruppo omogeneo in un determinato periodo di tempo. Es.: P n n ro malati esposti ( m esposti) P( m non esposti) ro Rischio Attribuibile (RA) : R esposti R non esposti Rischio Relativo o Risk Ratio (RR): RR R ; R esposti non esposti n ro ro n malati non esposti

d c c b a a p p RR d c c p non esposti m P R b a a p esposti m P R non esposti esposti + + + + ˆ ˆ ˆ ) ( ˆ ) ( Calcolo del rischio e del rischio relativo negli studi prospettivi

Determinazione della stima del rischio relativo Per determinare una stima del rischio relativo è conveniente passare ai logaritmi: ln RR pˆ pˆ ln ˆ p ln ˆp ln ˆp ˆ p Infatti, e sono frequenze relative cioè stimatori corretti per la probabilità che, purchè i campioni siano sufficientemente numerosi, potranno essere considerati distribuiti secondo una normale.

Invece il rischio relativo è rapporto fra due probabilità, stimate tramite la proporzione campionaria. Si preferisce come indicatore il logaritmo del loro rapporto in quanto lo stimatore del rapporto tra due probabilità risulta fortemente asimmetrico con una distribuzione che varia tra 0 e, mentre il logaritmo del rapporto varia tra - e ed ha una distribuzione asintoticamente normale per numerosità campionarie inferiori a quelle richieste per la distribuzione asintotica del rapporto.

Per le proprietà delle funzioni di variabili aleatorie, il logaritmo di una frequenza relativa pˆ ha una densità di probabilità con varianza ˆp ( ˆp ) ˆp Var(ln ˆp ) ˆp n np ˆ L approssimazione si ottiene sviluppando in serie di Taylor al secondo ordine la funzione densità di probabilità nell intorno del valore atteso della funzione e considerando per pˆ una distribuzione approssimativamente normale. Ne segue Var [ f ( x) ] f ( μ) 4 [ ] σ + [ f ( μ) ] σ

da cui poiché In conclusione per il rischio relativo si ha ( ) [ ] ( ) ( ) ( ) np p n p p p n p p p p Var ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ln + 4 ( ) n p p p p p ˆ ˆ ˆ ˆ ˆ ; σ μ [ ] [ ] [ ] ( ) ( ) ; p n p p n p p Var p Var RR Var p p p p RR ˆ ˆ ˆ ˆ ˆ ln ˆ ln ln ˆ ln ˆ ln ˆ ˆ ln ln + +

La stima del rischio relativo ad un C.L. fissato risulterà pertanto da z α ln RR ± RR ( ) dove è il coefficiente fiduciario per il C.L. richiesto, considerando che ln RR risulta approssimativamente normale per quanto affermato in precedenza. La stima del rischio relativo RR si ottiene ovviamente passando all esponenziale. z α σ ln

Studio del rischio relativo negli studi retrospettivi Negli studi retrospettivi non è possibile calcolare il rischio assoluto di malattia in quanto non si parte da popolazioni soggette o non soggette ad un certo fattore di rischio ma da popolazioni di sani e malati (studi caso-controllo). Non è possibile inoltre calcolare il RR come definito in precedenza in quanto dipende dalla numerosità del campione scelto come controllo Si studiano in questo caso gli odds e l odds ratio (OR).

Negli studi caso-controllo non è corretto calcolare il RR della malattia fra esposti e non esposti in quanto esso dipende dalla numerosità del campione scelto come controllo. Se infatti si considerasse un altro campione di sani, di numerosità k(b+d), anche mantenendo la proporzione b/d fra esposti e non esposti, si avrebbe: RR [a/(a+kb)]/[c/(c+kd)] (ac+kad)/(ac+kbc) cioè un rischio differente da prima: RR [a/(a+b) ]/ [ c/(c+d) ](ac+ad)/(ac+bc)

Invece il rischio relativo dell esposizione, cioè il rapporto tra la proporzione degli esposti tra gli ammalati e i sani : RR e [a/(a+c) ]/ [ b/(b+d) ] non dipende dalla numerosità del campione scelto come controllo. Nel caso la numerosità del gruppo dei controlli fosse k (b+d), mantenendo costante il rapporto b/d tra esposti e non esposti, si avrebbe lo stesso RR e : RR e [a/(a+c) ]/ [ kb/k(b+d) ]RR e. Negli studi caso-controllo si preferisce utilizzare come indice di connessione fra malattia ed esposizione il rapporto tra gli odds: OR

Definizione di odds e odds ratio Si definisce odds il rapporto tra la probabilità di un evento e la probabilità del suo evento contrario (eventi dicotomici bernoulliani): odds Si definisce odds ratio OR il rapporto tra due odds. p p

Odds e OR di esposizione Odds di esposizione nei casi: P( esposti casi) a a odds a + c casi P( non esposti casi) c Odds di esposizione nei controlli: odds OR di esposizione: a / c OR b / d P a+ c c P( esposti controlli) b+ b d b ( non esposti controlli) d controlli ad bc b+ d d

Esempio Esposizione: fumo Malattia: cancro ai polmoni OR di esposizione ad/bc.5 Cosa significa? Passando dai sani agli ammalati il rapporto tra i fumatori e i non fumatori aumenta del 50%. Oppure il rapporto tra fumatori e non fumatori nei malati è.5 volte il rapporto tra fumatori e non fumatori nei sani.

Odds e OR di malattia Odds di malattia negli esposti: P( malati esposti) a+ a odds a b esposti P( sani esposti) b a b + b Odds di malattia nei non esposti: odds P P ( malati non esposti) c+ c d c ( sani non esposti) d non esposti c+ d d OR di malattia: a / b OR c / d ad bc

Esempio Esposizione: fumo Malattia: cancro ai polmoni OR di malattia ad/bc.5 Cosa significa? Passando dai non fumatori ai fumatori il rapporto tra malati e i sani aumenta del 50%. Oppure il rapporto tra malati e sani nei fumatori è.5 volte il rapporto tra malati e sani nei non fumatori.

OR ha lo stesso valore in entrambi i casi, è un buon indice della connessione tra malattia ed esposizione! Occorre però osservare che, anche se non c è differenza fra i due OR, in uno studio caso-controllo (retrospettivo) non avrebbe senso usare l OR di malattia in quanto gli esposti (o in non esposti) provengono da due gruppi diversi (malati e sani) e quindi i due odds non dipendono dalla malattia studiata o dall esposizione al fattore di rischio considerato, ma dal numero di casi e controlli reclutati. Odds Ratio di esposizione Rischio relativo

Occorre infine osservare che negli studi caso-controllo l OR risulta una buona stima del rischio relativo RR in caso di malattie rare. Infatti, se la malattia è rara, in uno studio longitudinale si dovrebbe avere a ad RR a + OR c b bc c + d in quanto a << b a a + b a b e c << d c c + d c d

Interpretazione dell OR e del RR Se OR (RR) assenza di associazione fra malattia ed esposizione al fattore di rischio. Se OR (RR)< associazione negativa: il fattore considerato può proteggere dalla malattia. Se OR (RR)> associazione positiva: il fattore di rischio considerato può causare la malattia. Valori crescenti indicano associazioni più forti. Prima di dichiarare l esistenza di un rapporto causaeffetto tra il fattore di rischio considerato e la malattia occorre eseguire un test di significatività statistica.

Stima dell OR Essendo anche l odds un rapporto di frequenze relative esattamente come il rischio relativo RR, per la stima possono essere fatte considerazioni analoghe a quanto già visto in precedenza. Le conclusioni sono che la distribuzione del logaritmo naturale di OR è approssimativamente normale e il suo errore standard approssimato vale σ ( ln OR) e quindi per un fissato C.L. la stima risulterà ln OR ± z α σ ( ln OR) Anche per l OR, come per il RR, occorre quindi passare all esponenziale. a + b + c + d

Dipartimento di Fisica Scuola di Specializzazione in Fisica Medica A.A. 0/03 Esercizi sul Rischio Relativo(RR) e Odds Ratio (OR) Prof. Maria Antonietta Penco SMID A.A.004/005 Commentati

Esercizio Un campione di 54 soggetti sani è stato seguito per 5 anni per uno studio di validità del test da sforzo positivo (presenza di anomalie nel tratto ST dell ECG eseguito sotto sforzo) nel predire eventi cardiovascolari (CV). I risultati sono riportati nella seguente tabella iniziale: Sforzo CV + - totale si a b a+b no c d c+d 35 379 54

Le due coorti di soggetti risultati positivi e negativi al test da sforzo vengono seguite per 5 anni per verificare se l evento CV accade o non accade: studio longitudinale predittivo. La tabella dei risultati è la seguente: Sforzo CV + - totale si 3 34 no 4 366 480 35 379 54

La frequenza relativa dei soggetti con evento CV fra quelli risultati positivi al test è: /350.56. La frequenza relativa dei soggetti con evento CV fra quelli risultati negativi al test è: 3/3790.034. a) Questa differenza tra i due gruppi indica una associazione tra il risultato positivo e l occorrenza dell evento CV?

Supponiamo che non ci sia nessuna associazione: si formula allora l ipotesi nulla H 0 : P(m +)P(m -) Si costruisce, stimando attraverso i dati osservati la probabilità P(CV), la tabella delle frequenze attese in base all ipotesi nulla: P(CV)34/54 Sforzo CV + - totale si 35 (34/54)8.93 34-8.935.07 34 no 35-8.936.07 379-5.07353.93 480 35 379 54

Poiché il campione ha numerosità elevata si può fare un test considerando la variabile χ con grado di libertà. Il valore critico della variabile a un livello di significatività del 5% è χ c 3.84 Il valore sperimentale risulta: χ sper3.69 che si determina in base alla formula r c ( teo) n ik nik χsper teo i k nik oppure in base alla formula χ sper n r c n n ik n i k i k

che si ottiene ricordando che dove n e i n k rappresentano i totali marginali di riga e di colonna e la numerosità campionaria totale. Si ottiene pertanto che fa rigettare H 0 oppure n P n teo ik n n i k n χ sper c χ > ( ) χ χ < 0. 00 > sper

In alternativa, si può effettuare un test di significatività sulle differenze tra le frequenze relative di malati risultati positivi al test e malati risultati negativi al test: ( ~ ~ H ) 0 : E P P 0 ~ ~ H : E P P ( ) 0 dove da cui ~ p ~ p ~ p ~ p pos neg 0. 55 0. 034 ~ p ~ p z sp 3. 74> z ~ p ( ~ ) ~ ( ~ p p p ) c + n n ( 0. %)

In entrambi i casi si rifiuta l ipotesi nulla, la differenza osservata di eventi CV tra i soggetti risultati positivi e quelli risultati negativi è significativa per dire che la conoscenza della positività da sforzo implica una connessione con eventi CV.

b) Cerchiamo di stimare l intensità dell associazione tra evento CV e positività al test da sforzo. Trattandosi di uno studio prospettivo, si può determinare il rischio relativo RR come indice dell associazione tra eventi cardiovascolari e positività al test da sforzo.

Confrontiamo la proporzione dei soggetti che presentano l evento CV fra i positivi con la proporzione dei soggetti che presentano l evento CV fra i negativi. Il rapporto tra queste due propozioni è il RISCHIO RELATIVO RR [(a/(a+c) ]/ [(b/(b+d)] [(ab+ad)/(ab+ac) ] Guardando i dati della tabella possiamo scrivere: RR0.56/0.0344.59 Il rischio di occorrenza dell evento CV è risultato circa 5 volte più alto tra chi è risultato positivo al test da sforzo rispetto ai soggetti risultati negativi.

c) Il RR calcolato è una stima campionaria. Per generalizzarlo al prossimo individuo positivo al test da sforzo occorre darne l intervallo di confidenza. Quanto vale? Abbiamo visto che è conveniente passare al logaritmo: lnrrlnp -lnp e V(lnRR)V(lnp )+V(lnp ) ) ( ~ ~ ~ ~ ~ ) (ln ~ c a a c p n q n p q p p V + ) ( ~ ~ ~ ~ ~ ) (ln ~ d b b d n p q n q p p p V +

In definitiva l intervallo sarà dato da : c d lnrr ± z α / a n + b n Cioè: 4 366 ln 4.59±.96 +.5± 35 3 379 0.66

Il limite inferiore è 0.86. Il limite superiore è.8. 0. 86 lnrr 8. Passando all esponenziale si ottiene:. 36 RR 8. 85 L intervallo di confidenza per la stima del rischio relativo sarà pertanto [.36,8.85] ad un CL del 95%. Possiamo concludere che, ad un livello di confidenza del 95%, il rischio di avere un evento cardiovascolare fra i soggetti che risultano positivi al test da sforzo è da.36 a 8.85 volte maggiore del rischio fra i soggetti negativi al test da sforzo.

Esercizio Uno studio effettuato nel 988 da un gruppo di ricerca della Harvard Medical School ha cercato di verificare se l assunzione regolare di aspirina riducesse la mortalità per malattie cardiovascolari. La tabella seguente indica i risultati ottenuti: Malattia cardiovascolare si no Placebo 89 0845 034 Aspirina 04 0933 037 93 778 07

L assunzione regolare di aspirina riduce la mortalità per malattie cardiovascolari? Si ipotizza che la frequenza della malattia nei soggetti che assumono aspirina (A) sia la stessa nei soggetti che assumono un placebo (P) : H 0 :P(m A)P(m P) Si osserva ora se il risultato delle due coorti considerate, una che assume il placebo e l altra l aspirina, è conforme all ipotesi assunta. NOTA: Anche in questo caso si tratta si tratta di uno studio prospettico longitudinale in cui le due coorti vengono seguite per un certo periodo di tempo per stabilire quanti soggetti contraggono la malattia.

La frequenza relativa dei soggetti con evento cardiovascolare fra quelli trattati col placebo è: 89/0340.07. La frequenza relativa dei soggetti con evento cardiovascolare fra quelli trattati con aspirina è: 04/0370.0094. Questa differenza tra i due gruppi indica una associazione tra l assunzione di aspirina e l occorrenza dell evento cardiovascolare?

Si costruisce, in base all ipotesi nulla e stimando attraverso i dati osservati la probabilità P(m), la seguente tabella: Malattia cardiovascolare si no Placebo (93/07) 03446.5 0887.5 034 Aspirina 46.5 0890.5 037 93 778 07 Si fa un test del χ per valutare se le differenza tra le frequenze osservate e le frequenze ipotizzate in base all ipotesi di non associazione tra assunzione del farmaco e evento cardiovascolare siano significative.

Il valore critico della variabile a un livello di significatività del 5% è χ c 3.84 Il valore sperimentale risulta: χ s 5.04 con P ( χ χ ) << 0. 00 > sper Anche in questo caso si può utilizzare un test sulla differenza di proporzioni ottenendo z sp 5 La differenza riscontrata è significativa, si rifiuta l ipotesi nulla, l assunzione regolare di aspirina è associata a una diminuzione di eventi cardiovascolari.

Essendo una studio prospettico longitudinale, per valutare l associazione, si può determinare il rischio relativo RR: RR0.07/0.0094.8 La percentuale di soggetti che hanno avuto un infarto tra chi assumeva il placebo è.8 volte maggiore della percentuale di soggetti infartuati tra chi assumeva regolarmente l aspirina.

Ma la probabilità di un evento cardiovascolare stimata dalle frequenze campionarie è molto bassa: In tal caso : P RR ~OR Infatti il rischio relativo, cioè il rapporto tra la proporzione degli infartuati tra chi assume il placebo e chi l aspirina risulta: RR{[a/(a+b)]/[c/(c+d)](ac+ad)/(ac+bc)}~ad/bc in quanto ac risulta trascurabile rispetto agli altri termini. ac89 04~ 0 4 OR(a/b)/c/d)ad/bc ad 89 0933~ 0 6 bc 0845 04~ 0 6 93 07 ( CV ).3 % OR.83 RR ~ OR.83

Occorre notare che l OR calcolato è l OR di malattia cioè il rapporto degli odds di malattia di esposti e non esposti: Odds esposti a/b Odds non esposti c/d Questo perchè lo studio è longitudinale prospettico e quindi le coorti considerate sono quelle degli esposti e dei non esposti, in questo caso coloro che hanno assunto il placebo e coloro che hanno assunto aspirina.

Si può generalizzare il risultato dello studio al prossimo soggetto che assume regolarmente aspirina attribuendogli la stima: RR±z α/ σ(rr) Sia p a/a+b e p c/c+d lnrrlnp -lnp e V(lnRR)V(lnp )+V(lnp ) V(lnp )q /(p n )b/(a (a+b)); V(lnp )q /(p n )d/(c (c+d) V(lnRR) b/(a (a+b)) + d/(c (c+d)0.005+0.00950.047 σ(lnrr)0. lnrr0.598±.96 0.

In definitiva per un CL del 95%: lnrr ±.96 σ(rr)0.598±0.38 Il limite inferiore è 0.360. 0.360 ln RR 0.836 Il limite superiore è 0.836 Passando all esponenziale si ottiene:.43 RR L intervallo per RR sarà [.43,.3] ad un CL del 95%..3 Possiamo concludere che, a un livello di confidenza del 95%, il rischio di avere un evento cardiovascolare è da.43 a.3 volte maggiore fra i soggetti che non assumono aspirina che fra i soggetti che la assumono regolarmente.

Se si considera invece l odds ratio OR: OR±z a/ σ(or) Sia ODDS placeb oa/b e ODDS aspirina c/d ORad/bc L errore standard di ln(or) è σ(lnor) [(/ a + /b + /c + /d) ] / σ(lnor)0.3 ln.83±.96 0.3 lnor0.605±0.4.44 OR.33

Stima al 95% di CL della differenza delle probabilità di avere un evento cardiovascolare nei due casi: p -p ±z a/ s(p -p) dove p a/(a+b) è la stima di P(CV/placebo) e p c/(c+d) la stima di P(CV/aspirina) V(p -p )p q /n +p q /n.53 0-6 +0.85 0-6.38 0-6 σ (p -p ).54 0-3 p 0.07; p 0.0094 p -p 0.0077 ; z α/.96 p -p ±z α/ σ(p -p)0.008 ±0.003

Esercizio 3 Si vogliono studiare gli effetti di un certo contraccettivo orale sull infarto del miocardio. Vengono inserite nello studio donne sposate sotto i 45 anni : 58 ricoverate per infarto del miocardio (casi), 66 ricoverate nello stesso ospedale per altre patologie (controlli). E uno studio retrospettivo caso-controllo. Infarto del Miocardio Contraccetivo si no Totali Uso a b a+b Non uso c d c+d Totali 58 66 4

A tutte si chiede se prendono contraccettivi orali. Questa è la tabella delle risposte : Infarto del Miocardio Contraccettivo si no Totali Uso 3 34 57 Non uso 35 3 67 Totali 58 66 4 Ci si chiede dati gli effetti (infarto) se la causa può essere l assunzione del farmaco. N.B. Possiamo indicare chi usa il farmaco come esposti in quanto l esposizione indica la presenza di un fattore che può (ipoteticamente) causare un certo effetto.

Come prima cosa verifichiamo se i dati ottenuti possono essere significativi per una differenza rispetto all uso del farmaco (f) fra i due gruppi di malati (casi) e sani (controlli) o se le eventuali differenze sono solo fluttuazioni statistiche. Formuliamo l ipotesi nulla H 0 : P(f m)p(f s)p(f) Si può, come negli esempi precedenti, considerare la tabella di contingenza e fare un test di significatività del χ con ν ( g.d.l.) oppure fare un test sulle differenze di frequenze relative.

~ P ~ P ( f m) ( f s) 3/58 0.40 34/66 0.0 0.40 0.0 z sp.80>.575 z 0.40 0.60 0.0 0.80 c + 58 66 ( % ) Utilizzando invece la tabella di contingenza facendo un test di significatività del χ con ν si ottiene: ( > ) < % χ 8.3; υ sper 0.% < P χ χsper Il risultato trovato è lo stesso del precedente in cui si trova un livello di significatività dello 0.5%.

In entrambi i casi i dati risultano significativi per una differenza fra i due gruppi di malati e sani e quindi esiste una associazione fra l uso del farmaco e l insorgere di eventi di infarto del miocardio. Questo è uno studio caso-controllo, si conoscono gli effetti (infarto) e si vuole determinare se un farmaco può esserne considerato la causa.

-Possiamo considerare la frequenza dei malati tra chi assume il farmaco 3/570.40 come una stima della probabilità di malattia fra i soggetti che assumono il farmaco P(m F)? -Possiamo considerare la frequenza dei malati tra chi non assume il farmaco 35/670. come una stima della probabilità di malattia fra i soggetti che non assumono il farmaco P(m nonf)? 3-Possiamo fare il rapporto tra i due valori per stimare uguale a 0.4/0..9, cioè circa il doppio, la probabilità di avere l infarto per chi assume il farmaco rispetto a chi non l assume?

La stima di P(m F)P(m F)/P(F) risulta 3/570.40. La stima di P(m nonf)p(m nonf)/p(nonf) risulta 35/670.. La stima del RR risulta ora 0.58/0.35.66: il RR si modifica. La stima del RR risulta 0.4/0..9 Supponiamo ora di considerare come controlli un gruppo di 83 persone ma che mantenga al suo interno la stessa proporzione di soggetti che assumono o no il farmaco, b/(b+d) 0.0 e d/(b+d)0.80 vale a dire b7 e d66. La stima di P(m F)P(m F)/P(F) risulta ora 3/400.58, differente da prima. La stima di P(m nonf)p(m nonf)/p(nonf) risulta 35/00.35, anche in questo caso differente.

Ha senso cercare il rischio incidente? NO! Il numero di malati è già noto. Potremmo confrontare la percentuale degli esposti fra i casi e fra i controlli, cioè: P(f m)/p(f s)(a/(a+c))/((b/(b+d))a(b+d)/b(a+c) ma come abbiamo visto il valore del rapporto dipende dalla numerosità (b+d) del gruppo dei controlli. Confrontiamo allora gli odds dell esposizione fra i casi e i controlli.

Studio retrospettivo, detto anche caso-controllo. In questo caso non si calcola RR ma l OR di esposizione. Odds casi a/c 3/35 ; Odds controlli b/d 34/3 OR Odds casi / Odds controlli ad/bc (3/35)/(34/3).55 L OR di malattia, usato correttamente nell esempio precedente, anche se in questo caso è meno corretto concettualmente perchè dipende dal numero di casi e controlli reclutati e non dalla malattia o dal fattore di esposizione, fornisce lo stesso risultato numerico.

Essendo OR> si ha una associazione positiva, cioè l assunzione del farmaco può essere considerato causa di malattia. I valori di OR dipendono dalla posizione delle righe e delle colonne. Invertendo le righe si ottiene: OR 35 34/3 3 0.39 dove OR /OR E quindi importante ricordare la definizione di OR di esposizione e non utilizzare la formula mnemonica basata sulla posizione delle righe: OR.55 è l OR di esposizione, mentre OR 0.39 è l OR di sopravvivenza.

Da quanto appena detto, si deduce una importante proprietà dell OR, la proprietà di invertibilità: l OR di esposizione è il reciproco dell OR di sopravvivenza. Questa proprietà non vale invece per il rischio relativo RR: il valore di RR di malattia non è il reciproco di RR di sopravvivenza. Consideriamo il logaritmo di OR ln(or): ln(or)0 indipendenza Invertendo le righe si ottiene da ln(or) lo stesso grado di associazione ma segno opposto a seconda che si consideri l OR di esposizione o l OR di sopravvivenza: ln.550.94 mentre ln0.39-0.94

Ulteriori considerazioni su RR e OR I valori di RR e OR visti finora si riferiscono a calcoli su tabelle di contingenza cioè su dati crudi dello studio. Questo significa che il fenomeno viene studiato su tutto il follow up, senza tenere conto del suo andamento temporale che in alcuni casi può essere differente in momenti diversi del follow up stesso. Volendo tenere conto dell andamento temporale, occorre usare metodi diversi. In questo contesto si sviluppano gli studi di sopravvivenza.

Studi di sopravvivenza Questi studi statisitici in Medicina e in Biologia si occupano dell evoluzione temporale dei sistemi fino all evento morte o malattia. Sono in effetti studi basati su concetti molto generali di Statistica, che si applicano anche in Ingegneria per lo studio dei guasti e della durata di dispositivi (teoria o analisi dell affidabilità) o in Economia/Sociologia nelle analisi dei modelli di durata. Sono basati sul concetto di durata di vita (lifetime), funzione di sopravvivenza (survival function) e funzione di rischio (hazard function) che negli altri contesti assumono nomi diversi.

Definizioni Durata di vita: è una variabile aleatoria nonnegativa T che rappresenta la durata a partire dal tempo t0 prima del verificarsi dell evento considerato (malattia o morte). Densità di durata: è la densita di probabilità f(t) della v.a. T. Funzione di sopravvivenza: probabilità che l evento considerato si verifichi dopo l istante t: S(t)P(T>t). Si ha -S(t) P(T t)f(t) dove F(t) è la funzione cumulativa della v.a. T. Funzione di rischio: rappresenta la probabilità condizionata di durata fino ad un infinitesimo dt dopo t, essendosi già avuta una durata fino a t: H(t)P[(t<T t+dt) (T>t)]

Λ Si ha: H t () P[ ( t < T t + dt) ( T > t) ] f () t f () t t f S S ( x) () t () t Infatti f dx t f ( x) dx f ( x) 0 0 [ ln( S() t )] F t t t f F dx () t () t S t f S () t () t () t F () t ( S() t ) S () t () t ln[ S() t ] èdetta funzione cumulativa di rischio.

Si definisce durata di vita media o vita media il valore atteso della v.a. T: τ ( T) t f () t dt S()dt t E 0 L ultima uguaglianza si ottiene integrando per parti ricordando che f t S t ( ) ( ) e che solitamente S(t) tende a zero più rapidamente di quanto t cresca. 0

Si definisce durata di vita futura ad un dato istante t 0 il tempo che resta prima dell evento considerato cioè la v.a. T-t 0. La probabilità dell evento considerato prima di t+t 0 data la sopravvivenza fino a t 0 è ( t + t T > t ) P T 0 0 ( ) 0 < T t0 + t P( T > t ) P t Ne segue d F( t ) ( ) 0 + t F t 0 f t0 + t dt S( t ) ( ) 0 S t0 0 ( ) F ( t ) ( ) 0 + t F t0 S( t ) 0 e E ( futurelifetime ) S( t ) 0 0 t f ( t + t) 0 dt S ( t ) 0 t 0 S()dt t