STATISTICA ED EPIDEMIOLOGIA



Documenti analoghi
1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Inferenza statistica. Statistica medica 1

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Corso di. Dott.ssa Donatella Cocca

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Il concetto di valore medio in generale

Statistiche campionarie

Metodi statistici per le ricerche di mercato

Misure della dispersione o della variabilità

Indici di dispersione

VERIFICA DELLE IPOTESI

Principi generali. Vercelli 9-10 dicembre G. Bartolozzi - Firenze. Il Pediatra di famiglia e gli esami di laboratorio ASL Vercelli

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

Indici (Statistiche) che esprimono le caratteristiche di simmetria e

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

LA CORRELAZIONE LINEARE

Calcolo delle probabilità

Concetto di potenza statistica


Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Elementi di Psicometria con Laboratorio di SPSS 1

SPC e distribuzione normale con Access

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Elementi di Epidemiologia

Elementi di Psicometria con Laboratorio di SPSS 1

ANALISI DELLE FREQUENZE: IL TEST CHI 2

LE CARTE DI CONTROLLO (4)

La distribuzione Normale. La distribuzione Normale

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Elementi di Psicometria con Laboratorio di SPSS 1

E naturale chiedersi alcune cose sulla media campionaria x n

4 3 4 = 4 x x x 10 0 aaa

Elementi di Psicometria con Laboratorio di SPSS 1

Igiene. Dott. Pamela Di Giovanni. Definizione

ESERCITAZIONE. CdL Fisioterapia e Podologia. 25 novembre 2015

Probabilità discreta

1. Distribuzioni campionarie

Analisi di dati di frequenza

Test statistici di verifica di ipotesi

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

Tasso di interesse e capitalizzazione

Igiene nelle Scienze motorie

A.A Obiettivi formativi del CI di Metodologia epidemiologica OBIETTIVO GENERALE

Statistica. Lezione 6

Facoltà di Psicologia Università di Padova Anno Accademico

STATISTICA IX lezione

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

La significatività PROVE DI SIGNIFICATIVITA PROVE DI SIGNIFICATIVITA PROVE DI SIGNIFICATIVITA

ESERCIZI DI STATISTICA DESCRITTIVA

La logica statistica della verifica (test) delle ipotesi

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

IL RISCHIO D IMPRESA ED IL RISCHIO FINANZIARIO. LA RELAZIONE RISCHIO-RENDIMENTO ED IL COSTO DEL CAPITALE.

PROBABILITÀ E DECISIONI IN MEDICINA: I TEST DIAGNOSTICI

DATI NORMATIVI PER LA SOMMINISTRAZIONE DELLE PROVE PAC-SI A BAMBINI DI INIZIO SCUOLA PRIMARIA 1

SISTEMI DI NUMERAZIONE E CODICI

Tabella iniziale con i dati. Malattia Malati Non malati Totale Test Positivo 183 Negativo 280 Totale Calcolo i valori mancanti per differenza

I punteggi zeta e la distribuzione normale

l'insieme di tutti i casi esistenti in un determinato momento ed in una

OSSERVAZIONI TEORICHE Lezione n. 4

Corso di Psicometria Progredito

LA VALIDITÀ DEGLI STUDI E IL CONTROLLO DEL CONFONDIMENTO

Facciamo qualche precisazione

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995).

Capitolo 13: L offerta dell impresa e il surplus del produttore

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

PROGETTO INDAGINE DI OPINIONE SUL PROCESSO DI FUSIONE DEI COMUNI NEL PRIMIERO

Gli studi caso. controlli. Obiettivi. Stime del rischio. Ne deriva la Tabella 2x2

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

LE FUNZIONI A DUE VARIABILI

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

La distribuzione Gaussiana

Corso: Statistica e Metodologia Epidemiologica 1

Il ragionamento diagnostico TEST DIAGNOSTICO. Dott.ssa Marta Di Nicola. L accertamento della condizione patologica viene eseguito TEST DIAGNOSTICO

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

11. Analisi statistica degli eventi idrologici estremi

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

Slide Cerbara parte1 5. Le distribuzioni teoriche

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R

Il confronto fra proporzioni

Analisi e diagramma di Pareto

Servizi di consulenza specialistica per IGRUE

Statistica inferenziale

3. Confronto tra medie di due campioni indipendenti o appaiati

Seconda Parte Specifica di scuola - Statistica sanitaria e Biometria - 31/07/2015

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

Un gioco con tre dadi

Alessandro Pellegrini

Basi di matematica per il corso di micro

Carte di controllo per attributi

Ufficio Scolastico Regionale per l Abruzzo. Rapporto dal Questionari Studenti

APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE

8 Elementi di Statistica

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

Metodi statistici per le ricerche di mercato

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria. Statistica descrittiva

Capitolo 12 La regressione lineare semplice

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

Prova di autovalutazione Prof. Roberta Siciliano

Transcript:

STATISTICA ED EPIDEMIOLOGIA Non tutto ciò che è pubblicato è affidabile: spesso ci sono grandi sponsor, come le case farmaceutiche, che incidono e le riviste scientifiche sono più propense a pubblicare anche articoli non del tutto corretti o veritieri. Per questo è importante imparare a valutare da soli i dati che vengono proposti dagli studi, per poter tirare delle conclusioni indipendenti da quelle degli autori. SCALE DI MISURA scala nominale = rileva solo differenze o uguaglianze, per variabili che non hanno nessuna relazione matematica, ad es. sesso, gruppo sanguigno, ecc. scala ordinale = rappresenta differenze o uguaglianze, ma anche rapporti di inferiorità/superiorità, ad es. grado di gravità di una certa malattia scala numerica discreta = differenze, uguaglianze e rapporti di inferiorità/superiorità, sono variabili con enumerazione che non consentono decimali, es. numero di figli per donna (non è corretto dire che in Italia le donne hanno in media 1,5 figli) Queste tre scale di misura non consentono di fare la media. scala numerica continua = si tratta di valori con unità di misura, rappresentati da numeri che possono avere infiniti decimali, sono il risultato di misure, è possibile fare la media eccezione: le misure di intervallo non consentono di fare calcoli come rapporti ad es. la temperatura in C o F non è un valore assoluto, ma relativo ad un intervallo (i K sono assoluti) => non si può dire che 20 C sia una temperatura doppia di 10 C! misure di rapporto: quando si usano più unità di misura diverse e serve un fattore di conversione scala di intervallo di classe = è simile alla ordinale, si considera il numero di valori entro un determinato intervallo (es. n di persone con altezza fra 160 e 165 cm). Apparentemente simile alla scala ordinale, ma più attendibile perché basata su misure per ogni intervallo di classe si può calcolare una media, ma non è corretto fare una media delle medie MISURE DI SINTESI indicatori di tendenza centrale = rappresentano l'andamento generale (centrale) delle misure o delle modalità rilevate, utilizzabili solo con misure in scala numerica omogenea media (μ) = somma dei valori divisa per l'effettivo mediana = si ottiene ordinando in maniera crescente i valori, è quello che sta a metà e che divide il campione in due gruppi di egual numero (la metà saranno inferiori, la metà superiori) corrisponde al 2 quartile, al 50 percentile, ecc. se i valori sono pari la mediana è stimata in genere con la media aritmetica dei due valori centrali moda = il valore più rappresentato nel campione indicatori di variabilità = misura della dispersione di una distribuzione di misure e determina il grado in cui una singola misura è rappresentativa della popolazione, utilizzabile per misure in scala numerica continua deviazione standard (σ) = scostamento medio delle singole misure dalla media scarto = deviazione del singolo valore dalla media (positivo o negativo) = x - μ devianza = somma del quadrato degli scarti varianza = devianza / effettivo (così non dipende più dal numero dei valori) deviazione standard = radice quadrata varianza (per riportarlo all'unità di misura iniziale) intervallo interquartile = quell'intervallo che sta tra il primo e il terzo quartile: rappresenta il 50% dei valori più vicini alla mediana quantili = valori che dividono il campione in n parti contenenti lo stesso numero di valori quartile = il campione è diviso in 4 parti contenenti lo stesso numero di valori (ordinati in maniera crescente), quindi avremo il 1 quartile che dividerà il primo 25% dei valori dal secondo 25%; il 2 quartile dividerà il primo 50% di valori dal secondo 50% (è la mediana); il 3 quartile dividerà il primo 75% dei valori dall'ultimo 25% => l'ampiezza degli intervalli non è costante si usano anche terzili, decili, percentili (questi ultimi soprattutto in pediatria per valutare la crescita dei bambini, considerata nella norma quando sta tra il 10 e il 90 percentile) range o campo di variazione = differenza tra campione massimo e campione minimo un lavoro che fornisce solo la media dei valori e il range è poco significativo in quanto potrebbe avere una grande dispersione indicatori di numerosità = conteggio delle misure effettuate (totale, detto effettivo)

frequenze assoluta = numero di casi che rappresentano una certa caratteristica (non è indicativa) relativa = assoluta/effettivo percentuale = rapportata a 100 => utile per confronti con altri studi relativa modale = quando le categorie sono molto numerose si individua una categoria modale, che è la modalità o il rango che si presenta con la massima frequenza (è una ulteriore sintesi). Serve per sottolineare i risultati positivi. E' necessario fornire sempre l'effettivo. indici di eterogeneità = ci dicono quanto eterogeneo è il campione rilevato, ne esistono tanti indice di Gini [0-1] 0 = totalmente omogeneo (quando ognuna delle categorie è egualmente rappresentata, non c'è variabilità) in un campione statistico si cerca l'omogeneità 1 = totalmente eterogeneo (frequenza relativa diversa per ogni categoria) è il rapporto tra eterogeneità rilevata e eterogeneità massima possibile (es. per 2 classi ognuna può avere al massimo il 50% dei valori, per 3 classi il 33,3%, ecc.) La scelta degli indicatori più idonei al caso è essenziale per una sintesi veramente completa e corretta dei fenomeni misurabili, ogni volta vanno utilizzati almeno un indicatore di tendenza centrale, uno di variabilità, uno di numerosità tenendo presente lo scopo per cui la sintesi viene fatta e il tipo di distribuzione che hanno i dati. Coefficiente di variazione = rapporto tra deviazione standard e media = se supera il 30% indica che la distribuzione delle misure non è normale. Rappresentazione grafica carattere in scala nominale => grafico a torta carattere in scala ordinale => grafico a barre separate carattere quantitativo discreto => grafico a bastoni carattere quantitativo continuo => grafico a barre unite o istogramma

PROCEDIMENTI DI STIMA In medicina si è soliti valutare i parametri normali in base a stime, ovvero ad una stima approssimata della tendenza centrale (es. del BMI) nella popolazione normale. Questo si fa attraverso campioni (ovviamente non è possibile misurare tutta la popolazione!). Stima = conoscenza approssimativa o parziale di un fenomeno Misura = conoscenza esatta e riproducibile (il più possibile) di un fenomeno, ottenuta rapportandolo alla sua unità di misura Conoscere per campionamento è come valutare lo stato di un tessuto osseo da una biopsia. Resta sempre l'incertezza di aver utilizzato un campione non rappresentativo, anche se più è numeroso e più probabilmente sarà rappresentativo. Statistica inferenziale = quella che dallo studio di un campione riporta i dati ottenuti a tutta la popolazione CENNI DI CALCOLO COMBINATORIO Probabilità = la probabilità di un evento è data dal rapporto fra il numero di casi favorevoli al suo verificarsi e il numero di casi possibili supposti tutti ugualmente possibili probabilità di fare 6 con un dado = 1/6 = 0,166666 = 16,67% Probabilità complementare = negli eventi di tipo si/no (o si fa 6 o non lo si fa, quindi si fa 1, 2, 3, 4 o 5) la probabilità che accada l'evento deve essere il complemento di 1 della probabilità che non accada probabilità di non fare 6 con un dado = 1-1/6 = 1-0,166666 = 0,833333 Intersezione di probabilità = la probabilità che accadano contemporaneamente due eventi tra loro indipendenti è data dal prodotto delle probabilità dei due eventi separatamente considerati probabilità di fare 12 con due dadi = 1/6 * 1/6 = 0,0277777 = 2,78% Unione di probabilità = la probabilità che accadano o l'uno o l'altro di più eventi tra loro indipendenti è data dalla somma delle probabilità degli eventi separatamente considerati probabilità di fare 8 con due dadi = somma delle probabilità di farlo con le varie combinazioni (sono 6 combinazioni, es. 6+2) = (1/6*1/6)*6 = 0,166666 = 16,67% In medicina non possiamo mai supporre i casi possibili tutti ugualmente possibili! Quindi in medicina e epidemiologia si utilizza la probabilità empirica, che si basa sulla raccolta di una precedente casistica, nella quale la frequenza relativa di un evento si avvicina alla sua probabilità tanto più quanto più numerosi sono i casi raccolti. Frequenza relativa = rapporto tra il numero degli eventi avvenuti nei casi osservati e il totale dei casi osservati In medicina questi eventi possono essere ad esempio: la guarigione, la morte, il contagio, ecc.. Quindi utilizziamo come probabilità empirica la frequenza relativa e le due si avvicineranno di più quanto più grande è il numero di casi osservati. [vedi esempi pag. 48-49] LA CURVA DI GAUSS E LA NORMALE STANDARDIZZATA La curva di Gauss è una funzione matematica che, nella sua parte centrale, ben si adatta a descrivere fenomeni quantitativi di tipo biologico (es. grafico dell'altezza della popolazione). Nella formula [vedi libro], dalla quale si ottiene la frequenza (e quindi la probabilità) del verificarsi di una determinata misura, si vede come le variabili sono la media, la deviazione standard e la misura stessa. Sostanzialmente la probabilità di avere una certa misura dipende da quanto quella misura è lontana dalla media, in rapporto alla variabilità del fenomeno misurato. Nella distibuzione normale moda, media e mediana coincidono. Standardizzazione della curva di Gauss 1) si pone μ (media) = 0 se poniamo la misura della media come origine degli assi (quindi equivalente allo zero) saranno gli scarti (x-μ) ad essere visualizzati nel grafico 2) si pone σ (deviazione standard) = 1 si rapportano gli scarti alla deviazione standard (σ) => la deviazione standard diventa l'unità di misura e quindi tutto sarà riferito a questa Scarto standardizzato = Z i = (x i - μ) / σ in questo modo riusciamo a capire quanto uno scarto è grande rispetto alla deviazione standard (la media degli scarti) Z = 0 se il valore corrisponde a μ Z = 1 se il valore corrisponde a μ + 1 σ Z = - 1 se il valore corrisponde a μ - 1 σ Z = 2 se il valore corrisponde a μ + 2 σ ecc.

Per ogni misura standardizzata esistono apposite tavole che ci consentono di conoscere la probabilità che ha quella certa misura (convertita in scarto standardizzato) di verificarsi nella popolazione. Prodotti notevoli della normale standardizzata il valore medio (μ) ha una probabilità minore del 40% di verificarsi (0,3989%) nell'intervallo tra μ +/- 1σ si hanno più del 68% di probabilità che si verifichi una misura (68,27%) nell'intervallo tra μ +/- 2σ si hanno più del 95% di probabilità che si verifichi una misura (95,45%) nell'intervallo tra μ +/- 3σ si hanno più del 99% di probabilità che si verifichi una misura (99,73%) * * * * * IL CAMPIONAMENTO Universo dei dati = insieme di tutte le informazioni possibili in una data popolazione Campione = sottoinsieme dell'universo Il campione statisticamente significativo inoltre deve avere la seguenti caratteristiche: deve rappresentare l'universo e quindi deve essere possibile inferire dal campione all'universo con errore inferiore al 5%, ciò significa che è raccolto in modo unbiased (senza pregiudizio ne inclinazione) portando il campione dentro o fuori dall'universo la media dei valori dell'universo non deve cambiare (inferire deriva da in-fero = porto dentro, in latino) i "valori normali" degli esami di laboratorio sono intesi come valori medi stimati su campioni di popolazione sana al livello di confidenza del 95% (salvo diversa indicazione) Il campione è significativo per un dato parametro per cui è stato scelto, non è corretto utilizzarlo per qualsiasi altro parametro che potremmo avere a disposizione. Per questo non è facile trovare un campione statisticamente significativo, che deve essere scelto secondo le seguenti indicazioni: 1) scelto in modo random => tutti i soggetti hanno la stessa probabilità di essere estratti 2) omogeneo 3) sufficientemente numeroso 1. Scelta di un campione randomizzato Un campione randomizzato sarebbe quello composto da individui di una popolazione scelti a caso che hanno la stessa probabilità di essere scelti. In realtà in medicina questo è impossibile perché il numero di casi in genere è ridotto, quindi quando si è estratto un caso il numero di persone che possono essere scelte si è abbassato di 1 e le probabilità di scelta successive diventano sempre maggiori. Possibilità di campionamento in medicina: Campionamento probabilistico = estrazione random da un gruppo con determinate caratteristiche Campionamento per immissione successiva = ogni volta che si verifica un caso lo si aggiunge al campione Campionamento con randomizzazione ristretta Campionamento a blocchi permutati Randomizzazione asimmetrica Campionamenti a cluster o a grappolo = campionamento all'interno di più gruppi (es. tra operai di diverse fabbriche) Campionamento sistematico 2. Scelta di un campione omogeneo Un campione sarebbe perfettamente omogeneo se le uniche differenze tra gli individui fossero date dal parametro studiato. Gli esseri umani sono molto disomogenei (molto variabili sotto tanti aspetti) => bisogna tener conto delle varie stratificazioni dell'universo e cercare di rappresentarle proporzionalmente tutte (più sono e più è difficile farlo). Bisogna scegliere quali categorie tener presenti: tutte quelle influenti e nessuna di quelle superflue (per non avere strati troppo numerosi). 3. Scelta di un campione sufficientemente numeroso E' necessario scegliere un campione sufficientemente numeroso, il che non significa il più numeroso possibile (determinerebbe una spesa enorme per la ricerca).

Viene calcolato sulla base di: cosa si vuole dimostrare che livello di errore alfa si accetta (considerata l'importanza della ricerca) che livello di errore beta si accetta (considerata l'importanza della ricerca e i costi) se si vogliono paragonare tra loro due o più trattamenti bisogna valutare quale sia la minima differenza clinicamente rilevabile in funzione della variabilità del fenomeno Errori che riguardano la scelta di un campione possono essere relativi a: validità interna = misura di quanto i risultati di uno studio sono corretti per il campione di individui che sono stati studiati la scelta errata del gruppo di confronto compromette la validità interna (non deve essere scelto in maniera "comoda") una stratificazione non corretta compromette la validità interna (si potrebbe non tener conto di caratteristiche che influenzano i risultati) una numerosità troppo diversa nei gruppi allo studio può alterare l'efficacia delle formule statistiche validità esterna = gradi di generalizzabilità delle conclusioni tratte da uno studio può essere compromessa da molti fattori, ad es. dal fatto che i pazienti entrati a far parte di un trial clinico hanno accettato di farlo perché sono probabilmente più colti di altri, più attenti alla propria salute, ecc. => è meno generalizzabile => spesso i trial clinici sono più ottimistici di quanto non dovrebbero L'analisi per sottogruppi e la ricerca di end-point secondari sono gli errori più gravi e meno controllabili, spesso sono utilizzati per poter produrre uno studio anche se l'end-point primario della ricerca non è andato a buon fine. * * * * * STIMA DELLA TENDENZA CENTRALE DI UN UNIVERSO DI MISURE Dobbiamo stimare la media aritmetica di un universo di misure da un campione. La media calcolata su un campione ha un errore rispetto a quella dell'universo, che deve essere il più piccolo possibile. Se prendiamo tutte le medie possibili fatte dai campioni possibili otteniamo un andamento simil-gaussiano, secondo una curva a campana che tende ad essere più alta e stretta (leptocurtica) di quella gaussiana. Ora l'indice della dispersione da utilizzare è: errore standard = σ / radice di n (n = effettivo) deviazione standard della distribuzione delle medie dei campioni Intervalli di confidenza (I.C.) nell'intervallo tra μ +/- 1,96 e.s. (detto stima intervallare) si ha il 95% di probabilità che in tale intervallo cada la media universale quindi significa che abbiamo una fiducia (o confidenza) al 95% che quell'intervallo sia giusto e il 5% che sia sbagliato nell'intervallo tra μ +/- 2,58 e.s. (detto stima intervallare) si ha il 99% di probabilità che in tale intervallo cada la media universale Esempio: Abbiamo un campione di 100 neonati con una media di peso alla nascita di 3,1 kg, errore standard = +/- 0,023kg Si può ritenere questa media come rappresentativa per la popolazione di tutti i neonati? Calcolando l'intervallo di confidenza al 95% ottengo: IC = 3,1 +/- (1,96*0,023) => significa che ho una fiducia al 95% che il peso dei neonati alla nascita stia tra 3,145kg e 3,055 kg => pertanto posso ritenere che questa media sia rappresentativa. Stima intervallare = quella basata su un intervallo => si utilizza con intervallo di confidenza al 95% o al 99% in medicina => può risultare sbagliata nel 5% o nel 1% dei casi per errore alfa Stima puntuale = quella basata su un solo punto nell'asse cartesiano (dai valori notevoli della gaussiana si evince che avrebbe fiducia al 40% => potrebbe essere sbagliata al 60% => non viene utilizzata in medicina Più l'errore standard è piccolo più il campione si avvicina ad una stima puntuale, viceversa più è grande più parleremo di stima intervallare. Gradi di libertà = numero di variazioni indipendenti di un insieme di misure per l'universo è dato dall'effettivo (n) = ogni soggetto rappresenta una variazione indipendente per un campione utilizzato per stimare la media dell'universo è: n-1 in caso di variabili in scala continua, perché la media diventa un dato fisso e quindi sono sufficienti n- 1 misure per conoscerle tutte numero di categorie 1 in caso di variabili nominali Ha senso calcolarli quando la numerosità del campione o del numero di categorie è piccola, perché in questi casi la curva da utilizzare non è più la normale standardizzata.

Campioni poco numerosi Se n < 30 si deve utilizzare la curva di Student, che è diversa dalla normale standardizzata: più platicurtica (bassa e larga) più influenzata dalla numerosità campionaria (più è grande l'effettivo più assomiglia alla gaussiana) i valori moltiplicativi dell'errore standard per ottenere intervalli di confidenza al 95% e 99% non sono fattori fissi: sono più grandi per gradi di libertà piccoli (n-1) => l'intervallo è più largo es. per 5 gradi di libertà, ovvero con 6 elementi *2,571 => 95% * 4,032 => 99% es. per 30 gradi di libertà, ovvero con 31 elementi *2,0423 => 95% *2,7500 => 99% con numero di gradi di libertà che tende all'infinito i valori sono quelli della curva di Gauss * * * * * STIMA DELLA FREQUENZA MEDIA PER EVENTI MUTUAMENTE ESCLUSIVI (normalmente frequenti e per campioni molto numerosi) Fenomeni mutuamente esclusivi = quando ci sono più possibilità, ma non possono verificarsi contemporaneamente: quando si verifica una le altre non possono verificarsi. Es. lancio di una moneta: può dare testa o croce (una delle due possibilità esclude l'altra). Fenomeno mutamente esclusivo = che può verificarsi o meno, senza altre possibilità (es. la mortalità). La frequenza relativa dell'evento può essere considerata come stima puntuale della probabilità di verificarsi (p) purché: la frequenza relativa di uno dei due eventi (si/no) sia compresa tra 0,1 e 0,9 la numerosità campionaria tenda a infinito o comunque sia >30 (>100 per altri autori) Quindi errore standard = radice di (p*(1-p)/n) e se ci sono le suddette condizioni si possono usare i valori della curva di Gauss per calcolare gli intervalli di confidenza. Per campioni poco numerosi Se ci sono le seguenti condizioni: la frequenza relativa è < 0,1 o > 0,9 n non è molto elevato (<30 o <100 secondo altri autori) l'errore standard non si distribuisce come la gaussiana, ma seguendo un altro tipo di curva: la binomiale. E' ovvio che con campioni poco numerosi e frequenze così estreme la possibilità che un campione sia rappresentativo è bassissima.

AFFIDABILITÀ DEI TEST DIAGNOSTICI Affidabilità = la misura del test deve essere contemporaneamente: valida = la misura deve essere vicina al valore reale riproducibile = più misure sullo stesso campione devono dare valori simili tra loro INFERENZA STATISTICA Si basa sempre su: stime verifica delle ipotesi Quindi dopo aver effettuato nel modo più corretto possibile una stima campionaria da un universo di misure occorre rendersi conto che esistono due ipotesi possibili: H 0 = ipotesi nulla = la stima intervallare non comprende la media universale o la frequenza media universale è l'ipotesi che nega l'ipotesi della ricerca => se la rifiutiamo significa che la nostra ipotesi di partenza era giusta (con una certa percentuale di errore possibile, vedi sotto) se non la rifiutiamo non è detto che l'ipotesi di partenza era sbagliata (potremmo trovarci nell'intervallo di errore accettato, vedi sotto) può verificarsi per: campione selezionato male campione poco numeroso il numero di soggetti da campionare va stabilito a priori sulla base di formule estrema variabilità del fenomeno ecc. è formulata con probabilità di esser nel giusto generalmente del 90% quindi può essere sbagliata con probabilità del 10% => è detto errore beta (o di II tipo) H 1 = ipotesi alternativa = la stima intervallare comprende la media universale o la frequenza media universale è lo scopo del lavoro di medico, quella formulata dal ricercatore con fiducia di solito del 95% quindi questa ipotesi può essere sbagliata al 5% => è detto errore alfa (o di I tipo) Se H0 è vera e la rifiuto commetto un errore alfa Se H0 è falsa e non la rifiuto commetto un errore beta (meno grave dell'alfa) Per ridurre errori alfa e beta bisogna effettuare campionamenti corretti e sufficientemente numerosi: tanto più numerosi quanto più piccolo è l'errore di stima che si accetta tanto più numerosi quanto più variabile è il fenomeno e, per conseguenza, quanto più grande sarà l'errore standard Livello di significatività (α) = possibilità di rifiutare un'ipotesi nulla quando questa è vera di solito 0,05 o 0,01, ma a volte 0,10 (quest'ultimo quando si deve dimostrare qualcosa di ovvio, mentre i più bassi per studi importanti) più è basso più sono sicuro di non rifiutare H0 quando questa è vera Confidenza = la probabilità che si attribuisce alla correttezza, precisione e riproducibilità della stima (è complementare all'errore alfa) errore alfa = probabilità con la quale si ammette che tale stima non sia né corretta né precisa né riproducibile prende per valide differenze che in realtà nell'universo non esistono => attraverso la significatività si riduce l'errore alfa Potenza = probabilità che si attribuisce al fatto che lo studio consenta una stima corretta, precisa e riproducibile (complementare all'errore beta) errore beta = probabilità con la quale si sbaglia ammettendo che lo studio possa non portare a tanto non si accorge di differenze che realmente sono presenti nell'universo => attraverso la potenza si riduce l'errore beta Errori alfa e beta si riducono all'aumentare delle osservazioni. Colui che è convinto di fare una scoperta può commettere l'errore alfa, mentre colui che è convinto di aver fallito lo scopo della sua ricerca può commettere l'errore beta => nessuno può esser certo al 100% di non sbagliare. Non esiste ancora nessun test diagnostico sicuro al 100% sia nel rilevare uno stato patologico che nell'escludere una malattia. Se mi pongo come soglia di significatività 0,05 e ottengo come risultato, ad es., 0,06 => l'ipotesi nulla è vera e quindi non la rifiuto. Per abbassare l'errore alfa si abbassa il livello di significatività (negli studi importanti anche a 0,001).

Potenza di un test Dipende da: rischio di errore alfa che si vuole accettare nel rifiutare l'ipotesi (in genere 0,05) la dimensione del più piccolo effetto che, dal punto di vista medico, ha senso rilevare (relativamente alla variabilità della popolazione) numerosità del campione => più è alta e più il test è potente Indicatori di affidabilità (validità e riproducibilità) dei test clinici: validità con sensibilità, specificità, rapporto di verosimiglianza positivo e negativo, valore predittivo positivo e negativo riproducibilità con il test di Bland e Altman e/o con test di concordanza * * * * * GLI ERRORI IN MEDICINA VALIDITÀ DEI TEST DIAGNOSTICI Negli obiettivi, raccolta e analisi dei dati servono accuratezza e precisione, bisogna cercare di abbassare gli errori differenziali e non differenziali, abbassare la variabilità intra e extra-osservazionale => tutto questo è la base, da fare all'inizio (e non in itinere). Accuratezza = quando una certa misura rappresenta (è vicina) la media della popolazione. Precisione = riproducibilità o attendibilità, capacità di una certa misurazione di fornire sempre lo stesso risultato con ripetute misurazioni. Per esempio si può avere grande precisione nella misura con scarsa accuratezza se si è sbagliato l'obiettivo (quindi la media desunta non sarà rappresentativa della popolazione, anche se è stata calcolata molto precisamente). Gli errori differenziali sono i bias (o distorsione) cioè non casuali, quindi i valori tendono ad essere non accurati in una precisa direzione. Si può risolvere se si conosce l'entità del bias (per es. misurazione dell'altezza ad alcuni senza far togliere le scarpe, ad altri facendole togliere). Purtroppo i bias sono molto frequenti. Gli errori non-differenziali sono casuali, possono produrre risultati distorti, non sono perciò risolvibili, però nei campioni numerosi l'entità si bassa di molto (perché il singolo errore casuale alla fine pesa poco). La variabilità deve essere ridotta al massimo: intraosservazionale = quella dell'operatore stesso, cioè su misure ripetute di alcuni parametri da parte dello stesso operatore extraosservazionale = rilevamento di un parametro sullo stesso paziente da parte di due operatori diversi Cosa intendiamo per accuratezza e utilità dei test di screening e diagnostici: grande problema dei risultati falsi positivi e negativi sensibilità specificità => quali sono i valori predittivi? curva Roc => identifica la sensibilità e la specificità I risultati falsi positivi o falsi negativi possono per esempio dipendere dallo stadio della malattia (per antonomasia l'aids: è diagnosticabile solo dopo 5 anni, quindi in quel momento do per sano il soggetto anche se infetto) o per esempio in condizione di fase talmente avanzata della malattia da non riuscire più ad evidenziare quale sia il problema (anergia) => in quella fase non è più rilevabile il risultato. Es. in popolazione ipoparatiroidea i livelli di calcio sono altalenanti => rilevati in certi momenti possono far risultare il soggetto sano. Errori tipo I (falso positivo, errore α) Esempi: Errore da camice bianco (perché di fronte al medico si è più agitati, soprattutto per pazienti molto emotivi => risultano ipertesi). Quando esiste il dubbio che l'emotività incida sul risultato è possibile risolvere la situazione prima di dare un falso positivo ripetendo la misurazione dopo aver fatto calmare il paziente. Se c'è emolisi: visto che il campione di sangue è molto ridotto si ha un valore molto alto di potassiemia => l'iperpotassiemia è una situazione in cui si deve intervenire subito, ma in questo caso è un falso positivo. CPK = è un indice legato all'attività muscolare, ma indica anche problemi cardiaci => bisogna chiedere se la persona fa sport, perché i valori di riferimento sono diversi. Errori tipo II (falso negativo, errore β) Esempi: TAC = per ictus ischemico e ictus emorragico si vedono immagini molto diverse nella TAC, ma nel caso di ictus ischemico entro le prime 4-24 ore la TAC non mostra l'avvenuto ictus => in questo caso un falso negativo è molto pericoloso. Malattie infettive con incubazione lunga quindi non subito evidenziabili

Sensibilità e specificità Un test è selettivo quando è in grado di identificare individui sani e malati, commettendo poche misclassificazioni. La selettività si misura in modo quantitativo, oltre ai due parametri sensibilità e specificità. la sensibilità numericamente vale VP/(VP+FN)*100 = VP/malati * 100 VP = veri positivi; FN = falsi negativi se alta dà la possibilità di individuare i veri malati (mai 100%), però può dare falsi positivi = errore alfa (o tipo I) se bassa provoca errore di falso negativo la specificità numericamente vale VN/(VN+FP)*100 = VN/sani * 100 VN = veri negativi; FP = falsi positivi se alta dà la possibilità di individuare i veri sani (mai 100%), però può dare falsi negativi = errore beta (o tipo II) se bassa provoca errore di falso positivo Di fronte ad una patologia grave è importante conoscere i tassi di falso positivo e falso negativo. Cutoff = il punto di separazione tra positivo e negativo per quel dato test (quindi tra condizione di malato e di sano secondo quel valore), è deciso dalla comunità scientifica sulla base di considerazioni di opportunità, ovvero si cerca di scegliere il male minore: spostando il valore del cutoff verso valori patologici aumenta la specificità e diminuisce la sensibilità => si hanno risultati positivi più sicuri e si evitano di più falsi positivi, ma aumentano i falsi negativi spostando il valore del cutoff verso valori di normalità aumenta la sensibilità e diminuisce la specificità => si hanno più risultati positivi e si evitano di più i falsi negativi, ma aumentano i falsi positivi Ovviamente l'ipotesi migliore è quella di avere sensibilità e specificità più alte possibile, ma in base al tipo di malattia favoriamo la sensibilità o la specificità, anche perché non è detto che si possa sempre rifare il test: davanti ad una malattia incurabile dobbiamo usare una grandissima specificità, perché è meglio non dire ad un sano che è malato, che avrebbe una reazione psicologica molto forte per "effetto etichetta", inoltre si dovrebbero eseguire test più pericolosi, dolorosi, ecc. per confermare la diagnosi (in realtà per evidenziare l'errore) è bene avere un'alta specificità anche per malattie ad alta prevalenza, in modo da contenere i falsi positivi ed evitare di finire le risorse per le richieste diagnostiche invece di fronte ad una malattia che in base alla velocità con cui si interviene è curabile si deve usare una grandissima sensibilità, perché così si è sicuri di trovare il maggior numero di persone malate è bene avere alta sensibilità anche per malattie rare, in quanto altrimenti si rischierebbe di non individuare i pochi casi presenti Se non ci si trova in queste condizioni estreme (quindi in generale), allora si deve combinare la specificità con la sensibilità, in modo che si ottenga il massimo prodotto delle due => combinazione perfetta fra sensibilità e specificità di quel test. E' praticamente impossibile una sensibilità o una specificità del 100%, per ogni test vi sarà sempre una quota di falsi negativi o di falsi positivi. Le diagnosi di un solo esame vanno quindi sempre confermate da altri esami e la probabilità di falso positivo o falso negativo totale di tutti i test eseguiti sarà data dal prodotto delle varie probabilità, che essendo numeri inferiori a 1 (es. probabilità del 5% = 0,05) moltiplicandosi a vicenda danno un risultato sempre più basso (quindi minor percentuale di errore).

La curva ROC (Receiver Operating Characteristic = curva della caratteristica operativa del ricevitore) Grafico che consente di evidenziare l'effetto che si ha modificando il cutoff o utilizzando un test invece che un altro. E' fornita dall'azienda che ha prodotto lo strumento diagnostico. Sensibilità (asse Y) e specificità (asse X) sono riportate per ogni valore di cutoff. NB: l'asse X riporta un valore complementare alla specificità (1 specificità) => spostandosi dall'origine fino all'estremo alto/dx della curva la sensibilità cresce e la specificità decresce. Quanto più la curva ROC si avvicina al punto di coordinate (0,1) tanto più elevata è l'accuratezza globale del test, perché in questo modo si ha il massimo di veri positivi e il minimo di falsi negativi => la massima possibilità di evitare errori diagnostici. Quindi è migliore lo strumento che tende a (0,0.75) => vedi Test A nella figura in alto, rispetto ad uno che tende a (0,0.50) => vedi Test B. Maggiore è l'area sottesa dalla curva ROC e maggiore è il prodotto tra sensibilità e specificità => maggiore è l'affidabilità dello strumento diagnostico. Una curva che corrisponde alla diagonale (che congiunge 0,0 a 1,1) è quella che identifica un ugual numero di FN e VP => un test perfettamente inutile in campo diagnostico! Nel grafico centrale si può vedere un esempio di curva ROC relativa ad un test per il tumore alla prostata: sono riportati i vari cutoff relativi al PSA ed i rispettivi valori di sensibilità e specificità. I test "gold" tendono esattamente a (0,1) => vedi grafico in basso, ma sono test rari, quelli che fanno contemporaneamente test e esami, quindi hanno una conferma continua degli esami, ma sono molto costosi. PROBABILITÀ CONDIZIONATA La probabilità che una persona sia effettivamente malata quando un test è risultato positivo. Valore predittivo positivo (VPP) di un test VPP = VP / VP+FP = probabilità che una persona sia veramente malata quando un test è risultato positivo (deve essere alta) Valore predittivo negativo (VPN) di un test VPN = VN / VN+FN = probabilità che una persona sia veramente sana quando un test è risultato negativo (deve essere alta) Il valore predittivo è influenzato da sensibilità e specificità del test. Il VPP (ma anche il VPN) è condizionato dalla prevalenza della malattia (cioè dei VP+FN) nella popolazione che effettua il test, perché il numero di FP diminuisce all'aumentare della prevalenza (occorre una corretta selezione da parte del medico dei pazienti che vanno a fare il test). * * * * * CONCORDANZA DEI TEST CLINICI Se ci sono due operatori (osservatori) che non forniscono lo stesso risultato per un paziente c'è discordanza (in 22 casi su 100 c'è discordanza). Prima di tutto bisogna verificare la variabilità intraoperatore (stesso soggetto visto più volte) => test di McNemar per la concordanza funziona come il test del chi-quadro, ma è migliorato: sottopone l'osservatore a ripetute analisi sullo stesso soggetto, senza però che lo sappia. Se questo test è significativo vuol dire che c'è la massima concordanza (perché l'ipotesi nulla era che non ci fosse la concordanza e posso rifiutarla). Test interoperatore = prima di farlo bisogna verificare che ci sia la massima concordanza in ciascuno dei due operatori, poi si procede al test di McNemar a due vie (per due operatori) in cui l'ipotesi nulla è dimostrare che non c'è concordanza fra i due. Se il test è significativo allora specifica che c'è concordanza tra i due. Qualunque medico che faccia ecografia deve confrontare la propria concordanza con quella della equipe in cui lavora. In realtà il grado di accordo, soprattutto interoperatore, può essere valutato meglio con il chi-quadro di McNemar: <0 => disaccordo =0 => accordo casuale 0-0,2 => accordo debole 0,2-0,4 => accordo buono 0,4-0,6 => accordo discreto

0,6-0,8 => accordo considerevole 0,8-1 => accordo ottimo, tendente al perfetto Fino a 0,2 si considera che non c'è concordanza: i due operatori non possono lavorare assieme. Anche un accordo buono può non essere sufficiente in una patologia grave, dove è necessario avere risultati (più) sicuri. Per esempio si può applicare in bias di selezione per la creazione di campioni.

EPIDEMIOLOGIA Si intende lo studio dei fenomeni emergenti in una popolazione. L'epidemiologia, studiando la frequenza di determinati eventi e di determinate caratteristiche delle popolazioni allo studio, si propone di evidenziare i fattori che portano a malattia o che proteggono dalle malattie, cercando di distinguere: fattori determinanti: quelli che inducono aumento di rischio di malattia (o diminuzione se sono fattori protettivi) fattori confondenti: si associano al determinante e influiscono sul rischio (o protezione). Sono presenti sia fra gli esposti al rischio che fra i non esposti fattori modificatori di effetto: modificano la forza di associazione tra fattore determinante e evento. Sono presenti soltanto fra gli esposti al rischio INDICATORI EPIDEMIOLOGICI Definito il campione e il tipo di studio da utilizzare devo decidere quali indicatori sono indicativi. Indicatori in epidemiologia: Misure di insorgenza (stima della prevalenza, dell'incidenza, del rischio di eventi nocivi, dell'odds di eventi nocivi o protettivi, dei tassi di occorrenza di detti eventi) Misure di associazione (rapporti fra rischi, odd e tassi) Modelli di rischio (costruiti valutando il metodo più idoneo a misurare un rischio e distinguendo tra il rischio assoluto, il rischio relativo e il rischio attribuibile) Applicazioni dei rischi = dove, come, quando calcoliamo questi rischi Misure di insorgenza 1) Stima della prevalenza e dell'incidenza Prevalenza = rapporto tra numero di "casi" e complessivo della popolazione (in un determinato momento => è un dato istantaneo) misura l'esistenza della malattia casi = oggetti che presentano la caratteristica oggetto di studio (in genere una malattia) nel tempo aumenta sempre più in una popolazione, tutt'al più diventa costante può essere calcolata in studi trasversali o all'inizio di studi prospettici Incidenza = rapporto tra numero di "casi nuovi" verificatisi in un definito periodo e complessivo di persone appartenenti alla popolazione che potrebbero divenire "casi nuovi" nello stesso periodo di tempo misura l'apparire della malattia può variare nel tempo, anche riducendosi (per es. grazie alla medicina preventiva) si può parlare di incidenza solo se si parla sempre della stessa popolazione => studio che richiama sempre la stessa coorte (prospettico osservazionale) 2) Rischi e odd Rischio = probabilità che avvenga un determinato evento in una popolazione suscettibile a tale evento (quindi non già colpita dall'evento e neppure non suscettibile) in un determinato intervallo di tempo => nuovi casi tra quelli che riteniamo esposti incidenza invece sono i nuovi casi nella popolazione sana (quindi non è un rischio), ma l'incidenza in una popolazione a rischio non è altro che il rischio stesso, perché la popolazione è già selezionata! quindi per "rischio" non si intende un comportamento sbagliato che provoca la malattia, ma semplicemente la frequenza di quella malattia in un determinato gruppo/categoria di soggetti R = C / N C = numero di nuovi casi nell'intervallo t1-t0 N = numero di soggetti candidati al tempo t0 quindi il denominatore è fisso e dato dal numero di candidati iniziale totale, che comprende sia coloro che si sono ammalati (nuovi casi), che quelli che sono rimasti sani nel periodo di tempo considerato Modelli di rischio Si divide la popolazione in "esposti" e "non esposti", poi si possono calcolare i rischi: Assoluto = quello che abbiamo tutti, anche se può essere molto basso si calcola l'assoluto negli esposti e nei non esposti separatamente Relativo (RR) = rapporto tra rischio assoluto degli esposti/rischio assoluto dei non esposti ha un intervallo ben definito, non è mai zero (perché non è possibile che gli esposti non abbiano il rischio e gli esposti si!) è sempre positivo e può diventare un rischio relativo favorente o protettivo

si calcola solo in studi prospettici caso-controllo (o in studi di coorte dopo un certo periodo, quando si possono dividere i soggetti in esposti e non esposti => in questo senso il caso-controllo è figlio dello studio di coorte) individua, o conferma, o lega il fattore di rischio => una volta definito bisogna capire quanto pesi questo rischio => vedi rischio attribuibile Attribuibile = differenza tra rischio assoluto degli esposti e rischio assoluto dei non esposti diviso per il rischio assoluto nella popolazione esposta è bene calcolarlo in % Riduzione del rischio relativo = complemento di RR = (1 - RR) Esempio: Fumo = si ritiene un fattore di rischio per tumore al polmone Esposti = soggetti fumatori Non esposti = soggetti non fumatori Se si rilevano i casi di tumore al polmone in un determinato periodo di tempo (condizione prospettica) nelle due popolazioni, si vede entrambi hanno un rischio: Rischio assoluto nei fumatori = 0.05 (5%) Rischio assoluto nei non fumatori = 0.01 (1%) Questi dati possono essere interpretati in diversi modi: a prima vista sembra solo che il fumo aumenti del 4% il rischio di tumore al polmone il rischio relativo è = 5 => i fumatori hanno 5 volte in più il rischio di tumore al polmone il rischio attribuibile (al fumo) è 0.05-0.01/0.05 = 0.8 = 80% => l'80% dei tumori al polmone è attribuibile al fumo => questo dato visualizza meglio l'effetto del fattore di rischio fumo Quindi è importante scegliere il modello più indicativo per il nostro studio. Odd = rapporto tra rischio e non rischio: Odd = R / (1-R) più è alto il rischio più è piccolo il denominatore => anche l'odd è più alto in realtà questo non è molto utile da solo => si calcola l'odds ratio si può esprimere anche: Odd = soggetti malati/soggetti non malati [dimostrazione sul libro] il rischio invece è = malati/(malati+non malati) in questo caso al denominatore vengono tolti i candidati che nel periodo di tempo considerato sono diventati "casi", senza però pesare il tempo per cui sono rimasti candidati (cosa che invece si fa nel tasso di incidenza, vedi oltre) Odds ratio = rapporto tra odd esposti e odd non esposti (corrispondente del rischio relativo) si calcola in studi caso-controllo retrospettivi => si dividono i soggetti in affetti da una certa patologia e non affetti => si cerca se c'è stato qualcosa che nel gruppo di affetti ha causato la patologia (che era già presente prima di ammalarsi) non si utilizza in studi prospettici longitudinali, in cui si adotta il rischio relativo è una probabilità e va usata come tale Il rischio relativo può essere sempre quantificato da un rischio attribuibile, l'odds ratio no. Esempio 1: Studio prospettico sul rischio di parto prematuro dato dall'attività fisica intensa in gravidanza. Donne gravide esposte = quelle che fanno attività fisica intensa 238 donne, 22 hanno avuto un parto prematuro => R assoluto = 9,24% Donne gravide non esposte = quelle che fanno poca attività fisica 217 donne, 18 hanno avuto un parto prematuro => R assoluto = 8,29% RR = 1,1 => l'attività fisica intensa in gravidanza è un rischio per il parto prematuro R attribuibile = (9,24-8,29)/9,24 = 0.1028 = 10,28% Esempio 2: Dei pediatri hanno voluto verificare se bambini di circa 5-6 anni obesi lo fossero perché le loro madri in gravidanza avevano fumato. La patologia quindi era già evidente => è uno studio retrospettivo => possiamo calcolare l'odds ratio (e non il rischio) = 9,62 => il fumo è valutabile come rischio. Si è scelto, in questo caso, di verificare il fumo, ma lo si poteva fare con altri fattori (es. obesità della madre) => questo è un limite degli studi retrospettivi. Come si interpretano i risultati quando RR o OR < 1 => si tratta di un fattore protettivo

quando RR o OR = 1 => il fattore è ininfluente quando RR o OR > 1 => si tratta di un fattore di rischio Tutto questo fa riferimento, però, ai risultati di un campione e siamo obbligati a valutare gli intervalli di confidenza per poterlo confermare sulla popolazione target. Quindi un RR o un OR non associato al proprio intervallo di confidenza non ha nessun significato clinico. 1) se l'intervallo di confidenza comprende 1 (qualunque sia il risultato di RR o OR) => il risultato è ininfluente perché significa che nella popolazione può scendere sotto 1, essere uguale a 1 e salire sopra 1 => per un gruppo è un fattore di rischio, per un altro è ininfluente, per un altro ancora è un fattore protettivo!!! Quindi quel campione non ha dimostrato nulla: può essere sia un fattore di rischio che un fattore protettivo. nel precedente esempio 1: RR = 1,1 con I.C. 0,64-1,90 => RR dice che si tratta di un fattore di rischio, ma il suo I.C. comprende 1 => non è un risultato valido => l'attività fisica in gravidanza potrebbe essere un fattore di rischio o anche un fattore protettivo, perché in popolazione questo RR può scendere fino a 0,64 e salire fino a 1,90 2) se RR o OR > 1 e I.C. è tutto > 1 => è un fattore di rischio nel precedente esempio 2: OR = 9,62 con I.C. 7,12-13,5 => il fumo in gravidanza è un fattore di rischio per l'obesità del figlio attorno ai 5-6 anni 3) se RR o OR < 1 e I.C. è tutto < 1 => è un fattore protettivo E' l'i.c. che mi conferma o mi nega un risultato, sempre. Un I.C. è considerato in genere ammissibile se comprende un intervallo di +/- 5% del valore della media. RR e OR sono detti misure di associazione, perché sono utilizzate quando si vogliono fare confronti fra due gruppi diversi (esposti/non esposti). 3) Tassi e rapporti Tasso = in generale è il rapporto tra un valore e un denominatore che contiene il valore stesso. T = [a / (a+b)] * K K varia a seconda della frequenza della patologia patologie molto rare = K molto grande = 1000, 10.000, 100.000, ecc. patologie comuni = K piccolo = 10, 100, ecc. Rapporto = quando il rapporto è tra due valori che non hanno nessuna relazione vera tra loro: una proporzione che mi dà in genere una informazione sullo stato di salute della popolazione R = (c / d ) * K es. tra numero di posti letto e numero di abitanti di una certa zona Tassi di mortalità Tasso grezzo di mortalità annuale = numero totale di deceduti in un anno intero in una popolazione/numero di residenti in quella popolazione al 1 luglio di quell'anno è una misura burocratica Tassi specifici di mortalità annuale = prendono in considerazione sottogruppi (per patologie, sesso, età, ecc.), sempre in rapporto ai residenti al 1 luglio di quell'anno K = 1000 bisogna avere lo stesso K per poter confrontare dati di mortalità di regioni diverse Tassi di mortalità corretti o standardizzati = il grezzo non tiene conto dell'età, quindi ad esempio una popolazione che invecchia può avere un tasso di mortalità più elevato di un'altra più giovane, ma non è un'indicazione corretta ne per l'uno ne per l'altro => il tasso va standardizzato per età, sesso, etnia. es. si rapporta il numero di morti per influenza a 2 anni di età con il numero di morti totali di quell'anno alla stessa età In Italia ci sono leggi per la privacy che limitano molto questo tipo di studi, perché per calcolare i tassi devo avere una popolazione di confronto. Es. per calcolare il tasso di mortalità in Georgia è stata utilizzata come popolazione di confronto quella di tutti gli USA Es. posso calcolare facilmente il tasso di mortalità per tutte le cause di Bologna, ma non riesco ad averlo per i tassi specifici (sono questi quelli utili) per poterlo confrontare a quello regionale o nazionale. In Italia è difficile avere dati, talvolta anche riguardo alle cause di morte, oppure anche conoscendo queste non sono disponibili altri dati importanti (ad es. in un ospedale di Bologna possono essere ovviamente ricoverate anche persone provenienti da altre regioni, ma alla fine dell'anno abbiamo solamente il numero di decessi per patologia, senza poter conoscere la provenienza dei pazienti)

Rapporto di mortalità proporzionato (o tasso proporzionale di mortalità) = numero di morti di un certo sottogruppo / numero totale di morti (espresso sempre in percentuale) ci dà il peso della causa di morte in quel momento [importante!] Altri tassi Fertilità = attitudine alla procreazione => lo hanno tutte le donne in età fertile Fecondità = manifestazione concreta della capacità di procreare => espressa dalle donne gravide Importante: non confondere questi due tassi! Misure di morbosità Tasso di incidenza = (numero di nuovi casi di una malattia specifica durante un anno /popolazione che potenzialmente può diventare caso, al 1 luglio di quell'anno) * K NB: al denominatore non c'è tutta la popolazione, ma solo quella che può diventare "caso": es. per il carcinoma ovarico = le donne che non abbiano agenesia ovarica, che non abbiano subito ovariectomia, che non fossero già malate al tempo t0 In realtà è calcolato come segue: Tasso di incidenza = (nuovi casi nel tempo t1-t0) / [Σ (Δt candidato )] (Δt candidato ) = periodo di tempo per cui ogni candidato è rimasto tale => quando diventa "caso" non è più un candidato => in questo modo il tempo di permanenza è ponderato (per i candidati che rimangono tali per tutto il periodo di tempo il (Δt candidato ) è uguale a t1-t0) Σ (Δt candidato ) = Σ (n candidati * Δt candidati ) => numero di candidati che sono rimasti tali per un certo Δt quindi il tasso di incidenza è un rapporto tra casi e tempo-persone (il rischio invece è una semplice proporzione) Tasso di prevalenza = (numero totale di casi di una malattia specifica/popolazione che potenzialmente può diventare caso, in quell'istante) * K è un dato istantaneo e non riferito ad un intervallo di tempo Rapporto di letalità = (numero totale di morti dovute ad una malattia/numero totale di persone affette da tale malattia in un intervallo di tempo) * 100 l'intervallo di tempo considerato in genere è di mesi o di giorni Rapporto di immaturità = numero di nati vivi con peso alla nascita < 2.500 g in un anno / numero totale di nati vivi in quell'anno è una misura che si prende ancora in considerazione in questo modo, sebbene oggi il limite di 2.500 g per considerare un feto immaturo si sia abbassato notevolmente (sopravvivono feti al di sotto del kg) NB: La prevalenza e l'incidenza sono relative ad un campione, i relativi tassi invece sono in rapporto all'intera popolazione. * * * * * STATISTICA DI MANTEL-HAENSZEL (MH) Questa statistica va usata quando c'è coscienza della presenza di variabili confondenti, che vanno sempre identificate. La relazione che c'è tra una malattia e un fattore di rischio dobbiamo sempre valutarla tenendo conto di un quadro generale. Applicando questa tecnica l'ipotesi nulla è che non ci sia relazione tra la malattia e il fattore di rischio. Es. se osservo risultati indipendentemente dall'età, non tengo conto di quella variabile (per altro non modificabile) che pesa moltissimo in genere sull'insorgenza delle malattie. Qualsiasi studio, soprattutto retrospettivo, richiede l'uso di questa tecnica. Questo perché nel retrospettivo valuto una variabile che ho deciso io, non che ho osservato, per cui devo intervenire in assoluto con la certezza che vengano pesati i risultati. Se si calcola un OR tenendo conto di una variabile sola (e quindi non anche di quelle confondenti) si tende a sovrastimarne il peso. Es. diabete in gravidanza: oltre alla dieta devo valutare anche l'eventuale familiarità, altrimenti la dieta sarà sovrastimata come fattore di rischio nelle gravide che hanno familiarità. Nel retrospettivo è obbligatorio utilizzare questa statistica, in uno prospettico è comunque bene applicarla. La variabili confondenti più comuni sono senz'altro l'età e il genere, quindi ogni qualvolta abbiamo campioni eterogenei sotto questi aspetti dobbiamo tenerne conto. Si effettua una stratificazione (creazione di sottogruppi) ad es. per età e sesso. In questo modo però calcolando degli RR o OR si rischia di incorrere in errore beta dovuto a numerosità troppo basse. Attraverso la statistica di MH è possibile invece calcolare un OR generale (coi suoi limiti di confidenza) "depurato" delle variabili confondenti (vedi pag. 134 del libro per le formule). Esempio:

Studio su donne che hanno avuto il cancro alla cervice, sopravvivenza ad un anno dalla diagnosi: Donne come meno di 50 anni: 371 soggetti, 16 non sopravvissute Donne con più di 50 anni: 376 soggetti, 219 non sopravvissute Da questi dati si vede immediatamente che le donne più anziane con ca. alla cervice abbiano una mortalità più elevata. Cosa devo fare per ottenere un reale risultato? Qual è il fattore esposizione? Per la domanda che mi sono posto è necessario applicare la statistica di MH? Il fattore di esposizione è l'età. Già dai dati sopra esposti si evince che l'età è un fattore talmente forte che non servono ulteriori elaborazioni, ma essendo due gruppi diversi sarebbe necessario applicare la statistica di MH. Se le pazienti non fossero state suddivise in due gruppi per età non avrebbe avuto senso la valutazione della mortalità in un campione così eterogeneo! Il limite di questi dati è che non si sanno le età medie dei due gruppi: conoscendole si potrebbe eventualmente criticare lo studio. * * * * * STUDI EPIDEMIOLOGICI L'epidemiologia ci permette di studiare la frequenza della malattia nella popolazione, cioè ci permette di monitorare la popolazione e la sua condizione sanitaria. Si fanno studi osservazionali: non si fa nessuna manipolazione, è una popolazione che si arruola spontaneamente (free living). Permette di trovare i fattori di rischio, quelle variabili che determinano la variazione di altre (es. insorgenza di malattie). Ci sono tre tipi di studi epidemiologici: 1) trasversali Fotografia sanitaria della popolazione in quel momento: frequenza delle malattie, altezza media, peso, ecc. quindi di tutte le caratteristiche che arruolo. Può dare solamente la prevalenza. Ha il grande vantaggio di essere veloce e costare poco. Permette di formulare ipotesi che non posso dimostrare con quello studio, ma con altri più specifici, mi può far osservare qualcosa che non avevo visto prima. Svantaggi: non dà nessuna correlazione causa-effetto, perché è l'immagine di un momento i dati possono essere condizionati dal periodo in cui vengono rilevati (ad es. l'influenza è molto frequente in gennaio, quasi assente in agosto) le malattie a decorso brevissimo possono non essere "prese" (bias di Neymann) non posso verificare nessuna ipotesi con questo studio, ma posso utilizzarlo per ottenere nuove ipotesi questo tipo di studi non è adatto a valutare con certezza rapporti causa-effetto a causa della "fallacia ecologica" = essendo la fotografia di un momento facilmente non tiene conto di fattori momentanei, di inquinamento, ecc. (se aumentano due variabili contemporaneamente si potrebbe dedurre che una è la causa della variazione dell'altra, ma questo non è assolutamente detto). Es. si fanno sempre i rilevamenti la domenica => quel giorno le fabbriche sono chiuse e l'inquinamento è molto inferiore. Se si fanno sempre i rilevamenti tra lunedì e venerdì invece si trova un inquinamento costante (in entrambi i casi non è corretto). 2) prospettici Longitudinale = individua una popolazione esposta ad un certo fattore di rischio o protettivo (chiamata coorte), definisce un tempo di richiamo per controlli successivi (follow up) in modo da poter individuare i soggetti che divengono "casi". Vantaggi: numerosità elevata mi consente di studiare più effetti contemporaneamente permettono di valutare il trend spontaneo dei fattori di rischio unici che permettono di verificare esposizioni rare Svantaggi: molto costosi, perché richiedono molto personale per seguire la popolazione numericamente molto elevata problemi etici = se osservo modificazioni nei fattori di rischio non devo intervenire perché sono un osservatore drop out = arruolo una coorte storica dopo un follow up per es. di 3 anni, non tutti parteciperanno, dopo 6 anni non tutti parteciperanno (alcuni che non si erano presentati prima potrebbero presentarsi e viceversa) => la coorte va riducendosi col tempo (bisogna partire da coorti molto numerose) non sono adatti a patologie rare (dovrebbe aver prevalenza almeno del 10%) = il campione pur essendo molto numeroso non include con certezza tutte le patologie rare presenti nella popolazione effetto screening = le persone sanno di essere controllate regolarmente ed hanno la tendenza ad avere uno stile di vita che fa ammalare meno effetto coorte = ai controlli tendono a presentarsi solo le persone più disciplinate, con la conseguenza che si autoseleziona una popolazione potenzialmente molto diversa dalla popolazione generale (che comprende anche homeless, soggetti antisociali, eremiti, ecc.)

Caso-controllo = si parla di un gruppo che ritengo esposto al fattore di rischio rispetto ad un secondo gruppo e controllo nel tempo entrambi i gruppi => deriva dal longitudinale, ma vuole verificare cosa succede nei soggetti esposti a certi fattori di rischio, quindi va a selezionare i soggetti e diventa adatto anche a patologie rare. Svantaggi: si può studiare solo una patologia alla volta (si lavora sui fattori di rischio specifici) problemi etici ancora maggiori per la consapevolezza dei rischi che corrono i soggetti studiati alti costi drop out = nonostante abbiamo sensibilizzato chi consideravamo a rischio, ma non abbiamo fatto nulla, ma soprattutto se il soggetto è asintomatico non torna sempre al controllo Vantaggi: veloci = perché si parte già da una conoscenza dei fattori di rischio, non li si va a cercare adatti per patologie rare (prevalenza < 10%) L'UE definisce malattie rare quelle con prevalenza < 0,05% (<1 caso su 2.000 abitanti) - http://www.eurordis.org/ 3) retrospettivi Quando si raccolgono dati di reparto, parte quindi da una popolazione selezionata (ha già la patologia) e va indietro a vedere cosa è successo. Dipende spesso da quanti soggetti ho nel reparto con quelle caratteristiche, quello longitudinale è uno studio al quale si può fare poco affidamento => in pratica ha solo svantaggi e non è affidabile. Il caso-controllo è un po' più affidabile, parte da casi affetti e considera un controllo di casi non affetti => dà la possibilità di calcolare delle probabilità (attraverso l'odds ratio), niente di più. Vantaggi: possiamo studiare patologie rare sono veloci si studiano più esposizioni contemporaneamente Svantaggi: studia una patologia per volta problemi etici problemi di bias di selezione validità generalizzata (non generalizzata) Per poter dimostrare qualcosa si deve essere sempre in grado di fornire i dati del controllo, altrimenti non so se quella modificazione sarebbe avvenuta lo stesso oppure se è avvenuta per quella condizione particolare. * * * * * STUDI OSSERVAZIONALI-EPIDEMIOLOGICI Gli studi più importanti sono nati per le malattie cardiovascolari, non abbiamo studi altrettanto importanti per l'oncologia. Questo ha fatto si che nel campo cardiovascolare la prevenzione sia molto avanti, ma non è successo altrettanto in oncologia. 1) Framingham heart study (città del Massachussets) Primo studio in assoluto, molto utilizzato. Obiettivo primario = ci si proponeva di valutare il peso dello stress sulle malattie coronariche. Nei primi 10 anni si era focalizzata tutta l'attenzione sul dato stress, in seguito invece anche sugli altri fattori di rischio. inizio = 1948 popolazione arruolata = 6500 (uomini e donne) età all'ingresso = 30-62 anni follow up = ogni 2 anni (quindi è uno studio prospettico longitudinale) obiettivo = verifica dei fattori di rischio per coronaropatie lo studio va avanti da 3 generazioni anche su figli (anche mariti e mogli degli stessi) e figli dei figli Il SSN in Italia ha stabilito che se il paziente ha il fattore di rischio calcolato nel Framingham superiore ad una certa percentuale (20%) ha diritto al farmaco gratuito. Il Framingham in realtà ha sovrastimato il problema italiano, perché ha caratteristiche più simili alla popolazione del Nord europeo. 2) Seven Country Study Ne fa parte anche l'italia (con Crevalcore e S. Giorgio (Padova)). inizio = 1960 popolazione arruolata = 12.700 uomini età all'ingresso = 40-59 anni obiettivo = verifica della relazione tra colesterolo e sviluppo di coronaropatie

Risultato: all'aumentare del colesterolo aumenta la mortalità a prescindere dal valore iniziale. Anche in Giappone, che ha il livello di colesterolo più basso in assoluto, l'incidenza è massima per i valori più alti. Limite: confermabile solo su uomini di quell'età 3) Studio MRFIT (Multiple Risk Factor Intervention) 18 città degli USA inizio = 1973-1975 popolazione arruolata = 356.000 uomini età all'ingresso = 40-59 anni obiettivo = la modificazione dei fattori di rischio per le coronaropatie ne riduce l'incidenza? l'intervento è stato definito "soft", cioè assumendo una corretta alimentazione => riduzione dei grassi saturi i risultati di questo studio hanno influenzato la popolazione con una modificazione della dieta in quegli anni e un abbassamento della mortalità per coronaropatie negli USA, ma in seguito tutto questo si è perso ed oggi c'è una situazione allarmante data dal fatto che la popolazione USA non segue più queste indicazioni e l'obesità addirittura è considerata una epidemia 4) Studio PROCAM (Prospective Cardiovascular Munster) fatto a Munster (Germania) inizio = 1979 popolazione arruolata = 4.400 uomini età all'ingresso = 40-65 anni follow up = 10 anni (molto lungo! La popolazione target "sfugge") obiettivo = valutazione degli effetti del colesterolo su infarto del miocardio fatale e non fatale (tenendo conto di livello di HDL e LDL) si è riscontrata una correlazione lineare tra livelli di colesterolo totale e eventi coronarici Insieme al Framingham è il più utilizzato dal SNN italiano per calcolare rischi e definire linee guida e terapie in diversi campi. 5) Brisighella study Studio prospettico longitudinale osservazionale per verificare il trend temporale dei principali fattori di rischio per aterosclerosi e malattie coronariche (obiettivo primario) Brisighella (Ravenna) inizio = 1972 popolazione arruolata = circa 3.000 (uomini e donne) età all'ingresso = superiore ai 14 anni follow up = 4 anni, continuano a tutt'oggi Registrati mortalità e morbosità per tutte le cause (con riferimento a incidenza e prevalenza). Dal 3 controllo (1984) si può osservare un confronto generazionale => cioè nonostante lo studio sia longitudinale (si richiama sempre la stessa coorte) metto a confronto le persone che avevano 30 anni (o 40 anni, ecc.) nel 72 e quelle che ne hanno 30 oggi => che differenze ci sono? quali osservazioni cliniche posso rilevare? pressione arteriosa sistolica = è rimasta stabile in entrambi i sessi livello di colesterolo totale = nel 1972 i livelli erano molto più bassi rispetto all'1984 (sia in uomini che donne) => uno dei più importanti fattori di rischio per malattie cardiovascolari è aumentato => la differenza è significativa? E' una media, non rappresenta la popolazione in assoluto se non è accompagnata dalla sua deviazione standard. Sono due campioni indipendenti (i soggetti sono diversi) => si applica il T di Student per campioni indipendenti => verifico se la differenza che vedo è statisticamente significativa o no Altri risultati prevalenza di ipercolesterolemia (soggetti che hanno livello superiore a quello considerato come soglia di rischio) = in oltre il 50% delle donne dell'ultimo controllo => questo dato così forte è del tutto attendibile? L'età non è considerata (non è riportata) => non si riesce a valutare correttamente questo dato. eventi coronarici fatali calcolati per 10.000 per anno e interazione con i fattori di rischio (sulla base di livelli di pressione arteriosa sistolica e di colesterolo) => se entrambi i fattori di rischio sono bassi la mortalità è bassa e viceversa (quindi conferma i fattori di rischio) In questo caso le linee (i trend) sono quasi sovrapposti, però nel confronto generazionale i fattori di rischio sono più o meno sempre gli stessi. * * * * *

LA PREVENZIONE Primaria = lavora sempre sul sano, interveniamo prima ancora che il fattore sia alterato Secondaria = si fa attraverso programmi di screening e lavora in fase preclinica della malattia, interveniamo quando il fattore è già alterato Terziaria = quando la malattia è già manifesta, interveniamo per non farla progredire Il test diagnostico (prevenzione secondaria) nello screening ci dà la massima informazione senza essere estremamente invasivi, se poi il test non è sufficiente devo fare l'esame diagnostico che invece è invasivo (es. biopsia). Il rischio di errore dei test diagnostici è di avere falsi positivi e falsi negativi. Nello screening si deve normalmente puntare ad una grande anticipazione diagnostica => attraverso test altamente sensibili che individuano cioè molti veri positivi. La durata e la frequenza del programma di screening si fondano sulla conoscenza della estensione della fase preclinica della malattia e sulla conoscenza della anticipazione diagnostica: se il test è molto raffinato e riesce a raggiungere con precisione anche piccole masse tumorali => possiamo anche avere un tempo di re-screening lungo se il test dà una buona sensibilità, ma una precisione non molto alta il tempo di re-screening deve essere molto serrato * * * * * TRIAL CLINICI Per confrontare terapie, metodiche nuove. I soggetti sono sempre divisi in due o più gruppi a seconda di quante sono le metodiche da confrontare. Quando esamino i risultati, la differenza è solo legata al trattamento, o alla metodica, alla quale i soggetti sono sottoposti => bisogna fare una randomizzazione rigida per evitare che ci siano bias di selezione = inesattezze nel rilevare il dato. Es. trattamento per la crescita = arruolo dei bambini e li divido in due gruppi con altezze medie sovrapponibili. Se ad un gruppo misuro l'altezza con le scarpe e all'altro senza => creo un bias. Bisogna quindi suddividere i gruppi randomizzandoli in modo che non ci sia nessuna differenza statisticamente significativa. Obiettivo primario (o end-point) = da decidere all'inizio, tutto si baserà su questo, tutto va disegnato a priori, dando anche termini di inclusione e esclusione dallo studio, devo cercare di prevedere il massimo per cercare di non incorrere in errori che mi portino a risultati falsati. Quando si fa un'ipotesi bisogna specificare cosa si vuole ottenere dal confronto, per es. tra due o più farmaci, es. dimostrare che uno è meglio dell'altro, devo avere conoscenze molto precise su quello che andrò a studiare. Più si vuole rilevare una differenza grande, più la numerosità del campione deve essere alta. Studio randomizzato = quando si somministrano due interventi diversi su due gruppi di un campione e i gruppi sono stati formati casualmente dal campione. Questo garantisce che non ci siano bias nella formazione dei gruppi (per es. favorendo, anche inconsciamente, certi soggetti rispetto ad altri, assegnando loro il gruppo che si ritiene riceverà il farmaco migliore). Studio in doppio cieco = quando ne il ricercatore ne il paziente sanno qual è il farmaco somministrato. I clinical trial possono essere di tre tipi: 1) studi controllati la rappresentatività della casistica (randomizzazione) deve essere molto rigida ci deve essere una confrontabilità della terapia cecità del paziente e del ricercatore (nessuno deve sapere quale terapia viene somministrata) e anche di chi elaborerà i risultati => doppio cieco i risultati e le conclusioni sono basati solo sull'end-point primario se raggiungo l'obiettivo primario lo studio controllato è valido (solo questo lo valida) posso prendere in considerazione anche quelli secondari se non raggiungo l'obiettivo primario non ha senso prendere in considerazione obiettivi secondari anche se appaiono significativi, perché ho basato tutto sul primario questo è il clinical trial più usato, in generale serve un numero di pazienti alto Caratteristiche di uno studio controllato randomizzato (randomized controlled trial, RCT) - (da: http://www.saperidoc.it/flex/cm/pages/serveblob.php/l/it/idpagina/378) 1. sperimentale (trial): le modalità di assegnazione dei soggetti alla popolazione da studiare vengono stabilite dallo sperimentatore. Una volta reclutata la popolazione, sulla base di tutte le variabili di significato prognostico noto considerate dal ricercatore (natura e gravità della malattia, età, parità...), si verifica l'effetto di un trattamento (ad esempio, la somministrazione di un farmaco) confrontandolo con l'effetto di un altro diverso trattamento (ad esempio, un altro farmaco, nessun farmaco o un placebo). 2. controllato (controlled): i soggetti coinvolti nello studio sono suddivisi in due gruppi: il gruppo o braccio sperimentale che riceve il trattamento, e il gruppo o braccio di controllo che riceve un diverso o

nessun trattamento. Se la sperimentazione è eseguita correttamente (punto 1), i due gruppi risultano il più possibile omogenei, almeno per tutte le variabili considerate, e quindi comparabili. 3. randomizzato (randomized): l'assegnazione del trattamento ai soggetti deve avvenire con un metodo casuale (random). La randomizzazione aumenta la probabilità che altre variabili, non considerate nel disegno dello studio, si distribuiscano in maniera uniforme nel gruppo sperimentale e in quello di controllo. In questo modo, le differenze eventualmente osservate tra i due gruppi possono essere attribuite al trattamento. La randomizzazione da sola non garantisce però che i gruppi così generati siano perfettamente identici e che le differenze osservate non siano dovute a sbilanciamenti casuali tra i gruppi. L'analisi statistica tiene conto di questa possibilità e la quantifica nella presentazione dei risultati 2) studi cross over solo ed esclusivamente per confrontare due trattamenti lavora in modo tale per cui i soggetti del gruppo A e quelli del B prenderanno entrambi i trattamenti: il gruppo A prende il farmaco 1 per un certo periodo, mentre il gruppo B prende il farmaco 2 dopo un periodo di follow up ci sarà inversione dei due trattamenti il gruppo A prende il farmaco 2 e il gruppo B il farmaco 1 vantaggio è che in questo modo si raddoppia il campione lo svantaggio è che per fare una buona applicazione bisogna fare un periodo di washout in cui non si prendono farmaci (corrisponde al follow up) e si torna allo stato iniziale questo tipo di studio va applicato su patologie croniche, un grosso limite è il fatto di far sospendere la terapia al paziente. Per questo i comitati etici hanno interrotto questi studi per malattie croniche gravi, dove cioè il farmaco è salvavita non si può mai applicare a patologie che non siano croniche (se sono guariti dopo il primo trattamento non ha senso fare il cross over) 3) sequenziali si possono confrontare 2 o più trattamenti (somministrati casualmente ai vari pazienti => randomizzazione) i risultati vengono analizzati a intervalli definiti a priori lo studio termina quando si è raggiunto l'obiettivo primario si è raggiunta la dimensione del campione che mi ero proposto => da quel momento analizzo i dati che ho ottenuto si usa molto raramente contro: la durata dei trattamenti è diversa a seconda del momento dell'arruolamento, non si sa quanto dura lo studio Esempio: Terapia Di Bella: si basava sulla ricerca di aumentare la risposta immunitaria verso il tumore come alternativa alla chemioterapia. Quando si è fatta la sperimentazione si è proceduto così: affrontavano chemioterapia i soggetti che avevano appena avuto l'intervento la terapia Di Bella è stata invece somministrata ai soggetti terminali La chemioterapia è risultata più efficacie, ma in realtà le condizioni di base erano molto diverse e in pratica lo studio non ha provato nulla. In questo caso si trattava di un trial controllato, anche se le condizioni non erano adeguate. Esempio: Trial clinico controllato randomizzato (doppio cieco) => confronta più trattamenti. Obiettivo primario: i ricercatori si proponevano di dimostrare che c'era un'incidenza più bassa di eventi coronarici nei soggetti che assumevano un certo farmaco (ipotensivo e ipolipidemizzante) rispetto a quelli che assumevano altri farmaci. Dal 1994 al 2002 => 8 anni di arruolamento => 33.000 soggetti con età maggiore di 55 anni, ipertesi e con almeno un altro fattore di rischio per malattia coronarica (dati raccolti in oltre 600 centri del Nord-America) I canoni del trial clinico controllato sono osservati correttamente? la casistica è rappresentativa? Non è dato il sesso dei partecipanti periodo di arruolamento: in questi 8 anni le linee guida per la definizione dello stato di ipertensione sono cambiate 3 volte confrontabilità della terapia: i dosaggi dei tre farmaci sono molto variabili; i tre farmaci sono utilizzati in gruppi di soggetti di numero molto diverso