Analisi per sottogruppi



Documenti analoghi
Trials clinici. Disegni di studio

Igiene. Dott. Pamela Di Giovanni. Definizione

SPC e distribuzione normale con Access

Misure della relazione di occorrenza

Statistica. Lezione 6

METODOLOGIA CLINICA Necessita di: Quantificazione Formalizzazione matematica

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1

La manutenzione come elemento di garanzia della sicurezza di macchine e impianti

Inferenza statistica. Statistica medica 1

L età dei vincitori La presenza femminile. L età dei vincitori La presenza femminile. Confronto tra il concorso ordinario ed il concorso riservato

ANALISI DEI DATI EPIDEMIOLOGICI

1. Distribuzioni campionarie

LA VALIDITÀ DEGLI STUDI E IL CONTROLLO DEL CONFONDIMENTO

LA METANALISI. Franco Merletti Unità di Epidemiologia dei Tumori Università di Torino

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Effetti sull opinione di pazienti riguardo all utilizzo di un computer in uno studio medico nell assistenza ordinaria

APPROPRIATEZZA IN ECOCARDIOGRAFIA. MARIA CUONZO Cardiologia UTIC AUSL BA Terlizzi

STATISTICA IX lezione

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

4.1. La migliore relazione affettiva con la figura di riferimento principale

SERVIZIO NAZIONALE DI VALUTAZIONE

Test statistici di verifica di ipotesi

OGGETTO: Ricoveri ospedalieri per patologie respiratorie nel quartiere S. Polo nel periodo

Comparabilità fra le somministrazioni successive effetto di trascinamento ( carry-over ) effetto di periodo

Principi generali. Vercelli 9-10 dicembre G. Bartolozzi - Firenze. Il Pediatra di famiglia e gli esami di laboratorio ASL Vercelli

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

Capitolo 25: Lo scambio nel mercato delle assicurazioni

ARTICOLO SCIENTIFICO: ANALISI E VALUTAZIONE CRITICA DELLE INFORMAZIONI. critical appraisal BOSCARO GIANNI 1

A.A. 2015/2016. Statistica Medica. Corso di. CdL in Fisioterapia CdL in Podologia

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI)

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Elementi di Epidemiologia

E naturale chiedersi alcune cose sulla media campionaria x n

Concetto di potenza statistica

LE META-ANALISI. Graziella D Arrigo, Fabio Provenzano, Claudia Torino, Carmine Zoccali, Giovanni Tripepi

Sperimentazione Clinica: ruolo e responsabilità dell Infermiere

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

STORE MANAGER.. LE COMPETENZE CARATTERISTICHE E I BISOGNI DI FORMAZIONE

STUDI SU MATERIALE GENETICO

ESERCITAZIONE 2. TRATTO E MODIFICATO DA: Esercizi di epidemiologia - MORO, DAVOLI, PIRASTU Il pensiero scientifico editore

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Laboratorio di Pedagogia Sperimentale. Indice

sembra una Anche qui sembra questione di sesso: Aspirina e donne

Manca qualcosa: cosa c èc. di sbagliato nell usare l età alla diagnosi/decesso o la latenza nei casi. Farina OJC 15 maggio 2013

RELAZIONE SUL TEST GENERALE D ACCESSO AL CORSO DI LAUREA IN LINGUE E CULTURE STRANIERE

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Il confronto fra proporzioni

Documento di accompagnamento: mediane dei settori bibliometrici

Piano di gestione della qualità

Come archiviare i dati per le scienze sociali

Corso di Psicometria Progredito

Il ragionamento diagnostico TEST DIAGNOSTICO. Dott.ssa Marta Di Nicola. L accertamento della condizione patologica viene eseguito TEST DIAGNOSTICO

SINTESI DEI RISULTATI

Il Test d ingresso per la Facoltà à di Scienze. PISA 3 dicembre 2008

Ufficio Scolastico Regionale per l Abruzzo. Rapporto dal Questionari Studenti

PROGETTO INDAGINE DI OPINIONE SUL PROCESSO DI FUSIONE DEI COMUNI NEL PRIMIERO

RISOLUZIONE N. 117/E


DATI NORMATIVI PER LA SOMMINISTRAZIONE DELLE PROVE PAC-SI A BAMBINI DI INIZIO SCUOLA PRIMARIA 1

Lineamenti di econometria 2

Corso di. Dott.ssa Donatella Cocca

Misure di Associazione

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

Orientamenti sul sottomodulo del rischio di catastrofe per l assicurazione malattia

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

Incidenti ed Incidenti Mancati

A.A Obiettivi formativi del CI di Metodologia epidemiologica OBIETTIVO GENERALE

L analisi statistica

Servizi di consulenza specialistica per IGRUE

Epidemiologia generale

Igiene nelle Scienze motorie

Potenza Prot AI DIRIGENTI SCOLASTICI LORO SEDI

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Relazioni tra variabili

I libri di testo. Carlo Tarsitani

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Relazioni statistiche: regressione e correlazione

L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELLA ROLE Six Sigma Master Black Belt

SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Tassi di incidenza 9/2/2005

L orizzonte temporale nei prospetti semplificati dei fondi aperti. Nota di studio. Ufficio Studi

VALORE DELLE MERCI SEQUESTRATE

PROGETTO TECNICO SISTEMA DI GESTIONE QUALITA IN CONFORMITÀ ALLA NORMA. UNI EN ISO 9001 (ed. 2008) n. 03 del 31/01/09 Salvatore Ragusa

1 Serie di Taylor di una funzione

Analisi di dati di frequenza

Pianificazione e progettazione

Tasso di occupazione per fasce di età. Provincia di Piacenza, ,3 83,1 77,7 27,6 16, anni anni anni.

S i s t e m a d i v a l u t a z i o n e d e l l e p r e s t a z i o n i d e i d i p e n d e n t i

La Distribuzione Normale (Curva di Gauss)

COMUNE DI SOLBIATE ARNO

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

VERIFICA DELLE IPOTESI

L EFFICACIA DELLE MISURE DI POLITICA ATTIVA DEL LAVORO REALIZZATE IN PROVINCIA DI TORINO NEL

Statistiche campionarie

Gli studi epidemiologici

Gli interventi di Fondazione Cariplo per la prevenzione della dispersione scolastica

Nozioni generali. Principali forme di trattamento

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Valutazione dell outcome riabilitativo nell ictus ischemico ed emorragico in termini di efficacia ed efficienza del trattamento

Transcript:

Le Analisi per Sottogruppi Analisi per sottogruppi Alessandro Battaggia 2006 Un trial (es: un RCT) studia l' efficacia di un intervento su un campione di pazienti che rispondono a precisi requisiti decisi dai ricercatori (=criteri di arruolamento). In questo disegno i partecipanti vengono divisi casualmente (=random allocation) in due gruppi caratterizzati da identiche caratteristiche basali (= braccio di intervento e braccio di controllo). Il risultato della sperimentazione sarà espresso dalla differenza riscontrata alla fine della ricerca tra i due bracci nella dimensione del fenomeno che si presume possa essere condizionato dall' intervento. La verifica dell' esistenza o meno di questa differenza fornisce infatti la risposta al quesito che costituisce il motivo per cui è stato organizzato il trial: <l' intervento è in grado di condizionare quel determinato fenomeno?>. Il fenomeno studiato si chiama 'outcome primario'. Quasi sempre i ricercatori eseguono anche 'analisi secondarie'. Ad esempio i due bracci del campione possono venir confrontati, oltre che per l' outcome primario, anche per altri outcome (vedi: analisi di Outcome Multipli). Un' altra analisi secondaria è rappresentata dalla Analisi per Sottogruppi, che costituisce l' argomento di questo saggio. Essa rappresenta (più esattamente: dovrebbe rappresentare - vedi oltre) un valore aggiunto, ossia dovrebbe essere un corollario alle conclusioni principali della ricerca. Vedremo invece che gli autori tendono spesso a sopravvalutare le informazioni fornite da questa e da altre analisi secondarie. In una Analisi per Sottogruppi il campione originale viene suddiviso in vari strati (sottogruppi) contrassegnati da caratteristiche peculiari. Queste caratteristiche riguardano per lo più connotazioni anagrafiche, fisiologiche o patologiche dei pazienti ma a volte i pazienti inseriti in sottogruppi possono essere classificati in base a diverse intensità del trattamento somministrato (es. dosi del farmaco) o i base ad caratteristiche stabilite ex ante o ex post (es: diversità nella compliance o altro). Il concetto di 'Interaction' In una Analisi per Sottogruppi l' interesse degli autori è verificare se caratteristiche peculiari di determinati strati del campione siano o no in grado di condizionare in modo selettivo il fenomeno che esprime l' efficacia dell' intervento. Ciascun sottogruppo in altri termini rappresenta un mini-trial eseguito all' interno del trial [8], con un proprio braccio di intervento e un proprio braccio di controllo che vengono confrontati come i bracci di intervento e di controllo della coorte originale. Se appartenere a un determinato sottogruppo condiziona risultati di efficacia diversi rispetto a quelli che si osservano nella coorte originale si parla di 'subgroup effect' [8]. Si usa in letteratura il termine (poco felice) 'interaction' per identificare l' esistenza di un 'subgroup effect'. Se per un sottogruppo esiste 'interaction' i suoi soggetti saranno quindi caratterizzati da caratteristiche in grado di condizionare l' intensità o la direzione del fenomeno causato dall' intervento. In primo luogo appartenere ad un sottogruppo può condizionare una intensità del risultato di efficacia diversa rispetto a quella notata per l' intera coorte. In questo caso, quando esiste cioè tra gli strati diversità nella magnitudo (ma non nella direzione) dell' effetto, si parla di 'quantitative interaction' [10]. Un esempio è <il farmaco ha prolungato la sopravvivenza di due anni nei maschi e solo di un anno nelle femmine>. Se invece l' appartenere ad un sottogruppo inverte la stessa direzione del risultato di efficacia, ossia se il trattamento appare efficace in alcuni sottogruppi e dannoso in altri, si parla di 'qualitative interaction' [11]. Un esempio è: <il farmaco ha prolungato la sopravvivenza di un anno nei maschi ma ha ridotto la sopravvivenza di un anno nelle femmine. Quest' ultima situazione è alquanto rara e in un critical appraisal deve sempre essere considerata con sospetto. Infatti in passato situazioni del genere molto di rado sono state confermate in successive ricerche costruite ad hoc [8]. Ciò per il modo stesso con cui viene organizzata una sperimentazione: è molto difficile ad esempio che sia stata reclutata in un RCT una casistica 1

caratterizzata da livelli di eterogeneità così spinti da poter condizionare effetti opposti del trattamento in alcuni strati del campione.di solito se l' intervento studiato è potenzialmente in grado di causare danno i pazienti problematici (es: quelli molto malati eccetera) vengono sempre esclusi ex ante dai criteri di arruolamento. E' facile dimostrare l' assenza di interaction? Può essere molto difficile riconoscere a colpo d' occhio entro un pool di sottogruppi la presenza di 'omogeneità' nei risultati di efficacia. Anche in presenza di reale omogeneità l effetto del caso può infatti esagerare, diluire, e occasionalmente rovesciare risultati rilevati nei singoli strati. Non bisogna dimenticare che i sottogruppi rappresentando frazioni del campione originale e che pertanto sono caratterizzati da scarsa numerosità campionaria e quindi da grande varianza delle caratteristiche dei soggetti da cui sono composti. Ciò può condizionare imprecisione delle stime entro i singoli sottogruppi, con diversità nelle dimensioni e nelle direzioni dell' effetto spiegate solo dall' effetto del caso. Curiosamente tra l' altro in condizioni in cui non esistono grosse differenze 'reali' tra un sottogruppo e l' altro le 'differenze spurie' si osservano più frequentemente in un numero ristretto di sottogruppi [8,18]. Come per qualsiasi altra analisi inferenziale l' analisi dei sottogruppi di un campione ha un valore oggettivo solo se le conclusioni possono essere estrapolate con fiducia alla popolazione generale da cui il campione è stato estratto. Da queste osservazioni preliminari comincia ad essere chiaro come l' interpretazione di una analisi per sottogruppi possa essere gravata da molte insidie. La tabella 1 sintetizza per esempio tutte le distorsioni interpretative imputabili all' errore random (vedi anche: Analisi di Outcome Multipli). Più avanti saranno descritte anche distorsioni interpretative non dovute all' effetto del caso ma piuttosto ad errori di metodo. Tabella 1 - Analisi per sottogruppi ed errore random Caratteristiche delle analisi per sottogruppi A. Scarsa numerosità dei soggetti che compongono i sottogruppi problemi statistici a. scarsa potenza statistica (maggior probabilità di errore II) conseguenze pratiche possibilità di risultati erroneamente non significativi (errore ) b. notevole random variation possibilità di risultati casuali caratterizzati da intensità variabili e anche da direzioni opposte B. Necessità di eseguire confronti multipli entro l' ambito di uno stesso campione (quello del trial) c.maggior probabilità di errore I maggior probabilità di errore I possibilità di risultati erroneamente significativi (errore ) possibilità di risultati erroneamente significativi (errore ) Between-Strata Differences of Effects: Tests of Interaction Lo scopo di una analisi per sottogruppi è verificare l' esistenza di eterogeneità dei risultati di efficacia all' interno della popolazione per poter eventualmente sfruttare il fenomeno in nuovi indirizzi della pratica assistenziale. Il primo punto di questa analisi consiste nel valutare se entro la coorte originale (il campione esaminato dal trial) esista eterogeneità dell' effetto ossia se esistano differenze nei risultati di 2

efficacia tra i diversi sottogruppi. L' analisi inferenziale potrà poi stabilire se le conclusioni sono estrapolabili alla popolazione generale da cui il campione è stato estratto. Per verificare l' esistenza o meno di 'interazione' si adottano metodi statistici genericamente classificati come 'Tests of Interaction'. Il quesito che si propongono di risolvere è: <esiste differenza tra i risultati di un singolo sottogruppo e i risultati rilevabili nell' intera coorte?> I 'Tests of interaction' si basano su una ipotesi nulla costruita ad hoc : <non esiste differenza, ossia esiste omogeneità dell' effetto tra un sottogruppo e l' altro: le differenze registrate nel campione sono quindi solo casuali>. Questo presupposto identifica una condizione immaginaria in cui viene arruolata -al posto del campione- tutta la popolazione da cui il campione è stato estratto. Suddividendo questa popolazione negli stessi sottogruppi del trial l' ipotesi nulla viene soddisfatta se i risultati di efficacia ottenuti dal confronto dei due bracci risultano identici per tutti i sottogruppi. Abbracciando l' ipotesi nulla si ammette che nella popolazione reale da cui il campione è stato estratto non esistano differenze tra un sottogruppo e l' altro e che le differenze inevitabilmente registrate nel campione siano quindi spiegate solo dalla casualità con cui sono stati scelti i pazienti che compongono i singoli strati. Ricusando l' ipotesi nulla si ammette invece che le esistenze riscontrate tra un sottogruppo e l' altro nel campione siano 'reali' (vale a dire che esse siano riscontrabili anche nella popolazione reale da cui il campione è stato estratto). I 'Tests of interaction' producono un valore di P, che come in tutti i test di significatività statistica quantifica la probabilità che la differenza riscontrata tra un sottogruppo e la intera coorte sia dovuta al caso. La presenza di una differenza 'significativa' nelle dimensioni e/o nella direzione dell' effetto in un sottogruppo sarà allora definita da valori di P<0.05 (= presenza di interazione). Al contrario valori di P >0.05 identificheranno <non significatività delle differenze riscontrate tra il sottogruppo e il campione in toto> ossia <mancanza di prove a sostegno dell' esistenza di differenze non dovute al caso> (= assenza di interazione). Esistono vari tipi di 'Tests of interaction', che fondamentalmente si basano su modelli matematici di analisi della varianza o di regressione multipla. La loro descrizione esula dallo scopo di questo saggio e per approfondimenti si rimanda ad articoli selezionati [3-7]. In generale queste tecniche sono contrassegnate da scarsa potenza statistica. Per fare un esempio in una analisi della varianza eseguita su un pool di sottogruppi il 'sample size' è rappresentato dal numero di sottogruppi studiato dal trial (che non sarà mai, per quanto grande, grandissimo). Ciò condiziona un' alta probabilità di errore beta, vale a dire < rischiare di non riconoscere una eterogeneità nel pool effettivamente presente, ossia non dovuta al caso>. Per fare qualche esempio: Nello studio ALLHAT il test di interazione è stato basato su una tecnica di regressione multipla basata sul modello di COX [15] Nello studio ASCOT gli autori hanno analizzato il grado di eterogeneità esistente tra coppie di sottogruppi in un modello simile al Q-test delle tecniche metanalitiche [16] Whithin-Stratum Effects Può essere interessante per chi programma la ricerca e per chi si accinge ad un critical appraisal fissare l' attenzione non tanto sull' esistenza o meno di eterogeneità dei risultati entro tutto il pool di sottogruppi (quesito che -come visto- viene affrontato dalla 'Interaction Analysis' descritta nel capitolo precedente) ma piuttosto sulla necessità di dimostrare se il risultato riscontrato in un singolo sottogruppo sia o meno 'reale' ossia estrapolabile con fiducia alla popolazione generale. In questo caso il quesito è duplice: a. <l' intervento è efficace nell' intera coorte originale (analisi primaria)?> b. <l' intervento è efficace in quel particolare sottogruppo (analisi co-primaria)?> Principio generale: la miglior stima del risultato di efficacia rilevato in un sottogruppo è costituito dalla direzione e dall' intensità del risultato rilevato nella intera coorte [8]. Questa 3

enunciazione apparentemente un po' drastica viene definita da Moyé 'effect domination' [14]. Unica eccezione a questa regola è costituita dai trial in cui sia stata programmata una analisi per sottogruppi specificamente finalizzata a <confirmatory use> (vedi oltre) [14]. Nella maggior parte dei casi questo non viene fatto. Per tale motivo è consigliabile relegare i risultati delle analisi per sottogruppi ad uso <supportive> o <exploratory>, vale a dire a semplice supporto delle conclusioni che si riferiscono all' outcome primario o per fornire ipotesi di lavoro ossia semplici spunti per ulteriori ricerche [14]. Le considerazioni esplicitate nelle righe precedenti mettono in guardia dall' interpretare senza riserve una analisi per sottogruppi. E' in particolar modo molto pericoloso dar credito alla <significatività statistica> rilevata dai test nominai a livello dei singoli sottogruppi. E' stato dimostrato per esempio che quando l' effetto del trattamento sulla coorte generale presenta risultati <significativi> la probabilità di una casuale <significatività> al test nominale in almeno un sottogruppo è pari al 66% [23]. E' particolarmente pericoloso nella fattispecie dar credito a <risultati significativi> di una analisi per sottogruppi in presenza di <risultati non significativi> nella coorte originale [17], a meno che lo studio non sia stato programmato proprio per un <confirmatory use> dell' analisi per sottogruppi (vedi oltre) [14]. Infatti in mancanza di questo requisito l' Errore di Tipo I accettato nel trial è stato speso integralmente per l' analisi primaria [14]. E' stato dimostrato tra l' altro che in presenza di <non significatività statistica> entro la coorte originale la probabilità di un risultato casualmente <significativo> al test nominale in almeno un sottogruppo è pari al 26% [23]. Analisi per sottogruppi per <Confirmatory use>? Le analisi <confirmatory> implicano la necessità di programmare ex ante nel protocollo di ricerca strumenti idonei a fornire una risposta precisa al quesito primario per cui è stato organizzato il trial (vedi anche : Analisi di Outcome Multipli). In pratica è molto difficile che gli autori rispettino queste regole: le analisi per sottogruppi sono il più delle volte organizzate malamente e forniscono -troppo spesso- risultati fuorvianti [8, 14]. Affinchè una analisi per sottogruppi possa essere considerata <confirmatory> occorre a) che non sia gravata da errore random b) che non sia gravata da bias, a questo proposito è particolarmente importante che la scelta del sottogruppo sia appropriata ossia pianificata ex ante e non stabilita ex post (vedi oltre) Per quel che riguarda il punto a) è necessario che i ricercatori abbiano pianificato con precisione le tecniche adottate per mantenere a livelli accettabili l' Errore Random associato all' analisi. A questo riguardo le analisi per sottogruppi sono gravate da notevoli difficoltà. Infatti l' insufficiente numerosità dei soggetti che compongono i vari strati espone ad una grande 'random variation' dei risultati di efficacia (vedi figura 1) le cui di dimensioni e direzioni sono spesso imprevedibili. L' Errore tipo I è garantito anche dalla necessità di eseguire confronti ripetuti entro l' ambito dello stesso campione originale e questa probabilità aumenta con l' aumentare del numero di sottogruppi esaminati. La scarsa numerosità campionaria espone infine queste analisi ad un elevato rischio di errore beta (tabella 1). Le condizioni necessarie perchè una analisi per sottogruppi assuma la dignità di un <confirmatory claim> sono elencate nella tabella 2, che sintetizza gli indirizzi di Moyé [14]. Le modalità dei calcoli riportati nella tabella sono illustrate nel nostro saggio 'Analisi di Outcome Multipli', a cui si rimanda. 4

Tabella 2 - Il protocollo del trial deve pianificare ex ante l' uso <confirmatory> di una analisi per sottogruppi, che va inserita come elemento dell' analisi primaria [14] 1) Quantità di Errore Tipo I accettato per l' analisi primaria (di solito: 0.05) A) end-point primario 1 a) definizione dell' outcome primario 1 b) rischio basale dell' outcome primario 1 (=rischio basale nel braccio di controllo della coorte originale) c) dimensione ipotizzata dell' effetto dell' intervento sull' outcome primario 1 d) livello di errore alfa accettato per l' outcome primario 1 e) potenza statistica accettata per l' outcome primario 1 f) sample size per l' outcome primario 1 (calcolato in base a: c, d, e) 2) Elementi dell' analisi primaria B) sottogruppo utilizzato per <confirmatory use> C) end point primario 2 strato-specifico La pianificazione di una analisi per sottogruppi ad uso <confirmatory> implica la specificazione del sottogruppo considerato nell' analisi primaria. Se viene considerato più di un sottogruppo questi gli strati del campione originale devono essere classificati per rango di importanza. Se viene considerato più di un sottogruppo l' analisi al punto C va ripetuta per ogni sottogruppo. Gli autori devono specificare con chiarezza nel protocollo le condizioni che devono essere rispettate affinché l' ipotesi primaria del trial possa essere soddisfatta. In particolare devono specificare per quali e quanti sottogruppi i risultati relativi all' outcome considerato in ciascuno di essi dovranno essere <significativi e a favore dell' intervento> affinchè l' ipotesi primaria del trial possa essere soddisfatta. a) definizione dell' outcome primario 2 strato-specifico b) rischio basale dell' outcome primario 2 strato specifico (=rischio basale nel braccio di controllo del sottogruppo) c) dimensione dell' effetto prevista per l' outcome primario 2 strato-specifico d) grado di dipendenza dell' outcome primario 2 strato-specifico rispetto all' outcome primario 1 (D 2/1 ) e) livello di Errore per l' outcome primario 2 strato-specifico : va calcolato in base ai valori prestabiliti di Errore Tipo I programmato per l' analisi e in base ai valori di Errore 1 (se più di un sottogruppo: di Errore 1 3 j ) tenendo conto che 1 2 3 j non deve mai superare l' Errore Tipo I programmato per l' analisi primaria f) potenza statistica accettata per l' outcome primario 2 strato specifico g) sample size per l' outcome primario 2 strato specifico (calcolato in base a: c, e, f) Altri elementi di giudizio di una analisi per sottogruppi Da quanto esposto risulta evidente che non esiste massima migliore, nella interpretazione di una analisi per sottogruppi eseguita come di solito viene eseguita nei trial clinici, del "Look, but don't touch" [18]. Nonostante la comunità scientifica abbia spesso ricusato le 'spettacolari' scoperte di alcune di queste analisi (che avrebbero dovuto piuttosto essere attribuite alla casualità del campionamento) [18] esse vengono continuamente riproposte anche nella letteratura recente. In ogni caso un utilizzo prudente di queste analisi implica la necessità di considerare, oltre agli aspetti già esaminati relativi all' errore random, anche altri importanti elementi. 5

Tabella 3 - Differente mortalità vascolare nei pazienti infartuati nati sotto il segno della Bilancia e dei Gemelli nello studio ISIS-2 [12] Mortalità vascolare alla 5 settimana Aspirina (%) Placebo (%) RR Patienti nati sotto il segno della Bilancia e dei Gemelli 150/1357 (11.1) 147/1442 (10.2) 1.09 NS Patienti nati sotto altri segni zodiacali 654/7228 (9.0) 868/7157 (12.1) 0.72 p<0.0001 Test of Interaction: P<0.00001 Overall results 804/8587 (9.4) 1016/8600 (11.8) 0.79 p<0.0001 Uno spettacolare esempio di come i risultati di analisi per sottogruppi possano essere condizionati solo da fattori casuali è rappresentato dalla diversa mortalità a 5 settimane dei pazienti infartuati nati sotto diversi segni zodiacali: lo studio ISIS-2 ha dimostrato infatti una buona risposta all' aspirina solo per chi non è nato sotto il segno della Bilancia e dei Gemelli (tabella 3) [12]. Randomizzazione stratificata Se gli autori della ricerca pianificano una analisi per sottogruppi ritenuta importante per l' interpretazione dei risultati del trial essi dovrebbero considerare l' opportunità di utilizzare per l' allocation concealment tecniche di randomizzazione stratificata [14, 17]. Queste garantiscono l' assegnazione casuale al braccio di intervento e al braccio di controllo di una simile quantità di pazienti per ogni sottogruppo, rimediando alla scarsissima numerosità campionaria che una randomizzazione semplice potrebbe comportare per alcuni strati che nella popolazione originale rappresentano 'fasce estreme'. Pianificazione dell' analisi nel protocollo di ricerca E' molto importante che gli autori specifichino ex ante nel protocollo i motivi per cui hanno scelto di analizzare i sottogruppi considerati dalla loro ricerca. La scelta di un sottogruppo deve essere infatti pianificata in base ad un ragionamento clinico coerente (vedi oltre: plausibilità biologica). In una ricerca prospettica pubblicata nel 1994 era stata ricercata per esempio una correlazione tra lombosciatalgia e tasso di mortalità coronarica [20]. Dei 3648 pazienti seguiti in un follow-up di 13 anni 2486 soggetti avevano segnalato episodi di lombosciatalgia nell' anno precedente l' arruolamento, 1162 soggetti no. Gli autori avevano diviso la casistica in due sottogruppi di età (30-49 anni e 50-66 anni) e avevano riscontrato differenze significative nel tasso di mortalità per i pazienti con anamnesi positiva per lombosciatalgia rispetto ai pazienti con anamnesi negativa per lombosciatalgia ma solo nella fascia di età 30-49 anni. In base ai dati forniti dagli autori (quelli riportati dalla tabella 3) è possibile risalire (approssimativamente, data la approssimazione decimale dei tassi di incidenza) ai dati grezzi riportati nella tabella 4. Si noti che nella casistica in toto non esiste in realtà alcuna differenza significativa nel rischio assoluto di morte coronarica per i soggetti con anamnesi positiva o negativa per lombosciatalgia. Gli autori non specificano nel loro articolo per quale motivo abbiano scelto quelle determinate fasce di età e non è possibile quindi stabilire se la scelta sia stata pianificata ex ante o piuttosto - più probabilmente- rappresenti una scelta data-driven. L' attendibilità di questa analisi appare quindi alquanto discutibile. 6

Tab. 4 Age specific mortality (per 1000 people and 13 years) for Ischemic heart disease according to history of back pain back pain yes Age (years) at beginning of follow up [20] 30-49 50-66 back pain no back pain yes back pain no n 1274 586 1212 576 Mortality Rate 18.1 3.4 P = 0.02 54.5 72.5 P=0.15 Tabella 5 Dati della tabella 5 ricalcolati in modo da poter risalire al RR di morte della casistica in toto CHD death yes CHD death no tot RR CHD death 2 test age30-49 back pain yes 23.0 1251 1274 5.56 P=0.018 back pain no 1.9 584.1 586 age 50-66 back pain yes 66 1146 1212 0.75 P=0.16 back pain no 41.7 534.3 576 age30-66 back pain yes 89 2397 2486 0.95 P=0.86 back pain no 43.6 1118.4 1162 L' autore dell' articolo nella sua introduzione afferma < My purpose was to find out whether patients reporting back pain have an increased risk of dying of ischaemic heart disease when compared with those who have no back symptoms>. Pertanto, per programmare una analisi per sottogruppi <confirmatory use> avrebbe dovuto pianificare un Errore Tipo I considerando sia l' incidenza dell' outcome primario nella coorte originale (outcome primario 1) che l' incidenza dell' outcome primario nei due sottogruppi (outcome primari 2 e 3). Tabella 6 - calcolo dell' Errore Tipo I associato all' analisi per sottotgruppi in [20] La tabella restituisce il valore di in una sensitivity analysis per i valori di D D = grado di interdipendenza tra gli outcome 1,2,3 Outcome considerati nella analisi primaria P nominale 0 0.30 0.70 0.99999 Outcome primario 1 = mortalità per CHD in tutta la coorte 0,86 Outcome primario 2 = mortalità per CHD nel sottogruppo 30-49 a 0,018 0.14 0.13 0.09 0.05 Outcome primario 3 = mortalità per CHD nel sottogruppo 50-66 a 0,16 Il calcolo dell' Errore di tipo I complessivo di questa analisi è stato eseguito con le modalità illustrate da Moyè [14] (per i particolari: vedi anche il nostro saggio 'Analisi di Outcome Multipli') ed è illustrato nella tabella 6. L' analisi per sottogruppi è qui gravata da un Errore Tipo I inaccettabile, in quanto i valori di P coinciderebbero con il 'default' 0.05 solo nella inverosimile condizione di 'totale dipendenza' tra i gruppi (NB: il grado di 'dipendenza' dipende a propria volta 7

dal grado di omogeneità dell' effetto dell' intervento e dal grado di 'coincidenza' ossia dalla misura in cui uno stesso paziente viene contato in ciascuna delle multiple analisi eseguite [14]) Il calcolo di è stato comunque eseguito a puro scopo di esempio: se l' analisi per sottogruppi non è stata programmata ad hoc, in presenza di <non significatività statistica> per l' outcome primario tutto l' errore alfa tollerato per il trial si deve considerare <consumato> per l' analisi primaria [14,17] La pianificazione di una analisi per sottogruppi è quindi ancora più importante quando i ricercatori hanno intenzione di utilizzarla a scopo <confirmatory>. Gli elementi necessari alla pianificazione delle analisi statistiche indispensabili per il controllo dell' Errore di Tipo I associato ai confronti multipli sono illustrati nella tabella 2. Proper vs Improper Subgroups La scelta di un sottogruppo è 'appropriata' solo quando la stratificazione dei pazienti si fonda su caratteristiche rilevabili nelle condizioni 'di base' (= prima della randomizzazione [8,14]). Un 'improper subgroup' è invece costituito da pazienti aggregati in base a variabili rilevate dopo la randomizzazione e potenzialmente influenzate dal trattamento assegnato ai due bracci. L' analisi degli outcome di pazienti 'reponders' o 'non responders' o di pazienti 'compliant' o 'non compliant' rappresentano egregi esempi di analisi di 'improper subgroups' in quanto la risposta alla terapia o la aderenza al trattamento sono spesso indicatori di buona prognosi piuttosto che di efficacia terapeutica [9]. L' analisi eseguita in 'improper subgroups' nello studio sul clofibrato illustrato dalla tabella 4 è famosa per aver rilevato una prognosi peggiore nei pazienti non compliant alla terapia ( anche in quelli che assumono placebo) [9]. Tabella 7 - Differente mortalità in pazienti compliant e non compliant al clofibrato: The Coronary Drug Project Research Group [9] Clofibrato Placebo n. % mortalità n. % mortalità Non compliant 357 24.6 ± 2.3 (22.5) 882 28.2 ± 1.5 (25.8) Compliant 708 15.0 ± 1.3 (15.7) 1813 15.1 ± 0.8 (16.4) Tot. 1065 18.2 ± 1.2 (18.0) 2695 19.4 ± 0.8 (19.5) Con ogni probabilità i pazienti 'compliant' al trattamento sono anche quelli più sensibili alla necessità di adottare stili di vita coerenti con il mantenimento di uno stato di buona salute ed è questo il vero motivo della diversa prognosi individuata da questa ricerca. Purtroppo non è sempre chiaro dalla lettura di un trial se una analisi per sottogruppi è stata basata su sottogruppi definiti ex ante, ex post o durante la raccolta dei dati [1]. Numero di ipotesi testate Qualsiasi tipo di analisi multipla eseguita su un unico campione espone-come visto- ad elevato rischio di Errore di tipo I e quindi ad un elevato rischio di risultati <significativi> solo per caso. Un esempio impressionante di come i risultati di confronti multipli eseguiti entro uno stesso campione possano essere attribuiti al caso è fornita dall' analisi dei 146 sottogruppi dello studio BATH sui betabloccanti: 8

FIGURA 1 numero di sottogruppi differenze tra i tassi di mortalità dei pazienti assegnati all' intervento ( propanololo) e al placebo nei 146 sottogruppi dello studio BATH La distribuzione delle differenze dei tassi di mortalità tra bracci di intervento e bracci di controllo nei singoli strati è espressa da una perfetta curva gaussiana. Nella figura 1 sono raffigurati in nero i sottogruppi appartenenti al tertile inferiore (49 sottogruppi 987 pazienti) in chiaro: sottogruppi appartenenti al tertile superiore (49 sottogruppi di 2174 pazienti) in tratteggiato i sottogruppi appartenenti al tertile medio ( 48 sottogruppi di 988-2173 pazienti). I risultati dei sottogruppi caratterizzati da minor numerosità sono ovviamente quelli caratterizzati da maggior dispersione. Dimensioni dell' effetto Una magnitudo palesemente insolita delle dimensioni dell' effetto rende più plausibile il risultato rilevato in un sottogruppo anche se, ovviamente, non esclude la possibilità di un risultato casuale. Infatti non è sufficiente dar credito ad una analisi per sottogruppi solo in base alle dimensioni dell' effetto e ciò vale soprattutto in presenza di scarsa numerosità dello strato [1]. Significatività dell' effetto La presenza di significatività statistica della differenza dei risultati di efficacia 'between subgroups' è un argomento trattato nell' 'Interaction Analysis' (vedi sopra) ed è ovviamente importante per il riconoscimento di un 'subgroup effect'. Questa osservazione assume un valore ancora maggiore se consideriamo la scarsa potenza statistica dei 'Tests of Interaction', che spesso tende a mascherare la presenza di un reale 'subgroup effect' [14]. La significatività dei risultati dei test nominali eseguiti a livello dei singoli sottogruppi riveste come detto una importanza molto minore. Infatti come abbiamo visto l' Errore di Tipo I è una evenienza particolarmente frequente in questo tipo di analisi che per definizione dovrebbero essere considerate prevalentemente <exploratory>, tanto più se non sono state previste ex ante. 9

La presenza di scarsa numerosità degli strati predispone ovviamente anche ad errori di tipo II. Il calcolo del sample size dovrebbe essere pertanto tarato anche sulla necessità di assicurare alla ricerca una sufficiente potenza statistica per identificare 'subgroup effects' ritenuti ex ante di particolare importanza e tutto ciò dovrebbe essere chiaramente esplicitato dal protocollo dello studio [8]. Il calcolo di un adeguato sample size può essere naturalmente garantito solo da una accurata pianificazione delle analisi per sottogruppi finalizzandole a <confirmatory use> (vedi sopra). Plausibilità biologica dell' effetto La scelta di un sottogruppo dovrebbe essere basata su un ragionamento clinico e/o su esperienze precedenti in quanto la plausibilità biologica dei risultati è un elemento importante per la credibilità dell' analisi. Il protocollo della ricerca dovrebbe pertanto riportare in dettaglio tutte le motivazioni su cui è stata basata quella particolare scelta [19]. Per esempio gli autori potrebbero orientare la scelta verso un determinato sottogruppo da inserire a scopo <confirmatory> nella analisi primaria per il riscontro di una significativa 'interaction' in analisi per sottogruppi eseguita in una ricerca precedente [8]. Per lo stesso motivo il protocollo del trial dovrebbe specificare ex ante e in dettaglio la direzione dell' effetto che la ricerca si propone di dimostrare nel sottogruppo incluso nell' analisi [8]. I ricercatori dovrebbero inoltre classificare i sottogruppi secondo ranghi di plausibilità [8]. Conferma dei risultati in altre esperienze di ricerca La credibilità di una analisi per sottogruppi aumenta se i risultati sono coerenti con quelli di altre esperienze di ricerca. Probabilmente la miglior conferma dell' attendibilità di una 'interaction' rilevata in una analisi per sottogruppi è rappresentata dai risultati di una rigorosa revisione sistematica della letteratura organizzata al fine di rispondere allo stesso quesito [1]. Un esempio della letteratura: lo studio PRAISE Nel 1996 Paker pubblicava uno studio sugli effetti dell' amlodipina nei pazienti con severo scompenso cardiaco (PRAISE-1) [21]. L' end-point primario era rappresentato da mortalità da ogni causa + ospedalizzazione per eventi cardiovascolari maggiori (edema polmonare acuto, severa ipoperfusione, infarto miocardico, tachicardia o fibrillazione ventricolare). L' end-point secondario era rappresentato dalla mortalità per tutte le cause. Il sample size era stato tarato sull' end-point primario per un errore alfa pari a 0.05, per una potenza statistica pari a 0.9 e per una RRR pari a 0.25 dell' incidenza di outcome primario prevista per il gruppo di controllo a un anno (=0.40), prevedendo inoltre un drop-out dell' intera casistica pari al 10%. Lo studio prevedeva in modo esplicito di valutare l' effetto dell' amlodipina, oltre che sull' intera coorte, anche in due separati strati di pazienti caratterizzati da una diversa etiologia dello scompenso cardiaco (ischemica vs non ischemica). Per questo motivo era stata organizzata una randomizzazione stratificata tarata sulla necessità di distribuire un sufficiente numero di pazienti entro questi due sottogruppi. La casistica esaminata dal trial (coorte in toto) era rappresentata da 571 pazienti randomizzati ad amlodipina e da 582 pazienti randomizzati a placebo. Il sottogruppo caratterizzato da etiologia ischemica era rappresentato da 362 pazienti randomizzati ad amlodipina e da 370 pazienti randomizzati a placebo.il sottogruppo caratterizzato da etiologia non ischemica era rappresentato da 209 pazienti randomizzati ad amlodipina e da 212 pazienti randomizzati a placebo. Lo studio prevedeva ex ante l' analisi di altri 14 sottogruppi oltre ai due strati già citati; in questa sede ci limiteremo tuttavia a considerare solo i risultati rilevati nei due strati divisi per etiologia in quanto le conclusioni dell' articolo si basano sulle analisi ad essi riferite. L' abstract dell' articolo riporta che il farmaco non ha dimostrato di peggiorare la morbilità o la mortalità cardiovascolare in pazienti con severo scompenso cardiaco (per la coorte in toto: RRR outcome primario espresso come incidenza cumulativa = 0.09 [0.24-1.1] P=0.31; RRR mortalità espressa come incidenza cumulativa= 0.16 [0.31-1.02] P=0.07) ma che l' effetto era diverso nei due sottogruppi caratterizzati da diversa etiologia. Una Interaction Analysis dimostrava infatti un 'subgroup effect' per la 10

stratificazione in base all' etiologia (per l' end-point primario P=0.04; per l' end-point secondario P=0.004).Infatti mentre nei pazienti con CHF ischemico (analogamente alla coorte in toto) non era stata riscontrata significatività della differenza tra i due bracci nella incidenza dell' end-point primario e secondario (HR outcome primario =1.04 [0.83-1.29]; HR mortalità = 1.02 [0.81-1.29]), nei pazienti con CHF di etiologia non schemica l' amlodipina dimostrava di ridurre significativamente l' incidenza dell' end-point primario e anche dell' end-point secondario (RRR outcome primario= 0.31 [0.02-0.51] P=0.04; RRR mortalità= 0.46 [0.21-0.63] P<0.001). Questa incoraggiante osservazione sull' azione del farmaco sui pazienti scompensati ad etiologia non ischemica meritava a parere degli autori di essere confermata da ulteriori studi. Il critical appraisal di questo articolo, limitato alle conclusioni pubblicate nell' abstract, offre importanti spunti di riflessione. Lo studio non ha dimostrato differenze significative tra i due bracci nell' incidenza dell' outcome primario (P=0.07) e su questa analisi è stato consumata tutta la quantità di Errore Tipo I previsto dal trial (=0.05). Le conclusioni dovevano quindi essere : <non esistono prove a dimostrazione dell' esistenza di diversità tra i due bracci nell' incidenza dell' outcome primario>. In assenza di dimostrazione di efficacia sull' intera coorte gli autori hanno enfatizzato invece i risultati del farmaco sul sottogruppo dei pazienti affetti da scompenso cardiaco non ischemico. Questa analisi poteva essere peraltro giustificata da alcuni validi motivi: primo, i due strati del campione erano stati selezionati ex ante e previsti dal protocollo; secondo, un obiettivo importante ed esplicito della ricerca era proprio valutare l' esistenza di un 'subgroup effect' per questi due strati ( la randomizzazione sra stata stratificata con questo scopo) ; terzo: l' Interaction Analysis aveva fornito risultati tali da confermare la possibilità di un subgroup effect. Nonostante questi presupposti i risultati rilevati dallo studio PRAISE-1 nel sottogruppo di pazienti affetti da scompenso cardiaco di etiologia non ischemica erano in realtà dovuti solo al caso. Lo studio PRAISE-2 [22], organizzato proprio per confermare queste scoperte, valutando l' efficacia dell' amlodipina sulla mortalità dei pazienti affetti da scompenso cardiaco non ischemico non confermava gli spettacolari risultati dello studio PRAISE-1 in quanto l' Odds Ratio di morte rilevato in questa esperienza su una casistica di 1650 pazienti seguiti per 4 anni era =1.09 con P=0.28. Bibliografia [1] Guyatt G, Rennie D Users' guide to the medical literature - A manual for Evidence-Based Clinical Practice JAMA & Archives Journals 2002 ISBN 1-57947-174-9 [2[ Furberg CD, Morgan TM. Lessons from overviews of cardiovascular trials. Stat Med. 1987 6:295-306. [3] Buyse ME Analysis of clinical trial outcomes: some comments on subgroup analyses. Control Clin Trials. 1989 10(suppl 4):187S-194S. [4] Schneider B. Analysis of clinical trial outcomes: alternative approaches to subgroup analysis. Control Clin Trials. 1989 10(suppl 4):176S-186S. [5] Breslow NE, Day NE. Statistical Methods in Cancer Research. Vol 1. The Analysis of Case- Control Studies. Lyon: International Agency for Research on Cancer 1980 122-159. [6] Breslow NE, Day NE. Statistical Methods in Cancer Research. Vol 1. The Analysis of Case- Control Studies. Lyon: International Agency for Research on Cancer 1980 192-246. [7] Beach ML, Meier P. Choosing covariates in the analysis of clinical trials. Control Clin Trials. 1989 10(suppl 4):161S-175S. 11

[8] Yusuf S et al Analysis and interpretation of tratment effects in subgroups of patients in randomized clinical trials JAMA 1991 266:93 [9] The Coronary Drug Project Research Group Influence of adherence to treatment and response of cholesterol on mortality in the Coronary Drug project NEJM 1980 303:1038 [10] Yusuf S et al Selection of patients for randomised controlled trials : implications of wide or narrow eligibility criteria Stat Med 1990 9:73 [11] Simon R et al Methodologic guidelines for reports of clinical trials Cancer Treat Rep 1985 69:1 [12] ISIS-2 Collaborative Group Randimized trial of IV streptokinase, oral aspirin, both or neither among 17.187 cases of suspected acute myocardial infarction Lancet 1988 2:349 [13] Furberg CD, Byington RP What do subgroup analyses reveal about differential response to beta-blocker therapy? The Beta-Blocker Heart Attack Trial experience. Circulation. 1983 Jun;67(6 Pt 2):I98-101 [14] Moyé LA Multiple Analyses in Clinical Trials - Fundamentals for Investigators Springer - Verlag New York 2003 ISBN 10918937 [15] The Antihypertensive and Lipid-Lowering Treatment to Prevent Heart Attack Trial (ALLHAT) Major Outcomes in High-Risk Hypertensive Patients Randomized to Angiotensin-Converting Enzyme Inhibitor or Calcium Channel Blocker vs Diuretic JAMA 2002 288:2981 [16] Björn Dahlöf et al. Prevention of cardiovascular events with an antihypertensive regimen of amlodipine adding perindopril as required versus atenolol adding bendromethiazide as required, in the Anglo- Scandinavian Cardiac Outcomes Trial-Blood Pressure Lowering Arm (ASCOT-BPLA): a multicentre randomised controlled trial' Lancet 2005 366:895 [17] EMEA The European Agency for the Evaluation of Medicinal Products - Evaluation of medicines for human use London 19 september 2002 CPMP/EWP/908/99 [18] Moyé LA, Deswal A Trials within Trials: Confirmatory Subgroup Analyses in Controlled Clinical Experiments Control Clin Trials 2001 22:605 [19] Systolic Hypertension in the Elderly Cooperative Research Group. Rationale and design of a randomized clinical trial on prevention of stroke in isolated systolic hypertension. J Clin Epidemiol 1989 41:1197 12

[20] Penttinen J Back pain and risk of fatal ischaemic heart disease: 13 year follow up of Finnish farmers BMJ BMJ 1994; 309:1267 [21] Packer M et al Effect of amlodipine on morbidity and mortality in severe chronic heart failure NEJM 1996 335:1107 [22] Packer M Presentation of the results of the Prospective Randomized Amlodipine Survival Evaluation-2 Trial (PRAISE-2) at the American College of Cardiology Scientific Sessions, Anaheim, CA, March 15, 2000 [23] Brookes ST et al Subgroup analyses in randomised controlled trials: quantifying the risk of false-positives and falsenegatives Health Technology Assessment 2001 5:33 13