Test di Ipotesi Intervallo di confidenza Rossella Baldini

Inferenza Statistica Test di Ipotesi Intervallo di confidenza Rossella Baldini 1

Statistiche o Statistica? Le statistiche mediche sono affermazioni numeriche di contenuto medico: Quante persone ogni anno muoiono per una certa causa, quanti posti letto sono disponibili negli ospedali di una certa area, quanto si è speso per un certo servizio medico. Fatti del genere sono reperibili nelle pubblicazioni ufficiali dei dicasteri della sanità, nazionali o internazionali, nelle relazioni pubblicate sugli esiti delle ricerche, nei libri di testo e nelle monografie su argomenti medici 2

Mentre: La Statistica è la disciplina che si occupa dell analisi in termini quantitativi di fenomeni collettivi (es: reddito dei residenti in Piemonte, età al matrimonio in Francia, ecc.). La Statistica è lo strumento necessario per raccogliere in modo adeguato, sintetizzare con opportuni indici ed interpretare grandi masse di informazioni. Noi ci occuperemo in particolare dell uso della statistica nella ricerca medica, indispensabile ai fini della ricerca. 3

La statistica svolge un ruolo importante in epidemiologia clinica nel determinare la precisione di un fenomeno misurato. Essa permette di distinguere i fenomeni potenzialmente veri da quelli osservati per caso e compatibili con l imprecisione della misura. 4

Qualche volta si sente dire che l informazione statistica contribuisce poco o nulla al progresso della medicina, perché il medico si deve dedicare, di volta in volta, alla cura del singolo paziente, e ogni paziente è DIVERSO da tutti gli altri per vari aspetti importanti. 5

Il progresso della medicina INVECE si basa proprio sui risultati ottenuti valutando, con appositi indicatori statistici, le caratteristiche di GRUPPI di PAZIENTI messi a confronto. Senza dimenticare che il GRUPPO èla somma di tanti INDIVIDUI, ognuno detentore delle informazioni elementari che si vogliono rilevare e analizzare. 6

Se il medico di un ospedale scopre che in una certa circostanza un paziente con emicrania migliora dopo aver bevuto succo di mele, da questa singola osservazione non deve seguire che il succo di mele è una terapia utile nell emicrania. Il medico ha bisogno di informazioni statistiche che dimostrino, per esempio, se in un gruppo di pazienti il miglioramento si registra con più frequenza dopo la somministrazione del succo di mele rispetto a qualche altro trattamento alternativo. 7

Come si misura statisticamente la variabilità? Tutti i dati d'osservazione e le misurazioni di qualsivoglia grandezza fisica comportano delle variazioni. Inoltre, poiché la variabilità individuale èuna proprietà intrinseca di tutti gli esseri viventi, le misure biologiche, più delle misure di altre grandezze fisiche, sono soggette a inevitabili variazioni. 8

Queste variazioni, oltre a derivare dall'imprecisione dello strumento di misura di volta in volta utilizzato, sono dovute alla diversità del parametro considerato fra individui ed anche, nell'ambito dello stesso individuo, da un'occasione all'altra, da un osservatore all'altro ecc 9

SINDROME DEL CAMICE BIANCO Si pensi ad esempio ai valori della pressione arteriosa che, appunto, cambiano da una persona all'altra e, nella stessa persona, cambiano nel tempo a seconda dello stato emozionale ecc. 10

Molti sono i motivi che rendono ogni individuo diverso dall altro. Fattori genetici, età, sesso, condizioni di vita, alimentazione, clima e tante altre variabili esercitano sull'individuo un effetto grande o piccolo. Alcune di queste variabili sono più importanti di altre; tuttavia, è sempre la somma degli effetti di molte cause diverse che rende ogni individuo diverso dall'altro. 11

Di conseguenza la valutazione dei dati biologici necessita di tecniche statistiche utili ad ovviare agli inconvenienti che potrebbero derivare dalla variabilità stessa. Considerando un sistema di assi cartesiani e riportando i risultati di misurazioni di caratteri biologici (es. numero di eritrociti/mm3, età al primo parto, durata della gestazione ecc.) effettuati su una serie di individui diversi, si ottiene spesso una curva particolare con una forma a campana, simile a quella rossa del successivo grafico. 12

La media risente moltissimo dei valori estremi 13

Questo tipo di curva unimodale, viene detta «gaussiana» o «Normale»; essa è simmetrica, cioè tracciando una linea verticale in corrispondenza del valore di massima frequenza, si può dividere la curva in due parti, specularmente uguali. In ogni distribuzione di tipo simmetrico MODA, MEDIA e MEDIANA coincidono 14

Ricorda: MEDIA somma di tutti i valori / il numero delle osservazioni MODA valore più frequente MEDIANA osservazione che occupa la posizione centrale in un insieme di dati 15

Non sempre i dati danno origine a curve simmetriche; talvolta possono essere generate curve più o meno asimmetriche (eventualmente con andamento bimodale o trimodale ecc.). 16

Fra le curve asimmetriche, una di quelle più tipiche originata da misurazioni biologiche assume un andamento simile alla curva verde del grafico L'asimmetria in questo caso riguarda la parte destra della distribuzione e, quindi, la curva si dice «deformata positivamente» in quanto la coda è più prolungata in direzione positiva. 17

La curva che segue la distribuzione della concentrazione di emoglobina assume, invece, un andamento a deformazione negativa. 18

Ricorda: 19

Come si misura statisticamente la variabilità? Molto spesso, negli studi bio-medici, i dati vengono riassunti attraverso il più comune indice di tendenza centrale: la media. In questo caso, per descrivere in maniera completa la popolazione, è sempre necessario dichiarare anche, come indice di variazione, il valore della deviazione standard. 21

Ricorda: La deviazione standard (o scarto quadratico medio) rappresenta la distanza media dei dati dalla loro media. La deviazione standard è un ottimo indice di variabilità dei dati ed è quello usato più comunemente. Più grande sarà la deviazione standard e più grande sarà la dispersione dei dati. 22

Ricapitolando : Tale variabilità non è tuttavia del tutto imprevedibile: infatti, molti fenomeni naturali seguono un modello teorico definito: In ogni misurazione di carattere biologico sono presenti fonti di variazione. curva di distribuzione Normale o Gaussiana. Questo modello è particolarmente utile, in quanto si può usare conoscendo soltanto la media e la deviazione standard. 23

Infatti in una gaussiana il 95% dei dati cade nell intervallo media ± 2 volte la deviazione standard Più precisamente, si può dimostrare che l'intervallo (media ± deviazione standard) comprende il 68% circa dei dati l'intervallo (media ± 2 deviazioni standard) ne comprende il 95% l'intervallo (media ± 3 deviazioni standard) comprende pressoché tutti i dati (99.7%). 24

Nella scienza medica una delle domande più frequenti che sorgono immediatamente quando si viene a conoscenza di un valore di una misura biologica eseguita su un individuo è: si tratta di un valore normale? In medicina il criterio di normalità è, come già visto, (media ± 2 deviazione standard) quindi: normale = frequente anormale = raro 26

Inferenza statistica:. capacità di trarre conclusioni generali (sulla popolazione od universo) utilizzando solo un numero limitato di dati variabili (campione). Solo eccezionalmente conosciamo le caratteristiche della popolazione, di solito dobbiamo stimarle in base alle caratteristiche dei campioni stati estratti dalla popolazione. campioni che sono 27

L'inferenza fa parte di una branca della Statistica che si chiama appunto "statistica inferenziale". Spesso facciamo, più o meno inconsciamente, processi di inferenza, quando "universalizziamo" il contenuto di un certo numero (di solito limitato) di osservazioni. 28

Ad esempio, se il cielo è nuvoloso usciamo con l'ombrello: infatti abbiamo imparato (abbiamo fatto esperienza), dalle giornate nuvolose che si sono succedute nella nostra vita, un principio generale: al cielo nuvoloso segue spesso una giornata di pioggia. In questo caso, inferenza vuol dire anche previsione. In fondo, ciò che chiamiamo esperienza è largamente basato sull'inferenza, che non è altro che un procedimento di generalizzazione dei risultati ottenuti esaminando un campione. INFERENZA GENERALIZZAZIONE DEI RISULATI 29

La statistica inferenziale permette di trarre conclusioni su tutti i dati di una popolazione, quando se ne conoscono solamente pochi, raggruppati in uno o più campioni. 30

E possibile utilizzare solo, ma solamente alcune unità, una frazione limitatissima della popolazione: in termini tecnici, un campione. Ad esempio, per contare i globuli rossi o quelli bianchi di una persona, non è possibile estrarre tutto il sangue per un conteggio totale, ma si effettua un prelievo limitato a pochi centimetri cubici. 32

Nelle sperimentazioni generalmente operiamo con campioni e non con intere popolazioni La non conoscenza delle caratteristiche della popolazione ci obbliga a dover prendere delle decisioni Prendere delle decisioni prevede correre dei rischi 33

Di quali rischi parliamo? Per esempio, valutando l assunzione di un nuovo farmaco possiamo correre i seguenti rischi: 1) 1 Il farmaco fa effetto ma statisticamente non lo vediamo perché la dimensione del campione in studio è ridotta. 2) 2 Il farmaco non fa effetto, ma statisticamente sembra di sì perché la dimensione del campione è grande. 34

Per cautelarsi nei confronti di questi rischi 1) si formulano delle ipotesi 2) si verificano statisticamente 35

Che cosa è una ipotesi? Una ipotesi è un affermazione relativa ad un evento futuro, o comunque ad un evento il cui risultato è sconosciuto al momento in cui l affermazione viene fatta. 36

Che cosa è la verifica di una ipotesi? La verifica di una ipotesi è un procedimento logico dove inizialmente si nega l ipotesi appena formulata (H 0 o ipotesi nulla) e successivamente si valuta la probabilità che la stessa accada 37

Se per esempio testiamo l assunzione di un nuovo farmaco in un gruppo di pazienti rispetto ad un gruppo che assume il farmaco standard (gruppo di controllo): Quando si effettua il confronto fra due o più gruppi di dati, l'ipotesi nulla prevede sempre che non esista alcuna differenza tra i gruppi riguardo al parametro considerato. In altre parole, secondo l'ipotesi nulla i gruppi sono fra loro uguali e le eventuali differenze osservate vanno attribuite al solo caso. 38

Negli studi epidemiologici l obiettivo principale è spesso quello di affermare se le differenze osservate (riguardo a misure epidemiologiche o presunte associazioni fra esposizione e malattie) siano compatibili con una fluttuazione dovuta ad un fatto casuale oppure no. Spesso, quindi, come già detto. si parla di Ipotesi nulla per indicare l ipotesi di base, che è quella in cui non vi sia differenza tra i diversi gruppi considerati. Essa dovrà essere rifiutata o meno dal ricercatore al termine dell indagine campionaria. 39

In sintesi: 40

A che cosa serve un test statistico? E il mezzo utile per verificare quanto i dati a disposizione siano o meno a favore della mia ipotesi o dell ipotesi nulla 41

Questa procedura formale, chiamata test di significatività, èuno dei metodi e criteri più importanti dell inferenza statistica. 42

Come sempre avviene, i risultati di un test statistico non hanno un valore di assoluta e matematica certezza, ma soltanto di probabilita Pertanto, una decisione di respingere l'ipotesi nulla (presa sulla base del test statistico) è probabilmente giusta, ma potrebbe essere errata. La misura di questo rischio di cadere in errore si chiama livello di significatività del test. 43

Il livello di significatività 5% viene adottato molto frequentemente in quanto si ritiene che il rapporto 1/20 (cioè 0.05) sia sufficientemente piccolo da poter concludere che sia «piuttosto improbabile» che la differenza osservata sia dovuta al semplice caso. In effetti, la differenza potrebbe essere dovuta al caso, e lo sarà 1 volta su 20. Tuttavia, questo evento è «improbabile». Ovviamente, se si vuole escludere con maggiore probabilità l'effetto del caso, si adotterà un livello di significatività inferiore (es. 1%). 45

Significatività statistica e significatività clinica E importante comprendere la distinzione tra significatività statistica e significatività clinica o rilevanza medica. La SIGNIFICATIVITÀ CLINICA indica l importanza dell effetto clinico atteso in un attività medica. La SIGNIFICATIVITÀ STATISTICA esprime la probabilità che un effetto clinico osservato (o un effetto più rilevante) sia dovuto al caso In genere, un valore di p < 0,05 è statisticamente significativo 46

L analisi di un grande insieme di dati potrebbe fornire una prova altamente significativa di una deviazione dall ipotesi nulla, e tuttavia la differenza potrebbe non avere un importanza pratica, perché l effetto clinico è irrilevante. Al contrario, un altra indagine può non dimostrare un effetto significativo, forse a causa delle piccole dimensioni dello studio o dell eccessiva variabilità casuale; e tuttavia può essere presente un effetto tanto grande da essere importante: il disegno dell indagine potrebbe essere stato troppo poco sensibile per rilevarlo. 47

L analisi statistica degli studi clinici è basata sul concetto che si possano eseguire osservazioni su un campione di soggetti e da questo si possano compiere inferenze sulla popolazione. 48

Ciò che è stato considerato nell ambito delle ipotesi può essere inquadrato da un diverso punto di vista, che porta ad un altro importante concetto Invece di chiedere: dell inferenza statistica. il nuovo farmaco reca benefici a chi è affetto da una certa patologia rispetto al trattamento esistente? la domanda può essere: quanto maggiore è l efficacia del nuovo trattamento, rispetto al trattamento esistente, per coloro che sono affetti da una certa patologia? 49

Alla domanda si potrebbe rispondere fornendo una singola cifra chiamata stima puntuale. Ma occorrono anche indicazioni sull accuratezza della stima, che è data dall intervallo di confidenza che ha una certa probabilità (coefficiente di confidenza) di contenere il valore vero del parametro della popolazione. 50

Come la variabilità di una serie di misure è indicata dalla deviazione standard, così la variabilità di un valore statistico (es. una percentuale, una media ecc.) calcolata su un campione è indicata dall'errore standard. Attenzione a non confondere l'errore standard con la deviazione standard: l'errore standard descrive l'incertezza nella stima di una media (o di una proporzione), mentre la deviazione standard descrive la variabilità di misure effettuate della popolazione. 51

Esempio Sono stati pesati singolarmente 100 boxer. Il peso medio è risultato pari a 95.2 kg. Sui 100 valori del peso di ciascun individuo si può calcolare la deviazione standard. Sulla media ottenuta si può invece calcolare l'errore standard. 52

L'errore standard è un valore che è direttamente correlato alla variabilità della misura ottenuta: tanto più piccolo è l'errore standard, tanto minore è la variabilità della misura e quindi tanto più attendibile è la statistica. 53

Misura la variabilità fra le singole osservazioni del fenomeno che si sta studiando, come ad es. la concentrazione alcolica ematica in un campione di automobilisti, ed è quindi un indice descrittivo. E quindi pertinente quando interessa conoscere la variabilità fra le singole osservazioni. Fornisce, invece, una misura dell incertezza propria di un campione statistico. Ad es., l errore standard della media calcolata sul campione di automobilisti come stima del valore medio della popolazione di tutti gli automobilisti. E pertinente, quindi, quando dobbiamo utilizzare statistiche riassuntive quali medie, proporzioni, ecc. DEVIAZIONE STANDARD ERRORE STANDARD 54

L'errore standard rappresenta un parametro fondamentale, che viene comunemente impiegato per il calcolo degli intervalli di confidenza. L intervallo di confidenza è molto utile per avere un'idea della vera caratteristica della popolazione che stimiamo attraverso lo studio di un campione. Per campioni ragionevolmente ampi (almeno 50-60 osservazioni), valgono le seguenti relazioni fondamentali: 55

L'intervallo di confidenza può essere collocato al livello di probabilità da noi desiderato; comunemente si utilizza un intervallo con probabilità pari a 0.95 o 0.99. Ci si può esprimere anche in probabilità percentuale, ed allora si dirà «intervallo di confidenza al 95%» o «intervallo di confidenza al 99%». Che cosa significa l'espressione «confidenza 95%» o «intervallo di confidenza al 95%» o «intervallo di confidenza 95%»? In parole povere, anche se non del tutto esatte, si può dire che «confidenza 95%» indica che vi è una probabilità del 95% che l'intervallo trovato includa la vera caratteristica della popolazione. 57

Ecco una definizione migliore (ma anche un po' più difficile da assimilare): «confidenza 95%» significa che se ripetessimo la stessa indagine per 100 volte con gli stessi metodi (ma su 100 campioni diversi), probabilmente otterremmo ogni volta una stima diversa; tuttavia, il vero valore della popolazione sarebbe all'interno del nostro intervallo di confidenza 95 volte su 100. In altre parole, l'intervallo di confidenza è stato ottenuto con un metodo che fornisce un risultato corretto nel 95% dei casi. 58

Numerose ricerche in ambito medico sono condotte con l obiettivo di confrontare due gruppi, ognuno dei quali può essere considerato un campione tratto da una popolazione più ampia a cui siamo interessati. 59

esempio In un campione di pazienti, è stata calcolata la variabilità della proporzione di individui colpiti da una certa malattia. In quell'esempio, la prevalenza era pari a 0.35 (era malato il 35% dei pazienti) e l'errore standard di questa proporzione era pari a 0.0754 (7.54%). Pertanto, conoscendo l'errore standard possiamo stimare che la proporzione di ammalati nella popolazione sia compresa fra i seguenti limiti: limite inferiore: 0.35-0.0754 = 0.2746 = 27.5% limite superiore: 0.35 + 0.0754 = 0.4254 = 42.5% 60

L intervallo di confidenza così calcolato (valore statistico +/- 1 volta l errore standard) fornisce una confidenza del 68% CIRCA, TROPPO BASSA PER ESSERE DI UNA QUALCHE UTILITA PRATICA. Possiamo procedere, invece, come segue: limite inferiore: 0.35 (2*0.0754) = 0.199 = 19.9% limite superiore: 0.35 + (2*0.0754 )= 0.508 = 50.1% 61

In conclusione, possiamo affermare che abbiamo una «confidenza 95%» che la percentuale di positività nella popolazione sia compresa fra 20% e 50% (notare che il campione era composto soltanto da 40 individui, e quindi questa stima può non essere del tutto attendibile). 62

In conclusione Una misura epidemiologica campionaria non è sufficiente per avere un idea precisa del fenomeno considerato; è auspicabile infatti quantificare la variabilità campionaria indicando l intervallo di valori che contenga tutti quelli compatibili con le osservazioni raccolte. I limiti estremi di questo intervallo di variazione attorno alla misura osservata vengono denominati intervalli di confidenza o limiti di confidenza. 63

Essi rappresentano l intervallo entro cui è compreso il valore reale del parametro esaminato, con un certo margine di certezza (o livello di confidenza). Il livello di confidenza viene normalmente fissato al 95%. Ad esempio un RR=2,3 con L.C. (1,3 2,9) indica che la stima del RR ottenuta dallo studio è 2,3 e che si può essere certi al 95% che il vero Rischio relativo è non inferiore a 1,3 e non superiore a 2,9. 64

L ampiezza dell intervallo di confidenza dipende dalla variabilità campionaria e quindi dalla dimensione del campione. Più è grande il campione in studio, più stabile sarà la stima e più stretto sarà l intervallo di confidenza. 65

L intervallo di confidenza è collegato al livello di significatività p Se nell intervallo di confidenza di una stima di un RR è incluso il valore 1 allora il valore di p corrispondente sarà maggiore di 0,05 e l associazione non potrà essere considerata statisticamente significativa. Il frequente utilizzo del concetto di significatività statistica non deve far dimenticare che è un indicazione che si basa sul concetto di probabilità. 66

Quindi un risultato statisticamente significativo non esclude in maniera categorica che, per effetto del caso, si sia potuto riscontrare un risultato così estremo e, al contrario, l assenza di significatività statistica ad un determinato livello (es. 95%) non esclude che una maggiore dimensione campionaria possa portare ad evidenziare risultati significativi. 67

BIBLIOGRAFIA Armitage P., Berry G., Statistica Medica, Mc Graw-Hill Libri Italia, Milano, 1996. Signorelli C., Igiene Epidemiologia Sanità Pubblica, Società Editrice Universo, Roma, 2005. 68