TRACCIA DI STUDIO. Test di confronto per misure qualitative. Verifica di ipotesi

Transcript

1 TRACCIA DI STUDIO Verifica di ipotesi Nelle analisi statistiche di dati sperimentali riguardanti più gruppi di studio (talvolta più variabili) si pone come ipotesi da verificare la cosiddetta ipotesi zero: quanto riscontrato sperimentalmente quale probabilità ha di verificarsi casualmente, cioè con campioni provenienti da una stessa popolazione? Se la probabilità di un risultato giustificato dalla casualità è modesta, viene rifiutata l ipotesi zero e si pone l ipotesi alternativa: i gruppi non sono omogenei, esistono giustificazioni per una differenza non casuale (i diversi trattamenti sperimentali o la provenienza da popolazioni diverse). La probabilità tollerabile di errore nel rifiutare l ipotesi zero viene detta livello di significatività α e convenzionalmente i livelli di uso comune sono il 5% e l 1%. Rifiutare erroneamente l ipotesi zero comporta un errore di Tipo I; per contro, non rifiutarla quando è falsa porta a commettere un errore di Tipo II con probabilità β. Queste analisi inferenziali si basano sui parametri di distribuzioni teoriche di misure quantitative; in altre situazioni, sono previste tecniche non parametriche. Test di confronto per misure quantitative Differenza tra medie di campioni indipendenti Per il confronto tra due medie, si utilizza il test parametrico denominato t di Student, basato sulle stime campionarie delle medie e delle loro deviazioni standard. Differenza tra medie di campioni dipendenti Quando ogni osservazione di un campione è accoppiata con una sola osservazione di un altro campione (appaiamento dei dati), il test che si utilizza è il t di Student per dati appaiati. La situazione più frequente riguarda misurazioni effettuate sugli stessi soggetti prima e dopo un trattamento. Il test è organizzato in modo da eliminare la variabilità individuale. Test di confronto per misure qualitative Test del chi quadrato per campioni indipendenti Quando si vuole stabilire se due percentuali differiscono oltre la variabilità legata al caso, il test di riferimento per campioni indipendenti è il chi quadrato, basato sulle frequenze assolute del riscontro sperimentale e le frequenze teoriche attese nell ipotesi di una loro distribuzione casuale. Analisi della dipendenza La relazione fra due variabili in un campione può essere analizzata con due tecniche di significato diverso, ma complementari: la correlazione e la regressione. Correlazione lineare La correlazione lineare stabilisce il tipo e il grado di associazione tra due variabili. È negativa se all aumentare di una l altra diminuisce, positiva se si muovono congiuntamente. Il grado di associazione è espresso dal coefficiente di correlazione r, il cui valore è compreso, in termini assoluti, tra zero (nessuna correlazione) e uno (perfetta correlazione). Il coefficiente di determinazione (r 2 ) fornisce l indicazione della percentuale di variabilità di una variabile spiegata dall altra, cioè la forza associativa tra le due. Il riscontro di una associazione statistica non deve però essere identificato come un rapporto di causa ed effetto. Regressione lineare Nel caso di associazione statistica tra due variabili, la regressione lineare ha un significato predittivo in quanto stima i valori di una di esse (definita dipendente) in funzione dell altra (indipendente o predittiva). La retta di regressione rappresenta la migliore stima in base alla relazione tra due variabili, ma possiamo calcolare due rette di regressione a seconda della variabile considerata indipendente. Queste due rette tendono a coincidere quanto più elevato è il grado di associazione tra le variabili, fino a identificarsi quando la correlazione è perfetta.

2 ESERCIZI 1. Nella procedura di verifica di un ipotesi statistica viene assunta come vera l ipotesi zero o ipotesi nulla H 0. Vero o falso? 2. Da che cosa dipende il numero dei gradi di libertà nel contesto del test t di Student? 3. Che tipo di errore si commette se non si rifiuta l ipotesi zero, quando è falsa? 4. Il rapporto relativo alla sperimentazione di un nuovo farmaco evidenzia un efficacia superiore rispetto a quella di un farmaco tradizionale e termina definendo il risultato significativo con p < Il valore 0.05 a che cosa si riferisce? 5. Che cosa identifica la potenza di un test statistico? 6. In uno studio sul tempo di svuotamento gastrico condotto su due campioni di pazienti, uno di controllo e l altro costituito da soggetti edentuli, si sono rilevati i seguenti tempi (in minuti): Controllo Edentuli Verificare, con opportuno procedimento statistico, se i soggetti edentuli presentano un rallentato svuotamento gastrico rispetto ai controlli. 7. Per verificare l efficacia di un nuovo metodo di apprendimento, 15 pazienti con disturbi neurologici e tic in età evolutiva vengono sottoposti a un test valutativo, i cui punteggi si possono considerare quantitativi e seguono una distribuzione normale, prima e dopo un mese di applicazione del nuovo metodo. Il quadro dei punteggi di ciascuno è riportato nella seguente tabella: Prima Dopo Possiamo affermare che il nuovo metodo favorisce l apprendimento dei pazienti? 8. Stabilire se si possano considerare diversi i risultati ottenuti nel reparto (A) rispetto a quelli del reparto (B): Guariti Migliorati Stabili Peggiorati Totale Reparto (A) Reparto (B) Per verificare la preferenza nell uso di prodotti analgesici di largo consumo, si intervistano 120 pazienti chiedendo loro quale sia stato l ultimo prodotto acquistato: 12 rispondono il farmaco A, 30 il B, 18 il C, 8 il D, 48 l E, 4 l F. Verificare se la scelta rientra nella casualità.

3 . Date le seguenti misure: Codice Colesterolo Acido urico paziente (mg/dl) (mg/dl) a) Disegnare un grafico a punti del colesterolo in funzione dell acido urico. b) Che cosa suggerisce il grafico? c) Esiste una correlazione statistica tra le due variabili? d) Utilizzando il colesterolo come variabile dipendente, calcolare l equazione della retta di regressione e interpretarne i parametri. e) Calcolare e commentare il coefficiente di determinazione. 11. Su un campione di feti con differenti età gestazionali sono state valutate ecograficamente le misure della circonferenza cranica: Caso Età gestazionale Circonferenza (settimane) cranica (cm) A B C D E F G H I L a) A quale età gestazionale si prevede il raggiungimento di una circonferenza cranica di 25 cm? b) A quale età gestazionale possiamo ragionevolmente prevedere che la circonferenza cranica sia di 35 cm?

4 RISPOSTE 1. È corretto. In statistica viene valutata la probabilità che il risultato osservato (per esempio, la differenza tra le medie di due gruppi) si verifichi solo in virtù del caso (tenendo conto delle variabilità riscontrate), partendo dal presupposto che i gruppi di confronto provengano da una stessa popolazione. Se la probabilità è superiore al livello di significatività prescelto, il risultato si considera compatibile con la casualità della scelta campionaria; se è invece è inferiore, si rifiuta l ipotesi nulla e si pone l ipotesi alternativa che i campioni provengano da popolazioni diverse (per esempio, che le differenze riscontrate siano giustificate da situazioni o trattamenti diversi). 2. Bisogna considerare se il confronto è tra misure ripetute (dipendenti) oppure se i campioni sono indipendenti. Nel primo caso, i gradi di libertà sono dati dal numero di soggetti meno uno; per il secondo caso, avremo il numero totale di soggetti meno due, cioè n 1 per ciascun gruppo. 3. La conclusione falsa negativa è legata all incapacità di un test statistico di rilevare una differenza reale. Viene definita come errore di Tipo II, al quale è associata la probabilità β. 4. Segnala che la valutazione statistica dei risultati sperimentali ha permesso di rifiutare l ipotesi nulla al livello di significatività α 0.05, vale a dire che la probabilità di commettere un errore di Tipo I nell affermare che il farmaco nuovo è più efficace di quello tradizionale è inferiore al 5%. 5. La potenza di un test statistico è la capacità di rifiutare correttamente l ipotesi nulla, quando esiste una reale differenza tra i valori campionari. In genere, dipende dalla numerosità campionaria ed è complementare all errore di Tipo II, per cui corrisponde a una probabilità 1 β. 6. Dobbiamo effettuare un confronto tra i valori di una variabile quantitativa rilevata su due campioni indipendenti (le misure effettuate su di un campione non sono influenzate dall altro). Nell ipotesi che le distribuzioni siano di tipo normale con varianze omoscedastiche (non significativamente diverse), il test di riferimento è il t di Student per dati indipendenti. Occorre calcolare, per ciascun gruppo, media e devianza e poi applicare la formula per calcolo della statistica t. media Controllo (14) x Edentuli (12) x Devianza Edentuli x 2 ( x) 2 N Devianza Controlli x Ed x C ne t ne d n d n C C Devianza Ed Devianza C n n Ed C Con questo risultato, inferiore al livello critico t (per 24 gradi di libertà e al livello di significatività α 0.05), non è possibile respingere l ipotesi zero che i due campioni provengano da una stessa popolazione, pertanto la differenza riscontrata tra le velocità di svuotamento gastrico dei due campioni è giustificata dalla casualità del campionamento.

5 7. Dobbiamo utilizzare la statistica t di Student per dati dipendenti. Si devono preventivamente calcolare le differenze riscontrate in ciascun paziente, la media delle differenze e la deviazione standard della media. Prima Dopo Differenza d d 15 Differenza d d 2 67 d d 2n ( d) 00 s d n d 1 t n s d 1.93 Il valore critico del t di Student al livello α 0.05 con gradi di libertà è Il nostro valore è inferiore, anche se di poco. Non possiamo respingere l ipotesi zero: affermare che il nuovo metodo aumenta la capacità di apprendimento comporta una probabilità di errore di Tipo I superiore al 5%. Rimane tuttavia il dubbio che, a causa della numerosità modesta del campione, la potenza del test non fosse adeguata a evidenziare una differenza. Prima di abbandonare il nuovo metodo, potrebbe essere ripetuta l esperienza con un campione più numeroso. 8. La variabile in esame è qualitativa, o meglio semiquantitativa, con quattro modalità, per cui non è proponibile un confronto con il test t di Student. Occorre verificare l ipotesi zero di nessuna differenza tra i reparti impiegando il test del chi quadrato. Dopo aver completato la tabella con i totali generali, si calcolano le frequenze attese considerando che, nel caso dell ipotesi nulla, dovremmo riscontrare nei due reparti le stesse proporzioni di casi del risultato complessivo. Con la formula che utilizza i totali marginali, le frequenze attese risultano: guariti del reparto A: FA ,, peggiorati del reparto B: FA La tabella sottostante mostra il quadro generale (in corsivo le frequenze attese): Reparto (A) Reparto (B) Guariti Migliorati Stabili Peggiorati Totale Totale ( ) 2 ( ) 2 (7 6.52) 2 (9 9.13) 2 χ ( ) 2 ( ) 2 (8 8.48) 2 ( )

6 Con (4 1) (2 1) 3 gradi di libertà il valore critico al 5% è χ , superiore a quello ricavato. Non vi è motivo di rifiutare l ipotesi nulla e i risultati dei due reparti si possono considerare corrispondenti. Sono presenti alcune caselle con frequenza bassa, ma tutte le frequenze attese sono superiori a 5. L uso del test è quindi ammesso. 9. Inseriamo in una tabella i dati osservati: Farmaco A B C D E F Totale Preferenze L ipotesi nulla è che non vi sia stata una preferenza per un particolare prodotto. In questo caso, la probabilità di scelta casuale risulta uguale per tutti i farmaci H 0 : P(A) P(B) P(C) P(D) P(E) P(F) 1/6 e le frequenze attese per ciascun farmaco sono 1/ confezioni. Questo è un caso particolare di impiego del test del chi quadrato, riferito a un singolo campione con le frequenze attese calcolate in base a una distribuzione teorica di riferimento. Si può organizzare una tabella delle frequenze e procedere al calcolo del chi quadrato: A B C D E F Totale Frequenze osservate Frequenze attese χ 2 (12 20) 2 20 (30 20) (18 20) (8 20) 2 20 (48 20) 2 20 (4 20) Il valore ottenuto supera il valore critico anche all 1% (con 5 gradi di libertà χ ). È lecito respingere l ipotesi che la scelta sia stata casuale: i pazienti hanno maturato diverse preferenze verso quei farmaci.. a) Da come è posto il quesito, si comprende che deve essere considerata indipendente la variabile acido urico, da inserire quindi sull asse delle ascisse. 280 Colesterolo (mg/dl) Colesterolo = * acido urico Acido urico (mg/dl) b) Il grafico evidenzia una relazione positiva tra le variabili (all aumentare dell acido urico cresce anche il colesterolo), con i dati che tendono a distribuirsi in maniera lineare. Il legame (correlazione) tra le due variabili può essere studiato statisticamente per analizzarne il segno (che dovrà risultare positivo) e il grado. c) Per stimare il coefficiente di correlazione, occorre calcolare, oltre alle abituali sommatorie delle variabili e dei loro quadrati, la sommatoria dei prodotti (xy ).

7 Colesterolo y (mg/dl) Acido urico x (mg/dl) Media x o y x 2 o y xy Sostituendo i dati nella formula xy x y r n x 2 ( n ( n (x) x) 2 2 (y) y) y Per verificare l esistenza di una correlazione che vada oltre la casualità, ovvero rifiutare l ipotesi zero, si ricorre alla distribuzione del t di Student. Considerando che la distribuzione campionaria di r è legata a quella del t con 2 gradi di libertà mediante la relazione: t r ( n 2) 1 2 r Il valore è superiore quello critico al livello α 0.01 con 2 8 gradi di libertà (t 3.355). La correlazione riscontrata è pertanto diversa da zero con una probabilità di errore p < Stessa conclusione si sarebbe raggiunta consultando direttamente la tabella dei valori critici della distribuzione r, sempre con 8 g.l. d) Tra le infinite rette che è possibile tracciare, la retta di regressione è quella che rende minimi gli scarti tra i valori predittivi calcolati con la retta e i valori osservati: è il metodo dei minimi quadrati. I parametri della retta sono: xy x y n b x 2 ( x) n a y bx e l equazione risulta: y x. L intercetta a è il valore previsto della variabile dipendente, in questo frangente il colesterolo, corrispondente allo zero della variabile indipendente, l acido urico. Si tratta di valori puramente matematici, che non hanno alcun senso in quanto al di fuori dell intervallo di ogni logica fisiopatologica. Il coefficiente b (pendenza della retta) indica che per ogni mg/dl di acido urico il colesterolo aumenta in media di mg/dl.

8 e) Il coefficiente di determinazione è il quadrato del coefficiente di correlazione: r Poiché r può assumere qualsiasi valore nell intervallo 1 e 1, r 2 deve essere ovviamente compreso tra 0 e 1. Il coefficiente di determinazione indica che il 97.6% della variazione tra i valori osservati del colesterolo è spiegato dalla sua relazione lineare con l acido urico, mentre il restante % 2.4% è imputabile a fattori non spiegabili con i dati osservati. 11. Come nell esercizio precedente, si preparano le informazioni per stimare i parametri della retta di regressione: Età gestazionale y (settimane) Circonferenza cranica x (cm) Media x o y x 2 o y xy b a L equazione della retta è: y x. a) Inseriamo il valore di 25 cm come variabile indipendente e otteniamo il numero di settimane necessarie: y settimane. b) Per 35 cm saranno necessarie: y settimane. Bisogna però considerare che la retta di regressione è stata calcolata su dati in cui la circonferenza varia tra 20 e 27 settimane, per cui rimane il dubbio sulla relazione al di fuori di questo intervallo: potrebbe non esserci associazione o non essere lineare, oppure non essere adatta la precedente retta di regressione.