Analisi della varianza

Università degli Studi di Padova Facoltà di Medicina e Chirurgia Facoltà di Medicina e Chirurgia - A.A. 2009-10 Scuole di specializzazione Lezioni comuni Disciplina: Statistica Docente: dott.ssa Egle PERISSINOTTO Giovedì 3 giugno 2010 Analisi della varianza 1

PROBLEMA QUESITO SCIENTIFICO DISEGNO DELLO STUDIO VARIABILE ESITO (OUTCOME) Variabile dipendente VARIABILE PREDITTORE Variabile indipendente SCELTA DEL TEST STATISTICO 2

COMPLESSITÀ DELL ANALISI (2) Univariata Media, Mediana, moda, range, percentili, deviazione standard Bivariata - t-test, chi-quadrato, correlazione, Kaplan-Meier Multivariabile Regressione logistica multipla, regressione lineare multipla, regressione con modelli a rischio proporzionale Multivariata Correlazioni canoniche, analisi fattoriale, componenti principali 3

Variabile indipendente Variabile dipendente Tipo di test Dicotomica Politomica Dicotomica Politomica Chi-quadrato, z-test, test esatto di Fisher, test di McNemar Chi-quadrato Ordinale Dicotomica Chi-quadrato,Test per il trend Dicotomica Continua T-test Politomica Continua Analisi della varianza, confronti multipli Continua Continua Correlazione, Regressione 4

CONFRONTI TRA GRUPPI VARIABILI CONTINUE Per scegliere l appropriato metodo d analisi si devono considerare più fattori: Numero di gruppi di osservazioni: o 1 o 2 o più di 2 gruppi di osservazioni o indipendenti gruppi di unità statistiche non associati tra loro (i gruppi possono aver differenti numerosità) o dipendenti ogni gruppo di osservazioni è eseguito sullo stesso set di individui (i gruppi hanno la stessa numerosità). Tipicamente si tratta di rilevazioni effettuate sugli stessi soggetti prima e dopo un certo evento. Caso particolare è l appaiamento. 5

Distribuzioni dei dati per gruppi indipendenti, i test parametrici richiedono che la variabile sia distribuita normalmente all interno dei gruppi e che la deviazione standard dei vari gruppi sia simile (omoscedastica). Nel caso la variabile non fosse distribuita normalmente si può porvare ad operare una trasformazione dei dati. Se la trasformazione non fosse efficace, bisogna ricorrere a metodi di analisi non parametrici. L oggetto del quesito può trattarsi di un quesito di stima o di verifica d ipotesi 6

Assunti per i test parametrici Le variabili osservate devono essere misurabili su una scala per intervallo Le osservazioni campionarie devono essere indipendenti, ovvero il campione deve essere casuale Le osservazioni devono appartenere a popolazioni distribuite normalmente Molti test parametrici sono abbastanza robusti da sopportare lievi deviazioni da alcune di questi postulati, soprattutto quando la numerosità campionaria è sufficientemente elevata. 7

Test non parametrici Un test non parametrico è un test il cui modello non precisa condizioni circa i parametri della popolazione da cui proviene il campione studiato Vantaggi dei test non parametrici Assunti meno restrittivi Possibilità di impiego anche con piccoli campioni Analisi di ranghi Svantaggi dei test non parametrici Meno potenti a parità di informazione 8

TEST PARAMETRICI T di Student (2 campioni indipendenti) T di Student (2 campioni dipendenti- dati appaiati) Analisi della Varianza ad 1 criterio (+ di 2 campioni indipendenti) Analisi della Varianza a 2 criteri TEST NON PARAMETRICI Mann-Whitney (2 campioni indipendenti) Wilcoxon (2 campioni dipendenti- dati appaiati) Kruskal-Wallis (+ di 2 campioni indipendenti) Friedman 9

Gittata cardiaca in L/min in soggetti alimentati secondo diversi tipi di dieta seq 1 2 3 4 5 6 7 Dieta Standard 4.6 4.7 4.7 4.9 5.1 5.3 5.4 Dieta con elevato introito di Carboidrati 4.6 5.0 5.2 5.2 5.5 5.5 5.6 L/min 6 5 4 3 2 1 0 Standard Carboidrati Esiste associazione tra il tipo di dieta e la gittata cardiaca? La differenza tra la gittata cardiaca media di soggetti alimentati con dieta standard e quella di soggetti con elevato apporto di carboidrati è significativa? 10

Verifica d ipotesi su una variabile di tipo quantitativo su scala rapporto usando 2 campioni indipendenti ASSUNZIONI 1. Campioni casuali seq 1 Dieta Standard 4.6 Dieta con elevato introito di Carboidrati 4.6 2. Variabile distribuita normalmente 3. Varianze omogenee (stessa varianza) 2 3 4 5 6 4.7 4.7 4.9 5.1 5.3 5.0 5.2 5.2 5.5 5.5 7 5.4 5.6 Media 5.0 5.2 DS 0.32 0.35 Varianza 0.099524 0.122381 12

13 2 1) ( 1) ( dove : s 1 1 2 2 2 2 + + = + = + y x y y x x y x y x n y n x n n s n s n n n s M M t Si vuole verificare se il la gittata cardiaca media dei soggetti con dieta standard sia diversa da quella dei soggetti con dieta basata su carboidrati ad un livello di significatività α=0,05. H 0 : µ M = µ O H 1 : µ M µ O S S C C

5.0 5.2 t20 = = 1.51( p = 1 1 0.33 + 7 7 0,15) Al livello di significatività del 5% la gittata cardiaca media dei soggetti con dieta standard non è diversa da quella dei soggetti con dieta basata su carboidrati 14

CONFRONTO TRA PIU DI DUE GRUPPI DI OSSERVAZIONI VARIABILE QUANTITATIVA Nonostante questa analisi si proponga di confrontare valori medi delle distribuzioni di più di due gruppi di osservazioni, il suo nome fa riferimento alla varianza ANOVA: ANalysis Of VAriance. Se i gruppi sono individuati sulla base di una sola variabile indipendente, essa prende il nome di Analisi della Varianza ad un criterio di classificazione 16

Esiste associazione tra il tipo di dieta e la gittata cardiaca? La gittata cardiaca media di soggetti alimentati con differenti tipi di dieta è significativamente differente? seq Dieta Standard Dieta con elevato introito di Carboidrati Dieta con elevato introito di Proteine Dieta con elevato introito di Fibre 1 4.6 4.6 4.3 4.3 2 4.7 5.0 4.4 4.4 3 4.7 5.2 4.9 4.5 4 4.9 5.2 4.9 4.9 5 5.1 5.5 5.1 4.9 6 5.3 5.5 5.3 5.0 7 5.4 5.6 5.6 5.6 Media 5.0 5.2 4.9 4.8 DS 0.32 0.35 0.46 0.45 Varianza 0.099524 0.122381 0.215714 0.2 17

Campioni sono indipendenti 18

6 5 4 L/min 3 2 1 0 Standard Carboidrati Proteine Fibre 19

N k N - k 27

Il test è basato sul confronto tra la varianza tra trattamenti e la varianza d errore. -Se l ipotesi nulla è vera, le due varianze dovrebbero essere molto simili tra loro, mentre -se l ipotesi nulla è falsa, la varianza tra trattamenti dovrebbe essere molto più grande della varianza d errore. 30

Se le medie sono tutte uguali, la varianza tra i gruppi e la varianza entro gruppi dipendono esclusivamente dalla variabilità esistente tra i dati, esse quindi sono la stima della stessa varianza vera e dovrebbero assumere lo stesso valore. 32

Esempio Gittata cardiaca H 0 : µ 1 =µ 2 =µ 3 =µ 4 H 1 : le µ i non sono tutte uguali Sorgente di variazione GdL Stima della varianza F p SS Tra gruppi = 0.6814 K-1=4-1=3 0.2271 1.4 0.26 SS Entro gruppi = 3.8257 N-K=28-4=24 0.1594 SS Totale = 4.5071 N-K=27 34

Se si volessero evidenziare tutte le possibili differenze tra le medie, non è corretto ricorrere al test t di Student per ripetere l analisi tante volte quanti sono i possibili confronti a coppie [K. (K-1)/2] tra i gruppi. Per ogni applicazione del test t si userebbe solo una parte dei dati, e se i confronti sono numerosi, la probabilità complessiva che almeno uno di essi si dimostri significativo solo per effetto del caso è maggiore. Se α è la probabilità che una differenza risulti significativa quando nella realtà non lo è, (1- α) è la probabilità è la probabilità che una differenza risulti non significativa quando nella realtà non lo è. Per n confronti, la probabilità che nessun confronto risulti significativo è (1- α) n. 35

Es. α=0,05 1-α =0,95 10 confronti 0,95 10 =0,60 probabilità che nessun confronto risulti casualmente significativo 1-0,60 =0,40 probabilità che casualmente almeno un confronto risulti significativo 36

I confronti specifici tra medie di gruppi differenti possono essere: a priori (pianificati od ortogonali). I confronti sono pianificati in fase di programmazione confronti multipli a posteriori (post hoc) eseguono tutti i possibili confronti tra le medie alla ricerca di una qualche differenza significativa (da eseguirsi solo dopo che l analisi della varianza ha permesso di respingere l ipotesi di uguaglianza tra le medie) 37

Tecniche per i confronti multipli: Bonferroni (la probabilità di ogni confronto deve essere minore di α/k) test di Tukey test di Scheffé test di Dunnett test di Duncan 38