Probabilità e Statistica per l analisi di dati sperimentali Modelli a effetti misti Sviluppo e gestione di Data Center per il calcolo scientifico ad alte prestazioni Master Progetto PRISMA, UniBA/INFN Alessio Pollice Dipartimento di Scienze Economiche e Metodi Matematici Università degli Studi di Bari Aldo Moro [credits: G. Jona Lasinio, S. Arima @ Sapienza Università di Roma] (Master PRISMA) 19/02/14 1 / 15
Introduzione Misure ripetute Fino ad ora abbiamo considerato dati in cui per ogni unità venivano rilevate una variabile risposta Y e k differenti variabili esplicative (Y i, X i1, X i2,..., X ik ) Tuttavia, in molti studi la stessa variabile viene misurata ripetutamente per una stessa unità: misure ripetute nel tempo (dati longitudinali) livello di colesterolo nel sangue misurato più volte nel tempo dopo la somministrazione di un trattamento evoluzione temporale di un titolo azionario dati aventi una struttura di gruppo replicazione di misurazioni in diversi siti (Master PRISMA) 19/02/14 2 / 15
Misure ripetute La variabile risposta di interesse e un insieme di variabili esplicative sono misurate più volte per ogni individuo Tipicamente si è interessati a studiare i cambiamenti nelle ripetizioni e valutare come le variabili esplicative contribuiscono a questi cambiamenti Poiché la variabile risposta è osservata più volte sulla stessa unità, le diverse misurazioni non possono essere considerate indipendenti (neanche condizionatamente rispetto alle variabili esplicative), ma sono tra di loro correlate (Master PRISMA) 19/02/14 3 / 15
Modelli per misure ripetute Le misure ripetute, richiedono l uso di modelli più complessi rispetto a quelli visti fino ad ora. Modelli che tengono conto di 2 relazioni fondamentali: 1 la relazione tra variabile risposta e variabili esplicative (come nel modello di regressione) Y ij = f (X ij ) 2 la struttura di correlazione tra misure ripetute (Master PRISMA) 19/02/14 4 / 15
Modelli per misure ripetute Le misure ripetute, richiedono l uso di modelli più complessi rispetto a quelli visti fino ad ora. Modelli che tengono conto di 2 relazioni fondamentali: 1 la relazione tra variabile risposta e variabili esplicative (come nel modello di regressione) Y ij = f (X ij ) 2 la struttura di correlazione tra misure ripetute Ciò si traduce nella definizione di più parametri: 1 Parametri della regressione β 0, β 1,..., β k (parametri di interesse) 2 Parametri per la struttura di correlazione tra misure ripetute Σ (parametri di disturbo) (Master PRISMA) 19/02/14 4 / 15
Esempio 1: Benthos data Dati rilevati dall istituto degli studi marini olandese nell estate del 2001. In ogni area (beach) sono stati rilevati 5 campioni e per ogni campione sono stati misurate le seguenti quantità: abbondanza di una specie ittica NAP (altezza relativa della stazione di campionamento rispetto al livello medio della marea) esposizione della spiaggia a fattori naturali (sole, maree etc.) (Master PRISMA) 19/02/14 5 / 15
Esempio 1: Benthos data Caratteristiche (variabili) rilevate: 1 R ij l abbondanza delle specie nel sito j della spiaggia i 2 NAP ij valore del NAP per il sito j della spiaggia i 3 Esp i Esposizione della spiaggia i Di che variabili si tratta? Che rappresentazioni grafiche possiamo fare? Cosa vogliamo sapere? A quali domande vogliamo rispondere? (Master PRISMA) 19/02/14 6 / 15
Modello ad intercetta casuale: Motivo 1 Indichiamo con y ij una serie di misurazioni effettuate su un soggetto i in diversi tempi (j) e sia x j una variabile di interesse rilevata per ogni tempo (condizione atmosferica). Nel modello di regressione semplice, si ha: y ij = β 0 + β 1 x j + ɛ ij dove ɛ ij N(0, σ 2 ) 0.0 0.5 1.0 1.5 0 5 10 15 20 Timber data: modello di regressione semplice slippage loads (Master PRISMA) 19/02/14 7 / 15
Modello ad intercetta casuale: Motivo 1 Nel modello di regressione semplice la varianza delle misure ripetute è pari a Var(y ij ) = σ 2 dipende solo dalla varianza dell errore inoltre Cor(y ij, y ij ) = 0 tuttavia misurazioni effettuate in tempi diversi sulla stessa unità sono verosimilmente correlate (Master PRISMA) 19/02/14 8 / 15
Modello ad interecetta casuale: Motivo 2 Supponiamo di voler stimare un modello di regressione semplice: R ij = α + β 1 Beach i + β 2 NAP ij + ɛ ij dove ɛ ij N(0, σ 2 ) Parametri (nota: Beach è un fattore!): α β 1,1,..., β 1,8 (un parametro per ogni spiaggia -1) β 2 σ 2 (varianza dell errore) Siamo veramente interessati a stimare un parametro per ogni spiaggia? (Master PRISMA) 19/02/14 9 / 15
Modello ad interecetta casuale Una possibile soluzione è trattare l effetto della spiaggia come un effetto casuale. Il modello ineare misto include un solo effetto spiaggia, ma assume che la variazione intorno all intercetta, abbia una certa varianza R ij = α + b i + β 2 NAP ij + ɛ ij dove ɛ ij N(0, σ 2 ) e b i N(0, d 2 ) (effetto casuale della i-esima spiaggia) Parametri: α β 2 σ 2 (varianza dell errore) d 2 (varianza dell intercetta casuale) (Master PRISMA) 19/02/14 10 / 15
Modello ad intercetta casuale In questo modello la varianza delle misure ripetute è pari a Var(Rij) = Var(b i + ɛ ij ) = d 2 + σ 2 e la correlazione tra misure ripetute è pari a Cor(b i + ɛ ij, b i + ɛ ij ) = d 2 d 2 + σ 2 Questo modello vincola la varianza delle misure ripetute ad essere la stessa e la covarianza tra tutte le coppie di misurazioni ad essere uguale (compound symmetry structure) (Master PRISMA) 19/02/14 11 / 15
Modello ad intercetta e pendenza casuale 1 Motivo 1: l assunzione di compound symmetry è spesso non realistica specialmente per dati longitudinali: è intuitivo pensare che misurazioni vicine nel tempo siano più correlate rispetto a misurazioni lontane nel tempo 2 Motivo 2: Nell esempio, supponiamo che la relazione tra la ricchezza di specie e il NAP sia differente per ogni spiaggia. Dobbiamo aggiungere un effetto di interazione tra NAP e Beach (ANCOVA). Poiché Beach è un fattore con 9 livelli devo stimare 17 parametri (e non siamo neanche interessati all effetto della spiaggia!) Trattiamo anche l interazione (ossia la pendenza) come effetto casuale (Master PRISMA) 19/02/14 12 / 15
Modello ad intercetta e pendenza casuale R ij = α + b 1i + b 2i NAP ij + ɛ ij dove ɛ ij N(0, σ 2 ), b 1i N(0, d 2 11 ), b 2i N(0, d 2 22 ) e Cov(b 1i, b 2i ) = d 12. Parametri: α σ 2 (varianza dell errore) d 2 11 d 2 22 (varianza dell intercetta casuale) (varianza della pendenza casuale) d 12 (covarianza tra gli effetti casuali) (Master PRISMA) 19/02/14 13 / 15
Modello ad intercetta e pendenza casuale Due tipi di effetti casuali: 1 b i1 : modella l eterogeneità nelle intercette 2 b i2 : modella l eterogeneità nelle pendenze La varianza complessiva è così suddivisa Var(R ij ) = Var(b i1 + b i2 + ɛ ij ) = d1 2 1 + 2d 12 x j + d22x 2 j 2 + σ 2 La covarianza è pari a Cov(R ij, R ij ) = d 2 11 + 2d 12 (x j + x j ) + d 2 22x j x j (Master PRISMA) 19/02/14 14 / 15
Metodi di stima e scelta del modello Stima massima verosimiglianza (ML): tende a sottostimare le varianze Restricted Expected Maximum Likelihood (REML) Scelta del modello 1 Criteri di informazione (AIC e BIC) AIC = 2 log L(θ) + 2p BIC = 2 log L(θ) + 2p log(n) Attenzione: ML e REML portano a risultati diversi per la verosimoglianza L(θ), quindi stimo 2 o più modelli con lo stesso metodo (ML e REML) e scelgo quello con AIC o BIC più basso 2 Test del rapporto delle verosimiglianze - se il modello è stimato mediante REML solo se i modelli da confrontare hanno gli stessi effetti fissi (qualche difficolt in più... meglio evitare!) (Master PRISMA) 19/02/14 15 / 15