Modelli a effetti misti

Похожие документы
lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Statistica di base per l analisi socio-economica

Il modello lineare misto

Statistica Inferenziale

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Tecniche statistiche di analisi del cambiamento

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Due variabili aleatorie X ed Y si dicono indipendenti se comunque dati due numeri reali a e b si ha. P {X = a, Y = b} = P {X = a}p {Y = b}

Statistica Applicata all edilizia: il modello di regressione

Tecniche statistiche di analisi del cambiamento

Misure Ripetute. Analisi dei dati in disegni di ricerca con misure ripetute. Marcello Gallucci

Introduzione al corso di Econometria

Statistica multivariata Donata Rodi 17/10/2016

Incertezza di Misura: Concetti di Base

SCOPO DELL ANALISI DI CORRELAZIONE

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

Esercitazione del

Intervalli di confidenza

Analisi della varianza

Schema lezione 5 Intervalli di confidenza

Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Introduzione. Eduardo Rossi 2. Marzo Università di Pavia (Italy) Rossi Introduzione Econometria / 11

GENETICA QUANTITATIVA

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

ANALISI DELLA VARIANZA A DUE VIE CON INTERAZIONE Prof. Antonio Lanzotti

La genetica dei caratteri quantitativi

UNIVERSITÀ di ROMA TOR VERGATA

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

Analisi della correlazione canonica

Campionamento La statistica media campionaria e la sua distribuzione. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1

Distribuzioni e inferenza statistica

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

Politecnico di Milano - Scuola di Ingegneria Industriale. II Prova in Itinere di Statistica per Ingegneria Energetica 25 luglio 2011

Importanza delle incertezze nelle misure fisiche

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Statistica Inferenziale

MISURAZIONE. Sistema empirico (SE): ciò che si vuole misurare; costituito da elementi legati tra loro da relazioni

Variabili aleatorie gaussiane

Analisi della Varianza - II

Strumenti di indagine per la valutazione psicologica

8. ANALISI DELLA COVARIANZA (ANCOVA)

si tratta del test del chi-quadro di adattamento e di quello di indipendenza. 1 l ipotesi che la popolazione segua una legge fissata;

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

Facoltà di Economia - Università di Pavia Simulazione Prova Scritta di Statistica Sociale 19 dicembre 2012

ANOVA: ANALISI DELLA VARIANZA Prof. Antonio Lanzotti

Tema d esame del 15/02/12

Corso C Geomatica. Teoria degli errori. Massimiliano Cannata

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

Distribuzioni campionarie

Distribuzione Gaussiana - Facciamo un riassunto -

LEZIONE N. 11 ( a cura di MADDALENA BEI)

Indici di variabilità ed eterogeneità

Statistica. Lezione 4

Esercitazioni di Statistica

PROBABILITÀ SCHEDA N. 7 LA VARIABILE ALEATORIA NORMALE

Gli errori nella verifica delle ipotesi

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Covarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2

Il Capital Asset Pricing Model e lo Arbitrage Pricing Theory

1. Introduzione ai disegni sperimentali. 5. Analisi della regressione lineare. 6. Confronto tra proporzioni di due o più campioni indipendenti

Statistica Matematica 1 - Corso di Studi in Matematica Prova scritta

Il confronto fra medie

Elementi di Statistica

DISTRIBUZIONE NORMALE (1)

LE DISTRIBUZIONI CAMPIONARIE

Analisi dei Dati Tabelle e Grafici

ESERCIZI SULLE CATENE DI MARKOV. Docente titolare: Irene Crimaldi 18/11/2009 P =

I.C. "Puddu" SCUOLA SECONDARIA DI PRIMO GRADO "Don Bosco" Prato A.S Gruppo di ricerca-azione di matematica

10 Quasi esperimenti. Giulio Vidotto Raffaele Cioffi

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Esercizi sulla complessità di frammenti di pseudo-codice

Analisi degli Errori di Misura. 08/04/2009 G.Sirri

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

Test F per la significatività del modello

Analisi Discriminante Strumenti quantitativi per la gestione

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

Транскрипт:

Probabilità e Statistica per l analisi di dati sperimentali Modelli a effetti misti Sviluppo e gestione di Data Center per il calcolo scientifico ad alte prestazioni Master Progetto PRISMA, UniBA/INFN Alessio Pollice Dipartimento di Scienze Economiche e Metodi Matematici Università degli Studi di Bari Aldo Moro [credits: G. Jona Lasinio, S. Arima @ Sapienza Università di Roma] (Master PRISMA) 19/02/14 1 / 15

Introduzione Misure ripetute Fino ad ora abbiamo considerato dati in cui per ogni unità venivano rilevate una variabile risposta Y e k differenti variabili esplicative (Y i, X i1, X i2,..., X ik ) Tuttavia, in molti studi la stessa variabile viene misurata ripetutamente per una stessa unità: misure ripetute nel tempo (dati longitudinali) livello di colesterolo nel sangue misurato più volte nel tempo dopo la somministrazione di un trattamento evoluzione temporale di un titolo azionario dati aventi una struttura di gruppo replicazione di misurazioni in diversi siti (Master PRISMA) 19/02/14 2 / 15

Misure ripetute La variabile risposta di interesse e un insieme di variabili esplicative sono misurate più volte per ogni individuo Tipicamente si è interessati a studiare i cambiamenti nelle ripetizioni e valutare come le variabili esplicative contribuiscono a questi cambiamenti Poiché la variabile risposta è osservata più volte sulla stessa unità, le diverse misurazioni non possono essere considerate indipendenti (neanche condizionatamente rispetto alle variabili esplicative), ma sono tra di loro correlate (Master PRISMA) 19/02/14 3 / 15

Modelli per misure ripetute Le misure ripetute, richiedono l uso di modelli più complessi rispetto a quelli visti fino ad ora. Modelli che tengono conto di 2 relazioni fondamentali: 1 la relazione tra variabile risposta e variabili esplicative (come nel modello di regressione) Y ij = f (X ij ) 2 la struttura di correlazione tra misure ripetute (Master PRISMA) 19/02/14 4 / 15

Modelli per misure ripetute Le misure ripetute, richiedono l uso di modelli più complessi rispetto a quelli visti fino ad ora. Modelli che tengono conto di 2 relazioni fondamentali: 1 la relazione tra variabile risposta e variabili esplicative (come nel modello di regressione) Y ij = f (X ij ) 2 la struttura di correlazione tra misure ripetute Ciò si traduce nella definizione di più parametri: 1 Parametri della regressione β 0, β 1,..., β k (parametri di interesse) 2 Parametri per la struttura di correlazione tra misure ripetute Σ (parametri di disturbo) (Master PRISMA) 19/02/14 4 / 15

Esempio 1: Benthos data Dati rilevati dall istituto degli studi marini olandese nell estate del 2001. In ogni area (beach) sono stati rilevati 5 campioni e per ogni campione sono stati misurate le seguenti quantità: abbondanza di una specie ittica NAP (altezza relativa della stazione di campionamento rispetto al livello medio della marea) esposizione della spiaggia a fattori naturali (sole, maree etc.) (Master PRISMA) 19/02/14 5 / 15

Esempio 1: Benthos data Caratteristiche (variabili) rilevate: 1 R ij l abbondanza delle specie nel sito j della spiaggia i 2 NAP ij valore del NAP per il sito j della spiaggia i 3 Esp i Esposizione della spiaggia i Di che variabili si tratta? Che rappresentazioni grafiche possiamo fare? Cosa vogliamo sapere? A quali domande vogliamo rispondere? (Master PRISMA) 19/02/14 6 / 15

Modello ad intercetta casuale: Motivo 1 Indichiamo con y ij una serie di misurazioni effettuate su un soggetto i in diversi tempi (j) e sia x j una variabile di interesse rilevata per ogni tempo (condizione atmosferica). Nel modello di regressione semplice, si ha: y ij = β 0 + β 1 x j + ɛ ij dove ɛ ij N(0, σ 2 ) 0.0 0.5 1.0 1.5 0 5 10 15 20 Timber data: modello di regressione semplice slippage loads (Master PRISMA) 19/02/14 7 / 15

Modello ad intercetta casuale: Motivo 1 Nel modello di regressione semplice la varianza delle misure ripetute è pari a Var(y ij ) = σ 2 dipende solo dalla varianza dell errore inoltre Cor(y ij, y ij ) = 0 tuttavia misurazioni effettuate in tempi diversi sulla stessa unità sono verosimilmente correlate (Master PRISMA) 19/02/14 8 / 15

Modello ad interecetta casuale: Motivo 2 Supponiamo di voler stimare un modello di regressione semplice: R ij = α + β 1 Beach i + β 2 NAP ij + ɛ ij dove ɛ ij N(0, σ 2 ) Parametri (nota: Beach è un fattore!): α β 1,1,..., β 1,8 (un parametro per ogni spiaggia -1) β 2 σ 2 (varianza dell errore) Siamo veramente interessati a stimare un parametro per ogni spiaggia? (Master PRISMA) 19/02/14 9 / 15

Modello ad interecetta casuale Una possibile soluzione è trattare l effetto della spiaggia come un effetto casuale. Il modello ineare misto include un solo effetto spiaggia, ma assume che la variazione intorno all intercetta, abbia una certa varianza R ij = α + b i + β 2 NAP ij + ɛ ij dove ɛ ij N(0, σ 2 ) e b i N(0, d 2 ) (effetto casuale della i-esima spiaggia) Parametri: α β 2 σ 2 (varianza dell errore) d 2 (varianza dell intercetta casuale) (Master PRISMA) 19/02/14 10 / 15

Modello ad intercetta casuale In questo modello la varianza delle misure ripetute è pari a Var(Rij) = Var(b i + ɛ ij ) = d 2 + σ 2 e la correlazione tra misure ripetute è pari a Cor(b i + ɛ ij, b i + ɛ ij ) = d 2 d 2 + σ 2 Questo modello vincola la varianza delle misure ripetute ad essere la stessa e la covarianza tra tutte le coppie di misurazioni ad essere uguale (compound symmetry structure) (Master PRISMA) 19/02/14 11 / 15

Modello ad intercetta e pendenza casuale 1 Motivo 1: l assunzione di compound symmetry è spesso non realistica specialmente per dati longitudinali: è intuitivo pensare che misurazioni vicine nel tempo siano più correlate rispetto a misurazioni lontane nel tempo 2 Motivo 2: Nell esempio, supponiamo che la relazione tra la ricchezza di specie e il NAP sia differente per ogni spiaggia. Dobbiamo aggiungere un effetto di interazione tra NAP e Beach (ANCOVA). Poiché Beach è un fattore con 9 livelli devo stimare 17 parametri (e non siamo neanche interessati all effetto della spiaggia!) Trattiamo anche l interazione (ossia la pendenza) come effetto casuale (Master PRISMA) 19/02/14 12 / 15

Modello ad intercetta e pendenza casuale R ij = α + b 1i + b 2i NAP ij + ɛ ij dove ɛ ij N(0, σ 2 ), b 1i N(0, d 2 11 ), b 2i N(0, d 2 22 ) e Cov(b 1i, b 2i ) = d 12. Parametri: α σ 2 (varianza dell errore) d 2 11 d 2 22 (varianza dell intercetta casuale) (varianza della pendenza casuale) d 12 (covarianza tra gli effetti casuali) (Master PRISMA) 19/02/14 13 / 15

Modello ad intercetta e pendenza casuale Due tipi di effetti casuali: 1 b i1 : modella l eterogeneità nelle intercette 2 b i2 : modella l eterogeneità nelle pendenze La varianza complessiva è così suddivisa Var(R ij ) = Var(b i1 + b i2 + ɛ ij ) = d1 2 1 + 2d 12 x j + d22x 2 j 2 + σ 2 La covarianza è pari a Cov(R ij, R ij ) = d 2 11 + 2d 12 (x j + x j ) + d 2 22x j x j (Master PRISMA) 19/02/14 14 / 15

Metodi di stima e scelta del modello Stima massima verosimiglianza (ML): tende a sottostimare le varianze Restricted Expected Maximum Likelihood (REML) Scelta del modello 1 Criteri di informazione (AIC e BIC) AIC = 2 log L(θ) + 2p BIC = 2 log L(θ) + 2p log(n) Attenzione: ML e REML portano a risultati diversi per la verosimoglianza L(θ), quindi stimo 2 o più modelli con lo stesso metodo (ML e REML) e scelgo quello con AIC o BIC più basso 2 Test del rapporto delle verosimiglianze - se il modello è stimato mediante REML solo se i modelli da confrontare hanno gli stessi effetti fissi (qualche difficolt in più... meglio evitare!) (Master PRISMA) 19/02/14 15 / 15