Analisi multivariata per osservazioni appaiate. Analisi multivariata per osservazioni appaiate

Introduzione Notazione Modello additivo Verifica d ipotesi Sia X una variabile q-dimensionale, a valori reali, non degenere, osservata in k tempi diversi (τ 1, τ 2,..., τ k ), sulle stesse n unità statistiche in due situazioni sperimentali A 1 e A 2, corrispondenti a due livelli del trattamento. L insieme dei dati si può indicare con: X = {X hjit, t = 1,..., k, i = 1,...n, j = 1, 2, h = 1,..., q} = {X jit, t = 1,..., k, i = 1,...n, j = 1, 2} = {X ji, i = 1,...n, j = 1, 2}, dove X rappresenta la variabile risposta q-variata (X 1,..., X q ), l andamento temporale q-variato (X 1,..., X k ) e l intero insieme dei dati.

Notazione Modello additivo Verifica d ipotesi Descrizione formale del problema (1) Rappresentiamo le variabili risposta con un modello additivo X hjit = µ h + µ hit + δ hjt + σ ht (δ hjt ) Z hjit, con t = 1,..., k, i = 1,..., n, j = 1, 2, h = 1,..., q, dove µ h è la costante per la popolazione dell h-esima variabile, µ hit rappresenta l effetto del tempo sull h-esima variabile al tempo t specifico dell i-esima unità, δ hjt rappresenta l effetto nel tempo del trattamento al livello j sull h-esima variabile, σ ht (δ hjt ) > 0 è un coefficiente di scala per la popolazione dell h-esima variabile al tempo t, eventualmente dipendente dal livello del trattamento tramite δ hjt, Z hjit è l errore casuale q-variato, tale che E [Z] = 0.

Notazione Modello additivo Verifica d ipotesi Descrizione formale del problema (2) Supponiamo di voler verificare l efficacia del trattamento. L ipotesi nulla d interesse è quindi { k [ ] } { k } q d H 0 : X 1t = X2t = [δ h2t δ h1t = 0] t=1 t=1 h=1 che equivale alla verifica globale su tutte le sottoipotesi, ovvero { k } q H 0 : H 0ht t=1 h=1 verso l ipotesi alternativa { k [ ] } { H 1 : X 1t < => d k X 2t = t=1 t=1 h=1 in cui almeno una delle ipotesi nulle non è verificata. } q H 1ht

Notazione Modello additivo Verifica d ipotesi Descrizione formale del problema (3) Quindi sotto H 0, le variabili risposta (o profile response) sono scambiabili rispetto ai livelli del trattamento, così che i due profili q-dimensionali X 1t e X 2t, con t = 1,..., k, sono scambiabili entro le unità. Nel caso più generale, alcune delle sottoipotesi che costituiscono l ipotesi alternativa globale possono essere unilaterali, ristrette o bilaterali. La variabile su cui si vuol fare inferenza è la variabile differenza tra le osservazioni relative ai due trattamenti. Assumendo che il modello sia adeguato per descrivere la variabile risposta, le differenze sono date da Y hit = X h2it X h1it = δ h.t + σ ht (δ h2t ) Z h2it σ ht (δ h1t ) Z h1it, in cui t = 1,..., k, i = 1,..., n, h = 1,..., q e δ h.t = δ h2t δ h1t.

Introduzione Test di permutazione Approccio non parametrico In ambito parametrico una soluzione diretta del problema sopra esposto, in presenza di alternative ristrette, risulta piuttosto ostica, soprattutto se le variabili risposta sono di tipo categoriale, non si può assumere la normalità della distribuzione della variabile rilevata, la matrice di varianze e covarianze è ignota. Il problema invece è facilmente risolvibile in ambito non parametrico, utilizzando il metodo delle permutazioni e la combinazione non parametrica dei test parziali.

Caso generale Introduzione Test di permutazione Nei problemi multivariati, la soluzione di permutazione si ottiene applicando un preciso metodo di combinazione non parametrica di test dipendenti. Tale metodo si basa sulla decomposizione delle ipotesi da testare in k, con k > 1, sottoipotesi per ciascuna delle quali si calcola un appropriato test di permutazione parziale, utilizzando poi un processo di simulazione consistente in B ricampionamenti casuali senza reinserimento, tramite condizionamento all insieme dei dati osservati, si ottiene una stima della distribuzione di permutazione della statistica test. Infine i risultati parziali della simulazione condizionata vengono combinati in una statistica test del secondo ordine tramite una funzione reale (misurabile) continua, monotòna decrescente e non degenere.

Introduzione Test di permutazione Dati appaiati (1) La soluzione di permutazione in presenza di campioni dipendenti (dati appaiati) avviene in due fasi: 1 si calcolano kq test di permutazione parziale, 2 si applica il metodo di combinazione non parametrica ai test parziali ottenuti al passo precedente. I test di permutazione parziali sono del tipo dove T ht = ϕ ht ( i Y hit), t = 1,..., k, h = 1,..., q, Y hit sono le differenze osservate unità per unità, variabile per variabile, la funzione ϕ ht corrisponde al valore assoluto oppure al segno + o, a seconda della direzione di H 1ht.

Dati appaiati (2) Introduzione Test di permutazione Assunta la scambiabilità sotto H 0, la distribuzione di permutazione multivariata di T = {T ht, t = 1,..., k, h = 1,..., q} è generata dall assegnazione casuale dei soggetti ai trattamenti A 1 e A 2. Quindi ci sono due permutazioni per ciascun individuo e la cardinalità dello spazio campionario X /Y dove Y = {Y hit, t = 1,..., k, h = 1,..., q} è 2 n. Per ciascuna unità, alla variabile Y hit viene assegnato, con uguale probabilità, il segno + o. La statistica test che si può utilizzare è Y = {[Y hit = Y hit S i, t = 1,..., k, h = 1,..., q], i = 1,..., n} in cui {S i = 2 2 Rnd 1, i = 1,..., n}.

Considerazioni Introduzione Test di permutazione I segni generati casualmente sono invarianti entro le unità rispetto ad h e t e sono indipendenti rispetto alle unità. Questo garantisce che le relazioni di dipendenza siano preservate e l assegnazione casuale dei segni ha uguali effetti nel vettore q-variato delle differenze relative alla stessa unità. Nel caso in cui q = k = 1, le risposte sono omoschedastiche e distribuite normalmente, si utilizza il classico test T di Student per dati appaiati. Il problema per dati appaiati in ambito multivariato può anche essere visto come un test multivariato per la verifica dell ipotesi di simmetria. Infatti, sotto l ipotesi nulla le differenze Y hit sono simmetriche rispetto a 0, per ogni (t, i, h), mentre sotto l alternativa, se si può ancora assumere l ipotesi di omoschedasticità, le variabili sono simmetriche rispetto a {δ h.t }.

Assunzioni sui test parziali Test parziali Funzioni di combinazione Utili funzioni di combinazione Dati appaiati Le assunzioni riguardanti l insieme T = {T i, i = 1,..., k} di test parziali necessarie per la combinazione non parametrica sono: a.1) Tutti i test parziali T i sono marginalmente non distorti, ovvero Pr {T i > T iα X, H 1i } α, α > 0, i = 1,..., k, e significativi per valori grandi, vale a dire che sono stocasticamente più grandi sotto H 1 che sotto H 0. a.2) Tutti i test di permutazione T i sono consistenti, vale a dire che al tendere di n all infinito si ha che Pr {T i > T iα H 1i } 1, α > 0, i = 1,..., k, dove T iα, che si assume finito, è il valore critico di T i al livello α.

Test parziali Funzioni di combinazione Utili funzioni di combinazione Dati appaiati Proprietà delle funzioni di combinazione La combinazione non parametrica prende in considerazione i p-value λ i di permutazione associati ai test parziali T i, i = 1,..., k. Il test combinato di secondo ordine T = ψ(λ 1,..., λ k ) si ottiene tramite una funzione continua, non crescente, univariata, non degenere, reale ψ (0, 1) k R 1. Ogni funzione di combinazione ψ deve soddisfare almeno le seguenti proprietà: i) deve essere non crescente in ogni suo argomento, ovvero ψ(.., λ i,..) ψ(.., λ i,..) se λ i < λ i, i (1,..., k), ii) deve assumere il valore massimo ψ, che potrebbe non essere finito, anche quando solo un argomento raggiunge lo 0, cioè ψ(.., λ i,..) ψ se λ i 0, i {1,..., k}, iii) α > 0, il valore critico di ogni ψ è assunto finito e inferiore strettamente del massimo: T α < ψ.

Test parziali Funzioni di combinazione Utili funzioni di combinazione Dati appaiati Esempi di funzione di combinazione (1) La funzione di combinazione di Fisher T F = 2 log(λ i ). Se tutti i k test parziali sono indipendenti e continui, sotto l ipotesi nulla T F si distribuisce come un χ2 centrale con 2k gradi di libertà. La funzione di combinazione di Tippett T T = max 1 i k (1 λ i), la cui distribuzione sotto l ipotesi nulla, se i k test sono indipendenti e continui, si comporta come il più grande di k valori casuali estratti da una variabile uniforme nell intervallo aperto (0, 1). i

Test parziali Funzioni di combinazione Utili funzioni di combinazione Dati appaiati Esempi di funzione di combinazione (2) La funzione di combinazione di Liptak T L = i Φ 1 (1 λ i ), dove Φ è la c.d.f. di una normale standardizzata. Se le k statistiche test sono indipendenti e continue, sotto l ipotesi nulla T L è normalmente distribuita, con media 0 e varianza k. Una versione della funzione di combinazione di Liptak considera la trasformazione logistica dei p-value: T P = [ ] 1 λi log. λ i i

Test parziali Funzioni di combinazione Utili funzioni di combinazione Dati appaiati Esempi di funzione di combinazione (3) La funzione di combinazione di Lankaster T G = i Γ 1 r,a(1 λ i ), dove Γ 1 r,a è l inversa della c.d.f. di una v.c. gamma centrale con parametro di scala noto a e r gradi di libertà. Se i k test parziali sono indipendenti, la distribuzione nulla di T G è una gamma centrale con parametro di scala a e rk gradi di libertà. Le funzioni di combinazione non parametrica diretta T D = i da considerarare quando tutte le statistiche test parziali sono omogenee e il loro supporto comune asintotico è almeno non limitato a destra. T i,

Test parziali Funzioni di combinazione Utili funzioni di combinazione Dati appaiati Applicazione ai dati appaiati: caso multivariato Nel caso generale, la combinazione non parametrica dei test parziali avviene in due stadi. Ad esempio, si combina prima rispetto al tempo entro ciascuna variabile, T h = ψ 1(T h1, T h2,..., T hk ), con h = 1,..., q, e poi rispetto alle q variabili, T = ψ 2 (T 1,..., T q ). Con ψ 1 e ψ 2 si indicano due appropriate funzioni di combinazione non necessariamente coincidenti. Il procedimento può essere anche eseguito all inverso, ovvero prima si fa una combinazione rispetto alle variabili per ciascun tempo, T t = ψ 2 (T 1t, T 2t,..., T ht ), con t = 1,..., k, e poi rispetto al tempo, T = ψ 1 (T 1,..., T k ). Dato che in genere le funzioni di combinazione non sono lineari, i due metodi di combinazione, T e T, possono produrre risultati pressochè uguali, ma non necessariamente coincidenti.