Analisi multivariata per osservazioni appaiate. Analisi multivariata per osservazioni appaiate

Documenti analoghi
Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Contenuti: Capitolo 14 del libro di testo

Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1

Analisi delle componenti principali

Esercizi di statistica

STATISTICA A K (60 ore)

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2014/2015 II Esonero - 15 Gennaio 2015

distribuzione normale

Introduzione alla statistica non parametrica. Introduzione alla statistica non parametrica

Statistica multivariata Donata Rodi 17/10/2016

Effettuazione di un TEST D IPOTESI. = stima del parametro di interesse calcolata sui dati campionari

Sequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di:

UNIVERSITÀ DEGLI STUDI DI PERUGIA

Vettore (o matrice) casuale (o aleatorio): vettore (o matrice) i cui elementi sono variabili aleatorie

Indice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75

COGNOME.NOME...MATR..

Probabilità e Statistica

Analisi della varianza

STATISTICA (modulo II - Inferenza Statistica) Soluzione Esercitazione I

Indice. Premessa. 1 Introduzione allo studio Ilmetodo Ilimitidellostudio... 3

Intervalli di confidenza

CONFRONTO TRA LA MEDIE DI DUE CAMPIONI INDIPENDENTI

ESERCITAZIONE N. 7 corso di statistica

PROBABILITÀ ELEMENTARE

Inferenza statistica Donata Rodi 04/10/2016

Università di Pavia Econometria. Richiami di Statistica. Eduardo Rossi

per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione

Statistica Applicata all edilizia: Stime e stimatori

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2014/2015 Appello B - 5 Febbraio 2015

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Calcolo delle Probabilità e Statistica Matematica previsioni 2003/04

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Metodi statistici per le ricerche di mercato

Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano

Intervalli di confidenza

lezione 4 AA Paolo Brunori

Esame di Statistica A-Di Prof. M. Romanazzi

Sequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di:

Costruzione di macchine. Modulo di: Progettazione probabilistica e affidabilità. Marco Beghini. Lezione 7: Basi di statistica

Modelli lineari generalizzati

Probabilità e Statistica

Analisi e scelta dei dati di input

Argomenti della lezione:

Esercitazione 8 maggio 2014

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Analisi della regressione multipla

Analisi della varianza: I contrasti e il metodo di Bonferroni

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

V.C. RETTANGOLARE o UNIFORME

V.C. RETTANGOLARE o UNIFORME

Intervalli di confidenza

1.1 Obiettivi della statistica Struttura del testo 2

Test d ipotesi: confronto fra medie

Confronto tra due popolazioni Lezione 6

Modelli di probabilità

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità B

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE. a.a.

Elaborazione statistica di dati

Elementi di statistica per l econometria

ECONOMETRIA: Laboratorio I

Parte 1 : Inferenza. Varianza nota test Z. Distribuzioni asintotiche dei test. Varianza ignota test t ad un campione

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

La verifica delle ipotesi

Statistica Inferenziale

Test delle ipotesi sulla media.

Ipotesi statistiche (caso uno-dimensionale) Ipotesi poste sulla (distribuzione di) popolazione per raggiungere una decisione sulla popolazione stessa

Statistica Inferenziale La verifica di ipotesi. Davide Barbieri

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

Modulo di Statistica e Tecnologia (Dott. Giorgio Poletti

Intervallo di confidenza.

Elaborazione statistica di dati

DISTRIBUZIONI DI CAMPIONAMENTO

Regressione lineare semplice

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Statistica Inferenziale

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Introduzione alla statistica per la ricerca in sanità

Parametri e statistiche. Parametri e statistiche. Distribuzioni campionarie. Popolazione Parametri Valori fissi, Statistiche o Stimatori.

Statistica Applicata all edilizia: il modello di regressione

Analisi della varianza

GENERAZIONE DI NUMERI PSEUDOCASUALI

Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.

Statistica (parte II) Esercitazione 4

Statistica Metodologica

TECNICHE DI SIMULAZIONE

PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2006/07

LA DISTRIBUZIONE NORMALE o DI GAUSS

Problema 1. Cognome, Nome: Facoltà di Economia Statistica Esame 1-20/01/2010: A. Matricola: Corso:

Corso di Statistica Esercitazione 1.8

Verifica delle ipotesi

Presentazione dell edizione italiana

Test d ipotesi Introduzione. Alessandra Nardi

Test delle Ipotesi Parte I

Transcript:

Introduzione Notazione Modello additivo Verifica d ipotesi Sia X una variabile q-dimensionale, a valori reali, non degenere, osservata in k tempi diversi (τ 1, τ 2,..., τ k ), sulle stesse n unità statistiche in due situazioni sperimentali A 1 e A 2, corrispondenti a due livelli del trattamento. L insieme dei dati si può indicare con: X = {X hjit, t = 1,..., k, i = 1,...n, j = 1, 2, h = 1,..., q} = {X jit, t = 1,..., k, i = 1,...n, j = 1, 2} = {X ji, i = 1,...n, j = 1, 2}, dove X rappresenta la variabile risposta q-variata (X 1,..., X q ), l andamento temporale q-variato (X 1,..., X k ) e l intero insieme dei dati.

Notazione Modello additivo Verifica d ipotesi Descrizione formale del problema (1) Rappresentiamo le variabili risposta con un modello additivo X hjit = µ h + µ hit + δ hjt + σ ht (δ hjt ) Z hjit, con t = 1,..., k, i = 1,..., n, j = 1, 2, h = 1,..., q, dove µ h è la costante per la popolazione dell h-esima variabile, µ hit rappresenta l effetto del tempo sull h-esima variabile al tempo t specifico dell i-esima unità, δ hjt rappresenta l effetto nel tempo del trattamento al livello j sull h-esima variabile, σ ht (δ hjt ) > 0 è un coefficiente di scala per la popolazione dell h-esima variabile al tempo t, eventualmente dipendente dal livello del trattamento tramite δ hjt, Z hjit è l errore casuale q-variato, tale che E [Z] = 0.

Notazione Modello additivo Verifica d ipotesi Descrizione formale del problema (2) Supponiamo di voler verificare l efficacia del trattamento. L ipotesi nulla d interesse è quindi { k [ ] } { k } q d H 0 : X 1t = X2t = [δ h2t δ h1t = 0] t=1 t=1 h=1 che equivale alla verifica globale su tutte le sottoipotesi, ovvero { k } q H 0 : H 0ht t=1 h=1 verso l ipotesi alternativa { k [ ] } { H 1 : X 1t < => d k X 2t = t=1 t=1 h=1 in cui almeno una delle ipotesi nulle non è verificata. } q H 1ht

Notazione Modello additivo Verifica d ipotesi Descrizione formale del problema (3) Quindi sotto H 0, le variabili risposta (o profile response) sono scambiabili rispetto ai livelli del trattamento, così che i due profili q-dimensionali X 1t e X 2t, con t = 1,..., k, sono scambiabili entro le unità. Nel caso più generale, alcune delle sottoipotesi che costituiscono l ipotesi alternativa globale possono essere unilaterali, ristrette o bilaterali. La variabile su cui si vuol fare inferenza è la variabile differenza tra le osservazioni relative ai due trattamenti. Assumendo che il modello sia adeguato per descrivere la variabile risposta, le differenze sono date da Y hit = X h2it X h1it = δ h.t + σ ht (δ h2t ) Z h2it σ ht (δ h1t ) Z h1it, in cui t = 1,..., k, i = 1,..., n, h = 1,..., q e δ h.t = δ h2t δ h1t.

Introduzione Test di permutazione Approccio non parametrico In ambito parametrico una soluzione diretta del problema sopra esposto, in presenza di alternative ristrette, risulta piuttosto ostica, soprattutto se le variabili risposta sono di tipo categoriale, non si può assumere la normalità della distribuzione della variabile rilevata, la matrice di varianze e covarianze è ignota. Il problema invece è facilmente risolvibile in ambito non parametrico, utilizzando il metodo delle permutazioni e la combinazione non parametrica dei test parziali.

Caso generale Introduzione Test di permutazione Nei problemi multivariati, la soluzione di permutazione si ottiene applicando un preciso metodo di combinazione non parametrica di test dipendenti. Tale metodo si basa sulla decomposizione delle ipotesi da testare in k, con k > 1, sottoipotesi per ciascuna delle quali si calcola un appropriato test di permutazione parziale, utilizzando poi un processo di simulazione consistente in B ricampionamenti casuali senza reinserimento, tramite condizionamento all insieme dei dati osservati, si ottiene una stima della distribuzione di permutazione della statistica test. Infine i risultati parziali della simulazione condizionata vengono combinati in una statistica test del secondo ordine tramite una funzione reale (misurabile) continua, monotòna decrescente e non degenere.

Introduzione Test di permutazione Dati appaiati (1) La soluzione di permutazione in presenza di campioni dipendenti (dati appaiati) avviene in due fasi: 1 si calcolano kq test di permutazione parziale, 2 si applica il metodo di combinazione non parametrica ai test parziali ottenuti al passo precedente. I test di permutazione parziali sono del tipo dove T ht = ϕ ht ( i Y hit), t = 1,..., k, h = 1,..., q, Y hit sono le differenze osservate unità per unità, variabile per variabile, la funzione ϕ ht corrisponde al valore assoluto oppure al segno + o, a seconda della direzione di H 1ht.

Dati appaiati (2) Introduzione Test di permutazione Assunta la scambiabilità sotto H 0, la distribuzione di permutazione multivariata di T = {T ht, t = 1,..., k, h = 1,..., q} è generata dall assegnazione casuale dei soggetti ai trattamenti A 1 e A 2. Quindi ci sono due permutazioni per ciascun individuo e la cardinalità dello spazio campionario X /Y dove Y = {Y hit, t = 1,..., k, h = 1,..., q} è 2 n. Per ciascuna unità, alla variabile Y hit viene assegnato, con uguale probabilità, il segno + o. La statistica test che si può utilizzare è Y = {[Y hit = Y hit S i, t = 1,..., k, h = 1,..., q], i = 1,..., n} in cui {S i = 2 2 Rnd 1, i = 1,..., n}.

Considerazioni Introduzione Test di permutazione I segni generati casualmente sono invarianti entro le unità rispetto ad h e t e sono indipendenti rispetto alle unità. Questo garantisce che le relazioni di dipendenza siano preservate e l assegnazione casuale dei segni ha uguali effetti nel vettore q-variato delle differenze relative alla stessa unità. Nel caso in cui q = k = 1, le risposte sono omoschedastiche e distribuite normalmente, si utilizza il classico test T di Student per dati appaiati. Il problema per dati appaiati in ambito multivariato può anche essere visto come un test multivariato per la verifica dell ipotesi di simmetria. Infatti, sotto l ipotesi nulla le differenze Y hit sono simmetriche rispetto a 0, per ogni (t, i, h), mentre sotto l alternativa, se si può ancora assumere l ipotesi di omoschedasticità, le variabili sono simmetriche rispetto a {δ h.t }.

Assunzioni sui test parziali Test parziali Funzioni di combinazione Utili funzioni di combinazione Dati appaiati Le assunzioni riguardanti l insieme T = {T i, i = 1,..., k} di test parziali necessarie per la combinazione non parametrica sono: a.1) Tutti i test parziali T i sono marginalmente non distorti, ovvero Pr {T i > T iα X, H 1i } α, α > 0, i = 1,..., k, e significativi per valori grandi, vale a dire che sono stocasticamente più grandi sotto H 1 che sotto H 0. a.2) Tutti i test di permutazione T i sono consistenti, vale a dire che al tendere di n all infinito si ha che Pr {T i > T iα H 1i } 1, α > 0, i = 1,..., k, dove T iα, che si assume finito, è il valore critico di T i al livello α.

Test parziali Funzioni di combinazione Utili funzioni di combinazione Dati appaiati Proprietà delle funzioni di combinazione La combinazione non parametrica prende in considerazione i p-value λ i di permutazione associati ai test parziali T i, i = 1,..., k. Il test combinato di secondo ordine T = ψ(λ 1,..., λ k ) si ottiene tramite una funzione continua, non crescente, univariata, non degenere, reale ψ (0, 1) k R 1. Ogni funzione di combinazione ψ deve soddisfare almeno le seguenti proprietà: i) deve essere non crescente in ogni suo argomento, ovvero ψ(.., λ i,..) ψ(.., λ i,..) se λ i < λ i, i (1,..., k), ii) deve assumere il valore massimo ψ, che potrebbe non essere finito, anche quando solo un argomento raggiunge lo 0, cioè ψ(.., λ i,..) ψ se λ i 0, i {1,..., k}, iii) α > 0, il valore critico di ogni ψ è assunto finito e inferiore strettamente del massimo: T α < ψ.

Test parziali Funzioni di combinazione Utili funzioni di combinazione Dati appaiati Esempi di funzione di combinazione (1) La funzione di combinazione di Fisher T F = 2 log(λ i ). Se tutti i k test parziali sono indipendenti e continui, sotto l ipotesi nulla T F si distribuisce come un χ2 centrale con 2k gradi di libertà. La funzione di combinazione di Tippett T T = max 1 i k (1 λ i), la cui distribuzione sotto l ipotesi nulla, se i k test sono indipendenti e continui, si comporta come il più grande di k valori casuali estratti da una variabile uniforme nell intervallo aperto (0, 1). i

Test parziali Funzioni di combinazione Utili funzioni di combinazione Dati appaiati Esempi di funzione di combinazione (2) La funzione di combinazione di Liptak T L = i Φ 1 (1 λ i ), dove Φ è la c.d.f. di una normale standardizzata. Se le k statistiche test sono indipendenti e continue, sotto l ipotesi nulla T L è normalmente distribuita, con media 0 e varianza k. Una versione della funzione di combinazione di Liptak considera la trasformazione logistica dei p-value: T P = [ ] 1 λi log. λ i i

Test parziali Funzioni di combinazione Utili funzioni di combinazione Dati appaiati Esempi di funzione di combinazione (3) La funzione di combinazione di Lankaster T G = i Γ 1 r,a(1 λ i ), dove Γ 1 r,a è l inversa della c.d.f. di una v.c. gamma centrale con parametro di scala noto a e r gradi di libertà. Se i k test parziali sono indipendenti, la distribuzione nulla di T G è una gamma centrale con parametro di scala a e rk gradi di libertà. Le funzioni di combinazione non parametrica diretta T D = i da considerarare quando tutte le statistiche test parziali sono omogenee e il loro supporto comune asintotico è almeno non limitato a destra. T i,

Test parziali Funzioni di combinazione Utili funzioni di combinazione Dati appaiati Applicazione ai dati appaiati: caso multivariato Nel caso generale, la combinazione non parametrica dei test parziali avviene in due stadi. Ad esempio, si combina prima rispetto al tempo entro ciascuna variabile, T h = ψ 1(T h1, T h2,..., T hk ), con h = 1,..., q, e poi rispetto alle q variabili, T = ψ 2 (T 1,..., T q ). Con ψ 1 e ψ 2 si indicano due appropriate funzioni di combinazione non necessariamente coincidenti. Il procedimento può essere anche eseguito all inverso, ovvero prima si fa una combinazione rispetto alle variabili per ciascun tempo, T t = ψ 2 (T 1t, T 2t,..., T ht ), con t = 1,..., k, e poi rispetto al tempo, T = ψ 1 (T 1,..., T k ). Dato che in genere le funzioni di combinazione non sono lineari, i due metodi di combinazione, T e T, possono produrre risultati pressochè uguali, ma non necessariamente coincidenti.