Analisi della varianza

Documenti analoghi
Analisi della varianza

Argomenti della lezione:

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

Confronto tra due popolazioni Lezione 6

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

Test d ipotesi: confronto fra medie

Analisi della varianza a una via

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson Apogeo

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson. Casa editrice: Pearson

Premessa: la dipendenza in media

Strumenti di indagine per la valutazione psicologica

Caratterizzazione dei consumi energetici (parte 3)

INFERENZA STATISTICA I (CANALE B)

INFERENZA STATISTICA I (CANALE B)

Analisi della varianza: I contrasti e il metodo di Bonferroni

Test F per la significatività del modello

Contenuti: Capitolo 14 del libro di testo

Analisi della Varianza - II

Regressione lineare semplice

Statistica Inferenziale

Intervallo di confidenza

Ipotesi statistiche (caso uno-dimensionale) Ipotesi poste sulla (distribuzione di) popolazione per raggiungere una decisione sulla popolazione stessa

Analisi della varianza

STATISTICA ESERCITAZIONE 13

Modelli Log-lineari Bivariati

ESAME. 9 Gennaio 2017 COMPITO B

Esercitazione 8 del corso di Statistica 2

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Statistica Applicata all edilizia: il modello di regressione

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Confronto tra più di due campioni

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Test per l omogeneità delle varianze

ANALISI DELLA VARIANZA A DUE VIE CON INTERAZIONE Prof. Antonio Lanzotti

ESERCIZIO 1. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con 3 fattori tra i soggetti.

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. La distribuzione t - student

Corso di Psicometria Progredito

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

LEZIONI DI STATISTICA MEDICA

Verifica delle ipotesi: Binomiale

DISTRIBUZIONI DI CAMPIONAMENTO

Ulteriori applicazioni del test del Chi-quadrato (χ 2 )

Test delle Ipotesi Parte I

Verifica di ipotesi: approfondimenti

La verifica delle ipotesi

Livello di esposizione. animale Basso Moderato Alto

ANOVA: ANALISI DELLA VARIANZA Prof. Antonio Lanzotti

Minimi quadrati vincolati e test F

Approssimazione normale alla distribuzione binomiale

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Distribuzioni e inferenza statistica

Distribuzioni campionarie

Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Istituzioni di Statistica e Statistica Economica

Questo calcolo richiede che si conoscano media e deviazione standard della popolazione.

Il test (o i test) del Chi-quadrato ( 2 )

Analisi della regressione multipla

Il confronto fra medie

L analisi della Varianza (ANOVA): i disegni fattoriali tra i soggetti

Statistica Inferenziale

Test d ipotesi. Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona. Ipotesi alternativa (H 1 )

Inferenza statistica Donata Rodi 04/10/2016

UNIVERSITÀ DEGLI STUDI DI PERUGIA

Statistica. Alfonso Iodice D Enza

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Distribuzioni di probabilità

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

Statistica. Alfonso Iodice D Enza

Casa dello Studente. Casa dello Studente

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

Gestione ed Analisi Statistica dei dati

STATISTICA A K (60 ore)

Capitolo 5 Confidenza, significatività, test di Student e del χ 2

Tecniche statistiche di analisi del cambiamento

VARIETÀ. zona geografica A B C D

Note sulla probabilità

Intervalli di confidenza

Schema lezione 5 Intervalli di confidenza

CONFRONTI MULTIPLI TEST HSD DI TUKEY

Franco Ferraris Marco Parvis Generalità sulle Misure di Grandezze Fisiche. Prof. Franco Ferraris - Politecnico di Torino

CORSO DI LAUREA IN INFERMIERISTICA. LEZIONI DI STATISTICA Parte II Elaborazione dei dati Variabilità

TEST NON PARAMETRICO DI MANN-WHITNEY

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA.

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Elementi di Psicometria con Laboratorio di SPSS 1

X Lezione Analisi della varianza Esempi e esercizi CPS - Corso di studi in Informatica II parte: Statistica

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

SOLUZIONI ESERCITAZIONE NR. 8 Test statistici

05. Errore campionario e numerosità campionaria

Transcript:

Analisi della varianza Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona ANALISI DELLA VARIANZA - 1 Abbiamo k gruppi, con un numero variabile di unità statistiche. Nella notazione classica, ogni unità statistica viene individuata da due numeri in posizione pedice: il primo indica il gruppo di appartenenza, e il secondo indica la posizione del soggetto all interno del gruppo. gruppo 1 gruppo 2 gruppo 3.. gruppo k x 11 x 21 x 31.. x k1 x 12 x 22 x 32.. x k2 x 13 x 23 x 33.. x k3 x 14 x 24 x 34.. x k4 x 15 x 25 x 35.. x k5 x 16 x 26 x 36.. x k6 x 17 x 27 x 37.. x k7 x 18 x 38.. x k8 x 39.. x k9 x 1. x 2. x 3... x k. 1

ANALISI DELLA VARIANZA - 2 Oltre ad una media generale, x, abbiamo k medie, una per ognuno dei singoli gruppi, x 1., x 2., x 3.,., x k. Età dei medici operanti nelle Rianimazioni, Chirurgie ed altri Reparti di un Azienda Ospedaliera del Veneto 70 60 Età (anni) 50 40 30 20 Rianimazioni Chirurgie Altri Reparti 2

70 x 1, x 2, x 3, medie dei singoli gruppi 60 Età (anni) 50 40 x, media generale 30 20 Rianimazioni Chirurgie Altri Reparti ANALISI DELLA VARIANZA - 3 Ipotesi { H 0: µ 1 = µ 2 = µ 3 = = µ 0 H 1 : almeno una media differisce dalle altre Per rispondere a questa domanda, possiamo fare tante t di Student, confrontando tutte le possibili coppie di medie? NO, perché altrimenti avremmo un inflazione (aumento abnorme) di α (alfa), probabilità di errore del I tipo. Se eseguo 20 t di Student, ciascuna con un α nominale di 0,05, per effetto del caso almeno un test mi risulta significativo: α effettivo = 1 (1- α nominale ) n, dove n = numero di test effettuati Ad esempio con 6 t-test e con un α nominale di 0,05, α effettivo = 1 (1-0,05) 6 = 1 0,95 6 = 1 0,735 = 0,265 3

ANALISI DELLA VARIANZA - 4 α corretto = 1 (1- nominale ) 1/n = 1 (1- nominale ) Ad esempio con 6 t-test e con un nominale di 0,05, corretto = 1 (1-0,05) 1/6 = 1 0,95 1/6 = 1 0,9915 = 0,0085 E meglio quindi ricorrere ad un test globale, che confronti fra di loro tutti i gruppi: l analisi della varianza. n 70 SCOMPOSIZIONE DELLA DEVIANZA nell Analisi della Varianza - 1 Età (anni) 60 50 40 } x ij - x i. x ij - x.. x i. - x.. x 30 20 Rianimazioni Chirurgie Altri Reparti 4

x ij - x.. = scarto di una singola osservazione (valore jesimo del gruppo iesimo) dalla media generale x i. - x.. = scarto della media del gruppo iesimo dalla media generale x ij - x i. = scarto di una singola osservazione (valore jesimo del gruppo iesimo) dalla media del gruppo iesimo SCOMPOSIZIONE DELLA DEVIANZA nell Analisi della Varianza - 2 Per una singola osservazione: Variabilità totale (x ij - x.. ) = ( x i. - x.. ) + (x ij - x i. ) Variabilità fra gruppi Variabilità entro gruppi Si può dimostrare che, per tutte le osservazioni: Devianza totale, SST (x ij - x.. ) 2 = ( x i. - x.. ) 2 + (x ij - x i. ) 2 i,j i,j i,j Devianza tra gruppi Devianza entro gruppi 5

Scomposizione della devianza: schema dei calcoli Siano k i gruppi da confrontare, con numerosità n 1, n 2,, n i, n k, anche diverse tra loro. n i k k Indichiamo con T i =x ij, con G = T i, con N = n i j=1 i=1 i=1 gruppo 1 gruppo 2 gruppo 3 gruppo k x 11 x 21 x 31 x k1 x 12 x 22 x 32 x k2 x 13 x 23 x 33 x k3 x 14 x 24 x 34 x k4 x 15 x 25 x 35 x k5 x 16 x 26 x 36 x k6 x 17 x 27 x 37 x k7 x 18 x 38 x k8 x 39 x k9 Totale T 1 T 2 T 3 T k G SCOMPOSIZIONE DELLA DEVIANZA nell Analisi della Varianza - 3 Devianza Totale = (x ij - x.. ) 2 = x ij2 ( x ij ) 2 /N i=1 j=1 i=1 j=1 i=1 j=1 Devianza ENTRO= (x ij - x i. ) 2 = x ij2 ( x ij ) 2 /n i gruppi i=1 j=1 i=1 j=1 i=1 j=1 Devianza FRA= ( x i. - x.. ) 2 = ( x ij ) 2 /n i ( x ij ) 2 /N gruppi i=1 j=1 i=1 j=1 i=1 j=1 6

Dalla statistica descrittiva sappiamo che la devianza è pari a: Devianza = (x i - x.. ) 2 = x i2 ( x i ) 2 /N i i i Per calcolare la devianza totale per l ANOVA, si procede nello stesso modo, semplicemente i dati vanno sommati sia lungo le colonne che lungo le righe. Devianza Totale = (x ij - x.. ) 2 = x ij2 ( x ij ) 2 /N i j i j i j La devianza ENTRO gruppi (devianza residua) è pari alla somma algebrica delle devianze dei singoli gruppi. Devianza gruppo 1= (x 1j - x 1. ) 2 = x 1j2 ( x 1j ) 2 /n 1 j j j Devianza gruppo 2= (x 2j - x 2. ) 2 = x 2j2 ( x 2j ) 2 /n 2 j j j Devianza gruppo 3= (x 3j - x 3. ) 2 = x 3j2 ( x 3j ) 2 /n 3 j j j SOMMA devianze=(x ij - x i. ) 2 = x ij2 (x ij ) 2 /n i i j i j i j Devianza FRA gruppi = ( x i. - x.. ) 2 = n i ( x i. - x.. ) 2 i j i La devianza fra gruppi si può calcolare come differenza fra la devianza TOTALE e la devianza ENTRO gruppi. devianza totale - devianza entro = x ij2 ( x ij ) 2 /N - [x ij2 (x ij ) 2 /n i ] = i j i j i j i j x ij2 ( x ij ) 2 /N - x ij2 + (x ij ) 2 /n i = i j i j i j i j ( x ij ) 2 /n i - ( x ij ) 2 / N i j i j 7

Inferenza sulle varianze - 1 Assunto n.1: Omoscedasticità della varianza La varianza è omogenea (uguale) in tutti i k gruppi. Se è vero questo assunto, è possibile ottenere una stima migliore di tale varianza combinando insieme le stime derivanti da ogni gruppo. La varianza entro gruppi o varianza residua può essere stimata dividendo la somma delle devianze dei singoli gruppi per la somma dei gradi di libertà dei singoli gruppi. Varianza residua = (x ij - x i. ) 2 / (N-k) i=1 j=1 E possibile dimostrare che il valore atteso della varianza residua è la varianza comune σ 2. Inferenza sulle varianze - 2 Dividendo la devianza fra gruppi per un numero di gradi di libertà pari al numero di gruppi meno uno, si ottiene una stima della varianza fra gruppi: Varianza fra gruppi = ( x i. - x.. ) 2 / (k-1) i=1 j=1 Assunto n. 2: Le osservazioni (a rigore gli errori) sono fra loro indipendenti. Se è vero questo assunto, il valore atteso della varianza fra gruppi è pari a: k E(var fra) = σ 2 + n i (µ i. - µ µ) 2 / (k-1) i=1 Se è vera H 0, il valore atteso della varianza fra gruppi vale esattamente σ 2 (la varianza residua); in caso contrario il suo valore è maggiore di σ 2. 8

Inferenza sulle varianze 3 Assunto n.3: in ciascun gruppo le osservazioni sono distribuite in modo gaussiano. Se è vero questo assunto, è possibile eseguire un test di significatività. Infatti, sotto H 0 la varianza residua (entro gruppi) e la varianza fra gruppi sono stime indipendenti di σ 2. Il test più appropriato per confrontare queste due varianze è il test F: F = var FRA / var ENTRO Tale statistica, sotto H 0, segue la distribuzione F di Fisher- Snedecor con (k-1) gradi di libertà al numeratore e (N-k) gradi di libertà al denominatore. Il valore ottenuto va confrontato con una soglia critica F α,(k-1),(n-k) desunta dalle apposite tavole. Se F > F α,(k-1),(n-k), si rifiuta H 0 (P<α); in caso contrario si accetta H 0. 9

Tabella dell'analisi DELLA VARIANZA a 1 criterio di classificazione Fonte di variabilita' Devianza Varianza Test-F TRA gruppi ENTRO gruppi (errore) k-1 N-k n (x -x ) 2 i i. (x -x ) 2 ij i. DEV DEV tra entro /(k-1) /(N-k) VAR VAR tra entro Totale N-1 (x -x ) ij.. Se H e'vera (almeno 1 media e'diversa dalle altre), allora 1 2 2 2 tra > entro L età dei medici (n=251) è significativamente diversa nelle Rianimazioni, nelle Chirurgie e negli altri Reparti? fonte di variabilità gradi di libertà devianza varianza test F (significatività) TRA gruppi 2 1546,10 773,05 9,779 ENTRO gruppi 248 19604,73 79,05 (P<0,001) TOTALE 250 21150,84 Si rifiuta l ipotesi nulla: l età differisce significativamente tra i vari Reparti. 10

70 60 Età (anni) 50 40 30 20 Rianimazioni Chirurgie Altri Reparti L età dei medici (n=251) è significativamente diversa nelle Rianimazioni, nelle Chirurgie e negli altri Reparti? fonte di variabilità gradi di libertà devianza varianza test F (significatività) TRA gruppi 2 1,21 0,60 0,008 ENTRO gruppi 248 19604,73 79,05 (P=0,992) TOTALE 250 19605,94 Si accetta l ipotesi nulla: l età non differisce significativamente tra i vari Reparti. 11

80 70 60 Età (anni) 50 40 30 20 10 Rianimazioni Chirurgie Altri Reparti L età dei medici (n=251) è significativamente diversa nelle Rianimazioni, nelle Chirurgie e negli altri Reparti? fonte di variabilità gradi di libertà devianza varianza test F (significatività) TRA gruppi 2 14628,6 7314,3 92,53 ENTRO gruppi 248 19604,7 79,05 (P<0,001) TOTALE 250 34233,3 Si rifiuta l ipotesi nulla: l età differisce significativamente tra i vari Reparti. 12

Se il test F (il test globale) risulta significativo, si possono confrontare fra loro le singole medie, utilizzando dei test appropriati che vanno sotto il nome di confronti o contrasti multipli. Questo tipo di analisi viene definita anche post hoc. 1) I contrasti multipli in genere utilizzano come stima della variabilità casuale la varianza residua, calcolata nell ambito dell analisi della varianza. 2) I contrasti multipli sono costruiti in modo tale da evitare l inflazione di α, probabilità di errore del I tipo. CONTRASTI (o CONFRONTI) MULTIPLI (POST HOC ANALYSIS) TEST di SCHEFFE' e'il test piu'conservativo, si confrontano sia medie che gruppi di medie TEST di TUKEY si confrontano tutte le possibili coppie di medie TEST di DUNNETT si confrontano tutte le singole medie con un controllo CORREZIONE di BONFERRONI Si moltiplica il valore di 'p'(probabilita'di errore del I tipo) per il numero di test effettuati Ad esempio, se effettuo 3 test statistici: p iniziale p corretta 0.03 *3= 0.09 0.15 *3= 0.45 0.01 *3= 0.03 13