ANALISI DELLA VARIANZA A PIU' CRITERI DI CLASSIFICAZIONE

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "ANALISI DELLA VARIANZA A PIU' CRITERI DI CLASSIFICAZIONE"

Transcript

1 CAPITOLO XI ANALISI DELLA VARIANZA A PIU' CRITERI DI CLASSIFICAZIONE Analisi della varianza a due criteri di classificazione o a blocchi randomizzati, con una sola osservazione per casella Confronto tra analisi della varianza a due criteri e test t di Student per campioni dipendenti Analisi della varianza a tre o più criteri Quadrati latini e greco-latini Dati mancanti o anomali in disegni a più fattori Efficienza relativa (E.R.) e capacita predittiva (R ) Effetto trattamento nell analisi della varianza: r, ~ω e ~η Potenza a priori e a posteriori nell'anova, con grafici di Pearson e Hartley Lettura di tabulati sull analisi della varianza 70

2 C A P I T O L O XI ANALISI DELLA VARIANZA A PIU CRITERI DI CLASSIFICAZIONE ANALISI DELLA VARIANZA A DUE CRITERI DI CLASSIFICAZIONE O A BLOCCHI RANDOMIZZATI, CON UNA SOLA OSSERVAZIONE PER CASELLA L'analisi della varianza ad un criterio di classificazione o completamente randomizzata è lo schema più semplice di confronto simultaneo tra più medie. Nella pratica sperimentale, spesso rappresenta un impostazione troppo elementare; infatti, in modo implicito, assume che tutta la variabilità presente nei diversi gruppi a confronto sia determinata dai differenti livelli o dalle varie modalità del solo fattore in osservazione. Sovente è utile, quando non necessario, prendere in considerazione almeno due fattori di variabilità, - sia per analizzare gli effetti di due o più cause contemporaneamente, - sia per ridurre la varianza d'errore isolando gli effetti dovuti ad altre cause note. Nell analisi ad un criterio di classificazione, si è ricorsi all esempio di differenti livelli d inquinamento dell aria in aree diverse della stessa città. E ovvio che, tra gli altri fattori, anche l ora della rilevazione può determinare differenze sensibili: durante la giornata, il traffico, il riscaldamento domestico e l attività di molte industrie possono variare significativamente il livello d inquinamento dell aria nella stessa zona. Diventa importante effettuare esperimenti in cui, oltre alla località, si considera anche l ora del campionamento. Nello stesso modo, quando si confronta l effetto di farmaci o di tossici sulla crescita di cavie, può essere importante la loro classe d età: cavie giovani, adulte od anziane possono dare risposte sensibilmente diverse, alla somministrazione della stessa sostanza, determinando una forte variabilità nei dati sperimentali. Questa doppia classificazione di ogni misura può avere una duplice finalità: - analizzare separatamente quale sia il contributo del fattore principale e quale quello del secondo fattore; - eliminare l effetto del secondo fattore sulla varianza d errore, quando l interesse fosse indirizzato solo verso il primo ed il secondo fosse considerato esclusivamente come un elemento di forte perturbazione. 1

3 In questo caso, il metodo permette di ridurre sensibilmente la varianza d errore e quindi di aumentare la probabilità di trovare differenze significative tra le medie del fattore ritenuto più importante. Con il linguaggio mutato dall Agraria, il settore di ricerca di Fisher quando impostò l analisi della varianza, le diverse modalità del primo fattore, di solito quello ritenuto più importante, sono chiamate trattamenti; le diverse modalità del secondo fattore sono chiamate blocchi. L analisi della varianza a due criteri di classificazione, è chiamata anche analisi a blocchi randomizzati. In particolare negli esperimenti di laboratorio, con l analisi completamente randomizzata si richiedeva che gli individui, preventivamente riuniti in un gruppo unico, fossero distribuiti a caso tra i vari trattamenti. Nell analisi a blocchi randomizzati si richiede che gli individui siano dapprima suddivisi in gruppi omogenei, detti blocchi, per il secondo fattore; successivamente gli individui di ogni blocco devono essere attribuiti in modo casuale (random) ai trattamenti (di norma, il metodo richiede l estrazione di numeri casuali, dopo aver numerato separatamente gli individui dei differenti blocchi). Per esempio, analizzando contemporaneamente l effetto di tossici su cavie d età diversa, si richiede dapprima una loro suddivisione per classi d età, formando gruppi composti esclusivamente da individui giovani, da individui adulti oppure anziani; successivamente, separatamente ed indipendentemente per ogni classe d età, si devono attribuire casualmente gli individui ai trattamenti. E ovvio che, se i trattamenti sono n, ogni blocco deve comprendere almeno n individui. Quelli eccedenti, non estratti nell attribuzione casuale per blocco, sono esclusi dall esperimento. TRATTAMENTI BLOCCHI p medie 1 X 11 X 1 X X 1p X1. X 1 X X 3... X p X k X k1 X k X k3... X kp X k. medie X.1 X. X.3... X. p X

4 Nell analisi della varianza a due criteri di classificazione, è utile alla comprensione del metodo statistico riportare le osservazioni in una tabella a doppia entrata. Per convenzione ampiamente diffusa, quasi sempre i trattamenti sono riportati in colonna ed i blocchi nelle righe: Per indicare valori e medie, si ricorre ad una simbologia a due indici, analoga a quella illustrata per l analisi della varianza ad un criterio di classificazione, con la sola differenza di dover considerare anche le medie di riga o dei blocchi. Nell analisi della varianza a due criteri, si possono avere due situazioni differenti che richiedono metodi parzialmente diversi. In ogni casella data dall intersezione tra un trattamento ed un blocco si può avere una sola misura oppure almeno due misure. Quando si hanno due o più repliche per ogni casella, è plausibile supporre che queste misure siano tra loro più simili: l errore o residuo sarà misurato mediante esse, sulla base dello scarto di ogni replica dalla media di casella. Tale approccio verrà analizzato nei prossimi paragrafi, presentando l analisi dell interazione con gli esperimenti fattoriali. Il caso più semplice, analizzato in questo paragrafo, è quello di una sola osservazione ad ogni intersezione tra riga (blocco) e colonna (trattamento). Come presentato nel caso di un solo criterio, l analisi della varianza utilizza il modello lineare o additivo. Con due criteri di classificazione ed una sola osservazione, ogni dato può essere rappresentato con X p k = µ + α p + β k + R p k dove : - µ è la media generale, - α p è l'effetto del trattamento che, in riferimento alla popolazione, può essere indicato come differenza della media µ p del p-esimo trattamento dalla media generale µ α p = µ p - µ - β k è l'effetto del blocco, indicato dalla differenza tra la media µ k del k-esimo trattamento e la media generale µ - R pk è la quota residua, che ingloba β k = µ k - µ - sia tutti gli altri fattori non considerati, gli effetti di campionamento e l eventuale errore strumentale, già presentati nell errore dell analisi ad un criterio e simboleggiati complessivamente da ε pk, - sia l interazione tra i due fattori che, con una sola osservazione per casella, non può essere stimata. 3

5 In riferimento ai dati campionari raccolti con un esperimento di laboratorio oppure in campagna, ogni singolo valore X pk è stimato come somma di 4 valori X pk = X + ( X p - X ) + ( X k - X ) + R pk che dipendono rispettivamente - dalla media generale X, - dall effetto del fattore A, che per ogni trattamento è stimato mediante la differenza X p - X, - dall effetto del fattore B, che per ogni blocco è stimata dalla differenza X k - X, - da tutti gli altri fattori non considerati e dall interazione tra i due fattori A e B, compresi entrambi nella quantità R pk. L'analisi della varianza a due criteri di classificazione con una sola osservazione per casella permette di verificare, in modo simultaneo ed indipendente, la significatività delle differenze tra le medie dei trattamenti (fattore A) e tra le medie dei blocchi (fattore B). Per esempio, indicando con a, b, c, d quattro trattamenti e con 1,, 3, 4, 5 cinque blocchi, tale concetto viene espresso mediante - una prima ipotesi nulla H 0 di uguaglianza delle medie dei trattamenti o del fattore A, per il fattore A H 0 : µ a = µ b = µ c = µ d con ipotesi alternativa H 1 : non tutte le µ dei 4 trattamenti sono tra loro uguali - una seconda ipotesi nulla di uguaglianza delle medie dei blocchi o del fattore B con ipotesi alternativa per il fattore B H 0 : µ 1 = µ = µ 3 = µ 4 = µ 5 H 1 : non tutte le µ dei 5 blocchi sono tra loro uguali. Per questi confronti tra medie, la metodologia richiede il calcolo delle seguenti quantità: 1 - la devianza totale, con gdl p k - 1 = n - 1; - la devianza tra trattamenti, con gdl p - 1, e la rispettiva varianza; 3 - la devianza tra blocchi, con gdl k - 1, e la rispettiva varianza; 4 - la devianza d'errore, con gdl (p - 1) (k - 1) = (n - 1) - [(p - 1) + (k - 1)] e la sua varianza. Le 4 devianze e i relativi gradi di libertà godono della proprietà additiva: Devianza = Devianza + Devianza + Devianza totale tra trattamennti tra blocchi errore 4

6 g dl totale = gdl tra trattamennti + gdl tra blocchi + gdlerrore Nella presentazione dei risultati, queste quantità vengono abitualmente riportate per convenzione in una tabella come la seguente: Devianza totale Gdl: n - 1= pk Devianza tra trattamenti gdl: p - 1 varianza tra trattamenti Devianza tra blocchi gdl: k - 1 varianza tra blocchi Devianza d'errore gdl: (p - 1)(k - 1) varianza d'errore (nei programmi informatici, sovente la devianza totale ed i suoi gdl sono riportati come ultimi, per evidenziare graficamente che rappresentano la somma delle altre tre quantità). La devianza totale misura la variazione totale tra le osservazioni; con la formula euristica e quella abbreviata è calcolata come p k j= 1 i= 1 ( X X) = X ij p k j= 1 i= 1 ij p k ( X ) j= 1 i= 1 n ij La devianza tra trattamenti misura la variazione tra le medie dei trattamenti; con formula euristica e quella abbreviata è data da p j= 1 ( X. j X ) n j = k i= 1 ( p j= 1 X n. j j ) ( k p i= 1 j= 1 n X ij ) La devianza tra blocchi misura la variazione tra le medie dei blocchi; la formula euristica e quella abbreviata sono k i= 1 ( X i. X ) n i = p j= 1 ( k i= 1 X n i ) i. ( k p i= 1 j= 1 n X ij ) 5

7 La devianza d'errore, detta anche residuo, misura la variazione che rimane di ogni osservazione dopo aver tolto gli effetti dei fattori già considerati. Il procedimento diretto, corrispondente alla formula euristica, è lungo; per una presentazione semplice e chiara verrà illustrato con i dati dell esempio. Abitualmente, con formula equivalente a quella abbreviata, il calcolo viene effettuato ricorrendo alla proprietà additiva - delle devianze Devianza errore = Devianza totale - (Devianza tra trattamenti + Devianza tra blocchi ) - e dei gradi di libertà relativi gdl Devianza errore = gdl Devianza totale - (gdl Devianza tra trattamenti + gdl Devianza tra blocchi ) Successivamente, si ottengono - la varianza tra trattamenti, - la varianza tra blocchi e - la varianza d'errore o residuo dividendo le devianze omonime per i rispettivi gdl. Il test F consiste nel confrontare, mediante il rapporto, sia la varianza tra trattamenti sia quella tra blocchi separatamente con la varianza d'errore. A) - Per la significatività delle differenze tra le medie dei trattamenti, si calcola il valore di F varianza tra trattamenti = varianza d'errore e si confronta il risultato calcolato con il valore tabulato alla probabilità α prefissata per i gradi di libertà relativi. Si rifiuta l ipotesi nulla relativa al fattore A, se il valore calcolato è maggiore di quello riportato nella tabella. B) - Per la significatività delle differenze tra le medie dei blocchi si calcola un secondo valore di F F(p -1), (p-1) (k-1) F(k -1), (p-1) (k-1) varianza tra blocchi = varianza d'errore e si confronta il risultato con il valore tabulato per i suoi gdl con le stesse modalità. Si rifiuta l ipotesi nulla relativa al fattore B, se il valore calcolato è superiore a quello riportato nella tabella. Le due analisi sono totalmente indipendenti. 6

8 ESEMPIO. Si vuole verificare se esiste una differenza significativa nella quantità di piombo in sospensione nell'aria di 5 zone di una città (A, B, C, D, E). TRATTAMENTI (ZONE) BLOCCHI (ORE) A B C D E I II III IV Poiché si suppone che esista una forte variabilità determinata dall ora di campionamento, è stata fatta una rilevazione simultanea in ogni zona, con ripetizioni a distanza di 6 ore (alle ore 6, 1, 18 e 4), per un totale di 4 campioni per zona. Esiste una differenza significativa nella presenza media di polveri di piombo in sospensione nell aria delle 5 zone? Le differenze tra le ore sono significative? Risposta. Le ipotesi sono relative - sia alle medie dei trattamenti o zone, con ipotesi nulla contro l ipotesi alternativa H 0 : µ A = µ B = µ C = µ D = µ D H 1 : non tutte le µ delle zone sono uguali - sia alle medie dei blocchi o ore, con ipotesi nulla contro l ipotesi alternativa H 0 : µ I = µ II = µ III = µ IV H 1 : non tutte le µ delle ore sono uguali Dapprima si devono calcolare i totali di colonna, di riga, il totale generale e le medie relative, 7

9 TRATTAMENTI (ZONE) BLOCCHI (ORE) A B C D E Totale ore Medie I , II ,8 III , IV ,8 Totale zone Medie 30,00 7,5 3,75 6,50 6,00 8,50 utili ai calcoli successivi per le devianze. Da essi si stimano: 1- la devianza totale, con 19 gdl, ottenuta come scarto al quadrato di ogni valore dalla media generale (8-8,5) + (34-8,5) + ( - 8,5) (9-8,5) = 683,0 oppure con la formula abbreviata ( ) = 683, 0 - la devianza tra trattamenti o tra zone, con 4 gdl, ottenuta come scarto quadratico di ognuna delle 5 medie di colonna dalla media generale, moltiplicato per il numero di dati della colonna 4 (30,00-8,5) + 4 (7,5-8,5) (6,00-8,5) = 18,5 oppure con la formula abbreviata = 18,5 3 - la devianza tra blocchi o tra ore, con 3 gdl, ottenuta come scarto quadratico di ognuna delle 4 medie di riga dalla media generale, moltiplicato per il numero di dati su cui è calcolata la media 8

10 5 (6, - 8,5) + 5 (3,8-8,5) (33,8-8,5) = 55,8 oppure con la formula abbreviata = 55,8 (La quantità ( SX) n, che nell'esercizio è e che compare sia nel calcolo della devianza totale che in quello della devianza tra trattamenti e tra blocchi, è chiamata termine di correzione, in alcuni testi abbreviato in TC). 4 - la devianza d'errore e i suoi gdl possono essere calcolati in modo rapido per differenza devianza d'errore = 683,0-18,5-55,8 = 8,7 gdl della devianza d'errore = = 1 Per una presentazione sintetica dei dati raccolti, per una rapida verifica dei calcoli e per la successiva stima delle tre varianze necessarie ai due test F, con gli 8 valori stimati (4 devianze e relativi gdl) è utile costruire la tabella: DEVIANZA GDL VARIANZA Totale 683, Tra trattamenti (zone) 18,5 4 3,15 Tra blocchi (ore) 55, ,66 Errore 8,7 1,39 La significatività della differenza tra zone è verificata con F = 3,15,39 =13,44 4,1 un test F che, con gdl 4 e 1, risulta uguale a 13,44, mentre la significatività delle differenze tra ore è verificata con F = 175,66,39 =73,33 3,1 un test F che, con gdl 3 e 1, risulta uguale a 73,33. I valori critici corrispondenti 9

11 - alla probabilità α = 0.05 per F 4,1 è uguale a 3,6 e per F 3,1 è 3,49 - alla probabilità α = 0.01 per F 4,1 è uguale 5,41 e per F 3,1 è 5,95. Con probabilità α inferiore a 0.01 si rifiuta l ipotesi nulla, sia per le medie delle zone che per le medie delle ore. La differenza tra ore risulta statisticamente più significativa di quella tra zone. La devianza d'errore è stata calcolata per differenza, sottraendo alla devianza totale quella tra trattamenti e quella tra blocchi. Per comprenderne più esattamente il significato, è proficuo vedere quanto del valore di ogni osservazione è imputabile agli effetti congiunti della media generale, del fattore A e del fattore B (considerati nelle devianze relative) e quanto ai rimanenti fattori raggruppati nel residuo o devianza d errore. Con i primi 3 fattori, per ogni valore X pk osservato è possibile calcolare un valore X $ pk atteso, definito come $X pk = X + ( X p - X ) + ( X k - X ) Dopo semplificazione, risulta che può essere stimato mediante $X pk = X p + X k - X la somma della media di riga e della media di colonna, alla quale viene sottratta la media generale. Con i dati dell esercizio, dopo aver calcolato le medie marginali e quella totale, è possibile stimare in ogni casella, all intersezione tra ogni riga e ogni colonna, quale è il valore atteso qualora agissero solamente i tre effetti considerati. La tabella sottostante riporta questi valori attesi X $ pk : TRATTAMENTI BLOCCHI A B C D E Medie I 7,70 4,95 30,45 4,0 3,70 6,0 II 34,30 31,55 37,05 30,80 30,30 3,80 III,70 19,95 5,45 19,0 18,70 1,0 IV 35,30 3,55 38,05 31,80 31,30 33,80 Medie 30,00 7,5 3,75 6,50 6,00 8,50 10

12 Se si utilizzasse questa distribuzione per calcolare le 4 devianze, otterremmo valori identici a quelli dell'esempio precedente per la devianza totale, per quella tra trattamenti e per quella tra blocchi; ma la devianza d'errore o residuo risulterebbe uguale a 0. La devianza d'errore calcolata precedentemente è Devianza d errore = p k i= 1 j= 1 ( $ X pk - X pk ) data dalla somma dei quadrati degli scarti tra questi valori stimati e quelli reali o osservati CONFRONTO TRA ANALISI DELLA VARIANZA A DUE CRITERI E TEST t DI STUDENT PER CAMPIONI DIPENDENTI Quando si confrontano le medie di due soli trattamenti applicati agli stessi soggetti, quindi con valori riportati in una tabella con trattamenti ed n blocchi, l'analisi della varianza a due criteri di classificazione fornisce i medesimi risultati del test t di Student per campioni dipendenti, in riferimento al fattore principale. Un esempio permette di confrontare in modo didatticamente semplice e quindi di comprendere sia le due metodologie sia i risultati relativi. Durante una giornata lavorativa (Giorno I), in una stazione di rilevamento sono state misurate le quantità di inquinamento dell'aria in 4 ore differenti; durante il successivo giorno festivo (Giorno II), sono state ripetute le misure alle stesse ore. La tabella riporta i valori rilevati nei due giorni alla stessa ora: Giorno I Giorno II Ore Ore Ore Ore Esiste una differenza significativa nel tasso medio d inquinamento tra i due giorni? Risposta. Con i dati del quesito, è possibile utilizzare il test t di Student per campioni dipendenti per verificare l ipotesi nulla 11

13 contro l ipotesi alternativa bilaterale H 0 : δ = 0 H 1 : δ 0 Il metodo del test t di Student per campioni dipendenti richiede che dapprima si calcoli la colonna delle differenze Giorno I Giorno II Differenze Ore Ore Ore Ore sulle quali applicare le operazioni richieste dalla formula t (n-1) = d δ s d n Per una corretta comprensione del metodo, è importante evidenziare le due conseguenze determinate dall uso delle differenze al posto dei valori rilevati: - i dati utilizzati nei calcoli sono resi indipendenti da quelli originari; - la varianza delle differenze, che possono essere viste come somma delle variazioni casuali delle coppie di dati quando l ipotesi nulla è vera, è uguale alla somma delle varianze delle due serie di dati originali. Dopo aver calcolato la media delle differenze ( ) d = = 6 4 si stima la devianza (30-6) + (1-6) + (8-6) + (5-6) = = 46 e da essa la varianza delle differenze 46 s d = 3 =15,33 1

14 e la loro deviazione standard s d = 15,33 = 3,916 Il valore di t con 3 gdl t (3) = 6 3,916 4 =13,8 risulta uguale a 13,8. Dalle tavole del t di Student per una distribuzione a due code con 3 gdl si ricava - per α = 0.01, t = 5,841 - per α = 0.005, t = 7,453 - per α = 0.001, t = 1,941 Di conseguenza, si rifiuta l ipotesi nulla con probabilità P< Con l'analisi della varianza a due criteri di classificazione, le ipotesi considerano - sia il confronto tra le medie dei due giorni con ipotesi nulla H 0 : µ I = µ II e ipotesi alternativa bilaterale H 1 : µ I µ II - sia quello tra le medie delle 4 rilevazioni orarie con ipotesi nulla H 0 : µ 6 = µ 10 = µ 14 = µ 18 e ipotesi alternativa H 1 : non tutte le 4 µ dei blocchi sono tra loro uguali. Dalle due serie di dati appaiati si calcolano i totali e le medie, sia quelle parziali che quella generale 13

15 Giorno I Giorno II Totali Medie Ore ,0 Ore ,5 Ore ,0 Ore ,5 Totali Medie 17,5 146, ,5 La devianza totale con 7 gdl, calcolata come somma degli scarti al quadrato di ogni valore rispetto alla media totale, (-9,5) +(-39,5) +(1,5) +(-8,5) +(33,5) +(5,5) +(15,5) +(-9,5) = = 90, ,5 +156,5 + 7,5 +11,5+ 30,5 + 40,5+ 90,5 = 336 risulta uguale a 336. La devianza tra giorni ha 1 gdl ed è uguale a (17,5-159,5) + 4(146,5-159,5) = 4x x169 = 135 La devianza tra ore ha 3 gdl e risulta ( ,5) + (161,5-159,5) + ( ,5) + (16,5-159,5) = = 600, ,5 + 9 = 100, , = 1987 uguale a La devianza d'errore con 3 gdl [7 - (1+3)] ed ottenuta per differenza risulta uguale a = 3 Devianze e gdl possono essere riportati in tabella 14

16 DEVIANZA GDL VARIANZA Totale Tra giorni Tra ore ,333 Errore 3 3 7,666 Da essi sono stimate le 3 varianze necessarie ai due test F. 1) Per la differenza tra giorni si calcola un test F F = 135 7,666 = 176,36 (1,3) con gdl 1 e 3, che risulta uguale a 176,36. Si può rifiutare l ipotesi nulla alla stessa probabilità P < ) Per verificare la differenza tra ore si calcola un altro test F F = 66,33 7,666 = 86,40 (3,3) con gdl 3 e 3, che risulta uguale a 86,40. Anche in questo caso si rifiuta l ipotesi nulla, con probabilità P < 0.01 (valore critico uguale a 9,46). Il confronto effettuato serve soprattutto per dimostrare che con campioni test t e test F non solo permettono la stessa inferenza, ma forniscono anche risultati identici. Il valore di F che permette il confronto tra le medie dei due giorni fornisce una probabilità identica a quella del test t che verifica l uguaglianza delle due medie giornaliere; ovviamente, coincidono anche i gdl che per il test F sono 1 e 3 e per il test t sono 3. Infatti, sulla base della relazione si è ottenuto t = ( 3) F(1,3) 13,8 = 176,36 Corrispondono anche i valori critici per la stessa probabilità. Infatti, come dimostrazione elementare e come caso di tutti i valori tabulati, 15

17 - per t e per la prima colonna dei valori tabulati per F, è semplice verificare che per la probabilità α = 0.01 e gdl = 3 i cui valori critici sono rispettivamente - 5,841 per il test t - 34,1 per il test F esiste la stessa relazione 5,841 = 34, ANALISI DELLA VARIANZA A TRE O PIU CRITERI I concetti, le finalità ed i metodi dell analisi della varianza a due criteri possono essere facilmente estesi a tre o più criteri di classificazione. Con k fattori, è possibile verificare k ipotesi nulle, con altrettante ipotesi alternative bilaterali. A questo scopo occorre calcolare le k varianze, per effettuare k test F mediante il loro rapporto con la varianza d errore. A dimostrazione ed esemplificazione didattica, per facilitare la comprensione dell analisi della varianza a più criteri di classificazione, vengono di seguito presentati, analizzati e discussi i risultati di un esperimento di genetica ambientale applicata a un problema d inquinamento, in cui sono stati vagliati contemporaneamente 4 fattori. Per ogni singola osservazione X ijkp, il modello di riferimento diviene X ijkp = µ + α i + β j + γ k + δ p + R ijkp dove - µ rappresenta la media generale, - α i, β j, γ k, δ p rappresentano gli effetti indipendenti dei 4 fattori, nelle loro varie modalità, - R ijkp rappresenta tutti gli altri fattori non considerati, sommati alla variazione casuale e agli errori di misura e campionamento, oltre a tutte le possibili interazioni tra i 4 fattori. Per ognuno dei quattro fattori, si può verificare l ipotesi nulla H 0 : tutte le µ delle varie modalità dello stesso fattore sono uguali contro l ipotesi alternativa H 1 : non tutte le µ delle varie modalità dello stesso fattore sono uguali Con n osservazioni in ogni modalità, s modalità per ogni fattore ed N osservazioni in totale (N = n s), la devianza di ogni fattore può essere stimata con la formula euristica o la più rapida formula abbreviata di seguito riportate 16

18 S j= 1 (. j ) X X n = j S i= 1 n X. j j= 1 i= 1 j= 1 n i S N X ij ESEMPIO. Si intende verificare se - da parte di 4 essenze (medica, plantago, trifoglio, tarassaco), - cresciute in località ad alto inquinamento (T 1 e T ) più un controllo a livelli normali ( C ), - esistono differenze nell assorbimento di 4 metalli (cadmio, nichel, piombo e zinco), - considerando anche i 5 sfalci che vengono praticati durante un anno. Nella pagina successiva sono riportati in tabella i valori unitari per ognuna delle 40 (4 x 3 x 4 x 5) misure campionarie effettuate. Esistono differenze significative tra le medie di ognuno dei 4 fattori considerati? Risposta. Per rispondere alle 4 ipotesi nulle che possono essere formulate (una per ognuno dei 4 fattori), applicando le formule già presentate si devono calcolare le devianze, con i rispettivi gdl e le varianze utili ai 4 test F. I risultati dei calcoli sono riportati nella tabella sottostante, che segue lo schema applicato dai programmi informatici più diffusi. DEVIANZA GDL VARIANZA F Totale , Tra metalli , ,0 35,73 Tra località 64884,9 3441,5 7,77 Tra essenze , ,8 1,44 Tra sfalci , ,5 4,6 Errore , ,

19 METALLO CONDIZION ESSENZA S F A L C I O CADMIO T1 MEDICA PLANTAGO TRIFOGLIO TARASSAC T MEDICA PLANTAGO TRIFOGLIO TARASSAC C MEDICA PLANTAGO TRIFOGLIO TARASSAC NICHEL T1 MEDICA PLANTAGO TRIFOGLIO TARASSAC T MEDICA PLANTAGO TRIFOGLIO TARASSAC C MEDICA PLANTAGO TRIFOGLIO TARASSAC PIOMBO T1 MEDICA PLANTAGO TRIFOGLIO TARASSAC T MEDICA PLANTAGO TRIFOGLIO TARASSAC C MEDICA PLANTAGO TRIFOGLIO TARASSAC ZINCO T1 MEDICA PLANTAGO TRIFOGLIO TARASSAC T MEDICA PLANTAGO TRIFOGLIO TARASSAC C MEDICA PLANTAGO TRIFOGLIO TARASSAC

20 In realtà (come verrà spiegato successivamente nel paragrafo dedicato alla trasformazione dei dati) l analisi della varianza non può essere applicata direttamente ai valori riportati nella tabella e i risultato dell analisi precedente è errato. E semplice osservare come la distribuzione non sia normale ed esistano grandissime differenze tra le varianze. Ad esempio, risulta del tutto evidente non rispetta le condizioni di validità dell ANOVA la variabilità presente tra metalli (lo zinco ha valori nettamente superiore agli altri metalli). L analisi è effettivamente corretta solamente dopo la trasformazione di ogni dato (x) nel suo logaritmo naturale o log e (x). Dopo la trasformazione appena citata, la tabella dell analisi della varianza risulta DEVIANZA GDL VARIANZA F P Totale 113, Tra metalli 1049, ,71 550,7.000 Tra località,08 1,04 1, Tra essenze 10,44 3 3,48 5, Tra sfalci 7,90 4 1,98 3,1.016 Errore 144,15 7 0, Per valutare la significatività della differenza tra le medie dei 4 metalli contenute nelle 4 essenze, si calcola un rapporto F con gdl 3 e 7 F (3,7) = 349,71 / 0,635 = 550,7 che risulta uguale a 550,7. - Per la differenza tra le medie delle 3 località, si calcola un rapporto F con gdl e 7 F (,7) = 1,04 / 0,635 = 1,64 che risulta uguale a 1,64. - Per la differenza tra le medie delle 4 essenze, si calcola un rapporto F con gdl 3 e 7 19

21 che risulta uguale 5,48. F (3,7) = 3,48 / 0,635 = 5,48 - Per la differenza tra le medie dei 5 sfalci, si calcola un rapporto F con gdl 4 e 7 F (4,7) = 1,98 / 0,635 = 3,1 che risulta uguale a 3,1. Un modo empirico ma corretto (già illustrato in dettaglio nei paragrafi dedicati alle trasformazioni) di valutare l adeguatezza della trasformazione è dato dal rapporto F, ottenuto per ogni fattore prima e dopo la trasformazione: è migliore la trasformazione che rende complessivamente più significativi i vari test F. Nelle due tabelle precedenti si può osservare che - tra metalli nella prima tabella F risulta uguale a 35,7 contro 550,7 della seconda; - tra località nella prima tabella F risulta uguale a 0,777 contro 1,64 della seconda; - tra essenze nella prima tabella F risulta uguale a 1,437 contro 5,48 della seconda; - tra sfalci nella prima tabella F risulta uguale a 4,6 contro 3,1 della seconda. E evidente la maggiore capacità della trasformazione log e (x) di ridurre soprattutto la varianza d errore e quindi di rendere i test F complessivamente molto più significativi (si ha solo una leggera riduzione di F per gli sfalci, contro un aumento grande di quello tra metalli e tra essenze). I calcoli necessari all esercizio proposto sono lunghi e la probabilità di commettere errori effettuandoli manualmente è alta. E quindi necessario ricorrere a programmi informatici. Essi forniscono tutte le informazioni necessarie all analisi statistica, tra cui il valore di F e la probabilità P relativa, permessa dall ampia memoria dei calcolatori attuali; nell analisi dei risultati permettono di superare il limite determinato dal valore approssimato, che si ottiene con il ricorso classico alle tabelle dei valori critici. Con questa maggiore precisione nelle stima delle probabilità, l interpretazione può essere più sofisticata. 0

22 Tra i 4 fattori considerati, - due risultano altamente significativi (metalli ed essenze) con probabilità P < 0.001, - uno (sfalci) risulta significativo con probabilità P leggermente inferiore al % (P = 0.016), - il quarto (località) non significativo, avendo una probabilità prossima al 0% (P = 0.196). Insieme con i risultati dell analisi della varianza, i programmi informatici più sofisticati forniscono anche quelli dei confronti multipli, con vari test relativi ai fattori considerati. Compete al ricercatore scegliere le sole risposte utili al problema. Con i dati dell esempio, sulla base dell analisi della varianza che ha permesso di rifiutare l ipotesi nulla, è interessante verificare tra quali medie dei metalli, delle essenze e degli sfalci la differenza sia significativa: occorre effettuare confronti singoli, per i quali è appropriato il test di Tukey. Nel caso dei metalli, ricordando che si devono effettuare tutti i possibili confronti tra 4 gruppi, nei programmi informatici viene riportato che, - alla probabilità α uguale a 0.05, con una varianza d errore uguale a 0,635 e 60 repliche (n i ) per metallo (dati dal problema), - il valore del q studentizzato (Critical Value of Studentized Range) è uguale a 3,660 (fornito dalle tabelle per p = 4 e gdl =7) - applicando la formula già riportata nella presentazione dei confronti multipli a posteriori, si ottiene T = q( α, p, n ) e se n i T = 3,660 0, = 0, la Differenza Minima Significativa (Minimum Significant Difference), o valore del T, che risulta uguale a 0,3765. I risultati sono riportati sinteticamente in modo grafico nella tabella 1

23 METALLO Media n i Gruppi di Tukey Zinco 6, A Nichel, B Piombo, B Cadmio 0, C nella quale si evidenzia che alla probabilità α = ) lo Zinco (gruppo A) ha una media significativamente diversa dagli altri 3 metalli, ) il Nichel ed il Piombo (gruppo B) hanno medie tra loro uguali ma diverse da quelle degli altri, 3) il Cadmio (gruppo C) ha una media diversa dagli altri 3 metalli. I confronti multipli a posteriori devono essere utilizzati solamente quando l analisi della varianza permette di rifiutare l ipotesi nulla alla probabilità prefissata, al fine di non evidenziare con essi differenze significative che non esistono. Tuttavia quasi sempre le conclusioni coincidono QUADRATI LATINI E GRECO-LATINI Analizzare contemporaneamente fattori di variazione a p livelli nel disegno sperimentale a blocchi randomizzati richiede p osservazioni. Con le stesse modalità di programmazione, poiché ogni livello di un fattore deve incrociare tutti i livelli degli altri fattori, un esperimento con 3 fattori di variazione a p livelli richiede p 3 osservazioni o repliche. In un esperimento con 3 fattori, ognuno a 5 livelli, si richiedono 15 dati. All aumentare dei fattori, si ha un rapido incremento delle misure che occorre raccogliere; poiché ognuna ha un costo e richiede tempo, sono stati sviluppati metodi che permettono di analizzare contemporaneamente più fattori con un numero minore di dati. Il disegno sperimentale a quadrati latini permette di analizzare contemporaneamente 3 fattori a p livelli con sole p osservazioni: con 3 fattori a 5 livelli sono sufficienti 5 dati. A questo vantaggio, rappresentato da un risparmio di materiale e quindi di denaro e di tempo necessari all esperimento, si associa lo svantaggio di una maggiore rigidità dell esperimento stesso: tutti e tre i fattori devono avere lo stesso numero di livelli.

24 I quadrati latini furono applicati per la prima volta in esperimenti di agraria. La suddivisione in strisce tra loro perpendicolari e della stessa ampiezza di un appezzamento quadrato di terreno formava tante celle quadrate; da qui il nome, per la somiglianza del frazionamento dell'area all'accampamento romano. Per riportare in tabella i risultati di un esperimento a quadrati latini, due fattori vengono rappresentati nelle righe e nelle colonne, mentre il terzo, di solito il fattore principale, è rappresentato nelle celle formate dall incrocio tra riga e colonna. In esse, il terzo fattore è distribuito in modo casuale ma ordinato: deve comparire una volta sola sia in ogni riga che in ogni colonna. Per esempio, indicando - nelle colonne i 4 livelli (I, II, III, IV) del primo fattore, - nelle righe i 4 livelli del secondo fattore (1,, 3, 4) - con A, B, C, D i 4 livelli del trattamento principale o terzo fattore, la rappresentazione tabellare dell'esperimento a quadrati latini 4 x 4 diventa: COLONNE RIGHE I II III IV 1 D B C A C D A B 3 B A D C 4 A C B D In un disegno a due criteri di classificazione, la randomizzazione è attuata assegnando i trattamenti a caso all'interno di ciascun blocco. In un quadrato latino (che ha tre criteri di classificazione), la randomizzazione è ottenuta permutando i trattamenti nello schema ordinato delle righe e delle colonne. A questo scopo esistono tabelle di distribuzione casuale, da utilizzare nel caso di più esperimenti a quadrati latini con schemi differenti. Il limite più grave di questo metodo nella programmazione dell'esperimento dipende dalla sua rigidità: se si vogliono analizzare 5 trattamenti serve un numero uguale di livelli anche negli altri fattori da 3

25 considerare nelle righe e nelle colonne. E ovvio che non tutti i fattori si prestano. Per esempio, non è possibile valutare l effetto di 4 tossici su cavie di 4 età diversa (neonati, giovani, adulti, anziani) considerando anche il sesso, che ha due sole modalità. In un disegno sperimentale a quadrati latini, il modello additivo dell analisi della varianza richiede che la generica osservazione X, appartenente alla riga i-esima, alla colonna j-esima e al trattamento ijk k-esimo, sia data da X ijk = µ + α i + β j + γ k + R ijk dove: - µ è la media generale della popolazione, corrispondente a X con i dati campionari, - α i è l'effetto medio della riga i-esima, sperimentalmente uguale a ( Xi X), - β j è l'effetto medio della colonna j-esima, uguale a ( X j X ), - γ k è l'effetto medio del trattamento k-esimo, uguale a ( Xk X), - R ijk è la variabilità residua e è uguale a (X ijk - Xi X j Xk + X). Il calcolo delle devianze è semplice: - la devianza totale, quella tra righe e quella tra colonne sono calcolate con la stessa metodologia utilizzata nel disegno a blocchi randomizzati; - la devianza tra trattamenti viene calcolata rispetto alla somma e alla media ottenute dall addizione dei valori collocati nelle celle contrassegnate con la stessa lettera. In simboli, ogni valore sperimentale X ijk è dato da X ijk = X +( Xi X) + ( X j X ) + ( Xk X) +(X ijk - Xi X j Xk + X) corrispondenti nel modello a X ijk = µ + α + β + γ + Rijk ESEMPIO. Si intende confrontare la produttività di 5 varietà (A, B, C, D, E) di sementi in rapporto al tipo di concime (1,, 3, 4, 5) e ad un diverso trattamento del terreno (I, II, III, IV, V). A questo scopo, si è diviso un appezzamento quadrato di terreno in 5 strisce di dimensioni uguali, nelle quali è stata fatta un'aratura di profondità differente; perpendicolarmente a queste, sono state tracciate altre 5 strisce, che sono state concimate in modo diverso. 4

26 Nei 5 quadrati, sono state seminate le 5 varietà di sementi, secondo lo schema a quadrati latini della tabella sottostante. In essa è riportata anche la produttività delle 5 varietà di sementi, nei 5 appezzamenti quadrati di terreno: TIPO DI TRATTAMENTO DEL TERRENO CONCIME I II III IV V 1 A 4 C 47 B 55 D 51 E 44 E 45 B 54 C 5 A 44 D 50 3 C 41 A 46 D 57 E 47 B 48 4 B 56 D 5 E 49 C 50 A 43 5 D 47 E 49 A 45 B 54 C 46 Esistono differenze significative tra le medie delle 5 modalità, per ognuno dei 3 fattori considerati? Risposta. E possibile formulare 3 ipotesi nulle, con le rispettive ipotesi alternative. Per il tipo di trattamento del terreno od aratura: H 0 : µ I = µ II = µ III = µ IV = µ V contro H 1 : non tutte le µ delle arature sono tra loro uguali. Per il tipo di concime: H 0 : µ 1 = µ = µ 3 = µ 4 = µ 5 contro H 1 : non tutte le µ dei concimi sono tra loro uguali. Per il tipo di semente: H 0 : µ A = µ B = µ C = µ D = µ E contro H 1 : non tutte le µ delle sementi sono tra loro uguali. Calcolate le somme e le medie sia per riga che per colonna dei primi due fattori, cioè del tipo di trattamento del terreno e del tipo di concime utilizzato, 5

27 TIPO DI TRATTAMENTO DEL TERRENO CONCIME I II III IV V Totale Media 1 A 4 C 47 B 55 D 51 E ,8 E 45 B 54 C 5 A 44 D ,0 3 C 41 A 46 D 57 E 47 B ,8 4 B 56 D 5 E 49 C 50 A ,0 5 D 47 E 49 A 45 B 54 C , Totale Media 46, 49,6 51,6 49, 46, 48,56 si calcolano anche le somme e le medie del terzo fattore (riportate sempre a parte) A B C D E Totale Media 44,0 53,4 47, 51,4 46,8 mediante l addizione dei valori associati alla stessa lettera nelle varie caselle. Con una delle due solite formule (euristica od abbreviata), si valutano le devianze tra i diversi livelli dello stesso fattore. Con la formula euristica, la devianza tra arature con 4 gdl è 31 / / / / /5-114 /5 = 109,36 uguale a 109,36. La devianza tra concimi, con 4 gdl, è 39 / / / / /5-114 /5 = 17,76 uguale a 17,76. La devianza tra sementi, sempre con 4 gdl, è 0 / / / / /5-114 /5 = 86,16 uguale a 86,16. 6

28 I risultati delle devianze ed il calcolo delle varianze necessarie ai tre test F, sono riportati in tabella DEVIANZA GDL VARIANZA Totale 480,16 4 Tra sementi 86, ,54 Tra arature 109,36 4 7,34 Tra concimi 17,76 4 4,44 Errore 66,88 1 5,57 Con le varianze, si possono calcolare 3 F, ognuno con gdl 4 e 1: - per il confronto tra le medie delle sementi: F = 71,54 5,57 = 1,84 4,1 - per il confronto tra le medie delle arature: F = 7,34 5,57 =4,91 4,1 - per il confronto tra le medie dei concimi, con i dati dell esempio è inutile calcolare il rapporto F. Infatti, il valore di questa varianza risulta minore di quella d'errore; pertanto il rapporto sarebbe minore di 1. Per gdl 4 e 1 la tabella dei valori critici - alla probabilità α = 0.05 fornisce un valore uguale 3,6 - alla probabilità α = 0.01 un valore uguale a 5,41. In conclusione: 1) risulta molto significativa la differenza tra sementi, il cui valore di F è superiore al valore critico della probabilità 0.01; ) è significativa la differenza tra arature, con un valore di F compreso tra il valore critico della probabilità 0.01 e quello della probabilità 0.05; 3) non è assolutamente significativa, è anzi totalmente trascurabile, la differenza tra concimi con F minore di 1. Il disegno sperimentale a quadrati latini è utile non solo nella ricerca di campagna per applicazioni sul terreno, ma anche in varie situazioni ricorrenti nella ricerca di laboratorio. E il caso in cui si devono 7

29 somministrare più farmaci agli stessi individui o più tossici alle stesse cavie e si vuole considerare contemporaneamente l effetto di questi trattamenti insieme con le differenze tra gli individui e gli effetti delle diverse successioni temporali o giorni in cui i trattamenti sono stati somministrati. Non sono poche le situazioni in cui si verifica un effetto biologico o psicologico che dipende dai trattamenti precedenti. ESEMPIO. Si sperimentano gli effetti di 4 farmaci (A, B, C, D) somministrati a 4 individui (I, II, III, IV) in 4 giorni diversi (1 Lunedì; Martedì; 3 Mercoledì; 4 Giovedì), con una successione di farmaci differente per ogni individuo. Il lunedì è stato somministrato il farmaco A alla persona I, il farmaco D alla persona II, il farmaco B alla persona III e il farmaco C alla persona IV. Il martedì sono stati scambiati farmaci e persone, somministrando alla persona I il farmaco C, alla persona II il farmaco B e così di seguito per i quattro giorni, in modo che tutti e quattro gli individui sperimentino i quattro farmaci e senza che nello stesso giorno il medesimo farmaco sia somministrato a due persone. La tabella riporta il piano dell esperimento ed i dati relativi ad ogni persona GIORNI PERSONE 1 Lunedì Martedì 3 Mercoledì 4 Giovedì I A 48 C 35 D 40 B 51 II D 37 B 50 C 33 A 45 III B 4 D 64 A 53 C 39 IV C 31 A 40 B 4 D 37 I risultati dell'analisi della varianza a quadrati latini 4x4 sono riportati nella tabella: 8

30 DEVIANZA GDL VARIANZA F Totale Tra farmaci ,7,77 Tra giorni ,7 < 1 Tra persone ,0,16 Errore ,8 Per gdl 3 e 6, il valore critico alla probabilità α = 0.05 è 4,53. Nessun confronto tra le 4 medie dei 3 fattori risulta significativo. La causa potrebbe essere la limitata potenza del test, evidenziata dal numero ridotto di dati e dai gdl della varianza d errore. Infatti con più dati, per esempio con gdl 3 per ogni fattore e gdl 60 per l errore, il valore critico di F alla stessa probabilità α = 0.05 è,76 e le differenze tra farmaci sarebbero risultate significative. Il disegno sperimentale a quadrati latini ha limiti che dipendono dalle sue dimensioni. Il numero di dati non può essere troppo piccolo, né troppo grande. Il limite inferiore o minimo è imposto dai gradi di libertà della varianza d'errore. Un quadrato latino x avrebbe 3 gdl per la devianza totale, che sarebbero scomposti in - 1 per il fattore principale, - 1 per le colonne e - 1 per le righe. Non resterebbero gdl per la varianza d'errore. In una tabella a quadrati latini 3 x 3 ( con 8 gdl per la devianza totale e gdl per la devianza di ognuno dei 3 fattori) la varianza d'errore ha solamente gdl; è possibile condurre l analisi, ma i gdl sono pochi per rendere significative differenze tra medie che non siano molto grandi, poiché il valore critico alla probabilità α = 0.05 per un F con gdl e è uguale a 19,00. Il limite minimo utile di un quadrato latino è 4x4. Il limite massimo o superiore è determinato dalla complessità dell'esperimento; viene quindi abitualmente fissato per un quadrato latino che varia tra 10 x 10 e 1 x 1. A questi livelli è complesso gestire esperimenti con tanti farmaci da somministrare ad altrettante persone, in un numero equivalente di giorni; molto raramente esistono problemi così complessi e la gestione dell esperimento può incorrere in vari inconvenienti, che renderebbero molto difficile ottenere tutte le risposte. 9

31 I quadrati latini analizzano contemporaneamente 3 fattori, ognuno con p modalità o livelli. Il disegno può essere esteso a 4 fattori, sempre con lo stesso numero p di modalità. Sono i quadrati greco-latini, la cui rappresentazione grafica è riportata nella tabella sottostante. COLONNE RIGHE I II III IV 1 B γ A δ D α C β C δ D γ A β B α 3 D β C α B δ A γ 4 A α B β C γ D δ Nelle righe e nelle colonne sono indicati le modalità di fattori, il terzo fattore è indicato dalle lettere latine ed il quarto con le lettere greche. Ovviamente, tutti i 4 fattori hanno lo stesso numero di livelli (che nella tabella sono 4). La costruzione della tabella dei quadrati greco-latini è più complessa della precedente a quadrati latini: 1) non solo le lettere latine devono comparire una sola volta per riga e per colonna; ) la stessa legge è valida anche per le lettere greche, 3) con la regola aggiuntiva che ogni lettera greca e ogni lettera latina devono essere associati una volta sola, ma ognuna di esse deve incontrare tutte quelle dell altro tipo. Nella ricerca ambientale è il caso di considerare non solo aratura, concimi e tipo di semente, ma anche un quarto fattore che può essere il tipo di antiparassitari, sempre con lo stesso numero di modalità. Nella ricerca di laboratorio, per un esempio analogo al precedente ma usando cavie, oltre alla razza o specie, al giorno e al tossico somministrato, può essere considerata la classe d età. Per ogni singola osservazione X ijkp, il modello di riferimento è uguale a quello per 4 fattori già presentato X ijkp = µ + α i + β j + γ k + δ p + R ijkp dove - µ rappresenta la media generale, - α i, β j, γ k, δ p rappresentano gli effetti indipendenti dei 4 fattori, nelle loro varie modalità, 30

32 - R ijkp rappresenta tutti gli altri fattori non considerati, sommando alla variazione casuale e agli errori di misura e di campionamento tutte le possibili interazioni tra i 4 fattori, che in questi disegni sperimentali, con una sola osservazione per casella, non possono essere valutate. Le ipotesi nulle da verificare sono 4, relative alle medie di ognuno dei 4 fattori. A tal fine, le devianze da calcolare sono aumentate di una unità. Dopo aver sommato tutti i dati contrassegnati dalla stessa lettera greca, con la solita formula deve essere calcolata la devianza relativa, che avrà gli stessi gdl degli altri tre fattori. Con i dati campionari, tali concetti sono espressi dalla relazione X ijkp = X +( Xi X)+( X j X )+( Xk X)+( X p X )+(X ijkp - Xi X j Xk X p +3 X) Il grande vantaggio di questo disegno sperimentale a quadrati greco-latini è rappresentato da un rilevante risparmio di materiale, superiore a quello dei quadrati latini. Con 4 fattori a p livelli non sono più necessari p 4 dati ma solamente p ; con 4 livelli per fattore non più 56 dati ma solamente 16; con 5 livelli per fattore, non più 65 osservazioni (5 x 5 x 5 x 5), ma solamente 5. Quando il costo od il tempo richiesto per ottenere un dato è alto, questo disegno sperimentale può rappresentare una soluzione possibile per effettuare la ricerca programmata. Tuttavia, occorre considerare che la riduzione del numero di dati determina una riduzione notevole dei gdl nella varianza d errore. Con lo schema riportato nella tabella precedente con 4 livelli per ognuno dei 4 fattori, si devono calcolare le seguenti quantità, che hanno i gdl di fianco riportati DEVIANZA GDL VARIANZA F TOTALE XXX 15 Tra colonne XXX 3 XXX XXX Tra righe XXX 3 XXX XXX Tra lettere latine XXX 3 XXX XXX Tra lettere greche XXX 3 XXX XXX Errore XXX 3 XXX Pure con 16 dati di una tabella 4 x 4, i gdl per la varianza d errore sono solamente 3 e i test F hanno gdl 3 e 3. Il valore critico di F alla probabilità α = 0.05 è 9,8 e alla probabilità α= 0.01 è 9,46. 31

33 Per ricorrere ai quadrati greco-latini in tabelle 4 x 4 è quindi necessario che la varianza d errore sia molto piccola; è un risultato che può essere ottenuto quando i fattori considerati sono gli unici reali elementi di variabilità. Un altra soluzione può essere un aumento delle dimensioni dell esperimento ad almeno 5 x 5, che ha 4 gdl per ogni fattore ed 8 gdl nell errore, con valori critici di F uguali a 3,84 alla probabilità α = 0.05 e 7,01 alla probabilità α = E possibile utilizzare esperimenti di dimensioni ancora maggiori; ma con la grande difficoltà di gestire esperimenti così complessi con uno schema tanto rigido e trovare tante modalità per ognuno dei 4 fattori DATI MANCANTI O ANOMALI IN DISEGNI A PIU FATTORI Nei disegni a blocchi randomizzati e a tre o più fattori, negli esperimenti a quadrati latini e greco - latini, la mancanza anche di una sola osservazione pone vari problemi di elaborazione dei dati. A differenza di quanto avviene nel disegno sperimentale ad un criterio di classificazione o completamente randomizzato, dove l analisi della varianza non richiede l'eguaglianza del numero di repliche e la perdita di un dato riduce semplicemente il campione di una unità, per cui non è necessario pensare alla sua sostituzione, nei disegni a più criteri è vantaggioso avere un numero rigidamente prefissato e costante di osservazioni, cioè non avere dati mancanti (missing data, missing values), per utilizzare le formule presentate. Nel corso di un esperimento può avvenire che - uno o più dati non possano essere rilevati, come nel caso della morte di una cavia o dell individuo sul quale il parametro avrebbe dovuto essere misurato, - dopo la rilevazione uno o più dati siano persi, per cancellazione involontaria o smarrimento dell annotazione, nei vari passaggi richiesti per l elaborazione statistica, - lo strumento fornisca una o più misure molto approssimate, per le quali non è tarato. Per sostituire un dato mancante, è fondamentale conoscere la causa della sua non disponibilità, che ai fini statistici può avvenire essenzialmente per motivi: 1) per selezione contro certi valori, che sono troppo grandi o troppo piccoli per essere misurati correttamente dallo strumento a disposizione, ) per una causa accidentale. Nella prima situazione (impossibilità di quantificare esattamente uno o più valori, come nella prima e nella terza ipotesi della serie precedente), il campione raccolto è viziato in modo irrimediabile. Non 3

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II Fondamenti di statistica per il miglioramento genetico delle piante Antonio Di Matteo Università Federico II Modulo 2 Variabili continue e Metodi parametrici Distribuzione Un insieme di misure è detto

Dettagli

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

L Analisi della Varianza ANOVA (ANalysis Of VAriance) L Analisi della Varianza ANOVA (ANalysis Of VAriance) 1 Concetti generali: Confronto simultaneo tra più di due popolazioni, esempi... La analisi della varianza estende il confronto a p gruppi con p>2.

Dettagli

Analisi della varianza

Analisi della varianza Analisi della varianza Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona ANALISI DELLA VARIANZA - 1 Abbiamo k gruppi, con un numero variabile di unità statistiche.

Dettagli

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale DIPARTIMENTO DI SCIENZE AGRARIE E AMBIENTALI PRODUZIONE, TERRITORIO, AGROENERGIA Marco Acutis marco.acutis@unimi.it www.acutis.it CdS Scienze della Produzione e Protezione delle Piante (g59) CdS Biotecnologie

Dettagli

Analisi della varianza

Analisi della varianza Università degli Studi di Padova Facoltà di Medicina e Chirurgia Facoltà di Medicina e Chirurgia - A.A. 2009-10 Scuole di specializzazione Lezioni comuni Disciplina: Statistica Docente: dott.ssa Egle PERISSINOTTO

Dettagli

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI Perchè confrontare le varianze stimate in due campioni? Torniamo all'esempio dei frinosomi Per poter applicare il test t avevamo detto che le varianze, e

Dettagli

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione. Statistica inferenziale La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione. Verifica delle ipotesi sulla medie Quando si conduce una

Dettagli

X Lezione Analisi della varianza Esempi e esercizi CPS - Corso di studi in Informatica II parte: Statistica

X Lezione Analisi della varianza Esempi e esercizi CPS - Corso di studi in Informatica II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte - STATISTICA X Lezione Analisi della varianza Esempi e esercizi 1 Argomenti della X Lezione Tests per il confronto di più medie: ANOVA Utilità e

Dettagli

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson Apogeo

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson Apogeo Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 10 Test basati su due campioni e ANOVA a una via Insegnamento: Statistica Applicata Corsi di Laurea in "Scienze e tecnologie Alimentari"

Dettagli

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson. Casa editrice: Pearson

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson. Casa editrice: Pearson Levine, Krehbiel, Berenson Statistica II ed. Casa editrice: Pearson Capitolo 10 Test basati su due campioni e ANOVA a una via Insegnamento: Statistica Corsi di Laurea Triennale in Economia Dipartimento

Dettagli

Argomenti della lezione:

Argomenti della lezione: Lezione 13 L analisi della Varianza (ANOVA): il modello lineare Argomenti della lezione: Modello lineare Disegni a una via L Analisi della Varianza (ANOVA): Esamina differenze tra le medie di due o più

Dettagli

Contenuti: Capitolo 14 del libro di testo

Contenuti: Capitolo 14 del libro di testo Test d Ipotesi / TIPICI PROBLEMI DI VERIFICA DI IPOTESI SONO Test per la media Test per una proporzione Test per la varianza Test per due campioni indipendenti Test di indipendenza Contenuti Capitolo 4

Dettagli

Statistica4-29/09/2015

Statistica4-29/09/2015 Statistica4-29/09/2015 Raccogliere i dati con il maggior numero di cifre significative ed arrotondare eventualmente solo al momento dei calcoli (min. 3); nella grande maggioranza delle ricerche biologiche

Dettagli

La distribuzione delle frequenze. T 10 (s)

La distribuzione delle frequenze. T 10 (s) 1 La distribuzione delle frequenze Si vuole misurare il periodo di oscillazione di un pendolo costituito da una sferetta metallica agganciata a un filo (fig. 1). A Figura 1 B Ricordiamo che il periodo

Dettagli

SOLUZIONI ESERCITAZIONE NR. 8 Test statistici

SOLUZIONI ESERCITAZIONE NR. 8 Test statistici SOLUZIONI ESERCITAZIONE NR. 8 Test statistici ESERCIZIO nr. 1 Un campione casuale di dieci pazienti di sesso maschile in cura per comportamenti aggressivi nell ambito del contesto familiare è stato classificato

Dettagli

Casa dello Studente. Casa dello Studente

Casa dello Studente. Casa dello Studente Esercitazione - 14 aprile 2016 ESERCIZIO 1 Di seguito si riporta il giudizio (punteggio da 0 a 5) espresso da un gruppo di studenti rispetto alle diverse residenze studentesche di un Ateneo: a) Si calcolino

Dettagli

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 23 Outline 1 2 3 4 5 6 () Statistica 2 / 23 La verifica delle ipotesi Definizione Un ipotesi statistica

Dettagli

L analisi della Varianza (ANOVA): i disegni fattoriali tra i soggetti

L analisi della Varianza (ANOVA): i disegni fattoriali tra i soggetti Lezione 14 L analisi della Varianza (ANOVA): i disegni fattoriali tra i soggetti Argomenti della lezione: Effetti principali e interazioni Analisi dei disegni fattoriali Disegni fattoriali (o a più vie):

Dettagli

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative TRACCIA DI STUDIO Un indice di tendenza centrale non è sufficiente a descrivere completamente un fenomeno. Gli indici di dispersione assolvono il compito di rappresentare la capacità di un fenomeno a manifestarsi

Dettagli

Analisi della varianza

Analisi della varianza 1. 2. univariata ad un solo fattore tra i soggetti (between subjects) 3. univariata: disegni fattoriali 4. univariata entro i soggetti (within subjects) 5. : disegni fattoriali «misti» L analisi della

Dettagli

MODELLI QUANTITATIVI. f x r = c

MODELLI QUANTITATIVI. f x r = c MODELLI QUANTITATIVI Qualunque sia il modello di estrazione di regolarità o di conoscenze dai dati empirici, esiste sempre una base statistica da cui occorre partire. Un fenomeno linguistico specifico

Dettagli

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi) CHEMIOMETRIA Applicazione di metodi matematici e statistici per estrarre (massima) informazione chimica (affidabile) da dati chimici INCERTEZZA DI MISURA (intervallo di confidenza/fiducia) CONFRONTO CON

Dettagli

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA

Dettagli

Ulteriori applicazioni del test del Chi-quadrato (χ 2 )

Ulteriori applicazioni del test del Chi-quadrato (χ 2 ) Ulteriori applicazioni del test del Chi-quadrato (χ 2 ) Finora abbiamo confrontato con il χ 2 le numerosità osservate in diverse categorie in un campione con le numerosità previste da un certo modello

Dettagli

p = p q OR = p q Misura l esistenza di una malattia. E legato alla incidenza in quanto - Prevalenza = Incidenza x tempo medio di durata della malattia

p = p q OR = p q Misura l esistenza di una malattia. E legato alla incidenza in quanto - Prevalenza = Incidenza x tempo medio di durata della malattia - Prevalenza (prevalence) è una misura della proporzione di persone ammalate in un certo periodo. Può essere misurata in modo puntiforme (point prevalence) oppure su un periodo (period prevalence). - Prevalenza

Dettagli

Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"

Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in Scienze e Tecnologie Alimentari Levine, Krehbiel, Berenson Statistica Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari" Unità Integrata Organizzativa

Dettagli

Test per l omogeneità delle varianze

Test per l omogeneità delle varianze Test per l omogeneità delle varianze Le carte di controllo hanno lo scopo di verificare se i campioni estratti provengono da un processo produttivo caratterizzato da un unico valore dello s.q.m. σ. Una

Dettagli

Analisi della varianza a una via

Analisi della varianza a una via Analisi della varianza a una via Statistica descrittiva e Analisi multivariata Prof. Giulio Vidotto PSY-NET: Corso di laurea online in Discipline della ricerca psicologico-sociale SOMMARIO Modelli statistici

Dettagli

1. Introduzione ai disegni sperimentali. 5. Analisi della regressione lineare. 6. Confronto tra proporzioni di due o più campioni indipendenti

1. Introduzione ai disegni sperimentali. 5. Analisi della regressione lineare. 6. Confronto tra proporzioni di due o più campioni indipendenti BIOSTATISTICA 1. Introduzione ai disegni sperimentali 2. Un carattere quantitativo misurato in un campione: elementi di statistica descrittiva e inferenziale 3. Confronto tra medie di due campioni indipendenti

Dettagli

Analisi della varianza: I contrasti e il metodo di Bonferroni

Analisi della varianza: I contrasti e il metodo di Bonferroni Analisi della varianza: I contrasti e il metodo di Bonferroni 1 Contrasti In molti problemi risulta importante stabilire, nel caso venga rifiutata l ipotesi nulla, di uguaglianza delle medie µ j delle

Dettagli

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università

Dettagli

Gli errori nella verifica delle ipotesi

Gli errori nella verifica delle ipotesi Gli errori nella verifica delle ipotesi Nella statistica inferenziale si cerca di dire qualcosa di valido in generale, per la popolazione o le popolazioni, attraverso l analisi di uno o più campioni E

Dettagli

STATISTICA ESERCITAZIONE 13

STATISTICA ESERCITAZIONE 13 STATISTICA ESERCITAZIONE 13 Dott. Giuseppe Pandolfo 9 Marzo 2015 Errore di I tipo: si commette se l'ipotesi nulla H 0 viene rifiutata quando essa è vera Errore di II tipo: si commette se l'ipotesi nulla

Dettagli

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da: Analisi chimica strumentale Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da: (31.4) dove s y è la varianza dei valori

Dettagli

Il modello lineare e l analisi della varianza con

Il modello lineare e l analisi della varianza con Il modello lineare e l analisi della varianza con Rocco Micciolo Università di Trento http://hostingwin.unitn.it/micciolo/ ANOVA a 1 via La scomposizione della devianza ANOVA a 1 via e modello lineare

Dettagli

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento. N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle abelle riportate alla fine del documento. Esercizio 1 La concentrazione media di sostanze inquinanti osservata nelle acque di un fiume

Dettagli

Teoria e tecniche dei test

Teoria e tecniche dei test Teoria e tecniche dei test Lezione 9 LA STANDARDIZZAZIONE DEI TEST. IL PROCESSO DI TARATURA: IL CAMPIONAMENTO. Costruire delle norme di riferimento per un test comporta delle ipotesi di fondo che è necessario

Dettagli

Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2016/2017. Giovanni Lafratta

Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2016/2017. Giovanni Lafratta Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2016/2017 Giovanni Lafratta ii Indice 1 Spazi, Disegni e Strategie Campionarie 1 2 Campionamento casuale

Dettagli

Appunti su Indipendenza Lineare di Vettori

Appunti su Indipendenza Lineare di Vettori Appunti su Indipendenza Lineare di Vettori Claudia Fassino a.a. Queste dispense, relative a una parte del corso di Matematica Computazionale (Laurea in Informatica), rappresentano solo un aiuto per lo

Dettagli

Approssimazione normale alla distribuzione binomiale

Approssimazione normale alla distribuzione binomiale Approssimazione normale alla distribuzione binomiale P b (X r) costoso P b (X r) P(X r) per N grande Teorema: Se la variabile casuale X ha una distribuzione binomiale con parametri N e p, allora, per N

Dettagli

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n. 5 STIMA PUNTUALE DEI PARAMETRI [Adattato dal libro Excel per la statistica di Enzo Belluco] Sia θ un parametro incognito della distribuzione di un carattere in una determinata popolazione. Il problema

Dettagli

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione Statistica Esercitazione alessandro polli facoltà di scienze politiche, sociologia, comunicazione Obiettivo Esercizio 1. Questo e alcuni degli esercizi che proporremo nei prossimi giorni si basano sul

Dettagli

b) E necessario formulare delle ipotesi per calcolare l intervallo di confidenza ottenuto al punto a? (motivare brevemente la risposta):

b) E necessario formulare delle ipotesi per calcolare l intervallo di confidenza ottenuto al punto a? (motivare brevemente la risposta): ESERCIZIO 1 Una grande banca vuole stimare l ammontare medio di denaro che deve essere corrisposto dai correntisti che hanno il conto scoperto. Si seleziona un campione di 100 clienti su cui si osserva

Dettagli

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill Statistica - metodologie per le scienze economiche e sociali /e S. Borra, A. Di Ciaccio - McGraw Hill Es.. Soluzione degli esercizi del capitolo 4 4. Il sistema d ipotesi è: μ 7, H : μ 7, Essendo 0 : t,

Dettagli

Distribuzioni e inferenza statistica

Distribuzioni e inferenza statistica Distribuzioni e inferenza statistica Distribuzioni di probabilità L analisi statistica spesso studia i fenomeni collettivi confrontandoli con modelli teorici di riferimento. Tra di essi, vedremo: la distribuzione

Dettagli

Modelli Log-lineari Bivariati

Modelli Log-lineari Bivariati Modelli Log-lineari Bivariati Luca Stefanutti Università di Padova Dipartimento di Psicologia Applicata Via Venezia 8, 35131 Padova L.Stefanutti (Università di Padova) Modelli Log-lineari 1 / 71 Contenuti

Dettagli

Test F per la significatività del modello

Test F per la significatività del modello Test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F Si vuole verificare l ipotesi H 0 : β 1 = 0,, β k = 0 contro l alternativa che almeno

Dettagli

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli. Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:

Dettagli

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI PSICOMETRIA Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI CAMPIONI INDIPENDENTI Campioni estratti casualmente dalla popolazione con caratteristiche omogenee Assegnazione

Dettagli

Statistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi

Statistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi ISTITUZIONI DI STATISTICA A A 2007/2008 Marco Minozzo e Annamaria Guolo Laurea in Economia del Commercio Internazionale Laurea in Economia e Amministrazione delle Imprese Università degli Studi di Verona

Dettagli

05. Errore campionario e numerosità campionaria

05. Errore campionario e numerosità campionaria Statistica per le ricerche di mercato A.A. 01/13 05. Errore campionario e numerosità campionaria Gli schemi di campionamento condividono lo stesso principio di fondo: rappresentare il più fedelmente possibile,

Dettagli

ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante.

ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante. ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante. Test di uguaglianza delle medie di gruppo SELF_EFF COLL_EFF COIN_LAV IMPEGNO SODDISF CAP_IST COLLEGHI Lambda di Wilks

Dettagli

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi Esercitazione 14 Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () 1 / 14 Ex.1: Verifica Ipotesi sulla media (varianza nota) Le funi prodotte da un certo macchinario hanno una

Dettagli

La matrice delle correlazioni è la seguente:

La matrice delle correlazioni è la seguente: Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA

Dettagli

ANOVA: ANALISI DELLA VARIANZA Prof. Antonio Lanzotti

ANOVA: ANALISI DELLA VARIANZA Prof. Antonio Lanzotti UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE a.a. 007/008 ANOVA: ANALISI DELLA VARIANZA Prof. Antonio Lanzotti A cura di: Ing.

Dettagli

LEZIONE 2. ( ) a 1 x 1 + a 2 x a n x n = b, ove a j, b R sono fissati.

LEZIONE 2. ( ) a 1 x 1 + a 2 x a n x n = b, ove a j, b R sono fissati. LEZIONE 2 2 Sistemi di equazioni lineari Definizione 2 Un equazione lineare nelle n incognite x, x 2,, x n a coefficienti reali, è un equazione della forma (2 a x + a 2 x 2 + + a n x n = b, ove a j, b

Dettagli

Corso di Psicometria Progredito

Corso di Psicometria Progredito Corso di Psicometria Progredito 4.1 I principali test statistici per la verifica di ipotesi: Il test t Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico

Dettagli

Quanti soggetti devono essere selezionati?

Quanti soggetti devono essere selezionati? Quanti soggetti devono essere selezionati? Determinare una appropriata numerosità campionaria già in fase di disegno dello studio molto importante è molto Studi basati su campioni troppo piccoli non hanno

Dettagli

Test delle Ipotesi Parte I

Test delle Ipotesi Parte I Test delle Ipotesi Parte I Test delle Ipotesi sulla media Introduzione Definizioni basilari Teoria per il caso di varianza nota Rischi nel test delle ipotesi Teoria per il caso di varianza non nota Test

Dettagli

VARIETÀ. zona geografica A B C D

VARIETÀ. zona geografica A B C D Anova a 2 vie con repliche (( chiarire che non devono essere esattamente nello stesso numero per ogni cella ovvero per le ripetizioni dei de fattori ma che excel li legge così) Esercizio-esempio 1 Il valore

Dettagli

ESAME. 9 Gennaio 2017 COMPITO B

ESAME. 9 Gennaio 2017 COMPITO B ESAME 9 Gennaio 2017 COMPITO B Cognome Nome Numero di matricola 1) Approssimare tutti i calcoli alla quarta cifra decimale. 2) Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto

Dettagli

Schema lezione 5 Intervalli di confidenza

Schema lezione 5 Intervalli di confidenza Schema lezione 5 Intervalli di confidenza Non centrerò quella barca, ne sono convinto al 95% COMPRENDERE: Significato di intervallo di confidenza Uso degli stimatori come quantità di pivot per stime intervallari

Dettagli

STATISTICA A K (60 ore)

STATISTICA A K (60 ore) STATISTICA A K (60 ore) Marco Riani mriani@unipr.it http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta

Dettagli

Statistica di base per l analisi socio-economica

Statistica di base per l analisi socio-economica Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo gdibartolomeo@unite.it Definizioni di base Una popolazione è l insieme

Dettagli

ESERCIZIO 1. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con 3 fattori tra i soggetti.

ESERCIZIO 1. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con 3 fattori tra i soggetti. ESERCIZIO. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con fattori tra i soggetti. Variabile dipendente: PERF Sorgente Modello corretto Intercept SEX_96

Dettagli

Analisi delle corrispondenze

Analisi delle corrispondenze Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello

Dettagli

8. ANALISI DELLA COVARIANZA (ANCOVA)

8. ANALISI DELLA COVARIANZA (ANCOVA) 8. ANALISI DELLA COVARIANZA (ANCOVA) L analisi della covarianza è un metodo statistico che risulta dalla combinazione dell analisi di regressione con l analisi della varianza. È utile quando all analisi

Dettagli

Teoria e tecniche dei test. Concetti di base

Teoria e tecniche dei test. Concetti di base Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi

Dettagli

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE 1 STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE La presentazione dei dati per molte ricerche mediche fa comunemente riferimento a frequenze, assolute o percentuali. Osservazioni cliniche conducono

Dettagli

Istituzioni di Statistica e Statistica Economica

Istituzioni di Statistica e Statistica Economica Istituzioni di Statistica e Statistica Economica Università degli Studi di Perugia Facoltà di Economia, Assisi, a.a. 2013/14 Esercitazione n. 1 A. I dati riportati nella seguente tabella si riferiscono

Dettagli

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE La presentazione dei dati per molte ricerche mediche fa comunemente riferimento a frequenze, assolute o percentuali. Osservazioni cliniche conducono sovente

Dettagli

Minimi quadrati vincolati e test F

Minimi quadrati vincolati e test F Minimi quadrati vincolati e test F Impostazione del problema Spesso, i modelli econometrici che stimiamo hanno dei parametri che sono passibili di interpretazione diretta nella teoria economica. Consideriamo

Dettagli

Test per una media - varianza nota

Test per una media - varianza nota Situazione Test per una media - varianza nota Popolazione N(µ,σ 2 ); varianza σ 2 nota. µ 0 numero reale fissato. Test di livello α per µ Statistica: Z n = X n µ 0 σ/ n. H 0 H 1 Rifiutiamo H 0 se p-value

Dettagli

Cognome e Nome:... Matricola e corso di laurea:...

Cognome e Nome:... Matricola e corso di laurea:... Statistica - corso base Prof. B. Liseo Prova di esame dell 8 gennaio 2014 Cognome e Nome:................................................................... Matricola e corso di laurea:...................................................

Dettagli

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale DIPARTIMENTO DI SCIENZE AGRARIE E AMBIENTALI PRODUZIONE, TERRITORIO, AGROENERGIA Marco Acutis marco.acutis@unimi.it www.acutis.it CdS Scienze della Produzione e Protezione delle Piante (g59) CdS Biotecnologie

Dettagli

STATISTICA AZIENDALE Modulo Controllo di Qualità

STATISTICA AZIENDALE Modulo Controllo di Qualità STATISTICA AZIENDALE Modulo Controllo di Qualità A.A. 009/10 - Sottoperiodo PROA DEL 14 MAGGIO 010 Cognome:.. Nome: Matricola:.. AERTENZE: Negli esercizi in cui sono richiesti calcoli riportare tutte la

Dettagli

Cognome e Nome:... Corso di laurea:...

Cognome e Nome:... Corso di laurea:... Statistica - corso base Prof. B. Liseo Prova di esame dell 8 gennaio 201 Cognome e Nome:................................................................... Corso di laurea:.......................................................................

Dettagli

I TEST STATISTICI. dott.ssa Gabriella Agrusti

I TEST STATISTICI. dott.ssa Gabriella Agrusti I TEST STATISTICI dott.ssa Gabriella Agrusti Dulcis in fundo.. come scegliere un test statistico in base all ipotesi come stabilire se due variabili sono associate (correlazione di Pearson) come stabilire

Dettagli

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo TOPOGRAFIA 2013/2014 L operazione di misura di una grandezza produce un numero reale che esprime il rapporto della grandezza stessa rispetto a un altra, a essa omogenea, assunta come unità di misura. L

Dettagli

Statistica. Campione

Statistica. Campione 1 STATISTICA DESCRITTIVA Temi considerati 1) 2) Distribuzioni statistiche 3) Rappresentazioni grafiche 4) Misure di tendenza centrale 5) Medie ferme o basali 6) Medie lasche o di posizione 7) Dispersione

Dettagli

7 Disegni sperimentali ad un solo fattore. Giulio Vidotto Raffaele Cioffi

7 Disegni sperimentali ad un solo fattore. Giulio Vidotto Raffaele Cioffi 7 Disegni sperimentali ad un solo fattore Giulio Vidotto Raffaele Cioffi Indice: 7.1 Veri esperimenti 7.2 Fattori livelli condizioni e trattamenti 7.3 Alcuni disegni sperimentali da evitare 7.4 Elementi

Dettagli

UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE. a.a.

UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE. a.a. UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE a.a. 2007/2008 1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00 CDF empirica

Dettagli

Note sulla probabilità

Note sulla probabilità Note sulla probabilità Maurizio Loreti Dipartimento di Fisica Università degli Studi di Padova Anno Accademico 2002 03 1 La distribuzione del χ 2 0.6 0.5 N=1 N=2 N=3 N=5 N=10 0.4 0.3 0.2 0.1 0 0 5 10 15

Dettagli

Il campionamento e l inferenza. Il campionamento e l inferenza

Il campionamento e l inferenza. Il campionamento e l inferenza Il campionamento e l inferenza Popolazione Campione Dai dati osservati mediante scelta campionaria si giunge ad affermazioni che riguardano la popolazione da cui essi sono stati prescelti Il campionamento

Dettagli

Campionamento La statistica media campionaria e la sua distribuzione. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1

Campionamento La statistica media campionaria e la sua distribuzione. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 Campionamento La statistica media campionaria e la sua distribuzione 1 Definisco il problema da studiare: es. tempo di percorrenza tra abitazione e università Carattere: tempo ossia v.s. continua Popolazione:

Dettagli

LEZIONI DI STATISTICA MEDICA

LEZIONI DI STATISTICA MEDICA LEZIONI DI STATISTICA MEDICA Lezione n.11 - Principi dell inferenza statistica - Campionamento - Distribuzione campionaria di una media e di una proporzione - Intervallo di confidenza di una media e di

Dettagli

standardizzazione dei punteggi di un test

standardizzazione dei punteggi di un test DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano paola.magnano@unikore.it standardizzazione dei punteggi di un test serve a dare significato ai punteggi che una persona ottiene ad un test, confrontando la

Dettagli

Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova). Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova). Cognome Nome Matricola Es. 1 Es. 2 Es. 3 Es. 4 Somma Voto finale Attenzione: si

Dettagli

Test di autovalutazione n.1

Test di autovalutazione n.1 Test di autovalutazione n.1 22 febbraio 2015 Nome e cognome: Domanda N.: Points Risposta: 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 1 10 1 11 1 12 1 13 1 14 1 15 1 16 1 Somma 16 1 DOMANDA n. 1 Il procedimento

Dettagli

Statistica Inferenziale

Statistica Inferenziale Statistica Inferenziale Prof. Raffaella Folgieri Email: folgieri@mtcube.com aa 2009/2010 Riepilogo lezione 5 Abbiamo visto: Modelli probabilistici nel continuo Distribuzione uniforme continua Distribuzione

Dettagli

Franco Ferraris Marco Parvis Generalità sulle Misure di Grandezze Fisiche. Prof. Franco Ferraris - Politecnico di Torino

Franco Ferraris Marco Parvis Generalità sulle Misure di Grandezze Fisiche. Prof. Franco Ferraris - Politecnico di Torino Generalità sulle Misure di Grandezze Fisiche Prof. - Politecnico di Torino - La stima delle incertezze nel procedimento di misurazione -modello deterministico -modello probabilistico - La compatibilità

Dettagli

Premessa: la dipendenza in media

Premessa: la dipendenza in media Premessa: la dipendenza in media Supponiamo di avere K diversi livelli di un fattore che potrebbero influire su una determinata variabile. Per esempio supponiamo di domandarci se la diversificazione (intesa

Dettagli

Ulteriori Conoscenze di Informatica e Statistica

Ulteriori Conoscenze di Informatica e Statistica ndici di forma Ulteriori Conoscenze di nformatica e Statistica Descrivono le asimmetrie della distribuzione Carlo Meneghini Dip. di fisica via della Vasca Navale 84, st. 83 ( piano) tel.: 06 55 17 72 17

Dettagli

Test d ipotesi: confronto fra medie

Test d ipotesi: confronto fra medie Test d ipotesi: confronto fra medie Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona CONFRONTO FRA MEDIE 1) confronto fra una media campionaria e una media di popolazione

Dettagli

Esercitazioni di Statistica

Esercitazioni di Statistica Esercitazioni di Statistica Indici di posizione e di variabilità Prof. Livia De Giovanni lstatistica@dis.uniroma1.it Esercizio 1 Data la seguente distribuzione unitaria del carattere X: X : 4 2 4 2 6 4

Dettagli

Confronto tra due popolazioni Lezione 6

Confronto tra due popolazioni Lezione 6 Last updated May 9, 06 Confronto tra due popolazioni Lezione 6 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura I anno, II semestre Concetti visti nell ultima lezione Le media

Dettagli

Statistica ARGOMENTI. Calcolo combinatorio

Statistica ARGOMENTI. Calcolo combinatorio Statistica ARGOMENTI Calcolo combinatorio Probabilità Disposizioni semplici Disposizioni con ripetizione Permutazioni semplici Permutazioni con ripetizioni Combinazioni semplici Assiomi di probabilità

Dettagli

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17 C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica

Dettagli

Esercitazione 8 del corso di Statistica 2

Esercitazione 8 del corso di Statistica 2 Esercitazione 8 del corso di Statistica Prof. Domenico Vistocco Dott.ssa Paola Costantini 6 Giugno 8 Decisione vera falsa è respinta Errore di I tipo Decisione corretta non è respinta Probabilità α Decisione

Dettagli

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa

Dettagli