University of Messina, Italy

Documenti analoghi
University of Messina, Italy

CALCOLO DELL ERRORE E VALUTAZIONE DI UN METODO ANALITICO

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

GLI ERRORI NELLE ANALISI CHIMICHE. University of Messina, Italy. Chimica Analitica 5

GLI ERRORI NELLE ANALISI CHIMICHE. University of Messina, Italy. Analitica 5 16/17

Approssimazione normale alla distribuzione binomiale

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Breve ripasso di statistica

PROVE (TEST) DI IPOTESI VERIFICA DI IPOTESI (TEST DI IPOTESI)

Elementi di Psicometria (con laboratorio software 1)

Esercizi di statistica

Ulteriori Conoscenze di Informatica e Statistica. Popolazione. Campione. I risultati di un esperimento sono variabili aleatorie.

STIME STATISTICHE. Consideriamo il caso della misura di una grandezza fisica che sia affetta da errori casuali. p. 2/2

Test d Ipotesi Introduzione

Teorema del Limite Centrale

Parametri statistici

CONFRONTO TRA LA MEDIE DI DUE CAMPIONI INDIPENDENTI

Statistica. Capitolo 10. Verifica di Ipotesi su una Singola Popolazione. Cap. 10-1

Statistica (parte II) Esercitazione 4

Test delle Ipotesi Parte I

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

Significatività ed analisi degli errori

Errori sistematici e casuali

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

Analisi della varianza

Capitolo 9 Verifica di ipotesi: test basati su un campione

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

p. 1/2 STIME STATISTICHE Consideriamo il caso della misura di una grandezza fisica che sia affetta da errori casuali.

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

University of Messina, Italy

Contenuto del capitolo

Cenni di statistica statistica

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

University of Messina, Italy

Laboratorio di Chimica Fisica. Analisi Statistica

INTERVALLI DI CONFIDENZA e TEST D IPOTESI 1 / 30

Elaborazione statistica di dati

Distribuzione normale

Richiami di inferenza statistica Strumenti quantitativi per la gestione

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

Metodi statistici per le ricerche di mercato

TRATTAMENTO DEI DATI ANALITICI

Capitolo 9 Verifica di ipotesi: test basati su un campione

INTRODUZIONE ALLA STATISTICA PER LA RICERCA IN SANITA

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

Contenuti: Capitolo 14 del libro di testo

Tutta la scienza è fondata sulle misure (Helmholtz)

Caratterizzazione dei consumi energetici (parte 3)

Distribuzioni campionarie

Metodi statistici per lo studio dei fenomeni biologici

Significato probabilistico di σ: su 100 misure, 68.3 hanno probabilità di cadere nell intervallo x σ, x +σ, 95.5 nell intervallo

STATISTICA. Esercitazione 5

Elementi di Psicometria con Laboratorio di SPSS 1

Osservazioni e Misura. Teoria degli errori

05. Errore campionario e numerosità campionaria

ERRORE SPERIMENTALE. D.C. Harris, Chimica Analitica Quantitativa, Zanichelli Editore

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Argomenti della lezione:

per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione

Soluzione Esercizio 1 (pag 1):

Le varianze parziali così trovate vengono confrontate fra di loro per mezzo di un test denominato test F

STATISTICA MULTIVARIATA SSD MAT/06

Università di Pavia Econometria. Richiami di Statistica. Eduardo Rossi

Analisi della varianza

Metodi statistici per le ricerche di mercato

APPLICAZIONE DELLA DEVIATA GAUSSIANA STANDARD

Teoria dei Fenomeni Aleatori AA 2012/13

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson. Casa editrice: Pearson

Capitolo 12 La regressione lineare semplice

Corso Di CHIMICA ANALITICA II

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson Apogeo

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo

Test d Ipotesi - Esempi

Distribuzioni e inferenza statistica

Gli errori nella verifica delle ipotesi

Corso di Statistica Esercitazione 1.8

Teorema del Limite Centrale

Teoria della stima dei parametri:

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

PAROLE CHIAVE Accuratezza, Accuracy, Esattezza, PRECISIONE, Precision, Ripetibilità, Affidabilità, Reliability, Scarto quadratico medio (sqm), Errore

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

o Si sceglie il modello che meglio si adatta alla realtà osservata, cioè quello per il quale risulta più probabile la realtà osservata.

Proprietà della varianza

Parametri di qualità dei dati analitici

lezione 4 AA Paolo Brunori

Intervalli di confidenza

Intervallo di confidenza.

RICHIAMI DI CALCOLO DELLE PROBABILITÀ

Transcript:

TRATTAMENTO E VALUTAZIONE DI DATI STATISTICI 1

Applicazione della statistica alla valutazione dei dati Le applicazioni più comuni della statistica alla chimica analitica sono: Definire l intervallo numerico attorno alla media di un insieme di risultati analitici replicati entro il quale è possibile aspettarsi di trovare, con una certa probabilità, la media della popolazione. Questo intervallo è chiamato Intervallo di Fiducia (od confidenza) (IF). Determinare il numero di misure replicate richiesto per assicurare che una media sperimentale rientri in un predeterminato intervallo con un dato livello di probabilità. 2

Stimare la probabilità che (a) una media sperimentale e un valore vero o (b) che due medie sperimentali siano diversi; Determinare con una data probabilità se la precisione dei due insiemi di misura differisce. Confrontare le medie di più di due campioni per determinare se la differenza tra le medie sono reali o il risultato di un errore casuale. (analisi della varianza). Decidere con una certa probabilità se un apparente outlier, in un insieme di misure replicate, sia il risultato di un errore grossolano. 3

Intervalli di fiducia Il valore esatto della media µ per una popolazione di dati non può mai essere determinato precisamente perché richiederebbe un numero infinito di misure. La teoria statistica ci permette di fissare dei limiti attorno ad una media sperimentale x nei quali il valore vero µ cade con un certo grado di probabilità. Questi limiti sono detti limiti di fiducia e l intervallo da essi definito è noto come intervallo di fiducia. 4

Intervalli di fiducia La grandezza dell intervallo di fiducia, che deriva dalla deviazione standard del campione, dipende dall accuratezza di s, cioè, da quanto noi pensiamo che la deviazione standard del campione sia vicina alla vera deviazione standard. Se abbiamo ragione di credere che s sia una buona approssimazione di σ, allora l intervallo di fiducia può essere significatamente più stretto rispetto al caso in cui la stima di s è basata su due o tre replicati. 5

z= unità di deviazione standard della popolazione. Intervallo di fiducia L a r e a ombreggiata in ogni disegno cade tra i valori di -z e + z che sono indicati alla sinistra e alla destra di ogni curva. I numeri d e n t r o l ombreggiatura s o n o l e percentuali dell area totale sotto la curva che sono incluse in questi valori di z. 6

Intervallo di fiducia L epressione generale per il intervallo di fiducia (IF) di una singola misura si ottiene riarrangiando l equazione dove z può essere preso sia positivo che negativo. Così il limite di fiducia IF sarà dato da: z = x µ σ µ = x ± zσ 7

Intervallo di fiducia Per la media di N misure, viene impiegato l errore standard della media σ/ Ν al posto di σ. Da cui: IFper µ = x ± σ z N I valori di z per vari livelli di fiducia sono mostrati in tabella 8

99 Livelli di fiducia E importante notare come all aumentare del livello di fiducia desiderato, ossia della probabilità che il nostro valore cada all interno dell intervallo, aumenti il valore di z ossia la grandezza dell intervallo stesso. Livello di fiducia% z 50 0.67 68 1.00 80 1.28 90 1.64 95 1.96 96 2.00 99 2.58 99.7 3.00 99.9 3.29 9

99 Intervalli di fiducia Es. Calcolare gli intervalli di fiducia all 80 % e al 95 % per il valore di 201.55 mg/l e per la media di 200.35 per le sei misure riportate qui di seguito per la determinazione degli acidi grassi ω3 nel sangue assumendo che s = 1.4 sia una buona stima di σ. IFper µ = x ± σ N 198.30, 199.10, 200.02, 201.40, 201.55, 200.72 80% IF = 201.55 ± 1.28 x 1.4 = 201.55 ± 1.792 mg/l 95% IF = 201.55 ± 1.96 x 1.4 = 201.55 ± 2.430 mg/l z Livello di fiducia% z 50 0.67 68 1.00 80 1.28 90 1.64 95 1.96 96 2.00 99 2.58 99.7 3.00 80% IF = 200.35 ± 1.28 x 1.4/ 6 = 200.35 ± 0.732 mg/l 95% IF = 200.35 ± 1.96 x 1.4 6 = 200.35 ± 1.120 mg/l 99.9 3.29 10

99 Intervalli di fiducia Livello di fiducia% z 50 0.67 Es. Quante misure replicate sono necessarie per ridurre, ad un intervallo di fiducia del 95%, l intervallo a 200.35 ± 0.30 mg/l? σ IFper µ = x ± z N 1.96 x 1.4/ N = 0.30 N = 1.96 x 1.4/0.30 = 0.30 (s cumulata = 1.4) 68 1.00 80 1.28 90 1.64 95 1.96 96 2.00 99 2.58 99.7 3.00 N = 9.15 99.9 3.29 N = 83.7 11

Intervallo di fiducia per σ sconosciuto Nel caso in cui per mancanza di tempo o di campione non è possibile effettuare una buona stima di s allora si ricorre ad un importante parametro statistico, t, definito esattamente allo stesso modo di z eccetto che a σ si sostituisce s. t = x µ s Come z, t dipende dal livello di confidenza che si desidera. Ma t dipende anche dal numero di gradi di libertà presenti nel calcolo di s. 12

Intervallo di fiducia derivato da t Il limite di fiducia per la media x di N replicati può essere derivato da t attraverso l equazione: IFper µ = x ± ts N 13

Supporti statistici per la verifica di ipotesi I test statistici che includono confronti tra due dati si basano tutti su una ipotesi nulla, che assume che le quantità da confrontare siano identiche. Per confrontare i risultati di metodo analitico con quello che è ritenuto essere il valore vero, calcoliamo la differenza x-m dove x è la media sperimentale e m la media della popolazione o il valore vero. Questa differenza è poi confrontata con quella che potrebbe essere causata dall errore random. 14

Confronto di una media sperimentale ed un valore vero Stabilire l ipotesi nulla H o : µ = µ o z = x - µ o σ / N Se la differenza osservata è minore di quella calcolata ad un dato livello di probabilità, l ipotesi che x e µ siano identiche non può essere scartata. Il valore critico per il rigetto dell ipotesi che le misure siano uguali è basato sul t-test precedentemente descritto. Il valore critico è ottenuto dall equazione: t = x - µ o s / N Il test z di un campione grande Il test t di un campione piccolo 15

Confronto fra due medie sperimentali: il test t per differenze nelle medie Frequentemente, i chimici devono valutare se esiste realmente una differenza tra le medie di 2 insiemi di dati o se tale differenza sia il risultato di errori casuali nei 2 insiemi. Spesso, i risultati sono usati per determinare se 2 metodiche analitiche forniscono gli stessi valori o se 2 analisti, usando gli stessi metodi, ottengono le stesse medie. Per esempio, potremo analizzare il contenuto di CH 3 CH 2 OH di 2 campioni di vino. 16

Il test t per differenze nelle medie In questo caso, come nel precedente, utilizziamo l ipotesi nulla, cioè che i campioni di vino sono identici e che la differenza (x 1 - x 2 ) osservata sia il risultato di errori indeterminabili. Ad esempio, assumiamo che l analisi del campione di vino 1, mediante N 1 replicate, abbia portato ad un valore medio x 1, e che l analisi del campione di vino 2, - mediante N 2 replicate, abbia portato ad un valore medio x 2. Per testare questa ipotesi statistica dobbiamo trovare il test t statistico (entrambi gli - insiemi contengono pochi risultati): t = s x cumulata - x N1 + N N N 1 2 1 2 2 = 17

Il test t per differenze nelle medie Il test statistico viene quindi confrontato con il valore critico t ricavato dalla tabella per il particolare livello di fiducia desiderato. Se il valore assoluto del test statistico è inferiore rispetto al valore critico, l ipotesi nulla è accettata è non ci sono differenze significative tra le medie. 18

Il test t per differenze nelle medie: ESEMPIO s Sulla base di 6 analisi è stato stabilito che il contenuto medio in etanolo del campione di vino 1 è 12,61%. Per il campione di vino 2, la media di 4 analisi è risultata pari al 12,53% di alcool. Le 10 analisi hanno avuto un valore di deviazione standard cumulata pari allo 0,070%. cumulata = N N ( ) 2 ( ) 2 x x + x x + ( x x ) 1 2 3 1 1 1 i j i= 1 j= 1 K = 1 N 1 + N 2 + N 3 N +... N k s 2 +... 19

Il test t per differenze nelle medie L ipotesi nulla è H 0 : µ 1 = µ 2 e l ipotesi alternativa è H 0 : µ 1 µ 2 : t = s x cumulata - x 1 2 N1 + N N N 1 2 2 = 1,771 20

Il test t per differenze nelle medie Il valore critico di t al 95% di livello di fiducia per 8 gradi di libertà è 2.31. Poiché 1,771 < 2,31, accettiamo l ipotesi nulla al 95% e concludiamo che non c è differenza nel contenuto alcolico dei vini. 21

Il test t per differenze nelle medie Domanda: in quest esempio, ad un livello di probabilità del 95%, non è stata osservata alcuna differenza nel contenuto alcoolico dei 2 vini. Possiamo concludere che i 2 vini sono identici? 22

Confronto fra due medie sperimentali: Dati accoppiati I chimici spesso valutano differenze in 2 metodi analizzando lo stesso campione. Il test t accoppiato usa lo stesso tipo di procedura del test t normale ad eccezione del fatto che si analizzano coppie di dati. In questo caso, la deviazione standard sarà la deviazione standard della differenza media (s d ). Il valore del test statistico è: t = d s Δ N - 0 d / = Dove d è la differenza media E Δ 0 e la differenza che spesso è uguale a zero 23

Dati accoppiati: ESEMPIO Procedura per la determinazione del glucosio nel siero (A) viene confermata con il metodo tradizionale (B). Entrambi i metodi vengono eseguiti sul siero proveniente dagli stessi pazienti. H OH H O OH H OH H OH OH 24

Esempio t = d s Δ N - 0 d / Metodo A glucosio, mg/l Metodo B glucosio, mg/l = Procedura per la determinazione del glucosio nel siero (A) viene confermata con il metodo tradizionale (B). Entrambi i metodi vengono eseguiti sul siero proveniente dagli stessi pazienti. Paz.1 Paz. 2 Paz. 3 Paz. 4 Paz. 5 Paz. 6 1044 720 845 800 957 650 1028 711 820 795 935 639 Differenza, mg/l 16 9 25 5 22 11 25

Dati accoppiati Dalla Tabella ricaviamo che: N = 6 d = 14.67 S d = 7.76 Δ e quindi: t = = s d d / - 0 N 4,628 26

Dati accoppiati Il valore critico di t al 95% di livello di fiducia per 5 gradi di libertà è 2.57. Poiché 4,628 > 2,57, scartiamo l ipotesi nulla al 95% e concludiamo che i 2 metodi danno risultati differenti. 27

Confronto della precisione Talvolta, risulta necessario confrontare le varianze (quadrato della deviazione standard) o deviazioni standard di 2 popolazioni. Un semplice test statistico, chiamato test F, può essere usato per verificare questa assunzione a condizione che le popolazioni seguano la distribuzione Gaussiana. Il test F è basato sull ipotesi nulla che le varianze delle 2 popolazioni prese in considerazione siano uguali: H 0 : σ 2 1 = σ2 2 Il test statistico F, che è definito come il rapporto delle 2 varianze del campione (F = σ 2 1 / σ2 2 ), è calcolato e confrontato con il valore critico di F al livello di significatività desiderato. L ipotesi nullo è scartato se il test statistico differisce troppo da 1. 28

Confronto della precisione: ESEMPIO È noto, grazie a numerose misure, che una metodica analitica gascromatografica per la determinazione di pesticidi organici clorurati nella frutta è caratterizzata da un valore di s pari a 0.16 ppb. L introduzione di un sistema interamente automatizzato porta il valore di s a 0.09 ppb. Entrambi i metodi prevedono 10 gradi di libertà. Il metodo automatizzato è più preciso? Qui noi verifichiamo l ipotesi alternativa: H a : s 2 1 < s2 std : F = s 2 std / s2 1 = (0,16)2 / (0,09) 2 = 3.16 29

Confronto della precisione: ESEMPIO Dalla tabella il valore critico di F al 95% per 10 gradi di libertà in entrambi le metodiche è 2,98 (< 3,16). In questo caso scartiamo l ipotesi nulla e concludiamo che al 95% del livello di fiducia la metodica automatizzata è più precisa. Gradi libertà denominatore Gradi libertà numeratore 10 2 F = 19,40 4 F = 5.96 6 F = 4,06 10 F = 2.98 12 F = 2,75 30

Analisi della varianza: ANOVA La procedura ANOVA permette il confronto tra più di 2 medie di popolazione. Nelle procedure ANOVA noi rileviamo le differenze tra le diverse medie delle popolazioni confrontando le varianze. Per confrontare I medie di popolazioni, µ 1, µ 2,.µ i, l ipotesi nulla assume la forma: H 0 : µ 1 = µ 2 = µ 3 = µ i e l ipotesi alternativa H a assume la forma: H a : almeno 2 dei valori di µ i sono differenti 31

Analisi della varianza: ANOVA Le seguenti sono tipiche applicazioni di ANOVA: 1. C è una differenza nei risultati di 5 analisti che determinano il Ca mediante un metodo volumetrico? 2. Quattro diverse composizioni di un solvente hanno influenze differenti sulla resa di una sintesi chimica? In ciascuna di queste situazioni, le popolazioni presentano valori diversi di una caratteristica comune chiamata fattore (Analista; Solvente). I differenti valori del fattore di interesse vengono chiamati livelli o gruppi (Analista 1, Analista 2..; Composizione 1, Composizione 2 ;). I confronti fra le varie popolazioni vengono eseguite mediante la misura di una risposta (mmol Ca; resa della reazione) 32

Analisi della varianza: ANOVA Dati ANOVA (ad una via) per 5 analisti che determinano il Ca per 3 volte: Risposta, mmol Ca 14,0 13,0 12,0 11,0 10,0 9,0 8,0 7,0 variazione nel gruppo 6,0 1 2 3 4 5 Analista 33

Analisi della varianza: ANOVA variazione tra i gruppi - - x 3 x 5 - x 1 - - x 4 x 2 Dati ANOVA (ad una via) per 5 analisti che determinano il Ca per 3 volte: Risposta, mmol Ca 14,0 13,0 12,0 11,0 10,0 9,0 8,0 media del campione 7,0 6,0 1 2 3 4 5 Analista 34

Analisi della varianza: ANOVA Quando l ipotesi nulla (H 0 ) è vera, la variazione tra le medie dei gruppi è simile alla variazione all interno dei gruppi. Quando l ipotesi nulla è falsa, la variazione tra le medie dei gruppi è più grande della variazione all interno dei gruppi. Il test statistico di base usato per ANOVA è il test F (usato per il confronto della precisione): un valore alto di F rispetto al valore critico di tabella può fare scartare H 0 a favore dell ipotesi alternativa. 35

ANOVA a singolo fattore Nel testare l ipotesi nullo sono importanti diverse quantità: le medie dei campioni (x 1, x 2, ) le varienze dei campioni (s 2 1, s2 2, ) - - Queste sono stime dei valori delle popolazioni corrispondenti. Inoltre possiamo calcolare il valore medio complessivo x che è la media di tutti i dati: = (N 1 /N)x 1 + (N 2 /N)x 2 +.(N i /N)x i - - - dove N 1 è il numero di misure del gruppo 1, N 2 del gruppo 2 e così via. - 36

ANOVA a singolo fattore Per calcolare il rapporto della varianza necessaria per l F test, si richiedono altre quantità chiamate somme dei quadrati: 1) La somma dei quadrati dovuti al fattore SQF (effetto del fattore; variazione tra i gruppi): - - - - = N 1 (x 1 - x) 2 + N 2 (x 2 - x) 2 +. N i (x i - x) 2 2) La somma dei quadrati dovuta agli errori SQE (variazione all interno dei gruppi): N - 2 N 1 - y=1 j=1 = Σ (x 1y - x 1 ) 2 + Σ (x 2j - x 2 ) 2 + Σ (x ij - x j ) 2 - - N i - j=1 37

Analisi della varianza: ANOVA Queste 2 somme dei quadrati vengono usate per ottenere la variazione tra i gruppi e la variazione all interno dei gruppi. La somma dei quadrati dell errore è legata alle varianze dei gruppi singoli mediante: SQE = (N 1 1)s 2 1 + (N 2 1)s2 2 +.. (N i 1)s2 i 3) La somma dei quadrati totale (SQT) è ottenuta dalla somma di SQF e SQE. SQT può essere anche ricavata da (N 1)s 2, dove s 2 è la varianza del campione di tutti i dati. 38

Analisi della varianza: ANOVA 4) Dividendo la somma dei quadrati per i loro rispettivi gradi di libertà, possiamo ottenere le quantità che rappresentano le stime delle variazioni tra i gruppi e all interno dei gruppi. Queste quantità vengono chiamate valori dei quadrati delle medie e sono definiti come: Quadrato della media dei livelli del fattore = QMF = SQF/I 1 Errore del quadrato della media = EQM = SQE/N 1 EQM è una stima della varianza dell errore all interno dei gruppi (σ 2 E ) mentre QMF è una stima della varianza dell errore all interno dei gruppi più la varianza tra i gruppi (σ 2 E + σ2 F ). 39

Analisi della varianza: ANOVA Se il fattore ha poca influenza, la varianza tra i gruppi dovrebbe essere piccola in confronto alla varianza dell errore. In queste circostanze, i 2 quadrati delle medie dovrebbero essere quasi identici. Se, invece, l effetto del fattore è significativo, QMF è più grande di EQM. Il test statistico è il valore di F calcolato come: F = QMF/EQM Per completare la verifica dell ipotesi nulla, confrontiamo il valore di F con quello critico riportato in tabello ad un livello di significatività α. 40

Tabella ANOVA Sorgenti di variazione Tra gruppi (effetto del fattore) All interno dei gruppi (errore) Somma dei quadrati (SQ) Gradi di libertà (gl) Quadrati delle medie (QM) SQF I- 1 QMF = SQF/N - 1 SQE N - 1 EQM = SQE/I - 1 Totale SQT N - 1 Stime dei quadrati delle medie σ 2 E + σ2 F σ 2 E F QMF/EQM 41

ANOVA: ESEMPIO Nella determinazione del Ca, 5 analisti ottennero i risultati (mmol Ca) mostrati nella seguente tabella. Stabilite se ad un livello di fiducia del 95%, le medie sono diverse. Analista/ Prova 1 2 3 4 5 1 10,3 9,5 12,1 9,6 11,6 2 9,8 8,6 13,0 8,3 12,5 3 11,4 8,9 12,4 8,2 11,4 42

ANOVA: ESEMPIO Calcoliamo le medie e valori di deviazione standard: Analista 1 2 3 4 5 x - 10,5 9,0 12,5 8,7 11,8 s 0.818535 0,458258 0,458258 0,781025 0.585947 La media complessiva è uguale a: 3/15 (10,5 + 9,0 + 12,5 + 8,7 + 11,8) = 10,5 mmol Ca 43

ANOVA: ESEMPIO La somma dei quadrati tra gruppi è calcolata mediante: - - - - - - SQF = N 1 (x 1 - x) 2 + N 2 (x 2 - x) 2 +. N i (x i - x) 2 SQF = 33,8 SQF è associato con 4 gradi di libertà La somma dei quadrati dell errore è calcolata mediante: SQE = (N 1 1)s 2 1 + (N 2 1)s2 2 +.. (N i 1)s2 i SQE = 4,1 SQE è associato con 10 gradi di libertà 44

ANOVA: ESEMPIO Ora possiamo calcolare i valori dei quadrati della media: QMF = 33,8/4 = 8,4 EQM = 4,1/10 = 0,4 Per cui: F = 8,4/0,4 = 20,7 45

ANOVA: ESEMPIO Dalla tabella dei valori di F, il valore critico di F, ad un livello di fiducia del 95% per 4 e 10 gradi di libertà è 3,48. Quindi scartiamo l ipotesi nulla ad un livello di fiducia del 95%. Gradi libertà denominatore Gradi libertà numeratore 2 F = 19,25 4 F = 6.39 6 F = 4,53 10 F = 3.48 12 F = 3,26 4 46

Determinazione dei risultati diversi Se ANOVA indica differenze significative, siamo spesso interessati a determinare le cause. Esistono vari metodi per determinare quali medie sono significativamente diverse. Il più semplice è il metodo della minima differenza significativa (MDS). Per un uguale numero di repliche N g in ciascun gruppo, MDS viene calcolata mediante: = t [(2 x EQM)/N g ] 0,5 dove t dovrebbe avere N 1 gradi di libertà. 47

Tabella ANOVA Sorgenti di variazione Tra gruppi (effetto del fattore) All interno dei gruppi (errore) Somma dei quadrati (SQ) Gradi di libertà (gl) Quadrati delle medie (QM) SQF I- 1 QMF = SQF/N - 1 SQE N - 1 EQM = SQE/I - 1 Totale SQT N - 1 Stime dei quadrati delle medie σ 2 E + σ2 F σ 2 E F QMF/EQM 48

Determinazione dei risultati diversi: ESEMPIO Per i risultati precedenti determinare quali analisti differiscono l un l altro ad un livello di fiducia del 95%. Otteniamo un valore di t di 2,23 per un livello di fiducia del 95% e per 10 gradi di libertà: 49

Determinazione dei risultati diversi: ESEMPIO MDS = t [(2 x EQM)/Ng]0,5 = 1,16 Ora possiamo calcolare le differenze nelle medie e confrontarle con 1,16: x - più grande - x - più piccola = 12,5 8,7 = 3,8 (differenza significativa) x - più grande4 - x - più piccola = 9,0 8,7 = 0,3 (diff. non significativa) 50

Rigetto degli outliers Quando un gruppo di dati contiene un risultato che appare differire eccessivamente dalla media ( outlier ), bisogna decidere se ritenere o rigettare questo dato. La scelta del criterio di rigetto di un risultato sospetto è delicata in quanto si corre il rischio se si fissa una misura troppo rigorosa di eliminare dati utili, di contro se si fissano limiti troppo indulgenti si corre il rischio di mantenere risultati spuri. Un test statisco che si usa usato in questi casi è il Q-test. 51

Q-test Nell applicazione del Q-test, la differenza fra il risultato dubbio e il risultato con il valore a lui più prossimo viene diviso per la larghezza dell intero set. Il rapporto risultante Q exp viene allora confrontato con i valori critici del quoziente di scarto per un certo livello di confidenza. Q exp = d w = x x q 1 x x n n 52

Se Q exp è maggiore di Q crit il risultato incerto può essere eliminato con il grado di confidenza specificato. Q exp = d w = x x q 1 x x n n 53

Rigetto degli outliers: ESEMPIO L analisi di un campione di olio di pesce ha prodotto percentuali di un acido grasso polinsaturo (C22:6ω3) pari a 10,25, 10,30, 10,27, 10,31 e 10,43. L ultimo valore appare come un outlier ; dovrebbe essere accettato o scartato al 95% di livello di fiducia? La differenza fra 10,31 e 10,43 è 0,12%. La dispersione è 0.18%. Quindi: Q = 0,12/0,18 = 0,67 54

Rigetto degli outliers: ESEMPIO Q = 0,12/0,18 = 0,67 (< 0,710) Q è minore di Q crit, quindi si accetta il valore 55