University of Messina, Italy

Documenti analoghi
University of Messina, Italy

CALCOLO DELL ERRORE E VALUTAZIONE DI UN METODO ANALITICO

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Breve ripasso di statistica

GLI ERRORI NELLE ANALISI CHIMICHE. University of Messina, Italy. Analitica 5 16/17

GLI ERRORI NELLE ANALISI CHIMICHE. University of Messina, Italy. Chimica Analitica 5

Approssimazione normale alla distribuzione binomiale

PROVE (TEST) DI IPOTESI VERIFICA DI IPOTESI (TEST DI IPOTESI)

STIME STATISTICHE. Consideriamo il caso della misura di una grandezza fisica che sia affetta da errori casuali. p. 2/2

Teorema del Limite Centrale

Test d Ipotesi Introduzione

Significatività ed analisi degli errori

Distribuzione normale

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

Parametri statistici

Statistica. Capitolo 10. Verifica di Ipotesi su una Singola Popolazione. Cap. 10-1

Ulteriori Conoscenze di Informatica e Statistica. Popolazione. Campione. I risultati di un esperimento sono variabili aleatorie.

Elementi di Psicometria (con laboratorio software 1)

Metodi statistici per le ricerche di mercato

p. 1/2 STIME STATISTICHE Consideriamo il caso della misura di una grandezza fisica che sia affetta da errori casuali.

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

INTERVALLI DI CONFIDENZA e TEST D IPOTESI 1 / 30

Capitolo 9 Verifica di ipotesi: test basati su un campione

University of Messina, Italy

Cenni di statistica statistica

Esercizi di statistica

Test delle Ipotesi Parte I

University of Messina, Italy

Teorema del Limite Centrale

Statistica (parte II) Esercitazione 4

CONFRONTO TRA LA MEDIE DI DUE CAMPIONI INDIPENDENTI

Capitolo 9 Verifica di ipotesi: test basati su un campione

05. Errore campionario e numerosità campionaria

TRATTAMENTO DEI DATI ANALITICI

INTRODUZIONE ALLA STATISTICA PER LA RICERCA IN SANITA

Contenuti: Capitolo 14 del libro di testo

Laboratorio di Chimica Fisica. Analisi Statistica

Distribuzione Normale

Distribuzione Normale

Contenuto del capitolo

Teoria dei Fenomeni Aleatori AA 2012/13

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

Distribuzione Normale

Richiami di inferenza statistica Strumenti quantitativi per la gestione

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

APPLICAZIONE DELLA DEVIATA GAUSSIANA STANDARD

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

ERRORE SPERIMENTALE. D.C. Harris, Chimica Analitica Quantitativa, Zanichelli Editore

Caratterizzazione dei consumi energetici (parte 3)

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

Elaborazione statistica di dati

Test d Ipotesi - Esempi

Corso Di CHIMICA ANALITICA II

Soluzione Esercizio 1 (pag 1):

Quanti soggetti devono essere selezionati?

Metodi statistici per lo studio dei fenomeni biologici

Costruzione di macchine. Modulo di: Progettazione probabilistica e affidabilità. Marco Beghini. Lezione 7: Basi di statistica

Test di ipotesi. Test

Errori sistematici e casuali

o Si sceglie il modello che meglio si adatta alla realtà osservata, cioè quello per il quale risulta più probabile la realtà osservata.

Elementi di Psicometria con Laboratorio di SPSS 1

Osservazioni e Misura. Teoria degli errori

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Capitolo 12 La regressione lineare semplice

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

Ulteriori conoscenze di informatica Elementi di statistica Esercitazione3

Test di ipotesi su due campioni

Gli errori nella verifica delle ipotesi

Teoria della stima dei parametri:

Inferenza su una popolazione

Corso di Statistica Esercitazione 1.8

La statistica è la scienza che permette di conoscere il mondo intorno a noi attraverso i dati.

Esercitazione del

Questo calcolo richiede che si conoscano media e deviazione standard della popolazione.

Matematica II: Calcolo delle Probabilità e Statistica Matematica

Distribuzioni e inferenza statistica

Significato probabilistico di σ: su 100 misure, 68.3 hanno probabilità di cadere nell intervallo x σ, x +σ, 95.5 nell intervallo

Distribuzione Normale. Dott. Claudio Verona

STATISTICA. Esercitazione 5

Metodi statistici per le ricerche di mercato

Proprietà della varianza

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. La distribuzione t - student

Distribuzione Gaussiana - Facciamo un riassunto -

Esercizi di statistica inferenziale

Corso Integrato di Statistica Informatica e Analisi dei Dati Sperimentali. Esercitazione E

Parametri di qualità dei dati analitici

Intervalli di confidenza

Il Teorema del limite Centrale (TLC)

Statistica Inferenziale

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

Esperimentazioni di Fisica 1. Prova in itinere del 12 giugno 2018

PAROLE CHIAVE Accuratezza, Accuracy, Esattezza, PRECISIONE, Precision, Ripetibilità, Affidabilità, Reliability, Scarto quadratico medio (sqm), Errore

tabelle grafici misure di

Introduzione all'inferenza Lezione 4

Transcript:

TRATTAMENTO E VALUTAZIONE DI DATI STATISTICI

Applicazione della statistica alla valutazione dei dati Le applicazioni più comuni della statistica alla chimica analitica sono: Definire l intervallo numerico attorno alla media di un insieme di risultati analitici replicati entro il quale è possibile aspettarsi di trovare, con una certa probabilità, la media della popolazione. Questo intervallo è chiamato Intervallo di Fiducia (o confidenza) (IF). Determinare il numero di misure replicate richiesto per assicurare che una media sperimentale rientri in un predeterminato intervallo con un dato livello di probabilità.

Stimare la probabilità che (a) una media sperimentale e un valore vero o (b) che due medie sperimentali siano diversi; Determinare con una data probabilità se la precisione dei due insiemi di misura differisce. Confrontare le medie di più di due campioni per determinare se la differenza tra le medie sono reali o il risultato di un errore casuale. (analisi della varianza). Decidere con una certa probabilità se un apparente outlier, in un insieme di misure replicate, sia il risultato di un errore grossolano.

Intervalli di fiducia Il valore esatto della media µ per una popolazione di dati non può mai essere determinato precisamente perché richiederebbe un numero infinito di misure. La teoria statistica ci permette di fissare dei limiti attorno ad una media sperimentale x nei quali il valore vero µ cade con un certo grado di probabilità. Questi limiti sono detti limiti di fiducia e l intervallo da essi definito è noto come intervallo di fiducia.

Intervalli di fiducia La grandezza dell intervallo di fiducia, che deriva dalla deviazione standard del campione, dipende dall accuratezza di s, cioè, da quanto noi pensiamo che la deviazione standard del campione sia vicina alla vera deviazione standard. Se abbiamo ragione di credere che s sia una buona approssimazione di σ, allora l intervallo di fiducia può essere significatamente più stretto rispetto al caso in cui la stima di s è basata su due o tre replicati.

z= unità di deviazione standard della popolazione. Intervallo di fiducia L a r e a ombreggiata in ogni disegno cade tra i valori di -z e + z che sono indicati alla sinistra e alla destra di ogni curva. I numeri d e n t r o l ombreggiatura s o n o l e percentuali dell area totale sotto la curva che sono incluse in questi valori di z.

Intervallo di fiducia L epressione generale per il intervallo di fiducia (IF) di una singola misura si ottiene riarrangiando l equazione z = x µ σ dove z può essere preso sia positivo che negativo. Così il limite di fiducia IF sarà dato da: µ = x ± zσ

Intervallo di fiducia Per la media di N misure, viene impiegato l errore standard della media σ/ Ν al posto di σ. Da cui: IFper µ = x ± σ z N I valori di z per vari livelli di fiducia sono mostrati in tabella

99 Livelli di fiducia E importante notare come all aumentare del livello di fiducia desiderato, ossia della probabilità che il nostro valore cada all interno dell intervallo, aumenti il valore di z ossia la grandezza dell intervallo stesso. Livello di fiducia% z 50 0.67 68 1.00 80 1.28 90 1.64 95 1.96 96 2.00 99 2.58 99.7 3.00 99.9 3.29

99 Intervalli di fiducia Es. Calcolare gli intervalli di fiducia all 80 % e al 95 % per il valore di 201.55 mg/l e per la media di 200.35 per le sei misure riportate qui di seguito per la determinazione degli acidi grassi ω3 nel sangue assumendo che s = 1.4 sia una buona stima di σ. IFper µ = x ± σ N 198.30, 199.10, 200.02, 201.40, 201.55, 200.72 80% IF = 201.55 ± 1.28 x 1.4 = 201.55 ± 1.792 mg/l 95% IF = 201.55 ± 1.96 x 1.4 = 201.55 ± 2.430 mg/l z Livello di fiducia% z 50 0.67 68 1.00 80 1.28 90 1.64 95 1.96 96 2.00 99 2.58 99.7 3.00 80% IF = 200.35 ± 1.28 x 1.4/ 6 = 200.35 ± 0.732 mg/l 95% IF = 200.35 ± 1.96 x 1.4 6 = 200.35 ± 1.120 mg/l 99.9 3.29

99 Intervalli di fiducia Livello di fiducia% z 50 0.67 Es. Quante misure replicate sono necessarie per ridurre, ad un intervallo di fiducia del 95%, l intervallo a 200.35 ± 0.30 mg/l? σ IFper µ = x ± z N 1.96 x 1.4/ N = 0.30 N = 1.96 x 1.4/0.30 = 0.30 (s cumulata = 1.4) 68 1.00 80 1.28 90 1.64 95 1.96 96 2.00 99 2.58 99.7 3.00 N = 9.15 99.9 3.29 N = 83.7

Intervallo di fiducia per σ sconosciuto Nel caso in cui per mancanza di tempo o di campione non è possibile effettuare una buona stima di s allora si ricorre ad un importante parametro statistico, t, definito esattamente allo stesso modo di z eccetto che a σ si sostituisce s. t = x µ s Come z, t dipende dal livello di confidenza che si desidera. Ma t dipende anche dal numero di gradi di libertà presenti nel calcolo di s.

Intervallo di fiducia derivato da t Il limite di fiducia per la media x di N replicati può essere derivato da t attraverso l equazione: IFper µ = x ± ts N

Supporti statistici per la verifica di ipotesi I test statistici che includono confronti tra due dati si basano tutti su una ipotesi nulla, che assume che le quantità da confrontare siano identiche. Per confrontare i risultati di metodo analitico con quello che è ritenuto essere il valore vero, calcoliamo la differenza x-µ dove x è la media sperimentale e µ la media della popolazione o il valore vero. Questa differenza è poi confrontata con quella che potrebbe essere causata dall errore random.

Confronto di una media sperimentale ed un valore vero Stabilire l ipotesi nulla H o : µ = µ o z = x - µ o σ / N Se la differenza osservata è minore di quella calcolata ad un dato livello di probabilità, l ipotesi che x e µ siano identiche non può essere scartata. Il valore critico per il rigetto dell ipotesi che le misure siano uguali è basato sul t-test precedentemente descritto. Il valore critico è ottenuto dall equazione: t = x - µ o s / N Il test z di un campione grande Il test t di un campione piccolo

Confronto fra due medie sperimentali: il test t per differenze nelle medie Frequentemente, i chimici devono valutare se esiste realmente una differenza tra le medie di 2 insiemi di dati o se tale differenza sia il risultato di errori casuali nei 2 insiemi. Spesso, i risultati sono usati per determinare se 2 metodiche analitiche forniscono gli stessi valori o se 2 analisti, usando gli stessi metodi, ottengono le stesse medie. Per esempio, potremo analizzare il contenuto di CH 3 CH 2 OH di 2 campioni di vino.

Il test t per differenze nelle medie In questo caso, come nel precedente, utilizziamo l ipotesi nulla, cioè che i campioni di vino sono identici e che la differenza (x 1 - x 2 ) osservata sia il risultato di errori indeterminabili. Ad esempio, assumiamo che l analisi del campione di vino 1, mediante N 1 replicate, abbia portato ad un valore medio x 1, e che l analisi del campione di vino 2, - mediante N 2 replicate, abbia portato ad un valore medio x 2. Per testare questa ipotesi statistica dobbiamo trovare il test t statistico (entrambi gli - insiemi contengono pochi risultati): t = s x cumulata - x N1 + N N N 1 2 1 2 2 =

Il test t per differenze nelle medie Il test statistico viene quindi confrontato con il valore critico t ricavato dalla tabella per il particolare livello di fiducia desiderato. Se il valore assoluto del test statistico è inferiore rispetto al valore critico, l ipotesi nulla è accettata è non ci sono differenze significative tra le medie.

Il test t per differenze nelle medie: ESEMPIO s Sulla base di 6 analisi è stato stabilito che il contenuto medio in etanolo del campione di vino 1 è 12,61%. Per il campione di vino 2, la media di 4 analisi è risultata pari al 12,53% di alcool. Le 10 analisi hanno avuto un valore di deviazione standard cumulata pari allo 0,070%. cumulata = N N ( ) 2 ( ) 2 x x + x x + ( x x ) 1 2 3 1 1 1 i j i= 1 j= 1 K = 1 N 1 + N 2 + N 3 N +... N k s 2 +...

Il test t per differenze nelle medie L ipotesi nulla è H 0 : µ 1 = µ 2 e l ipotesi alternativa è H 0 : µ 1 µ 2 : t = s x cumulata - x 1 2 N1 + N N N 1 2 2 = 1,771

Il test t per differenze nelle medie Il valore critico di t al 95% di livello di fiducia per 8 gradi di libertà è 2.31. Poiché 1,771 < 2,31, accettiamo l ipotesi nulla al 95% e concludiamo che non c è differenza nel contenuto alcolico dei vini.

Il test t per differenze nelle medie Domanda: in quest esempio, ad un livello di probabilità del 95%, non è stata osservata alcuna differenza nel contenuto alcoolico dei 2 vini. Possiamo concludere che i 2 vini sono identici?

Confronto fra due medie sperimentali: Dati accoppiati I chimici spesso valutano differenze in 2 metodi analizzando lo stesso campione. Il test t accoppiato usa lo stesso tipo di procedura del test t normale ad eccezione del fatto che si analizzano coppie di dati. In questo caso, la deviazione standard sarà la deviazione standard della differenza media (s d ). Il valore del test statistico è: t = d s Δ N - 0 d / = Dove d è la differenza media E Δ 0 e la differenza che spesso è uguale a zero

Dati accoppiati: ESEMPIO Procedura per la determinazione del glucosio nel siero (A) viene confermata con il metodo tradizionale (B). Entrambi i metodi vengono eseguiti sul siero proveniente dagli stessi pazienti. H OH H O OH H OH H OH OH

Esempio t = d s Δ N - 0 d / Metodo A glucosio, mg/l Metodo B glucosio, mg/l = Procedura per la determinazione del glucosio nel siero (A) viene confermata con il metodo tradizionale (B). Entrambi i metodi vengono eseguiti sul siero proveniente dagli stessi pazienti. Paz.1 Paz. 2 Paz. 3 Paz. 4 Paz. 5 Paz. 6 1044 720 845 800 957 650 1028 711 820 795 935 639 Differenza, mg/l 16 9 25 5 22 11

Dati accoppiati Dalla Tabella ricaviamo che: N = 6 d = 14.67 S d = 7.76 Δ e quindi: t = = s d d / - 0 N 4,628

Dati accoppiati Il valore critico di t al 95% di livello di fiducia per 5 gradi di libertà è 2.57. Poiché 4,628 > 2,57, scartiamo l ipotesi nulla al 95% e concludiamo che i 2 metodi danno risultati differenti.

Confronto della precisione Talvolta, risulta necessario confrontare le varianze (quadrato della deviazione standard) o deviazioni standard di 2 popolazioni. Un semplice test statistico, chiamato test F, può essere usato per verificare questa assunzione a condizione che le popolazioni seguano la distribuzione Gaussiana. Il test F è basato sull ipotesi nulla che le varianze delle 2 popolazioni prese in considerazione siano uguali: H 0 : σ 2 1 = σ2 2 Il test statistico F, che è definito come il rapporto delle 2 varianze del campione (F = σ 2 1 / σ2 2 ), è calcolato e confrontato con il valore critico di F al livello di significatività desiderato. L ipotesi nullo è scartato se il test statistico differisce troppo da 1.

Confronto della precisione: ESEMPIO È noto, grazie a numerose misure, che una metodica analitica gascromatografica per la determinazione di pesticidi organici clorurati nella frutta è caratterizzata da un valore di s pari a 0.16 ppb. L introduzione di un sistema interamente automatizzato porta il valore di s a 0.09 ppb. Entrambi i metodi prevedono 10 gradi di libertà. Il metodo automatizzato è più preciso? Qui noi verifichiamo l ipotesi alternativa: H a : s 2 1 < s2 std : F = s 2 std / s2 1 = (0,16)2 / (0,09) 2 = 3.16

Confronto della precisione: ESEMPIO Dalla tabella il valore critico di F al 95% per 10 gradi di libertà in entrambi le metodiche è 2,98 (< 3,16). In questo caso scartiamo l ipotesi nulla e concludiamo che al 95% del livello di fiducia la metodica automatizzata è più precisa. Gradi libertà denominatore Gradi libertà numeratore 10 2 F = 19,40 4 F = 5.96 6 F = 4,06 10 F = 2.98 12 F = 2,75

Rigetto degli outliers Quando un gruppo di dati contiene un risultato che appare differire eccessivamente dalla media ( outlier ), bisogna decidere se ritenere o rigettare questo dato. La scelta del criterio di rigetto di un risultato sospetto è delicata in quanto si corre il rischio se si fissa una misura troppo rigorosa di eliminare dati utili, di contro se si fissano limiti troppo indulgenti si corre il rischio di mantenere risultati spuri. Un test statisco che si usa usato in questi casi è il Q-test.

Q-test Nell applicazione del Q-test, la differenza fra il risultato dubbio e il risultato con il valore a lui più prossimo viene diviso per la larghezza dell intero set. Il rapporto risultante Q exp viene allora confrontato con i valori critici del quoziente di scarto per un certo livello di confidenza. Q exp = d w = x x q 1 x x n n

Se Q exp è maggiore di Q crit il risultato incerto può essere eliminato con il grado di confidenza specificato. Q exp = d w = x x q 1 x x n n

Rigetto degli outliers: ESEMPIO L analisi di un campione di olio di pesce ha prodotto percentuali di un acido grasso polinsaturo (C22:6ω3) pari a 10,25, 10,30, 10,27, 10,31 e 10,43. L ultimo valore appare come un outlier ; dovrebbe essere accettato o scartato al 95% di livello di fiducia? La differenza fra 10,31 e 10,43 è 0,12%. La dispersione è 0.18%. Quindi: Q = 0,12/0,18 = 0,67

Rigetto degli outliers: ESEMPIO Q = 0,12/0,18 = 0,67 (< 0,710) Q è minore di Q crit, quindi si accetta il valore