TRATTAMENTO DEI DATI ANALITICI I compiti del chimico analista vanno oltre la corretta esecuzione di una metodica analitica. Sono altrettanto importanti i passi successivi: Registrazione accurata dei dati sperimentali e corretta esecuzione dei calcoli Scelta del valore migliore qualora la stessa determinazione sia stata eseguita piu volte Valutazione dei risultati ottenuti e calcolo dei limiti probabili dell errore che poi vanno indicati insieme al risultato Elaborazione di una strategia per controllare le fonti di errore e migliorare così la qualità delle prestazioni analitiche
COSA VUOL DIRE FARE STATISTICA Quando si fanno affermazioni del tipo: il profitto di questa classe è in media sufficiente; quest anno sono di moda le vacanze di tipo agrituristico si fanno affermazioni di tipo statistico.
STATISTICA La statistica si occupa della -raccolta -classificazione -analisi dei dati che esprimono aspetti di fenomeni collettivi scelti come oggetto di studio e che si manifestano negli elementi di un determinato insieme. Scopo della statistica è quello di descrivere questi fenomeni o di individuare regolarità di comportamento in essi.
Indagine statistica Raccolta dei dati Spoglio e trascrizione dei dati Elaborazione dei dati
La media aritmetica La media aritmetica semplice M di n valori è il rapporto fra la loro somma e il loro numero n: x = N i=1 n x i M x 1 x1 x 2, x,..., x 2 Dati i seguenti valori : 5, n n 8,... 5, 6 x n M 5 8 4 5 6 24 4 6
La media aritmetica ponderata Quando ciascuna modalità si presenta con una certa frequenza o peso, è più vantaggioso calcolare la media aritmetica considerando le frequenze (assolute o relative): in tal caso si parla di media aritmetica ponderata perché ogni valore entra nella media con il suo peso, cioè la sua frequenza. La media aritmetica ponderata M di n valori è: M x 1, x 2 dove n,..., n 1 x n n 2 x 1... n 1 n n x 2 n2 n... x n n n
Indici statistici di variabilità Campo di variazione o range R Varianza Scarto quadratico medio. Permettono di valutare le disuguaglianze dei dati rilevati in relazione al loro scostamento o dispersione da una media.
Campo di variazione o range R di un insieme di valori osservati è la differenza fra il valore massimo e il valore minimo: R= x max - x min
La varianza La varianza è la media aritmetica degli scarti dalla media al quadrato, 2 (sigma quadrato). 8 5 2 2 6 9 2 6 5 2 6 4 2 6 3 2 allievo : 1 Es.... 2 2 2 2 1 2 n M x M x M x n 1^ prova 2^ prova 3^ prova 4^ prova 5^ prova MEDIA Varianza Allievo 1 3 4 5 9 9 6 8 Allievo 2 6 6 6 6 6 6 0 Allievo 3 2 4 7 8 9 6 8,5
Scarto quadratico medio Lo scarto quadratico medio o deviazione standard è la radice quadrata (positiva) della varianza. 2 2 x M x M x M 2 1 2... n n 2 1^ prova 2^ prova 3^ prova 4^ prova 5^ prova MEDIA Varianza sqm o Deviazione standard Allievo 1 3 4 5 9 9 6 8 2,83 Allievo 2 6 6 6 6 6 6 0 0,00 Allievo 3 2 4 7 8 9 6 8,5 2,92
Coefficiente di variazione Il coeff.di variazione è dato dal rapporto tra deviazione standard e media moltiplicato per 100. Se supera una certa percentuale % indica una variablità eccessiva, fuori ai parametri di normalita.
L errore sperimentale e la sua valutazione nelle determinazioni analitiche Ogni misura presenta una qualche incertezza, chiamata errore sperimentale Risultati di 6 determinazioni replicate del ferro in campioni acquosi di una soluzione standard contenente 20,00 ppm di Fe(III).
13 GLI ERRORI NELL ANALISI CHIMICA Ogni analisi chimica (ogni misurazione!) è affetta da errori sperimentali. Gli errori sperimentali si combinano tra loro in modo da rendere ogni nuova misura più o meno diversa dalla precedente. L incertezza della misura sperimentale non può mai essere eliminata completamente perciò il valore vero di una quantità è sempre sconosciuto. Tuttavia, spesso può essere valutata l'entità probabile dell'errore. È possibile definire i limiti entro cui il valore vero di una quantità misurata cade con un dato livello di probabilità. E sempre indispensabile effettuare una stima dell affidabilità dei dati sperimentali anche se la stima dell accuratezza dei dati sperimentali non è sempre facile Ogni volta che collezioniamo i risultati di un analisi è necessario stimarne precisione ed accuratezza Dati con precisione ed accuratezza ignote sono privi di significato Una delle domande a cui rispondere prima di cominciare un'analisi è: "qual è il massimo errore tollerabile nel risultato. La risposta a questo quesito determina il tempo richiesto per il lavoro: nessuno può permettersi di produrre dati che siano più accurati di quanto occorra.
14 DEFINIZIONI Sia dato un insieme di misure x 1, x 2, x N. Media: x i N x i Mediana: avendo ordinato le misure in ordine crescente o decrescente N pari la mediana è la media della coppia centrale dei valori N dispari la mediana è il valore centrale Nel caso delle misure: 10, 10, 12, 13, 13, 13, 15, 18, 25, 26, 26, 27, 28, 28, 35 la media è 19,93 e la mediana è 18.
Media aritmetica o media x di N valori sperimentali x N i 1 N x i x 1 18,45 111,52 2 18,53 N 6 3 18,58 media 18,59 4 18,63 5 18,65 6 18,68 media 18,30 18,40 18,50 18,60 18,70
Precisione La dispersione dei valori misurati intorno al valore medio Descrive il grado di riproducibilità delle misure ed è una valutazione dell accordo dei dati ottenuti. Grandezze utilizzate per indicare la precisione di una serie di dati replicati : deviazione standard varianza coefficiente di variazione
Accuratezza Rappresenta lo scostamento tra il valore misurato ed il valore vero o accettato In altri termini è una misura della bontà dell accordo tra il risultato, x i, o il valore medio dei risultati di un analisi, ed il valore vero o supposto tale, x t. X t = valore vero. Risultato che possiede un certo numero di cifre significative E espressa in termini di errore assoluto o errore relativo Errore assoluto: E x i x t oppure E x x t E t Errore relativo: oppure r x x x xt Er 100 x x t t
18 TIRO AL BERSAGLIO Precisione: bontà dell accordo tra i risultati di misurazioni successive. Accuratezza: bontà dell accordo tra il risultato, x i, o il valore medio dei risultati di un analisi, ed il valore vero o supposto tale, x t. Né accurato né preciso Ma casuale Non accurato ma preciso localizzata Accurato ma non preciso dispersi Accurato e preciso
Tipi di errori nei dati sperimentali
Errore sistematico o errore determinato: è un errore ricorrente (riproducibile) che può essere rivelato e corretto (strumentazione non tarata, errori di metodo, errore personali) e influenza l accuratezza dei risultati ACCURATEZZA: indica la vicinanza della misura al valore vero (accettato) Errore casuale o indeterminato: deriva dall effetto prodotto da una serie di variabili incontrollate (e talvolta incontrollabili: variazioni temperatura e tensione elettrica, vibrazioni) e influenza la precisione di una misura PRECISIONE: descrive la riproducibilità delle misurazioni Errore grossolano: si presenta occasionalmente, è spesso elevato e fa sì che un singolo dato si discosti da tutti gli altri dati di una serie di misure replicate
21 ERRORE SISTEMATICO Gli errori sistematici hanno un valore definito ed una causa identificabile. Per misure replicate effettuate nello stesso modo hanno lo stesso ordine di grandezza e generalmente influenzano tutti i risultati di un set di misura allo stesso modo. Provocano uno scostamento unidirezionale dal valore vero che può essere costante o proporzionale e che può assumere valore sia positivo che negativo. Gli errori sistematici introducono un bias (errore) nella tecnica di misura. Bias: misura dell errore sistematico associato ad una analisi. Può avere segno positivo o negativo.
Errore sistematico (o determinato) Causa lo scostamento della media di un set di dati sperimentali dal valore vero (o accettato) Influenza l accuratezza di una misura x m x 0 18,30 18,40 18,50 18,60 18,70
Cause degli errori sistematici Errori strumentali: dovuti a imperfezioni e malfunzionamento degli strumenti di misura Variazioni di temperatura Contaminazione dell equipaggiamento Fluttuazioni nella tensione di alimentazione Guasto o malfunzionamento di componenti Errori di metodo: dovuti a comportamento chimico o fisico non ideale dei reagenti e delle reazioni utilizzate in un procedimento analitico Errori personali: causati da valutazioni personali dell analista nel corso del procedimento analitico adottato
Rivelazione e correzione degli errori sistematici Gli errori sistematici possono essere identificati ed annullati mediante analisi di campioni standard, se disponibili; analisi del campione mediante un metodo indipendente, ovvero che prevede l'utilizzo di strumentazione di provata affidabilità o di riferimento; analisi del bianco, cioè di una soluzione contenente tutti i componenti presenti nel campione in esame eccetto l'analita di interesse; il bianco ideale è costituito dalla stessa matrice in cui è contenuto l'analita di interesse; l'analisi del bianco nelle titolazioni volumetriche consente, per esempio, di correggere l'errore connesso al volume di titolante necessario per far virare l'indicatore colorimetrico stesso; analisi di campioni contenenti un diverso ammontare della variabile misurata (per es. si pensi alla perdita connessa alla solubilità durante il lavaggio con volumi diversi di acque di lavaggio).
Rivelazione e correzione degli errori sistematici x m x 0 Analisi di 18,30 18,40 18,50 18,60 18,70 standard Calibrazione x m x 0 18,30 18,40 18,50 18,60 18,70
Errore sistematico o determinato L errore sistematico viene rivelato utilizzando opportuni std. di riferimento (analita a concentrazione nota) e calcolando l accuratezza L accuratezza di una misura è il grado di accordo tra essa e il valore vero e viene espressa dall errore (assoluto o relativo) Errore assoluto = valore osservato valore vero Errore relativo = valore osservato valore vero valore vero x100
Determinazioni dell azoto in due composti puri con il metodo di Kjeldahl I punti mostrano gli errori assoluti dei risultati (X i -X t ) replicati ottenuti da 4 analisti Linea blu rappresenta la deviazione media assoluta dei dati dal valore vero (X m -X t ) Analista 1 accurato e preciso Analista 2 accurato ma poco preciso Analista 3 preciso ma poco accurato Analista 4 poco accurato e poco preciso
Errore casuale (o indeterminato) Provoca la dispersione dei dati sperimentali intorno al valore medio. Riflette la precisione di una misura x m x t x m x t 18,30 18,40 18,50 18,60 18,70 18,30 18,40 18,50 18,60 18,70
Il trattamento statistico dell errore casuale In uno studio scientifico deduciamo informazioni su una popolazione mediante le osservazioni acquisite su un sottoinsieme o campione. Popolazione: è l insieme di tutte le misure di interesse Campione: sottoinsieme della popolazione selezionato per l analisi e rappresentativo della popolazione stessa
Curva normale di errore di una popolazione Equazione della curva Gaussiana y = e -(x - µ)2 /2 2 2 2 curve Gaussiane che riportano la frequenza relativa y di varie deviazioni dalla media in funzione della deviazione dalla media. Queste curve vengono descritte da un equazione che contiene solo due parametri:µ = media della popolazione e = deviazione standard della popolazione La deviazione standard per la curva B è doppia rispetto a quella di A.
31 Media: Deviazione standard: X N i1 N x i s N i1 x i N 1 x 2 È necessario sapere che la media e la deviazione standard sopra definite, essendo valutate sulla base di un numero finito, e normalmente molto basso, di misurazioni, cioè di un campione delle infinite misurazioni che costituiscono l intera popolazione delle misurazioni, sono solo stime della media e della deviazione della popolazione. Per un numero molto alto di misurazioni si può scrivere: N i1 N x i N i1 x i N 2 Normalmente, queste due ultime equazioni valgono per N > 20.
La deviazione std. di un campione La media di un campione è la media aritmetica di un campione limitato preso da una popolazione di dati ed è indicata con x e la ds con s La varianza = s 2 s = deviazione std. relativa = s / x N i=1 (x i - x) 2 N-1 (N-1)= gradi di libertà ovvero il problema inizia con N dati Indipendenti. Dopo aver calcolato la media rimangono solo N-1 dati indipendenti perché se si conoscono N-1 dati e la media è possibile calcolare l N-esimo dato. Coefficiente di variazione (CV%) = (s / x) 100
Distribuzione normale o di Gauss N 1 2, x e 2 2/ 2 2 Frequenza relativa Max= media Distribuzione di probabilità teorica che piu si avvicina alla curva di frequenza sperimentale σ (deviaz. standard) determina l ampiezza della curva ai due lati della media Valori osservati
Distribuzione normale o di Gauss con diversa deviazione standard Per una distribuzione gaussiana ideale il 68,3% delle misure è compresa all interno dell intervallo ±; il 95,5% ±2; il 99,7% ±3.
35 Esempi Calcolare la deviazione standard dei seguenti risultati. X 1 = 23,23; X 2 = 21,29; X 3 = 20,66; X 4 = 29,05; X 5 = 23,33; i 1 5 x i 23.23 21.29 20.66 29.05 23.33 x m i 5 x i x m 23.512 s i x i x m 2 5 1 s 3.311 RSD% s 100 RSD% 14.083 x m
36 Livello di fiducia (o di confidenza) Nelle normali operazioni di laboratorio è spesso impossibile eseguire numerose misurazioni. Tuttavia, è possibile determinare x e s ovvero la media e la deviazione standard del campione. E possibile definire un intervallo in cui poter assumere ragionevolmente che in esso sia compreso il valore vero. L intervallo di fiducia è un espressione usata per definire la probabilità che la media vera giaccia entro una certa distanza dalla media misurata x.
Intervalli di fiducia In analisi farmaceutica solitamente non si determina la media e d.s. di una popolazione bensì di un campione rappresentativo E tuttavia possibile con l analisi statistica determinare un intervallo di fiducia attorno ad x nel quale si prevede di determinare il valore medio µ con una certa probabilità (dal 95%) L intervallo di fiducia per una media x è quindi l intervallo entro il quale ci si aspetta di trovare, con una certa probabilità, la media µ della popolazione (le linee di confine sono chiamati i limiti di fiducia) Trovare l intervallo di fiducia quando è nota o quando s è una buona stima di Intervallo di fiducia = x z N
Il t di Student è lo strumento statistico usato per esprimere gli intervalli di fiducia e confrontare i risultati di diversi esperimenti. Es. confronto tra le medie di due popolazioni di dati.
Esempio di calcolo degli intervalli di fiducia Si considerino i seguenti risultati relativi al contenuto di alcol etilico in un campione di sangue: 0.084%, 0.089%, 0.079%. Calcolare l intervallo di fiducia per la media al 95% assumendo che a) dalle esperienze precedenti acquisite su un centinaio di campioni, si sa che la deviazione std. del metodo s= 0.005% è una buona stima di b) I tre risultati ottenuti rappresentano il solo modo per valutare le precisione del metodo Caso A Intervallo di fiducia (95%) = x z 1.96 0.005 = 0.084 = 0.084 0.006% N 3 0.078 0.09 µ Esiste una probabilità del 95% che la media vera µ rientri nell intervallo 0,078-0.09 Se è nota l intervallo di fiducia decresce.
Caso B s = 0.005% Intervallo di fiducia (95%) = x t s 4.303 0.005 = 0.084 = 0.084 0.012% N 3 0.072 0.096 µ
Categorie di errori nei dati sperimentali Errore grossolano (o occasionale) Si verifica occasionalmente, è spesso grande e provoca un significativo scostamento di un singolo dato (outlier) da tutti gli altri x 0 18,30 18,40 18,50 18,60 18,70 Può capitare, nel corso di una misura, di avere un valore che si discosta significativamente da tutti gli altri dati replicati (outlier) E necessario stabilire se il valore ottenuto deve essere utilizzato per il calcolo della media oppure se va considerato un dato anomalo e quindi scartato La scelta va fatta seguendo uno dei criteri codificati ed accettati
Regola del 2.5 d Si scarta il valore sospetto (outlier) e si calcola la media sui valori replicati rimanenti (x m ) Si calcola la deviazione media: d m Se il valore sospetto (outlier) differisce da x m per più di 2.5 d m il valore viene scartato e la media della misura calcolata solo sui valori rimanenenti Se il valore sospetto (outlier) differisce da x m per meno di 2.5 d m il valore viene incluso nel calcolo della media
43 Raccomandazioni per il trattamento degli outliers. Se un dato appare anomalo: accertarsi di non aver commesso un errore grossolano; ripetere l analisi; eseguire il test-q; nel caso il dato sia confermato come outliers, eseguire una nuova replica;
OK