Elaborazone de dat geochmc e cenn d statstca lm.m.nfn.t/~camera/slss/laboratoro-1/-statstca.ppt http://www.dm.unto.t/pagnepersonal/zucca/nde.htm Msura: Espressone quanttatva del rapporto fra una grandezza ed un altra ad essa omogenea scelta come untà A pror non s conosce l valore d cò che s msura, al pù s avrà una dea sull ordne d grandezza. E qund necessaro fornre un errore, coè una stma della possble dfferenza tra l valore della msura e quello reale (che non conoscamo). La msura qund: E una espressone quanttatva Necessta d una grandezza d rfermento (ppm, mg/l, mg/kg) Necessta d una stma dell errore Il rsultato d una msura NON consste SOLO nel valore fornto dallo strumento, ma anche d un errore e d una untà d msura (la mancanza d uno d quest termn rende gl altr nutl). Una msura DEVE dare una nformazone COMPLETA. Esempo: Concentrazone dell elemento = 0.3 ± 0.01 ppm
L errore determna quanto affdable è la msura, la sua accuratezza e la sua precsone. Accuratezza: Stma d quanto l rsultato d una msura è vcno al valore reale della quanttà msurata Precsone: Stma della rpetbltà della msura (msure dverse della stessa quanttà devono convergere allo stesso rsultato) Bassa Accuratezza Bassa Precsone Alta Accuratezza Alta Precsone Bassa Accuratezza Alta Precsone (errore pccolo, valor medo lontano dal valore vero, errore sstematco) Alta Accuratezza Bassa Precsone (errore grande)
ATTENZIONE Da un punto d vsta spermentale, scrvere: 1 1.0 1.00 1.000 è molto dverso! Non scrvere una cfra o un decmale nel rportare una data msura o numero ndca l mpossbltà d conoscere l valore d quella cfra Se scrvo 1.0 ndca che 1.0 Valor non not ma non per questo null
ATTENZIONE Non ha senso scrvere X = 1.345689 ± 0.1 X = 1.3 ± 0.137845 Attenzone a decmal ogn cfra scrtta n una msura ha un precso sgnfcato
Cenn d statstca ed elaborazone d dat geochmc Obettv della lezone: Statstca descrttva: le varabl Frequenze: tabelle e grafc Indc d poszone, d dspersone e d forma Meda e varanza d dat raggruppat Correlazone tra varabl Retta d regressone Una trattazone statstca de dat può essere utle per a) analzzare l attendbltà analtca b) per comprendere de process
Statstca Descrttva Ho un nseme d dat e l voglo descrvere, sntetzzare e commentare Deduttva Ho un nseme d dat e l utlzzo per fare deduzon su process che sto studando
Anals de Dat Supponamo d dover msurare una osservable (concentrazone d un elemento ì nel suolo della provnca) Faccamo qund N msure della osservable n questone 1. Dstrbuzone n frequenza Come procede l anals de dat?. Parametr della dstrbuzone: Stme dell osservable Medana Moda Valor medo 3. Parametr della dstrbuzone: Stme dell errore e dspersone Devazone Meda Varanza Devazone Standard
Dstrbuzone n Frequenza Se s vuole msurare una osservable, qund, è necessaro effettuare una o pù msure. Cascuna d queste msure ha, l pù delle volte, un rsultato dfferente. E qund possble costrure l grafco della dstrbuzone: Msuramo ad esempo la concentrazone chmca d un d elemento n un suolo XXX Eseguo 1 msure. Ottengo 1 numer dfferent. Costrusco un grafco che ha come ascssa l valore della msura, sulla ordnata l numero d volte n cu ho ottenuto tale msura. (Dstrbuzone n frequenza, f()) Stablsco un passo: n questo caso 0.1 g Se troppo pccolo 1 conteggo per canale/classe Se troppo grande tutte le msure n un canale/classe Il totale deve essere uguale al numero d msure 8
Frequenza Frequenza Frequenza 6 5 4 3 1 0 0.5 0.7 0.9 1.1 1.3 1.5 1.7 1.9.1.3.5 Peso [g] Concentrazone (ppm) I punt sono dstrbut attorno ad un certo valore m La dspersone attorno a m è un ndce dell errore della msura Maggore è l numero delle msure maggore sarà la precsone con cu determnerò m 16 14 1 10 8 6 4 0 0 0.5 1 1.5 Peso [g] Concentrazone (ppm).5 1.5 1 0.5 0 0 0.175 0.35 0.55 0.7 0.875 1.05 Concentrazone (ppm) Valore [g] 1.5 1.4 1.575 1.75 1.95 Passo troppo largo Passo troppo stretto
Frequenza assoluta: Frequenze S consderno N dat da analzzare. I dat vengono suddvs n un opportuno numero d class; per ogn classe s ha: Frequenza relatva: numero d oggett del tpo -esmo 0 N f N 0 f 1 N f 1 N Frequenza percentuale: è la freq. relatva moltplcata per 100 Frequenza cumulatva assoluta: è la somma della freq. assoluta + la freq. cumulatva assoluta del dato precedente. N N 1 f 100 k0 k 0 N N
Dstrbuzon d frequenza cumulatva Il grafco della dstrbuzone cumulatva d frequenza assoluta è l seguente: Concentrazone ppm
Probabltà frequenza 400 350 300 50 00 150 100 50 0 0.15 0.3 0.45 0.6 0 0.75 0.9 1.05 1. Concentrazone Peso [g] (ppm) 1.35 1.5 1.65 1.8 1.95 Normalzzando rspetto al numero totale d msure s ottene la probabltà 0.1 0.1 0.08 0.06 0.04 0.0 0 0 0.15 0.3 0.45 0.6 0.75 0.9 1.05 1. 1.35 Concentrazone Peso [g] (ppm) 1.5 1.65 1.8 1.95
Curve d dstrbuzone NORMAL NORMAL 50 6 45 40 35 4 0 18 30 16 Noof obs 5 0 15 Noof obs 14 1 10 8 10 5 0-3 - -1 0 1 3 UpperBoundares ( <= boundary) Epected Normal 6 4 0-3,0 -,5 -,0-1,5-1,0-0,5 0,0 0,5 1,0 1,5,0,5 UpperBoundares ( <= boundary) Epected Normal Noof obs 13 1 11 1 Prncpal ndc statstc NORMAL 10 9 8 I grafc fnora analzzat c danno nformazon qualtatve; possamo 7 6 quantfcarle 5 rcorrendo a seguent ndc. 4 3 Sano n osservazon numerche 1,,..., n 0 -,8 -,4 -,0-1,6-1, -0,8-0,4 0,0 0,4 0,8 1, 1,6,0 -,6 -, -1,8-1,4-1,0-0,6-0, 0, 0,6 1,0 1,4 1,8, UpperBoundares ( <= boundary) d poszone Epected Normal MODA MEDIANA MEDIA INDICI d dspersone SCARTO QUADRATICO MEDIO VARIANZA RANGE d forma ASIMMETRIA (SKEWNESS) CURTOSI ( KURTOSIS)
Parametr della dstrbuzone: Stme dell osservable Infnte Msure (N >> 1) Meda m m 1 lm N N Data una sere d N msure, cascuna con rsultato allora la meda m è defnta come: lm N f ( ) f ( ) f ( ) d f ( ) d Medana m 1/ Data una sere d N msure, cascune con rsultato allora la medana m 1/ è defnta come quel valore d tale che l 50% delle msure dano un rsultato superore ed l 50% nferore f ( ) f ( ) 50% 1 1 m ma = Moda Data una sere d N msure, cascuna con rsultato allora m ma è defnto come l valore per cu la probabltà della Popolazone sa massma
Medan, Quartles, Inter-Quartle Range and Bo Plots. Measures of Spread The range s not a good measure of spread because one etreme, (very hgh or very low value) can have a bg affect. The measure of spread that goes wth the medan s called the nter-quartle range and s generally a better measure of spread because t s not affected by etreme values. A remnder about the medan
The Medan The medan s the mddle value of a set of data once the data has been ordered. Eample 1. The repetton of 11 analyses of the element nckel (n ppm) n a sol are gven below. Fnd the medan value. 85, 15, 130, 65, 100, 70, 75, 50, 140, 95, 70 50, 65, 70, 70, 75, 85, 95, 100, 15, 130, 140 Sngle mddle value Ordered data Medan = 85 ppm
The Medan The medan s the mddle value of a set of data once the data has been ordered. Eample. The repeated analyses of a second sol revealed the followng contents of nckel (ppm) 85, 15, 130, 65, 100, 70, 75, 50, 140, 135, 95, 70 50, 65, 70, 70, 75, 85, 95, 100, 15, 130, 135, 140 Two mddle values so take the mean. Ordered data Medan = 90 ppm
Fndng the medan, quartles and nterquartle range, of the followng analyses of Th n sedments 6, 3, 9, 8, 4, 10, 8, 4, 15, 8, 10 Order the data Q 1 Q Q 3 3, 4, 4, 6, 8, 8, 8, 9, 10, 10, 15, Lower Quartle = 4 Medan = 8 Upper Quartle = 10 Inter-Quartle Range = 10-4 = 6
Drawng a Bo Plot. Eample 1: Draw a Bo plot for the data below Q 1 Q Q 3 4, 4, 5, 6, 8, 8, 8, 9, 9, 9, 10, 1 Lower Quartle = 5½ Medan = 8 Upper Quartle = 9 4 5 6 7 8 9 10 11 1
Drawng a Bo Plot. Eample : Draw a Bo plot for the data below Q 1 Q Q 3 3, 4, 4, 6, 8, 8, 8, 9, 10, 10, 15, Lower Quartle = 4 Medan = 8 Upper Quartle = 10 3 4 5 6 7 8 9 10 11 1 13 14 15
Quartle nferore Medana Quartle superore outler In alcun test suggerscono che la lunghezza de «baff» de whskers plot deve comprendere valor estrem della popolazone. Altr test suggerscono nvece che baff devono avere lunghezza par a: (Quartle sup- Quart nf) * 1,5 Evdenzando come «outlers» valor che escono da tale range.
Dstrbuzone del cromo e del nchel ne terren della provnca d Ferrara
NORMAL NORMAL 50 6 45 40 35 4 0 18 30 16 Noof obs 5 0 15 Noof obs 14 1 10 8 10 5 0-3 - -1 0 1 3 UpperBoundares ( <= boundary) Epected Normal 6 4 0-3,0 -,5 -,0-1,5-1,0-0,5 0,0 0,5 1,0 1,5,0,5 UpperBoundares ( <= boundary) Epected Normal NORMAL Noof obs 13 1 11 10 9 8 7 6 5 4 3 1 MODA MEDIA 0 -,8 -,4 -,0-1,6-1, -0,8-0,4 0,0 0,4 0,8 -,6 -, -1,8-1,4-1,0-0,6-0, 0, 0,6 1,0 1,4 1,8, UpperBoundares ( <= boundary) Indc d poszone: E' defnta come l valore che ha la frequenza pù alta. E' quel valore che corrsponde alla somma d tutt valor 1, 1,6,0 dvsoepected l numero de valor stess. X Normal n X 1 n dove: X = esto -ma msura n = numero de dat (tagla del campone) MEDIANA E' quel valore al d sotto del quale cadono la metà de valor camponar. Gl ndc d poszone ndcano attorno a quale valore l campone de dat e poszonato m nteressa la dspersone de dat ntorno a tal valor N.B. NELLA DISTRIBUZIONE NORMALE MEDIA= MODA = MEDIANA
Parametr della dstrbuzone: Stme della dspersone de dat Devazone d d d m Nota: E poco utle Devazone meda ( a ) Nota: Se vensse tolto l modulo la sommatora sarebbe nulla Nota: La Devazone meda è una msura della dspersone delle msure attorno alla meda Varanza ( s ) m Nota: La varanza NON ha le stesse untà d msura della meda s a lm N 1 N 1 m lm N N Devazone standard ( s ) s s Nota: La devazone standard HA le stesse untà d msura della meda La Devazone standard descrve la dspersone delle msure attorno alla meda e qund quantfca l effetto delle fluttuazon statstche nelle condzon spermental d msura
INDICE DI ASIMMETRIA (Skewness) >0 coda a destra <0 coda a snstra =0 smmetrca CURTOSI Msura quanto la dstrbuzone è appuntta >3 poco appuntta =3 caso della dstrbuzone normale <3 molto appuntta
d d forma d dspersone d poszone Indc: Schema rassuntvo meda: N moda: punto d ma della dstrbuzone medana: valore sotto al quale cadono la metà de valor camponar. S dspongono dat n ordne crescente e s prende quello che occupa la poszone centrale (N dspar) o la meda de valor n poszone centrale (N par) varanza devazone standard range s s R skewness (coeff. d asmmetra) curtos: msura quanto la dstrbuzone è appuntta N 1 ma mn s N >3 poco appuntta <3 molto appuntta 3 >0 coda a ds <0 coda a sn =0 smmetrca s N 4
0 5 Frequency 10 15 0 5 La Dstrbuzone Gaussana Le dstrbuzon normal sono contraddstnte da curve smmetrche a forma d campana e unmodal (moda meda e medana concdono). Hanno tutte la stessa forma ma sono caratterzzate (e completamente ndvdualzzate) da due valor: meda e varanza 3 19 19 1 1 3 3 1 1 0 4 6 8 10 peso alla nascta
Caratterstche d una dstrbuzone Normale La curva Normale è Unmodale e smmetrca rspetto alla sua meda (μ) Frequenza relatvamente pù elevata de valor central e frequenze progressvamente mnor verso gl estrem. La meda, la medana e la moda della dstrbuzone concdono La Devazone Standard, rappresentata da s, ndca la quanttà d dspersone delle osservazon ntorno alla meda I parametr μ e σ defnscono n modo completo la curva
Dstrbuzone e probaltà
31 Meda Pesata Può captare che una grandezza sa stata msurata pù volte da persone o con tecnche dfferent Cascuna d queste msure a sua volta è l rsultato d molte msure e qund è nella forma Il calcolo del semplce valor medo potrebbe non essere convenente se le ncertezze non sono ugual o molto sml. E n generale pù corretto usare la meda pesata defnta come 3 3 1 1 s s s 1/ 1 best best w w w w s s
Spesso le anals geochmche che effettuamo sono mult-elementar. Nasce qund l esgenza d osservare relazon fra le varabl. Correlazone tra varabl Fnora abbamo consderato una varable alla volta, ora tratteremo anals d tpo comparatvo: a. Osservo una varable su pu grupp d ndvdu b. Osservo pu varabl su un gruppo d ndvdu c. Entrambe le stuazon a. e b. Esste correlazone tra le varabl? Scatterplot, dagramma a dspersone Umdta' Evaporazone del solvente 35,3 11 9,7 11,1 30,8 1,5 58,8 8,4 61,4 9,3 71,3 8,7 74,4 6,4 76,7 8,5 70,7 7,8 57,5 9,1 46,4 8, 8,9 1, 14 1 10 8 6 4 0 Evaporazone del solvente 0 50 100 Evaporazone del solvente
Indc d varazone bdmensonal Date n osservazon congunte d varabl (, y ),(, y ),...,(, y ) 1 1 Covaranza camponara n n Se c,y >0 e y sono drettamente correlate Se c,y <0 e y sono nversamente correlate Se c,y =0 le varabl non sono correlate
Indc d varazone bdmensonal Indce d correlazone r y, Date n osservazon congunte d varabl c ss r 1, coè 1 r1 y r = 0.6 y r = 1 y r = -0.8 y r = -1 y r = 0 y r = 0 y v
EXCEL: Retta d regressone Eserczo: Stablre se c e dpendenza lneare tra l umdta del magazzno e l evaporazone d un certo componente chmco. Step1: Scatterplot 14 1 10 8 6 4 0 Evaporazone del solvente 0 50 100 Evaporazone del solvente Umdta' Evaporazone del solvente 35,3 11 9,7 11,1 30,8 1,5 58,8 8,4 61,4 9,3 71,3 8,7 74,4 6,4 76,7 8,5 70,7 7,8 57,5 9,1 46,4 8, 8,9 1, 8,1 11,9 Step: Coeffcente d correlazone Utlzzando la funzone =CORRELAZIONE(dat_1;dat_) ottengo r = - 0.84695
Regressone lneare: retta d regressone S vuole cercare la relazone lneare tra due varabl e y. Date n osservazon congunte d varabl cerco due coeffcent a e b tal che y=a+b pass l pù possble vcno a quest punt. Cerco a e b tal che n, f a b y a b 1 sa mnma (Metodo de mnm quadrat) 36
37 Metodo de mnm Quadrat (Per ottenere rette d regressone) Date delle coppe d msure ed y Sa l errore nella determnazone d molto mnore d quello relatvo a y Sa lneare l legame tra le due osservabl ed y Il problema consste nel trovare una tecnca per trovare coeffcent a e b che mnmzzano la dscrepanza tra la retta ed punt spermental b a y varanza con Msura varanza con Msura y s s s s s s s s s s s s s s y y b y y a 1 1 1 1
EXCEL: Retta d regressone Step3: Retta d regressone Usando ecel, avendo ga lo scatterplot selezono: Grafco-Aggung lnea d tendenza y = -0,0801 + 13,639 14 1 10 8 6 4 Sere1 Lneare (Sere1) y = -0,0801 + 13,639 0 0 50 100 38
D Guseppe et al. (014; Pubblcato su Cheme der Erde) Composzone de terren dell areale Ferrarese. Esempo d correlazone elementare 39
Posso fare n scatterplots per verfcare le correlazon fra tutt gl element analzzat 40
Il calcolo d tutt coeffcent d correlazone delle varabl d una data set va a costture una matrce d correlazone Ps L Na Mg Al K Ca V Cr Mn Fe Co N Cu Zn As Sr Pb L 1.00 Na 0.08 1.00 Mg 0.90 0.17 1.00 Al 0.98 0.10 0.87 1.00 K 0.73 0.16 0.73 0.73 1.00 Ca 0.30 0.19 0.35 0.4 0.4 1.00 V 0.95 0.07 0.79 0.97 0.66 0.14 1.00 Cr 0.81 0.31 0.73 0.83 0.69 0.5 0.79 1.00 Mn 0.40-0.18 0.4 0.38 0.00 0.1 0.41 0.30 1.00 Fe 0.94 0.19 0.79 0.91 0.65 0.8 0.91 0.76 0.48 1.00 Co 0.96 0.05 0.83 0.9 0.58 0.30 0.90 0.76 0.58 0.95 1.00 N 0.96 0.13 0.87 0.91 0.64 0.5 0.89 0.75 0.51 0.96 0.98 1.00 Cu 0.3-0.31 0.09 0.6-0.0 0.30 0.8 0.04 0.56 0.8 0.34 0.6 1.00 Zn 0.81 0.9 0.75 0.8 0.70 0.37 0.78 0.73 0.40 0.81 0.80 0.80 0.4 1.00 As 0.57 0.18 0.36 0.54 0.5 0.54 0.54 0.45 0.58 0.75 0.67 0.64 0.57 0.57 1.00 Sr 0.50 0.50 0.47 0.46 0.4 0.70 0.4 0.49 0.1 0.61 0.48 0.48 0.13 0.59 0.67 1.00 Pb 0.78 0.8 0.64 0.80 0.56 0.18 0.78 0.67 0.35 0.83 0.78 0.80 0.34 0.79 0.61 0.44 1.00 Questa matrce è relatva a dat ottenut attraverso anals ICP-MS d soluzon acquose che hanno nteragto con terren dell areale ferrarese (5 mg d suolo n 5 ml d acqua)
Esstono programm statstc che consentono l anals multdmensonale con l confronto smultaneo d n varabl (es dstnt element chmmc analzzat n molteplc campon). Sml elaborazon consentono d: - Identfcare dstnt element che correlano fra loro - Raggruppare campon che hanno smltudn Per esempo, nella fgura s vedono raggruppament (clusters) d campon ndvduat dall anals smultanea d tre parametr Intra-cluster dstances are mnmzed Inter-cluster dstances are mamzed Fndng groups of objects such that the objects n a group wll be smlar (or related) to one another and dfferent from (or unrelated to) the objects n other groups
Immagnamo che punt sottostant sano esprmano la concentrazone d var element d dstnt campon. Una cluster analyss c permetterà d dentfcare campon avent smltudn Parttonal Clusterng Orgnal Ponts A Parttonal Clusterng 43
Noton of a Cluster can be Ambguous How many clusters? S Clusters Two Clusters Four Clusters
Herarchcal Clusterng p1 p p3 p4 Tradtonal Herarchcal Clusterng Tradtonal Dendrogram p1 p p3 p4
46
47
48