Interpolazioni e geostatistica. M. Alberti - 2010 www.malg.eu



Documenti analoghi
SPC e distribuzione normale con Access

Indici di dispersione

General Linear Model. Esercizio

SOLUZIONE DEL PROBLEMA 1 TEMA DI MATEMATICA ESAME DI STATO 2015

~ Copyright Ripetizionando - All rights reserved ~ STUDIO DI FUNZIONE

LE FUNZIONI A DUE VARIABILI

Esame di Stato Tema di Matematica

Istruzioni d uso software free to use

Il concetto di valore medio in generale

Analisi Statistica Spaziale

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Esempio. Approssimazione con il criterio dei minimi quadrati. Esempio. Esempio. Risultati sperimentali. Interpolazione con spline cubica.

La propagazione delle onde luminose può essere studiata per mezzo delle equazioni di Maxwell. Tuttavia, nella maggior parte dei casi è possibile

La distribuzione Normale. La distribuzione Normale

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

EQUAZIONI DIFFERENZIALI. 1. Trovare tutte le soluzioni delle equazioni differenziali: (a) x = x 2 log t (d) x = e t x log x (e) y = y2 5y+6

Capitolo 4: Ottimizzazione non lineare non vincolata parte II. E. Amaldi DEIB, Politecnico di Milano

Slide Cerbara parte1 5. Le distribuzioni teoriche

1. Distribuzioni campionarie

Più processori uguale più velocità?

Relazioni statistiche: regressione e correlazione

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi

Perché il logaritmo è così importante?

Consideriamo due polinomi

RISCHIO E CAPITAL BUDGETING

Elementi di Psicometria

DOMINIO E LIMITI. Esercizio 3 Studiare gli insiemi di livello della funzione f, nei seguenti casi: 1) f(x,y) = y2 x 2 + y 2.

Sistemi Informativi Territoriali. Map Algebra

Uso di base delle funzioni in Microsoft Excel

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

Proposta di soluzione della prova di matematica Liceo scientifico di Ordinamento

Inferenza statistica. Statistica medica 1

Analisi di dati di frequenza

Capitolo 13: L offerta dell impresa e il surplus del produttore

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Analisi della performance temporale della rete

Introduzione al MATLAB c Parte 2

Capitolo 12 La regressione lineare semplice

LA CORRELAZIONE LINEARE

Analisi di scenario File Nr. 10

Federico Laschi. Conclusioni

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995).

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

Corso di Matematica per la Chimica

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Basi di matematica per il corso di micro

6.5. Risultati simulazioni sistema rifiuti e riscaldamento

Teoria in sintesi 10. Attività di sportello 1, 24 - Attività di sportello 2, 24 - Verifica conclusiva, 25. Teoria in sintesi 26

Come valutare le caratteristiche aerobiche di ogni singolo atleta sul campo

Matematica generale CTF

E naturale chiedersi alcune cose sulla media campionaria x n

Elementi di Psicometria con Laboratorio di SPSS 1

GESTIONE DELLE TECNOLOGIE AMBIENTALI PER SCARICHI INDUSTRIALI ED EMISSIONI NOCIVE LEZIONE 10. Angelo Bonomi

Esercitazioni di Calcolo Numerico 23-30/03/2009, Laboratorio 2

Analisi dei margini: componenti e rischi

Perché si fanno previsioni?

Ottimizzazione Multi Obiettivo

Esponenziali elogaritmi

Matematica e Statistica

Luigi Piroddi

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

CONTINUITÀ E DERIVABILITÀ Esercizi proposti. 1. Determinare lim M(sinx) (M(t) denota la mantissa di t)

SVM. Veronica Piccialli. Roma 11 gennaio Università degli Studi di Roma Tor Vergata 1 / 14

Regressione Mario Guarracino Data Mining a.a. 2010/2011

IL RISCHIO D IMPRESA ED IL RISCHIO FINANZIARIO. LA RELAZIONE RISCHIO-RENDIMENTO ED IL COSTO DEL CAPITALE.

Misure della dispersione o della variabilità

L orizzonte temporale nei prospetti semplificati dei fondi aperti. Nota di studio. Ufficio Studi

Vittorio Casella. Calcolo del DTM. Dispense

Inflazione e Produzione. In questa lezione cercheremo di rispondere a domande come queste:

Definizione DEFINIZIONE

[ Analisi della. concentrazione] di Luca Vanzulli. Pag. 1 di 1

Università degli Studi Mediterranea di Reggio Calabria.

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini.

Domande a scelta multipla 1

Lezione n. 2 (a cura di Chiara Rossi)

Correzione dell Esame di Statistica Descrittiva (Mod. B) 1 Appello - 28 Marzo 2007 Facoltà di Astronomia

RICLASSIFICAZIONE ECONOMICA DELLO S.P. E DEL C.E.

Domande a scelta multipla 1

L analisi spaziale. Indici statistici geospaziali

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Ragionamento spaziale visivo e percezione

VALORE DELLE MERCI SEQUESTRATE

Elementi di Psicometria con Laboratorio di SPSS 1

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

LEZIONE n. 5 (a cura di Antonio Di Marco)

Limiti e continuità delle funzioni reali a variabile reale

Lezione Introduzione

Lineamenti di econometria 2

Pro e contro delle RNA

ANALISI DELLA STRUTTURA FINANZIARIA a cura Giuseppe Polli SECONDA PARTE clicca QUI per accedere direttamente alla prima parte dell'intervento...

CONCETTO DI LIMITE DI UNA FUNZIONE REALE

Corso di Marketing Industriale

Economia Applicata ai sistemi produttivi Lezione II Maria Luisa Venuta 1

Ricerca di outlier. Ricerca di Anomalie/Outlier

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

Lezione 8. La macchina universale

Test statistici di verifica di ipotesi

Le equazioni. Diapositive riassemblate e rielaborate da prof. Antonio Manca da materiali offerti dalla rete.

ELEMENTI DI STATISTICA

Transcript:

Interpolazioni e geostatistica M. Alberti - 2010 www.malg.eu

Campi di variabili Fenomeni naturali rappresentabili come campi: Topografia Batimetria Concentrazioni di composti chimici Etc. Come si strutturano i valori di un campo? Da Terrengmodellering - Gaute Aarbakke Solaas, Geodata Punti Punti Isolinee Isolinee Grid(raster) Grid(raster)

Interpolazione spaziale di campi scalari Da Mitas & Mitasova, 2005. Dati gli N valori di un fenomeno scalare studiato z j, j = 1,.., N, misurato in punti discreti r j = (xj[1], xj [2],., xj[d]), situati all interno di una regione specificata di uno spazio d-dimensionale, occorre determinare una funzione F(rj) che passi attraverso i punti (o li approssimi): F(rj) = zj, j = 1,, N Da Geospatial Analysis and Modeling: Lecture notes. Helena Mitasova, NCSU MEAS

Interpolazione spaziale di campi scalari Esiste un numero infinito di funzioni che soddisfano questa funzione -> sono necessari criteri addizionali devono essere aggiunti per rendere la soluzione unica. -Ogni set di criteri particolari definisce un particolare metodo di interpolazione. - Non esiste a priori nessun metodo più vero degli altri. - Per scegliere un particolare metodo fra i numerosi proposti, dobbiamo disporre di informazioni addizionali, cioè hard data misure oggettive - o soft data conoscenze o ipotesi soggettive - sul fenomeno studiato. -A seconda del tipo di fenomeno modellato possono essere preferiti metodi di interpolazione differenti.

Tipi di interpolatori Interpolatori esatti metodi di interpolazione che per i punti misurati stimano valori uguali a quelli effettivamente osservati. Interpolatori non-esatti metodi che non interpolano precisamente i valori osservati nei punti di misura. Da Lecture5Week7SpatialInterpolation.ppt

Tipi di interpolatori Interpolatori globali Interpolatori locali Utilizzano tutte le osservazioni disponibili per derivare la superficie continua. Utilizzano le sole osservazioni situate nella immediata prossimità del punto dal interpolare. Interpolazioni globali sono in generale usate per rimuovere un trend dai valori osservati, ed analizzare i residuali delle osservazioni. Da Longley et al., 2001, fig. 13.21.

Su quale supporto si misura? Supporto: area o volume del campione fisico sul quale viene effettuata la misura. Le misure reali si dovrebbero basare sempre su una estensione areale o volumetrica costante in tutta la zona investigata, perché i valori misurati e le loro proprietà statistiche dipendono dalla estensione effettivamente utilizzata. L uso di due differenti supporti di misura produce valori differenti per le singole celle Da Armstrong, 1998, Table 6-1.

Interpolatori globali Trend surface analysis (global polynomials) Si utilizzano superfici definite da polinomiali che approssimano i punti osservati -> interpolatore non-esatto Piano grigio trend surface Da Terrengmodellering - Gaute Aarbakke Solaas, Geodata

Trend surface analysis I coefficienti delle equazioni vengono determinati minimizzando la somma degli errori quadratici (differenza tra valore interpolato e valore osservato) per i punti misurati. Da Sullivan & Unwin, 2003, fig. 9.4.

Trend surface analysis Il grado delle equazioni polinomiali generalmente utilizzato può andare da 1 (piano) sino a 4-5-6. Es. z = ax + by +c z = ax2 + bxy + cy2 + dx + ey + f

Trend Surface Analysis L entità dei residuali diminuisce con l aumentare del grado delle equazioni utilizzate ma non necessariamente aumenta l accuratezza dei valori interpolati. Da Davis, 1973, figg. 6.11.

Tecniche di stima locale Esistono numerosi metodi. Fra gli altri: Poligoni di Thiessen IDW Radial basis functions Kriging Da Terrengmodellering - Gaute Aarbakke Solaas, Geodata

Scelta osservazioni prossime Raggio fisso (fixed-radius) R = 100 Dati noti = 4 R = 100 Dati noti = 1 Numero fisso di punti (fixed-neighbours number) R = 20 Dati noti = 4 R = 160 Dati noti = 4 http://www.quantdec.com/sysen597/gtkav/section9/chapter_29b.htm

Barriere Le barriere sono brusche variazioni nella superficie da interpolare, indotte p.e. da faglie e scarpate. Alcune tecniche di interpolazione permettono di definire barriere prima dell esecuzione dell interpolazione, in maniera tale che nella stima di un punto che ricade da un lato della barriera vengono usati i soli dati misurati dallo stesso lato. Fig. da Spatial Analyst Lesson 4.ppt

Poligoni di influenza Proximity polygons Poligoni di Thiessen o di Voronoï o di Dirichlet. Principio base: la miglior informazione su un sito non misurato è fornita dalla misura nel sito più vicino. Accettabile con variabili categoriali, sconsigliato per variabili continui. Poligoni di influenza: ogni poligono contiene tutti i punti che sono più vicini all osservazione interna -> gradiente di elevazione nullo + barriera Da Sullivan & Unwin, 2003, fig. 8.6

Poligoni di influenza All interno di un singolo poligono il valore interpolato rimane costante. La varianza dell intera distribuzione ottenuta tramite questo metodo è esattamente uguale a quella delle osservazioni di partenza. Osservazioni addensate: poligoni di limitate dimensioni. Osservazioni isolate: p. di notevoli dimensioni. Osservazioni disposte su griglia regolare con spaziatura costante: poligoni di Thiessen quadrati.

Poligoni di influenza Svantaggi Le dimensioni e la forma dei poligoni dipendono dalla configurazione dei punti campionati.questo è evidente soprattutto ai bordi della zona esaminata. Al passaggio da un poligono all altro possono essere presenti brusche discontinuità: questo non crea problemi nel caso di variabili categoriali/nominali, ma rimane comunque un artefatto senza alcuna giustificazione fisica sia per dati categoriali sia per quelli continui. Il valore di un punto non campionato è stimato basandosi su un solo valore, quello noto più prossimo: questo non permette di formarsi un idea sul margine di incertezza nella stima. Da Geospatial Analysis and Modeling: Lecture notes. Helena Mitasova, NCSU MEAS

Natural neighbour Metodo proposto da Sibson (1981). Utilizza i dati più vicini al punto da interpolare Interpolato un nuovo valore in base alla media pesata dei dati noti. Viene creato un reticolato di Thiessen (poligoni bianchi in figura) usando la localizzazione dei dati noti In corrispondenza del punto col valore da interpolare (cerchio nero) si crea un nuovo poligono di Thiessen (blu) Ad ogni dato noto viene attribuito un peso proporzionale al rapporto tra l'area del suo poligono ricoperta da quello del punto da interpolare e l'area di quest'ultimo (peso rappresentato dai cerchi verdi). Markluffel, Wikipedia - CC

Triangolazioni Le triangolazioni suddividono lo spazio campionato in triangoli con i lati contigui, ed aventi come vertici i punti campionati. Esistono varie tecniche per creare i lati tra i triangoli. La più nota è quella di Delaunay: ha la proprietà che i triangoli derivati sono i più equilaterali possibili. Questo è utile per la rappresentazione di modelli del terreno basandosi su punti quotati. E collegata ai POLIGONI DI INFLUENZA: tre punti formano un triangolo se essi condividono un vertice comune del POLIGONO DI INFLUENZA. Da Sullivan & Unwin, 2003, fig. 2.5

Inverse Distance Weighting (IDW) Metodo proposto da Shepard (1968). Interpolatore esatto nella versione originale, in versioni più recenti è definibile un fattore di smoothing che lo rende inesatto. Applicazione di una media pesata in base alla distanza dei punti rispetto al punto di osservazione. Generalmente viene usato un raggio di ricerca per limitare il numero di punti utilizzati. Da Longley et al., 2001, fig. 13.21.

Inverse Distance Weighting (IDW) Formula ż = ni=1 wi zi / ni=1 wi ż: valore interpolato della variabile n: numero di osservazioni usate per il calcolo del valore interpolato wi : peso attribuito ad ogni singola osservazione

Inverse Distance Weighting (IDW) Peso wi applicato alle osservazioni wi = 1 / di n d: distanza tra osservazione e punto con valore interpolato n: esponente definito dall utilizzatore

Inverse Distance Weighting (IDW) In generale il valore utilizzato per l esponente n è di 2 (valore arbitrario). Tanto maggiore è l'esponente applicato a d, tanto maggiore è l'influenza del valore della distanza sul risultato e viceversa. Se l'esponente è 0, allora tutti i punti entro il raggio di ricerca sono pesati ugualmente, e ricadremo nel caso della media mobile semplice. Se l esponente tende ad infinito, il peso viene attribuito per intero all osservazione più prossima al punto interpolato, e si ricade nel caso del poligoni di influenza.

IDW - problematiche In alcuni casi le interpolazioni potranno non essere del tutto soddisfacenti per la caratteristica dell IDW di essere una media pesata, quindi con tendenza dei risultati a regredire verso la media locale. Da Longley etal., 2001, fig. 13-23. In quanto rappresenta una media con pesi sempre positivi, la varianza dei valori interpolati sarà minore di quella del data set di partenza.

IDW - problematiche Un artefatto tipico dell IDW è la creazione dei cosiddetti bull eyes, strutture circolari attorno alle osservazioni disperse. Difficilmente questi artefatti trovano giustificazioni naturali.

Radial Basis Functions Interpolatori basati su polinomiali definite localmente che producono superfici morbide. Sono definite da una famiglia di funzioni che rendono minimi parametri legati alla curvatura della superficie da interpolare. Da Terrengmodellering - Gaute Aarbakke Solaas, Geodata

Radial Basis Functions Possono essere interpolatori sia esatti (l interpolazione onora esattamente i dati misurati) sia inesatti (con un parametro di smoothing da definire). Vari metodi proposti, con successivi miglioramenti: Spline: thin-plate s., s. with tension, completely regularized s., inverse multiquadric spline Multiquadric function Da Geospatial Analysis and Modeling: Lecture notes. Helena Mitasova, NCSU MEAS

Splines Regularized: controllo delle derivate terze Tension: controllo delle derivate seconde Tension Elevation 4000 Regularized 3000 2000 Distance Variando il parametro di controllo delle derivate la superficie risultante tende a diventare più o meno rigida.

Regularized spline with tension and smoothing Una versione avanzata di spline è la Regularized spline with tension and smoothing che consente di applicare uno smoothing ai dati, trasformando così il metodo spline da esatto ad inesatto, utile quando i dati originali contengono errori. Implementato in Grass.

Regularized spline with tension and smoothing Nella implementazione di Grass, due parametri importanti. Tensione: valori elevati di tensione tendono a ridurre I gradienti della superficie interpolata, che presenta quindi valori simili a quelli misurati nel loro intorno. Valori ridotti di tensione invece permettono una maggiore variabilità dei dati interpolati rispetto a quelli originari. Si possono così ottenere dei valori che sono fortemente inferiori o superiori a quelli misurati nel loro intorno, così come i valori estremi interpolati possono uscire dal range inziale dei dati misurati. Smoothing: stabilisce quanto la superficie interpolata deve essere prossima ai valori misurati. Un valore nullo indica che la superficie deve passare esattamente per I valori noti (interpolazione esatta). Valori positivi consentono all'interpolazione di deviare dai valori misurati in corrispondenza dei punti di osservazione.

Metodi e parametri ottimali di interpolazione Come riconoscere il metodo che si adatta meglio al tipo di dati di cui si dispone? E come definire parametri come per esempio tensione e smoothing per il Regularized Spline with Tension and Smoothing? Un metodo molto usato è la crossvalidation che permette di stimare un errore di interpolazione prodotto dai vari metodi e dai loro parametri basandosi sui dati misurati. Viene quindi scelto il metodo o I parametri che producono I minimi errori di interpolazione complessivi. Regularized spline with tension da GRASS Miglior risultato: tension=90; smoothing (w) = 0.1

Cross-validation Esistono due versioni: una si basa sulla definizione di un subset di validazione, che comprende per esempio il 20% dei dati misurati e che viene escluso dal processo di interpolazione. I dati di validazione vengono poi confrontati con I corrispondenti valori interpolati tramite tecniche come il Root Mean Square Error (slide successiva). Un altro metodo è il leave-one-out (o jack-knife ), che invece esclude dall'interpolazione una singola osservazione per volta, effettua il confronto tra valore interpolato e valore noto escluso, e applica via via questo processamento a tutti I dati noti.

Misure di differenza tra dataset Permettono di quantificare la differenza complessiva tra due dataset numerici. Possono essere usate per riconoscere fra varie superfici interpolate quella che meglio approssima i dati noti. Il metodo ed i parametri usati per produrre quella superficie saranno quindi quelli più adatti per il dataset a disposizione. Si basano sulla somma delle differenze (residuali) tra i due valori corrispondenti nei dataset da confrontare. Queste differenze possono essere considerare in valore assoluto - mean absolut error o elevate al quadrato root square error -. Nel caso della Root Mean Square Error (RMSE), la sommatoria delle differenze al quadrato viene divisa per il numero di osservazioni e poi ne viene calcolata la radice quadrata. (Z n RMSE = Z iint erpolato Z ireale i= 1 int erpolato i Z ireale ) 2 n Valore interpolato nel punto Pi Valore reale, misurato, nel punto Pi

Bordi della zona da interpolare Può essere utile usare osservazioni anche esterne alla zona da interpolare, per migliorare la qualità del risultato finale. Dopo l interpolazione la zona eccedente può essere ritagliata. DeMers, 2000, Fig.10-14.

Tecniche di interpolazione geostatistiche: variogrammi e kriging

Cenni storici La geostatistica è una branca della matematica applicata che nacque nell'industria mineraria nei primi anni del decennio 1950, ed aveva come fine la valutazione e stima quantitativa delle riserve minerarie. Il suo iniziatore fu D.G. Krige, un ingegnere minerario attivo in Sud Africa. Il suo lavoro fu perfezionato da un punto di vista statistico da Georges Matheron, che inquadrò i vari concetti in una teoria delle variabili regionalizzate.

I metodi geostatistici Le variazioni spaziali di molti parametri naturali, come per esempio la topografia, sono in genere troppo irregolari per poter essere modellizzate con funzioni matematiche lisce, come le spline o le superfici polinomiali. Queste variazioni possono invece essere modellizzate determinando la correlazione spaziale della variabile.

Software per analisi geostatistiche ArcGIS-Geostatistical Analyst ArcView (con estensioni disponibili da Web) Variowin Saga GSLIB e GEMS Surfer

Kriging con SGEMS SGems è un programma free per la variografia, il kriging e le simulazioni, in 2D ed in 3D. E creato all università di Stanford, e che si basa su GSLIB, una collezione di programmi in Fortran 77 ampiamente testata ed affidabile per la geostatistica. URL:http://sgems.sourceforge.net/

ArcGis - Geostatistical Analyst Estensione del software commerciale ArcGis

Fasi dell analisi geostatistica Interpolazione tramite kriging Analisi variografica: Determinazione del modello teorico del variogramma adatto per i dati analizzati. Utilizzando il modello teorico del variogramma, ed in base alle caratteristiche di stazionarietà/non stazionarietà del modello, e al tipo di risultato voluto (interpolazione puntuale o volumetrica), applicazione di una o più tecniche di kriging.

Kriging Differenze rispetto agli altri metodi di interpolazione Tiene esplicitamente in considerazione le possibili anisotropie spaziali Richiede una analisi geostatistica preliminare (variografica) E molto più complesso concettualmente e anche come implementazione informatica

Principali concetti teorici kriging Il kriging è un interpolatore esatto Il kriging cerca di fornire la miglior stima corretta (unbiased = media attesa degli errori uguale a 0) e con il minimo errore di stima atteso a partire dai dati osservati. Si basa su una media lineare pesata dei dati osservati in un intorno del punto che viene stimato (vicinaggio). I pesi ai singoli dati vengono calcolati utilizzando matrici costituite dalle covarianze (o dai variogrammi) fra i dati osservati. Queste matrici vengono calcolate usando i modelli variografici determinati per il data set analizzato, e trovando analiticamente la matrice che rende minimo l errore di stima.

Correlazione spaziale Queste immagini rappresentano simulazioni di variabili con differenti gradi di correlazione spaziale, che aumenta da sinistra verso destra e dall alto verso il basso. I valori della variabile sono proporzionali alla intensità del grigio. La variabile in alto a sinistra ha una continuità spaziale molto inferiore a quella rappresentata nell immagine in basso a destra. http://www.est.ufpr.br/geor/tutorials/sim2d.html

Anisotropia spaziale Il grado di anisotropia spaziale della variabile, in senso NE-SW (immagini in alto) e NW-SE (immagini in basso) aumenta da sinistra verso destra. Il grado di anisotropia spaziale può essere utilizzata nell interpolazione tramite kriging. http://www.est.ufpr.br/geor/tutorials/sims/aniso5.jpg

Come misurare la correlazione spaziale? Una variabile che presenta correlazione spaziale avrà valori sempre meno simili all aumentare della separazione tra la coppia di valori confrontata. separazione Calcolando la differenza dei valori in funzione della separazione spaziale tra le due osservazioni si può riconoscere l'influsso della correlazione spaziale. Raspa dispensa online

h-scatterplots Grafici che rappresentano valori di una stessa variabile continua in funzione della separazione spaziale (crescente da alto-sx verso basso-dx) tra le misure. La correlazione può essere misurata attraverso il coefficiente di correlazione: questo diminuisce all aumentare della separazione spaziale. Da Isaaks & Srivastava, 1989, fig. 4.12.

Come stimare i valori? Ipotesi della stazionarietà di secondo grado (second-order stationarity o debole ) Applicabile quando i primi due momenti statistici (media e covarianza) di una variabile esistono ed hanno le seguenti proprietà: Media = E(Z(x)) = E(Z(x+h)) = m (costante, indipendentemente dal punto in cui viene misurata) E: expected, valore atteso (medio) di una variabile. h: separazione spaziale tra le due osservazioni. Covarianza = Cov(Z(x+h),Z(x)) = E((Z(x)-mx)(Z(x+h)-mx+h)) = E(Z(x)Z(x+h)) m2 = C(h) La covarianza tra due osservazioni separate da una distanza h è finita e dipende solo dal valore di h, non dalla particolare posizione.

Distribuzioni con varianza non definita L ipotesi stazionaria di secondo grado spesso non è applicabile ai dati naturali di cui si dispone. Esempio Krige (1951) descrive un caso in cui la varianza sperimentale in un giacimento aurifero dell Africa del Sud cresceva indefinitamente aumentando la dimensione del supporto considerato sino a considerare l intero giacimento.

Ipotesi intrinseca Per cercare di superare il problema delle misure non stazionarie e con varianza indefinita, Matheron (1963, 1965) introdusse un ipotesi di lavoro, l ipotesi intrinseca, che non prende direttamente in considerazione la variabile, ma i suoi incrementi: gli incrementi della funzione stocastica considerata sono stazionari E(Z(x+h)-Z(x)) = m(h) = 0 La differenza attesa tra i valori misurati in due siti separati da una distanza h è funzione solo di h, inoltre essa sarà uguale a zero. Var(Z(x+h)-Z(x)) = 2γ(h) La varianza delle differenze fra osservazioni separate da una distanza h è finita e dipende solo dal valore della distanza tra i siti, h, e non dalla posizione locale. La funzione γ(h) è chiamata semi-variogramma.

Esempio funzione intrinseca Come si vede in questi grafici, la media degli incrementi nella simulazione precedente è 0, e la varianza degli incrementi ha un valore finito. Raspa dispensa online

Il variogramma Il variogramma è lo strumento di base per analizzare la correlazione spaziale dei dati continui. Var(Z(x+h)-Z(x)) = 2γ(h) Alcune proprietà dei variogrammi: γ(0) = 0 γ(h) >= 0 γ(-h) = γ(h)

Caratteristiche del variogramma Sill: limite superiore del variogramma (se esiste) Range: distanza massima di correlazione delle variabili, in corrispondenza della quale si raggiunge il sill. Da T5_GeostatisticAnalysis.ppt

Grado di continuita spaziale In questi tre esempi la varianza totale dei dati è circa uguale (e quindi anche il sill nei risultanti variogrammi). Anche la media è circa uguale. Cambia nettamente il grado di continuità spaziale: ridotto in a, con una crescita immediata dei valori del variogramma. In c la continuità spaziale è elevata, e questo si riflette in una lenta crescita iniziale nel variogramma. Il caso b è intermedio. a b c Raspa dispensa online

Variogram cloud sperimentale Plot dei valori di ogni singola coppia di dati sperimentali, in funzione della distanza di separazione. A causa dell uso del quadrato della differenza, i variogrammi sperimentali sono sensibili ai valori estremi. O Sullivan & Unwin, 2003

Il variogramma sperimentale La semivarianza degli incrementi può essere stimata utilizzando i dati osservati: γ ( h) = 1 n(h) 2 ( z ( x ) z ( x + h ) ) i i 2n ( h ) i = 1 n(h) è il numero di osservazioni separate da una distanza h, con un valore di tolleranza su questa, per esempio +/- 50% rispetto all incremento fisso, in maniera da coprire in maniera completa l intervallo delle distanze.

Il variogramma sperimentale Il plot della semivarianza degli incrementi versus gli incrementi è chiamato semi-variogramma sperimentale. Raspa dispensa online

Comportamento all origine Da Armstrong, 1998, fig. 3.3. Da Armstrong, 1998

Anisotropie spaziali nei variogrammi La correlazione spaziale può avere valori differenti lungo differenti direzioni: in generale si può individuare una direzione di massima correlazione ed una, ortogonale, di minima correlazione. Da Armstrong, 1998, fig. 3.5a.

Anisotropie spaziali nei variogrammi L anisotropia spaziale può essere rappresentata in mappe in 2D, che sono particolarmente efficaci per rappresentare le direzioni di massima e di minima continuità spaziale. 20 110

Parametri calcolo variogramma sperimentale Passo di calcolo Lag Tolleranza nella distanza h - Lag tolerance Tolleranza angolare nelle analisi direzionali - Angular tolerance Da Pannatier, 1996, fig. 4.8

Influenza valori passo di calcolo Aumentando il valore del passo di calcolo aumenta il numero di dati presi in considerazione per singolo intervallo ed il risultato tende a diventare più stabile e più smooth. Arnaud & Emery, 2000.

Tolleranza nella distanza h Come per il passo di calcolo, l'aumento della tolleranza rende il risultato più stabile e più sfumato. Arnaud & Emery, 2000.

Tolleranza angolare nelle analisi direzionali Solito effetto di aumento stabilità e smoothing con aumento tolleranza angolare. Arnaud & Emery, 2000.

Variogrammi con sill Pepitico Sferico Raspa dispensa online

Variogrammi con sill Esponenziale Gaussiano Raspa dispensa online

Variogrammi periodici Raspa dispensa online

Fit dati sperimentali-modello teorico In base all andamento dei dati sperimentali, si sceglie fra i modelli disponibili quello che appare più adeguato, e si sperimenta variando i parametri di nugget, range e sill del modello teorico, cercando di adeguare il risultato teorico all andamento reale. I software forniscono anche dei valori di scarto fra modello e dati, così da potersi basare su parametri quantitativi per la scelta del modello più adatto ai dati in questione. MODELLI TEORICI FIT DEL MODELLO AI DATI http://www.gstat.org/gstat.pdf

Strutture annidate (nested structures) In alcuni casi è necessario utilizzare più variogrammi annidati, con differenti range e sill, per modellizzare dati reali in cui sono presenti più rotture di pendenza. Raspa dispensa online

Metodi di kriging Stime puntuali Variogramma con sill, variabile stazionaria o quasi-stazionaria Media non nota a priori Ordinary k. Media nota a priori Simple k. Variogramma senza sill, variabile con trend Variabile binaria (vero/falso, 1/0) Stime per aree/volumi Universal k. oppure rimozione del trend e applicazione di uno dei due casi sovrastanti Indicator k. Block k. Analisi multivariata Cokriging: kriging basato su due o più variabili fra loro correlate e campionate nello stesso dominio, una delle quali, con molti più punti di osservazione, viene utilizzata per migliorare la stima dei valori dell altra variabile.

Bibliografia G. Raspa. Capitolo 3 - Geostatistica di base http://w3.uniroma1.it/geostatistica/geostatistica/dispense.pdf Isaaks & Srivastava, 1989. An introduction to Applied Geostatistics. Oxford Univ. Press Armstrong, 1998. Basic Linear Geostatistics. Springer Verlag. Arnaud & Emery, 2000. Estimation et interpolation spatiale. Hermes Science, Paris. Wackernagel, 1998. Multivariate Geostatistics. Springer Verlag. Pannatier, 1996. Variowin. Software for Spatial Data Analysis in 2D.