Valutazione dello stato di qualità degli ecosistemi di alcuni corsi d acqua tributari del Ceresio e del Verbano

Documenti analoghi
Classificazione relativa allo stato di qualità ambientale e idoneità alla vita dei pesci

Relazioni tra qualità dell habitat e indici di qualità biologica: effetti sulla classificazione di qualità

Stima dei parametri di modelli lineari

Recenti sviluppi nella classificazione ecologica dei laghi tramite i macroinvertebrati

Le analisi chimiche dell acqua del fiume Padrongianus Scienze Integrate Chimica

LIFE08 ENV/IT/ INHABIT. Lettura dell informazione di Habitat nella valutazione della risposta biologica alle alterazioni ambientali

Scale di Misurazione Lezione 2

Facendo riferimento alle riunioni intercorse, Vi trasmettiamo la proposta tecnicoeconomica relativa alle attività in oggetto.

1. L efficienza tecnica e allocativa: concetti base

I Componenti del processo decisionale 7

Torrente Tavollo 117

Bagging e Foreste Casuali con R

Elemento di Qualità Biologica: Fitoplancton

ACQUE E AMBIENTE MARINO COSTIERO 2016

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

Statistica multivariata 27/09/2016. D.Rodi, 2016

Quantificare la variabilità dei processi ecologici

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

LABORATORIO DI FISICA I

CATALOGO CORSI AVANZATI MINITAB

ACQUE E AMBIENTE MARINO COSTIERO 2017

Piano di Tutela delle Acque aprile Primo Forum di partecipazione pubblica

sperimentale L analisi di sensitività, infine, ci consente di dire che:

Quanti soggetti devono essere selezionati?

Statistica Applicata all edilizia: il modello di regressione

IL MONITORAGGIO DELLE ACQUE METADATI

Invaso Trinità (TP): prima classificazione dello stato ecologico in base al DM n. 260/2010.

Elementi di Probabilità e Statistica

Tecniche di riconoscimento statistico

PROGETTO REALIZZATO CON IL CONTRIBUTO DI:

Facoltà di Psicologia Università di Padova Anno Accademico Corso di Psicometria - Modulo B

Prova scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012

Qualità delle Acque Superficiali in Abruzzo Monitoraggio anno 2009

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Psicometria con Laboratorio di SPSS 1

Determinazione delle legge di Michaelis-Menten con Minitab (Belluco Enzo statistico)

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione

Confronto tra due algoritmi di machine learning, Random Forest e Support Vector Machine, applicati al telerilevamento da drone

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI

ino6 Estate 2018 Monitoraggio in continuo Fiume ARNO

Regressione Lineare Multipla

I RISULTATI WQI 1) BOD

LABORATORI DI STATISTICA SOCIALE

Anova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011

Analisi dei Processi Chimici e. Biotecnologici Anno Accademico

Quiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione

Revisione delle zone vulnerabili ai nitrati di origine agricola Acque superficiali

e) calcolate i cinque numeri di sintesi, la media e la deviazione standard per entrambi i campioni di lunghezze. 1,5 + 1,5

BMI.

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello

6 METODOLOGIA qualità chimico-fisica

Analisi delle corrispondenze

Estate 2017 Monitoraggio in continuo Fiume ARNO

Relazioni tra variabili (fenomeni) aziendali

Analisi dei Processi Chimici e. Biotecnologici Anno Accademico

Fiume Marecchia e torrente Ausa

VOTI ESERCIZIO 1. In Tabella 1 è mostrato l insieme dei 31 voti del primo appello dell esame scritto di cinese.

Regressione lineare semplice

INTRODUZIONE AL DOE come strumento di sviluppo prodotto Francesca Campana Parte 2 Concetti di base

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Torrente Ventena Stato Ecologico del Corso d Acqua SECA SECA SECA Indice Biotico Esteso IBE Livello di Inquinamento da Macrodescrittori LIM LIM COD

()Probablità, Statistica e Processi Stocastici

I parametri Idromorfologici a supporto della qualità biologica: metodo di indagine e indici di valutazione

MONITORAGGIO R.N.O. CAPO PELORO

CALCOLO DELL ERRORE E VALUTAZIONE DI UN METODO ANALITICO

Dispensa di Statistica

La misura si fa utilizzando uno strumento, ogni strumento ha associata un incertezza (non esistono stumenti con

13 dicembre Descrizione dell attività didattica

ANOVA. ANalysis Of VAriance. Federico Plazzi. 1 Dicembre 2015

MONITORAGGIO R.N.O. CAPO PELORO

Analisi delle Serie Storiche

Corso di analisi sensoriale degli alimenti. CdS in Tecnologie Alimentari Università degli Studi di FIRENZE Prof. Erminio Monteleone

ino6 Estate - Autunno 2017 Monitoraggio in continuo Fiume ARNO dal 23 al 29 ottobre ultimo della stagione estate-autunno

Laboratorio di Fisica I Prima Esperienza Distribuzione Statistica delle Misure del Periodo di un Pendolo

TECNICHE DI SIMULAZIONE

Classificazione introduzione

Metodi Matematici e Informatici per la Biologia. Appello del 14 luglio 2011

strumenti statistici di sviluppo prodotto Francesca Campana Parte 1 Concetti di base

Multi classificatori. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

Regressione. Monica Marabelli. 15 Gennaio 2016

Convegno sulla qualità delle acque del fiume Seveso

Lezione 3. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 3. A. Iodice

L acqua come risorsa. Percorso 2 Acqua come stai?

Misura del periodo di oscillazione e della costante elastica della molla di un oscillatore armonico semplice

L importanza della zona iporreica e dell idromorfologia nella ritenzione dei nutrienti: esperienze condotte nel torrente Curone (LC)

Estate 2018 Monitoraggio in continuo Fiume ARNO

Analisi e scelta dei dati di input

MACROINVERTEBRATI BENTONICI E QUALITÀ DELLE ACQUE. Isola della Cona, Riserva Naturale Regionale della Foce dell Isonzo, Staranzano (GO)

Errori (o bias) negli studi epidemiologici

Reti Neurali in Generale

STATISTICA CORSO BASE. Prova scritta del Tempo: 2 ore Cognome e Nome:... Matricola:...

Livello di esposizione. animale Basso Moderato Alto

Analisi della varianza

STATISTICA PSICOMETRICA a.a. 2004/2005 Corsi di laurea Scienze e tecniche neuropsicologiche. Modulo 1. Modulo 1 Statistica descrittiva Monovariata

Transcript:

xx Valutazione dello stato di qualità degli ecosistemi di alcuni corsi d acqua tributari del Ceresio e del Verbano Programma triennale 2013-2015 Appendice: esempio del percorso di calcolo A cura di: Riccardo Fornaroli, Riccardo Cabrini, Silvia Zaupa Supervisore scientifico: Valeria Mezzanotte DISAT, Università degli Studi di Milano-Bicocca

Esempio applicativo della metodologia di analisi delle relazioni tra pressioni multiple e comunità biologiche Sono numerosi gli studi presenti in letteratura scientifica che pongono in relazione le modificazioni delle comunità macroinvertebrate con differenti variabili ambientali, come ad esempio le condizioni idrauliche, la composizione del substrato, la disponibilità di diverse risorse alimentari e le alterazioni chimiche dell acqua (Walsh et al., 2005, Fornaroli et al., 2015, Hale et al., 2015). L obiettivo del disegno sperimentale adottato è quello di raccogliere quanti più dati possibili in diverse condizioni idromorfologiche e chimiche per studiare come gradienti ambientali possano influenzare la struttura delle comunità biologiche e per comprendere quali siano i fattori limitanti che contribuiscono allo scadere delle qualità. Si è deciso di utilizzare due tecniche statistiche non convenzionali che possano favorire lo studio delle complesse relazioni esistenti tra metriche biologiche e variabili ambientali. Sono state utilizzate la regressione quantile e il metodo Random Forest. Random Forest o foresta casuale La metodologia statistica Random Forest rientra nel gruppo dei classificatori d insieme. Questa tecnica si basa sulla teoria degli alberi di classificazione. Un albero di classificazione è un grafo di decisioni e delle loro possibili conseguenze, utilizzato per creare un 'piano di azioni' mirato ad uno scopo (Fig. 1). Un albero di classificazione è costruito al fine di supportare l'azione decisionale (Breiman 2001). Fig. 1 - Esempio schematico del funzionamento dell algoritmo di Random Forest.

Categoriche Sito Continue Come esempio applicativo si ripropone di seguito il processo di ottimizzazione del modello Random Forest per l analisi delle variabili a scala di sito (Tab. 1) e la metrica Log 10(sel_EPTD+1). Tutte le analisi sono state effettuate utilizzando il software R versione 3.2.2 (R Core Team, 2015) e i pacchetti randomforest 4.6 (Liaw and Wiener, 2002) e quantreg 5.19 (Koenker, 2015). Tab. 1 Variabili ambientali utilizzate per le analisi a livello di sito. Scala Tipo Codice Descrizione T COND Temperatura ( C) Conducibilità ( S/cm) OD OD % ph COD NH4 ph COD (mg/l) Azoto ammoniacale (mg/l) TN TP UFC HQA Azoto totale (mg/l) Fosforo totale (mg/l) Coliformi totali (UFC/100 ml) Habitat Quality Assessment (Classe) HMS LUI LRD Habitat Modification Score (Classe) Land Use Index (Classe) Lentic Lotic River Descriptor (Classe) La prima operazione è quella di standardizzare tutte le variabili ambientali continue secondo la formula: X =X-X min/x max-x min in modo che tutte le variabili assumano valore minimo 0 e massimo 1. Questo passaggio serve ad evitare che i diversi valori assoluti assunti dalle diverse variabili ambientali influenzino il processo di selezione. La stessa operazione è stata fatta anche per le metriche biologiche in modo da poter confrontare sia il peso delle diverse variabili per spiegare una metrica biologica sia la prevedibilità delle diverse metriche biologiche in funzione delle variabili ambientali disponibili. Il processo di ottimizzazione dei modelli random forest prevede due operazioni essenziali, la scelta del numero di alberi ottimale e la scelta del numero di variabili da considerare in ogni albero. Questo processo di ottimizzazione è necessario al fine di costruire modelli il più possibile semplici e che utilizzino il minor numero di variabili a parità di potere predittivo.

Per valutare il numero di alberi ottimale da utilizzare è sufficiente guardare il grafico in Fig. 2 che riporta l andamento dell errore associato alle predizioni fatte dal modello in funzione del numero di alberi. In questo caso si può notare come l errore nella predizione diventa abbastanza stabile per modelli che considerano più di 200 alberi e rimane del tutto invariata per valori superiori a 600. In questo caso il modello ottimizzato sarà costituito da 600 alberi. Fig. 2 Andamento dell errore associato alle predizioni fatte dal modello in funzione del numero di alberi. Il numero di variabili utilizzate in ciascun albero è l altro parametro da ottimizzare. L utilizzo di una variabile aggiuntiva non peggiora mai il potere predittivo di un modello, anche nel caso in cui questa variabile sia assolutamente inutile, la capacità predittiva del modello sarebbe identica a quella del modello che non la considerava. Al fine di avere dei modelli il più possibile semplici ed efficienti bisogna selezionare il numero di variabili massimo da utilizzare in ogni albero attraverso l ottimizzazione del parametro mtry, normalmente i valori ottimali sono vicini alla radice quadrata del numero di variabili. In figura 3 possiamo vedere che, i modelli che utilizzando 4 variabili ambientali per ogni albero hanno nel complesso un potere predittivo maggiore di quelli che ne considerano 2 oppure 8.

Fig. 3 Andamento dell errore associato alle predizioni fatte dal modello in funzione del numero di variabili considerate da ogni albero. A questo punto abbiamo definito i parametri di ottimizzazione del modello, 600 alberi e 4 variabili ambientali per ogni albero. La sintassi per la costruzione di questo modello per il pacchetto software randomforest è: R.F.log_eptd <-randomforest(variable, metric$log_eptd, mtry = 4, ntree = 600) dove: variable: matrice contenente tutte le variabili ambientali da utilizzare per l analisi dove sono riportati i diversi campioni sulle righe e le variabili ambientali sulle colonne; metric: matrice contenente tutte le metriche biologiche da utilizzare per l analisi dove sono riportati i diversi campioni sulle righe e le metriche ambientali sulle colonne; log_eptd: colonna della matrice metric contente i valori della metrica di nostro interesse; mtry: numero di variabili da utilizzare per ogni albero; ntree: numero di alberi. Questo processo di ottimizzazione deve essere ripetuto per ogni metrica biologica e ogni gruppo di variabili ambientali.

Fig. 4 Risultati dell analisi a livello di sito per la metrica Log 10(sel_EPTD+1) con il metodo Random Forest. La linea rossa indica il 30% del punteggio massimo ottenuto. Una volta ottimizzato il modello come illustrato è possibile determinare quali variabili ambientali influenzino maggiormente la metrica biologica studiata. Questo tipo di output non descrive l effetto delle singole variabili ma definisce solamente il loro grado di importanza nella descrizione della variabile biologica, normalmente vengono considerate significative quelle con un valore di IncNodePurity maggiore del 30% del valore massimo (Breiman Leo 2001). Nel nostro caso, avendo normalizzato sia le variabili ambientali sia le metriche biologiche possiamo utilizzare il 30% del valore massimo ottenuto per tutte le variabili biologiche come soglia utile a ordinare anche il grado di prevedibilità delle diverse variabili biologiche in funzione delle variabili ambientali conosciute. Nel caso in cui nessuna variabile ambientale raggiunga il 30% del valore massimo ottenuto nella descrizione di una metrica biologica quest ultima viene esclusa dalle analisi successive in quanto poco influenzata dalle variabili misurate. In questo caso presentiamo solo i risultati relativi alla selezione delle variabili ambientali per la metrica biologica studiata: il grado di modificazione dell habitat (HMS) sembra avere l effetto più importante, seguito nell ordine dagli altri indici del metodo CARAVAGGIO, dalla disponibilità di ossigeno disciolto e infine dalla disponibilità di nutrienti (Fig. 4). In questo contesto la metodologia

Random Forest è stata quindi utilizzata al fine di selezionare le variabili più importanti la cui azione limitante viene successivamente descritta attraverso le analisi di regressione quantile. Regressione Quantile Una delle tecniche statistiche più utilizzate per descrivere l effetto limitante delle singole variabili ambientali sulle comunità biologiche è la regressione quantile. Questo metodo di regressione è stato descritto da Roger Koenker e Gilbert Bassett nel 1978 (Koenker e Bassett, 1978) e applicato per la prima volta in ecologia da Brian Cade nel 1999 (Cade et al., 1999). La regressione quantile è un modo per stimare differenti quantili della variabile risposta in modo da fornire una visione più completa delle possibili relazioni causali fra le variabili nei processi ecologici. Fig. 1 - Esempio schematico di una regressione quantile. Nella Fig. 5 è mostrato un esempio schematico di una regressione quantile (Fornaroli et al., 2015). In questo esempio, la linea di regressione rappresenta quindi l azione limitante della variabile ambientale studiata, e tale azione può essere individuata, se la numerosità dei campioni analizzati è congrua, anche in presenza degli effetti di altre alterazioni. Tale modello può essere applicato anche come modello predittivo. La regressione quantile è stata utilizzata per descrive l eventuale effetto limitante delle variabili ambientali continue a 3 diversi percentili (85, 90 e 95). La sintassi per la costruzione di questi modelli per il pacchetto software quantreg è: RQ.logEPTD_OD<-rq(log_eptd ~ OD, tau=c(0.85,0.9,0.95)) RQ.logEPTD_TP<-rq(log_eptd ~ TP, tau=c(0.85,0.9,0.95)) RQ.logEPTD_TN<-rq(log_eptd ~ TN, tau=c(0.85,0.9,0.95))

Variabili RQ.logEPTD_NH4<-rq(log_eptd ~ NH4, tau=c(0.85,0.9,0.95)) RQ.logEPTD_COD<-rq(log_eptd ~ COD, tau=c(0.85,0.9,0.95)) Per valutare la significatività della pendenza del modello è stato utilizzato il comando: summary(modello, se= nid ) L output del processo di selezione degli effetti limitanti significativi è riportato in tabella 2. Tab. 2 - Risultati dell analisi di regressione quantile. Per ogni relazione è riportato il livello di significatività delle pendenze (n.s. non significativa) per tutti i quantili studiati. Log10(sel_EPTD+1) τ = 0.85 τ = 0.90 τ = 0.95 OD n.s. n.s. n.s. TP n.s. n.s. p<0.01 TN n.s. n.s. n.s. NH 4 n.s. n.s. n.s. COD p<0.001 p<0.001 p<0.01 Sono state considerate significative le relazioni con p-value associato alla pendenza inferiore a 0.01 per almeno due dei tre quantili studiati. In questo caso solo la variabile COD è risultata significativa. Una volta identificate le relazioni significative è possibile utilizzare il modello elaborato per il 90 esimo percentile al fine di fare previsioni. Il modello selezionato è stato sovraimposto al grafico a dispersione tra Log10(sel_EPTD+1) e COD in modo da fornire una rappresentazione grafica della relazione (Fig. 6).

Fig. 6 - Grafici a dispersione tra la domanda chimica di ossigeno (COD) e Log10(sel_EPTD+1). È sovrapposto il modello di regressione quantile al 90-esimo percentile. Bibliografia: Breiman, L. (2001). Random Forest. Machine Learning 45(1): 5-32 Cade, B.S., J.W. Terrell, and R.L. Schroeder (1999). Estimating effects of limiting factors with regression quantiles. Ecology 80(1): 311-323. Fornaroli, R., R. Cabrini, L. Sartori, F. Marazzi, D. Vracevic, V. Mezzanotte, M. Annala, S. Canobbio (2015). Predicting the constraint effect of environmental characteristics on macroinvertebrate density and diversity using quantile regression mixed model. Hydrobiologia 742:153-167 Liaw, A and Wiener, M (2002). Classification and Regression by randomforest. R News 2(3), 18-22 Koenker, R. and Bassett, G. (1978). Regression quantiles. Econometrica 46: 33 50. Koenker, R. (2015). quantreg: Quantile Regression. R package version 5.19. http://cran.rproject.org/package=quantreg R Core Team (2015). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.r-project.org/.