xx Valutazione dello stato di qualità degli ecosistemi di alcuni corsi d acqua tributari del Ceresio e del Verbano Programma triennale 2013-2015 Appendice: esempio del percorso di calcolo A cura di: Riccardo Fornaroli, Riccardo Cabrini, Silvia Zaupa Supervisore scientifico: Valeria Mezzanotte DISAT, Università degli Studi di Milano-Bicocca
Esempio applicativo della metodologia di analisi delle relazioni tra pressioni multiple e comunità biologiche Sono numerosi gli studi presenti in letteratura scientifica che pongono in relazione le modificazioni delle comunità macroinvertebrate con differenti variabili ambientali, come ad esempio le condizioni idrauliche, la composizione del substrato, la disponibilità di diverse risorse alimentari e le alterazioni chimiche dell acqua (Walsh et al., 2005, Fornaroli et al., 2015, Hale et al., 2015). L obiettivo del disegno sperimentale adottato è quello di raccogliere quanti più dati possibili in diverse condizioni idromorfologiche e chimiche per studiare come gradienti ambientali possano influenzare la struttura delle comunità biologiche e per comprendere quali siano i fattori limitanti che contribuiscono allo scadere delle qualità. Si è deciso di utilizzare due tecniche statistiche non convenzionali che possano favorire lo studio delle complesse relazioni esistenti tra metriche biologiche e variabili ambientali. Sono state utilizzate la regressione quantile e il metodo Random Forest. Random Forest o foresta casuale La metodologia statistica Random Forest rientra nel gruppo dei classificatori d insieme. Questa tecnica si basa sulla teoria degli alberi di classificazione. Un albero di classificazione è un grafo di decisioni e delle loro possibili conseguenze, utilizzato per creare un 'piano di azioni' mirato ad uno scopo (Fig. 1). Un albero di classificazione è costruito al fine di supportare l'azione decisionale (Breiman 2001). Fig. 1 - Esempio schematico del funzionamento dell algoritmo di Random Forest.
Categoriche Sito Continue Come esempio applicativo si ripropone di seguito il processo di ottimizzazione del modello Random Forest per l analisi delle variabili a scala di sito (Tab. 1) e la metrica Log 10(sel_EPTD+1). Tutte le analisi sono state effettuate utilizzando il software R versione 3.2.2 (R Core Team, 2015) e i pacchetti randomforest 4.6 (Liaw and Wiener, 2002) e quantreg 5.19 (Koenker, 2015). Tab. 1 Variabili ambientali utilizzate per le analisi a livello di sito. Scala Tipo Codice Descrizione T COND Temperatura ( C) Conducibilità ( S/cm) OD OD % ph COD NH4 ph COD (mg/l) Azoto ammoniacale (mg/l) TN TP UFC HQA Azoto totale (mg/l) Fosforo totale (mg/l) Coliformi totali (UFC/100 ml) Habitat Quality Assessment (Classe) HMS LUI LRD Habitat Modification Score (Classe) Land Use Index (Classe) Lentic Lotic River Descriptor (Classe) La prima operazione è quella di standardizzare tutte le variabili ambientali continue secondo la formula: X =X-X min/x max-x min in modo che tutte le variabili assumano valore minimo 0 e massimo 1. Questo passaggio serve ad evitare che i diversi valori assoluti assunti dalle diverse variabili ambientali influenzino il processo di selezione. La stessa operazione è stata fatta anche per le metriche biologiche in modo da poter confrontare sia il peso delle diverse variabili per spiegare una metrica biologica sia la prevedibilità delle diverse metriche biologiche in funzione delle variabili ambientali disponibili. Il processo di ottimizzazione dei modelli random forest prevede due operazioni essenziali, la scelta del numero di alberi ottimale e la scelta del numero di variabili da considerare in ogni albero. Questo processo di ottimizzazione è necessario al fine di costruire modelli il più possibile semplici e che utilizzino il minor numero di variabili a parità di potere predittivo.
Per valutare il numero di alberi ottimale da utilizzare è sufficiente guardare il grafico in Fig. 2 che riporta l andamento dell errore associato alle predizioni fatte dal modello in funzione del numero di alberi. In questo caso si può notare come l errore nella predizione diventa abbastanza stabile per modelli che considerano più di 200 alberi e rimane del tutto invariata per valori superiori a 600. In questo caso il modello ottimizzato sarà costituito da 600 alberi. Fig. 2 Andamento dell errore associato alle predizioni fatte dal modello in funzione del numero di alberi. Il numero di variabili utilizzate in ciascun albero è l altro parametro da ottimizzare. L utilizzo di una variabile aggiuntiva non peggiora mai il potere predittivo di un modello, anche nel caso in cui questa variabile sia assolutamente inutile, la capacità predittiva del modello sarebbe identica a quella del modello che non la considerava. Al fine di avere dei modelli il più possibile semplici ed efficienti bisogna selezionare il numero di variabili massimo da utilizzare in ogni albero attraverso l ottimizzazione del parametro mtry, normalmente i valori ottimali sono vicini alla radice quadrata del numero di variabili. In figura 3 possiamo vedere che, i modelli che utilizzando 4 variabili ambientali per ogni albero hanno nel complesso un potere predittivo maggiore di quelli che ne considerano 2 oppure 8.
Fig. 3 Andamento dell errore associato alle predizioni fatte dal modello in funzione del numero di variabili considerate da ogni albero. A questo punto abbiamo definito i parametri di ottimizzazione del modello, 600 alberi e 4 variabili ambientali per ogni albero. La sintassi per la costruzione di questo modello per il pacchetto software randomforest è: R.F.log_eptd <-randomforest(variable, metric$log_eptd, mtry = 4, ntree = 600) dove: variable: matrice contenente tutte le variabili ambientali da utilizzare per l analisi dove sono riportati i diversi campioni sulle righe e le variabili ambientali sulle colonne; metric: matrice contenente tutte le metriche biologiche da utilizzare per l analisi dove sono riportati i diversi campioni sulle righe e le metriche ambientali sulle colonne; log_eptd: colonna della matrice metric contente i valori della metrica di nostro interesse; mtry: numero di variabili da utilizzare per ogni albero; ntree: numero di alberi. Questo processo di ottimizzazione deve essere ripetuto per ogni metrica biologica e ogni gruppo di variabili ambientali.
Fig. 4 Risultati dell analisi a livello di sito per la metrica Log 10(sel_EPTD+1) con il metodo Random Forest. La linea rossa indica il 30% del punteggio massimo ottenuto. Una volta ottimizzato il modello come illustrato è possibile determinare quali variabili ambientali influenzino maggiormente la metrica biologica studiata. Questo tipo di output non descrive l effetto delle singole variabili ma definisce solamente il loro grado di importanza nella descrizione della variabile biologica, normalmente vengono considerate significative quelle con un valore di IncNodePurity maggiore del 30% del valore massimo (Breiman Leo 2001). Nel nostro caso, avendo normalizzato sia le variabili ambientali sia le metriche biologiche possiamo utilizzare il 30% del valore massimo ottenuto per tutte le variabili biologiche come soglia utile a ordinare anche il grado di prevedibilità delle diverse variabili biologiche in funzione delle variabili ambientali conosciute. Nel caso in cui nessuna variabile ambientale raggiunga il 30% del valore massimo ottenuto nella descrizione di una metrica biologica quest ultima viene esclusa dalle analisi successive in quanto poco influenzata dalle variabili misurate. In questo caso presentiamo solo i risultati relativi alla selezione delle variabili ambientali per la metrica biologica studiata: il grado di modificazione dell habitat (HMS) sembra avere l effetto più importante, seguito nell ordine dagli altri indici del metodo CARAVAGGIO, dalla disponibilità di ossigeno disciolto e infine dalla disponibilità di nutrienti (Fig. 4). In questo contesto la metodologia
Random Forest è stata quindi utilizzata al fine di selezionare le variabili più importanti la cui azione limitante viene successivamente descritta attraverso le analisi di regressione quantile. Regressione Quantile Una delle tecniche statistiche più utilizzate per descrivere l effetto limitante delle singole variabili ambientali sulle comunità biologiche è la regressione quantile. Questo metodo di regressione è stato descritto da Roger Koenker e Gilbert Bassett nel 1978 (Koenker e Bassett, 1978) e applicato per la prima volta in ecologia da Brian Cade nel 1999 (Cade et al., 1999). La regressione quantile è un modo per stimare differenti quantili della variabile risposta in modo da fornire una visione più completa delle possibili relazioni causali fra le variabili nei processi ecologici. Fig. 1 - Esempio schematico di una regressione quantile. Nella Fig. 5 è mostrato un esempio schematico di una regressione quantile (Fornaroli et al., 2015). In questo esempio, la linea di regressione rappresenta quindi l azione limitante della variabile ambientale studiata, e tale azione può essere individuata, se la numerosità dei campioni analizzati è congrua, anche in presenza degli effetti di altre alterazioni. Tale modello può essere applicato anche come modello predittivo. La regressione quantile è stata utilizzata per descrive l eventuale effetto limitante delle variabili ambientali continue a 3 diversi percentili (85, 90 e 95). La sintassi per la costruzione di questi modelli per il pacchetto software quantreg è: RQ.logEPTD_OD<-rq(log_eptd ~ OD, tau=c(0.85,0.9,0.95)) RQ.logEPTD_TP<-rq(log_eptd ~ TP, tau=c(0.85,0.9,0.95)) RQ.logEPTD_TN<-rq(log_eptd ~ TN, tau=c(0.85,0.9,0.95))
Variabili RQ.logEPTD_NH4<-rq(log_eptd ~ NH4, tau=c(0.85,0.9,0.95)) RQ.logEPTD_COD<-rq(log_eptd ~ COD, tau=c(0.85,0.9,0.95)) Per valutare la significatività della pendenza del modello è stato utilizzato il comando: summary(modello, se= nid ) L output del processo di selezione degli effetti limitanti significativi è riportato in tabella 2. Tab. 2 - Risultati dell analisi di regressione quantile. Per ogni relazione è riportato il livello di significatività delle pendenze (n.s. non significativa) per tutti i quantili studiati. Log10(sel_EPTD+1) τ = 0.85 τ = 0.90 τ = 0.95 OD n.s. n.s. n.s. TP n.s. n.s. p<0.01 TN n.s. n.s. n.s. NH 4 n.s. n.s. n.s. COD p<0.001 p<0.001 p<0.01 Sono state considerate significative le relazioni con p-value associato alla pendenza inferiore a 0.01 per almeno due dei tre quantili studiati. In questo caso solo la variabile COD è risultata significativa. Una volta identificate le relazioni significative è possibile utilizzare il modello elaborato per il 90 esimo percentile al fine di fare previsioni. Il modello selezionato è stato sovraimposto al grafico a dispersione tra Log10(sel_EPTD+1) e COD in modo da fornire una rappresentazione grafica della relazione (Fig. 6).
Fig. 6 - Grafici a dispersione tra la domanda chimica di ossigeno (COD) e Log10(sel_EPTD+1). È sovrapposto il modello di regressione quantile al 90-esimo percentile. Bibliografia: Breiman, L. (2001). Random Forest. Machine Learning 45(1): 5-32 Cade, B.S., J.W. Terrell, and R.L. Schroeder (1999). Estimating effects of limiting factors with regression quantiles. Ecology 80(1): 311-323. Fornaroli, R., R. Cabrini, L. Sartori, F. Marazzi, D. Vracevic, V. Mezzanotte, M. Annala, S. Canobbio (2015). Predicting the constraint effect of environmental characteristics on macroinvertebrate density and diversity using quantile regression mixed model. Hydrobiologia 742:153-167 Liaw, A and Wiener, M (2002). Classification and Regression by randomforest. R News 2(3), 18-22 Koenker, R. and Bassett, G. (1978). Regression quantiles. Econometrica 46: 33 50. Koenker, R. (2015). quantreg: Quantile Regression. R package version 5.19. http://cran.rproject.org/package=quantreg R Core Team (2015). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.r-project.org/.