ANALISI DEI DATI BIOLOGICI

ANALISI DI DATI BIOLOGICI RAPPRSNTAR L COMUNITA tramite descrizioni grafiche e relazioni tra gli organismi presenti nei vari campioni. DISCRIMINAR dei siti sulla base della loro composizione biologica. Test statistici per valutare differenze tra gruppi di campioni definiti a priori DTRMINAR LIVLLI DI STRSS, tentando di costruire delle misure indicative di condizioni di disturbo. Misure assolute o criteri relativi. COLLGAR LA COMUNITA ALL VARIABILI AMBINTALI ed esaminare le cause di eventuali cambiamenti nella comunità stessa. TCNICH DI ANALISI DI DATI Metodi univariati: riducono l intero set di dati in un singolo coefficiente. Tecniche di distribuzione: sono una classe di metodi che riassume l informazione di un campione tramite una curva o un istogramma. MTODI MULTIVARIATI: basano la comparazione dei campioni sulle specie in comune e la distribuzione degli individui. splicitamente o indirettamente basati su coefficienti di similarità.

Matrici Iniziali e Misure di Similarità sistono possibili tipologie di matrici iniziali (dati grezzi): numeri (biomassa/ricoprimento) assoluti numeri (biomassa/ricoprimento) relativi dati standardizzati presenza/assenza Punto di partenza di molte analisi è il concetto di similarità (o dissimilarità) tra ciascuna coppia di campioni esaminati. Un qualsiasi coefficiente di similarità viene definito in modo da assumere valori compresi tra (nessuna similarità) e (completa similarità) Misure di Similarità Indice di Bray Curtis S jk = [- (Σ y ij -y ik )/(Σ(y ij + y ik )] y ij è l abbondanza (o biomassa) dell i-esima specie nel j-esimo campione S = S = se NON ci sono specie in comune se tutte le specie sono in comune e sono rappresentate dallo stesso numero di individui I cambiamenti di scala nelle misure non cambiano il valore di S Le joint absences non influiscono su S jk L aggiunta di un ulteriore campione r non influenza né modifica il valore di similarità già calcolato tra j-k capace di registrare differenze nell abbondanza totale come una similarità meno perfetta anche se le abbondanze relative per tutte le specie sono identiche

Misure di Similarità Indice di Bray Curtis SAMPLS S jk = [- (Σ y ij -y ik )/(Σ(y ij + y ik )] S P C I S A B C D 7 8 8 S = [- (++++)/(++++)] =. S =? S =? [- (+++)/(++7+)] =.7 Misure di Similarità Distanza uclidea Il concetto opposto a quello di similarità è quello di dissimilarità, il grado di non concordanza tra due campioni. La dissimilarità è un punto di partenza per costruire diverse tipologie di ordinamento grafico, in cui le dissimilarità (δ) tra le coppie di campioni vengono tradotte in distanze (d) tra i punti di una mappa δ = - S Distanza uclidea: è la distanza tra due punti nello spazio d jk = (y ij y ik ) Nel contesto di una matrice di specie, la distanza euclidea tra i campioni j e k

Misure di Similarità Distanza uclidea Nel caso di una matrice composta da sole specie, ciascun campione può essere rappresentato da un punto in uno spazio d Sample Sp Sp j k djk = (-) + (-) una distanza metrica, che obbedisce alla disuguaglianza triangolare: Dati campioni, d jk + d kr d jr 7 Trasformazione dei Dati Alle matrici di dati si possono applicare delle trasformazioni, per regolare l influenza che possono avere i taxa comuni rispetto a quelli rari. nessuna trasformazione: descrizione quantitativa radice quadrata doppia radice quadrata log (x+) presenza/assenza 8

Matrici di Similarità I valori di similarità si calcolano tra tutte le coppie di campioni e vengono quindi posti in una matrice triangolare che contiene n(n-)/ valori. SAMPLS S P C I S A B C D 7 8 8-8... -.. -. 8. -.7 - non-metric MDS nmmds è una tecnica di ordinamento grafico, che costruisce una mappa (in un determinato numero di dimensioni) in cui le distanze tra i punti (campioni) riflettono il più possibile i ranghi di similarità. Più vicini sono i punti, più simili sono i campioni rappresentati da tali punti L algoritmo su cui è basato nmds in un primo tempo pone le stazioni in uno spazio tri- o bi-dimensionale in modo casuale, quindi inizia gradualmente a ridefinire le posizioni attraverso un ciclo iterativo, con un numero di cicli definiti e sceglie la configurazione grafica che meglio rispecchia le condizioni espresse dalla matrice triangolare. L accordo tra la distanza delle stazioni nel modello MDS e nella matrice triangolare, è espresso dal COFFICINT DI STRSS, che tende a in caso di massimo accordo.

ANOSIM test (Analysis of similarities) Procedura che testa le differenze tra gruppi di campioni definiti a priori. H o non ci sono differenze nella composizione della comunità dei gruppi esaminati. Per esaminare H o vi sono step principali. TST STATISTICO: riflette le differenze osservate TRA siti in contrasto con le differenze tra repliche NTRO siti. Calcola la distanza media tra ogni coppia di repliche NTRO lo stesso sito (gruppo) in contrasto con la distanza media tra tutte le coppie di repliche.

ANOSIM. TST STATISTICO. In realtà si basa sui RANGHI di similarità della corrispondente matrice triangolare. R = (r B r W )/ M/ r B distanza media BTWN gruppi R = [-; +] r w distanza media WITHIN gruppo M = n(n-)/ R >, indica un qualche grado di discriminazione tra i siti. R =, se tutte le repliche entro i siti sono più simili tra loro rispetto a qualsiasi altra replica proveniente da siti diversi. R, se H o èvera. R <, improbabile. Le similarità tra siti diversi sono maggiori delle similarità entro lo stesso sito. ANOSIM. CALCOLO DLL PRMUTAZIONI. Il valore di R viene ricalcolato permutando i nomi dei campioni associati ai valori dei ranghi di similarità nella matrice triangolare. A A A B B B A A A B B B A B B A B A A B B A B A Test delle permutazioni di H : sono esaminate tutte le possibili allocazioni delle etichette dei campioni, e l R statistico viene calcolato per ciascuna allocazione.

ANOSIM. CALCOLO DL LIVLLO DI SIGNIFICATIVITA. Si intende il confronto del valore di R osservato con la distribuzione di valori ottenuti dalle permutazioni. Se H è vera, il valore di R osservato ricade nella distribuzione dei valori di R calcolati in modo casuale. Se il reale valore di R appare improbabile che provenga da tale distribuzione di frequenza, si ha una prova per rigettare H o. Il livello di significatività al quale è possibile rigettare H è pari a (t+)/(t+) dove T = numero di simulazioni, t = valori di R, all interno delle T simulazioni, che sono più elevati di R osservato Frequenza p <. R statistic SIMPR (similarity percentages) Analisi che permette di identificare precisamente le specie maggiormente responsabili della differenza tra gruppi diversi.. Calcolo della dissimilarità media δ tra tutte le coppie di campioni tra i due gruppi analizzati.. Assegnare δ al contributo di ogni specie. Per la dissimilarità di Bray-Curtis tra campioni j, k, il contributo della i-esima specie è: δ jk(i) = y ij -y ik /Σ(y ij + y ik )

PCA è una tecnica di ordinamento grafico, in cui gli assi (componenti principali) massimizzano la varianza dei punti campione proiettati lungo ciascun asse. I valori di varianza rappresentano quindi una misura dell informazione contenuta in ciascun asse sempio: d Sample 7 8 Sp 7 8 Sp 8 8 Se dovessimo riportare questa configurazione in una sola dimensione, quale sarebbe la migliore rappresentazione? 7 PCA. Possiamo considerare uno dei due assi (una sola specie), ignorando l altro 8

PCA. Possiamo scegliere un grafico che sia la linea che meglio interpola tutti i punti, best-fit La PC è la linea che massimizza la somma delle distanze dei campioni dalla linea stessa PCA La PC è la linea che massimizza la somma delle distanze dei campioni dalla linea stessa La PC è l asse perpendicolare a PC, che nel caso d è data dalla rotazione dell asse

PCA necessario normalizzare i dati per rendere la varianza dei campioni uguale ad, così che tutte le specie hanno potenzialmente uguale importanza nel determinare le componenti principali. Per questo e per altri motivi la PCA è un metodo di ordinamento grafico adatto soprattutto a rappresentare variabili abiotiche (ambientali) forma dei dati (presenza di blocchi di ) joint absences implicitamente la PCA definisce la dissimilarità tra campioni come la loro distanza euclidea in uno spazio p-dimensionale (dove p è il numero di variabili) BIO-NV Procedura per analizzare il grado di correlazione tra una matrice di dati biologici (abbondanza, biomassa ) e una matrice di dati abiotici. Campioni che hanno valori simili per quanto riguarda le variabili ambientali, è probabile che presentino una composizione specifica simile. Si comparano i ranghi di similarità che si ottengono dalle due matrici