TECNICHE DI ANALISI DEI DATI IN ECOLOGIA



Documenti analoghi
EQUAZIONI ALLE RICORRENZE

Calcolo della risposta di un sistema lineare viscoso a più gradi di libertà con il metodo dell Analisi Modale

SUCCESSIONI E SERIE NUMERICHE

Successioni. Grafico di una successione

CONCETTI BASE DI STATISTICA

Il test parametrico si costruisce in tre passi:

52. Se in una città ci fosse un medico ogni 500 abitanti, quale sarebbe la percentuale di medici? A) 5 % B) 2 % C) 0,2 % D) 0,5% E) 0,02%

Strumenti di indagine per la valutazione psicologica

PARTE QUARTA Teoria algebrica dei numeri

V Tutorato 6 Novembre 2014

DEFINIZIONE PROCESSO LOGICO E OPERATIVO MEDIANTE IL QUALE, SULLA BASE

SUCCESSIONI NUMERICHE

Statistica 1 A.A. 2015/2016

Metodi statistici per l analisi dei dati

Metodi statistici per l'analisi dei dati

8. Quale pesa di più?

Le carte di controllo

IMPLICAZIONE TRA VARIABILI BINARIE: L Implicazione di Gras

LA VERIFICA DELLE IPOTESI SUI PARAMETRI

Numerazione binaria Pagina 2 di 9 easy matematica di Adolfo Scimone

Rendita perpetua con rate crescenti in progressione aritmetica

Una funzione è una relazione che ad ogni elemento del dominio associa uno e un solo elemento del codominio

Sintassi dello studio di funzione

IL CALCOLO COMBINATORIO

Soluzione La media aritmetica dei due numeri positivi a e b è data da M

Campi vettoriali conservativi e solenoidali

Elementi di matematica finanziaria

LE MISURE DI VARIABILITÀ DI CARATTERI QUANTITATIVI

,5 882,5 894,5 906,5 918,5 930,5 942,5 954,5

DISTRIBUZIONI DOPPIE

LA DERIVATA DI UNA FUNZIONE

Analisi Fattoriale Discriminante

I numeri complessi. Pagine tratte da Elementi della teoria delle funzioni olomorfe di una variabile complessa

Anno 5 Successioni numeriche

APPUNTI DI MATEMATICA ALGEBRA \ ARITMETICA \ NUMERI NATURALI (1)

Approfondimenti di statistica e geostatistica

STATISTICA DESCRITTIVA

Interesse e formule relative.

Campionamento stratificato. Esempio

Sistemi e Tecnologie della Comunicazione

Appunti sulla MATEMATICA FINANZIARIA

Corso di Laurea in Ing. Edile Politecnico di Bari A.A Prof. ssa Letizia Brunetti DISPENSE DEL CORSO DI GEOMETRIA

Statistica di base. Luca Mari, versione

Matematica II: Calcolo delle Probabilità e Statistica Matematica

LA GESTIONE DELLA QUALITA : IL TOTAL QUALITY MANAGEMENT

SERIE NUMERICHE Con l introduzione delle serie vogliamo estendere l operazione algebrica di somma ad un numero infinito di addendi.

Teorema 13. Se una sere converge assolutamente, allora converge:

CAPITOLO SETTIMO GLI INDICI DI FORMA 1. INTRODUZIONE

Successioni ricorsive di numeri

Statistica (Prof. Capitanio) Alcuni esercizi tratti da prove scritte d esame

Analisi statistica dell Output

Principi base di Ingegneria della Sicurezza

ESERCIZI DI STATISTICA DESCRITTIVA ALCUNI TRATTI DA PROVE D ESAME DA REALIZZARE ANCHE CON L AUSILIO DI UN FOGLIO DI CALCOLO. Angela Donatiello 1

Risposte. f v = φ dove φ(x,y) = e x2. f(x) = e x2 /2. +const. Soluzione. (i) Scriviamo v = (u,w). Se f(x) è la funzione richiesta, si deve avere

Il confronto tra DUE campioni indipendenti

Un problema! La letteratura riporta che i pazienti affetti da cancro. = mesi

Selezione avversa e razionamento del credito

SUCCESSIONI e LIMITI DI SUCCESSIONI. c Paola Gervasio - Analisi Matematica 1 - A.A. 15/16 Successioni cap3b.pdf 1

Terzo appello del. primo modulo. di ANALISI

Percorsi di matematica per il ripasso e il recupero

1 Limiti di successioni

Corso di Laurea Magistrale in Ingegneria Informatica A.A. 2014/15. Complementi di Probabilità e Statistica. Prova scritta del del

Corso di laurea in Matematica Corso di Analisi Matematica 1-2 Dott.ssa Sandra Lucente 1 Funzioni potenza ed esponenziale.

Foglio di esercizi N. 1 - Soluzioni

Complementi di Matematica e Statistica

Limiti di successioni

CARATTERISTICHE MECCANICHE DI PIETRE NATURALI PER FACCIATE VENTILATE. Di seguito verranno utilizzati i seguenti simboli:

Successioni. Capitolo Definizione

ANALISI MATEMATICA 1 Area dell Ingegneria dell Informazione. Appello del TEMA 1. f(x) = arcsin 1 2 log 2 x.

Distribuzione di un carattere

STATISTICA INFERENZIALE SCHEDA N. 2 INTERVALLI DI CONFIDENZA PER IL VALORE ATTESO E LA FREQUENZA

ESERCIZI SULLE SERIE

ICT e Sistemi informativi Aziendali. ICT e Sistemi informativi Aziendali. Sommario. Materiale di supporto alla didattica

Le onde elettromagnetiche. Origine e natura, spettro delle onde e.m., la polarizzazione

Tecnica delle misurazioni applicate Esame del 4 dicembre 2007

Economia Internazionale - Soluzioni alla IV Esercitazione

DIPENDENZA O CONNESSIONE. Ovvero quando la conoscenza della modalità di X presente su un unità è informativa della presenza della modalità di Y.

Serie numeriche e serie di potenze

3.1 Il principio di inclusione-esclusione

La matematica finanziaria

Capitolo 3 CARATTERIZZAZIONE MECCANICA DELLE FIBRE

Serie numeriche: esercizi svolti

Corsi di Laurea in Ingegneria Edile e Architettura Prova scritta di Analisi Matematica 1 del 6/02/2010. sin( x) log((1 + x 2 ) 1/2 ) = 1 3.

Introduzione all assicurazione. (Dispensa per il corso di Microeconomia)

5 ln n + ln. 4 ln n + ln. 6 ln n + ln

I appello - 29 Giugno 2007

Esercizi riguardanti limiti di successioni

Random walk classico. Simulazione di un random walk

Corso di Elementi di Impianti e macchine elettriche Anno Accademico

Calcolo Combinatorio (vers. 1/10/2014)

Formula per la determinazione della Successione generalizzata di Fibonacci.

Introduzione alla Statistica descrittiva. Definizioni preliminari. Definizioni preliminari. Fasi di un indagine statistica. Tabelle statistiche

1 Successioni Limite di una successione Serie La serie armonica La serie geometrica... 6

II-9 Successioni e serie

che sono una l inversa dell altra; l insieme dei messaggi cifrati C i cui elementi sono indicati con la lettera c.

Probabilità e Statistica I

Random walk classico. Simulazione di un random walk

, l'insieme dei numeri interi relativi: 0, 1, 1, 2, 2, infinito. m dove m e n sono elementi di. Le frazioni hanno tre

Introduzione all assicurazione. (Dispensa per il corso di Microeconomia per manager. Prima versione, marzo 2013; versione aggiornata, marzo 2014)

SERIE NUMERICHE Esercizi risolti. 2 b) n=1. n n 2 +n

Transcript:

TECNICHE DI ANALISI DEI DATI IN ECOLOGIA Michele Scardi Dipartimeto di Biologia Uiversità di Roma Tor Vergata Via della Ricerca Scietifica 0033 Roma e-mail: mscardi@mclik.it home page: http://www.mare-et.com/mscardi Versioe.5, geaio 009

Tavola dei coteuti. Teciche di aalisi... dei dati i Ecologia.... Itroduzioe.... Misure di distaza e di similarità.... 3.. Coefficieti di similarità... 3... Geeralità.... 3... Coefficieti biari.... 4..3. Coefficieti semi-quatitativi e quatitativi.... 6.. Coefficieti di distaza.... 9... Geeralità.... 9... Distaze... 0..3. Dissimilarità metriche... 3.3. Coefficieti di dipedeza.... 4 3. Teciche di clusterig.... 9 3.. Note itroduttive.... 9 3.. Clusterig gerarchico.... 0 3... Geeralità.... 0 3... Algoritmo del legame sigolo... 3..3. Algoritmo del legame completo... 3..4. Algoritmi di legame itermedio... 3 3..5. Algortimi di legame medio... 4 3.3. Clusterig o gerarchico.... 6 3.4. Clusterig vicolato.... 7 4. Teciche di ordiameto.... 30 4.. Aalisi delle Compoeti Pricipali.... 30 4.. Aalisi delle Coordiate Pricipali.... 3

4.3. Aalisi Fattoriale delle Corrispodeze.... 34 4.4. Aalisi delle Correlazioi Caoiche.... 37 5. Aalisi di serie spaziali e temporali.... 40 5.. Autocorrelazioe.... 40 5.. Test di Matel... 40 6. Iterpolazioe.... 43 6.. Note itroduttive.... 43 6.. Le teciche di iterpolazioe... 44 6.3. Il krigig: teoria... 46 6.4. Il krigig: ote applicative.... 5 7. Diversità... 53 7.. L'idice di Shao.... 53 7.. Diagrammi rago-frequeza e modello di Zipf-Madelbrot.... 54 8. Bibliografia... 57 APPENDICE... 6 Tests su proporzioi... 6 MRPP... Idicator species aalysis... 66 Aalisi Caoica delle Corrispodeze... 67 6 Il test U di Ma-Whitey... 69 Il test di Kolmogorov-Smirov... 69 Multidimesioal Scalig No-metrico... 70 6 ANOSIM... Il coeffciete di Spearma... 7 Rus test... Cross-associatio... 7 Tests su proporzioi... 6

MRPP... 63 Idicator species aalysis.... 66 Aalisi Caoica delle Corrispodeze... 67 Il test U di Ma-Whitey.... 69 Il test di Kolmogorov-Smirov... 69 Multidimesioal Scalig No-metrico... 70 ANOSIM (ANalysis Of SIMilarities)... 7 Il coeffciete di Spearma... 7 SIMPER... 73 Rus test... 74 Cross-associatio... 75

. Itroduzioe. Gli isiemi di dati che vegoo abitualmete prodotti ell'ambito delle attività di ricerca e/o moitoraggio svolte su ecosistemi marii o terrestri hao la caratteristica di essere quasi sempre di tipo multivariato. E' molto raro, ifatti, che el corso di ua campaga di campioameto si focalizzi l'attezioe su ua sola variabile, ache ei casi i cui le operazioi di campo vegoo svolte a fii estremamete specifici. Le ragioi di ciò soo molteplici, ma certamete u ruolo primario è quello giocato dall'elevato costo delle operazioi di campo e dalla atura imperfetta e icompleta delle ostre effettive coosceze ecologiche. Se il primo motivo spige ad ua acquisizioe "a tappeto" di tutti i dati rilevabili su ua sigola stazioe, il secodo è resposabile della atura tipicamete ridodate dei piai di campioameto per ciò che riguarda il umero di variabili di cui si prevede la misura. Ifatti, poichè o soo ote a priori le evetuali correlazioi fra di esse, o è possibile defiire u filtro a mote delle operazioi di campo. I geerale u isieme tipico di dati ecologici può essere rappresetato i forma matriciale. Le righe della matrice corrispodoo al vettore di tutte le misure previste per u campioe, per ua osservazioe o per u oggetto. Al cotrario, i vettori-coloa di questa stessa matrice coterrao l'isieme di tutti i valori relativi ad ogi sigolo descrittore fra quelli previsti. Evidetemete è del tutto plausibile che si verifichi il caso opposto e che le righe corrispodao ai vettori-descrittore. I liea di massima, comuque, si tede ad orgaizzare i dati, per motivi pratici e, i qualche caso, ache computazioali, i modo da avere u umero di righe maggiore del umero delle coloe. Ai fii della compresioe di quato esposto ei capitoli che seguoo, si tega presete che si è preferito il termie descrittore a quello, più limitativo, di variabile. Aalogamete, i termii osservazioe ed oggetto soo stati preferiti ad altri più specifici, come campioe, prelievo, misura, etc.. pag.

La maggior parte delle teciche di aalisi dei dati presetate i questo cotesto hao essezialmete fialità descrittive e di sitesi dell'iformazioe. Solo i alcui casi, ifatti, è possibile ed utile, el campo della ricerca ecologica, ricorrere ad ua impostazioe basata su test formali di ipotesi. La maggior difficoltà, i questo seso, sta el fatto che i dati ecologici assai raramete possoo soddisfare tutte le assuzioi ecessarie a questo tipo di approccio. D'altra parte, lo scopo dell'aalisi dei dati i Ecologia è essezialmete quello di forire u supporto ad u percorso cooscitivo che si basa i larga misura sull'osservazioe piuttosto che sulla sperimetazioe i seso stretto: duque, la possibilità di formulare delle ifereze iformali è molto spesso più utile della possibilità di testare ipotesi formali. Le teciche di aalisi che vegoo presetate ei capitoli segueti costituiscoo u sottoisieme rappresetativo di quello, più vasto, che raccoglie tutti gli strumeti dell'ecologia Numerica. I molti casi l'esposizioe fa riferimeto a problemi correti el campo della ricerca ecologica, piuttosto che ad u eccesivo formalismo. Ioltre, si è preferito omettere la descrizioe di tutte le possibili variati delle sigole teciche, poichè la scelta dell'alterativa più corretta i fuzioe del problema da trattare costituisce u argometo di complessità superiore a quello compatibile co le fialità di queste pagie. Per lo stesso motivo, si è preferito o affrotare il problema della trasformazioe dei dati. Per quato riguarda questi aspetti ed altri acora fra quelli che o vegoo trattati, si rimada il lettore che desideri u approfodimeto a testi specifici di maggior respiro (Davis, 986; Legedre & Legedre, 983, 998; Pielou, 984; etc.). Ifie, va sottolieato il fatto che queste pagie soo state assemblate raccogliedo ed adattado materiale prodotto i occasioe di corsi e semiari dal 986 ad oggi, seza però essere mai sottoposte ad ua approfodita revisioe. Al di là della possibilità di icotrare piccoli errori, ciò implica che lo spazio dedicato ai diversi argometi o e rispecchia ecessariamete l'effettiva rilevaza. pag.

. Misure di distaza e di similarità... Coefficieti di similarità.... Geeralità. I coefficieti di similarità foriscoo ua misura del grado di somigliaza fra osservazioi, campioi, oggetti o altre etità ed hao valori che variao ell'itervallo compreso fra 0 ed. Tali valori limite corrispodoo, rispettivamete, al caso di osservazioi del tutto disgiute, prive di elemeti comui, ed al caso di osservazioi che soddisfao pieamete il criterio utilizzato per misurare la similarità (il che o implica che si tratti di osservazioi quatitativamete idetiche fra loro). Fra i molti coefficieti dispoibili ua importate distizioe è quella che deve essere fatta fra coefficieti simmetrici e coefficieti asimmetrici. All'itero di u vettore di misure relativo ad ua osservazioe può accadere che per uo o più descrittori siao stati rilevati dei valori ulli. E' evidete che i alcui casi tali valori corrispodoo ad u dato certo, almeo ei limiti dell'errore proprio dei metodi di campioameto e di determiazioe (es. u certo iquiate è assete), metre i altri casi lo zero idica piuttosto l'asseza di iformazioe (es. ua certa specie o è stata riveuta i u certo campioe). Nel primo caso la scelta dovrà cadere su u coefficiete simmetrico, ai fii del cui calcolo i dati ulli hao il medesimo valore comparativo degli altri, metre el secodo caso dovrao essere utilizzati coefficieti asimmetrici, i modo tale da evitare di defiire ua elevata similarità sulla base di iformazioi o certe (quale ad esempio, la simultaea asseza di u elevato umero di specie i due stazioi che hao poche o essua specie i comue). Nel seguito di questo capitolo vegoo presetati alcui coefficieti di similarità, scelti fra quelli il cui impiego i campo ecologico è più frequete. E' evidete che possoo esistere dei casi specifici i cui u altro coefficiete, o compreso fra quelli descritti i questo cotesto, potrebbe risultare più adatto ad affrotare ua particolare pag. 3

problematica, ma è bee sottolieare il fatto che la scelta di u coefficiete di similarità rappreseta comuque, i qualche misura, u passo arbitrario i ua procedura di aalisi. Proprio per questo motivo è cosigliabile affiare le proprie esperieze su u isieme relativamete piccolo di coefficieti, piuttosto che spaziare su tutta la gamma di quelli oti seza ua motivazioe più che solida.... Coefficieti biari. Ai fii della descrizioe dei coefficieti biari è utile defiire i quattro casi possibili el cofroto fra gli elemeti corrispodeti di due vettori-osservazioe. Tale defiizioe può essere rappresetata i forma schematica come segue: Osservazioe j 0 Osservazioe k a b 0 c d p a + b + c + d Duque, co a si idica il umero di elemeti i comue fra due vettori-osservazioe, metre co d si idica il umero di elemeti ulli (asseti) i etrambi e co b e c il umero di elemeti o ulli (preseti) esclusivamete ell'uo e ell'altro vettore. Co p, ifie, si idetifica la somma dei quattro valori appea citati, cioè il umero totale di elemeti (descrittori) dei vettori-osservazioe. Fra i coefficieti biari di tipo simmetrico più adatti ad u impiego i campo ecologico possoo essere citati il coefficiete di cocordaza semplice (Sokal & Micheer, 958) e due coefficieti da esso derivati. Il pag. 4

coefficiete di cocordaza semplice rappreseta il rapporto fra il umero di elemeti che hao il medesimo valore (e quidi cocordati) ed il umero totale di elemeti: a + d S jk p Poichè questo coefficiete o distigue fra casi di cocordaza su valori e su valori 0 (rispettivamete co-preseze e co-asseze), il criterio da utilizzare per la codifica biaria dell'iformazioe può essere cosiderato del tutto libero. Il coefficiete proposto da Rogers & Taimoto (960) rappreseta ua variate di quello di cocordaza semplice poichè rispetto a quest'ultimo attribuisce u peso doppio alle discordaze: S a + d jk a + b + c + d Ua variazioe sullo stesso tema, ma cocettualmete opposta, è idicata da Sokal & Seath (963) ed attribuisce u peso doppio alle cocordaze: a + d S jk a + b + c + d Fra i coefficieti asimmetrici, il cui uso è da preferirsi quado si ha a che fare co liste di specie derivate da osservazioi di campo i cui la rappresetatività del campioe o è del tutto certa, alcui fra quelli più frequetemete utilizzati costituiscoo la diretta trasposizioe di quelli fi qui descritti al caso i cui lo zero si deve itedere come macaza di iformazioe piuttosto che come asseza o come valore ullo di u descrittore. Ifatti, il coefficiete di Jaccard (900, 90, 908) è simile a quello di cocordaza semplice, ma o tiee coto delle asseze: S a jk a + b + c pag. 5

e corrispode quidi al rapporto fra cocordaze e umero di elemeti o ulli dei vettori-osservazioe. Il coefficiete di Sørese (948) è stato probabilmete il più utilizzato i Ecologia Maria ed è strettamete imparetato co il coefficiete simmetrico di Sokal & Seath (963) appea descritto: S a jk a + b + c Si oti come, rispetto al coefficiete di Jaccard, il coefficiete di Sørese attribuisce u peso doppio alle cocordaze. Nel caso del cofroto fra liste di specie, che rappreseta il tipico ambito di applicazioe di queste misure di similarità, esso efatizza il criterio di asimmetricità assegado u peso doppio ai casi di co-preseza. Questi ultimi rappresetao, come è evidete, i soli casi certi di cocordaza a causa della atura aleatoria del dato di asseza, che spesso è dovuto al sottodimesioameto del campioe prelevato. E' iteressate rilevare che Sokal & Seath (963) propogoo ua versioe asimmetrica ache del terzo dei coefficieti simmetrici precedetemete descritti, quello di Rogers & Taimoto: a S jk a + b + c Tuttavia, l'uso di questo coefficiete è poco iteressate, per u motivo esattamete opposto a quello precedetemete esposto a proposito del coefficiete di Sørese. Ifatti, o sembra giustificata la scelta di u coefficiete asimmetrico se poi si attribuisce ai casi di discordaza (ifluezati dalle asseze) u peso doppio rispetto ai casi di cocordaza, che soo determiati co certezza...3. Coefficieti semi-quatitativi e quatitativi. I coefficieti di similarità basati su dati quatitativi veri e propri o soo, i realtà, molto umerosi, poichè ei casi i cui è ecessario trattare questo tipo di dati molto spesso si preferisce l'uso di ua misura pag. 6

di distaza. Esistoo, comuque, alcui coefficieti sicuramete iteressati, i quali meritao ua breve descrizioe. Il trattameto di dati di tipo semi-quatitativo (es. puteggi arbitrari) può essere affrotato ella maggior parte dei casi utilizzado i coefficieti che vegoo descritti i questo paragrafo, metre per ciò che riguarda isiemi di dati ai cui descrittori è applicata ua codifica di tipo o ordiale (es. colore, forma, etc.) si deve cosiderare l'opportuità di tradurre l'iformazioe dispoibile i forma biaria, utilizzado poi u coefficiete biario simmetrico. I alterativa, è possibile applicare il coefficiete di cocordaza semplice, descritto el paragafo precedete, ed iteso come rapporto fra umero di cocordaze (uguale codifica di u descrittore i due osservazioi) e umero di descrittori. Ua iteressate possibilità è quella offerta dal coefficiete di Gower (97), che è formulato i modo tale da trattare ciascu descrittore di u isieme multivariato i maiera ottimale i rapporto alla sua atura. Questo coefficiete corrispode alla media delle similarità calcolate idividulamete per ogi descrittore dispoibile i etrambe le osservazioi. Ciò è possibile grazie all'uso di ua variabile ausiliaria, detta delta di Kroecker, che assume u valore uitario el caso i cui i dati soo dispoibili ed u valore ullo i caso cotrario. E' evidete che questo coefficiete si presta assai bee al trattameto di isiemi di dati i cui uo o più valori risultao macati. La formulazioe del coefficiete di Gower è la seguete: S jk p i p i w s i w i i dove w i ed s i soo rispettivamete il delta di Kroecker e la similarità relativi all'i-mo descrittore per le due osservazioi cosiderate. La formulazioe delle similarità per descrittore s può essere variata a piacimeto i fuzioe della atura dei dati dispoibili e del cotesto da cui soo estratti, ma, i origie, l'autore propoeva quato segue: pag. 7

per i descrittori biari s i ei casi di cocordaza e s i 0 altrimeti, co il caso della cocordaza da doppio zero che viee trattato i accordo co il sigificato dello zero (valore ullo o macaza di iformazioe) per i descrittori semi-quatitativi ordiali e quatitativi si assume s i - x ij -x ik R i - dove x ij e x ik soo i valori dell'i-mo descrittore elle osservazioi j e k ed R i è l'itervallo di variazioe dell'i-mo descrittore ell'isieme di osservazioi dispoibili o ella popolazioe da cui soo estratte queste ultime. Per ciò che riguarda i coefficieti di tipo asimmetrico va segalata la possibilità di applicare, i forma modificata, coefficieti già descritti. Si cosideri, ad esempio la possibilità di trattare isiemi di dati semiquatitativi esprimedo la similarità come il rapporto fra il umero di descrittori i cui si osserva cocordaza ed il umero totale di descrittori dimiuito del umero di doppi zeri: la similarità che si ottiee, i caso di codifica biaria, è esattamete quella di Jaccard. Il coefficiete di Steihaus (Motyka, 947) è legato da ua aaloga relazioe al coefficete biario di Sørese ed è oto, se moltiplicato per 00, ache come "similarità percetuale": S jk p i p mi( x, x ) i x ij ij + x ik ik Il complemeto a uo del coefficiete di Steihaus, ovvero la dissimilarità di Steihaus coicide co la distaza di Bray-Curtis, che è molto più comue elle applicazioi ecologiche. Il coefficiete di Kulczyski (98) ha ua formulazioe abbastaza simile e corrispode alla media dei rapporti fra somma dei miimi e totale per le due osservazioi cosiderate: pag. 8

S jk p i mi( x, x ) p i x ij ij ik + p i mi( x, x p i x ij ik ik ) Ua ulteriore ed iteressate variazioe è quella rappresetata dal coefficiete di Rudjichka (Goodall, 978), che, espresso seza essere trasformato i percetuale, ha la seguete formulazioe: S jk p i p i mi( x, x ) ij ij ik max( x, x ) ik Il pregio di tale coefficiete sta el fatto che il suo complemeto all'uità, a differeza di quato avviee per i due coefficieti descritti i precedeza, corrispode ad ua misura di distaza di tipo metrico. Sia il coefficiete di Kulczyski, sia quello di Rudjichka, soo di tipo asimmetrico e si prestao a trattare dati quatitativi ache i forma o ormalizzata... Coefficieti di distaza.... Geeralità. I coefficieti di distaza foriscoo ua misura del grado di associazioe fra due osservazioi, restituedo u valore ullo per osservazioi idetiche ed u valore variabile da coefficiete a coefficiete per osservazioi totalmete differeti. Le misure di similarità possoo essere trasformate i distaza semplicemete prededoe il complemeto a. I questo caso, tuttavia, al termie distaza si preferisce il termie dissimilarità. La distizioe o è di tipo esclusivamete formale, poichè molte misure di dissimilarità o godoo delle proprietà metriche, le quali, se pag. 9

soddisfatte, cosetoo di ordiare le osservazioi i uo spazio, per l'apputo, di tipo metrico. Le proprietà che devoo essere soddisfatte perchè u coefficiete di distaza o dissimilarità sia di tipo metrico soo le segueti:. D jk 0 se jk;. D jk >0 se j k; 3. D jk D kj ; 4. D jk +D kh D jh (assioma della diseguagliaza triagolare). I geerale è la quarta ed ultima proprietà quella che risulta discrimiate ed il fatto che sia o meo soddisfatta distigue le misure metriche da quelle cosiddette semimetriche. I questo cotesto, ai fii di ua maggiore chiarezza, sarà utilizzato il termie di distaza solo per i coefficieti che soddisfao le proprietà metriche, metre sarà comuque preferito il termie di dissimilarità per quelli che soo derivati da misure di similarità.... Distaze. I coefficieti di distaza soo stati sviluppati per trattare dati di tipo quatitativo e, co poche eccezioi, trattao lo zero come ua misura e o come ua macaza di iformazioe. La più familiare fra le misure di distaza è certamete quella euclidea, che corrispode esattamete a quella che si può calcolare o misurare ello spazio fra due oggetti fisici: D jk p i ( x ij x ik ) E' importate rilevare il fatto che il quadrato della distaza euclidea, che o di rado viee utilizzato al posto di quest'ultima, è ua semimetrica. E' evidete che la scala dei sigoli descrittori è molto ifluete el determiare ua distaza euclidea fra due osservazioi. E' duque pag. 0

ecessario riservare questa scelta ai casi i cui i descrittori soo dimesioalmete omogeei o a quelli i cui essi vegoo cetrati e stadardizzati, al fie di elimiare l'effetto di evetuali differeze di scala. Proprio al fie di ovviare a questo icoveiete Orloci (967) propoe di calcolare la distaza euclidea dopo aver ormalizzato i vettori-osservazioe i modo tale che la loro lughezza sia uitaria. Questa distaza è detta "della corda" perchè la misura che si ottiee è proprio quella della corda che uisce due puti-osservazioe all'itero di ua ipersfera di raggio uitario. Questa distaza può ache essere calcolata direttamete dai dati o ormalizzati utilizzado la seguete formulazioe: D jk i p p i x x ij x ik p ij i x ik La distaza della corda varia da 0, per due vettori idetici per profilo, cioè proporzioali fra loro, a p /, dove p è il umero dei descrittori. Ua soluzioe molto flessibile è quella costuita dalla metrica di Mikowski: D jk p r i x ij x ik r dove r può essere assegato i maiera teoricamete arbitraria. I realtà il caso r corrispode ad ua distaza euclidea ed u valore di r maggiore di questo, i geerale, o è desiderabile per o efatizzare l'effetto della diversa scala dei descrittori. Più iteressati soo i valori di r iferiori a questa soglia e, fra questi, u caso particolare è quello che si verifica per r. I questo caso la distaza che si ottiee è ota come metrica di Mahatta: pag.

D jk p i x ij x ik Il ome di questa misura di distaza è dovuto al fatto che essa misura la distaza fra due puti i u piao come la somma della distaza i ascissa e di quella i ordiata. Quest'ultima corrispode al percorso più breve che uisce due puti muovedosi i ua città le cui strade si icrociao ad agolo retto, come avviee, per l'apputo, a Mahatta. La metrica di Mahatta preseta gli stessi problemi legati all'iflueza della scala dei descrittori di cui si è detto a proposito della metrica euclidea. Ua delle variati che, laddove ecessario, la correggoo i questo seso è quella proposta da Lace & Williams (966) co il ome di metrica di Caberra: D ij p x x ij ik i ( x + x ) ij ik I doppi zeri, se preseti, devoo essere esclusi dal calcolo per evitare problemi di idetermiazioe. Pur seza ormalizzare i dati, questa distaza assega alla differeza fra i valori che u descrittore assume i due osservazioi u peso iversamete proporzioale alla somma dei valori stessi: duque, la medesima differeza ha u peso maggiore se è osservata fra due valori piccoli. Uo degli icoveieti di questa soluzioe, comuque, è costituito dal fatto che, se uo dei due valori relativi ad u dato descrittore è uguale a zero, allora il cotributo alla distaza totale sarà comuque pari a, cioè il massimo possibile. La metrica di Caberra, duque, si presta meglio a trattare serie di dati i cui esista eterogeeità di scala fra i descrittori seza, però, che siao preseti molti valori ulli. Ua ulteriore variate della metrica di Mahatta è quella proposta da Czekaowski (909) come "differeza media dei descrittori": D jk p p i x ij x ik pag.

Questa misura di distaza si presta all'esclusioe dei casi i cui si osserva u doppio zero, laddove ciò sia ecessario, ma risete comuque dell'evetuale eterogeeità di scala dei descrittori. Ifie, u coefficiete utilizzato ua certa frequeza i applicazioi ecologiche è quello di Bray-Curtis (Bray & Curtis, 957). Se s è il umero dei taxa preseti, esso si ottiee come: D jk s i s ( xij + xik ) i x ij x ik..3. Dissimilarità metriche. Come già acceato i precedeza, i coefficieti di similarità possoo essere covertiti i misure di distaza o, più propriamete, di dissimilarità. Ciò si effettua semplicemete cosideradoe il complemeto ad (cioè: D jk - S jk ). No tutte le dissimilarità, però, godoo di proprietà metriche, poichè soo molte quelle per cui l'assioma della diseguagliaza triagolare o è verificato: i questo caso si usa la defiizioe di semimetrica o pseudometrica. Soo dissimilarità semimetriche, ad esempio, quelle derivate dai coefficieti di similarità di Sørese, di Sokal & Seath, di Steihaus e di Kulczyski. La dissimilarità derivata dal coefficiete di Rudjichka, al cotrario, è di tipo metrico, così come quella derivata dal coefficiete di Jaccard, che è ota ache come distaza di Marczewski-Steihaus (Orloci, 978) e che può essere calcolata direttamete come segue: D a b + c jk a + b + c a + b + c Ache la similarità di Gower, ifie, può essere trasformata i ua dissimilarità metrica, così come quella di Rogers & Taimoto (sia ella forma simmetrica, sia i quella asimmetrica) e come l'idice di cocordaza semplice. pag. 3

Il pricipale vataggio delle dissimilarità metriche è costituito dal fatto che esse si comportao esattamete come delle misure di distaza i uo spazio euclideo. Ciò rede più ituitiva la loro applicazioe e rede possibile l'applicazioe di alcue teciche di aalisi (es. Aalisi delle Coordiate Pricipali, vedi 4..) che o possoo essere applicate alle semimetriche..3. Coefficieti di dipedeza. Così come i coefficieti di similarità e di distaza descrivoo le relazioi che esistoo fra le osservazioi, i coefficieti di dipedeza sitetizzao quelle che esistoo fra descrittori. Esistoo diversi tipi di coefficieti di dipedeza, fra i quali è possibile scegliere quello più adatto alla atura dei dati da trattare. U caso particolare è quello delle relazioi fra specie aimali o vegetali, che possoo essere rappresetate mediate dei coefficieti di associazioe. A differeza delle misure di similarità e distaza, comuque, i coefficieti di dipedeza possoo essere sottoposti a test statistici, sempre che la distribuzioe dei descrittori studiati lo coseta. I geerale, tali tests hao come fie la verifica dell'ipotesi ulla di idipedeza fra i descrittori. Per il trattameto di dati quatitativi i coefficieti di dipedeza di gra luga più utilizzati soo certamete la covariaza e la correlazioe di Pearso. La covariaza fra due descrittori si può otteere, sulla base di due vettori di osservazioi, come: s jk i ( x ij x j )( x ik x ) k Si oti come il calcolo della covariaza richiede che sia dispoibile u parametro statistico della distribuzioe di frequeza dei descrittori, pag. 4

cioè la media. E' evidete, ioltre, che el caso particolare che si determia se jk la formula appea riportata restituisce la variaza di u descrittore stimata su osservazioi. I altre parole, s jj s j. Va sottolieato il fatto che la sommatoria degli scarti si divide per azichè per - el caso i cui la coveriaza sia riferita ad ua popolazioe (i seso statistico) ivece che ad u campioe. Il coefficiete di correlazioe r di Pearso è strettamete legato alla covariaza ed esprime l'itesità della relazioe lieare che lega due descrittori. Esso o è altro che ua covariaza calcolata su dati stadardizzati e può essere facilmete derivato, el caso di dati o stadardizzati, dalla covariaza e dalle variaze dei due descrittori: r jk s s jk s j k Ovviamete è ache possibile calcolare direttamete la correlazioe r di Pearso fra due descrittori, partedo dai dati brutierror! Objects caot be created from editig field codes.: r jk i i ( x ( x ij ij x x ) j j )( x i ik ( x x ) ik k x ) k Così come la covariaza, ache la correlazioe r di Pearso è ua misura parametrica di dipedeza, i cui parametri soo la media e la deviazioe stadard dei descrittori. Il coefficiete di correlazioe r di Pearso varia da - a : questi limiti si ottegoo per serie di dati esattamete proporzioali, rispettivamete i maiera iversa e diretta. Il coefficiete di correlazioe r di Pearso può essere sottoposto ad u test per verificare se esso differisce sigificativamete dallo zero. A questo fie si calcola la probabilità di otteere u valore di r pari a quello osservato el caso i cui i due descrittori siao totalmete pag. 5

idipedeti fra loro e si cosidera sigificativa la correlazioe se questa probabilità è sufficietemete piccola (es. P<0.05). Per far ciò si utilizza il seguete rapporto, che è distribuito come u t di Studet: t r r La probabilità di otteere u valore di r pari a quello osservato i asseza di correlazioe lieare fra i descrittori è quella associata al valore di t otteuto, co - gradi di libertà. Si tega presete, comuque, che la o sigificatività della correlazioe lieare o implica l'idipedeza dei descrittori, i quali possoo essere legati da relazioi di ordie superiore. Ache el caso di descrittori semiquatitativi è possibile utilizzare dei coefficieti di dipedeza. I particolare, si presta molto bee a questo scopo il coefficiete di correlazioe di rago r' (o ρ) di Spearma: questo coefficiete o-parametrico può essere applicato el caso di relazioi di cui deve essere verificata la mootoicità, ache se di tipo o lieare. La "robustezza" della correlazioe di rago i codizioi di o liearità delle relazioi fra descrittori, molto frequeti i Ecologia, è la caratteristica che rede particolarmete iteressate l'applicazioe di questo tipo di coefficiete. Il coefficiete di correlazioe r' di Spearma corrispode esattamete ad u coefficiete di Pearso calcolato sui raghi dei dati azichè sui dati bruti. Esso può però essere otteuto più direttamete come segue: r jk 6 i 3 d i dove d è la differeza fra il rago della i-ma osservazioe per il descrittore j e quello per il descrittore k. pag. 6

Se per etrambi i descrittori o esistoo due o più osservazioi co il medesimo rago, allora il valore che si ottiee è idetico a quello del coefficiete r di Pearso. Tuttavia, el caso i cui l'iformazioe è di tipo semiquatitativo ed è codificata mediate u piccolo umero di puteggi è ievitabile che molte osservazioi abbiao lo stesso puteggio e quidi lo stesso rago. Ciò rede ecessaria l'applicazioe di ua correzioe che tega coto del umero di casi assegati per ciascu descrittore a ciascu rago. La formulazioe del coefficiete r' di Spearma diveta allora: r jk 3 3 m h ( q m h 3 hj ( q q 3 hj hj q ) hj ) m h ( q 3 3 hk q hk ) m h ( q 3 hk i d q i hk ) dove, oltre a quato descritto per la formulazioe di base, m è il umero di raghi e q hj e q hk soo il umero di osservazioi di rago h per il descrittore j e per quello k. Per ciò che riguarda il test di sigificatività del coefficiete r' di Spearma è ecessario fare riferimeto a delle apposite tavole, poichè, malgrado le otevoli affiità co il coefficiete r di Pearso, o è possibile utilizzare il medesimo approccio. Ifatti, la codizioe di ormalità della popolazioe bivariata da cui soo estratti i campioi o è certamete soddisfatta el caso di dati semiquatitativi. U caso particolare i cui è ecessario disporre di u coefficiete di dipedeza è quello dello studio delle associazioi di specie. I questo caso i dati soo espressi tipicamete i forma biaria, poichè al cetro dell'attezioe o soo i rapporti quatitativi, ma piuttosto la tedeza di più specie a ricorrere cogiutamete. I questo cotesto è possibile impiegare alcui dei coefficieti di similarità asimmetrici già descritti a proposito dei dati biari. La scelta di coefficieti asimmetrici è motivata dal fatto che la co-asseza di specie o costituisce ua iformazioe rilevate ai fii della defiizioe di evetuali associazioi. pag. 7

I particolare, possoo essere cosiderati dei coefficieti di dipedeza fra specie sia il coefficiete di Jaccard (cfr. Reyssac & Roux, 97), sia quello di Sørese, che i questo caso viee idicato co il ome di idice di coicideza (Dice, 945). U coefficiete messo a puto espressamete per lo studio di associazioi di specie è quello proposto da Fager & McGowa (963): S jk a ( a + b)( a + c) a + c ( c b) Si oti come il secodo termie rappreseta ua correzioe per impedire che le specie rare risultio fortemete associate: esso, ifatti, dimiuisce il valore del coefficiete di ua quatità tato maggiore quato più è rara la specie più frequete fra le due esamiate. pag. 8