ANALISI DEI DATI BIOLOGICI



Documenti analoghi
Il coefficiente di correlazione di Spearman per ranghi

La distribuzione Normale. La distribuzione Normale

LA CORRELAZIONE LINEARE

Statistica. Lezione 6

Capitolo 12 La regressione lineare semplice

Relazioni statistiche: regressione e correlazione

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Elementi di Psicometria con Laboratorio di SPSS 1

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995).

Prova di autovalutazione Prof. Roberta Siciliano

Un gioco con tre dadi

1. Distribuzioni campionarie

STATISTICA IX lezione

Codifiche a lunghezza variabile

Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica. Indici di Affidabilità

Automazione Industriale (scheduling+mms) scheduling+mms.

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Analisi Statistica Spaziale

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

Dott.ssa Caterina Gurrieri

Elementi di Psicometria con Laboratorio di SPSS 1

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

STRATEGIA DI TRADING. Turning Points

Clustering. Utilizziamo per la realizzazione dell'esempio due tipologie di software:

Regressione Mario Guarracino Data Mining a.a. 2010/2011

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Indici di dispersione

Corso di. Dott.ssa Donatella Cocca

Ing. Simone Giovannetti

SPC e distribuzione normale con Access

La variabile casuale Binomiale

Inferenza statistica. Statistica medica 1

FONDAMENTI DI PSICOMETRIA - 8 CFU

Statistica descrittiva: prime informazioni dai dati sperimentali

Il mercato di monopolio

Statistica inferenziale

Scheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux

RAPPRESENTAZIONE DEI DATI

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi

(a cura di Francesca Godioli)

matematica probabilmente

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Ricerca di outlier. Ricerca di Anomalie/Outlier

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

11. Analisi statistica degli eventi idrologici estremi

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

Corrispondenze e funzioni

VALORE DELLE MERCI SEQUESTRATE

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

VERIFICA DELLE IPOTESI

La statistica multivariata

Relazioni tra variabili

La riforma del servizio di distribuzione del

Rapporto dal Questionari Insegnanti

DATI NORMATIVI PER LA SOMMINISTRAZIONE DELLE PROVE PAC-SI A BAMBINI DI INIZIO SCUOLA PRIMARIA 1

4. Confronto tra medie di tre o più campioni indipendenti

Analisi di dati di frequenza

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Lezione 1. Concetti Fondamentali

ECONOMIA DEL LAVORO. Lezioni di maggio (testo: BORJAS) L offerta di lavoro

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

MONOPOLIO, MONOPOLISTA

Capitolo 2 Distribuzioni di frequenza

3. Confronto tra medie di due campioni indipendenti o appaiati

Facoltà di Psicologia Università di Padova Anno Accademico

Il Controllo Interno di Qualità dalla teoria alla pratica: guida passo per passo IL MODELLO TEORICO. Pasquale Iandolo

Sistemi Informativi Territoriali. Map Algebra

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

FUNZIONE. Si scrive: A B f: A B x y=f(x) (si legge: f funzione da A in B) x f y= f(x)

Dimensione di uno Spazio vettoriale

PROGRAMMA SVOLTO NELLA SESSIONE N.

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

LE FUNZIONI A DUE VARIABILI

Cenni su algoritmi, diagrammi di flusso, strutture di controllo

Metodi statistici per le ricerche di mercato

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

13. Campi vettoriali

3. Piano di lavoro: - applicazione di alcune semplici procedure, con il confronto tra le diverse soluzioni possibili nell ambito del programma SPSS

ESAME DI STATO DI LICEO SCIENTIFICO CORSO SPERIMENTALE P.N.I. 2004

postulato della valutazione tramite indicatori: La valutazione di un sistema sanitario tramite indicatori ipotizza

Barriere assorbenti nelle catene di Markov e una loro applicazione al web

ITER Imprese & Territorio

Stefania Pozio. Le prove INVALSI di matematica: il confronto con le indagini internazionali.

Metodi Computazionali

Università degli Studi di Ferrara - A.A. 2014/15 Dott. Valerio Muzzioli ORDINAMENTO DEI DATI

Capitolo 13: L offerta dell impresa e il surplus del produttore

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Lezione 6: Forma di distribuzione Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

REGOLAMENTO (UE) N. 1235/2011 DELLA COMMISSIONE

Codici a barre. Marco Dell Oro. January 4, 2014

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

Università di L Aquila Facoltà di Biotecnologie Agro-alimentari

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

IL RISCHIO D IMPRESA ED IL RISCHIO FINANZIARIO. LA RELAZIONE RISCHIO-RENDIMENTO ED IL COSTO DEL CAPITALE.

Analisi della performance temporale della rete

VARIABILI E DISTRIBUZIONI DI FREQUENZA A.A. 2010/2011

La teoria dell utilità attesa

Il concetto di valore medio in generale

Transcript:

ANALISI DI DATI BIOLOGICI RAPPRSNTAR L COMUNITA tramite descrizioni grafiche e relazioni tra gli organismi presenti nei vari campioni. DISCRIMINAR dei siti sulla base della loro composizione biologica. Test statistici per valutare differenze tra gruppi di campioni definiti a priori DTRMINAR LIVLLI DI STRSS, tentando di costruire delle misure indicative di condizioni di disturbo. Misure assolute o criteri relativi. COLLGAR LA COMUNITA ALL VARIABILI AMBINTALI ed esaminare le cause di eventuali cambiamenti nella comunità stessa. TCNICH DI ANALISI DI DATI Metodi univariati: riducono l intero set di dati in un singolo coefficiente. Tecniche di distribuzione: sono una classe di metodi che riassume l informazione di un campione tramite una curva o un istogramma. MTODI MULTIVARIATI: basano la comparazione dei campioni sulle specie in comune e la distribuzione degli individui. splicitamente o indirettamente basati su coefficienti di similarità.

Matrici Iniziali e Misure di Similarità sistono possibili tipologie di matrici iniziali (dati grezzi): numeri (biomassa/ricoprimento) assoluti numeri (biomassa/ricoprimento) relativi dati standardizzati presenza/assenza Punto di partenza di molte analisi è il concetto di similarità (o dissimilarità) tra ciascuna coppia di campioni esaminati. Un qualsiasi coefficiente di similarità viene definito in modo da assumere valori compresi tra (nessuna similarità) e (completa similarità) Misure di Similarità Indice di Bray Curtis S jk = [- (Σ y ij -y ik )/(Σ(y ij + y ik )] y ij è l abbondanza (o biomassa) dell i-esima specie nel j-esimo campione S = S = se NON ci sono specie in comune se tutte le specie sono in comune e sono rappresentate dallo stesso numero di individui I cambiamenti di scala nelle misure non cambiano il valore di S Le joint absences non influiscono su S jk L aggiunta di un ulteriore campione r non influenza né modifica il valore di similarità già calcolato tra j-k capace di registrare differenze nell abbondanza totale come una similarità meno perfetta anche se le abbondanze relative per tutte le specie sono identiche

Misure di Similarità Indice di Bray Curtis SAMPLS S jk = [- (Σ y ij -y ik )/(Σ(y ij + y ik )] S P C I S A B C D 7 8 8 S = [- (++++)/(++++)] =. S =? S =? [- (+++)/(++7+)] =.7 Misure di Similarità Distanza uclidea Il concetto opposto a quello di similarità è quello di dissimilarità, il grado di non concordanza tra due campioni. La dissimilarità è un punto di partenza per costruire diverse tipologie di ordinamento grafico, in cui le dissimilarità (δ) tra le coppie di campioni vengono tradotte in distanze (d) tra i punti di una mappa δ = - S Distanza uclidea: è la distanza tra due punti nello spazio d jk = (y ij y ik ) Nel contesto di una matrice di specie, la distanza euclidea tra i campioni j e k

Misure di Similarità Distanza uclidea Nel caso di una matrice composta da sole specie, ciascun campione può essere rappresentato da un punto in uno spazio d Sample Sp Sp j k djk = (-) + (-) una distanza metrica, che obbedisce alla disuguaglianza triangolare: Dati campioni, d jk + d kr d jr 7 Trasformazione dei Dati Alle matrici di dati si possono applicare delle trasformazioni, per regolare l influenza che possono avere i taxa comuni rispetto a quelli rari. nessuna trasformazione: descrizione quantitativa radice quadrata doppia radice quadrata log (x+) presenza/assenza 8

Matrici di Similarità I valori di similarità si calcolano tra tutte le coppie di campioni e vengono quindi posti in una matrice triangolare che contiene n(n-)/ valori. SAMPLS S P C I S A B C D 7 8 8-8... -.. -. 8. -.7 - non-metric MDS nmmds è una tecnica di ordinamento grafico, che costruisce una mappa (in un determinato numero di dimensioni) in cui le distanze tra i punti (campioni) riflettono il più possibile i ranghi di similarità. Più vicini sono i punti, più simili sono i campioni rappresentati da tali punti L algoritmo su cui è basato nmds in un primo tempo pone le stazioni in uno spazio tri- o bi-dimensionale in modo casuale, quindi inizia gradualmente a ridefinire le posizioni attraverso un ciclo iterativo, con un numero di cicli definiti e sceglie la configurazione grafica che meglio rispecchia le condizioni espresse dalla matrice triangolare. L accordo tra la distanza delle stazioni nel modello MDS e nella matrice triangolare, è espresso dal COFFICINT DI STRSS, che tende a in caso di massimo accordo.

ANOSIM test (Analysis of similarities) Procedura che testa le differenze tra gruppi di campioni definiti a priori. H o non ci sono differenze nella composizione della comunità dei gruppi esaminati. Per esaminare H o vi sono step principali. TST STATISTICO: riflette le differenze osservate TRA siti in contrasto con le differenze tra repliche NTRO siti. Calcola la distanza media tra ogni coppia di repliche NTRO lo stesso sito (gruppo) in contrasto con la distanza media tra tutte le coppie di repliche.

ANOSIM. TST STATISTICO. In realtà si basa sui RANGHI di similarità della corrispondente matrice triangolare. R = (r B r W )/ M/ r B distanza media BTWN gruppi R = [-; +] r w distanza media WITHIN gruppo M = n(n-)/ R >, indica un qualche grado di discriminazione tra i siti. R =, se tutte le repliche entro i siti sono più simili tra loro rispetto a qualsiasi altra replica proveniente da siti diversi. R, se H o èvera. R <, improbabile. Le similarità tra siti diversi sono maggiori delle similarità entro lo stesso sito. ANOSIM. CALCOLO DLL PRMUTAZIONI. Il valore di R viene ricalcolato permutando i nomi dei campioni associati ai valori dei ranghi di similarità nella matrice triangolare. A A A B B B A A A B B B A B B A B A A B B A B A Test delle permutazioni di H : sono esaminate tutte le possibili allocazioni delle etichette dei campioni, e l R statistico viene calcolato per ciascuna allocazione.

ANOSIM. CALCOLO DL LIVLLO DI SIGNIFICATIVITA. Si intende il confronto del valore di R osservato con la distribuzione di valori ottenuti dalle permutazioni. Se H è vera, il valore di R osservato ricade nella distribuzione dei valori di R calcolati in modo casuale. Se il reale valore di R appare improbabile che provenga da tale distribuzione di frequenza, si ha una prova per rigettare H o. Il livello di significatività al quale è possibile rigettare H è pari a (t+)/(t+) dove T = numero di simulazioni, t = valori di R, all interno delle T simulazioni, che sono più elevati di R osservato Frequenza p <. R statistic SIMPR (similarity percentages) Analisi che permette di identificare precisamente le specie maggiormente responsabili della differenza tra gruppi diversi.. Calcolo della dissimilarità media δ tra tutte le coppie di campioni tra i due gruppi analizzati.. Assegnare δ al contributo di ogni specie. Per la dissimilarità di Bray-Curtis tra campioni j, k, il contributo della i-esima specie è: δ jk(i) = y ij -y ik /Σ(y ij + y ik )

PCA è una tecnica di ordinamento grafico, in cui gli assi (componenti principali) massimizzano la varianza dei punti campione proiettati lungo ciascun asse. I valori di varianza rappresentano quindi una misura dell informazione contenuta in ciascun asse sempio: d Sample 7 8 Sp 7 8 Sp 8 8 Se dovessimo riportare questa configurazione in una sola dimensione, quale sarebbe la migliore rappresentazione? 7 PCA. Possiamo considerare uno dei due assi (una sola specie), ignorando l altro 8

PCA. Possiamo scegliere un grafico che sia la linea che meglio interpola tutti i punti, best-fit La PC è la linea che massimizza la somma delle distanze dei campioni dalla linea stessa PCA La PC è la linea che massimizza la somma delle distanze dei campioni dalla linea stessa La PC è l asse perpendicolare a PC, che nel caso d è data dalla rotazione dell asse

PCA necessario normalizzare i dati per rendere la varianza dei campioni uguale ad, così che tutte le specie hanno potenzialmente uguale importanza nel determinare le componenti principali. Per questo e per altri motivi la PCA è un metodo di ordinamento grafico adatto soprattutto a rappresentare variabili abiotiche (ambientali) forma dei dati (presenza di blocchi di ) joint absences implicitamente la PCA definisce la dissimilarità tra campioni come la loro distanza euclidea in uno spazio p-dimensionale (dove p è il numero di variabili) BIO-NV Procedura per analizzare il grado di correlazione tra una matrice di dati biologici (abbondanza, biomassa ) e una matrice di dati abiotici. Campioni che hanno valori simili per quanto riguarda le variabili ambientali, è probabile che presentino una composizione specifica simile. Si comparano i ranghi di similarità che si ottengono dalle due matrici