Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

Fondamenti di statistica per il miglioramento genetico delle piante Antonio Di Matteo Università Federico II

Modulo 2 Variabili continue e Metodi parametrici

Distribuzione Un insieme di misure è detto serie statistica o serie dei dati. Quando la serie non è ordinata, si ha un insieme disordinato di numeri che non evidenzia le caratteristiche fondamentali del fenomeno. Una sua prima ed elementare elaborazione può essere una distribuzione ordinata di tutti i valori, in modo crescente o decrescente, detta seriazione. Il valore minimo e il valore massimo insieme permettono di individuare immediatamente il campo (od intervallo) di variazione. Successivamente, la serie può essere raggruppata in classi, contando quanti valori od unità statistiche appartengono ad ogni gruppo o categoria. Si ottiene una distribuzione di frequenza o di intensità, detta anche semplicemente distribuzione.

Distribuzione Come prima applicazione, è utile considerare un caso semplice: una variabile discreta ottenuta da un conteggio del numero di foglie, germogliate su 45 giovani rami di lunghezza uguale. Il primo passaggio, quasi intuitivo in una distribuzione discreta, consiste nel definire le classi: - è sufficiente identificare il valore minimo (0, nei dati della tabella) e quello massimo (9); - contando quante volte compare ogni modalità di espressione (cioè quanti sono i rami con un numero di foglie uguali). La distribuzione di frequenza offre una lettura rapida delle caratteristiche più importanti della serie di dati. Le distribuzioni di frequenza tendono a mostrare la distribuzione reale del fenomeno solo quando è possibile utilizzare un numero sufficientemente elevato di osservazioni.

Distribuzioni campionarie per l inferenza 1) chi-quadro di Pearson; 2) t di Student; 3) F di Fisher.

La distribuzione χ 2 di Pearson La distribuzione Chi-quadrato (χ 2 ), il cui uso è stato introdotto dallo statistico inglese Karl Pearson (1857 1936), può essere fatta derivare dalla distribuzione normale. Date n variabili casuali indipendenti x1, x2,, xn, normalmente distribuite con μ = 0 e σ = 1, χ 2 è una variabile casuale data dalla somma dei loro quadrati. La funzione di densità del χ 2 è determinata solo dal parametro ν, il numero di gradi di libertà, pertanto viene scritta come χ 2 (ν). Cosa sono i gradi di libertà?? La distribuzione χ 2 parte da ν uguale a 1 e al suo aumentare assume forme sempre diverse, fino ad una forma approssimativamente normale per ν =30. Con ν molto grande è possibile dimostrare che si ottiene una nuova variabile casuale - normalmente distribuita, -con media μ uguale a 0 e -deviazione standard σ uguale a 1. Per cui, nell ipotesi di una popolazione di valori X, la sua standardizzazione genera Si dimostra che per ogni singolo valore x, e

La distribuzione χ 2 di Pearson per n osservazioni

La distribuzione χ 2 di Pearson Il χ 2 può servire per valutare se la varianza σ 2 di una popolazione, dalla quale sia stato estratto un campione con varianza s 2, sia uguale o diversa da un valore predeterminato σ 2 0. Questi concetti sono espressi nell ipotesi nulla H 0 Per decidere alla probabilità a tra le due ipotesi, si stima un valore del chi quadrato e questo valore, alla probabilità desiderata viene confrontato con il valore della distribuzione χ 2.

La distribuzione t di Student La distribuzione t di Student (pseudonimo del chimico inglese Gosset che ne propose l applicazione al confronto tra medie campionarie) considera le relazioni tra media e varianza, in campioni di piccole dimensioni, quando si utilizza la varianza del campione (quando quella della popolazione sia ignota). Se una serie di medie campionarie (x) è tratta da una distribuzione normale ridotta (μ = 0, σ = 1) e la varianza del campione è s 2, con distribuzione χ 2 e ν gdl, è possibile derivare la v.c. t di Student, tramite la relazione e t=(x- μ)/(s ) dove i gdl ν corrispondono a N 1, con N uguale al numero totale di dati. La curva corrispondente è simmetrica, leggermente più bassa della normale e con frequenze maggiori agli estremi, quando il numero di gdl (ν) è molto piccolo.

La distribuzione F di Fisher Un altra distribuzione di notevole interesse pratico, sulla quale è fondata l inferenza di molta parte della statistica parametrica, è la distribuzione F. Essa corrisponde alla distribuzione del rapporto di 2 variabili casuali chi-quadrato indipendenti (A e B), divise per i rispettivi gradi di libertà (m e n). La curva dipende sia dal valore di ν1 e ν2, tenendo conto delle probabilità α; di conseguenza, in quanto definita da tre parametri, la distribuzione dei valori di F ha tre dimensioni. Il valore di F in teoria può quindi variare da 1 a +. In realtà sono molto rari i casi in cui supera 10; avviene solo quando i gradi di libertà sono pochi. Storicamente, la distribuzione F è stata proposta dopo la distribuzione t e ne rappresenta una generalizzazione. Tra esse esistono rapporti precisi. Il quadrato di una v.c. t di Student con ν gradi di libertà è uguale ad una distribuzione F di Fisher con gradi di libertà 1 e ν.

Il test t di Student Quando la media della popolazione (μ) non è nota, di norma anche la sua varianza (s 2 ) è ignota; di conseguenza, occorre utilizzare un sostituto della varianza della popolazione e la varianza del campione (s 2 ) ne rappresenta la stima più logica ed attendibile. Con σ ignota ed il ricorso all uso di s in sua sostituzione, la distribuzione delle probabilità non è più fornita dalla distribuzione normale z ma da quella del t, detta t di Student. La distribuzione t può essere ottenuta, con un campione costante di dati (n), dalle variazioni determinate dal rapporto Rispetto alla normale, la distribuzione t di Student tiene conto anche della variazione di campionamento della deviazione standard (s) ed i metodi che utilizzano il test t di Student (basato sulla distribuzione t) si riferiscono esclusivamente a piccoli campioni. Non vi è una sola curva t a differenza di quanto osservato per la gaussiana ma esiste una intera famiglia di distribuzioni t, una per ogni grado di libertà. Come per il chi quadrato, anche per la distribuzione t abitualmente si utilizza una sola tavola sinottica, una pagina ordinata di sintesi, che riporta i valori critici più importanti.

Valori critici del t di Student

Il test t di Student Nella statistica applicata, il test t è utilizzato in quattro casi: per il confronto tra 1 - la media di un campione e la media dell universo o una generica media attesa; 2 un singolo dato e la media di un campione, per verificare se possono appartenere alla stessa popolazione; 3 - la media delle differenze di due campioni dipendenti con una differenza attesa; 4 - le medie di due campioni indipendenti. Un test è unilaterale o a una coda, quando il ricercatore si chiede se una media è maggiore dell'altra, escludendo a priori che essa possa essere minore. Un test è bilaterale o a due code, quando il ricercatore si chiede se tra le due medie esista una differenza significativa, senza che egli abbia indicazioni su quali sia la maggiore o la minore.

Confronto tra una media osservata ed una attesa La distribuzione t con n-1 gdl (indicata con t n-1 ) è data dal rapporto Per verificare l ipotesi relativa alla media x di un campione rispetto ad una media attesa, l ipotesi nulla H 0 generalmente è scritta come Dalla formula in alto si può derivare quella dell'intervallo di confidenza, entro il quale alla probabilità α è compresa la media reale μ della popolazione dalla quale è estratto il campione. La formula per il calcolo dell intervallo fiduciale diventa

Test t di Student: esempio 1 In un appezzamento di terreno adibito a vivaio, sono coltivate pianticelle della specie A; una lunga serie di misure ha dimostrato che dopo due mesi dalla semina raggiungono un altezza media di 25 centimetri. A causa di un incidente, su quel terreno sono state disperse sostanze tossiche; si ritiene che esse incidano negativamente sulla crescita di alcune specie, tra le quali la specie A. Per una verifica di tale ipotesi, vengono seminate sul terreno inquinato 7 pianticelle che, controllate dopo 2 mesi, raggiungono le seguenti altezze in cm.: 22, 25, 21, 23, 24, 25, 21. Si intende rispondere a due quesiti. 1 - Si può sostenere che le sostanze tossiche disperse inibiscano la crescita della specie A? 2 - Quale è la media reale dell altezza delle piante dell età di due mesi, nella nuova condizione del terreno? E un test ad una coda in cui l ipotesi nulla è Scegliendo una probabilità a uguale a 0.05 e applicando la formula

Test t di Student: esempio 1 Il segno negativo indica solamente che la differenza è negativa rispetto al valore atteso; ai fini della significatività, il valore di t viene preso in modulo. Per un test ad una coda, il valore critico del t alla probabilità (0.05/2)=0.025 con 6 gdl è uguale a 2,447. Il valore calcolato in modulo è superiore a quello riportato nella tabella sinottica della distribuzione t. Pertanto, con probabilità inferiore a 0.05 (di commettere un errore) si rifiuta l ipotesi nulla e si accetta l ipotesi alternativa: le sostanze tossiche disperse inibiscono la crescita delle piante della specie A in modo significativo. 2 - L altezza media reale m della popolazione dalla quale sono stati estratti i 7 dati può essere stimata mediante l intervallo fiduciale

Test t di Student a 2 campioni indipendenti Nel caso di 2 campioni indipendenti, i gradi di libertà del t sono uguali a (na 1) + (nb-1), che possono anche essere scritti come (na + nb - 2) oppure (N-2). Il valore del t è ottenuto mediante

Condizioni del test t di Student Il t di Student è un test di statistica parametrica. Affinché possa essere ritenuto valido, come nel caso di un campione, devono essere rispettate le condizioni essenziali che - i dati (o gli scarti rispetto alla media) siano distribuiti normalmente, - le osservazioni siano raccolte in modo indipendente. Con due campioni indipendenti, per calcolare la s2 pooled si ha l ulteriore condizione essenziale, più importante delle precedenti, perché rispetto ad essa il test t è meno robusto, di - omoschedasticità o omoscedasticità, cioè che le due varianze siano statisticamente uguali.

Il test di Levene

Analisi della varianza (ANOVA) Nella ricerca sperimentale è frequente il confronto simultaneo tra le medie di più di due gruppi, formati da soggetti sottoposti a trattamenti differenti o con dati raccolti in condizioni diverse. Nell analisi della varianza, con apparente paradosso dei termini, il confronto è tra due o più medie. Essa permette il confronto simultaneo tra esse, mantenendo invariata la probabilità a complessiva prefissata. L'ipotesi nulla H0 afferma che le medie delle popolazioni dalle quali sono estratti casualmente i vari campioni sono tra loro tutte uguali oppure che tutti i campioni a confronto sono stati estratti dalla medesima popolazione. La metodologia sviluppata per verificare la significatività delle differenze tra le medie aritmetiche di vari gruppi, chiamata analisi della varianza e sintetizzata in ANOVA dall acronimo dell'inglese ANalysis Of VAriance, utilizza la distribuzione F. Il modello più semplice di analisi della varianza, è detto ad un criterio di classificazione: ogni dato è classificato solo sulla base del trattamento o del gruppo al quale appartiene.

Analisi della Varianza (ANOVA)

Analisi della Varianza (ANOVA) Le assunzioni di validità del test F dipendono dagli errori eij, che - devono essere tra loro indipendenti, - devono essere distribuiti normalmente; inoltre - le varianze dei vari gruppi devono essere omogenee.

Analisi della Varianza (ANOVA)

Esempio ANOVA

Nel modulo 2 abbiamo imparato - La distribuzione chi quadrato - La distribuzione t di Student - La distribuzione F di Fisher - Il t test di Student - Il test ANOVA