Alcui parametri statistici di base Misure di tedeza cetrale: media mediaa moda Misure di dispersioe: itervallo di variazioe scarto medio variaza deviazioe stadard coefficiete di variazioe
Popolazioe di Protopalla rotuda Tedeza cetrale - Media Popolazioe di Protopalla rotuda Campioi 2
Popolazioe di Protopalla rotuda µ = ΣX i N Campioi X = ΣX i X = ΣX i X = ΣX i X = ΣX i X = ΣX i 3
Se il campioameto è corretto X = ΣX i X = ΣX i X = ΣX i ogi stima approssima µ X = ΣX i X = ΣX i Tedeza cetrale - Mediaa Mediaa: valore itermedio [(-)/2 valori maggiori, (-)/2 valori iferiori] e.g. lughezze di ife di Efemerotteri o valore (itermedio su 9) 2 3 4 6 7 8 9 4
dispari mediaa pari mediaa Mediaa = Mediaa = + 2 Tedeza cetrale - Moda Moda: il valore più frequete Moda
Misure di dispersioe Perchè soo importati? Perchè o tutte le popolazioi hao le stesse caratteristiche Distribuzioi diverse, ma medie e mediae coicideti! Media e mediaa Misure di dispersioe - Itervallo di variazioe. Itervallo di variazioe: differeza fra mi e max It. var. = - 6
Itervallo di varizioe semplice, ma poco iformativo NB Tre campioi o icludoo u valore max E due o icludoo u valore mi Misure di dispersioe - Scarto medio Si prede la differeza fra ogi valore e la media: X i -X ΣX i -X = 0 La somma di questi scarti è ulla, e quidi o serve 7
Misure di dispersioe - Scarto medio (segue) Se però si prede i valore assoluto, allora è ua misura di dispersioe: e Σ X i -X Σ X i -X = scarto medio Misure di dispersioe - Variaza Per elimiare il sego dello scarto si prede il suo quadrato: (X i -X) 2 E, se si sommao le differeze quadratiche, si ha ua somma di quadrati : Σ(X i -X) 2 8
Misure di dispersioe - Variaza (segue) Ua somma di quadrati può essere cosiderata a livello di popolazioe o di campioe: Popolazioe SS = Σ(X i - µ) 2 Campioe ss = Σ(X i -X) 2 Misure di dispersioe - Variaza (segue) Se si divide per la dimesioe della popolazioe o i gradi di libertà del campioe, si ha lo scarto quadratico medio o variaza Popolazioe Campioe σ 2 = Σ(X s 2 = Σ(X i -X) 2 i - µ) 2 N - Variaza della popolazioe Variaza del campioe 9
Misure di dispersioe - Deviazioe stadard La radice quadrata della variaza Popolazioe σ = Σ(X i - µ) 2 N Campioe s = Σ(X i -X) 2 - La deviazioe stadard è ua misura molto utile: Es. la maggioraza dei dati i ua qualsiasi popolazioe ha u valore che o si discosta dalla media di più di ua deviazioe stadard 0
Misure di dispersioe - Coefficiete di variazioe Lughezza media: 2.4 m Variaza:.6 m Dev. Std.:. m Lughezza media: 2.4 cm Variaza:.6 cm Dev. Std.:. cm Le orecchie degli elefati soo 00 volte più variabili di quelle dei topi? N.B. Variaza e dev. Std. hao spesso ordii di gradezza dipedeti dalla scala dei dati Misure di dispersioe - Coefficiete di variazioe (segue) V = (s/x) * 00% Elefati:. m / 2.4 m *00% = 2.% Topi:. cm / 2.4 cm *00% = 2.%
Campioi, cofroti, ipotesi Due modi diversi di ragioare. Ifereza deduttiva campioe popolazioe 2. Ifereza iduttiva campioe sample popolazioe 2
Quati campioi soo possibili? Immagiiamo di essere torati u po idietro el tempo e di aver potuto studiare la popolazioe di Dodo prima della sua estizioe. Il ostro obiettivo era sapere quate uova depoeva i media ciascua femmia (e rimaevao solo 6!). Dodo Uova A 0 µ = 4 B 9 C 6 D 3 E σ 2 = 9.33 F σ = 3.06 Quati diversi campioi erao possibili per =3? 6! 3!*3! = 20 Medie stimate dai 20 campioi possibili Dodo # 0 0 0 0 0 0 Dodo #2 3 3 Dodo #3 3 6 9 6 Media del campioe (m).33 2.00 2.33 3.33 2.67 3.00 0 3 9 4.00 0 6 3.67 0 9 4.67 0 6 9.00 3 3.00 3 6 3.33 3 9 4.33 6 4.00 9.00 6 9.33 3 6 4.67 3 9.67 3 6 9 6.00 6 9 6.67 3
Distribuzioe delle medie media mediaa=4 media mediaa=4 6 6 4 4 3 3 2 2 0 2 3 4 6 >6 0 2. 3. 4.. 6. >6. umero di uova (media) umero di uova (media) La distribuzioe ormale 4
Per gradi umeri, altre distribuzioi tedoo a quella ormale (teorema del limite cetrale) Distribuzioe biomiale P x = e -µ µ x x! Distribuzioe di Poisso Ua variabile casuale ifluezata da umerosi fattori tede ad avere ua distribuzioe ormale Dati biometrici, tassi di vario tipo, misure fisiche i geerale, etc. Se i valori misurati soo ifluezati da u umero elevato di eveti casuali, allora la distribuzioe tederà ad essere ormale. età attività fisica pressioe arteriosa gei stress fumo dieta
Le curve ormali hao forme variabili Quidi, per comparare più distribuzioi ormali, dobbiamo stadardizzarle i qualche modo Stadardizzazioe: la variabile Z Z = valore osservato var. casuale media deviazioe stadard ovvero Z = x - µ σ 6
Esempio Il voto medio di Metodologie Ecologiche è., metre la deviazioe stadard è.6. Se hai avuto 24, qual è stato il valore della variabile Z el tuo caso? Z = x - µ σ -.62! Z = x. = -.62.6 I pratica, Z ci dice di quate deviazioi stadard u valore si scosta dalla media. 0 -.62 24 Ogi deviazioe stadard di scarto dalla media defiisce u area sotto la curva, che equivale a ua certa percetuale di casi 7
2 0 Distribuzioe delle medie Se ua popolazioe media mediaa=4 è molto più grade media mediaa=4 quella del Dodo, o 6 potrò calcolare tutte le medie possibili, 6 é cooscere la media vera. Se 4raccolgo i dati relativi a u campioe, 4 posso stimare l itervallo 3 etro cui si trova la media 3 vera co u certo livello di probabilità? Si, perché so che la distribuzioe delle medie di tutti i campioi che posso estrarre è ormale. 2 3 4 6 >6 umero di uova (media) 2 0 2. 3. 4.. 6. >6. Quello che mi serve è l itervallo fiduciale della media. umero di uova (media) Itervallo fiduciale della media Calcolo la media Calcolo la deviazioe stadard Calcolo l errore stadard della media: s e La media µ della popolazioe sarà compresa ell itervallo fra la media campioaria m meo t (-,p) s e e la media campioaria m più t (-,p) s e dove t (-,p) èil valore del t di Studet co - gradi di libertà per il livello di probabilità p desiderato = σ 8
Itervallo fiduciale della media (i altre parole ) m-t (-,p) s e m m+t (-,p) s e µ (co ua probabilità p) Itervallo fiduciale della media (i altre parole ) Dodo Uova A 0 B 9 C 6 D 3 E F m=(9+3+)/3=4.333 x x-m (x-m) 2 9 4.667 2.778 3 -.333.778-3.333. = s 2 =(x-m) 2 /(-) 7.333 = s= (x-m) 2 /(-) 4.63 9
Itervallo fiduciale della media (i altre parole ) Dodo Uova A 0 B 9 C 6 D 3 E F m=4.333 s=4.63 s e =s/ =4.63 / 3=2.404 t (-,p) =t (3-,0.9) = 4.303 Itervallo fiduciale della media (i altre parole ) Dodo Uova A 0 B 9 C 6 D 3 E F m=4.333 s=4.63 s e =s/ =4.63 / 3=2.404 t (-,p) =t (3-,0.9) = 4.303 m-t (-,p) s e < µ < m+t (-,p) s e 4.333-4.303 2.404 < µ < 4.333+4.303 2.404-6.0 < µ < 4.677 per p=0.9 (9%) 20
Test d ipotesi "There is oe great difficulty with a good hypothesis. Whe it is completed ad rouded, the corers smooth ad the cotet cohesive ad coheret, it is likely to become a thig i itself, a work of art... Oe hates to disturb it. Eve if subsequet iformatio should shoot a hole i it, oe hates to tear it dow because it oce was beautiful ad whole.... Joh Steibeck/Ed Ricketts, 94 Log from the Sea of Cortez Cofroti fra medie: il test t di Studet 2
Il test t di Studet X X 2 t = s e H : µ = µ 0 2 s = s e p + 2 2 s p = ( 2 ) s + ( 2 ) s + 2 2 2 2 gdl = + 2 2 Aalisi della variaza 22
Alimetazioe di pesci Pesi degli aimali al termie di ua prova Prova Formula Formula 2 Formula 3 Prova 2 Formula Formula 2 Formula 3 20 2 8 27 7 22 27 24 20 37 2 27 7 29 29 22 20 2 29 22 24 2 3 23 2 36 Quale è la differeza di maggiore importaza ei dati? La differeza sta el modo i cui soo distribuiti (I umeri colorati rappresetao le diverse formulazioi dell alimeto) Prova 2 3 2 3 3 2 2 2 3 3 Variabilità itra-gruppo piccola, iter-gruppo grade (si formao clusters) 20 2 30 3 40 Prova 2 3 3 2 3 2 2 2 2 33 Variabilità itra-gruppo grade, iter-gruppo piccola (o si ricooscoo clusters) 20 2 30 3 40 23
Per comparare le due prove (c è differeza fra di esse?), formuliamo due ipotesi: H 0 : µ = µ 2 = µ 3 H : µ µ 2 µ 3 No c è differeza fra le formulazioi C è differeza fra le formulazioi Piao sperimetale ed ANOVA Esperimeto completamete radomizzato: ) pesci 2) assegazioe casuale alla dieta Si usa u ANOVA a ua via (o ad u fattore) 24
Ipotesi: H 0 : µ = µ 2 = µ 3 H : µ µ 2 µ 3 Perchè o aalizzare ivece: H 0 : µ = µ 2 H : µ µ 2 H 0 : µ = µ 3 H : µ µ 3 H 0 : µ 2 = µ 3 H : µ 2 µ 3 Ma mao che si aumeta il umero di cofroti a coppie, aumeta la probailità di u errore di Tipo I (rigettare u ipotesi vera) Numero di cofroti a coppie 0 20 Probabilità Errore Tipo I.0.23.63.92 2
La sola formula ecessaria per u ANOVA a ua via: Variaza = Somma degli scarti quadratici dalla media Gradidilibertà = Σ(Xi - X) 2 - La variaza i u ANOVA si chiama spesso somma dei quadrati o SS Ci soo più sorgeti di variazioe (misurate dalla somma dei quadrati [SS]) ei dati. Lo scopo dell ANOVA è di misurare queste variazioi e decidere da cosa dipedoo. La prima sorgete di variazioe è la variabilità complessiva dei dati. Si misura co la Somma Totale dei Quadrati o SS T SS T = ΣX 2 - Σ(X)2 N
La variabilità complessiva dei dati può essere decomposta i due compoeti: Variabilità complessiva (SS T ) Variabilità fra trattameti Deriva da:. Differeze fra soggetti 2. Errore sperimetale 3. Effetto dei trattameti Variabilità ei trattameti Deriva da:. Differeze fra soggetti 2. Errore sperimetale Variabilità complessiva (SS T ) Variabilità fra trattameti Deriva da:. Differeze fra soggetti 2. Errore sperimetale 3. Effetto dei trattameti Variabilità ei trattameti Deriva da:. Differeze fra soggetti 2. Errore sperimetale Si comparao co ua statistica F F = Variabilità fra trattameti Variabilità ei trattameti = Effetto dei trattameti + differeze fra soggetti + errore sperimetale differeze fra soggetti + errore sperimetale 27
Cosiderado la prova Prova Formula 20 22 2 22 20 2 Formula 2 2 27 Formula 3 27 29 Media geerale = 2 Come differiscoo le diete? Quale è la sorgete di variazioe fra di esse? Calcoli! ) Variabilià complessiva = Somma dei quadrati totale = SS T SS T = ΣX 2 - Σ(X)2 N = 93-40,62 = 38 Prova Formula Formula 2 Formula 3 20 2 22 27 2 27 22 29 20 2 Media geerale = 2 Ma si può ache calcolare come: SS T = (X -X) 2 + (X 2 -X) 2 + (X 3 -X) 2 (X -X) 2 = (20-2) 2 + (22-2) 2 + (2-2) 2 + ( - 2) 2 = 38
Calcoli! 2) Variabilità itra-gruppo = ΣSS itra SS itra F = ΣX 2 - Σ(X) 2 N = 2209-02 = 4 Prova Formula Formula 2 Formula 3 20 2 22 27 2 27 22 29 20 2 Media geerale = 2 SS itra F2 = 3382-6900 = 2 ΣSS = SS itra F + SS itra F2 + SS itra F3 = 4 + 2 + 2 = 8 SS itra F2 = 3922-9600 = 2 Quidi SS itra = 8 Calcoli! Prova 3) Variabilità iter-gruppo, si calcola i due modi Formula 20 22 Formula 2 2 27 Formula 3 2 27 SS iter = ΣX 2 - Σ(X) 2 N 22 20 2 29 oppure Media geerale = 2 Si sottrae SS itra da SS T Poichè SS T = SS itra + SS iter SS iter = 30 Quidi SS itra = SS T Ss itra = 38-8 = 30 29
Calcoli! 4) Si calcola il Quadrato Medio Ricordare la formula della variaza (co ua piccola modifica) s 2 = SS/gdl Nell ANOVA si sostituisce s 2 col Quadrato Medio (MS): MS iter = SS iter gdl iter = 30/2 = 6 MS itra = SS itra gdl itra = 8/2 = 0.66 E quidi F (la statistica dell ANOVA) = MS iter = 6/.66 = 97.9 MS itra Per ua semplice ANOVA a ua via I gradi di libertà soo : Gdl itra = N - K Gdl iter = K - Gdl T = N - Dove N = umero dei dati totali ( pesci) K = umero dei trattameti (3 formulazioi) 30
I risultati dell ANOVA si presetao i ua tabella impostata come: Sorgete di SS gdl MS (SS/gdl) variazioe Iter-gruppo 30 2 66 (trattameto) (K-) F = 97.9 Itra-gruppo 8 2 0.6 (errore, residui) (N-K) Totale 38 4 (N-) Il passo fiale! Si cerca il valore critico per p =.0 e 2 e 2 gradi di livertà i ua tavola di F F(.0, 2, 2) =.0 Dato che il valore di F otteuto (97.9) è molto maggiore di.0: p <<<.0 Torado alle ipotesi di parteza: H 0 : µ = µ 2 = µ 3 No c è differeza fra le formulazioi H : µ µ 2 µ 3 C è differeza fra le formulazioi Si rigetta H 0 e quidi si accetta H, cioè che esiste ua differza fra formulazioi 3
Sommario dell ANOVA Variabilità totale Fra trattameti: SS T = ΣX 2 - Σ(X) 2 N. Differeze fra soggetti 2. Errore sperimetale 3. Effetto dei trattameti SS iter = ΣX 2 - Σ(X) 2 N Nei trattameti:. Differeze fra soggetti 2. Errore sperimetale SS itra = ΣSS INTRA Fx MS iter = SS iter gdl iter MS itra = SS itra gdl itra F = MS iter MS itra 32