Test statistici non-parametrici



Documenti analoghi
Test non parametrici. Test non parametrici. Test non parametrici. Test non parametrici

Elementi di Psicometria con Laboratorio di SPSS 1

Relazioni tra variabili

3. Confronto tra medie di due campioni indipendenti o appaiati

VERIFICA DELLE IPOTESI

Elementi di Psicometria con Laboratorio di SPSS 1

T DI STUDENT Quando si vogliono confrontare solo due medie, si può utilizzare il test t di Student La formula per calcolare il t è la seguente:

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Elementi di Psicometria con Laboratorio di SPSS 1

Metodi statistici per le ricerche di mercato

Facciamo qualche precisazione

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

4. Confronto tra medie di tre o più campioni indipendenti

Statistica. Lezione 6

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

LA CORRELAZIONE LINEARE

Indici di dispersione

Analisi di dati di frequenza

Il coefficiente di correlazione di Spearman per ranghi

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Elementi di Psicometria

CAPITOLO III CONFRONTI TRA DISTRIBUZIONI

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

STATISTICA IX lezione

15. Antico gioco russo

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Facoltà di Psicologia Università di Padova Anno Accademico

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr.


Capitolo 11 Test chi-quadro

IL TEST CHI QUADRATO χ 2

LEZIONE n. 5 (a cura di Antonio Di Marco)

La distribuzione Normale. La distribuzione Normale

Calcolo delle probabilità

Inferenza statistica. Statistica medica 1

Corso di Psicometria Progredito

Test statistici di verifica di ipotesi

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

La distribuzione Gaussiana

PROBABILITA MISURARE L INCERTEZZA Lanciamo due dadi, facciamo la somma dei punteggi ottenuti. Su quale numero mi conviene scommettere?

Elementi di Psicometria con Laboratorio di SPSS 1

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Grafici delle distribuzioni di frequenza

Criteri di Valutazione della scheda - Solo a carattere indicativo -

Un gioco con tre dadi

Rapporto dal Questionari Insegnanti

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr.

Il confronto fra proporzioni

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Analisi dei residui. Test Esatto di Fisher. Differenza fra proporzioni

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Strumenti informatici 13.1

Anteprima Finale Categoria Corsi di Statistica

Corso di. Dott.ssa Donatella Cocca

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

INTRODUZIONE AL DESIGN OF EXPERIMENTS (Parte 1)

LEZIONI DI STATISTCA APPLICATA. Parte 2. Statistica inferenziale. Variabili continue per categoriali. Alessandro Valbonesi

EXCEL FUNZIONI PRINCIPALI

matematica probabilmente

Università del Piemonte Orientale. Corsi di laurea triennale di area tecnica. Corso di Statistica Medica. Analisi dei dati in tabelle di contingenza

Statistiche campionarie

Il farmaco generico. Contenuti tecnico-scientifici del farmaco generico: comunicazione a corrente alternata

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Metodi statistici per le ricerche di mercato

Statistica inferenziale

La variabile casuale Binomiale

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

11. Analisi statistica degli eventi idrologici estremi

Statistica descrittiva

Tasso di interesse e capitalizzazione

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

Complemento al corso di Fondamenti di Informatica I corsi di laurea in ingegneria, settore dell informazione Università la Sapienza Consorzio Nettuno

ESERCIZI DI STATISTICA DESCRITTIVA

Misure della dispersione o della variabilità

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Capitolo 12 La regressione lineare semplice

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

E naturale chiedersi alcune cose sulla media campionaria x n

Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

RAPPRESENTAZIONE DEI DATI

LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

Potenzialità statistiche Excel

Tabella iniziale con i dati. Malattia Malati Non malati Totale Test Positivo 183 Negativo 280 Totale Calcolo i valori mancanti per differenza

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

Statistica descrittiva

DEFINIZIONE La statistica è una scienza che si propone di definire con dei numeri cose che non si possono numerare ne misurare.

Metodi Matematici e Informatici per la Biologia Maggio 2010

I PROBLEMI ALGEBRICI

ANALISI DELLA VARIANZA A PIU CRITERI DI CLASSIFICAZIONE

ELEMENTI DI STATISTICA

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

Tema A Se due eventi A e B sono indipendenti e tali che P (A) = 1/2 e P (B) = 2/3, si può certamente concludere che

Transcript:

Test statistici non-parametrici Il test t di Student e l ANOVA sono basati su alcune assunzioni. Variabili continue o almeno misurate in un intervallo (es. non conosco il valore assoluto, ma posso quantificare le differenze fra due valori). Indipendenza fra media e varianza (l errore di misura deve essere indipendente dal valore misurato). Variabili distribuite in modo (approssimativamente) normale. Omogeneità delle varianze. I risultati ottenuti con l analisi di campioni si applicano alle popolazioni. Dimensione campione > (meglio se ) campione popolazione

Una chiave per i test parametrici sulle medie Numero di campioni/gruppi/lotti/trattamenti/etc. più di Test t di Student Le medie di due popolazioni sono identiche? ANOVA Le medie di più popolazioni sono identiche? La direzione della differenza è specificata? Numero di fattori da testare No > Test a una coda Test a due code Ogni dato del primo campione corrisponde univocamente ad un dato del secondo campione? Ogni dato di un campione corrisponde univocamente ad un dato in ciascun altro campione? No ANOVA a due vie Altri test No Test t a coppie Test t non a coppie ANOVA su misure ripetute ANOVA a una via Se queste assunzioni (una o più sono violate) Assunzione. Variabile non continua. Indipendenza media-varianza. Distribuzione non normale. Varianze disomogenee. Campione popolazione. n< Altri test? No Rimedi? Migliori metodi di misura Trasformazione dei dati Raccogliere più dati

Test non-parametrici Questi test si impiegano quando almeno una delle assunzioni alla base del test t di Student o dell ANOVA è violata. Sono chiamati non-parametrici perchè essi non implicano la stima di parametri statistici (media, deviazione standard, varianza, etc.). Ne esistono almeno due grandi categorie: ) Test di conformità (confronto fra valori osservati e valori attesi opportunamente calcolati) ) Test equivalenti di test parametrici Un esempio di test di conformità Frequenza dei fenotipi di Bipalla rotunda A_B_ A_bb aab_ rapporto 9::: (secondo la.a legge di Mendel) aabb

- individui campionati osservato (o) A_B_ 9 A_bb aab_ aabb - individui campionati A_B_ A_bb aab_ aabb osservato (o) 9 atteso (e)

- individui campionati A_B_ A_bb aab_ aabb osservato (o) 9 atteso (e) o - e - - - individui campionati A_B_ A_bb aab_ aabb osservato (o) 9 atteso (e) o - e - - (o - e) 9 9 9 9

- individui campionati A_B_ A_bb aab_ aabb osservato (o) 9 atteso (e) o - e - - (o - e) 9 9 9 9 (o - e) e... 9. - individui campionati A_B_ A_bb aab_ aabb osservato (o) 9 atteso (e) o - e - - (o - e) 9 9 9 9 (o - e) e... 9. Σ (o -e) Χ = =. +. +. + 9. =. e GdL = numero di fenotipi - =

X =. Il valore critico per gradi di libertà al livello. è. Tavola di X La vera probabilità di X =. e GdL = è. > p >. Lo scarto fra frequenze osservate dei fenotipi e frequenze previste in base alla.a legge di Mendel è tale che la probabilità di osservare scarti ancora maggiori è molto piccola (<.). Quindi verosimilmante essi non sono stati estratti da una popolazione mendeliana. Un caso particolare: la correzione di Yates La formula per il calcolo del X è: Χ = Σ (o -e) e Però, nel caso in cui GdL= (cioè se le categorie di dati sono solo due) la formula diventa: Χ = ( o -e -.) Σ e

Mendel e i piselli: un test di eterogeneità Verdi (g) Gialli (Y) Da un incrocio Yg x Yg il rapporto atteso di Y_ rispetto a gg è di : H : il rapporto è : H : il rapporto non è: L esperimento viene ripetuto volte Esperimento Gialli Verdi n X GdL. 9.9 9. 9... 9. 9.9. Totali.

Problema: i dati dei singoli esperimenti possono essere combinati fra loro? Per essere combinati, essi devono essere stati estratti dalla medesima popolazione. Quindi: H : i dati sono stati estratti dalla medesima popolazione. (dalla slide precedente) Esperimenti Tutti Gialli Verdi n X. GdL Totale dei X =., GdL = X deitotali=., GdL = X = Totale dei X - X dei totali =. -. =. e GdL = 9 Per X =. e GdL=9, p. Conclusioni: i dati sono estratti dalla stessa popolazione e quindi possono essere combinati. Test di McNemar Confronto di due campioni non indipendenti usa per variabili nominali rilevate più volte sugli stessi individui Esempio: la scelta di una o due femmine in Betta splendens (pesce combattente del am) Problema: la distanza a cui un maschio si sposta varia con il numero delle femmine disponibili? 9

Disegno sperimentale f f. m N.B. usano gli stessi maschi f f. m Risultati Vasca. m Vasca. m f f f f Vasca m f f 9 Vasca m f f a c b d a+b c+d a+c b+d

Risultati Vasca. m Vasca. m f f f f Vasca m f f 9 Vasca m f f a c b d a+b c+d a+c b+d Cosa significano questi dati? animali scelgono f (vanno verso femmine) nella vasca piccola, ma preferiscono f (andare verso femmina) nella vasca grande H : la frequenza degli animali che cambiano risposta da f a f è la stessa di quelli che cambiano da f a f ovvero H : b - c = Test di McNemar: calcoli X = (b-c) b+c Se b+c <, si introduce un fattore di correzione: X = ( b-c - ) = ( -9 - ) =.9 b+c +9 X (., df = ) =. Poiché.9 <<., si accetta H

Test esatto di Fisher usa su dati nominali, con due campioni indipendenti Esempio: una serie di misure del numero di Emitteri e di Coleotteri sulle facce superiori ed inferiori di foglie L Emittero Lygus lineolaris Il Coleottero Altica sylvia H : la frequenza di Emitteri e Coleotteri è indipendente dalla faccia delle foglie. Dati sperimentali Emitteri Coleotteri Totali Faccia superiore (a) (b) 9 (a+b) Faccia inferiore (c) (d) (c+d) Totali (a+c) (b+d) N=9 p = (a+b)! (a+c)! (b+d)! (c+d)! n! a!b!c!d! (9)! ()! ()! ()! 9!!!!! = =.9 p =.9 (cioè <.), quindi si rigetta H N.B. Questo test consente il calcolo diretto di p.

Test Q di Cochran usa con dati nominali e con più di due campioni non indipendenti (misure ripetute) Effetto dell abbigliamento sulle punture di zanzara (pungono=, non pungono=) Leggero, comodo Leggero, aderente Scuro, lungo Scuro, corto Non punto Totale punture Soggetto G i a = (numero di trattamenti) b = (numero di soggetti - N.B. il soggetto è stato escluso perché la risposta è sempre positiva) Test Q di Cochran: calcoli H : le punture non dipendono dall abbigliamento. Q = a - ΣG i -(ΣG i ) a Σb -(Σb) a =.9 = X X =.9 < X crit (., GdL) = 9., quindi p >. (p=.) Quindi si accetta l ipotesi nulla H

In conclusione Tipo di dati Numero di campioni Dati indipendenti? Test da usare Nominali No McNemar Nominali Esatto di Fisher Nominali > No Q di Cochran Test di Tukey-Duckworth Il test di Tukey-Duckworth è uno dei test statistici più semplici da applicare E cosi semplice che praticamente non richiede calcoli Ovviamente ha dei limiti operativi e non è altrettanto potente quanto altri test nonparametrici o parametrici

Test di Tukey-Duckworth Il numero dei dati nei due campioni deve essere: <= n <= n <= H o : i campioni sono identici H a : i campioni differiscono fra loro La statistica da calcolare è C Il test esiste solo nella forma a due code Ci sono solo due valori critici: C. = C. = Test di Tukey-Duckworth. determinano il valore massimo e quello minimo assoluto riferiti ad entrambi i campioni.. Per il campione che contiene il valore massimo assoluto si contano i dati il cui valore è maggiore del massimo (relativo) dell altro campione.. Per il campione che non contiene il massimo assoluto, si contano i valori che sono più piccoli del minimo valore dell altro campione.. La statistica C è la somma delle due conte.

Test di Tukey-Duckworth Altezze in piedi delle palme in due quadrati campione sito A B 9 9 9 9 9 9 9 9 9 9 9 9 9 9 99 C = + = 9 C. = C. = C > C. rigetta H Test di Komolgorov-Smirnov (KS) Un campione, dati ordinali (ranghi) Esperimento: preferenza per l umidità di porcellini di terra (Isopoda, Porcellionidae) dà una scelta fra vari livelli di umidità (da a ) umido secco H : nessuna preferenza per un particolare livello di umidità H : preferenza per un particolare livello di umidità

I dati Classe di umidità fi Frequenza osservata ^ f i Frequenza attesa F i Freq. oss. cumulativa ^ F i Freq. att. cumulativa d i 9 Valore assoluto della differenza Statistica di Kolmogorov-Smirnov: d max = 9 Valore critico: d max(, ) = Quindi, si rigetta H Test di Wilcoxon Due campioni non indipendenti, dati ordinali Il test di Wilcoxon dovrebbe essere usato come alternativa non-parametrica al t di Student per campioni non indipendenti se una qualsiasi delle assunzioni necessarie per quest ultimo è violata.

Test di Wilcoxon Esperimento Misura del tempo per cui si nutrono degli uccelli, come numero di minuti di attività nella mattina e nel pomeriggio Uccello Mattina Pomeriggio Differenza Rango differenza Rango con segno 9 - - 9 9 9 - - H : non c è differenza fra mattina e pomeriggio H : esiste una differenza fra mattina e pomeriggio Test di Wilcoxon: calcoli Uccello Mattina Pomeriggio Differenza Rango differenza Rango con segno 9 - - 9 9 9 - - Somma dei ranghi positivi: T + = +++++ = Somma dei ranghi negativi: T - = += rigetta H se T + ot - valore critico tabulare In questo caso, poichè T (., n=) =, si rigetta H

Test U di Mann-Whitney Due campioni indipendenti, dati ordinali Il test U di Mann-Whitney dovrebbe essere usato come alternativa non-parametrica ad un test t di Student su campioni indipendenti, se una qualsiasi delle assunzioni necessarie è violata. Test U di Mann-Whitney Esperimento Distanze al vicino più prossimo fra Nudibranchi in due quadrati campione Quadrato 9 Quadrato H : non c è differenza fra i quadrati nella distanza al vicino più prossimo H : c è differenza fra i quadrati nella distanza al vicino più prossimo 9

Test U di Mann-Whitney: calcoli Dati ordinati 9 Quadrato 9 n = Quadrato n = Ranghi quadrato 9 ΣR = Ranghi quadrato ΣR = U = n n + n (n + ) - ΣR = + - = U = n n -U = - = Se U o U U crit(.,, ), si rigetta H Poichè U crit(.,, ) = e U=>, si rigetta H Test di Kruskal-Wallis Un analogo dell ANOVA a una via da usare quando le assunzioni necessarie per quest ultima sono violate. Esperimento studia la distribuzione verticale delle mosche nella vegetazione.

Test di Kruskal-Wallis Vegetazione erbacea Arbusti Alberi..9 Numero di mosche /m. 9........... H : la distribuzione delle mosche è omogenea fra strati H : la distribuzione delle mosche non è omogenea fra strati Test di Kruskal-Wallis: calcoli calcolano i ranghi dei dati Vegetazione erbacea (). () 9. (). (). () Arbusti. (). (). (). (). () Alberi.9 (). (9). (). (). () n = R = n = R = n = R = N =

Test di Kruskal-Wallis: calcoli calcolano i ranghi dei dati Vegetazione erbacea (). () 9. (). (). () Arbusti. (). (). (). (). () Alberi.9 (). (9). (). (). () n = R = n = R = n = R = N = H = N(N + ) Σ R i n i -(N+) = + + - =. per n =,, si ha H crit(.) =. Poichè H=.>H crit(.) =., si rigetta H Test di Friedman Analogo non-parametrico dell ANOVA a due vie Esperimento Accrescimento di cavie in funzione della dieta Diete Lotti......9..............

Test di Friedman Analogo non-parametrico dell ANOVA a due vie Esperimento Accrescimento di cavie in funzione della dieta Diete Lotti......9.............. R i 9 (somma dei ranghi) Ranghi calcolati all interno di ciascun lotto Test di Friedman: calcoli X = ba(a + ) Σ R i -b(a+) =. Dove: a = numero delle diete b = numero dei lotti H : l accrescimento è omogeneo fra diete e fra lotti H : l accrescimento non è omogeneo fra diete e fra lotti Il valore critico per p=. è X (., GdL=) =. Poichè X >X (.,), si rigetta H

Sommario dei test presentati Tipo di dati Numero di campioni Campioni indipendenti? Test da usare Nominali No McNemar Nominali Fisher s Exact Nominali > No Cochran s Q Ordinali - Komolgorov- Smirnov Ordinali Tukey-Duckworth Ordinali No Wilcoxon (analogo del t-test per campioni non indipendenti) Ordinali Mann-Whitney U (analogo del t-test per campioni indipendenti) Ordinali > Kruskal-Wallis (analogo dell ANOVA a una via) Ordinali > No Friedman (ANOVA a due vie) I test statistici si imparano con la pratica. Quando serve applicarli, ci aiutano i libri ed il software dedicato. Preparare i dati e fare calcoli di base è invece un abilità primaria, la dovete avere sempre con voi. Quindi, saper usare Excel o un altro foglio di calcolo è fondamentale. Excel in un pillola: http://www.salvatorepagano.brianzaest.it/corsi/moduli_fortic/ Excel%Fundamentals%(Antonio%Potenza).htm Una lista di tutorial di base ed avanzati: http://www.salvatorepagano.brianzaest.it/corsi/sommario.htm N.B. Ben fatti quelli del Ministero del Tesoro in formato PDF