CAPITOLO III CONFRONTI TRA DISTRIBUZIONI



Похожие документы
STATISTICA IX lezione

Test statistici di verifica di ipotesi

Statistica. Lezione 6

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Capitolo 11 Test chi-quadro

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Corso di. Dott.ssa Donatella Cocca

L Analisi della Varianza ANOVA (ANalysis Of VAriance)


Il concetto di valore medio in generale

Elementi di Psicometria con Laboratorio di SPSS 1

VERIFICA DELLE IPOTESI

Inferenza statistica. Statistica medica 1

ANALISI DELLE FREQUENZE: IL TEST CHI 2

1. Distribuzioni campionarie

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Elementi di Psicometria con Laboratorio di SPSS 1

Statistiche campionarie

Capitolo 12 La regressione lineare semplice

Prova di autovalutazione Prof. Roberta Siciliano

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

IL TEST CHI QUADRATO χ 2

Titolo della lezione. Analisi dell associazione tra due caratteri: indipendenza e dipendenza

La trasmissione dei caratteri ereditari. Le leggi di Mendel ( )

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

CAPITOLO 10 I SINDACATI

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

Metodi statistici per le ricerche di mercato

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Analisi di dati di frequenza

Facciamo qualche precisazione

Le leggi di Mendel esposte in modo ragionato e critico di Luciano Porta

LA CORRELAZIONE LINEARE

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

Corso di Psicometria Progredito

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

PROBABILITA MISURARE L INCERTEZZA Lanciamo due dadi, facciamo la somma dei punteggi ottenuti. Su quale numero mi conviene scommettere?

Calcolo delle probabilità

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Elementi di Psicometria con Laboratorio di SPSS 1

SISTEMI DI NUMERAZIONE E CODICI

Analisi dei residui. Test Esatto di Fisher. Differenza fra proporzioni

La logica statistica della verifica (test) delle ipotesi

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr.

LE LEGGI DI MENDEL

Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica. Indici di Affidabilità

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELLA ROLE Six Sigma Master Black Belt

è decidere sulla verità o falsità

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

3. Confronto tra medie di due campioni indipendenti o appaiati

RAPPRESENTAZIONE DEI DATI

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

Il campionamento statistico

Onestà di un dado. Relazione sperimentale

Capitolo 25: Lo scambio nel mercato delle assicurazioni

CORSO INTEGRATO DI GENETICA

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

Il test del Chi-quadrato

Laboratorio di Pedagogia Sperimentale. Indice

PROGETTO INDAGINE DI OPINIONE SUL PROCESSO DI FUSIONE DEI COMUNI NEL PRIMIERO

LEZIONE n. 5 (a cura di Antonio Di Marco)

Il confronto fra proporzioni

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

ELEMENTI DI DEMOGRAFIA

Concetto di potenza statistica

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

come nasce una ricerca

Genetica. Mendel e la genetica

VALORE DELLE MERCI SEQUESTRATE

Più processori uguale più velocità?

UNA LEZIONE SUI NUMERI PRIMI: NASCE LA RITABELLA

Temi di Esame a.a Statistica - CLEF

Il coefficiente di correlazione di Spearman per ranghi

E naturale chiedersi alcune cose sulla media campionaria x n

Slide Cerbara parte1 5. Le distribuzioni teoriche

Un gioco con tre dadi

11. Analisi statistica degli eventi idrologici estremi

Esercizio 1 Dato il gioco ({1, 2, 3}, v) con v funzione caratteristica tale che:

LE FUNZIONI A DUE VARIABILI

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

Capitolo 25: Lo scambio nel mercato delle assicurazioni

IL COLLAUDO DI ACCETTAZIONE

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

Le strategie mendeliane

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

SPC e distribuzione normale con Access

IL RISCHIO D IMPRESA ED IL RISCHIO FINANZIARIO. LA RELAZIONE RISCHIO-RENDIMENTO ED IL COSTO DEL CAPITALE.

FONDAMENTI DI PSICOMETRIA - 8 CFU

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

matematica probabilmente

Misure finanziarie del rendimento: il Van

Capitolo 2 Distribuzioni di frequenza

Statistica inferenziale

Misure finanziarie del rendimento: il Van

Facoltà di Psicologia Università di Padova Anno Accademico

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

Транскрипт:

CAPITOLO III CONFRONTI TRA DISTRIBUZIONI 3.1 CONFRONTI TRA DISTRIBUZIONI OSSERVATE E DISTRIBUZIONI TEORICHE OD ATTESE. Nella teoria statistica e nella pratica sperimentale, è frequente la necessità di verificare se esiste accordo tra una distribuzione osservata e la corrispondente distribuzione attesa o teorica. Il test viene definito test per la bontà dell adattamento (in inglese, goodness of fit test). Sia per dati qualitativi che possono essere classificati in categorie nominali, sia per dati quantitativi distribuiti in classi di frequenza, nella ricerca ambientale è spesso necessario saggiare la concordanza tra fatto ed ipotesi. E lo scopo per il quale storicamente è stato costruito il test ( g. d. l. ) (chi-quadro o chiquadrato). E un metodo di inferenza statistica che non richiede ipotesi a priori sul tipo e sulle caratteristiche della distribuzione, come invece avviene per la statistica parametrica che fa riferimento alla distribuzione normale. Sono metodi non parametrici (detti anche distribution free), con i quali è possibile stabilire se una serie di dati, raccolti in natura od in laboratorio, è in accordo con una specifica ipotesi sulla loro distribuzione o sulla loro frequenza relativa. Il test ( g. d. l. ) serve anche per in confronto tra o più distribuzioni osservate; in queste condizioni, il suo uso più frequente è per la verifica dell associazione tra le varie modalità di due o più caratteri qualitativi. Risulta particolarmente utile nella fase iniziale dell analisi, quando si ricercano le variabili più significative e le relazioni di associazione tra esse. Per l applicazione di questo tipo di inferenza, le distribuzioni di frequenze osservate delle classi fenotipiche e quelle attese secondo le leggi di Mendel forniscono un esempio classico. Tabella 1 A. Distribuzioni fenotipiche (osservate ed attese) di pisum sativum in alcuni esperimenti di Mendel per un carattere. A Segregazione di un ibrido: Carattere dominante recessivo Totale a) colore del fiore rossi 705 bianchi 4 99 distribuzione attesa (3:1) 696, 3,5 99 b) lunghezza del fusto alte 787 basse 77 1064 distribuzione attesa (3:1) 798 66 1064 c) colore del seme gialli 60 verdi 001 803 distribuzione attesa (3:1) 6017,5 005, 803 d) forma del seme lisci 5474 rugosi 1850 734 distribuzione attesa (3:1) 5493 1831 734 131

Nella loro analisi, si pone il problema di verificare se la distribuzione della progenie degli ibridi rispetta la distribuzione teorica attesa di 3 a 1 per un solo carattere, oppure quella di 9:3:3:1 quando si seguono due caratteri. E evidente che tra distribuzioni osservate e distribuzioni attese non si ha mai una perfetta coincidenza, anche quando si possono constatare valori molto simili. In tutti i casi in cui si fanno prove ripetute per verificare una legge di distribuzione, è quasi impossibile ottenere esattamente i medesimi risultati sperimentali. Tra l altro, mentre ogni classe di una distribuzione osservata è un conteggio ed è sempre formata da numeri interi, una distribuzione attesa segue una legge teorica di ridistribuzione dell ammontare totale ed è spesso formata da classi con numeri frazionali. E ovvio che piccole differenze, accidentali, non sono tali da negare un sostanziale accordo tra osservato ed atteso, mentre grandi differenze lasciano supporre la presenza di fattori differenti da quelli ipotizzati. Il problema statistico è di poter dedurre scientificamente ed in modo universalmente accettato se le differenze sono trascurabili e quindi probabilmente dovute solo al caso (ipotesi nulla, indicata con H 0 ); oppure se sono di dimensioni tali da fare più ragionevolmente supporre una distribuzione realmente diversa da quella attesa (ipotesi alternativa, indicata con H 1 ), anche se le cause sono ignote. L interesse consiste nel trarre conclusioni generali dal singolo esperimento; in altri termini, nel conoscere la probabilità con cui le differenze tra una distribuzione osservata e quella attesa possono riprodursi per caso, in una serie di esperimenti analoghi. Tabella 1 B. Distribuzioni fenotipiche (osservate ed attese) di pisum sativum in un esperimento di Mendel per due caratteri. B Segregazione di un diibrido per colore e forma del seme: Osservati Attesi gialli-lisci 315 9/16 = 31, gialli-rugosi 101 3/16 = 104,5 verdi-lisci 108 3/16 = 104,5 verdi-rugosi 3 1/16 = 34, Totale 556 556,00 13

Per affrontare questo problema di inferenza statistica, si ricorre al test ( g. d. l. ) (chi-quadrato), proposto da Pearson nel 1900, che utilizza non le frequenze relative o percentuali ma le frequenze assolute, con la formula dove: f oss i = frequenza osservata f i att i-esima gdl (...) = n oss att ( fi fi ) = frequenza attesa i-esima g.d.l. = numero di gruppi meno uno e la sommatoria Σ è estesa a tutti i gruppi o a tutte le classi a confronto. i= 1 f att i La distribuzione della densità di probabilità del ( g. d. l. ) dipende dai suoi gradi di libertà o g.d.l. (in inglese, degrees of freedom o d.f.). Conteggiati nel calcolo delle frequenze attese, per definizione i gradi di libertà sono il numero di classi che restano indipendenti, conoscendo il numero totale dei dati. Nell esempio delle classi fenotipiche sono n-1, dove n è il numero di gruppi o classi che si analizzano. Il numero di g.d.l. viene riportato tra parentesi, ai piedi del simbolo: corrisponde al numero di osservazioni indipendenti. Infatti i valori attesi di ogni gruppo, che sono calcolati dal totale ed attribuiti ad ogni gruppo secondo la legge di distribuzione, sono liberi di assumere qualsiasi valore; ma fa eccezione il valore atteso dell ultimo gruppo, la cui frequenza è totalmente determinata dalla differenza tra la somma di tutti i gruppi precedenti, già definiti, ed il totale. Negli esempi fino ad ora presentati, il numero di gradi di libertà corrisponde al numero di gruppi meno uno. Ma quando tra n variabili casuali sussistono k vincoli lineari, cioè relazioni che riducono il numero di osservazioni indipendenti, i gradi di libertà del corrispondente diminuiscono di un numero pari a k. Il numero dei gradi di libertà è determinato dai vincoli, di qualsiasi natura, che esistono fra le frequenze dei vari gruppi. Per esempio, in genetica delle popolazioni le frequenze attese fenotipiche dei gruppi sanguigni A, B, AB e O sono calcolate dalle frequenze relative p, q, ed r (il cui totale è sempre uguale a 1) dei geni I A, I B ed i, mediante lo sviluppo di ( p q r) = 1; pertanto, i 4 gruppi fenotipici attesi, calcolati da 3 frequenze geniche, hanno gradi di libertà. Per la stessa legge, anche i 6 gruppi genotipici (I A I A,I A i, I B I B,I B i, I A I B, ii) hanno gdl. Secondo uno schema valido per tutti i test statistici, il procedimento logico che deve essere seguito nell applicazione del comprende diverse fasi, che possono essere riassunte in 7 passaggi: 1 - stabilire l ipotesi nulla (H 0 ) e l eventuale ipotesi alternativa (H 1 ); 133

- scegliere il test più appropriato per saggiare l ipotesi nulla H 0, secondo le finalità della ricerca e le caratteristiche statistiche dei dati (in questo caso, ovviamente, è il test chi quadrato); 3 - specificare il livello di significatività (i cui criteri saranno discussi nel capitolo 4), l ampiezza del campione e i gradi di libertà; 4 - trovare la distribuzione di campionamento del test statistico nell ipotesi nulla H 0, di norma fornita da tabelle; 5 - stabilire la zona di rifiuto (che negli esercizi di norma sarà prefissata al 5%); 6 - calcolare il valore del test statistico sulla base dei dati sperimentali, stimando il valore di probabilità ad esso associato; 7 - sulla base della probabilità, trarre le conclusioni: se la probabilità risulta superiore a quella prefissata, concludere che non è possibile rifiutare l ipotesi nulla H 0 ; se la probabilità risulta inferiore a quella prefissata, rifiutare l ipotesi nulla e quindi implicitamente accettare l ipotesi alternativa H 1. ESEMPIO 1. Utilizzando i dati sulla segregazione mendeliana della precedente tabella 1B, il calcolo del è semplice: = ( 315 31, ) ( 101 104, 5) ( 108 104, 5) ( 3 34, ) 31, 104, 5 104, 5 34, ( 5, ) ( 35, ) ( 3, ) (, ) = = 047, 31, 104, 5 104, 5 34, Con l aiuto delle tavole, è possibile stimare con precisione la probabilità di trovare differenze uguali o superiori a quelle riscontrate tra distribuzione osservata e distribuzione attesa, nell ipotesi nulla (H 0 ) che le differenze siano dovute esclusivamente a fattori casuali. Nella tavola a entrate della distribuzione dei valori critici del per 3 gradi di libertà (indicato sulla riga) e per probabilità 0.05 (indicato sulla colonna), il valore del approssimato alla seconda cifra decimale risulta uguale a 7,81. Il valore calcolato nell esercizio è sensibilmente minore ( (3) = 0,47) di quello tabulato. La probabilità che le differenze siano imputabili solo al caso è alta, superiore al valore prefissato del 5%; di conseguenza, non si può rifiutare l ipotesi nulla, secondo la quale le differenze riscontrate tra distribuzione osservata e distribuzione attesa sono dovute esclusivamente a fattori casuali. Si afferma che le differenze tra distribuzione osservata e distribuzione attesa non sono significative. Per la comprensione dell inferenza statistica con il test chi quadrato, è utile ricordare che quanto più le differenze tra osservato ed atteso sono grandi, tanto più il valore del sarà elevato; di conseguenza, la probabilità che tali differenze siano dovute solo al caso sarà bassa e si rifiuterà l ipotesi nulla, accettando implicitamente l ipotesi alternativa H 1. Al contrario, 134

quando le differenze tra osservato ed atteso sono ridotte, ugualmente basso sarà il valore del ; pertanto, sarà elevata la probabilità che esse siano imputabili esclusivamente al caso e si accetterà l ipotesi nulla H 0. ESEMPIO. In una popolazione di Mixodiaptomus Kupelwieseri (Copepode, Calanoide) di pozza temporanea (Lagastro - Val d Aveto) sono state osservate le seguenti frequenze di 4 alleli del locus MPI (Mannoso fosfato isomerasi) tipo di allele frequenza osservata allele 1 6 allele 38 allele 3 6 allele 4 118 Totale 44 Le differenze riscontrate fra le frequenze dei vari alleli possono essere imputate al caso (H 0 ) oppure è possibile pensare ragionevolmente che esistano uno o più fattori che li rendono effettivamente differenti (H 1 )? Risposta. Se fosse vera l ipotesi nulla espressa (equidistribuzione delle frequenze), la frequenza attesa per ogni allele sarebbe 44/4 = 61. Il valore del chi quadrato con 3 gradi di libertà per saggiare tale ipotesi risulta uguale a 8,03: ( 6 61) ( 38 61) ( 6 61) ( 118 61) = 61 61 61 61 15 59 1 349 = = 8, 03 61 61 61 61 Consultando la tabella del chi-quadrato per 3 gradi di libertà, alla probabilità 0.05 corrisponde un valore di 7,8 mentre alla probabilità 0.01 corrisponde un valore critico di 11,34 e alla probabilità 0.001 un valore critico di 16,7. Il valore del chi quadrato calcolato sui dati sperimentali è molto più grande. La probabilità che le differenze (tra le frequenza riscontrate e quella attesa secondo l ipotesi nulla) siano imputabili esclusivamente al caso è molto piccola, inferiore non solo al 5% ma addirittura al 0,1%; di conseguenza, si rifiuta l ipotesi nulla e si accetta l ipotesi alternativa. Con probabilità inferiore a 0,1% di commettere un errore, si può sostenere che i 4 alleli hanno frequenze tra loro molto differenti. 135