Corso di Psicometria Progredito

Documenti analoghi
Corso di Psicometria Progredito

Confronto tra due popolazioni Lezione 6

Esercizi di statistica

Corso di Psicometria Progredito

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

Questo calcolo richiede che si conoscano media e deviazione standard della popolazione.

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. La distribuzione t - student

Test d ipotesi: confronto fra medie

Test per una media - varianza nota

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI

Elementi di Psicometria con Laboratorio di SPSS 1

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

Corso di Statistica Esercitazione 1.8

Corso di Psicometria Progredito

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

La verifica delle ipotesi

Statistica Inferenziale

Esercizi di Probabilità e Statistica

Esercitazione 8 maggio 2014

Analisi della varianza

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 4

SOLUZIONI ESERCITAZIONE NR. 8 Test statistici

Casa dello Studente. Casa dello Studente

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

Lezione 17. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 17. A. Iodice

Distribuzioni campionarie

Esercitazione 8 del corso di Statistica 2

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 5

Simulazione di esercizi su test di significatività e 95%CI

a) Usando i seguenti livelli di significatività, procedere alla verifica di ipotesi, usando come ipotesi alternativa un'ipotesi unidirezionale:

Test delle Ipotesi Parte I

Approssimazione normale alla distribuzione binomiale

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

tabelle grafici misure di

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)

Lezione VII: t-test. Prof. Enzo Ballone

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

b) E necessario formulare delle ipotesi per calcolare l intervallo di confidenza ottenuto al punto a? (motivare brevemente la risposta):

Distribuzione Gaussiana - Facciamo un riassunto -

Università degli Studi di Padova. Corso di Laurea in Medicina e Chirurgia - A.A

LEZIONI DI STATISTICA MEDICA

STATISTICA ESERCITAZIONE 13

Elementi di Psicometria con Laboratorio di SPSS 1

Dispensa di Statistica

Prova Scritta di METODI STATISTICI PER L AMMINISTRAZIONE DELLE IMPRESE (Milano, )

ESAME. 9 Gennaio 2017 COMPITO B

Contenuti: Capitolo 14 del libro di testo

Corso di Psicometria Progredito

Caratterizzazione dei consumi energetici (parte 3)

Università del Piemonte Orientale. Corsi di laurea di area tecnica. Corso di Statistica Medica. Analisi dei dati quantitativi :

Statistica Inferenziale

Test d Ipotesi Introduzione

Esercizio 1. Stima intervallare: IC per la media incognita (varianza ignota)

05. Errore campionario e numerosità campionaria

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Schema lezione 5 Intervalli di confidenza

Analisi della varianza

Fondamenti di Psicometria. La statistica è facile!!! VERIFICA DELLE IPOTESI

Quanti soggetti devono essere selezionati?

STATISTICA A K (60 ore)

Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo

Corso di Psicometria Progredito

Intervalli di confidenza

Distribuzioni e inferenza statistica

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

Proprietà della varianza

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

X Lezione Analisi della varianza Esempi e esercizi CPS - Corso di studi in Informatica II parte: Statistica

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

STATISTICA ESERCITAZIONE

Corso di Psicometria Progredito

SOLUZIONE. a) Calcoliamo il valore medio delle 10 misure effettuate (media campionaria):

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

Elementi di Probabilità e Statistica

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Statistica Metodologica

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson Apogeo

Statistica Inferenziale

1 Esercizi per l esame finale

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson. Casa editrice: Pearson

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

Gli errori nella verifica delle ipotesi

Un esempio. Ipotesi statistica: supposizione riguardante: un parametro della popolazione. la forma della distribuzione della popolazione

Ulteriori applicazioni del test del Chi-quadrato (χ 2 )

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Dal disegno a due campioni indipendenti al confronto per dati appaiati

Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.

STATISTICA A K (60 ore)

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Esercizi riassuntivi di Inferenza

Statistica4-29/09/2015

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

Statistica Inferenziale

Statistica. Lezione 4

Test per l omogeneità delle varianze

Note sulla probabilità

Argomenti della lezione:

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

Corso di Psicometria Progredito

Transcript:

Corso di Psicometria Progredito 4.1 I principali test statistici per la verifica di ipotesi: Il test t Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014

Sommario 1 Introduzione 2 Test t a campione unico 3 Test t per dati appaiati 4 Test t per campioni indipendenti

E se la varianza è ignota? Fino ad ora abbiamo considerato dei problemi di inferenza statistica in cui la varianza della popolazione da cui è estratto il campione è nota. E se la varianza della popolazione non fosse nota (caso assai frequente nella pratica)? Potremmo sostituire una stima della varianza. Ma si è visto che in questo caso, ed in particolare quando la numerosità campionaria è ridotta, la statistica test sotto H 0 non si distribuisce esattamente come una normale. Per fortuna uno statistico birraio, nei primi del novecento, ha risolto il problema...

William Sealy Gosset e la distribuzione t di student Nei primi del 900 lo statistico William Sealy Gosset, che lavorava presso una fabbrica di birra Guinnes a Dublino, risolse il problema proponendo la distribuzione t di Student. Tale distribuzione è simmetrica ed ha la forma di una campana, ma rispetto alla normale è caratterizzata da code contenenti una maggiore probabilità. Gosset pubblicò i suoi risultati in un articolo passato alla storia nel 1908. La direzione della Guinnes non permetteva però ai suoi dipendenti di pubblicare risultati relativi a esperimenti fatti nei propri laboratori... e così Gosset fu costretto ad usare lo pseudonimo di Student.

t di Student vs. Normale Densità 0.0 0.1 0.2 0.3 0.4 t con 1 grado di libertà t con 2 gradi di libertà t con 5 gradi di libertà t con 10 gradi di libertà t con 20 gradi di libertà normale -3-2 -1 0 1 2 3 quantili

t di Student, gradi di libertà e Normale I gradi di libertà (degrees of freedom) sono un parametro che definisce la distribuzione t. Esso dipende dalla numerosità campionaria e dalla statistica test utilizzata. Ad esempio nel caso del test t per la verifica di ipotesi sulla media di una popolazione con varianza ignota, i gradi di libertà della statistica test sono pari alla numerosità campionaria meno uno (n 1). Osservando il grafico precedente si può notare che al crescere della numerosità e quindi dei gradi di libertà la distribuzione t e la distribuzione normale tendono a coincidere. In particolare per n > 100 le due distribuzioni si possono considerare praticamente uguali.

Varie tipologie di test t Nel corso della lezione vedremo, attraverso degli esempi, diverse applicazioni della distribuzione t di Student: Test t a campione unico, per la verifica di ipotesi sulla media della popolazione nel caso di varianza ignota. Test t per dati appaiati, per il confronto tra le medie di due campioni dipendenti. Test t per campioni indipendenti, per il confronto tra le medie di due campioni indipendenti.

La stima della varianza della popolazione Nei casi di verifica di ipotesi in cui la varianza della popolazione è ignota, si ricorre ad una stima di tale varianza basata sui dati campionari. In questi casi utilizzare la formula per il calcolo della varianza studiata nell ambito delle statistiche descrittive porta ad una sottostima della varianza della popolazione. Si utilizzerà quindi uno stimatore non distorto della varianza della popolazione, detto varianza campionaria: n s 2 i = (X i X) 2 n 1 Naturalmente la deviazione standard campionaria sarà: s = s 2

Le bottigliette di birra In uno stabilimento di birra, una macchina ha il compito di versare 33 cl di birra in ogni bottiglietta prodotta. Il Direttore ha però il sospetto che la macchina non funzioni correttamente. Per verificare tale ipotesi il Direttore misura con uno strumento ad alta precisione 8 riempimenti effettuati dalla macchina selezionandoli in maniera casuale. I risultati ottenuti sono i seguenti: 33 ; 35 ; 37 ; 33 ; 30 ; 38 ; 34 ; 32 Verificare ad un livello di significatività del 5% (α = 0.05), se l eventuale guasto ha prodotto un aumento della quantità di birra versata dalla macchina.

Alcune considerazioni L esercizio chiede di verificare un ipotesi monodirezionale sulla media della popolazione. Rispetto agli esempi visti in precedenza però, la varianza della popolazione è ignota. Procederemo quindi stimando la varianza della popolazione sulla base dei dati campionari e utilizzando il cosiddetto test t a campione unico.

1. La costruzione del sistema di Verifica di Ipotesi { H0 : µ = 33 H 1 : µ > 33

2. Calcolo del valore osservato della statistica test Nel caso di test t a campione unico la statistica test da utilizzare è la seguente: dove: t OSS = X µ X ( ) s n X è la media campionaria delle osservazioni µ è la media nella popolazione se vale H 0 s è la deviazione standard campionaria delle osservazioni n la numerosità campionaria Dalla teoria sappiamo che se vale H 0 la statistica test si distribuisce come una t di Student con n 1 gradi di libertà.

2. Calcolo del valore osservato della statistica test: Aspetti computazionali Calcoliamo la media e la deviazione standard campionaria dei dati: X = n i=1 X i n = 34 s = n i (X i X) 2 n 1 = 2.619

2. Calcolo del valore osservato della statistica test t OSS = X µ X ( ) = s n 34 33 ( 2.619 8 ) = 1.080

3. Confronto tra valore osservato e valore critico Per prima cosa determiniamo il valore critico del test per un livello di significatività critico pari a α =.05 Essendo il test monodirezionale dovremo cercare sulle tavole statistiche il quantile della distribuzione t di Student con n 1, nel nostro caso 8-1 = 7, gradi di libertà che lascia destra della distribuzione un area totale di.05.

3. Confronto tra valore osservato e valore critico Distribuzione t di Student con 7 gradi di libertà Densità 0.0 0.1 0.2 0.3 0.4 0.5 Non Posso Rifiutare Ipotesi Nulla Rifiuto Ipotesi Nulla α = 0.05 0 t OSS = 1.08 t CRIT = 1.895 t

3-4. Confronto tra valore osservato e valore critico e decisione finale Dall analisi condotta emerge che il valore osservato della statistica test è inferiore al valore critico. L ipotesi nulla che afferma che la media dei riempimenti effettuati dalla macchina è pari a 33 cl non può essere rifiutata per un livello di significatività pari al 5%.... in sostanza, dal punto di vista statistico i dati non supportano la sensazione del Direttore.

Il battito cardiaco prima e dopo un esame Nella seguente tabella sono riportati i battiti cardiaci al minuto di 10 studenti, rilevati prima e dopo che gli studenti hanno saputo di dover affrontare un compito di latino a sorpresa. Codice studente Battiti - Prima Battiti -Dopo 1 60 67 2 66 75 3 73 68 4 62 62 5 74 89 6 63 74 7 64 62 8 65 73 9 71 76 10 72 84 Verificare ad un livello di significatività del 5% (α = 0.05), se in media i battiti cardiaci sono cambiati tra le due rilevazioni.

Alcune considerazioni Considerando che le rilevazioni effettuate si riferiscono agli stessi soggetti, si può parlare di osservazioni dipendenti o di dati appaiati. In ogni coppia di valori rilevati prima e dopo la notizia del compito a sorpresa, le osservazioni non sono indipendenti ma si riferiscono allo stessa unità statistica (il soggetto). In questi casi, quando cioè le osservazioni non sono indipendenti, il test statistico da utilizzare è il test t per dati appaiati.

1. La costruzione del sistema di Verifica di Ipotesi { H0 : µ D = 0 H 1 : µ D 0 Dove µ D e la media delle differenze individuali tra prima e dopo la notizia del compito nella popolazione da cui è estratto il campione.

2. Calcolo del valore osservato della statistica test Nel caso di test t per dati appaiati la statistica test da utilizzare è la seguente: dove: t OSS = D µ D ( ) sd n D è la media campionaria delle differenze individuali tra prima e dopo µ è la media nella popolazione delle differenze individuali tra prima e dopo se vale H 0 s D è la deviazione standard campionaria delle differenze individuali tra prima e dopo n la numerosità campionaria Dalla teoria sappiamo che se vale H 0 la statistica test si distribuisce come una t di student con n 1 gradi di libertà.

2. Calcolo del valore osservato della statistica test: Aspetti computazionali Codice studente Battiti - Prima (X 1) Battiti -Dopo (X 2) D = X 2 X 1 1 60 67 7 2 66 75 9 3 73 68-5 4 62 62 0 5 74 89 15 6 63 74 11 7 64 62-2 8 65 73 8 9 71 76 5 10 72 84 12 Da cui segue che: D = n i=1 D i n = 6 s D = n i (D i D) 2 n 1 = 6.481

2. Calcolo del valore osservato della statistica test t OSS = D µ D ( ) = ( 6 0 ) = 2.928 sd 6.481 n 10

3. Confronto tra valore osservato e valore critico Per prima cosa determiniamo il valore critico del test per un livello di significatività critico pari a α =.05 Essendo il test bidirezionale dovremo cercare sulle tavole statistiche i quantili della distribuzione t di Student con n 1, nel nostro caso 10 1 = 9, gradi di libertà che lasciano sulle code di sinistra e destra della distribuzione un area totale di.05. Essendo la distribuzione t simmetrica, ci basterà trovare il quantile positivo che lascia a destra un area di probabilità pari a α/2 =.025. Il quantile negativo sarà pari al quantile positivo moltiplicato per -1.

3. Confronto tra valore osservato e valore critico Distribuzione t di Student con 9 gradi di libertà Densità 0.0 0.1 0.2 0.3 0.4 0.5 Rifiuto Ipotesi Nulla α 2 = 0.025 Non Posso Rifiutare Ipotesi Nulla α Rifiuto Ipotesi Nulla 2 = 0.025 t CRIT = 2.262 0 t CRIT = 2.262 t OSS = 2.928 t

3-4. Confronto tra valore osservato e valore critico e decisione finale Dall analisi condotta emerge che il valore osservato della statistica test non è compreso tra i valori critici. L ipotesi nulla che afferma che la media delle differenze individuali tra i battiti cardiaci rilevati prima e dopo la notizia del compito a sorpresa è pari a 0, può essere rifiutata per un livello di significatività pari al 5%.... in sostanza, la notizia del compito a sorpresa ha fatto cambiare in maniera statisticamente significativa il numero di battiti cardiaci dei soggetti.

Le cavie nel labirinto In un laboratorio di ricerca vengono costruiti due labirinti: labirinto A e labirinto B. A un gruppo di 6 cavie (gruppo A) viene fatto percorrere il labirinto A e ad un gruppo di altre 6 cavie (gruppo B) il labirinto B. Alla fine dell esperimento per ciascuna cavia viene rilevato il tempo impiegato in secondi per uscire dal labirinto. I dati ottenuti sono: Gruppo A Gruppo B 16 20 18 21 22 15 22 19 21 19 21 20 Ipotizzando che le varianze dei due gruppi siano omogenee, verificare ad un livello di significatività del 5% (α =.05) se i due labirinti presentano una diversa difficoltà.

Alcune considerazioni Considerando che le rilevazioni effettuate provengono da due gruppi che non presentano legami di dipendenza, per verificare l ipotesi di ricerca, utilizzeremo il test t per campioni indipendenti. Per utilizzare tale test le varianze dei gruppi devono poter essere considerate omogenee, in caso contrario esiste una versione del t test per campioni indipendenti (test t con correzione di Welch) che tiene conto della disomogeneità delle varianze. Dal punto di vista didattico, per semplicità, ipotizzeremo sempre l omogeneità delle varianze. Dal punto di vista applicativo tuttavia è bene far presente che la maggior parte dei software statistici permette di valutare l omogeneità delle varianze e in caso di disomogeneità di utilizzare la versione di Welch del test t per campioni indipendenti.

1. La costruzione del sistema di Verifica di Ipotesi { H0 : µ a µ b = 0 H 1 : µ a µ b 0 L ipotesi nulla prevede che la differenza tra le medie delle due popolazioni da cui sono stati estratti i campioni sia pari a 0. In pratica ciò significa che se vale H 0 i due campioni provengono da una popolazione con media comune.

2. Calcolo del valore osservato della statistica test Nel caso di test t per campioni indipendenti la statistica test da utilizzare è la seguente: ( ) Xa X b (µa µ b ) t OSS = na + n b s ab n a n b dove: s ab è la deviazione standard campionaria combinata (pooled) (n a 1)sa 2 + (n b 1)sb 2 s ab = n a + n b 2 X a X b è la differenza delle medie campionarie µ a µ b è la differenza delle medie delle popolazioni sotto H 0 s 2 a e s 2 b sono le varianze campionarie dei due campioni n a e n b sono le numerosità dei due campioni

2. Calcolo del valore osservato della statistica test: Distribuzione della statistica test Nel caso di test t per campioni indipendenti la statistica test si distribuisce sotto H 0 come una t di student con n a + n b 2 (6 + 6 2 = 10, nel nostro caso) gradi di libertà.

2. Calcolo del valore osservato della statistica test: Aspetti computazionali X a = 20 X b = 19 s 2 a = 6 s 2 b = 4.4 s ab = 2.280

2. Calcolo del valore osservato della statistica test t OSS = ( Xa X b ) (µa µ b ) s ab na + n b n a n b = (20 19) (0) = 0.760 6 + 6 2.280 6 6

3. Confronto tra valore osservato e valore critico Per prima cosa determiniamo il valore critico del test per un livello di significatività critico pari a α =.05 Essendo il test bidirezionale dovremo cercare sulle tavole statistiche i quantili della distribuzione t di Student con n a + n b 2 (6 + 6 2 = 10, nel nostro caso) gradi di libertà che lasciano sulle code di sinistra e destra della distribuzione un area totale di.05. Essendo la distribuzione t simmetrica, ci basterà trovare il quantile positivo che lascia a destra un area di probabilità pari a α/2 =.025. Il quantile negativo sarà pari al quantile positivo moltiplicato per -1.

3. Confronto tra valore osservato e valore critico Distribuzione t di Student con 10 gradi di libertà Densità 0.0 0.1 0.2 0.3 0.4 0.5 Rifiuto Ipotesi Nulla α 2 = 0.025 Non Posso Rifiutare Ipotesi Nulla Rifiuto Ipotesi Nulla α 2 = 0.025 t CRIT = 2.228 0 t OSS = 0.76 t CRIT = 2.228 t

3-4. Confronto tra valore osservato e valore critico e decisione finale Dall analisi condotta emerge che il valore osservato della statistica test è compreso tra i valori critici. L ipotesi nulla che afferma che i tempi impiegati dalle cavie per uscire dai labirinti provengano da una popolazione con una media comune, non può essere rifiutata per un livello di significatività pari al 5%.... in sostanza, i dati non supportano dal punto di vista statistico delle differenze, in termini di tempo impiegato per uscire, tra i due labirinti.