Corso di Psicometria Progredito

Documenti analoghi
Corso di Psicometria Progredito

DIPENDENZA E ASSOCIAZIONE DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI. Ci limiteremo a considerare il caso di due variabili.

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Analisi congiunta di più fenomeni

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

L affondamento del Titanic

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Statistica. Lezione 8

Analisi della varianza a una via

Esercitazioni del corso: STATISTICA

Statistica dei consumi alimentari e delle tendenze nutrizionali Lezione 6-16/10/2015

Ulteriori applicazioni del test del Chi-quadrato (χ 2 )

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

La dipendenza. Antonello Maruotti

Casa dello Studente. Casa dello Studente

A proposito di valutazione scolastica

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Capitolo 11 Test chi-quadro

Analisi della varianza

Metodi statistici per le ricerche di mercato

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

Corso di Psicometria Progredito

ˆp(1 ˆp) n 1 +n 2 totale di successi considerando i due gruppi come fossero uno solo e si costruisce z come segue ˆp 1 ˆp 2. n 1

NOZIONI DI CALCOLO DELLE PROBABILITÀ

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Inferenza statistica

Corso di Psicometria Progredito

Americani Inglesi Firenze Roma Provare l ipotesi che la nazionalità non influisca sulla scelta della meta.

Esercitazione 8 maggio 2014

STATISTICA DESCRITTIVA BIVARIATA

Esercitazioni di statistica

Corso di Psicometria Progredito

Statistica Compito A

Esercitazioni del corso: RELAZIONI TRA VARIABILI

Facoltà di Economia - Università di Pavia Simulazione Prova Scritta di Statistica Sociale 19 dicembre 2012

Matricola: Corso: 1. (4 Punti) Stimare la variazione del reddito quando il prezzo del prodotto finale raddoppia.

Esercitazione 8 del corso di Statistica 2

Analisi delle corrispondenze

Distribuzioni campionarie. Antonello Maruotti

STATISTICA: esercizi svolti sulla DIPENDENZA IN MEDIA

Generazione di Numeri Casuali- Parte 2

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Statistica bivariata: il problema della dipendenza

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Esercitazione di Statistica Indici di associazione

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

STATISTICA DESCRITTIVA (canale B)

Distribuzione di frequenza e rappresentazioni grafiche

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

Il χ 2 (Pearson, 1900)

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Elementi di Psicometria con Laboratorio di SPSS 1

Premessa: la dipendenza in media

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

REGRESSIONE E CORRELAZIONE

Ulteriori Conoscenze di Informatica e Statistica

Laboratorio di Probabilità e Statistica

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 15: Metodi non parametrici

ESERCIZIO 1. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con 3 fattori tra i soggetti.

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

STATISTICA (modulo I - Statistica Descrittiva) Soluzione Esercitazione I

Statistica Analisi bidimensionale La dipendenza in media. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Indice. 1. Premessa Le relazioni tra coppie di caratteri L analisi della contingenza L analisi della correlazione...

Esercizio 1 Nella seguente tabella sono riportate le lunghezze in millimetri di 40 foglie di platano:

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)

Note sulla probabilità

STATISTICA: esercizi svolti sulle VARIABILI CASUALI

R 2 1 j /n j] 3(n+1)

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Test F per la significatività del modello

STATISTICHE DESCRITTIVE Parte II

PROVA SCRITTA DI STATISTICA. cod CLEA-CLAPI-CLEFIN-CLELI cod CLEA-CLAPI-CLEFIN-CLEMIT. 5 Novembre 2003 SOLUZIONI MOD.

Esame di Istituzioni di Matematiche II del 11 luglio 2001 (Corso di Laurea in Biotecnologie, Universitá degli Studi di Padova). Cognome Nome Matricola

Il test (o i test) del Chi-quadrato ( 2 )

Elementi di Psicometria

Istituzioni di Statistica 1 Esercizi su tabelle di contingenza

Applicazioni statistiche e utilizzo del package statistico Spss - 7

Istituzioni di Statistica e Statistica Economica

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

Variabili casuali multidimensionali

Capitolo uno STATISTICA DESCRITTIVA BIVARIATA

ESERCIZI SULLE MATRICI

COMUNE DI CONSIGLIO DI RUMO

Chi-quadro. sono variabili aleatorie indipendenti con distribuzione allora la variabile aleatoria

Esercizi riassuntivi di Inferenza

COMPLEMENTI DI PROBABILITA E STATISTICA. 3 Crediti

Corso di Psicometria Progredito

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Statistica. Alfonso Iodice D Enza

Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili

si tratta del test del chi-quadro di adattamento e di quello di indipendenza. 1 l ipotesi che la popolazione segua una legge fissata;

Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi

STATISTICA AZIENDALE Modulo Controllo di Qualità

Transcript:

Corso di Psicometria Progredito 43 I principali test statistici per la verifica di ipotesi: Il test del χ 2 per tavole di contingenza a 2 vie Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014

Sommario 1 Il Titanic 2 Il test del χ 2 per tavole di contingenza a 2 vie 3 Altri dati sul Titanic

Il disastro del Titanic Dopo il disastro del Titanic, una commissione d inchiesta del British Board of Trade compilò una lista di tutti i 1316 passeggeri con alcune informazioni aggiuntive riguardanti: l esito (salvato, non salvato), la classe (I, II, III) in cui viaggiavano, il genere, l età: Passeggero Classe Genere Età (anni) Esito nome1 III Maschio 34 non salvato nome2 I Femmina 28 salvato nome1316 II Maschio 10 non salvato

Una prima sintesi dei dati attraverso una tavola di contingenza a 2 vie Alcune domande Esito Classe I II III Totale sopravvissuto 203 118 178 499 non sopravvissuto 122 167 528 817 Totale 325 285 706 1316 Quanti sono i passeggeri sopravvissuti in seconda Classe? Quanti sono i passeggeri in terza Classe? Quanti passeggeri non sono sopravvissuti? Quanti passeggeri c erano sul Titanic? Quali prime interpretazioni si possono dare sui dati raccolti?

Tavole di contingenza a 2 vie: la struttura generale Una tavola (o tabella) di contingenza a 2 vie mostra la distribuzione delle unità statistiche classificate sulla base di 2 variabili Y e X: dove: Y X x 1 x j x c Totale y 1 f 11 f 1j f 1c f 1+ y i f i1 f ij f jc f i+ y r f r1 f rj f rc f r+ Totale f +1 f +j f +c n Y e X sono le due variabili rilevate r è il numero di modalità di Y e c è il numero di modalità di X r è il numero di righe della tavola e c il numero di colonne f ij è la frequenza associata alle unità statistiche che possiedono la modalità i di Y e j di X (riga i, colonnaj) f i+ è il totale della riga i e f +j è il totale della colonna j n è il numero totale di unità statistiche

Notazioni L ultima riga della tabella (indicata con totale) è detta distribuzione marginale di X Nel caso del Titanic essa mostra il numero totale di passeggeri per Classe indipendentemente dal fatto che siano sopravvissuti o meno (Y ) L ultima colonna della tabella (indicata con totale) è detta distribuzione marginale di Y Nel caso del Titanic essa mostra il numero totale di passeggeri sopravvissuti e non sopravvissuti indipendentemente dalla Classe di appartenenza (X) La prima colonna della tabella mostra la distribuzione condizionata di Y alla prima modalità di X La generica distribuzione condizionata di Y si indica con Y X = x j : distribuzione condizionata di Y dato che X = x j La prima riga della tabella mostra la distribuzione condizionata di X alla prima modalità di Y La generica distribuzione condizionata di X si indica con X Y = y i : distribuzione condizionata di X dato che Y = y i Domande: Cosa rappresenta Y X = x 2? e X Y = Y 2?

Frequenze relative globali Esito Classe I II III Totale sopravvissuto 16 09 13 38 non sopravvissuto 09 13 40 62 Totale 25 22 53 1 La generica frequenza relativa globale è: p ij = f ij n Osservando la tabella si può, ad esempio, affermare che il 40% dei passeggeri a bordo era di terza classe e non è sopravvissuto

Frequenze relative per riga Esito Classe I II III Totale sopravvissuto 41 23 36 1 non sopravvissuto 15 20 65 1 Totale 25 22 53 1 La generica frequenza relativa condizionata per riga: p x=j y=i = f ij f i+ Osservando la tabella si possono osservare le distribuzioni condizionate della Classe (X) rispetto all Esito (Y) Ad esempio si può affermare che tra tutti i passeggeri non sopravvissuti, il 15% appartiene alla prima Classe, il 20% alla seconda, e il 65% alla terza

Frequenze relative per colonna Esito Classe I II III Totale sopravvissuto 62 41 25 40 non sopravvissuto 38 59 75 60 Totale 1 1 1 1 La generica frequenza relativa condizionata per colonna: p y=i x=j = f ij f +j Osservando la tabella si possono osservare le distribuzioni condizionate dell esito (Y ) rispetto alla Classe (X) Ad esempio si può affermare che tra tutti i passeggeri di prima Classe il 62% è sopravvissuto

Alcune considerazioni Osservando i dati si può notare che mentre in prima Classe la proporzione di sopravvissuti è pari al 62%, in seconda Classe tale proporzione scende al 41%, e in terza Classe addirittura essa è pari al 25% Sembra quindi esistere una associazione tra la Classe di appartenenza e l Esito della tragedia Ma come verificare l esistenza di tale associazione da un punto di vista inferenziale? utilizzando il Test del χ 2 per tavole di contingenza ;-)

I concetti di dipendenza e indipendenza statistica Abbiamo visto che, nel caso del Titanic, la proporzione di sopravvissuti sembra essere associata alla Classe di appartenenza In altre parole, le distribuzioni condizionate relative di Y (Esito) non sono uguali tra loro, ma cambiano a seconda dei livelli di X (Classe) Dal punto di vista statistico ciò equivale a dire che Y dipende in distribuzione da X Se invece le distribuzioni condizionate relative di Y fossero uguali per tutti i tutti i livelli di X (nessuna associazione tra Esito e Classe), si potrebbe affermare dal punto di vista statistico che Y è indipendente in distribuzione da X Nota bene Data una tavola di contingenza sulle variabili Y e X: se Y è indipendente da X, allora anche X è indipendente da Y

Il test del χ 2 Data una tavola di contingenza che esprime la distribuzione campionaria congiunta di due variabili categoriali Y e X, il Test del χ 2 serve a: verificare l ipotesi che Y e X siano tra loro indipendenti

Il test del χ 2 : in sintesi H 0 :{Y e X sono indipendenti} vs H 1 :{Y e X non sono indipendenti} Calcolo delle frequenze attese se vale H 0 Calcolo, attraverso la statistica test del χ 2, della discrepanza tra le frequenze osservate e le frequenze attese Tale statistica assume il valore 0 se tutte le frequenze osservate sono uguali a quelle attese (indipendenza perfetta) e aumenta al crescere degli scarti tra frequenze osservate e attese Dalla teoria sappiamo che, se vale H 0, la statistica test si distribuisce come un χ 2 con gradi di libertà pari al prodotto tra il numero di modalità di Y meno 1 e il numero di modalità di X meno 1 Confronto tra il valore osservato della statistica test (χ 2 OSS ) e il valore critico (χ 2 CRIT )determinato per un livello di significatività α Se il χ 2 OSS è superiore al χ2 CRIT, rifiuto H 0

La distribuzione χ 2 Distribuzione del Chi-quadro al variare dei gradi di libertà Densità 00 02 04 06 08 10 gradi di libertà = 1 gradi di libertà = 2 gradi di libertà = 3 gradi di libertà = 5 gradi di libertà = 10 0 5 10 15 χ 2 Nota Bene: Come la distribuzione F anche la distribuzione χ 2 è definita solo per valori (quantili) positivi

Esempio: Riprendiamo i dati del Titanic Esito Classe I II III Totale sopravvissuto 203 118 178 499 non sopravvissuto 122 167 528 817 Totale 325 285 706 1316 Verificare ad un livello di significatività del 5% se esiste associazione tra il l Esito (Y ) e la Classe di appartenenza(x) Commentare i risultati ottenuti

1 La costruzione del sistema di Verifica di Ipotesi { H0 : Esito e Classe sono indipendenti in distribuzione H 1 : Esito e Classe non sono indipendenti in distribuzione

21 Il calcolo delle frequenze attese La generica frequenza attesa, nell ipotesi di indipendenza, f ij associata alla frequenza osservata f ij è data da: f ij = f i+f +j n Utilizzando tale formula si può costruire la tabella delle frequenze attese, nell ipotesi di indipendenza, tenendo fisse le distribuzioni marginali delle variabili Y e X

21 Il calcolo delle frequenze attese Nel caso del Titanic avremo: f11 499 325 = = 123 f 499 285 12 = = 108 f 499 706 13 = = 268 1316 1316 1316 f21 817 325 = = 202 f 817 285 22 = = 177 f 817 706 23 = = 438 1316 1316 1316

22 La tabella delle frequenze attese Esito Classe I II III Totale sopravvissuto 123 108 268 499 non sopravvissuto 202 177 438 817 Totale 325 285 706 1316 Piccolo esercizio Verificare che le distribuzioni condizionate relative dell Esito sono uguali per tutte le Classi Verificare che le distribuzioni condizionate relative della Classe sono uguali per tutti gli Esiti

3 Il calcolo del valore osservato della statistica test χ 2 OSS = r i=1 j=1 ( c f ij fij f ij ) 2 = (203 123)2 123 + + (528 438)2 438 = 133

3-4 Confronto tra valore osservato e valore critico e decisione finale Dall analisi condotta emerge che il valore osservato della statistica test è superiore al valore critico: χ 2 OSS = 133 > χ2 CRIT (2) = 5991 dove (2) indica i gradi di libertà L ipotesi nulla che prevede l indipendenza delle due variabili osservate deve essere rifiutata ad un livello di significatività del 5% in sostanza, esiste un associazione statisticamente significativa tra la Classe di appartenenza e l Esito della tragedia

La legge del mare: Prima le donne e i bambini Esercizio Potrebbe venire il dubbio che la preferenza accordata alla prima classe sia dipesa dal fatto che in prima classe viaggiava un numero più elevato di donne e di bambini e quindi che quello che abbiamo osservato era semplicemente una manifestazione del precetto, consueto in mare, prima le donne e i bambini La seguente tabella si riferisce solo alle donne e ai bimbi presenti a bordo del Titanic Esito Classe I II III sopravvissuto 146 105 103 non sopravvissuto 4 13 141 Calcolare le distribuzioni condizionate relative dell Esisto rispetto alla Classe e commentare i risultati Verificare per α = 05 se esiste associazione tra Esito e Classe Interpretare i risultati ottenuti!

Riferimenti bibliografici Masarotto, G (2001) Statistica Descrittiva (lucidi aa 2001-2002) Facoltà di Scienze Statistiche, Università di Padova