Il test del Chi-quadrato



Похожие документы
STATISTICA IX lezione

Elementi di Psicometria

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Capitolo 11 Test chi-quadro

Test statistici di verifica di ipotesi

Analisi di dati di frequenza

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

IL TEST CHI QUADRATO χ 2

Titolo della lezione. Analisi dell associazione tra due caratteri: indipendenza e dipendenza

Inferenza statistica. Statistica medica 1

Statistiche campionarie

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Concetto di potenza statistica

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Elementi di Psicometria con Laboratorio di SPSS 1

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

1 Probabilità condizionata

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

Dipendenza tra caratteri: connessione. N:B: Si tratta di coppie di caratteri sia qualitativi

L espressione torna invece sempre vera (quindi la soluzione originale) se cambiamo contemporaneamente il verso: 1 < 0.

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

Statistica. Lezione 6

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

Esercizi di Calcolo delle Probabilità con Elementi di Statistica Matematica

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Capitolo 2 Distribuzioni di frequenza

Verifica di ipotesi

è decidere sulla verità o falsità

Lezione 6: Forma di distribuzione Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Analisi dei residui. Test Esatto di Fisher. Differenza fra proporzioni

STATISTICA INFERENZIALE

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Il confronto fra proporzioni

Statistica. Alfonso Iodice D Enza iodicede@unicas.it

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

PROBABILITA CONDIZIONALE

Metodologia epidemiologica

L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELLA ROLE Six Sigma Master Black Belt

Inferenza statistica I Alcuni esercizi. Stefano Tonellato

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

La significatività PROVE DI SIGNIFICATIVITA PROVE DI SIGNIFICATIVITA PROVE DI SIGNIFICATIVITA

LEZIONE 23. Esempio Si consideri la matrice (si veda l Esempio ) A =

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

3. Confronto tra medie di due campioni indipendenti o appaiati

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Appunti di Statistica Descrittiva

Capitolo 4 Probabilità

Istituzioni di Statistica e Statistica Economica

Misure finanziarie del rendimento: il Van

FONDAMENTI DI PSICOMETRIA - 8 CFU

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

Dott.ssa Caterina Gurrieri

Dimensione di uno Spazio vettoriale

REGOLAMENTO DI VALUTAZIONE DEL PERSONALE DIPENDENTE

E naturale chiedersi alcune cose sulla media campionaria x n

CONCETTO DI ANNIDAMENTO

Esercitazione n.2 Inferenza su medie

T DI STUDENT Quando si vogliono confrontare solo due medie, si può utilizzare il test t di Student La formula per calcolare il t è la seguente:

Excel Terza parte. Excel 2003

Economia Applicata ai sistemi produttivi Lezione II Maria Luisa Venuta 1

CAPITOLO III CONFRONTI TRA DISTRIBUZIONI

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

Misure finanziarie del rendimento: il Van

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Appunti sulla Macchina di Turing. Macchina di Turing

Tema A Se due eventi A e B sono indipendenti e tali che P (A) = 1/2 e P (B) = 2/3, si può certamente concludere che

Elementi di Psicometria con Laboratorio di SPSS 1

1. Distribuzioni campionarie

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

ELEMENTI DI STATISTICA

VERIFICA DELLE IPOTESI

Matematica generale CTF

Capitolo 12 La regressione lineare semplice

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità C


Sistemi Operativi mod. B. Sistemi Operativi mod. B A B C A B C P P P P P P < P 1, >

Lezione n. 2 (a cura di Chiara Rossi)

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

Ricerca di outlier. Ricerca di Anomalie/Outlier

Relazioni statistiche: regressione e correlazione

Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica. Indici di Affidabilità

Si considerino gli eventi A = nessuno studente ha superato l esame e B = nessuno studente maschio ha superato l esame. Allora A c B è uguale a:

SVM. Veronica Piccialli. Roma 11 gennaio Università degli Studi di Roma Tor Vergata 1 / 14

CORSO DI CALCOLO DELLE PROBABILITÀ E STATISTICA. Esercizi su eventi, previsioni e probabilità condizionate

2.1 Definizione di applicazione lineare. Siano V e W due spazi vettoriali su R. Un applicazione

TEST DI AUTOVALUTAZIONE INTERVALLI DI CONFIDENZA E TEST

LEZIONE n. 5 (a cura di Antonio Di Marco)

VERIFICA DELLE IPOTESI

ANALISI DELLA VARIANZA A PIU CRITERI DI CLASSIFICAZIONE

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Metodi statistici per le ricerche di mercato

Corso di laurea in Scienze Motorie. Corso di Statistica. Docente: Dott.ssa Immacolata Scancarello Lezione 2: Misurazione, tabelle

Il coefficiente di correlazione di Spearman per ranghi

Транскрипт:

Il test del Chi-quadrato Prof.ssa Montomoli- Univ. di Pavia Prof.ssa Zanolin Univ. di Verona Il rischio di contrarre epatite C è associato all avere un tatuaggio? Cosa vuol dire ASSOCIAZIONE tra due variabili? 1

Due variabili sono associate soltanto quando sono correlate tra loro in modo maggiore o minore di quanto si verifichi per solo effetto del caso I tatuaggi devono essere presenti con frequenza maggiore (o minore) nei soggetti con epatite C rispetto ai soggetti senza epatite quindi è necessario studiare anche soggetti senza epatite (controlli) poi confrontarli con i soggetti con epatite ed infine decidere se la differenza tra gruppi può essere dovuta al caso CON UN TEST STATISTICO Se è vero che il caso può influenzare i risultati, come posso dimostrare l'esistenza di associazioni ed essere ragionevolmente sicuro che le differenze osservate non sono dovute al caso? La statistica consente di escludere (con un certo grado di probabilità, ma mai con assoluta certezza) che una eventuale associazione sia dovuta appunto al caso 2

Il rischio di contrarre epatite C è associato all avere un tatuaggio? I dati sono riassunti nella tabella di contingenza Epatite C Si No totale Tatuaggio 25 88 113 No tatuaggio 22 491 513 totale 47 579 626 3

Proporzione di soggetti con epatite 25 20 15 10 5 0 No tatuaggio Tatuaggio Supponi che, in realtà, NON esistano differenze nella frequenza di epatite tra i tatuati e i non tatuati. Che probabilità c'è di osservare - in uno studio di dimensioni simili a questo - differenze nella frequenza di epatite diverse da quelle che hai osservato? La risposta a questa domanda dipende da quanto i dati ottenuti si discostano dai dati che «sarebbe lecito attendersi se la frequenza di epatite C fosse influenzata soltanto dalla variazione casuale». 4

TEST D INDIPENDENZA Le due variabili (epatite e tatuaggio) sono indipendenti? Questa è l IPOTESI NULLA H 0 da verificare Se H 0 è rifiutata: le due variabili NON SONO INDIPENDENTI 1.Si distribuiscono i soggetti nelle celle della tabella 2.Si calcolano le frequenze attese sotto l H 0 che le due variabili siano indipendenti (per ogni cella della tabella) 3.Si paragonano le frequenze attese e le frequenze osservate 4.Si valuta la discrepanza fra frequenze ATTESE e OSSERVATE Come decidere se la discrepanza è piccola o grande? tramite il TEST STATISTICO 5

Epatite C Si No totale Tatuaggio 8.5 104.5 113 No tatuaggio 38.5 474.5 513 totale 47 579 626 P (epatite) = P(epatite tatuaggio) = P(epatite no tatoo) = 47 = 0.075 626 47 113 = 8.5 626 47 513 = 38.5 626 PRINCIPIO del PRODOTTO per eventi indipendenti P(A e B) = P(A B) = P(A)P(B) Indipendenza: due eventi si dicono indipendenti quando il verificarsi dell uno non influenza il verificarsi dell altro es. elevati livelli di glicemia e ulcera, probabilità di pescare una pallina di un determinato colore da un urna con reimbussolamento 6

Y 1.. j. t Marginali di colonna Nomenclatura di una tabella di contingenza 1 i k n 11 n i1 n k1 n 1j n ij n kj n 1t n it n kt X n. = k j n ij i= 1 t n.. =. = i= 1 j= 1 n i n ij j= 1 (dot notation) k Marginali di riga t n ij p i. viene stimato da n i./n.. p. j viene stimato da n. j /n.. Sotto l ipotesi di indipendenza la probabilità di una qualsiasi combinazione delle modalità delle due variabili è data da: P ij =P i. P.j Probabilità congiunta Prodotto delle marginali Gli attesi nella cella ij-ma, sotto l ipotesi di indipendenza, saranno quindi E ij =P i. P.j N N totale di soggetti Probabilità congiunta Prodotto delle marginali 7

CALCOLO DEL TEST χ 2 frequenza osservata χ = i= 1 ( Oi E Ei N 2 2 i ) frequenza attesa FREQUENZE OSSERVATE Epatite C Si No totale Tatuaggio 25 88 113 No tatuaggio 22 491 513 totale 47 579 626 FREQUENZE ATTESE Epatite C Si No totale Tatuaggio 8.5 104.5 113 No tatuaggio 38.5 474.5 513 totale 47 579 626 8

Si calcola il test sostituendo le frequenze osservate ed attese nella formula del χ 2 : 2 (25 8.5) χ = 8.5 2 (22 38.5) +. 38.5 2 (88 104.5) + 104.5 2 (491 474.5) + 474.5 2 = 42.42 È evidente che il chi-quadrato aumenta con l'aumentare della differenza dei dati posti a raffronto. Se esso supera certi valori prefissati la differenza viene ritenuta significativa; in caso contrario, non si può affermare l'esistenza di una significativa differenza tra i due eventi considerati. La distribuzione di probabilità χ 2 dipende dal numero di gradi di libertà (g.l.) 1 g.l. g.l. = gradi di libertà densità di probabilità 2 g.l. 5 g.l. 10 g.l. 15 g.l. 0 2 4 6 8 10 12 14 chi-quadrato il numero di gradi di libertà di una tabella e del χ 2 calcolato su di essa è uguale a (numero righe - 1) x (numero colonne -1) 9

χ 2 osservato > soglia critica 42,42 3,84 Rifiuto H 0 1 grado di libertà densità di probabilità regione di accettazione dell'ipotesi nulla regione di rifiuto N.B. Il test del chi-quadrato è sempre a una coda. 0 1 2 3 4 5 6 0,118 chi-quadrato 10

Output di un programma statistico col row 1 2 Total -----------+----------------------+---------- 1 25 88 113 2 22 491 513 -----------+----------------------+---------- Total 47 579 626 Pearson chi2(1) = 42.4189 Pr = 0.000 P < 0.00001 Rifiuto l ipotesi nulla di indipendenza delle due variabili CONCLUSIONI i dati della tabella sono improbabili, se è vera l ipotesi che epatite C e tatuaggi sono indipendenti esiste una relazione tra epatite C e tatuaggi 11

Situazione reale Conclusioni Epatite e tatuaggi sono indipendenti H 0 VERA Epatite e tatuaggi NON sono indipendenti H 0 FALSA Epatite e tatuaggi sono indipendenti RIFIUTO H 0 α errore di I tipo OK Epatite e tatuaggi NON sono indipendenti NON RIFIUTO H 0 OK β errore di II tipo Ruolo per nazionalità italiani stranieri 0 1 Ala Centro Guardia/Ala Playmaker Ala/Centro Guardia Play/Guardia Graphs by straniero Esiste una differente distribuzione del ruolo di gioco tra italiani e stranieri? 12

Ruolo per nazionalità straniero ruolo 0 1 Total -------------+----------------------+---------- Ala 37 29 66 Ala/Centro 14 14 28 Centro 15 16 31 Guardia 21 17 38 Guardia/Ala 4 6 10 Play/Guardia 8 9 17 Playmaker 34 13 47 -------------+----------------------+---------- Total 133 104 237 Pearson chi2(6) = 7.8336 Pr = 0.251 Le due variabili (ruolo e nazionalità) sono indipendenti. La distribuzione del ruolo non è diversa per nazionalità Ipotesi: i giocatori stranieri vengono acquistati per ricoprire il ruolo di centro straniero ruolo 0 1 Total -------------+----------------------+---------- Centro 15 16 31 Playmaker 34 13 47 -------------+----------------------+---------- Total 49 29 78 Pearson chi2(1) = 4.5887 Pr = 0.032 Le due variabili (ruolo e nazionalità) non sono indipendenti. 13