Il χ 2 (Pearson, 1900)

Documenti analoghi
Analisi congiunta di più fenomeni

Statistica. Lezione 8

Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Statistica 1 A.A. 2015/2016

Casa dello Studente. Casa dello Studente

Ulteriori applicazioni del test del Chi-quadrato (χ 2 )

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Le Misure di Associazione Esercizio 3. Paolo Villari

Rischio relativo e Odds Ratio

Esercitazioni del corso: STATISTICA

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

si tratta del test del chi-quadro di adattamento e di quello di indipendenza. 1 l ipotesi che la popolazione segua una legge fissata;

Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi

Copyright Esselibri S.p.A.

Facoltà di Economia - Università di Pavia Simulazione Prova Scritta di Statistica Sociale 19 dicembre 2012

Contenuti: Capitolo 14 del libro di testo

La dipendenza. Antonello Maruotti

p = p q OR = p q Misura l esistenza di una malattia. E legato alla incidenza in quanto - Prevalenza = Incidenza x tempo medio di durata della malattia

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Esercizi sull associazione di variabili categoriche

Corso Avanzato di Statistica

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

STATISTICA 1 ESERCITAZIONE 6

ANALISI STATISTICHE BIVARIATE. Tabelle di contingenza

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Istituzioni di Statistica 1 Esercizi su tabelle di contingenza

STATISTICA: esercizi svolti sulla DIPENDENZA IN MEDIA

INFERENZA STATISTICA I (CANALE B)

x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x = 35 q 2 = Me q 3 = x (8,25) = x (8) + 0, 25 ( x (9) x (8)

Esercitazione di Statistica Indici di associazione

Statistica per le le ricerche ricerche di mercato 9.b 9.b Analisi Analisi preliminari preliminari Verifica di ipotesi: test test di indipendenza

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

INFERENZA STATISTICA I (CANALE B)

Modelli Log-lineari Bivariati

Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

Statistica Analisi bidimensionale La dipendenza in media. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Esercitazioni del corso: RELAZIONI TRA VARIABILI

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

Simulazione di esercizi su test di significatività e 95%CI

La verifica delle ipotesi

Corso di Psicometria Progredito

Marika Vezzoli. Dipartimento di Medicina Molecolare e Traslazionale Università degli Studi di Brescia

STATISTICA ESERCITAZIONE 13

Statistica descrittiva in due variabili

TUTORATO 2 Test di significatività e intervalli di confidenza

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

C.I. di Metodologia clinica

A proposito di valutazione scolastica

08/04/2014. Misure di posizione. INDICI DI POSIZIONE (measures of location or central tendency) 1. MODA 2. MEDIA 3. MEDIANA

Inferenza su indipendenza e causalità

Ulteriori Conoscenze di Informatica e Statistica

STATISTICA DESCRITTIVA BIVARIATA

Classificazione degli studi epidemiologici!

Distribuzioni campionarie

Esercitazione 8 maggio 2014

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Esercitazioni di statistica

Test per una media - varianza nota

Esercitazione. 24 Aprile 2012

Statistica. Alfonso Iodice D Enza

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Test per l omogeneità delle varianze

DISTRIBUZIONE NORMALE (1)

Analisi bivariata dei dati

SOLUZIONE. a) Calcoliamo il valore medio delle 10 misure effettuate (media campionaria):

Test d ipotesi: confronto fra medie

Proprietà della varianza

Statistica dei consumi alimentari e delle tendenze nutrizionali Lezione 6-16/10/2015

Variabilità e Concentrazione Esercitazione n 02

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente:

Corso di Psicometria Progredito

CORSO DI LAUREA IN INFERMIERISTICA. LEZIONI DI STATISTICA Parte II Elaborazione dei dati Variabilità

Test delle Ipotesi Parte I

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

Statistica 1. Dati bivariati. I - Associazione. Alessandra Salvan e Laura Ventura

Statistica. Alfonso Iodice D Enza

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Distribuzioni Statistiche e Medie Esercitazione n 01

Analisi della varianza a una via

La regressione lineare. Rappresentazione analitica delle distribuzioni

Statistiche e relazioni

Capitolo 11 Test chi-quadro

ANOVA: ANALISI DELLA VARIANZA Prof. Antonio Lanzotti

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

standardizzazione dei punteggi di un test

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Gli studi longitudinali (o di coorte) sono utilizzati: per la stima dell incidenza delle patologie per la stima della mortalità

Chi-quadro. sono variabili aleatorie indipendenti con distribuzione allora la variabile aleatoria

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI

Y M F Calcolare X e darne un adeguata interpretazione;

Monomi L insieme dei monomi

Transcript:

Il χ 2 (Pearson, 1900)

Relazioni tra variabili: le tabelle di contingenza "The Physicians' Health Study" è uno studio clinico randomizzato condotto allo scopo di valutare il possibile eetto di riduzione della mortalità cardiovascolare legato ad un uso regolare e continuato di aspirina Ciascun medico che partecipò allo studio prese a giorni alterni una pasticca di aspirina o un semplice placebo senza essere a conoscenza di quale sostanza stesse realmente assumendo Riportiamo nella seguente tabella i risultati relativi ad un rapporto preliminare (NEnglJMed, 1988) Placebo 18 171 10845 11034 Aspirina 5 99 10933 11037 Totale 23 270 21778 22071

In generale una tabella di contingenza descrive la distribuzione congiunta di sue caratteri In simboli X Y y 1 y 2 y j y h Totale x 1 n 11 n 12 n 1j n 1h n 1 x 2 n 21 n 22 n 2j n 2h n 2 x i n i1 n i2 n ij n ih n i x k n k1 n k2 n kj n kh n k Totale n 1 n 2 n j n h n dove n ij è la frequenza assoluta delle osservazioni che presentano contemporaneamente la modalità x i del carattere X e la modalità y j del carattere Y n i è la frequenza assoluta marginale delle osservazioni che presentano la modalità x i del carattere X, quale che sia la modalià del carattere Y n j è la frequenza assoluta marginale delle osservazioni che presentano la modalità y j del carattere Y, senza tener conto della presenza del carattere X

Calcoliamo le frequenze relative Se dividiamo le frequenze assolute per il totale delle osservazioni (n = 22071), otteniamo le frequenze relative della distribuzione doppia f ij = n ij n e delle due distribuzioni marginali corrispondenti ai caratteri X f i = n i n e Y f j = n j n Placebo 18 171 10845 11034 Aspirina 5 99 10933 11037 Totale 23 270 21778 22071 Placebo 00008 0008 0491 050 Aspirina 00002 0004 0496 050 Totale 0001 0012 0987 1

Nel nostro studio siamo tuttavia particolarmente interessati a comprendere le dierenze tra il gruppo di medici che hanno assunto aspirina ed il gruppo di controllo a cui è stato somministrato un semplice placebo Calcoliamo allora le frequenze relative separatamente per i due gruppi, cioè le distribuzioni di frequenze relative dell'esito, condizionatamente al tipo di trattamento Adesso i totali di riferimento sono quelli marginali corrispondenti alla numerosità totale del gruppo dei controlli (n 1 ) e dei "trattati" (n 2 ) In generale la distribuzione di frequenza della variabile condizionata Y (X = x i ) sarà Modalità di Y (X = x i ) y 1 y 2 y h Totale Frequenze assolute n i1 n i2 n ih n i Frequenze relative n i1 /n i n i2 /n i n ih /n i 1 Placebo 18 171 10845 11034 Aspirina 5 99 10933 11037 Totale 23 270 21778 22071 Placebo 00016 00155 09829 1 Aspirina 00005 00090 09905 1 Totale 00010 00122 09868 1 Esiste una qualche dierenza? Come la misuriamo?

È possibile calcolare anche le distribuzioni di frequenze relative del tipo di trattamento, condizionatamente all'esito Placebo 18 171 10845 11034 Aspirina 5 99 10933 11037 Totale 23 270 21778 22071 Placebo 078 063 0498 050 Aspirina 022 037 0502 050 Totale 1 1 1 1 anche se nel nostro caso non ha molto senso, trattandosi di uno studio prospettico

Indipendenza in probabilità L'ipotesi nulla del nostro test è l'indipendenza delle due variabili Ricordiamo la denizione probabilistica di indipendenza Prob(A B)=Prob(A) Nel nostro esempio l'ipotesi di indipendenza implica P rob(att card f atale Aspirina) = P rob(att card f atale) P rob(att card f atale P lacebo) = P rob(att card f atale) P rob(att card non f atale Aspirina) = P rob(att card non f atale) Ricordiamo che l'ipotesi nulla riguarda la popolazione e non il campione osservato

Al ne di costruire la nostra statistica test dobbiamo stimare le probablità coinvolte nell' ipotesi nulla Come spesso accade in statistica per stimare delle probabilità utilizziamo le corrisponenti frequenze relative P rob(att card f atale P lacebo) = P rob(att card f atale) n 11 n 1 = n 1 n P rob(att card f atale Aspirina) = P rob(att card f atale) n 21 n 2 = n 1 n Ciò implica che le due distribuzioni condizionate ai diversi trattamenti saranno uguali tra loro n 11 n 1 = n 21 n 2

In generale le distribuzioni condizionate di frequenze relative di Y (X = x i ) saranno uguali tra loro ed in particolare uguali alla distribuzione marginale di Y (indipendenza in distribuzione) In simboli da cui n ij n i = n kj n k = n j n ñ ij = n in j n o f ij = f i f j Nel nostro caso Placebo 18 171 10845 11034 0002 0015 0983 1 Aspirina 5 99 10933 11037 00004 0009 09906 1 Totale 23 270 21778 22071 0001 0012 0987 1 Nel caso di indipendenza Placebo 114 135 108876 11034 0001 0012 0987 1 Aspirina 115 135 108875 11037 0001 0012 0987 1 Totale 23 270 21778 22071 0001 0012 0987 1

Quanto sono "distanti" i dati osservati dalla situazione di indipendenza (date le marginali)? Il χ 2 (Pearson, 1900) χ 2 = = n k h i=1 j=1 k h i=1 j=1 (n ij n ij ) 2 n ij (f ij f i f j ) 2 f i f j Il χ 2 vale 0 nel caso di indipendenza ma non ha un massimo univoco e dipende dalla numerosità del nostro collettivo La "connessione" massima (per tabelle quadrate) si verica quando ad ogni modalità di un carattere corrisponde una ed una sola modalità dell'altro Allora maxχ 2 = nmin [h 1, k 1] Passiamo all'indice relativo χ 2 /maxχ 2 oppure usiamo la statistica χ 2 come statistica test

Sotto l'ipotesi di indipendenza, al crescere di n, la statistica χ 2 tende a distribuirsi come una variabile aleatoria χ 2 con (k-1)(h-1) gradi di libertà Nel nostro esempio abbiamo ottenuto χ 2 = 269 che sotto la distribuzione χ 2 con 2 gradi di libertà corrisponde ad un p-value praticamente nullo Distribuzione Chi quadro: 2 gradi di libertà 00 01 02 03 04 05 0 5 10 15 20 nb: il valore 269 non misura la forza del legame tra trattamento ed esito nale ma piuttosto l'evidenza fornita dai dati a favore dell'ipotesi di dipendenza

Focalizziamo la nostra attenzione sul rischio di un evento cardiaco fatale Attacco Nessun Totale cardiaco attacco fatale cardiaco Placebo 18 11016 11034 Aspirina 5 11032 11037 Totale 23 22048 22071 Per valutare l'entità dell'eetto dell'aspirina come trattamento di prevenzione indichiamo con π AF A e π AF P le probabilità di avere un attacco cardiaco fatale se sottoposti a terapia preventiva rispettivamente a base di aspirina e beta-carotene Stimiamo il rapporto RR = π AF A π AF P approssimazione del rischio relativo di un attacco cardiaco fatale, utilizzando le corrispondenti frequenze relative ˆ RR = n 21/n 2 n 11 /n 1 = 5/11037 18/11034 = 031

Oppure stimiamo l'odds ratio OR = π AF A/1 π AF A π AF P /1 π AF P ancora una volta sulla base delle frequenze relative osservate OR ˆ = n 21/n 2 /1 n 21 /n 2 n 11 /n 1 /1 n 11 /n 1 = n 21 n 12 n 12 n 22 = 511016 1811032 = 031 L'odds di un attacco cardiaco fatale si riduce del 69% utilizzando l'aspirina o, analogamente, è circa 3 volte (1/031 = 323) più alto per coloro che hanno assunto beta-carotene rispetto a coloro che hanno assunto aspirina Poichè la probabilità di un attacco cardiaco fatale è prossima a zero, le due quantità RR e OR sono molto simili tra loro La situazione di indipendenza corrisponde a OR=1 È utile a volte esprimere l'odds ratio su scala logaritmica: OR = 1 ln(or) = 0 OR = 031 ln(or) = 117 OR = 323 ln(or) = 117

Poichè la nostra è in realtà una tabella 2 3, possiamo descrivere l'associazione tra terapia ed esito calcolando due odds ratio locali che utilizzano le 2 parti separate di informazione di cui disponiamo I 2 odds ratio corrispondono ai due gradi di libertà del test χ 2 OR 1 = π AF A/π NA A π AF P /π NA P OR ˆ 1 = n 21 n 13 = 5 10845 n 11 n 23 18 10933 = 027 OR 2 = π ANF A/π NA A π ANF P /π NA P OR ˆ 2 = n 22 n 13 = n 12 n 23 99 10845 171 10933 = 057 Esiste in realtà un terzo odds ratio che mette a confronto la probabilità di un attacco fatale con quella di un attacco non fatale OR 3 = π AF A/π ANF A π AF P /π ANF P ma OR 1 = OR 2 OR 3 OR ˆ 3 = n 21 n 12 = 5171 n 11 n 21 1899 = 048

Doll e Hill nel 1952 dimostrarono per la prima volta una relazione signicativa tra fumo e cancro polmonare I dati si riferiscono ad uno studio retrospettivo caso-controllo condotto in Inghilterra Numero medio giornaliero Cancro Controlli Totale di sigarette polmonare Nessuna 7 61 68 < 5 55 129 184 5 14 489 570 1059 15 24 475 431 906 25 49 293 154 447 50 38 12 50 Dimostrare l'esistenza di una associazione signicativa Collassare la tabella considerando soltanto due livelli per il numero medio giornaliero di sigarette (minore di 5, almeno 5) e calcolare il relativo odds-ratio Descrivere la natura dell'associazione calcolando gli odds ratio per ciascuno dei 6 livelli Esiste un chiaro trend?