Relazioni tra variabili: le tabelle di contingenza

Documenti analoghi
Il χ 2 (Pearson, 1900)

Dispense Associazione PRELIMINARY DRAFT

L analisi dell associazione o connessione tra due caratteri statistici

Analisi congiunta di più fenomeni

Lezione 5 Corso di Statistica. Domenico Cucina

Analisi dell associazione tra due caratteri

materiale didattico II incontro

Lezione 5 Corso di Statistica. Francesco Lagona

Lezione VIII: test. χ 2. Statistica inferenziale per variabili qualitative. Prof. Enzo Ballone. Lezione 9a- Test del chi quadrato.

Statistica Descrittiva Soluzioni 8. Dipendenza

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 5 Analisi Bivariata I Parte

Le Misure di Associazione Esercizio 3. Paolo Villari

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.

Statistica. Lezione 8

La dipendenza. Antonello Maruotti

Statistica 1 A.A. 2015/2016

Esercitazione III Soluzione

Esercizi di statistica

Statistica (parte II) Esercitazione 4

Copyright Esselibri S.p.A.

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Casa dello Studente. Casa dello Studente

Metodi statistici per le ricerche di mercato

Corso Avanzato di Statistica

ANALISI STATISTICHE BIVARIATE. Tabelle di contingenza

Esercitazione di Statistica Indici di associazione

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Dipartimento di Matematica, Informatica ed Economia (DiMIE) Statistica. Antonio Azzollini

STATISTICA 1 ESERCITAZIONE 6

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Esercizi di Probabilità e Statistica

Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili

Dr. Marco Vicentini Anno Accademico Rev 02/04/2011

ESERCIZI SULLA VERIFICA DI IPOTESI

Analisi bivariata. Il caso di caratteri qualitativi

Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi

Distribuzioni Doppie e Relazioni tra Variabili Esercitazione n 03

Statistica Corso Base (Serale) Dott.ssa Cristina Mollica

Corso in Statistica Medica

Ulteriori applicazioni del test del Chi-quadrato (χ 2 )

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

INFERENZA STATISTICA I (CANALE B)

Facoltà di Economia - Università di Pavia Simulazione Prova Scritta di Statistica Sociale 19 dicembre 2012

Fonti e strumenti statistici per la comunicazione

Rischio relativo e Odds Ratio

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

INFERENZA STATISTICA I (CANALE B)

Statistica Analisi bidimensionale La dipendenza in media. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 4 Analisi Bivariata I Parte

ESERCITAZIONI N. 2 corso di statistica

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

si tratta del test del chi-quadro di adattamento e di quello di indipendenza. 1 l ipotesi che la popolazione segua una legge fissata;

La Dipendenza. Monia Ranalli. Ranalli M. Dipendenza Settimana # 3 1 / 19

Statistica descrittiva in due variabili

Esempio 1: Media aritmetica di una distribuzione unitaria

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Analisi della varianza a una via

Statistica bivariata Relazione tra variabili

Modelli Log-lineari Bivariati

Esercitazioni di statistica

Corso di Psicometria Progredito

A proposito di valutazione scolastica

STATISTICA: esercizi svolti sulla DIPENDENZA IN MEDIA

Statistica per le le ricerche ricerche di mercato 9.b 9.b Analisi Analisi preliminari preliminari Verifica di ipotesi: test test di indipendenza

Esercitazioni del corso: STATISTICA

Test per l indipendenza

Parte 1 : Inferenza. Varianza nota test Z. Distribuzioni asintotiche dei test. Varianza ignota test t ad un campione

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3

Statistica dei consumi alimentari e delle tendenze nutrizionali Lezione 6-16/10/2015

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza

Correlazione e regressione per problemi di Luciano Corso

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

STATISTICA DESCRITTIVA BIVARIATA

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

STATISTICA VERIFICA D IPOTESI - 3

Contenuti: Capitolo 14 del libro di testo

Dr. Marco Vicentini Anno Accademico Rev 20/04/2011

Esercitazione del 20 aprile

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

, B con probabilità 1 4 e C con probabilità 1 4.

STATISTICA INDUTTIVA: STIMA DI PARAMETRI STIMA PUNTUALE

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

ESERCITAZIONE N. 7 corso di statistica

Statistica descrittiva in due variabili

08/04/2014. Misure di posizione. INDICI DI POSIZIONE (measures of location or central tendency) 1. MODA 2. MEDIA 3. MEDIANA

Esercitazioni del corso: RELAZIONI TRA VARIABILI

p = p q OR = p q Misura l esistenza di una malattia. E legato alla incidenza in quanto - Prevalenza = Incidenza x tempo medio di durata della malattia

LEZIONI DI STATISTICA MEDICA

Istituzioni di Statistica 1 Esercizi su tabelle di contingenza

Esercizi sull associazione di variabili categoriche

Statistica descrittiva in due variabili

Marika Vezzoli. Dipartimento di Medicina Molecolare e Traslazionale Università degli Studi di Brescia

Stesso valore medio per distribuzioni diverse

Statistica. Esercitazione 3 9 maggio 2012 Coefficiente di variazione. Serie storiche. Connessione e indipendenza statistica

Elementi di Teoria della Probabilità

TABELLE DI CONTINGENZA

Transcript:

Lezione 6

Relazioni tra variabili: le tabelle di contingenza "The Physicians Health Study" è uno studio clinico randomizzato condotto allo scopo di valutare il possibile effetto di riduzione della mortalità cardiovascolare legato ad un uso regolare e continuato di aspirina Ciascun medico che partecipò allo studio prese a giorni alterni una pasticca di aspirina o un semplice placebo senza essere a conoscenza di quale sostanza stesse realmente assumendo Riportiamo nella seguente tabella i risultati relativi ad un rapporto preliminare (NEnglJMed, 1988) Placebo 18 171 10845 11034 Aspirina 5 99 10933 11037 Totale 23 270 21778 22071

In generale una tabella di contingenza descrive la distribuzione congiunta di sue caratteri In simboli X Y y 1 y 2 y j y h Totale x 1 n 11 n 12 n 1j n 1h n 1 x 2 n 21 n 22 n 2j n 2h n 2 x i n i1 n i2 n ij n ih n i x k n k1 n k2 n kj n kh n k Totale n 1 n 2 n j n h n dove n ij è la frequenza assoluta delle osservazioni che presentano contemporaneamente la modalità x i del carattere X e la modalità y j del carattere Y n i è la frequenza assoluta marginale delle osservazioni che presentano la modalità x i del carattere X, quale che sia la modalià del carattere Y n j è la frequenza assoluta marginale delle osservazioni che presentano la modalità y j del carattere Y, senza tener conto della presenza del carattere X

Calcoliamo le frequenze relative Se dividiamo le frequenze assolute per il totale delle osservazioni (n = 22071), otteniamo le frequenze relative della distribuzione doppia f ij = n ij n e delle due distribuzioni marginali corrispondenti ai caratteri X f i = n i n e Y f j = n j n Placebo 18 171 10845 11034 Aspirina 5 99 10933 11037 Totale 23 270 21778 22071 Placebo 00008 0008 0491 050 Aspirina 00002 0004 0496 050 Totale 0001 0012 0987 1

Nel nostro studio siamo tuttavia particolarmente interessati a comprendere le differenze tra il gruppo di medici che hanno assunto aspirina ed il gruppo di controllo a cui è stato somministrato un semplice placebo Calcoliamo allora le frequenze relative separatamente per i due gruppi, cioè le distribuzioni di frequenze relative dell esito, condizionatamente al tipo di trattamento Adesso i totali di riferimento sono quelli marginali corrispondenti alla numerosità totale del gruppo dei controlli (n 1 ) e dei "trattati" (n 2 ) In generale la distribuzione di frequenza della variabile condizionata Y (X = x i ) sarà Modalità di Y (X = x i ) y 1 y 2 y h Totale Frequenze assolute n i1 n i2 n ih n i Frequenze relative n i1 /n i n i2 /n i n ih /n i 1 Placebo 18 171 10845 11034 Aspirina 5 99 10933 11037 Totale 23 270 21778 22071 Placebo 00016 00155 09829 1 Aspirina 00005 00090 09905 1 Totale 00010 00122 09868 1 Esiste una qualche differenza? Come la misuriamo?

È possibile calcolare anche le distribuzioni di frequenze relative del tipo di trattamento, condizionatamente all esito Placebo 18 171 10845 11034 Aspirina 5 99 10933 11037 Totale 23 270 21778 22071 Placebo 078 063 0498 050 Aspirina 022 037 0502 050 Totale 1 1 1 1 anche se nel nostro caso non ha molto senso, trattandosi di uno studio prospettico

Indipendenza in distribuzione Diciamo che 2 caratteri X ed Y sono indipendenti se qualunque valore di X non modifica la distribuzione di Y (e viceversa Ciò implica che le distribuzioni condizionate di Y (X = x i ) saranno uguali tra loro ed in particolare uguali alla distribuzione marginale di Y In simboli da cui n ij n i = n kj n k = n j n ñ ij = n in j n o f ij = f i f j Nel nostro caso Placebo 18 171 10845 11034 0002 0015 0983 1 Aspirina 5 99 10933 11037 00004 0009 09906 1 Totale 23 270 21778 22071 0001 0012 0987 1 Nel caso di indipendenza Placebo 114 135 108876 11034 0001 0012 0987 1 Aspirina 115 135 108875 11037 0001 0012 0987 1 Totale 23 270 21778 22071 0001 0012 0987 1

Quanto sono "distanti" i dati osservati dalla situazione di indipendenza (date le marginali)? Il χ 2 (Pearson, 1900) χ 2 = = n k h i=1 j=1 k h i=1 j=1 (n ij n ij ) 2 n ij (f ij f i f j ) 2 f i f j Il χ 2 vale 0 nel caso di indipendenza ma non ha un massimo univoco e dipende dalla numerosità del nostro collettivo La "connessione" massima (per tabelle quadrate) si verifica quando ad ogni modalità di un carattere corrisponde una ed una sola modalità dell altro Allora maxχ 2 = nmin [h 1, k 1] Passiamo all indice relativo χ 2 /maxχ 2 oppure usiamo la statistica χ 2 come statistica test

Sotto l ipotesi di indipendenza, al crescere di n, la statistica χ 2 tende a distribuirsi come una variabile aleatoria χ 2 con (k-1)(h-1) gradi di libertà Nel nostro esempio abbiamo ottenuto χ 2 = 269 che sotto la distribuzione χ 2 con 2 gradi di libertà corrisponde ad un p-value praticamente nullo nb: il valore 269 non misura la forza del legame tra trattamento ed esito finale ma piuttosto l evidenza fornita dai dati a favore dell ipotesi di dipendenza

Focalizziamo la nostra attenzione sul rischio di un evento cardiaco fatale Attacco Nessun Totale cardiaco attacco fatale cardiaco Placebo 18 11016 11034 Aspirina 5 11032 11037 Totale 23 22048 22071 Per valutare l entità dell effetto dell aspirina come trattamento di prevenzione indichiamo con π AF A e π AF P le probabilità di avere un attacco cardiaco fatale se sottoposti a terapia preventiva rispettivamente a base di aspirina e beta-carotene Stimiamo il rapporto RR = π AF A π AF P approssimazione del rischio relativo di un attacco cardiaco fatale, utilizzando le corrispondenti frequenze relative ˆ RR = n 21/n 2 n 11 /n 1 = 5/11037 18/11034 = 031

Oppure stimiamo l odds ratio OR = π AF A/1 π AF A π AF P /1 π AF P ancora una volta sulla base delle frequenze relative osservate OR ˆ = n 21/n 2 /1 n 21 /n 2 n 11 /n 1 /1 n 11 /n 1 = n 21 n 12 n 12 n 22 = 511016 1811032 = 031 L odds di un attacco cardiaco fatale si riduce del 69% utilizzando l aspirina o, analogamente, è circa 3 volte (1/031 = 323) più alto per coloro che hanno assunto beta-carotene rispetto a coloro che hanno assunto aspirina Poichè la probabilità di un attacco cardiaco fatale è prossima a zero, le due quantità RR e OR sono molto simili tra loro La situazione di indipendenza corrisponde a OR=1 È utile a volte esprimere l odds ratio su scala logaritmica: OR = 1 ln(or) = 0 OR = 031 ln(or) = 117 OR = 323 ln(or) = 117

Poichè la nostra è in realtà una tabella 2 3, possiamo descrivere l associazione tra terapia ed esito calcolando due odds ratio locali che utilizzano le 2 parti separate di informazione di cui disponiamo I 2 odds ratio corrispondono ai due gradi di libertà del test χ 2 OR 1 = π AF A/π NA A π AF P /π NA P OR ˆ 1 = n 21 n 13 = 5 10845 n 11 n 23 18 10933 = 027 OR 2 = π ANF A/π NA A π ANF P /π NA P OR ˆ 2 = n 22 n 13 = n 12 n 23 99 10845 171 10933 = 057 Esiste in realtà un terzo odds ratio che mette a confronto la probabilità di un attacco fatale con quella di un attacco non fatale OR 3 = π AF A/π ANF A π AF P /π ANF P ma OR 1 = OR 2 OR 3 OR ˆ 3 = n 21 n 12 = 5171 n 11 n 21 1899 = 048

Doll e Hill nel 1952 dimostrarono per la prima volta una relazione significativa tra fumo e cancro polmonare I dati si riferiscono ad uno studio retrospettivo caso-controllo condotto in Inghilterra Numero medio giornaliero Cancro Controlli Totale di sigarette polmonare Nessuna 7 61 68 < 5 55 129 184 5 14 489 570 1059 15 24 475 431 906 25 49 293 154 447 50 38 12 50 Dimostrare l esistenza di una associazione significativa Collassare la tabella considerando soltanto due livelli per il numero medio giornaliero di sigarette (minore di 5, almeno 5) e calcolare il relativo odds-ratio Descrivere la natura dell associazione calcolando gli odds ratio per ciascuno dei 6 livelli Esiste un chiaro trend?