STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Documenti analoghi
STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Lezione VIII: test. χ 2. Statistica inferenziale per variabili qualitative. Prof. Enzo Ballone. Lezione 9a- Test del chi quadrato.

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI VERIFICA DI IPOTESI PER IL CONFRONTO TRA DUE PROPORZIONI

Statistica inferenziale per variabili quantitative

Lezione VII: t-test. Prof. Enzo Ballone

Statistica. Lezione 8

Distribuzioni di frequenza di due variabili

STATISTICA Lauree Triennali in OSTETRICIA ed INFERM. PEDIATRICA

Esercizi di statistica inferenziale

2 In uno studio viene misurata la pressione arteriosa sistolica a 5 maschi adulti, con i seguenti risultati : 127; 134; 142; 128; 144

LEZIONI DI STATISTICA MEDICA

Cognome e nome. 2 In uno studio viene misurata la pressione arteriosa sistolica a 5 maschi adulti, con i seguenti risultati : 129; 134; 142; 128; 146

Introduzione alla statistica per la ricerca in sanità

Inferenza statistica

materiale didattico II incontro

Metodi statistici per lo studio dei fenomeni biologici

Metodi statistici per le ricerche di mercato

Dispense Associazione PRELIMINARY DRAFT

Statistica Inferenziale La verifica di ipotesi. Davide Barbieri

per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione

Argomenti della lezione:

TRACCIA DI STUDIO. Test di confronto per misure qualitative. Verifica di ipotesi

IPOTESI SULLA FORMA DELLA DISTRIBUZIONE CASO DI UN CAMPIONE

SOLUZIONI ESERCITAZIONE NR. 8 Test statistici

Contenuti: Capitolo 14 del libro di testo

Cognome e nome. Distribuzione Gaussiana; Media = 122,4 mmhg; Deviazione standard= 14,28 mmhg

Metodi statistici per le ricerche di mercato

La relazione causa-effetto

LE TABELLE DI CONTINGENZA

1. In uno studio viene misurata la pressione arteriosa sistolica a 36 soggetti, con i seguenti risultati. Media = 172,8 Deviazione standard= 24,25

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

Capitolo 11 Test chi-quadro

Lezione VII: Z-test. Statistica inferenziale per variabili quantitative. Statistica inferenziale per variabili quantitative. Prof.

Statistica bivariata Relazione tra variabili

Parte 1 : Inferenza. Varianza nota test Z. Distribuzioni asintotiche dei test. Varianza ignota test t ad un campione

LEZIONI DI STATISTICA MEDICA

Simulazione di esercizi su test di significatività e 95%CI

Statistica. Capitolo 13. Test sulla Bontà di Adattamento e Tabelle di Contingenza. Cap. 16-1

Casa dello Studente. Casa dello Studente

Tempo disponibile: 60 minuti

STATISTICA Lauree Triennali di Area Tecnica

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

Il Test di Ipotesi Lezione 5

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. Analisi dei dati in tabelle di contingenza

LEZIONI DI STATISTICA MEDICA

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI

STATISTICA AZIENDALE Modulo Controllo di Qualità

C.I. di Metodologia clinica

Università del Piemonte Orientale. Corso di laurea in biotecnologie mediche. Corso di Statistica Medica. Analisi dei dati in tabelle di contingenza

Statistica per le le ricerche ricerche di mercato 9.b 9.b Analisi Analisi preliminari preliminari Verifica di ipotesi: test test di indipendenza

UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE. a.a.

DISTRIBUZIONI DI CAMPIONAMENTO

Test d ipotesi. Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona. Ipotesi alternativa (H 1 )

Cognome e nome Tempo disponibile: 60 minuti

Effettuazione di un TEST D IPOTESI. = stima del parametro di interesse calcolata sui dati campionari

Test d ipotesi. Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona. Ipotesi alternativa (H 1 )

Esercizi di statistica

Fondamenti di Psicometria. La statistica è facile!!! VERIFICA DELLE IPOTESI

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

Statistica Inferenziale

Esercitazione 8 del corso di Statistica 2

Dr. Marco Vicentini Anno Accademico Rev 20/04/2011

Corso di Psicometria Progredito

Distribuzioni campionarie

Ulteriori applicazioni del test del Chi-quadrato (χ 2 )

E = P(A) N. Teoria della probabilità. E = = 160 (numero atteso di soggetti con l influenza) E = = 390

Il test del χ 2. Federico Plazzi. 24 Novembre 2015

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Elementi di Epidemiologia per la Valutazione Comparativa di Esito

08/04/2014. Misure di posizione. INDICI DI POSIZIONE (measures of location or central tendency) 1. MODA 2. MEDIA 3. MEDIANA

ESERCITAZIONE N. 7 corso di statistica

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità B

Prof.ssa M. Di Nicola

Dott.ssa Marta Di Nicola

Dipartimento di Fisica a.a. 2004/2005 Fisica Medica 2 Test di ipotesi 2/5/2005

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Dipartimento di Samità Pubblica e Malattie Infettive Sapienza Università di Roma

7 punti Fosforo ematico punti punti

p = p q OR = p q Misura l esistenza di una malattia. E legato alla incidenza in quanto - Prevalenza = Incidenza x tempo medio di durata della malattia

(f o -f a ) f a fo = frequenza osservata fa = frequenza attesa per effetto del caso (cioè se è vera l'ipotesi nulla) DISEGNI CON UNA SOLA VARIABILE

Lezione 5 Corso di Statistica. Francesco Lagona

Elementi di Psicometria con Laboratorio di SPSS 1

Il questionario per rilevare informazioni

Prova d'esame di Statistica I - Corso Prof.ssa S. Terzi

Misure epidemiologiche di rischio!

Ulteriori Conoscenze di Informatica e Statistica

STATISTICA. Federico M. Stefanini. e.mail: a.a (3 CFU)

STATISTICA MULTIVARIATA SSD MAT/06

Statistica (parte II) Esercitazione 4

Transcript:

1 STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE La presentazione dei dati per molte ricerche mediche fa comunemente riferimento a frequenze, assolute o percentuali. Osservazioni cliniche conducono sovente a risultati tipo "il 60% degli individui trattati con un farmaco è migliorato rispetto al 47% del gruppo di soggetti di controllo", implicando con ciò un confronto tra i risultati ottenuti per i due gruppi. Risulta evidente che tali risultati non sono espressi da dati su scala quantitativa e quindi non è possibile fare riferimento alla distribuzione Gaussiana o a quelle del t di Student, ma occorre considerare metodiche specifiche che permettano, anche con tale tipo di dati, di verificare l'ipotesi zero di una differenza casuale tra le frequenze riscontrate.

2 LA STATISTICA CHI-QUADRATO (χ 2 ) χ 2 -test (non parametrico) VARIABILE STATISTICA SEMPLICE (v.s.s.) Esempio 1. C è parità tra i 2 sessi nei 180 iscritti al corso di laurea in medicina? Si organizza un'indagine su un campione casuale di 80 studenti. (H o : MF; H 1 : M F) I risultati (O) e le attese (A) sono riportati nella tabella. SESSO O 1 A χ 2 O 2 χ 2 M 45 40 25/40 50 100/40 F 35 40 25/40 30 100/40 TOT 80 80 50/40 80 200/40 χ 2 g.l.1 1.25 n.s. 5 *

3 V.S. CON >2 MODALITÀ ANCHE UNA SERIE EMPIRICA PUÒ SEGUIRE UN MODELLO. O I - A I DOVUTA AD ERRORE? Esempio 2. 4 campioni di 400 pts ciascuno vengono sottoposti a dosaggi di un farmaco. Si registra il numero di guariti (O i ). Dose di farmaco O i A i χ 2 0.5 mg 40 50 100/50 1.0 mg 110 100 100/100 2.0 mg 250 200 2.500/200 4.0 mg 350 400 2.500/400 χ 2 750 750 22.75 Dove H o : A scala a raddoppio χ 2 COME INDICE DI CONFORMITA

ESEMPIO 3. SUPPONIAMO DI OSSERVARE UN CAMPIONE DI 800 FAMIGLIE CON DUE FIGLI IN CUI OSSERVIAMO LA SEGUENTE DISTRIBUZIONE RISPETTO AL SESSO DEI FIGLI(2 COLONNA-TAB), SAPPIAMO CHE, TEORICAMENTE, LA PROBABILITÀ CHE NASCA UN FIGLIO MASCHIO O UNA FEMMINA È IDENTICA E QUINDI PARI A ½, E INOLTRE IL SESSO DEL NASCITURO NON DIPENDE DAL SESSO DEL FIGLIO GIÀ NATO, PER CUI LA DISTRIBUZIONE TEORICA DEI SESSI NELLE 800 FAMIGLIE CON DUE FIGLI CONSIDERATE DOVREBBERO ESSERE(3 COLONNA-TAB) (P*Q) 2 4 SESSO FIGLI OI AI (OI- AI) 2 (OI-AI) 2 /AI MM 160 200 1600 8 MF 440 400 1600 4 FF 200 200 TOT 800 800 3200 12 X 2 -TEST, PER GDL2 ED A0.017.38. POICHÉ 12>7.38>SI RIFIUTA HO CHE LE FREQUENZE OSSERVATE SEGUONO LA DISTRIBUZIONE TEORICA (AI) (P+Q) 2 P 2 +2PQ+Q 2 M 2 +2MF+F 2

5 VARIABILI STATISTICHE DOPPIE CONFRONTO DI 2 CAMPIONI (Confronto tra due percentuali) Esempio 3.Si abbia un campione di 1020 soggetti diviso in Fumatori (A): n A 400 Prevalenza BCO 30% Non fumatori (B): n B 625 Prevalenza BCO 15% Il fumo è causa (o fattore di rischio) per la bronchite? ossia il (+15%) è statisticamente significativo? Tabella di contingenza (2x2) BRONCHITE FUMO SI NO TOT SI 120 280 400 NO 93 527 620 TOTALE 213 807 1020 LA PREVALENZA DI BRONCHITE RISULTA STATISTICAMENTE TRA I FUMATORI E I NON FUMATORI? H 0 : La bronchite si sviluppa indipendentemente dal fumo; H 1 : I fumatori sviluppano bronchite più dei non fumatori;

6 TASSI DI PREVALENZA x 100 SOGGETTI 213 120 93 PT 20.8% PF 30% PNF 15% 1020 400 620 Se ci fosse indipendenza tra fumo e BCO si dovrebbero riscontrare le stesse prevalenze di pazienti con BCO tra i fumatori e i non fumatori. Va costruita quindi una tabella le cui frequenze rispondono alla condizione d'indipendenza TABELLA TETRACORICA D'INDIPENDENZA Fattore di rischio Malattia P (+) NP (-) TOT A (+) a b n A (a+b) B (-) c d n B (c+d) TOT n 1 (a+c) n 2 (b+d) n n 1 :n a:n A a n A n n 1

7 VALORI DELLE FREQUENZE NEL CASO DI INDIPENDENZA n 1 :n c:n B n n n B 1 c Tornando all esempio dell'associazione tra BCO e fumo si ha: BRONCHITE CRONICA FUMO SI NO TOT SI 84 316 400 NO 129 491 620 TOTALE 213 807 1020 (620x213)/1020 129 χ 2 (120-84) 2 + (280-316) 2 + (93-129) 2 + 84 316 129 + (527-491) 2 32.21 491

8 LA FORMULA PER CALCOLARE L'INDICE-TEST CHI-QUADRATO Σ (O i -A i ) 2 A i O i FREQUENZE ASSOLUTE OSSERVATE A i FREQUENZE ASSOLUTE ATTESE TEORIA SULLE IPOTESI H0 IPOTESI ZERO O IPOTESI NULLA LE DUE FREQUENZE DIFFERISCONO PER EFFETTO DELL'ERRORE DI CAMPIONAMENTO. H1 IPOTESI ALTERNATIVA LE DUE FREQUENZE NON DIFFERISCONO PER EFFETTO DELL'ERRORE DI CAMPIONAMENTO. IL TEST DEL χ2 CONSENTE DI SAGGIARE L'IPOTESI NULLA. Nel caso di tabelle 2x2 si può calcolare il valore del test χ 2 anche attraverso la formula seguente:

9 (ad - cb) 2 N χ 2 -test N 1 N 2 N A N B FORMULA ABBREVIATA PER IL CALCOLO DEL χ 2 VALIDA SOLO NEL CASO DI TABELLE TETRACORICHE Nel nostro esempio avremo: 2 χ ( 120 *527 93* 280) *1020 213*807 * 400 * 620 2 32.21 Valore quasi coincidente a quello calcolato con la precedente formula LE DUE FORMULE NEL CASO DI UNA TABELLA 2X2 DANNO RISULTATI EQUIVALENTI

10 MISURE DI RISCHIO 1.2 1240 1488 310 620 400 240 620 310 : 400 240 % 10 )% 50 (60 620 310 400 240.4 % 56 100 550 310 ) (.6 % 43 100 550 240 ) ( RR RA B NF B B F B

11 La CORREZIONE di YATES (per la continuità) La correzione di Yates viene applicata nel caso di tabelle 2x2 che presentino: la numerosità complessiva (n)<200 oppure uno tra n A, n B, n 1, n 2 <40 a, b, c, d >5 la correzione si attua con la formula: χ 2 ( ad - cb - n/2) 2 n n 1 n 2 n A n B

12 Esempio 4. Si supponga di aver rilevato, su un campione di 36 giovani, la pressione arteriosa e la pratica sportiva. PRATICA IPERTENSIONE ARTERIOSA SPORT SI NO TOT SI 7 9 16 NO 14 6 20 TOT 21 15 36 Applichiamo il test χ 2 con la correzione di Yates per la continuità ( 7x6-14x9-36/2) 2 36 χ 2 1.55 n.s. 21x15x20x16

13 FUMO BCO SI BCO NO TOTALE SI 12 28 40 NO 9 53 62 TOTALE 21 81 102 2 χ ((12 * 53 9 * 28) 56) 21* 81 * 40 * 62 2 *102 2.681

14 TEST ESATTO di FISCHER Viene applicato nel caso in cui in una tabella 2x2 il numero delle osservazioni è minore di 20 o una delle frequenze attese è inferiore a 5. Permette di calcolare direttamente la probabilità esatta. P(a+b)! (c+d)! (a+c)! (b+d)! a! b! c! d! N! PRATICA IPERTENSIONE ARTERIOSA SPORT SI NO TOT SI 1 10 11 NO 15 5 20 TOT 16 15 31 P 1 11! 20! 16! 15! 0.000567 1! 10! 15! 5! 31!

15 PRATICA IPERTENSIONE ARTERIOSA SPORT SI NO TOT SI 0 11 11 NO 16 4 20 TOT 16 15 31 P 0 11! 20! 16! 15! 0.000016 0! 11! 16! 4! 31! P 0.00567+0.0000160.00568 Altamente significativo. P<0.001

16 Generalizzazione al caso di una tabella di dimensione rxs. Esempio 5. Guariti Migliorati Non migliorati Tot. Farmaco A 21 (15) 15 (17) 7 (11) 43 Farmaco B 12 (18) 24 (22) 18 (14) 54 Tot. 33 39 25 97 33/9734.02%(GUARITI) 39/9740.20% (MIGLIORATI) 25/9725.77% (INSUCCESSI TERAPEUTICI) 21/4348.8% 15/4334.9% 12/5422.2% 18/5433.3% Si applica la formula generale per una valutazione complessiva: (21-15) 2 (12-18) 2 (15-17) 2 (24-22) 2 (7-11) 2 χ 2 + + + + + 15 18 17 22 11 (18-14) 2 8.23 14

17 Risultano di interesse anche le sottotabelle 2X2 Guariti Migliorati Tot. Farmaco A 21 15 36 Farmaco B 12 24 36 Tot. 33 39 72 χ 2 ( 21x24-15x12-72/2) 2 72 3.580 n.s. 33x39x36x36 Guariti Non migliorati Tot. Farmaco A 21 7 28 Farmaco B 12 18 30 Tot. 33 25 58 χ 2 ( 21x18-12x7-58/2) 2 58 5.877 33x25x30x28 p0.015

18 Migliorati Non migliorati Tot. Farmaco A 15 7 22 Farmaco B 24 18 42 Tot. 39 25 64 χ 2 ( 15x18-24x7-64/2) 2 64 0.384 39x25x22x42 n.s.

CONFRONTO TRA PERCENTUALI IN CAMPIONI INDIPENDENTI Campione 1: n 1 300 Prevalenza 70% Campione 2: n 2 400 Prevalenza 80% + - TOT C1 210 90 300 C2 320 80 400 TOT 530 170 700 19 χ 2 (210x80-320x90) 2 700 9.32 530x170x300x400 p<0.001 Campione 1: n 1 30 Prevalenza 70% Campione 2: n 2 40 Prevalenza 80% + - TOT C1 21 9 30 C2 32 8 40 TOT 53 17 70 χ 2 ( 21x8-32x9-70/2) 2 70 0.47 53x17x30x40 n.s.

20 VERIFICA DI IPOTESI 1. TEORIA DELLA VERIFICA DELLE IPOTESI STATISTICHE Consiste nello stabilire se l'assunzione fatta, si possa considerare esatta o meno, sulla base delle osservazioni condotte su una parte delle unità del collettivo medesimo. 2. L'IPOTESI (H 0 ) E' un assunto particolare circa le caratteristiche (i parametri della popolazione. E' una affermazione su eventi "sconosciuti" costruita in modo tale da poter essere verificata mediante un test statistico (T.S.) 3. TEST STATISTICO E' una tecnica di inferenza statistica, mediante la quale si accetta o rifiuta una certa ipotesi, ad un livello critico di significatività. 4. LIVELLO DI SIGNIFICATIVITA' E' il margine d'errore che siamo disposti a commettere, di solito 5 o 1%, ma più è piccolo e più riduciamo il rischio di rifiutare H 0 quando in realtà è vera. 5. FUNZIONE TEST E' la funzione dei dati campionari di cui si serve un test per portare alla decisione di accettare o respingere H 0. 6. VERIFICA D'IPOTESI E' una metodologia statistica che basandosi sulle probabilità porta a prendere delle decisioni. 7. GRADI DI LIBERTA' Sono dati, in generale, dal numero delle modalità che la variabile assume meno i vincoli. g.l.r-1 per variabili statistiche semplice g.l.(r-1)(c-1) per variabili statistiche doppie

21 MISURE DI RISCHIO Il fumo è causa (o fattore di rischio) per la bronchite? Studio di coorte, prospettico, Di follow-up. Tabella di contingenza (2x2) BRONCHITE FUMO SI NO TOT SI 120 280 400 NO 93 527 620 TOTALE 213 807 1020 TASSI DI INCIDENZA PER 100 SOGGETTI/ANNO 213 120 93 PT 20.8% PF 30% PNF 15% 1020 400 620 Rischio relativo (RR) incidenza tra gli esposti/incidenza tra i non esposti 30%/15% 2.

22 Interpretazione: i fumatori hanno un rischio doppio (2 volte maggiore, 2/1, per ogni non fumatore colpito da BCO, vi sono 2 soggetti fumatori colpiti da BCO. RISCHIO ATTRIBUIBILE (RA) INCIDENZA TRA GLI ESPOSTI INCIDENZA TRA I NON ESPOSTI: 30% - 15% 15% INTERPRETAZIONE: IL MAGGIOR RISCHIO DI BCO ATTRIBUITO, DOVUTO, CAUSATO etc. al fumo di sigaretta. Si può anche interpretare come segue: SE UN SOGGETTO FUMATORE SMETTESSE DI FUMARE, RIDURREBBE IL RISCHIO DI BCO DEL 15% (anno?) N.B. se trattasi di uno studio caso-controllo, trasversale.. Il RR viene stimato attraverso L Odds Ratio (O.R.): rapporto incrociato: O.R. 120 x 527/280x93 2.43

23