STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Похожие документы
STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI VERIFICA DI IPOTESI PER IL CONFRONTO TRA DUE PROPORZIONI

Capitolo 11 Test chi-quadro

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

Esercitazione 8 del corso di Statistica 2

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

COMPLEMENTI DI PROBABILITA E STATISTICA. 3 Crediti

Corso di Psicometria Progredito

Gestione ed Analisi Statistica dei dati

Concetti principale della lezione precedente

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

Il test (o i test) del Chi-quadrato ( 2 )

Distribuzioni e inferenza statistica

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Un esempio. Ipotesi statistica: supposizione riguardante: un parametro della popolazione. la forma della distribuzione della popolazione

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

a) Usando i seguenti livelli di significatività, procedere alla verifica di ipotesi, usando come ipotesi alternativa un'ipotesi unidirezionale:

Test d ipotesi. Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona. Ipotesi alternativa (H 1 )

Metodi statistici per le ricerche di mercato

Analisi della varianza a una via

Elementi di Psicometria con Laboratorio di SPSS 1

ˆp(1 ˆp) n 1 +n 2 totale di successi considerando i due gruppi come fossero uno solo e si costruisce z come segue ˆp 1 ˆp 2. n 1

Esercitazione: La kappa di Cohen

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI

Intervalli di confidenza

Esercizi riassuntivi di Inferenza

Test di ipotesi su due campioni

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

3) In una distribuzione di frequenza si può ottenere più di una moda Vero Falso

Distribuzioni campionarie

Note sulla probabilità

Esercitazioni di statistica

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Esercitazione 8 maggio 2014

Capitolo 8. Probabilità: concetti di base

Inferenza statistica II parte

Capitolo 9 Verifica di ipotesi: test basati su un campione

Il campionamento e l inferenza. Il campionamento e l inferenza

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 15: Metodi non parametrici

X Lezione Analisi della varianza Esempi e esercizi CPS - Corso di studi in Informatica II parte: Statistica

Gli errori nella verifica delle ipotesi

Statistica bivariata: il problema della dipendenza

Esercitazione di Statistica Indici di associazione

La dipendenza. Antonello Maruotti

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

UNIVERSITÀ DEGLI STUDI DI PERUGIA

Statistica dei consumi alimentari e delle tendenze nutrizionali Lezione 6-16/10/2015

Premessa: la dipendenza in media

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Ψ PSICOMETRIA. Corso di laurea triennale (classe 34) STATISTICA INFERENZIALE

Facoltà di Economia - Università di Pavia Simulazione Prova Scritta di Statistica Sociale 19 dicembre 2012

TECNICHE DI ANALISI DEI DATI

Capitolo 10 Test delle ipotesi

STATISTICA: esercizi svolti sulla DIPENDENZA IN MEDIA

Analisi Bivariata: Test Statistici

Obiettivi Strumenti Cosa ci faremo? Probabilità, distribuzioni campionarie. Stimatori. Indici: media, varianza,

Test per la correlazione lineare

a.a Esercitazioni di Statistica Medica e Biometria Corsi di Laurea triennali Ostetricia / Infermieristica Pediatrica I anno

Questionario 1. Sono assegnati i seguenti dati

Esercitazioni di Statistica Matematica A Esercitatori: Dott. Fabio Zucca - Dott. Maurizio U. Dini Lezioni del 7/1/2003 e del 14/1/2003

5. Test per proporzioni: confronto tra campioni e associazione

Scuola di specializzazione In Fisica Sanitaria a.a. 2005/2006 Epidemiologia Prof. Maria Antonietta Penco

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)

I TEST STATISTICI. dott.ssa Gabriella Agrusti

ALCUNI ELEMENTI DI VERIFICA DI IPOTESI STATISTICHE Vittorio Colagrande

b) E necessario formulare delle ipotesi per calcolare l intervallo di confidenza ottenuto al punto a? (motivare brevemente la risposta):

Statistica Applicata all edilizia: il modello di regressione

Strumenti di indagine per la valutazione psicologica

R 2 1 j /n j] 3(n+1)

Chi-quadro. sono variabili aleatorie indipendenti con distribuzione allora la variabile aleatoria

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

Statistica descrittiva II

ANOVA: ANALISI DELLA VARIANZA Prof. Antonio Lanzotti

Indice. Prefazione all edizione italiana. Gli Autori e i Curatori dell edizione italiana PARTE PRIMA ASPETTI GENERALI

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

Variabili e scale di misura

Esempio di calcolo di rischio relativo

Disegni di studio nella ricerca epidemiologica

Istituzioni di Statistica 1 Esercizi su tabelle di contingenza

Транскрипт:

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE La presentazione dei dati per molte ricerche mediche fa comunemente riferimento a frequenze, assolute o percentuali. Osservazioni cliniche conducono sovente a risultati tipo "il 60% degli individui trattati con un farmaco è migliorato rispetto al 47% del gruppo di soggetti di controllo", implicando con ciò un confronto tra i risultati ottenuti per i due gruppi. Risulta evidente che tali risultati non sono espressi da dati su scala quantitativa e quindi non è possibile fare riferimento alla distribuzione Gaussiana o a quelle del t di Student, ma occorre considerare metodiche specifiche che permettano, anche con tale tipo di dati, di verificare l'ipotesi zero di una differenza casuale tra le frequenze riscontrate.

Variabile statistica semplice (v.s.s.) La statistica chi-quadrato (χ ) Esempio 1. C è parità tra i sessi nei 180 iscritti al corso di laurea in medicina? Si organizza un'indagine su un campione casuale di 80 studenti. (Ho: MF; H1: M F) I risultati osservati (O) e le attese (A) sono riportati nella tabella. SESSO O 1 A χ -test O χ -test M 45 40 5/40 50 100/40 F 35 40 5/40 30 100/40 80 80 50/40 80 00/40 χ g.l.1 1.5 n.s. 5* * p < 0.05, risultato del test appena significativo

v.s.s. con > modalità Anche una serie empirica può seguire un modello. Esempio. 4 campioni di 400 pz. ciascuno vengono sottoposti a dosaggi di un farmaco. Si riporta il numero osservato di pz guariti (Oi) e il numero atteso (Ai) per ogni campione (Ci). dove Ho (modello): Ai scala a raddoppio Oi-Ai dovuta ad errore? Dose di farmaco O i Ai χ -test 0.5 mg 40 50 100/50 1.0 mg 110 100 100/100.0 mg 50 00.500/00 4.0 mg 350 400.500/400 χ 750 750.75

VARIABILI STATISTICHE DOPPIE: CONFRONTO DI CAMPIONI Il fumo è causa (o fattore di rischio) per la bronchite? ossia il (+15%) è statisticamente significativo? Tabella di contingenza (x) (Confronto tra due percentuali) Esempio 3.Si abbia un campione di 100 soggetti diviso in Fumatori (A): n A 400 Prevalenza BCO 30% Non fumatori (B): n B 60 Prevalenza BCO 15% BRONCHITE FUMO SI NO SI 10 80 400 NO 93 57 60 ALE 13 807 100 La prevalenza di bronchite risulta statisticamente tra i fumatori e i non fumatori? H0: La bronchite si sviluppa indipendentemente dal fumo; H1: I fumatori sviluppano bronchite più dei non fumatori.

TASSI DI PREVALENZA x 100 SOGGETTI 13 10 93 PT 0.8% PF 30% PNF 15% 100 400 60 Se ci fosse indipendenza tra fumo e BCO si dovrebbero riscontrare le stesse prevalenze di pazienti con BCO tra i fumatori e i non fumatori. Va costruita quindi una tabella le cui frequenze rispondono alla condizione d'indipendenza

TABELLA TETRACORICA D'INDIPENDENZA Fattore di rischio A (+) B (-) Malattia P (+) NP (-) a b c d n 1 (a+c) n (b+d) n A (a+b) n B (c+d) n Valori delle frequenze nel caso di indipendenza n 1 :n a:n A a n A n n 1 n 1 :n c:n B n n n B 1 c idem per b e d

Tornando all esempio dell'associazione tra BCO e fumo si ha la tabella delle frequenze attese: BRONCHITE CRONICA FUMO SI NO SI 84 316 400 NO 19 491 60 ALE 13 807 100 Es. (60x13)/100 19; per differenza si calcolano le altre tre frequenze interne.

χ (10 84) 84 + (80 316) 316 + + (93 19) 19 + (57 491) 491 3.1 LA FORMULA PER CALCOLARE L'INDICE-TEST CHI-QUADRATO ( O i A A i i i )

χ ((10 57) (93 80)) 100 13 807 400 60 3.1 Valore quasi coincidente a quello calcolato con la precedente formula, quindi LE DUE FORMULE DANNO RISULTATI EQUIVALENTI

Se il campione e 1/10 del precedente si ha: FUMO BCO SI BCO NO ALE SI 1 8 40 NO 9 53 6 ALE 1 81 10 χ ((1 53 9 8) 56) 1 81 40 6 10.681 L ipotesi nulla non può essere rifiutata.

La CORREZIONE di YATES (per la continuità) La correzione di Yates viene applicata nel caso di tabelle x che presentino: la numerosità complessiva (n) <00 oppure una delle marginali (na, nb, n1, n) <40 comunque a, b, c, d >5 la correzione si attua con la formula: χ ( ad cb n / ) n 1 n n A n B n

Esempio Si supponga di aver rilevato, su un campione di 36 giovani, la pressione arteriosa e la pratica sportiva. PRATICA SPORTIVA IPERTENSIONE ARTERIOSA SI NO SI 7 9 16 NO 14 6 0 1 15 36 Applichiamo il test del chi-quadrato con la correzione di Yates per la continuità χ ((7 6 14 9) 36 / ) 1 15 0 16 36 1.55 Il test risulta non significativo dunque l ipotesi nulla di indipendenza tra la pratica sportiva e l ipertensione arteriosa viene accettata

FUMO BCO SI BCO NO ALE SI 1 8 40 NO 9 53 6 ALE 1 81 10 χ ((1 53 9 8) 56) 1 81 40 6 10.681

TEST ESATTO di FISCHER Viene applicato nel caso in cui in una tabella x il numero delle osservazioni è minore di 0 o una delle frequenze attese è inferiore a 5. Permette di calcolare direttamente la probabilità esatta. P(a+b)! (c+d)! (a+c)! (b+d)! a! b! c! d! N! PRATICA IPERTENSIONE ARTERIOSA SPORT SI NO SI 1 10 11 NO 15 5 0 16 15 31 P 1 11! 0! 16! 15! 0.000567 1! 10! 15! 5! 31!

PRATICA SPORT IPERTENSIONE ARTERIOSA SI NO SI 0 11 11 NO 16 4 0 16 15 31 P 0 11! 0! 16! 15! 0.000016 0! 11! 16! 4! 31! P 0.00567+0.0000160.00568 Altamente significativo. P<0.001

Generalizzazione al caso di una tabella di dimensione rxs. Esempio 5. Guariti Migliorati Non migliorati Tot. Farmaco A 1 (15) 15 (17) 7 (11) 43 Farmaco B 1 (18) 4 () 18 (14) 54 Tot. 33 39 5 97 33/9734.0% (GUARITI) 39/9740.0% (MIGLIORATI) 5/975.77% (INSUCCESSI TERAPEUTICI) 1/4348.8% 15/4334.9% 1/54.% 18/5433.3% Si applica la formula generale per una valutazione complessiva: χ ( 1 15 15 ) + (1 18 18 ) + (15 17 17 ) + ( 4 ) + ( 7 11 11 ) + (18 14 14 ) 8. 3

TEORIA DELLE IPOTESI H0 ipotesi zero o ipotesi nulla le due percentuali (30% e 15%) differiscono per effetto dell'errore di campionamento. H1 ipotesi alternativa le due percentuali non differiscono per effetto dell'errore di χ campionamento. il test del consente di saggiare l'ipotesi nulla.

CONFRONTO TRA PERCENTUALI IN CAMPIONI INDIPENDENTI Campione 1: n 1 300 Prevalenza 70% Campione : n 400 Prevalenza 80% + - C1 10 90 300 C 30 80 400 530 170 700 χ ( 10 80 30 90 530 170 300 ) 700 400 Campione 1: n 1 30 Prevalenza 70% Campione : n 40 Prevalenza 80% 9.3 + - C1 1 9 30 C 3 8 40 53 17 70 χ ( 1 8 3 9 53 17 70 / 30 40 ) 70 0.47 n.s.

TEORIA DELLA VERIFICA DELLE IPOTESI STATISTICHE Consiste nello stabilire se l'assunzione fatta, si possa considerare esatta o meno, sulla base delle osservazioni condotte su una parte delle unità del collettivo medesimo. L'IPOTESI (H 0 ) ipotesi zero o ipotesi nulla E' un assunto particolare circa le caratteristiche (i parametri della popolazione. E' una affermazione su eventi "sconosciuti" costruita in modo tale da poter essere verificata mediante un test statistico. TEST STATISTICO E' una tecnica di inferenza statistica, mediante la quale si accetta o rifiuta una certa ipotesi, ad un livello critico di significatività.

LIVELLO DI SIGNIFICATIVITA' E' il margine d'errore che siamo disposti a commettere, di solito 5 o 1%, ma più è piccolo e più riduciamo il rischio di rifiutare H0 quando in realtà è vera. FUNZIONE TEST E' la funzione dei dati campionari di cui si serve un test per portare alla decisione di accettare o respingere H 0. VERIFICA D'IPOTESI E' una metodologia statistica che basandosi sulle probabilità porta a prendere delle decisioni. GRADI DI LIBERTA' Sono dati, in generale, dal numero delle modalità che la variabile assume meno i vincoli. g.l.r-1 per variabili statistiche semplice g.l.(r-1)(c-1) per variabili statistiche doppie

0.777 18.4753 16.018 14.0671 1.0170 9.0371 7 18.5475 16.8119 14.4494 1.5916 10.6446 7.8408 6 16.7496 15.0863 1.835 11.0705 9.363 6.657 5 14.860 13.767 11.1433 9.4877 7.7794 5.3853 4 1.8381 11.3449 9.3484 7.8147 6.514 4.1083 3 10.5965 9.104 7.3778 5.9915 4.605.776 7.8794 6.6349 5.039 3.8415.7055 1.333 1 0.005 0.010 0.05 0.050 0.100 α0.50 d.f.

FUNZIONE TEST Area Accettaz. Ho Rifiuto H1 Test non significativo IPOTESI DA VERIFICARE D INDIPENDENZA (1) DI CONFORMITA O ADATTAMENTO Ho: nijn ij H1: nij n ij Ho: fofa H1: fo fa SIGNIFICATIVO (1) dipendenza tra x e y TEST DI NON SIGNIFICATIVO indipendenza SIGNIFICATIVITA SIGNIFICATIVO (s) NON SIGNIFICATIVO rifiuto il modello non rifiuto il modello RISPONDENZA TRA DISTRIBUZIONE CONSTATATA E QUELLA TEORICA.