Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Documenti analoghi
Università del Piemonte Orientale. Corsi di laurea di area tecnica. Corso di Statistica Medica. Analisi dei dati quantitativi :

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. La distribuzione t - student

Questo calcolo richiede che si conoscano media e deviazione standard della popolazione.

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. Intervalli di confidenza

Università del Piemonte Orientale. Corsi di laurea triennale di area tecnica. Corso di Statistica Medica. Intervalli di confidenza

Confronto tra due popolazioni Lezione 6

Università del Piemonte Orientale. Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia. Corso di Statistica Medica

Test d ipotesi: confronto fra medie

Statistica Inferenziale

Esercitazioni di Statistica Corsi di Laurea Infermiesristica Pediatrica e Ostetricia - I anno 1

Lezione VII: Z-test. Statistica inferenziale per variabili quantitative. Statistica inferenziale per variabili quantitative. Prof.

Statistica inferenziale per variabili quantitative

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Effettuazione di un TEST D IPOTESI. = stima del parametro di interesse calcolata sui dati campionari

Tempo disponibile: 60 minuti

Metodi statistici per lo studio dei fenomeni biologici

Esercizi di statistica inferenziale

Cognome e nome Tempo disponibile: 60 minuti

Contenuto del capitolo

Università del Piemonte Orientale. Corso di dottorato in medicina molecolare. a.a Corso di Statistica Medica. Inferenza sulle medie

STATISTICA Lauree Triennali in OSTETRICIA ed INFERM. PEDIATRICA

Cognome e nome. 2 In uno studio viene misurata la pressione arteriosa sistolica a 5 maschi adulti, con i seguenti risultati : 129; 134; 142; 128; 146

Teorema del limite centrale TCL Questo importante teorema della statistica inferenziale si applica a qualsiasi variabile aleatoria che sia combinazion

Introduzione alla statistica per la ricerca in sanità

Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica. Analisi dei dati quantitativi : Analisi della varianza

Intervallo di confidenza.

Statistica Inferenziale La verifica di ipotesi. Davide Barbieri

Ulteriori Conoscenze di Informatica e Statistica. Popolazione. Campione. I risultati di un esperimento sono variabili aleatorie.

2 In uno studio viene misurata la pressione arteriosa sistolica a 5 maschi adulti, con i seguenti risultati : 127; 134; 142; 128; 144

CONFRONTO TRA LA MEDIE DI DUE CAMPIONI INDIPENDENTI

Cognome e nome Tempo disponibile: 75 minuti

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

Statistica. Capitolo 10. Verifica di Ipotesi su una Singola Popolazione. Cap. 10-1

Università del Piemonte Orientale. Corso di Laurea in Igiene Dentale. Corso di Statistica per la ricerca sperimentale e tecnologica.

Analisi della varianza

Esercizi di statistica

ESAME. 9 Gennaio 2017 COMPITO B

Elementi di Psicometria (con laboratorio software 1)

Cognome e nome. Distribuzione Gaussiana; Media = 122,4 mmhg; Deviazione standard= 14,28 mmhg

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. La distribuzione Normale (o di Gauss)

Cenni di statistica statistica

Università del Piemonte Orientale. Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia. Corso di Statistica Medica

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Corso di Psicometria Progredito

Lezione VII: t-test. Prof. Enzo Ballone

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Parametri statistici

Distribuzioni campionarie

Test per una media - varianza nota

Tipi di variabili. Indici di tendenza centrale e di dispersione

Gli intervalli di confidenza. Intervallo di confidenza per la media (σ 2 nota) nel caso di popolazione Gaussiana

Esercitazione 8 maggio 2014

Il confronto fra medie

lezione 4 AA Paolo Brunori

Università degli Studi di Padova. Corso di Laurea in Medicina e Chirurgia - A.A

Argomenti della lezione: Campionamento Stima Distribuzione campionaria Campione Popolazione Sottoinsieme degli elementi (o universo) dell '

Approssimazione normale alla distribuzione binomiale

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Il Test di Ipotesi Lezione 5

Statistica. Lezione 4

Contenuti: Capitolo 14 del libro di testo

Elaborazione statistica di dati

Introduzione all'inferenza Lezione 4

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità B

Analisi della varianza

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

La statistica è la scienza che permette di conoscere il mondo intorno a noi attraverso i dati.

Richiami di inferenza statistica Strumenti quantitativi per la gestione

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

tabelle grafici misure di

Test d ipotesi Introduzione. Alessandra Nardi

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica Medica. Le distribuzioni teoriche di probabilità

Corso Integrato di Statistica Informatica e Analisi dei Dati Sperimentali. Esercitazione E

LEZIONI DI STATISTICA MEDICA

Casa dello Studente. Casa dello Studente

Tecniche di sondaggio

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Statistica Applicata all edilizia: Stime e stimatori

1. In uno studio viene misurata la pressione arteriosa sistolica a 36 soggetti, con i seguenti risultati. Media = 172,8 Deviazione standard= 24,25

DISTRIBUZIONI DI CAMPIONAMENTO

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione

Le statistiche campionarie sono stime dei parametri ignoti della popolazione al cui valore siamo interessati.

Proprietà della varianza

Parametri e statistiche. Parametri e statistiche. Distribuzioni campionarie. Popolazione Parametri Valori fissi, Statistiche o Stimatori.

Campione: Esercitazioni di Statistica Corsi di Laurea Infermiesristica Pediatrica e Ostetricia - I anno 1

La verifica delle ipotesi

STATISTICA Lauree Triennali di Area Tecnica

b) E necessario formulare delle ipotesi per calcolare l intervallo di confidenza ottenuto al punto a? (motivare brevemente la risposta):

Distribuzioni e inferenza statistica

Parte 1 : Inferenza. Varianza nota test Z. Distribuzioni asintotiche dei test. Varianza ignota test t ad un campione

Regressione lineare semplice

UNIVERSITÀ DEGLI STUDI DI PERUGIA

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

Università del Piemonte Orientale. Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia. Corso di Statistica Medica

Test delle ipotesi sulla media.

Transcript:

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi dei dati quantitativi : Confronto tra due medie Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 1

Consideriamo diverse situazioni, tutte riconducibili all analisi di una variabile quantitativa con il confronto tra diversi gruppi di soggetti: A. Confronto tra una media campionaria ed una popolazione i cui parametri sono noti B. Confronto tra una media campionaria ed una popolazione di cui è nota la media ma non la deviazione standard C. Confronto tra 2 campioni appaiati D. Confronto tra due campioni indipendenti E. Confronto tra n campioni indipendenti F. Confronto tra misure ripetute sugli stessi soggetti I casi A e B sono già stati esaminati nella lezione sulle statistiche campionarie Il caso E corrisponde all'analisi della varianza Il caso F non sarà considerato in questo corso. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 2

Riepilogo del caso A: Confronto tra una media campionaria ed una popolazione i cui parametri sono noti Siamo interessati al confronto tra la media campionaria e la media della popolazione. I parametri della distribuzione di probabilità della variabile nella popolazione (µ e σ) sono noti. Il processo di verifica dell ipotesi si svolge secondo quanto visto in precedenza: L ipotesi di lavoro: il campione non è parte dalla popolazione considerata ma di un altra popolazione, con media differente. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 3

L ipotesi nulla: il campione estratto ha media uguale a quella della popolazione (corrisponde cioè ad un campione tratto da tale popolazione). L' errore di primo tipo è fissato al 5% (α=0,05) L' errore di secondo tipo viene fissato al 20% e la dimensione del campione è definita di conseguenza usando apposite tavole (l'argomento non è ancora stato trattato). L esperimento consiste nell estrazione di un campione e nel calcolo della media campionaria. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 4

Il test statistico consiste nel calcolo della deviata normale standardizzata: Z = ( X - µ)/ (σ/ n). Dove X : media campionaria µ: media della popolazione (σ/ n): errore standard della media (cioè deviazione standard della media campionaria) σ: deviazione standard della popolazione n: numerosità del campione Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 5

Il test è di tipo parametrico, cioè è valido a condizione che siano validi i presupposti relativi alla distribuzione di probabilità (gaussiana). L assunzione è generalmente vera dato il teorema del limite centrale (sempre che n sia sufficientemente grande e la forma della distribuzione della popolazione non sia troppo asimmetrica). Nel calcolo della dimensione del campione occorre quindi anche considerare che la distribuzione di frequenza di campioni piccoli si differenzia dalla distribuzione gaussiana maggiormente che la distribuzione di frequenza di campioni grandi. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 6

Il valore di probabilità corrispondente al valore Z (valore assoluto di Z) così ottenuto si legge dalla tabella della distribuzione normale standard. Se Z>0 viene letto il valore di probabilità compreso tra Z e. Se Z<0 viene letto il valore di probabilità compreso tra Z e -. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 7

Esempio 1 Confronto della pressione sistolica di un gruppo di pazienti affetti da una forma di arteriopatia di Burger con la popolazione generale. H lavoro= i soggetti considerati, affetti da una rara malattia delle arterie hanno pressione arteriosa (sistolica) diversa dalla popolazione generale. L ipotesi è nata osservando che i primi casi avevano valori pressori molto elevati. H 0 = i pazienti appartengono ad una popolazione con media della pressione sistolica 145 mmhg La deviazione standard della misura della pressione della popolazione è nota da precedenti studi ed è pari a 2,53 mmhg; Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 8

test bilaterale ('a due code'; sebbene l ipotesi di lavoro sia indirizzata maggiormente verso un rialzo pressorio, non ho informazioni sufficientemente forti da scegliere un test ad una coda). errore 1 tipo =0.05 numerosità campionaria non modificabile poichè sono inclusi tutti i pazienti disponibili. Non è stata calcolata la potenza statistica Test statistico: test Z (confronto tra una media campionaria e la media della popolazione). Il valore del test si legge sulle tabelle della distribuzione di probabilità normale standard (es. Tabella A3 del testo consigliato). Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 9

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 10

Requisiti del test scelto: La deviazione standard della misura della pressione della popolazione è nota da precedenti studi ed è pari a 2,53 mmhg; La distribuzione della variabile nella popolazione è gaussiana, pertanto anche piccoli campioni saranno distribuiti secondo tale distribuzione. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 11

I dati: Obs pressure (mmhg) 1 155 2 145 3 165 4 134 5 154 6 130 7 161 8 139 9 140 10 143 11 157 12 148 13 165 14 152 15 149 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 12

Le statistiche campionarie necessarie per il test N (dimensione campionaria) 15 Media campionaria 149.14 mmhg (calcolo omesso) I parametri necessari per il test µ=145 mmhg σ=2,53 mmhg Memo: Il valore della statistica Z corrispondente al limite per il rifiuto dell ipotesi nulla (dati errore 1 tipo <= 0,05 e test a due code) è 1,960. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 13

Il calcolo del test Z = ( X - µ)/ (σ/ n). Z = (149.14-145) / (2,53/ 15) = = 6,34 Conclusione =? Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 14

Il calcolo del test Z = ( X - µ)/ (σ/ n). Z = (149.14-145) / (2,53/ 15) = = 6,34 Conclusione = rifiuto l ipotesi nulla. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 15

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 16

Esempio 2 Una compagnia di assicurazioni intende controllare quali agenzie sono troppo severe oppure troppo disponibili nella valutazione dei danni. Viene effettuato un campione delle pratiche seguite da ciascuna agenzia. Per rendere omogenea la popolazione di provenienza vengono esclusi gli incidenti con feriti e quelli in autostrada. Il costo medio nella popolazione (tutte le pratiche della compagnia di assicurazione) (in migliaia di euro) = 1,6. Deviazione standard della popolazione (in migliaia di euro) = 3,4 H lavoro: L'agenzia xxyy si discosta dai parametri definiti sulla base della popolazione di tutti gli incidenti dell'anno in corso. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 17

H0: l'agenzia non si discosta. test a due code (interessano entrambi gli scostamenti) errore 1 tipo =0.10 (dato il piano di lavoro di controllo) numerosità campionaria 22 pratiche. Test statistico: test Z (confronto tra una media campionaria e la media della popolazione) Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 18

Requisiti del test scelto: La deviazione standard del costo medio è nota, poichè il centro di calcolo della compagnia ha tutte le pratiche. La distribuzione della variabile nella popolazione è asimmetrica con coda a destra (valori elevati), come indicato dal centro di calcolo. Viene effettuata una trasformazione logaritmica per renderla simile alla gaussiana: dopo la trasformazione anche piccoli campioni si distribuiscono secondo la distribuzione gaussiana. Il centro di calcolo fornisce µ e σ della popolazione Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 19

I dati Obs costo 1 1.6 2 1.3 3 0.2 4 3.0 5 2.0 6 0.3 7 1.3 8 0.6 9 2.7 10 0.9 11 5.0 12 1.8 13 1.3 14 1.2 15 0.8 16 2.5 17 2.0 18 1.2 19 7.4 20 0.3 21 0.5 22 1.1 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica 20 Confronto tra due medie

Variable: costo Stem Leaf # Boxplot 7 4 1 * 6 5 0 1 0 4 3 0 1 2 0057 4 +-----+ 1 12233368 8 *--+--* 0 2335689 7 +-----+ ----+----+----+----+ Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica 21 Confronto tra due medie

Dati trasformati su scala logaritmica. Obs costo lcosto 1 1.6 0.47000 2 1.3 0.26236 3 0.2-1.60944 4 3.0 1.09861 5 2.0 0.69315 6 0.3-1.20397 7 1.3 0.26236 8 0.6-0.51083 9 2.7 0.99325 10 0.9-0.10536 11 5.0 1.60944 12 1.8 0.58779 13 1.3 0.26236 14 1.2 0.18232 15 0.8-0.22314 16 2.5 0.91629 17 2.0 0.69315 18 1.2 0.18232 19 7.4 2.00148 20 0.3-1.20397 21 0.5-0.69315 22 1.1 0.09531 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica 22 Confronto tra due medie

Variable: lcosto Stem Leaf # Boxplot 2 0 1 1 6 1 1 01 2 0 56779 5 +-----+ 0 122333 6 *--+--* -0 21 2 +-----+ -0 75 2-1 22 2-1 6 1 0 ----+----+----+----+ Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 23

Variable: lcosto (log e del costo) Moments N 22 Mean 0.216379 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 24

Il calcolo del test Media e deviazione standard della popolazione calcolati dai logaritmi dei dati originali. µ = 0,262364 σ = 0,875469 X = 0,216 Z = ( X - µ )/ (σ / n). Z = (0,216-0,262364) / (0,875469/ 22) = = - 0,2484 p=0,401 Conclusione = non rifiuto l ipotesi nulla. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 25

Riepilogo del caso B: Confronto tra una media campionaria ed una popolazione di cui non si conosce la deviazione standard. Se non abbiamo informazioni sul parametro (il valore nella popolazione), usiamo la statistica campionaria, che è stata calcolata proprio per avere informazioni relative al valore (ignoto) del parametro nella popolazione. Si ricorda che l Atteso della varianza campionaria calcolata con il denominatore è (n-1) è una stima non distorta della varianza della popolazione. La varianza del campione però è affetta da variabilità casuale rispetto alla varianza della popolazione, a causa del campionamento. Pertanto non potremo usare statistiche basate sulla distribuzione normale standardizzata, che risulterebbe troppo poco conservativa ma dovremo usare la distribuzione t di Student. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 26

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 27

La probabilità corrispondente all intervallo tra un dato t e si legge su apposite tabelle (es. tabella A4 del testo consigliato). Si noti che i valori di probabilità cumulativa esterni ad un dato valore di t sono maggiori man mano che si riduce il numero di gradi di libertà. La distribuzione t per 30 gradi di libertà è praticamente una distribuzione normale standardizzata. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 28

Confronto tra un campione e la media della popolazione La formula del test è simile a quella già vista per il calcolo del test Z, con l'errore standard calcolato dalla deviazione standard del campione: t gl = ( X - µ)/ (s/ n). X : media campionaria µ: media della popolazione s: deviazione standard del campione (s/ n): errore standard della media (cioè dev. standard della media campionaria) n: numerosità del campione il numero di gradi di libertà è gl= n-1 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 29

Il test è di tipo parametrico, cioè è valido a condizione che: - nella popolazione la variabile sia distribuita secondo la distribuzione di probabilità gaussiana; - il campione abbia la stessa varianza della popolazione. La prima assunzione è generalmente vera dato il teorema del limite centrale (sempre che n sia sufficientemente grande e la forma della distribuzione della popolazione non sia troppo asimmetrica). La seconda è vera se vale H 0 (il campione appartiene alla popolazione), mentre non è valutabile altrimenti. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 30

Esempio Confronto della pressione sistolica tra un gruppo di pazienti affetti da una forma di arteriopatia con la popolazione generale (è l esempio precedente, sviluppato senza fare uso della informazione sulla deviazione standard della popolazione). Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 31

H lavoro= i soggetti considerati, affetti da una rara malattia delle arterie hanno pressione arteriosa (sistolica) diversa dalla popolazione generale. L ipotesi è nata osservando che i primi casi diagnosticati avevano valori pressori molto elevati H 0 = media della popolazione: pressione sistolica 145 mmhg test a due code (sebbene l ipotesi di lavoro sia indirizzata maggiormente verso un rialzo pressorio, non ho informazioni sufficientemente forti da scegliere un test ad una coda) errore 1 tipo =0.05 errore 2 tipo =0.20 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 32

Test statistico: test t (confronto tra una media campionaria e la media della popolazione, senza dati sulla deviazione standard della popolazione). Verifica dei Requisiti del test scelto: La deviazione standard della misura della pressione della popolazione non è nota. La distribuzione della variabile nella popolazione è gaussiana, pertanto anche piccoli campioni saranno distribuiti secondo tale distribuzione. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 33

I dati individuali: Obs pressure (mmhg) 1 150,00 2 146,00 3 147,00 4 139,00 5 154,00 6 145,00 7 161,00 8 143,00 9 142,00 10 143,00 11 157,00 12 148,00 13 161,00 14 152,00 15 149,00 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 34

Le statistiche campionarie N 15 Mean 149.13 Std Deviation 5,8538 Variance 34,2667 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 35

I dati necessari per il test µ=145 mmhg media campione= 149.13 Std Deviation 5,8538 dimensione del campione = 15 numero di gradi di libertà= 14 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 36

Il calcolo del test t 14 = (X - µ)/ (s/ n). t 14 = (149,13-145) / (5,8538/ 15) = = 2,7325 Conclusione = rifiuto l ipotesi nulla. Memo: Il valore della statistica t corrispondente al limite per il rifiuto dell ipotesi nulla (errore 1 tipo <= 0,05 e test a due code, 14 g.l.) = 2,145 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 37

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 38 t

Confronto tra due campioni appaiati Parliamo di campioni appaiati quando ad ogni osservazione del primo gruppo corrisponde un'osservazione del secondo gruppo. E' una tecnica per ridurre l'influenza sui risultati da parte di variabili estranee Due possibilità: - misure ripetute nello stesso soggetto - soggetti diversi ma appaiati perchè simili per caratteristiche importanti (es della stessa età, sesso, luogo di nascita e professione) Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 39

L'ipotesi alternativa (di lavoro) è di solito: H1: µ 1 # µ 2 e la corrispondente ipotesi nulla è: Ho: µ 1 = µ 2 quindi Ho: µ 1 - µ 2 =0 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 40

In questo caso conviene costruire il test sulle differenze dei valori tra le coppie di misure appaiate. Conviene quindi riformulare H1 ed H0 indichiamo la media delle differenze nella popolazione con δ - L'ipotesi alternativa (di lavoro) è: H1: δ # 0 e l'ipotesi nulla è: Ho: δ = 0 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 41

Calcolo le differenze per le coppie di misure d i = x i1 - x i2 calcolo quindi media e deviazione standard di d nel campione, usando le formule consuete. Media d n i= 1 = = n d i Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 42

Deviazione _ st. = s = n i= 1 ( ) d d ( n i 1) 2 Calcolo infine l'errore standard s E. S. = n e la statistica t con g.l.= n.osservazioni 1. t = d s 0 n Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 43

Esempio: in uno studio viene valutato l'accrescimento in peso in coppie di topi nati dalla stessa nidiata e sottoposti a due diverse diete. H1: tra i topi alimentati con le due diete si osserva una differenza di crescita in peso H0: le due diete sono equivalenti e quindi tra i ratti alimentati con le due diete non si osserva una differenza di crescita in peso. errore di 1 tipo = 0,05 viene condotto un esperimento con coppie di topi. La distribuzione della variazione del peso è gaussiana. Userò il test t di student. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 44

dieta A dieta B differenza d i1 d i d (d i d ) 2 1 19 23 4 0,9 0,81 2 11 18 7 3,9 15,21 3 14 18 4 0,9 0,81 4 17 19 2-1,1 1,21 5 23 24 1-2,1 4,41 6 11 15 4 0,9 0,81 7 15 14-1 -4,1 16,81 8 14 11-3 -6,1 37,21 9 11 19 8 4,9 24,01 10 8 13 5 1,9 3,61 Σ = 0,0 Σ =104,9 d =3,1 s 2 = Σ(d i d ) 2 / (n-1) = = 104,9 / 9 = 11,66 s= 11,66 = 3,41 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 45

ES(d) = s/ n = 3,41 / 10 = 1,08 t 9 = 3,1 / 1,08 = 2,87 il valore di t con 9 gl corrisponde ad una probabilità < 0,02 (nelle due code della distribuzione t) Dato che stiamo conducendo un test bilaterale dobbiamo sommare l'area della coda superiore e della coda inferiore della distribuzione di probabilità t. Se usiamo la tavola A4, si tenga conto la tavola riporta solo la coda superiore ma l'area nelle due code è = 2 * area nella coda superiore. Ad es. la probabilità corrispondente al valore di t(9 g.l.) = 2,821 è 0,01 sulla coda superiore. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 46

quindi la probabilità corrispondente al valore di t(9 g.l.) = 2,821 è 2 * 0,01 = 0,02 sulle due code. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 47

Conclusione? Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 48

Possiamo anche calcolare un intervallo di confidenza della differenza media. Calcoliamo l'intervallo di confidenza al 95%: Limite fiduciale superiore = d + t 9gl;0,025 *(s/ n) = 3,1 + 2,262 * 1,08 =5,54 Limite fiduciale inferiore = d - t 9gl; 0,025 *(s/ n) = 3,1-2,262 * 1,08 = 0,66 t α/2 deve essere scelto tenendo conto del numero di gradi di libertà ( in questo caso 9) Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 49

Confronto tra la media di due campioni indipendenti Nel caso del confronto tra due campioni indipendenti il test è costruito per valutare la probabilità (data H 0 ) della differenza osservata tra le medie dei due campioni, correggendo per l errore standard. - L'ipotesi alternativa (di lavoro) è di solito: H1: µ 1 # µ 2 e la corrispondente ipotesi nulla è: Ho: µ 1 = µ 2 quindi Ho: µ 1 - µ 2 =0 Non ho informazioni sulla popolazione ma solo sui campioni pertanto dovrò usare il test t e la distribuzione t Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 50

La differenza tra le due medie: x = ( X 1 X 2 ); Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 51

Il calcolo dell errore standard richiede l individuazione di un valore comune della varianza. Questo valore può essere stimato sia se i due campioni appartengono alla stessa popolazione (H 0 ) sia se appartengono a due popolazioni diverse (H_lavoro), purchè abbiano la stessa varianza (omoscedasticità). Si potrà quindi calcolare uno stimatore comune dell errore standard. Il caso di due campioni con varianze diverse si può affrontare con i test non parametrici, considerati nelle prossime lezioni. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 52

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 53 Nel caso di due campioni con varianza comune, lo stimatore migliore della varianza comune (indicata come s (pool) 2 ) è la media delle due varianze campionarie, pesata per il numero di gradi di libertà di ciascun campione. ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 1 1 1 1 2 1 2 2 2 2 1 1 2 1 2 2 2 2 1 1 2 + + Σ Σ = + + = n n x x x x n n s n s n s pool = somma delle devianze / gradi di libertà

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 54 Per il calcolo dell Errore Standard pooled si consideri che: n n x x 2 2 2 1 2 1 2 1 var σ = σ +

ES( X 1 X 2 ) = (s (pool) 2 /n 1 + s pool 2 /n 2 ) = [s (pool) 2 * (1/n 1 + 1/n 2 )] = s (pool) * (1/n 1 + 1/n 2 ) t gl = s pool x 1 x 1 2 1 1 + n n 2 Il numero di gradi di libertà è n 1 + n 2-2 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 55

La verifica dei requisiti di normalità sarà considerata in una delle prossime lezioni. In modo approssimato si può: 1. tenere conto che la distribuzione di campionamento è sempre normale quando i campioni sono grandi. n> 30 garantisce la normalità della distribuzione dei campioni anche se la distribuzione di base è asimmetrica. 2. Disegnare un istogramma, che deve essere simmetrico 3. Utilizzare una procedura (grafici QQ o PP in SPSS) che effettua il test di normalità. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 56

Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 57

Esempio: In un laboratorio si intende confrontare l effetto di due differenti diete sulla crescita di ratti. La tabella indica l incremento di peso conseguito tra 7 e 60 giorni dalla nascita. H lavoro: Le due diete sono diverse (in particolare ritengo che la dieta 1 consenta una più veloce aumento di peso ma non ho evidenze per rifiutare a priori altre possibilità). H 0 : le due diete sono uguali per quanto riguarda l aumento di peso. Test a 2 code Errore di primo tipo= 0,05 Lo studio riguarda animali già trattati, pertanto la numerosità campionaria è definita in base al numero di animali già trattati con le due diete Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 58

Test t-student (confronto tra medie di 2 campioni indipendenti). Valutazione dei requisiti per il test: La distribuzione del peso degli animali è gaussiana. Gli animali sono dello stesso ceppo, si suppone quindi che la varianza del peso sia la stessa e che le due diete non modifichino la varianza comune. Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 59

I dati: incremento tra peso a 7 gg e peso a 60 gg Dieta 1 Dieta 2 134 70 146 118 104 101 119 85 124 107 161 132 107 94 83 113 129 97 123 X 1 = 120,0 X 2 = 101,0 n 1 = 12 n 2 = 7 x = ( X 1 X 2 ) = 120-101= 19,0 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 60

La stima della varianza nei due gruppi viene effettuata con una media pesate delle due varianze (nel primo e nel secondo gruppo). Viene indicata come varianza pooled. S 2 = {Σ(x i1 X 1 ) 2 + Σ(x i2 X 2 ) 2 } / [(n 1 + n 2-2)] Σ(x i1 X 1 ) 2 = 5032,00 Σ(x i2 X 2 ) 2 = 2552,00 S 2 = {5032 + 2552} / 17 = 446,12 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 61

L'errore standard viene quindi calcolato usando la deviazione standard pooled. ES( X 1 X 2 ) = [s 2 * (1/n 1 + 1/n 2 )] ES( X 1 X 2 ) = [446.12 * (1/12 + 1/7) ] = 100,90 = 10,04 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 62

t 17 = (120,0 101,0) / 10,04 = 1,89 Le due aree verdi corrispondono a p=0.05, su due code Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 63

Il valore di t con 17 gl corrispondente alla probabilità del 5% sulle due code è 2,110 Conclusione? Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 64

Calcoliamo l'intervallo di confidenza della differenza osservata tra i due gruppi. Calcoliamo l'intervallo di confidenza al 95%: Limite fiduciale superiore = (19,0) + 2,110 * 10,04= 40,18 Limite fiduciale inferiore = (19,0) - 2,110 * 10,04= -2,18 x 1 x2 + t gl;0,025 * [s 2 * (1/n 1 + 1/n 2 )] = x 1 x2 + t gl;0,025 * [s 2 * (1/n 1 + 1/n 2 )]= Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 65

Esercizi dal testo p 212 n 1 p 212 n 2 p 212 n 4 p 212 n 5 + intervallo di confidenza al 95% della differenza p 213 n 8 + intervallo di confidenza al 95% della differenza p 213 n 9 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 66