Statistica. Lezione 6

Documenti analoghi
Inferenza statistica. Statistica medica 1

VERIFICA DELLE IPOTESI

3. Confronto tra medie di due campioni indipendenti o appaiati

Corso di Psicometria Progredito

Metodi statistici per le ricerche di mercato

STATISTICA IX lezione

Statistiche campionarie

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Elementi di Psicometria con Laboratorio di SPSS 1

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Elementi di Psicometria con Laboratorio di SPSS 1

Verifica di ipotesi

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

Capitolo 12 La regressione lineare semplice

Facoltà di Psicologia Università di Padova Anno Accademico

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza


STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

T DI STUDENT Quando si vogliono confrontare solo due medie, si può utilizzare il test t di Student La formula per calcolare il t è la seguente:

Capitolo 11 Test chi-quadro

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELLA ROLE Six Sigma Master Black Belt

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

Esercitazione n.2 Inferenza su medie

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

La logica statistica della verifica (test) delle ipotesi

LEZIONE n. 5 (a cura di Antonio Di Marco)

Excel Terza parte. Excel 2003

4. Confronto tra medie di tre o più campioni indipendenti

Laboratorio di Pedagogia Sperimentale. Indice

Concetto di potenza statistica

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

Temi di Esame a.a Statistica - CLEF

Metodi statistici per le ricerche di mercato

Rapporto dal Questionari Insegnanti

Esercitazione n.4 Inferenza su varianza

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

Il campionamento statistico

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

SPC e distribuzione normale con Access

IL TEST CHI QUADRATO χ 2

Test statistici di verifica di ipotesi

La distribuzione Normale. La distribuzione Normale

1. Distribuzioni campionarie

Tema A Se due eventi A e B sono indipendenti e tali che P (A) = 1/2 e P (B) = 2/3, si può certamente concludere che

Relazioni tra variabili

Prova di autovalutazione Prof. Roberta Siciliano

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica

Calcolo delle probabilità

Statistica inferenziale

La distribuzione Gaussiana

Servizi di consulenza specialistica per IGRUE

Elementi di Psicometria con Laboratorio di SPSS 1

Analisi di dati di frequenza

Esercitazione n.1 (v.c. Binomiale, Poisson, Normale)

Istituzioni di Statistica e Statistica Economica

Corso di Psicometria Progredito

risulta (x) = 1 se x < 0.

PROGETTO INDAGINE DI OPINIONE SUL PROCESSO DI FUSIONE DEI COMUNI NEL PRIMIERO

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

DISTRIBUZIONI DI PROBABILITÀ

Grafici delle distribuzioni di frequenza

Istituzioni di Statistica e Statistica Economica

TEST DI AUTOVALUTAZIONE INTERVALLI DI CONFIDENZA E TEST

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6

ANALISI DI CORRELAZIONE

Corso di Psicometria Progredito

E naturale chiedersi alcune cose sulla media campionaria x n

Esame di Statistica del 17 luglio 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Titolo della lezione. Analisi dell associazione tra due caratteri: indipendenza e dipendenza

STATISTICA SOCIALE Corso di laurea in Scienze Turistiche - A.A. 2007/2008 Esercizi di riepilogo - 14 dicembre 2007

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

Esercitazioni di Statistica

(a cura di Francesca Godioli)

Inferenza statistica I Alcuni esercizi. Stefano Tonellato

VERIFICA DELLE IPOTESI

Il coefficiente di correlazione di Spearman per ranghi

Il confronto fra proporzioni

Strumenti informatici 13.1

GRUPPO QUATTRO RUOTE. Alessandro Tondo Laura Lavazza Matteo Scordo Alessandro Giosa Gruppo Quattro Ruote 1

Corso di. Dott.ssa Donatella Cocca

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

GESTIONE INDUSTRIALE DELLA QUALITÀ A

Pertanto la formula per una prima approssimazione del tasso di rendimento a scadenza fornisce

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr.

Transcript:

Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 6 a.a 011-01 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it

La verifica di ipotesi Le ipotesi di ricerca sono un insieme di congetture o di supposizioni che possono essere il risultato di anni di osservazione da parte del ricercatore e che motivano la ricerca Le ipotesi statistiche sono ipotesi che possono essere formulate in modo da poter essere valutate da adeguate tecniche statistiche.

Procedimento 1. Il ricercatore formula un ipotesi di lavoro, che costituisce la spiegazione di un fenomeno o indica il valore di un parametro.. Viene formulata l ipotesi nulla, cioè l affermazione che il ricercatore intende sottoporre a verifica, costruita in modo simmetrico all ipotesi di lavoro e formulata in modo tale da poter essere negata dall esperimento programmato. 3. Viene valutato dal ricercatore quanto è grande il rischio per lui accettabile di fornire una conclusione diversa dalla realtà (a lui ignota). 4. Viene disegnato l esperimento e viene definita la dimensione del campione. 3

5. Viene scelto il test statistico appropriato. 6. Viene condotto l esperimento. 7. Il risultato dell esperimento viene letto e confrontato con la distribuzione di probabilità precedentemente calcolata. Se la probabilità di ottenere il risultato osservato (data l ipotesi nulla) è inferiore alla soglia definita al punto 3 precedente, si conclude per il rifiuto dell ipotesi nulla. 4

PROCEDIMENTO Formulare Ho Calcolare la statistica test sui dati Calcolare la plausibilità di Ho visti i dati Conclusione Rif Ho Non rif Ho 5

Errore di prima specie Fisso il livello di significatività α che è definito come la probabilità di rifiutare l ipotesi nulla quando è vera: α è definito errore di prima specie. α = P(rif H 0 /H 0 ) Poiché rifiutare l ipotesi nulla quando è vera rappresenta un errore, dobbiamo quindi fissare un valore di α piccolo. Di solito α viene posto uguale a 0.05. 6

La statistica test è una statistica che può essere calcolata a partire dai dati del campione. Formula generale della statistica test = (statistica di interesse-parametro ipotizzato) / errore standard della statistica di interesse 7

Esempio Un campione casuale di 10 rapporti di pronto soccorso è stato scelto dai file di un servizio di ambulanza. Il tempo medio campionario è di 13 minuti. Assumiamo che la popolazione dei tempi sia distribuita normalmente con varianza uguale a 16. Si può concludere da questi dati che la media della popolazione sia diversa da 10 minuti. Fissiamo α = 0,05 8

Test a una coda o due code? Il ricercatore sulla base del tipo di domanda a cui deve rispondere decide di utilizzare un test unidirezionale o bidirezionale. Si usa un test bidirezionale quando il rifiuto dell ipotesi nulla è dovuto sia a valori piccoli che a valori grandi della statistica test. ES. H0 : µ = 10 H1 : µ 10 Nel test bidirezionale (test a due code) la regione di rifiuto è divisa in due parti o due code della distribuzione della statistica test. 9

Si usa un test unidirezionale quando il rifiuto dell ipotesi nulla è causato o soltanto da valori sufficientemente piccoli o soltanto da valori sufficientemente grandi della statistica test ES. H0 : µ = 10 H1 : µ < 10 H0 : µ = 10 H1 : µ > 10 Un test unidirezionale è un test in cui la regione di rifiuto si trova in una o in un altra coda della distribuzione. 10

Quindi: Data la distribuzione della statistica test, rifiuto l ipotesi nulla se il valore della statistica test cade nella regione di rifiuto, mentre non rifiuto l ipotesi nulla se la statistica test cade nella regione di accettazione dell ipotesi nulla. Se l ipotesi nulla non è rifiutata si può concludere che i dati sui quali si effettua il test statistico non forniscono prove sufficienti per rifiutarla. Se invece l ipotesi nulla viene rifiutata allora i dati saranno compatibili con l ipotesi alternativa H1 (ipotesi di lavoro) che riteniamo vera dato che il test ha portato al rifiuto dell ipotesi nulla. 11

N.B. Con la verifica di ipotesi non arriviamo ad una dimostrazione di un ipotesi, ma otteniamo un indicazione del fatto che l ipotesi è supportata dai dati disponibili. Per tornare al nostro esempio avendo formulato la nostra ipotesi nulla e l ipotesi alternativa e fissato l errore di prima specie α=0.05 dobbiamo scegliere l opportuna statistica test. Il test in questo caso sarà di tipo bidirezionale. Conosciamo la deviazione standard della popolazione σ; quindi utilizziamo come statistica test z. H0 : µ = 10 H1 : µ 10 z = x µ 0 σ n 1

Calcoliamo il valore della statistica test: z = 13 10 4 10 =.4 α=0.05 L area compresa tra - e -,4 e tra,4 e + viene definita p-value = 0,016 Il valore della statistica test cade nella regione di rifiuto dell ipotesi nulla quindi rifiuto H0 p<α 13

Se nel quesito precedente vogliamo verificare: H0 : µ = 10 H1 : µ < 10 allora dobbiamo utilizzare un test ad una coda. 0,5 0,4 0,3 0, 0,1 0,0 L area della coda sinistra è pari a 0,05-4 -3, -,4-1,6-0,8 0 0,8 1,6,4 3, 4 L area compresa tra - e,4 è il p-value = 0.9918 z p>α -1,65 Il valore della statistica test cade nella regione di accettazione dell ipotesi nulla quindi non rifiuto H0 14

Se nel quesito precedente vogliamo verificare: H0 : µ = 10 H1 : µ > 10 allora dobbiamo utilizzare un test ad una coda. 0,45 0,4 0,35 0,3 0,5 0, 0,15 0,1 0,05 0-5 -4-3 - -1 0 1 3 4 5 1,65 X L area della coda destra è pari a 0,05 L area compresa tra,4 e + è il p-value = 0.008 p<α Il valore della statistica test cade nella regione di rifiuto dell ipotesi nulla quindi rifiuto H0 15

In generale quindi se il valore del p-value è maggiore di α non rifiutiamo l ipotesi nulla, se invece è minore o uguale di α rifiutiamo l ipotesi nulla. Sempre con riferimento all esempio precedente, immaginiamo ora di voler verificare: nel caso in cui non conosciamo la deviazione standard della popolazione ma conosciamo solo la deviazione standard campionaria pari a 10. In questo caso ricorriamo al test t di Student con (n-1) gradi di libertà H0 : µ = 10 H1 : µ 10 16

Calcoliamo il valore della statistica test: x µ s n 0 t = t = 13 10 10 10 = 0,95 0,5 0,4 0,3 La somma delle aree delle due code è pari a 0,05 0, 0,1 0,0-4 -3, -,4-1,6-0,8 0 0,8 1,6,4 3, 4 -,6,6 Il valore della statistica test cade nella regione di accettazione dell ipotesi nulla quindi non rifiuto H0 T L area compresa tra - e -0,95 e tra 0,95 e + (pvalue) =0,37 p>α 17

La verifica di ipotesi sulla differenza fra due medie Si considerino due popolazioni di individui sottoposti a due diversi trattamenti farmacologici. Si vuole valutare ad esempio se tali trattamenti producono uguali effetti (ipotesi nulla) o diversi (ipotesi alternativa) Estraggo un campione da ognuna delle due popolazioni ed effettuo le misurazione della variabile in studio sui due campioni calcolando quindi le medie delle due serie. Se le due medie sono diverse, si vuole valutare se tale differenza sia dovuta al caso e quindi i due trattamenti hanno lo stesso effetto oppure se effettivamente si osserva un effetto diverso tra i due trattamenti 18

Campioni indipendenti H0 : µ1 = µ oppure µ1 - µ = 0 H1 per un test ad una coda : H1 : µ1 >µ oppure µ1 < µ H1 per un test a due code : H1 : µ1 µ oppure µ1 - µ 0 19

0 Consideriamo il seguente caso relativamente a due campioni indipendenti: - Campionamento effettuato da popolazioni distribuite normalmente con varianza delle popolazioni non nota e omogeneità della varianza ossia + = 1 0 1 1 ) ( ) ( n s n s x x t p p µ µ 1) ( 1) ( 1 1 1 + + = n n s n s n s p Gdl della t = (n 1-1)+(n -1) 1 σ σ =

Esempio Si intende misurare l efficacia di un farmaco per il trattamento della depressione. Sono confrontati due gruppi: un gruppo al quale è stato somministrato il farmaco (n=33) e il gruppo placebo (n=43). La media della Hamilton Depression Scale è pari a 0.38 nel primo gruppo (s=3.91) e pari a 1.57 nel secondo (s=3.87). Stabilire se la differenza tra le due medie è statisticamente significativa a livello alfa=0,01 1

H0 : µ 1 = µ H1 : µ 1 µ t = ( x 1 x s n ) p 1 ( µ µ ) + s 1 p n 0 = (0.38 15,11 33 1.57) + 0 15,11 43 = 1.3 s p = (3 )3.91 33 + + (4 )3.87 43 = 15.11 gl = 74-1.3 >-,85 quindi non rifiuto H0

Consideriamo i seguenti due casi relativamente a due campioni appaiati: Vengono confrontati i valori presi sugli stessi soggetti in due momenti diversi oppure allo stesso soggetto vengono somministrati due trattamenti differenti Il confronto tra trattamento e controllo viene effettuato per cercare di controllare possibili fonti di variabilità che potrebbero oscurare la vera differenza tra le due serie di misurazioni I soggetti di un determinato gruppo sono appaiati con i soggetti di un altro gruppo in modo tale da rendere i due gruppi simili per alcune caratteristiche quali ad esempio età, sesso, etc. 3

Esempio Ad 8 individui adulti è stata misurata la pressione arteriosa prima e dopo l assunzione di un farmaco A 00 191 9 B 174 170 4 C 198 177 1 D 170 167 3 E 179 159 0 F 18 151 31 G 193 176 17 H 09 183 6 C è sufficiente evidenza statistica a supporto dell ipotesi che ci sia una differenza? 4

La formulazione del problema fa capire che si tratta di un test a due code, con d d H0 : d medio = 0 t = s H1 : d medio 0 n 16,37 10,0 8 0 0 = = 4,55 d 131 = = 8 16,37 s = 10,0 Valore critico per 7 gdl ; test a due code; p<α quindi la probabilità che la differenza tra media osservata e media attesa sia casuale è <0,05 Si rifiuta H0. 5

Funzione excel TEST.T - Restituisce la probabilità associata a un test t di Student. 6

TEST.T(matrice1;matrice;coda;tipo) Matrice1 è il primo insieme di dati. Matrice è il secondo insieme di dati. Coda specifica il numero di code di distribuzione. Se coda = 1, TEST.T utilizzerà la distribuzione a una coda. Se coda =, TEST.T utilizzerà la distribuzione a due code. Tipo è il tipo di test t da eseguire Se tipo è uguale 1 Accoppiato Omoschedastico (varianza uguale di due campioni) 3 Eteroschedastico (varianza disuguale di due campioni) 7