Introduzione ai test statistici

Documenti analoghi
Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Esercizi di statistica

Lezione VII: Z-test. Statistica inferenziale per variabili quantitative. Statistica inferenziale per variabili quantitative. Prof.

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Lezione VII: t-test. Prof. Enzo Ballone

Corso di Statistica Esercitazione 1.8

Il Test di Ipotesi Lezione 5

Fondamenti statistici : Test d Ipotesi (1)

Approssimazione normale alla distribuzione binomiale

Test per una media - varianza nota

Esercitazione 8 del corso di Statistica 2

x ;x Soluzione Gli intervalli di confidenza possono essere ottenuti a partire dalla seguente identità: da cui si ricava: IC x ;x = +

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

La verifica delle ipotesi

Test d ipotesi: confronto fra medie

Test d Ipotesi Introduzione

Un esempio. Ipotesi statistica: supposizione riguardante: un parametro della popolazione. la forma della distribuzione della popolazione

Contenuti: Capitolo 14 del libro di testo

Confronto tra due popolazioni Lezione 6

Test delle Ipotesi Parte I

STATISTICA A K (60 ore)

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

STATISTICA A K (60 ore)

05. Errore campionario e numerosità campionaria

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

PROVE (TEST) DI IPOTESI VERIFICA DI IPOTESI (TEST DI IPOTESI)

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Fondamenti di Psicometria. La statistica è facile!!! VERIFICA DELLE IPOTESI

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI VERIFICA DI IPOTESI PER IL CONFRONTO TRA DUE PROPORZIONI

Università del Piemonte Orientale. Corsi di laurea di area tecnica. Corso di Statistica Medica. Analisi dei dati quantitativi :

UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE. a.a.

Gli errori nella verifica delle ipotesi

Distribuzioni e inferenza statistica

5.5 Procedura generale per la formulazione di un test

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

SOLUZIONI ESERCITAZIONE NR. 8 Test statistici

Università degli Studi di Padova. Corso di Laurea in Medicina e Chirurgia - A.A

Distribuzioni campionarie

Prova Scritta di METODI STATISTICI PER L AMMINISTRAZIONE DELLE IMPRESE (Milano, )

Elementi di Psicometria con Laboratorio di SPSS 1

Test di ipotesi. Test

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

Statistica 1- parte II

Capitolo 9 Verifica di ipotesi: test basati su un campione

Analisi della varianza

Proprietà della varianza

Corso di Psicometria Progredito

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson Apogeo

STATISTICA ESERCITAZIONE 13

Capitolo 9 Verifica di ipotesi: test basati su un campione

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson. Casa editrice: Pearson

Analisi della varianza: I contrasti e il metodo di Bonferroni

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. La distribuzione t - student

Casa dello Studente. Casa dello Studente

Capitolo 8. Probabilità: concetti di base

Il test statistico e le ipotesi Regione di accettazione e rifiuto Test con ipotesi nulla semplice Il p-value Errori di I e II tipo Funzione di potenza

Università del Piemonte Orientale. Corsi di laurea triennale di area tecnica. Corso di Statistica e Biometria. Test di ipotesi

DISTRIBUZIONI DI CAMPIONAMENTO

Cenni all interpretazione di un Test d ipotesi

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

Concetti principale della lezione precedente

I appello di calcolo delle probabilità e statistica

Il test (o i test) del Chi-quadrato ( 2 )

Quanti soggetti devono essere selezionati?

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 4

Ipotesi statistiche (caso uno-dimensionale) Ipotesi poste sulla (distribuzione di) popolazione per raggiungere una decisione sulla popolazione stessa

Questo calcolo richiede che si conoscano media e deviazione standard della popolazione.

Esercizi di Probabilità e Statistica

Simulazione di esercizi su test di significatività e 95%CI

TUTORATO 2 Test di significatività e intervalli di confidenza

Esercitazione 8 maggio 2014

a) Usando i seguenti livelli di significatività, procedere alla verifica di ipotesi, usando come ipotesi alternativa un'ipotesi unidirezionale:

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Statistica Inferenziale

Statistica Metodologica

Esercizi riassuntivi di Inferenza

b) E necessario formulare delle ipotesi per calcolare l intervallo di confidenza ottenuto al punto a? (motivare brevemente la risposta):

Capitolo 10 Test delle ipotesi

Note sulla probabilità

Cenni di statistica statistica

Statistica. Lezione 8

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

SOLUZIONE. a) Calcoliamo il valore medio delle 10 misure effettuate (media campionaria):

Regressione lineare semplice

Dispensa di Statistica

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Statistica economica

STATISTICA A K (63 ore) Marco Riani

ESAME. 9 Gennaio 2017 COMPITO B

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

STATISTICA AZIENDALE Modulo Controllo di Qualità

Gestione ed Analisi Statistica dei dati

Presentazione dell edizione italiana

Transcript:

UNIVERSITÀ DI BOLOGNA FACOLTÀ DI MEDICINA VETERINARIA LAUREA IN SANITA E QUALITA DEI PRODOTTI DI ORIGINE ANIMALE Introduzione ai test statistici Un esempio introduttivo Controllo della rispondenza del contenuto di principio attivo nella produzione di un farmaco veterinario XY da parte dell'azienda farmaceutica WZ alla formula brevettata e depositata presso il Ministero della Sanità Farmaco XY per il trattamento di infezioni batteriche a carico dell'apparato digerente, respiratorio e genito-urinario nei bovini Principio attivo: amoxicillina/cloxacillina (in ugual proporzione) Variabile oggetto di analisi: X = titolo del principio attivo (rapporto, espresso in %, tra la quantità del principio attivo nella produzione e la quantità dichiarata e brevettata) > 100 titolo = 100 < 100 la quantità reale è maggiore di quella brevettata perfetta rispondenza della produzione alla formula la quantità reale è minore di quella brevettata La produzione viene realizzata nel rispetto della formula? 1

UNIVERSITÀ DI BOLOGNA FACOLTÀ DI MEDICINA VETERINARIA LAUREA IN SANITA E QUALITA DEI PRODOTTI DI ORIGINE ANIMALE Fase 1: la formulazione dell'ipotesi nulla (H0)... nell'esempio: in media la produzione del farmaco rispetta la formula oggetto dell'ipotesi: la media aritmetica di X nella popolazione = µ (µ = parametro incognito che caratterizza la distribuzione di X) H0: µ = µ0 con µ0 pari ad un numero fissato a priori (nell'esempio µ0 = 100)...e dell'ipotesi alternativa nell'esempio: in media la produzione non rispetta la formula (ipotesi bidirezionale: µ > µ0 effetti collaterali µ < µ0 inefficacia del farmaco) Fase 2: estrazione di un campione casuale ed analisi dei dati raccolti (calcolo di indicatori sintetici, studio della distribuzione di X nel campione) n = 25 flaconi scelti casualmente tra quelli prodotti dall'azienda {99 102,1 98,9 100,5 104,1 97,7 98,4 101,2 100,9 98,3 99,3 100,2 97,8 99,4 103,6 99,9 100,9 102,2 101,1 101,2 103,4 96,6 102,8 101,2 100,6} media aritmetica campionaria x = 100,45 varianza campionaria corretta s2 = 3,805 deviazione standard corretta s = 1,951 2

3

Fase 3: calcolo di una funzione dei dati campionari (statistica-test) adeguata per saggiare l'ipotesi nulla formulata nell'esempio: X N(µ, σ2) distribuzione di X nella popolazione 2 X N(µ, σ /n) distribuzione di X nell'universo dei campioni Z= X µ N(0, 1) σ/ n Se l'ipotesi nulla è vera Z= X µ0 N(0, 1) σ/ n t1 = x µ0 s/ n = T1 = X µ0 t(df=n-1) s/ n 100,45 100 = 1,159 1,951/ 25 Fase 4: determinazione della probabilità che, ipotizzando vera H0, si presenti un valore della statistica-test maggiore o uguale a quello ottenuto a partire da un campione casuale, preso in valore assoluto (p-value) p-value associato a t1 = P(T1 t1, H0 vera) nell'esempio: 1) mediante l'uso delle tavole della distribuzione t di Student 4

Per df = 24 a t = 1,058 corrisponde p = 0,3 a t = 1,318 corrisponde p = 0,2 a t = 1,159 corrisponde un p-value compreso tra 0,2 e 0,3 5

2) mediante l'uso della funzione Excel /Open Office Calc DISTRIB.T DISTRIB.T(Valore; Gradi libertà; Modo) Valore è il valore della variabile casuale T calcolato nel campione (t) Gradi libertà indica il numero di gradi di libertà della distribuzione (df) MODO = 1 CALCOLA IL TEST A UNA CODA, MODO = 2 CALCOLA IL TEST A DUE CODE Nell'esempio: =DISTRIB.T(1,159;24;2) restituisce il valore 0,2579 Fase 5: valutazione del p-value e decisione riguardante l'ipotesi nulla il p-value permette di stabilire se i dati campionari sono conformi all'ipotesi nulla, ovvero se ciò che abbiamo osservato nel campione rientra nei limiti di ciò che ci aspetteremmo se l'ipotesi nulla fosse vera Due possibili situazioni: 1) p-value piccolo è poco probabile che, se H0 è vera, si verifichi ciò che abbiamo osservato nel campione bassa conformità dei dati campionari all'ipotesi decisione sulla sorte dell'ipotesi nulla: H0 è confutata dai dati (rifiutata) (il test è statisticamente significativo) 2) p-value grande è molto probabile che, se H0 è vera, si verifichi ciò che abbiamo osservato nel campione alta conformità dei dati campionari all'ipotesi decisione sulle sorti dell'ipotesi: H0 è supportata dai dati (NON rifiutata) (il test è statisticamente NON significativo) 6

N.B.: NON RIFIUTARE ACCETTARE!!! non c'è sufficiente evidenza empirica contro H0 vi è sufficiente evidenza empirica a favore di H0 (assenza di evidenza non equivale ad evidenza di assenza) Equivalenza tra l'ipotesi nulla e la presunzione di innocenza in un processo sufficiente evidenza empirica contro l'imputato l'imputato è dichiarato colpevole insufficiente evidenza empirica contro l'imputato l'imputato è dichiarato NON colpevole (non vi è la certezza che sia innocente, si è appurato solo che non si hanno abbastanza prove per dimostrarne la colpevolezza) Problema: quanto piccolo (grande) deve essere il p-value? Soglie convenzionali abitualmente utilizzate (α = livello di significatività del test): 0,001 (1 ) p-value < 0,001 il test è very highly significant (significativo all'1 ) 0,01 (1%) p-value < 0,01 il test è highly significant (significativo all'1%) 0,05 (5%) p-value < 0,05 il test è significant (significativo al 5%) Il livello di significatività di un test misura la probabilità di rifiutare l'ipotesi nulla quando essa è vera. 7

Osservazioni sulla scelta del livello di significatività di un test statistico deve essere effettuata prima della fase 2 (estrazione del campione) può dipendere dalla natura dei dati e dal fenomeno oggetto di studio Esempio 1: valutazione dell'efficacia di un nuovo antibiotico (più costoso di quelli esistenti attualmente in commercio). H0: il nuovo farmaco NON HA un'efficacia maggiore di quelli in uso Rifiutare H0 = preferire il nuovo farmaco. Rifiutare H0 quando è vera = preferire il nuovo farmaco pur non essendo più efficace di quelli esistenti (e ad un costo più alto) livello di significatività = 0,001. Esempio 2: valutazione dell'efficacia di un nuovo vaccino contro una malattia infettiva attualmente non curabile. H0: il nuovo vaccino NON è efficace Rifiutare H0 = considerare efficace il nuovo vaccino Rifiutare H0 quando è vera = considerare efficace il nuovo vaccino pur non essendolo livello di significatività = 0,1. spesso si utilizza α = 0,05 Nell'esempio: 0,2579 > 0,05 (e > anche degli altri valori soglia) il test non è significativo (per qualunque livello) H0 non viene rifiutata (la produzione è sotto controllo ) 8

Fase 6: calcolo dell'intervallo di confidenza per il parametro oggetto di ipotesi ( X t0,05 s s ; X + t0,05 ) intervallo di confidenza al 95% per µ n n Nell'esempio: t0,05 s 1,951 = 2,064 = 0,81 25 n (99,64; 101,26) intervallo di confidenza al 95% per µ il valore 100 attribuito a µ nell'ipotesi nulla appartiene all'intervallo di confidenza essendo un valore compatibile con i dati del campione non viene rifiutato (vi è equivalenza tra intervallo di confidenza per un parametro e controllo di ipotesi sul parametro stesso) Il procedimento descritto: (in generale) prende il nome di test a due code (nell'esempio) prende il nome di test t di Student (a due code) per il controllo di un'ipotesi sulla media aritmetica (caso di un campione) Decisione Realtà H0 è rifiutata H0 non è rifiutata H0 è vera Errore di I tipo Decisione corretta H0 è falsa Decisione corretta Errore di II tipo α = probabilità di commettere un errore di I tipo β = probabilità di commettere un errore di II tipo 1 β= potenza del test = P(rifiutare H0 quando H0 è falsa) 9

Alcune osservazioni generali sul controllo di ipotesi statistiche 1. Spesso si ricorre ad un test statistico per valutare una nuova teoria o ipotesi scientifica (ipotesi di lavoro) Esempio 1 di ipotesi scientifica: tutte le capre in Turchia sono del Bezoar Per dimostrare che tale ipotesi è vera dovremmo verificare che tutte le capre in Turchia sono del Bezoar. Per smentirla basta trovare una capra che non sia del Bezoar. Esempio 2 di ipotesi scientifica: mangiare erba nuova in primavera provoca ipomagnesemia nel bestiame Procedimento per la verifica dell'ipotesi scientifica mediante un test statistico: popolazione 1: bestiame lasciato nella stalla (gruppo di controllo) popolazione 2: bestiame portato al pascolo (gruppo trattato ) X = magnesio nel plasma Ipotesi scientifica: il livello medio di magnesio nella popolazione 2 è diverso (inferiore?) da quello della popolazione 1 Ipotesi nulla: il livello medio nelle due popolazioni è uguale in generale l'ipotesi nulla è l'opposto dell'ipotesi scientifica rifiutare l'ipotesi nulla equivale quindi a corroborare l'ipotesi scientifica la potenza di un test statistico è l'abilità del test di individuare un trattamento il cui effetto è reale. E' direttamente proporzionale alla numerosità del campione al crescere di n cresce la probabilità di riconoscere come reale l'effetto di un trattamento 10

2. Il test statistico è sempre a due code......a meno che non vi sia l'assoluta certezza a priori (e NON una semplice aspettativa o un'idea ragionevole) che l'effetto del trattamento (nell'esempio: mangiare erba nuova in primavera) si possa manifestare solo in una direzione (diminuzione del livello medio di magnesio) 3. L'ipotesi nulla e l'ipotesi alternativa devono essere indipendenti dai dati osservati vanno formulate prima dell'osservazione dei dati campionari 4. Il livello di significatività scelto per il test deve essere indipendente dai dati osservati va fissato prima dell'osservazione dei dati campionari 5. Molti test statistici ipotizzano la validità di alcune condizioni sui dati analizzati (assunzioni) nell'esempio iniziale: X = titolo del principio attivo N(µ, σ2) per poterli applicare in maniera rigorosa occorre una verifica (preliminare alla loro applicazione) del soddisfacimento delle assunzioni rispetto ai dati campionari da analizzare Se le condizioni ipotizzate non sono soddisfatte il test statistico non deve essere utilizzato sui dati esaminati 11

6. Significatività statistica significatività biologica Esempio 1: variazioni nella pressione sanguigna degli animali sottoposti a trattamento chirurgico indotte dai farmaci anestetici (fenomeno biologicamente non importante che può risultare significativo dal punto di vista statistico) Esempio 2: aumento della fertilità di 1% associato ad una certa diluizione di liquido seminale (fenomeno che può risultare non significativo dal punto di vista statistico che può essere invece biologicamente importante) Riepilogo delle fasi del controllo di un'ipotesi su µ basato sul test t di Student Fase 1. Formulazione dell'ipotesi nulla H0: µ = µ 0 con µ 0 pari ad un numero fissato a priori e dell'ipotesi alternativa, e scelta del livello di significatività α Fase 2. Estrazione di un campione casuale, analisi dei dati raccolti (calcolo di indicatori sintetici, studio della distribuzione di X nel campione) In particolare: media aritmetica campionaria x, varianza campionaria corretta s2, deviazione standard corretta s. Fase 3: calcolo della statistica-test t1 = x µ0 t(df=n-1) s/ n 12

Fase 4: determinazione del p-value associato al valore t1 Fase 5: confronto tra il p-value ed α e decisione riguardante l'ipotesi nulla Fase 6: calcolo dell'intervallo di confidenza per µ Alcune osservazioni specifiche sul controllo dell'ipotesi su una media basato sul test t di Student 1. Alla base del test descritto vi è l'assunzione che X N(µ, σ2) 2. Se l'assunzione non vale per i dati da analizzare ma n è sufficientemente elevato si può utilizzare ugualmente il test t di Student (teorema del limite centrale) 3. Se n è piccolo il test descritto NON E' ADEGUATO trasformare i valori di X (mediante il logaritmo) in modo da ottenere dati trasformati la cui distribuzione sia normale ricorrere ad un test statistico NON PARAMETRICO che non assuma per X la normalità distributiva (esempi: test dei segni, test di Wilcoxon). 13