Test di ipotesi su due campioni

Documenti analoghi
Test di ipotesi. Test

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)

Esercizi di statistica

Prova scritta di Statistica

Statistica parametrica e non parametrica. Gli intervalli di confidenza

Soluzioni prova scritta di Complementi di Probabilità e Statistica (29/06)

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

ESERCITAZIONE N. 7 corso di statistica

Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1

COGNOME.NOME...MATR..

STATISTICA. Esercitazione 5

Esercizi di statistica inferenziale

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità B

Presentazione dell edizione italiana

Statistica Inferenziale

Statistica - Prova scritta - 23 luglio 2015 (A) Le risposte prive di adeguata motivazione non saranno prese in considerazione

Tempo disponibile: 60 minuti

Statistica Compito A

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità D

Cognome e nome Tempo disponibile: 60 minuti. Esempio 1 Esempio 2

COGNOME.NOME...MATR..

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1

La statistica è la scienza che permette di conoscere il mondo intorno a noi attraverso i dati.

Intervalli di confidenza

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

1.1 Obiettivi della statistica Struttura del testo 2

ESAME. 9 Gennaio 2017 COMPITO B

Contenuti: Capitolo 14 del libro di testo

ESAME. 9 Gennaio 2017 COMPITO A

Prova scritta di Complementi di Probabilità e Statistica 19 Luglio 2005 (consegnare solo il file word)

Statistica Inferenziale La verifica di ipotesi. Davide Barbieri

Prova di recupero di Probabilità e Statistica - A * 21/04/2006

Tutorato di Complementi di Analisi Matematica e Statistica 30 maggio 2016

Esame di Statistica A-Di Prof. M. Romanazzi

TEST DI AUTOVALUTAZIONE TEST CHI-QUADRO. 1 Parte A In un test χ 2 di adattamento viene verificato

1.4. Siano X B(1, 1/2) e Y B(1, 1/2) variabili aleatorie indipendenti. Quale delle seguenti affermazioni é falsa? E(X + Y ) = 1 V ar(x + Y ) = 1/2

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Metodi statistici per le ricerche di mercato

Teorema del Limite Centrale

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

PROBABILITÀ ELEMENTARE

Schema lezione 5 Intervalli di confidenza

Indice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75

Lezione 17. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 17. A. Iodice

Esercitazione del

PROVA SCRITTA DI STATISTICA (COD COD ) 7 luglio 2005 APPROSSIMARE TUTTI I CALCOLI ALLA QUARTA CIFRA DECIMALE SOLUZIONI MODALITÀ A

La verifica delle ipotesi

Metodi statistici per le ricerche di mercato

Caratterizzazione dei consumi energetici (parte 3)

Statistica 1- parte II

per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione

Distribuzioni campionarie

I appello di calcolo delle probabilità e statistica

Test per una media - varianza nota

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

Metodi statistici per lo studio dei fenomeni biologici

Probabilità e Statistica

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Metodi Matematici e Informatici per la biologia. Esercizi

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

Intervalli di confidenza

Cognome e nome Tempo disponibile: 60 minuti

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

STATISTICA. Esercitazione 6

Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Casa dello Studente. Casa dello Studente

Contenuto del capitolo

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Ulteriori Conoscenze di Informatica e Statistica

Teorema del limite centrale TCL Questo importante teorema della statistica inferenziale si applica a qualsiasi variabile aleatoria che sia combinazion

Metodi statistici per le ricerche di mercato

Tecniche di sondaggio

Ulteriori Conoscenze di Informatica e Statistica. Popolazione. Campione. I risultati di un esperimento sono variabili aleatorie.

Statistica inferenziale

Test d ipotesi Introduzione. Alessandra Nardi

Gli intervalli di confidenza. Intervallo di confidenza per la media (σ 2 nota) nel caso di popolazione Gaussiana

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2014/2015 II Esonero - 15 Gennaio 2015

Calcolo delle Probabilità e Statistica Matematica: definizioni prima parte. Cap.1: Probabilità

Tutorato di Complementi di Analisi Matematica e Statistica 26 maggio 2016

Corso di Statistica Esercitazione 1.8

Il confronto fra medie

Esercitazioni di statistica

Esame di Statistica A-Di Prof. M. Romanazzi

INDICE PARTE METODOLOGICA

Teorema del limite centrale TCL

Statistica (parte II) Esercitazione 4

Analisi della regressione multipla

Distribuzioni e inferenza statistica

Verifica delle ipotesi

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

INTERVALLI DI CONFIDENZA

Intervalli di confidenza

Prova scritta Affidabilità dei sistemi stocastici e controllo statistico di qualità 28 Marzo 2013

Dipartimento di Matematica, Informatica ed Economia (DiMIE) Statistica. Antonio Azzollini

Transcript:

2/0/20 Test di ipotesi su due campioni Confronto tra due popolazioni Popolazioni effettive: unità statistiche realmente esistenti. Esempio: Confronto tra forze lavoro di due regioni. Popolazioni ipotetiche: unità statistiche esistono in virtù della realizzazione di un esperimento. Esempio:confronto tra tassi di guarigione connessi all uso di due farmaci: uno tradizionale e uno innovativo. Esempio:confronto del peso di una bustina di tè prodotta da due diversi prototipi di macchine. In genere vengono messe a confronto una popolazione effettiva ed una ipotetica.

2/0/20 Confronto tra due popolazioni (gaussiane) Esempio: In una prova sono stati messi a confronto i carichi di rottura di due tipi di corda. Si dispone di due campioni di ampiezza 20 rispettivamente. Tipo A Tipo B 80,8 79,8,39 73,32 88,92 7, 204,9 74,2 203,04 8,7 20,9 8,0 2,98 87,09 8,83 77,2 20, 84,08 9,22 9,94 7,08,74 0,28 92,07 7,97 80,22 70,83 72,79 73,8 80,8 3,9 8,98 7,89 90, 79,32,0 87,30 70,70 79,89 2,3 Si chiede di confrontare le due popolazioni per stabilire se la risposta alla rottura è la stessa. Stabilire se le due popolazioni possono considerarsi indipendenti. Calcolare il coefficiente di correlazione di Pearson: -0, Stabilire se ogni campione proviene da una popolazione gaussiana E necessario verificare questa ipotesi per campioni casuali con taglie inferiori alle unità. Density 0.00.0.0.02.02 40 0 80 200 220 Tipo A Tipo A kernel = epanechnikov, bandwidth = 7.4409 ernel density estimate ernel density estimate Normal density Dal grafico risulta che la popolazione del Tipo B potrebbe avere legge gaussiana. Density 0.0.02.03.04 Verifiche grafiche Dal grafico risulta che la popolazione del Tipo A potrebbe avere legge gaussiana. La curva blu che appare sul grafico è uno stimatore della distribuzione di frequenze, anche detto stimatore kernel. ernel density estimate 40 0 80 200 220 Tipo B kernel = epanechnikov, bandwidth = 4.8849 ernel density estimate Normal density Tipo B 2

2/0/20 Normal F[(tipoa-m)/s] 0.00 0.2 0.0 0.7.00 Tipo A Normal F[(tipob-m)/s] 0.00 0.2 0.0 0.7.00 Tipo B 0.00 0.2 0.0 0.7.00 Empirical P[i] = i/(n+) Medie campionarie: =78,72 =7,3 Deviazioni campionarie: s =,83274 =3,28298 Normal probability plot Nei grafici (effettuati con STATA) la funzione empirica è posta pari a: ( () )= I grafici mostrano entrambi andamenti lineari. 0.00 0.2 0.0 0.7.00 Empirical P[i] = i/(n+) Test di olmogorov per il Tipo A: statistica test 0,27 regione accettazione: (0;0,29408) Poiché la statistica test appartiene alla regione di accettazione, non si rigetta l ipotesi di popolazione gaussiana. Test di olmogorov per il Tipo B: statistica test 0,9 regione accettazione: (0;0,29408) Poiché la statistica test appartiene alla regione di accettazione, non si rigetta l ipotesi di popolazione gaussiana. Density 0.00.0.0.02-40 -20 0 20 40 0 var3 kernel = epanechnikov, bandwidth = 0.00 ernel density estimate ernel density estimate Normal density Il grafico si riferisce al campione casuale ottenuto effettuando la differenza tra i due campioni casuali: tipo A tipo B Come si evince dal grafico, la popolazione è ancora gaussiana. La media campionaria è 2, pari a - = 78,72 7,3 3

2/0/20 Differenze tra variabili aleatorie ' ' ' ' =!! "#$ = & ' ' =!! "#$ ' ' = () * & () ) Pertanto la v.a. che si ottiene per standardizzazione di ' -' è gaussiana standard: +' *,+' ), - *,- ). ) * /.) ) / ~ (0,) Intervallo di confidenza al livello 9 : 3 ' ' 4, & <!! <' ' &4, & Regione di accettazione di significatività : 3!! 4, & <' ' <!! &4, & Quale risulta essere l ipotesi nulla? ; < :!! = < La procedura del test resta analoga al caso univariato ; :!! < < : @AAB$B4# 44## 4

2/0/20 Intervallo di confidenza per differenza tra medie Si assuma che per i dati dell esempio le deviazione standard teoriche siano rispettivamente: =4 e =0. Per l intervallo di confidenza, occorre calcolare l errore standard della media campionaria: ( ) * & () ) = C) < & <) < =3,8 I limiti dell intervallo di confidenza sono: 4,93 (78,72 7,3),9 3,8,9 3,8 0, Si osservi che lo 0 è contenuto nell intervallo di confidenza, pertanto potrebbe accadere che!! =0 Questo significa che le due popolazioni hanno la stessa media. Questa ipotesi può essere verificata con un test. Test di ipotesi per differenza tra medie (varianze note) Volendo confrontare le medie delle due popolazioni: ; < :!! = 0 ; :!! 0 In tal caso la regione di accettazione risulta essere 4, & ;4, & Con un livello di significatività pari a 0,0, la regione di accettazione risulta essere: (-7,4;7,4) Poiché la differenza delle medie campionarie 2, appartiene alla regione di accettazione il test non rigetta l ipotesi nulla. In tal caso è possibile calcolare l errore di II tipo. Ad esempio: 3 7,4<' ' <7,4!! = 2 = 3 7,4 2 3,8 < ' ' 2 < 7,4 2 4,79 3,8 = 3 2,48<H<,44 = 0,92-0,00

2/0/20 Se il test è a una coda: ; :!! > < 3 ' ' < < &4, & Regione di accettazione 0,4 3,8 La media campionaria 2, appartiene alla regione di accettazione ;,32 Pertanto l ipotesi nulla non si rigetta. Se il test è a una coda: ; :!! < < 3 ' ' > < 4, & Regione di accettazione 0,4 3,8 La media campionaria 2, appartiene alla regione di accettazione,32; Pertanto l ipotesi nulla non si rigetta. Differenze tra variabili aleatorie, taglie diverse: ' ' ' ' =!! "#$ = & ' ' =!! "#$ ' ' = () * * & () ) )

2/0/20 Pertanto la v.a. che si ottiene per standardizzazione di ' ' è gaussiana standard. +' *,+' ), - *,- ). ) * /*.) ) /) ~ (0,) Intervallo di confidenza al livello 9 : 3 ' ' 4, & <!! <' ' &4, & Regione di accettazione di significatività : 3!! 4, & <' ' <!! &4, & Quale risulta essere l ipotesi nulla? ; < :!! = < La procedura del test resta analoga al caso precedente. ; :!! < < : @AAB$B4# 44## Differenza tra medie (varianze incognite ma uguali) Se le taglie sono maggiori di 20, basta sostituire alle varianze teoriche le varianze campionarie: Intervallo di confidenza al livello 9 : 3 ' ' 4, & <!! <' ' &4, & Regione di accettazione di significatività : 3!! 4, & <' ' <!! &4, & Nell esempio considerato si ha =283,30 e =7,4 L errore campionario risulta essere: L ) * * & L) ) ) = 4,79 L intervallo di confidenza risulta essere: (-,79;2) La regione di accettazione risulta essere: (-9,39;9,39) Si osservi che 0 è in (-,79;2) Si osservi che 2, è in (-9,39;9,39) 7

2/0/20 Differenza tra medie (varianze incognite ma uguali) Se le taglie sono minori di 20, è necessario modificare la legge della statistica test. Come nel caso univariato, la legge della popolazione è una v.a. T-Student. +' *,+' ), - *,- ) L M * /* ) /) ~N * ), dove O è la deviazione standard pesata tra le deviazioni standard delle due popolazioni: O = & 2 & & 2 Titolo Titolo 2 9,0 89,9 Esempio: La seguente tabella mostra la percentuale di rendimento annuale ( 00) di due titoli azionari. Verificare se i due titoli possono ritenersi uguali in media. Fissiamo a 0,0 il livello di significatività del test. Ipotesi nulla:!! =0 Ipotesi alternativa:!! 0 94,8 90,9 92,8 90,4 9,39 93,2 9,79 97,9 89,07 97,04 94,72 9,07 89,2 92,7 Si determina la deviazione standard pesata, ossia O = 8 8,7& 8&8 2 8&8 2 8,88=2,70 Intervallo di confidenza al livello 9 : 3 ' ',,* ), O & <!! <' ' &,,* ), O & Regione di accettazione di significatività : 3!!,,* ), O & <' ' <!! &,,* ), O & Poichè,, * ), O & =2,4 2,70 0,=2,89 e la differenza tra le medie campionarie risulta essere -0,478 si ha: L intervallo di confidenza risulta essere: (-3,37;2,4) La regione di accettazione risulta essere: (-2,89;2,89) Si osservi che 0 è in (-3,37;2,4) Si osservi che -0,478 è in (-2,89;2,89) 8

2/0/20 Perché sia possibile applicare entrambe le formule, è necessario verificare che i due campioni provengano da popolazioni gaussiane. Normal F[(var-m)/s] 0.00 0.2 0.0 0.7.00 Titolo Normal F[(var2-m)/s] 0.00 0.2 0.0 0.7.00 0.00 0.2 0.0 0.7.00 Empirical P[i] = i/(n+) Titolo 2 0.00 0.2 0.0 0.7.00 Empirical P[i] = i/(n+) Differenza tra percentuali Se la popolazione da cui proviene il campione casuale è di Bernoulli, allora le medie campionarie hanno legge gaussiana:! =! = ' ' =!! "#$ ' ' = () * * & () ) ) = = Esempio: Alle ultime elezioni politiche in un seggio X il partito A ha ricevuto il 3 delle preferenzesu 27 votanti. Alle elezioni precedenti, lo stesso partito e nello stesso seggio aveva ricevuto il 43 delle preferenze su 94 votanti. Stabilire in quale tornata elettorale il partito ha avuto un rendimento migliore. +' *,+' ), - *,- ). ) * /*.) ) /) ~ (0,) +' *,+' ), O *,O ) M*(*PM*) M )(*PM)) /* /) ~ (0,) 9

2/0/20 Intervallo di confidenza al livello 9 : 3 ' ' 4, ( ) & ( ) < <' ' &4, ( ) & ( ) 3 4, ( ) & ( ) < < &4, ( ) & ( ) ( ) =0,00082 ( ) = 0,00027 ( ) & ( ) =-0,07 =0,020947 L intervallo di confidenza è (-0,029;-0,) Poiché lo 0 non appartiene all intervallo di confidenza, i due risultati elettorali sono diversi. Poiché l intervallo di confidenza è a sinistra dello 0, allora <0, ossia nella prima tornata elettorale il partito A ha avuto minori preferenze. Per conoscere il margine di errore di queste conclusioni è necessario effettuare un test. Ipotesi nulla: =0 Per determinare la regione di accettazione, si consideri l intervallo di confidenza: 3 ' ' 4, ( ) & ( ) < <' ' &4, ( ) & ( ) E necessario scambiare con ' ' : 3 4, ( ) & ( ) <' ' < &4, ( ) & ( ) Poiché la regione di accettazione viene calcolata sotto ipotesi nulla, ossia =0ciò implica che 3 4, ( ) & ( ) <' ' < &4, ( ) & ( ) ( ) & ( ) = & = ( ) & E possibile determinare una stima di p usando tutto il campione casuale dove rappresenta il no. di votanti il partito A al I turno e rappresenta il no. di votanti il partito A al II turno 0

Impossibile visualizzare l'immagine. 2/0/20 Pertanto la regione di accettazione risulta essere: 3 4, ( ) & < <4, ( ) & Nell esempio: =no. di votanti il partito A al I turno=0,3 27=4,2 =no. di votanti il partito A al II turno=0,43 94=40,22 = CRS, ST & C <, URC =0,039 4, ( ) & =0,033 Se l ipotesi alternativa è 0,poiché =-0,07 ( 0,33;0,33) allora l ipotesi nulla si rigetta. Se l ipotesi alternativa è <0,poiché = 0,07 ( 0,33; ) 4, ( ) * & ) =0,027 allora l ipotesi nulla si rigetta. Pertanto il partito A ha preso alle elezioni precedenti una percentuale di preferenze inferiore con un margine di errore del. Test sulla differenza tra medie per dati accoppiati Esempio: 0 pazienti sono stati sottoposti ad una cura dietetica. I loro pesi sono stati registrati prima e dopo la cura. Stabilire se la cura è efficace. prima dopo 87,7 84, 9,8 87,7, 99,4 90,4 8, 84, 78,7 94, 88, 9,7 89, 0,7 99,4 32,3 2, 39, 28,2 Differenze 3, 8,,7 4,9,4,8 7,2,2 7,2,2 =7, = 2,88 Nota: I valori 7,2 e,2 si ripetono. Si tratta di effettuare un test (univariato) sul campione casuale delle differenze E necessario effettuare un S test per verificare se il campione proviene da una popolazione gaussiana. Norm. Plot Normal F[(var3-m)/s] 0.00 0.2 0.0 0.7.00 0.00 0.2 0.0 0.7.00 Empirical P[i] = i/(n+)

Impossibile visualizzare l'immagine. Impossibile visualizzare l'immagine. Impossibile visualizzare l'immagine. 2/0/20 Dati Fr.empirica Distr.Norm. Differenze 3, 0, 0,080 0,020 4,9 0,2 0,7 0,02,4 0,3 0,28 0,082,8 0,4 0,2 0,34 7,2 0, 0,438 0,2 8, 0,7 0,2 0,38,2 0,9 0,894 0,00,7 0,920 0,080 L ipotesi di distribuzione gaussiana non si rigetta. Nell effettuare il test, si sceglie come ipotesi alternativa che la cura dietetica non ha sortito effetto. ; < :! <! < = 0 ; :!! < =0 <,UR; < =,82 La regione di rifiuto del test è La regione di rifiuto del test è! < &,;,84; ; Test sulla differenza delle varianze Esempio: In una prova sono stati messi a confronto i carichi di rottura di due tipi di corda. Si dispone di due campioni di ampiezza 20 rispettivamente. Tipo A Tipo B 80,8 79,8,39 73,32 88,92 7, 204,9 74,2 203,04 8,7 20,9 8,0 2,98 87,09 8,83 77,2 20, 84,08 9,22 9,94 7,08,74 0,28 92,07 7,97 80,22 70,83 72,79 73,8 80,8 3,9 8,98 7,89 90, 79,32,0 87,30 70,70 79,89 2,3 Si chiede di confrontare le due popolazioni per stabilire se la risposta alla rottura è la stessa. Per decidere se è possibile usare un T-test sulla differenza delle medie è necessario stabilire se le varianze sono uguali. Se L * ) L ) )~ allora è possibile ritenere uguali le due varianze. Quanto prossimo ad uno? Ricordando che: il rapporto L) ( )XY con gradi di libertà ~ Y Y si consideri Questa variabile aleatoria è legata alla legge di Fisher. 2

2/0/20 Distribuzione di Fisher Il rapporto tra due variabili aleatorie con legge chi-quadrato, rapportate ai loro gradi di libertà, ha legge di Fisher. Y Z *, ) ~ Y Z La v.a. di Fisher è caratterizzata da due parametri, detti gradi di libertà, e. Indicato con A,*, ) il percentile 3 *, ) <A,*, ) = 8 si ha A,*, ) = A,, ), * Dal rapporto allora X *, ) *, [ * ).* )/ *, ), [ ) ).) )/ ), X X *, ) se vale l ipotesi nulla = Y,* Y, ),, *, ) 3 Y,* <, * ), ) < Y,, *, ) Se vale l ipotesi nulla allora 3 Y,* < <Y, ),, *, ) che risulta essere la regione di accettazione. 3

2/0/20 Nell esempio risulta essere = 283,3032; = 7,4 ossia 283,30 Z 7,4 =, Per i percentili Y <,UTR, <, < =2,4 Y <,< R, <, < =,CS = 0,40 La regione di accettazione è (0,477;2,2) poichè, 0,40; 2,4 l ipotesi nulla non si rigetta Pertanto il T-test sulla differenza delle medie va applicato con varianze uguali. Per il test a una coda, nel caso di ipotesi alternativa ; : () * ( ) ) < la regione di accettazione è 3 *, ) >Y, *, ) Y <,<R, <, < =, = 0,47 4