Test di ipotesi su due campioni

2/0/20 Test di ipotesi su due campioni Confronto tra due popolazioni Popolazioni effettive: unità statistiche realmente esistenti. Esempio: Confronto tra forze lavoro di due regioni. Popolazioni ipotetiche: unità statistiche esistono in virtù della realizzazione di un esperimento. Esempio:confronto tra tassi di guarigione connessi all uso di due farmaci: uno tradizionale e uno innovativo. Esempio:confronto del peso di una bustina di tè prodotta da due diversi prototipi di macchine. In genere vengono messe a confronto una popolazione effettiva ed una ipotetica.

2/0/20 Confronto tra due popolazioni (gaussiane) Esempio: In una prova sono stati messi a confronto i carichi di rottura di due tipi di corda. Si dispone di due campioni di ampiezza 20 rispettivamente. Tipo A Tipo B 80,8 79,8,39 73,32 88,92 7, 204,9 74,2 203,04 8,7 20,9 8,0 2,98 87,09 8,83 77,2 20, 84,08 9,22 9,94 7,08,74 0,28 92,07 7,97 80,22 70,83 72,79 73,8 80,8 3,9 8,98 7,89 90, 79,32,0 87,30 70,70 79,89 2,3 Si chiede di confrontare le due popolazioni per stabilire se la risposta alla rottura è la stessa. Stabilire se le due popolazioni possono considerarsi indipendenti. Calcolare il coefficiente di correlazione di Pearson: -0, Stabilire se ogni campione proviene da una popolazione gaussiana E necessario verificare questa ipotesi per campioni casuali con taglie inferiori alle unità. Density 0.00.0.0.02.02 40 0 80 200 220 Tipo A Tipo A kernel = epanechnikov, bandwidth = 7.4409 ernel density estimate ernel density estimate Normal density Dal grafico risulta che la popolazione del Tipo B potrebbe avere legge gaussiana. Density 0.0.02.03.04 Verifiche grafiche Dal grafico risulta che la popolazione del Tipo A potrebbe avere legge gaussiana. La curva blu che appare sul grafico è uno stimatore della distribuzione di frequenze, anche detto stimatore kernel. ernel density estimate 40 0 80 200 220 Tipo B kernel = epanechnikov, bandwidth = 4.8849 ernel density estimate Normal density Tipo B 2

2/0/20 Normal F[(tipoa-m)/s] 0.00 0.2 0.0 0.7.00 Tipo A Normal F[(tipob-m)/s] 0.00 0.2 0.0 0.7.00 Tipo B 0.00 0.2 0.0 0.7.00 Empirical P[i] = i/(n+) Medie campionarie: =78,72 =7,3 Deviazioni campionarie: s =,83274 =3,28298 Normal probability plot Nei grafici (effettuati con STATA) la funzione empirica è posta pari a: ( () )= I grafici mostrano entrambi andamenti lineari. 0.00 0.2 0.0 0.7.00 Empirical P[i] = i/(n+) Test di olmogorov per il Tipo A: statistica test 0,27 regione accettazione: (0;0,29408) Poiché la statistica test appartiene alla regione di accettazione, non si rigetta l ipotesi di popolazione gaussiana. Test di olmogorov per il Tipo B: statistica test 0,9 regione accettazione: (0;0,29408) Poiché la statistica test appartiene alla regione di accettazione, non si rigetta l ipotesi di popolazione gaussiana. Density 0.00.0.0.02-40 -20 0 20 40 0 var3 kernel = epanechnikov, bandwidth = 0.00 ernel density estimate ernel density estimate Normal density Il grafico si riferisce al campione casuale ottenuto effettuando la differenza tra i due campioni casuali: tipo A tipo B Come si evince dal grafico, la popolazione è ancora gaussiana. La media campionaria è 2, pari a - = 78,72 7,3 3

2/0/20 Differenze tra variabili aleatorie ' ' ' ' =!! "#$ = & ' ' =!! "#$ ' ' = () * & () ) Pertanto la v.a. che si ottiene per standardizzazione di ' -' è gaussiana standard: +' *,+' ), - *,- ). ) * /.) ) / ~ (0,) Intervallo di confidenza al livello 9 : 3 ' ' 4, & <!! <' ' &4, & Regione di accettazione di significatività : 3!! 4, & <' ' <!! &4, & Quale risulta essere l ipotesi nulla? ; < :!! = < La procedura del test resta analoga al caso univariato ; :!! < < : @AAB$B4# 44## 4

2/0/20 Intervallo di confidenza per differenza tra medie Si assuma che per i dati dell esempio le deviazione standard teoriche siano rispettivamente: =4 e =0. Per l intervallo di confidenza, occorre calcolare l errore standard della media campionaria: ( ) * & () ) = C) < & <) < =3,8 I limiti dell intervallo di confidenza sono: 4,93 (78,72 7,3),9 3,8,9 3,8 0, Si osservi che lo 0 è contenuto nell intervallo di confidenza, pertanto potrebbe accadere che!! =0 Questo significa che le due popolazioni hanno la stessa media. Questa ipotesi può essere verificata con un test. Test di ipotesi per differenza tra medie (varianze note) Volendo confrontare le medie delle due popolazioni: ; < :!! = 0 ; :!! 0 In tal caso la regione di accettazione risulta essere 4, & ;4, & Con un livello di significatività pari a 0,0, la regione di accettazione risulta essere: (-7,4;7,4) Poiché la differenza delle medie campionarie 2, appartiene alla regione di accettazione il test non rigetta l ipotesi nulla. In tal caso è possibile calcolare l errore di II tipo. Ad esempio: 3 7,4<' ' <7,4!! = 2 = 3 7,4 2 3,8 < ' ' 2 < 7,4 2 4,79 3,8 = 3 2,48<H<,44 = 0,92-0,00

2/0/20 Se il test è a una coda: ; :!! > < 3 ' ' < < &4, & Regione di accettazione 0,4 3,8 La media campionaria 2, appartiene alla regione di accettazione ;,32 Pertanto l ipotesi nulla non si rigetta. Se il test è a una coda: ; :!! < < 3 ' ' > < 4, & Regione di accettazione 0,4 3,8 La media campionaria 2, appartiene alla regione di accettazione,32; Pertanto l ipotesi nulla non si rigetta. Differenze tra variabili aleatorie, taglie diverse: ' ' ' ' =!! "#$ = & ' ' =!! "#$ ' ' = () * * & () ) )

2/0/20 Pertanto la v.a. che si ottiene per standardizzazione di ' ' è gaussiana standard. +' *,+' ), - *,- ). ) * /*.) ) /) ~ (0,) Intervallo di confidenza al livello 9 : 3 ' ' 4, & <!! <' ' &4, & Regione di accettazione di significatività : 3!! 4, & <' ' <!! &4, & Quale risulta essere l ipotesi nulla? ; < :!! = < La procedura del test resta analoga al caso precedente. ; :!! < < : @AAB$B4# 44## Differenza tra medie (varianze incognite ma uguali) Se le taglie sono maggiori di 20, basta sostituire alle varianze teoriche le varianze campionarie: Intervallo di confidenza al livello 9 : 3 ' ' 4, & <!! <' ' &4, & Regione di accettazione di significatività : 3!! 4, & <' ' <!! &4, & Nell esempio considerato si ha =283,30 e =7,4 L errore campionario risulta essere: L ) * * & L) ) ) = 4,79 L intervallo di confidenza risulta essere: (-,79;2) La regione di accettazione risulta essere: (-9,39;9,39) Si osservi che 0 è in (-,79;2) Si osservi che 2, è in (-9,39;9,39) 7

2/0/20 Differenza tra medie (varianze incognite ma uguali) Se le taglie sono minori di 20, è necessario modificare la legge della statistica test. Come nel caso univariato, la legge della popolazione è una v.a. T-Student. +' *,+' ), - *,- ) L M * /* ) /) ~N * ), dove O è la deviazione standard pesata tra le deviazioni standard delle due popolazioni: O = & 2 & & 2 Titolo Titolo 2 9,0 89,9 Esempio: La seguente tabella mostra la percentuale di rendimento annuale ( 00) di due titoli azionari. Verificare se i due titoli possono ritenersi uguali in media. Fissiamo a 0,0 il livello di significatività del test. Ipotesi nulla:!! =0 Ipotesi alternativa:!! 0 94,8 90,9 92,8 90,4 9,39 93,2 9,79 97,9 89,07 97,04 94,72 9,07 89,2 92,7 Si determina la deviazione standard pesata, ossia O = 8 8,7& 8&8 2 8&8 2 8,88=2,70 Intervallo di confidenza al livello 9 : 3 ' ',,* ), O & <!! <' ' &,,* ), O & Regione di accettazione di significatività : 3!!,,* ), O & <' ' <!! &,,* ), O & Poichè,, * ), O & =2,4 2,70 0,=2,89 e la differenza tra le medie campionarie risulta essere -0,478 si ha: L intervallo di confidenza risulta essere: (-3,37;2,4) La regione di accettazione risulta essere: (-2,89;2,89) Si osservi che 0 è in (-3,37;2,4) Si osservi che -0,478 è in (-2,89;2,89) 8

2/0/20 Perché sia possibile applicare entrambe le formule, è necessario verificare che i due campioni provengano da popolazioni gaussiane. Normal F[(var-m)/s] 0.00 0.2 0.0 0.7.00 Titolo Normal F[(var2-m)/s] 0.00 0.2 0.0 0.7.00 0.00 0.2 0.0 0.7.00 Empirical P[i] = i/(n+) Titolo 2 0.00 0.2 0.0 0.7.00 Empirical P[i] = i/(n+) Differenza tra percentuali Se la popolazione da cui proviene il campione casuale è di Bernoulli, allora le medie campionarie hanno legge gaussiana:! =! = ' ' =!! "#$ ' ' = () * * & () ) ) = = Esempio: Alle ultime elezioni politiche in un seggio X il partito A ha ricevuto il 3 delle preferenzesu 27 votanti. Alle elezioni precedenti, lo stesso partito e nello stesso seggio aveva ricevuto il 43 delle preferenze su 94 votanti. Stabilire in quale tornata elettorale il partito ha avuto un rendimento migliore. +' *,+' ), - *,- ). ) * /*.) ) /) ~ (0,) +' *,+' ), O *,O ) M*(*PM*) M )(*PM)) /* /) ~ (0,) 9

2/0/20 Intervallo di confidenza al livello 9 : 3 ' ' 4, ( ) & ( ) < <' ' &4, ( ) & ( ) 3 4, ( ) & ( ) < < &4, ( ) & ( ) ( ) =0,00082 ( ) = 0,00027 ( ) & ( ) =-0,07 =0,020947 L intervallo di confidenza è (-0,029;-0,) Poiché lo 0 non appartiene all intervallo di confidenza, i due risultati elettorali sono diversi. Poiché l intervallo di confidenza è a sinistra dello 0, allora <0, ossia nella prima tornata elettorale il partito A ha avuto minori preferenze. Per conoscere il margine di errore di queste conclusioni è necessario effettuare un test. Ipotesi nulla: =0 Per determinare la regione di accettazione, si consideri l intervallo di confidenza: 3 ' ' 4, ( ) & ( ) < <' ' &4, ( ) & ( ) E necessario scambiare con ' ' : 3 4, ( ) & ( ) <' ' < &4, ( ) & ( ) Poiché la regione di accettazione viene calcolata sotto ipotesi nulla, ossia =0ciò implica che 3 4, ( ) & ( ) <' ' < &4, ( ) & ( ) ( ) & ( ) = & = ( ) & E possibile determinare una stima di p usando tutto il campione casuale dove rappresenta il no. di votanti il partito A al I turno e rappresenta il no. di votanti il partito A al II turno 0

Impossibile visualizzare l'immagine. 2/0/20 Pertanto la regione di accettazione risulta essere: 3 4, ( ) & < <4, ( ) & Nell esempio: =no. di votanti il partito A al I turno=0,3 27=4,2 =no. di votanti il partito A al II turno=0,43 94=40,22 = CRS, ST & C <, URC =0,039 4, ( ) & =0,033 Se l ipotesi alternativa è 0,poiché =-0,07 ( 0,33;0,33) allora l ipotesi nulla si rigetta. Se l ipotesi alternativa è <0,poiché = 0,07 ( 0,33; ) 4, ( ) * & ) =0,027 allora l ipotesi nulla si rigetta. Pertanto il partito A ha preso alle elezioni precedenti una percentuale di preferenze inferiore con un margine di errore del. Test sulla differenza tra medie per dati accoppiati Esempio: 0 pazienti sono stati sottoposti ad una cura dietetica. I loro pesi sono stati registrati prima e dopo la cura. Stabilire se la cura è efficace. prima dopo 87,7 84, 9,8 87,7, 99,4 90,4 8, 84, 78,7 94, 88, 9,7 89, 0,7 99,4 32,3 2, 39, 28,2 Differenze 3, 8,,7 4,9,4,8 7,2,2 7,2,2 =7, = 2,88 Nota: I valori 7,2 e,2 si ripetono. Si tratta di effettuare un test (univariato) sul campione casuale delle differenze E necessario effettuare un S test per verificare se il campione proviene da una popolazione gaussiana. Norm. Plot Normal F[(var3-m)/s] 0.00 0.2 0.0 0.7.00 0.00 0.2 0.0 0.7.00 Empirical P[i] = i/(n+)

Impossibile visualizzare l'immagine. Impossibile visualizzare l'immagine. Impossibile visualizzare l'immagine. 2/0/20 Dati Fr.empirica Distr.Norm. Differenze 3, 0, 0,080 0,020 4,9 0,2 0,7 0,02,4 0,3 0,28 0,082,8 0,4 0,2 0,34 7,2 0, 0,438 0,2 8, 0,7 0,2 0,38,2 0,9 0,894 0,00,7 0,920 0,080 L ipotesi di distribuzione gaussiana non si rigetta. Nell effettuare il test, si sceglie come ipotesi alternativa che la cura dietetica non ha sortito effetto. ; < :! <! < = 0 ; :!! < =0 <,UR; < =,82 La regione di rifiuto del test è La regione di rifiuto del test è! < &,;,84; ; Test sulla differenza delle varianze Esempio: In una prova sono stati messi a confronto i carichi di rottura di due tipi di corda. Si dispone di due campioni di ampiezza 20 rispettivamente. Tipo A Tipo B 80,8 79,8,39 73,32 88,92 7, 204,9 74,2 203,04 8,7 20,9 8,0 2,98 87,09 8,83 77,2 20, 84,08 9,22 9,94 7,08,74 0,28 92,07 7,97 80,22 70,83 72,79 73,8 80,8 3,9 8,98 7,89 90, 79,32,0 87,30 70,70 79,89 2,3 Si chiede di confrontare le due popolazioni per stabilire se la risposta alla rottura è la stessa. Per decidere se è possibile usare un T-test sulla differenza delle medie è necessario stabilire se le varianze sono uguali. Se L * ) L ) )~ allora è possibile ritenere uguali le due varianze. Quanto prossimo ad uno? Ricordando che: il rapporto L) ( )XY con gradi di libertà ~ Y Y si consideri Questa variabile aleatoria è legata alla legge di Fisher. 2

2/0/20 Distribuzione di Fisher Il rapporto tra due variabili aleatorie con legge chi-quadrato, rapportate ai loro gradi di libertà, ha legge di Fisher. Y Z *, ) ~ Y Z La v.a. di Fisher è caratterizzata da due parametri, detti gradi di libertà, e. Indicato con A,*, ) il percentile 3 *, ) <A,*, ) = 8 si ha A,*, ) = A,, ), * Dal rapporto allora X *, ) *, [ * ).* )/ *, ), [ ) ).) )/ ), X X *, ) se vale l ipotesi nulla = Y,* Y, ),, *, ) 3 Y,* <, * ), ) < Y,, *, ) Se vale l ipotesi nulla allora 3 Y,* < <Y, ),, *, ) che risulta essere la regione di accettazione. 3

2/0/20 Nell esempio risulta essere = 283,3032; = 7,4 ossia 283,30 Z 7,4 =, Per i percentili Y <,UTR, <, < =2,4 Y <,< R, <, < =,CS = 0,40 La regione di accettazione è (0,477;2,2) poichè, 0,40; 2,4 l ipotesi nulla non si rigetta Pertanto il T-test sulla differenza delle medie va applicato con varianze uguali. Per il test a una coda, nel caso di ipotesi alternativa ; : () * ( ) ) < la regione di accettazione è 3 *, ) >Y, *, ) Y <,<R, <, < =, = 0,47 4