Lezione 17. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 17. A. Iodice

con Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 29

Outline con 1 2 3 con 4 5 campioni appaiati 6 Indipendenza tra variabili () Statistica 2 / 29

L importanza del gruppo di controllo con In tutti i casi in cui si voglia studiare l effetto di un certo fattore, ad esempio l effetto di una medicina nel trattare una patologia, una condizione desiderabile è che tutti gli altri fattori siano costanti, in modo che ogni variazione dallo stato iniziale (ad esempio lo stato di salute pre-trattamento del paziente) sia ascrivibile unicamente al fattore oggetto di studio. Poichè una condizione del genere è in molti casi impossibile da ottenere, si procede considerando campioni: un campione viene sottoposto all effetto del fattore oggetto di studio (ad un gruppo di pazienti viene somministrato il farmaco) un altro campione (il gruppo di controllo) non viene sottoposto all effetto del fattore (al gruppo di controllo dei pazienti, viene somministrato un farmaco del tutto simile a quello in questione, ma senza alcun principio attivo). Per verificare l effetto del fattore, si verifica la significatività della differenza di reazione tra i gruppi. () Statistica 3 / 29

Verifica Ipotesi su uguaglianza tra medie di normali () con Si considerino i seguenti campioni indipendenti Campione X Campione casuale X 1,..., X n da una popolazione normale con media µ x e varianza σ 2 x. Campione Y Campione casuale Y 1,..., Y m da una popolazione normale con media µ y e varianza σ 2 y. Si vuole sottoporre a verifica di che le medie delle da cui i campioni sono estratti sono uguali H 0 : µ x = µ y vs. H 1 : µ x µ y Gli stimatori utilizzati sono X e Ȳ. X segue una distribuzione normale con valore attesto E [ X] = µx e varianza var ( X) = σ 2 x n ; Ȳ segue una distribuzione normale con valore attesto E [ Ȳ ] = µ y e varianza var ( Ȳ ) = σ2 y m. () Statistica 4 / 29

Verifica Ipotesi su uguaglianza tra medie di normali () con Per confrontare l uguaglianza tra le medie si considera lo stimatore X Ȳ segue una distribuzione normale con valore attesto E [ X Ȳ ] = µ x µ y e varianza var ( X Ȳ ) = σ2 x n la versione standardizzata di tale stimatore è dunque X Ȳ (µx µy) σ 2 x n + σ2 y m + σ2 y m ; sotto l nulla µ x = µ y e dunque µ x µ y = 0, dunque la statistica test è X Ȳ σx 2 n + σ2 y m () Statistica 5 / 29

Verifica Ipotesi su uguaglianza tra medie di normali (): esempio 1 con SI considerino metodi per realizzare un pneumatico. Il produttore ritiene che non ci sia differenza significativa nella qualità tra gli pneumatici prodotti con i metodi. Per sottoporre a verifica tale vengono realizzate 9 pneumatici con il primo metodo e 7 con il secondo. Il primo campione viene testato su strada su un percorso A, il secondo campione viene testato su un percorso B. Da studi precedenti è noto che la durata del pneumatico su entrambi i percorsi si distribuisce secondo una normale con la media che dipende dal metodo di costruzione dello pneumatico ma con varianza che dipende dal percorso su cui esso viene testato. In particolare, sul percorso A gli pneumatici hanno una durata caratterizzata da una deviazione standard pari a 3000 km, mentre sul percorso B tale valore è 4000 km. Sapendo che X = 62.2444 e Ȳ = 58.2714, i metodi producono pneumatici con la stessa durata media? Effettuare una verifica di ad una significatività del 5%. () Statistica 6 / 29

Verifica Ipotesi su uguaglianza tra medie di normali (): esempio 1 con Svolgimento I dati del problema (in migliaia di km) sono dunque X = 62.2444, Ȳ = 58.2714, n = 9, m = 7, σ x = 3 e σ y = 4. Z oss = X Ȳ σx 2 n + σ2 y m = 62.2444 58.2714 3 2 9 + 42 7 = 2.192 il valore critico, ad un livello di significatività α = 0.05 è Z c = ±1.96: poichè 2.192 è esterno all intervallo [ 1.96, 1.96], si rifiuta H 0. Il p.value è 2P (Z > z oss) = 0.0284 (si moltiplica per perchè l Hp alternativa è bidirezionale). () Statistica 7 / 29

Verifica Ipotesi su uguaglianza tra medie di normali ( note e campioni di grandi dimensioni) Si considerino i seguenti campioni indipendenti Campione X Campione casuale X 1,..., X n da una popolazione normale con media µ x e varianza σx 2, entrambe incognite. Si assume che la taglia n del campione sia elevata (), dunque è ragionevole stimare la varianza della popolazione σx 2 con lo stimatore varianza campionaria S2 x. Campione Y Campione casuale Y 1,..., Y m da una popolazione normale con media µ y e varianza σy 2, entrambe incognite. Si assume che la taglia m del campione sia elevata (m > 30), dunque è ragionevole stimare la varianza della popolazione σy 2 con lo stimatore varianza campionaria S2 y. con Si vuole sottoporre a verifica di che le medie delle da cui i campioni sono estratti sono uguali H 0 : µ x = µ y vs. H 1 : µ x µ y Gli stimatori utilizzati sono X e Ȳ. X segue una distribuzione normale con valore attesto E [ X] = µx e varianza var ( X) = S 2 x n ; Ȳ segue una distribuzione normale con valore attesto E [ Ȳ ] = µ y e varianza var ( Ȳ ) = S2 y m. () Statistica 8 / 29

Verifica Ipotesi su uguaglianza tra medie di normali ( note e campioni di grandi dimensioni) con Per confrontare l uguaglianza tra le medie si considera lo stimatore X Ȳ segue una distribuzione normale con valore attesto E [ X Ȳ ] = µ x µ y e varianza var ( X Ȳ ) = S2 x n la versione standardizzata di tale stimatore è dunque X Ȳ (µx µy) S 2 x n + S2 y m + S2 y m ; sotto l nulla µ x = µ y e dunque µ x µ y = 0, dunque la statistica test è X Ȳ S 2 x n + S2 y m che si distribuisce secondo una normale standard. () Statistica 9 / 29

Verifica Ipotesi su uguaglianza tra medie di normali ( note e campioni di grandi dimensioni): esempio 2 con Si vuole studiare l efficacia di un nuovo farmaco per ridurre il colesterolo. Per testare il farmaco vengono impiegati 100 volontari, suddivisi in gruppi da 50. Al primo gruppo viene somministrato il nuovo farmaco; al secondo gruppo, il gruppo di controllo, viene somministrata della lovastatina, sostanza di uso comune per ridurre il colesterolo. A ciascun volontario è stato detto di prendere una pillola ogni 12 ore per tre mesi. Nessuno dei pazienti sapeva se stesse prendendo il nuovo farmaco o la lovastatina. Il primo gruppo (che ha preso il nuovo farmaco) ha fatto registrare una diminuzione media di colesterolo pari a 8.8, con una variabilità nel campione pari a 4.5. Il secondo gruppo ha fatto registrare una diminuzione media di colesterolo pari a 8.2, con una variabilità nel campione pari a 5.4. Questi risultati supportano l che, ad un livello di significatività del 5%, il nuovo farmaco produce in media un decremento maggiore del livello di colesterolo? () Statistica 10 / 29

Verifica Ipotesi su uguaglianza tra medie di normali ( note e campioni di grandi dimensioni): esempio 2 con Svolgimento Si vuole sottoporre a verifica H 0 : µ x <= µ y vs H 1 : µ x > µ y. I dati del problema sono dunque X = 8.8, Ȳ = 8.2, n = 50, m = 50, S2 x = 4.5 e S 2 y = 5.4. Z oss = X Ȳ S 2 x n + S2 y m = 8.8 8.2 4.5 50 + 5.4 50 = 1.3484 il valore critico, ad un livello di significatività α = 0.05 è Z c = 1.645: dunque risulta che Z oss < Z c, pertanto non si rifiuta H 0. Il p.value è P (Z > z oss) = 0.089. () Statistica 11 / 29

Verifica Ipotesi su uguaglianza tra medie di normali ( uguali e campioni di piccole dimensioni) con Si considerino i seguenti campioni indipendenti Campione X Campione casuale X 1,..., X n da una popolazione normale con media µ x e varianza σx 2, entrambe incognite. Campione Y Campione casuale Y 1,..., Y m da una popolazione normale con media µ y e varianza σy 2, entrambe incognite. In molte applicazioni in cui si è interessati a confrontare le medie di, è ragionevole assumere che σx 2 e σ2 y, sebbene incognite, siano uguali; dunque in questo caso σ2 = σx 2 = σ2 y. Il problema è che si σ 2 non è nota. stimare σ 2 Si sfrutta il fatto che sia S 2 x che S2 y sono stimatori di σ2, e quindi si utilizzano entrambi, combinandoli. Si effettua una media ponderata di Sx 2 e S2 y. Il peso di ciascun stimatore dipende dalla numerosità di ciascun campione, e dai gradi di libertà in particolare. Poichè Sx 2 ha n 1 g.d.l. e S2 y ha m 1 g.d.l., il peso da attribuire a ciascuno stimatore sarà dato dal rapporto tra i g.d.l. dello stimatore e la somma dei g.d.l. complessivi. ( ) ( ) S 2 p = n 1 S2 x +S 2 m 1 y n 1 + m 1 } {{ } peso x n 1 + m 1 } {{ } peso y () Statistica 12 / 29

Verifica Ipotesi su uguaglianza tra medie di normali ( uguali e campioni di piccole dimensioni) con Per confrontare l uguaglianza tra le medie si considera lo stimatore X Ȳ segue una distribuzione normale con valore attesto E [ X Ȳ ] = µ x µ y e varianza var ( X Ȳ ) = S 2 p ( 1n + 1 m ) = [ S 2 x ( n 1 n 1+m 1 la versione standardizzata di tale stimatore è dunque X Ȳ (µx µy) ( ) Sp 2 1n + m 1 ) ( + Sy 2 sotto l nulla µ x = µ y e dunque µ x µ y = 0, dunque la statistica test è X Ȳ ( ) Sp 2 1n + m 1 che si distribuisce secondo una t-student con n 1 + m 1 = n + m 2 g.d.l. m 1 n 1+m 1 )] ( 1n + 1 m () Statistica 13 / 29 ) ;

Verifica Ipotesi su uguaglianza tra medie di normali ( uguali e campioni di piccole dimensioni): esempio 3 con Un campione di 22 volontari è stato utilizzato per studiare l effetto della vitamina C sugli stati influenzali. A dieci volontari è stato somministrato 1 grammo di vitamina C. Ai restanti 12 volontari è stato dato una pillola simile alla vitamina C ma senza principio attivo. La somministrazione è continuata fino alla sparizione dei sintomi influenzali. Di volta in volta è stato registrato il tempo trascorso dalla prima somministrazione alla guarigione. Si vuole verificare se la vitamina C contribuisce a ridurre il tempo di guarigione dall influenza. gruppo di controllo: {6.5, 6, 8.5, 7, 6.5, 8, 7.5, 6.5, 7.5, 6, 8.5, 7} gruppo di studio: {5.5, 6, 7, 6, 7.5, 6, 7.5, 5.5, 7, 6.5} () Statistica 14 / 29

Verifica Ipotesi su uguaglianza tra medie di normali ( uguali e campioni di piccole dimensioni): esempio 3 con Svolgimento Si vuole sottoporre a verifica H 0 : µ y >= µ x vs H 1 : µ y < µ x. I dati campionari portano alle seguenti quantità X = 7.125, Ȳ = 6.45, n = 10, m = 12, S2 x = 0.778 e Sy 2 = 0.581. S 2 p = S2 x ( n 1 n 1 + m 1 ) ( + S 2 y m 1 n 1 + m 1 ) = 0.778 11 20 + 0.581 9 20 = 0.689 X T oss = Ȳ ( ) = 7.125 6.45 ( ) = 1.9 Sp 2 1n + m 1 0.689 112 + 10 1 il valore critico, ad un livello di significatività α = 0.05 e 20 g.d.l. è T c = 1.725: dunque risulta che T oss > T c, pertanto si rifiuta H 0. Il p.value è P (T > t oss) = 0.0375. () Statistica 15 / 29

Verifica Ipotesi su uguaglianza tra medie: campioni appaiati con Paired samples Siano dati campioni X 1,..., X n e Y 1,..., Y n provenienti da normali di media µ x e µ y rispettivamente. Talora esiste una relazione tra le singole osservazioni X i e Y i (i = 1,..., n), dunque i campioni in questione non sono indipendenti. La mancanza di indipendenza trai campioni bisogna procedere diversamente da quanto fatto in precedenza. () Statistica 16 / 29

Es.5: Verifica Ipotesi sulla indipendenza tra mutabili con Per testare l efficacia di un farmaco nella cura di una malattia si considera un campione di 200 pazienti, li si suddivide in gruppi (A e B). Al gruppo A viene somministrato il farmaco, al gruppo B no; si osserva poi, per ciascun gruppo, il numero di pazienti guariti. I risultati della prova sono riassunti nella seguente tabella guariti non guariti tot. gruppo A 75 25 100 gruppo B 65 35 100 tot 140 60 200 Tabella: Appartenenza ai gruppi vs. guariti (non guariti). A partire da tale esperimento, si costruisca un test per valutare l efficacia del farmaco nella cura della malattia. Svolgimento Per stabillire se il farmaco sia o meno curativo si può sottoporre la verifica di che le variabili gruppo di appartenenza e guarigione dalla malattia siano o meno indipendenti: se così dovesse risultare, ovvero che la guarigione dalla malattia non è influenzata dalla assunzione del farmaco, si potrebbe concludere che il farmaco è inefficace. () Statistica 17 / 29

Es.5: Verifica Ipotesi sulla indipendenza tra mutabili con Svolgimento Formalmente H 0 : le variabili considerate sono indipendenti. H 1 : le variabili considerate non sono indipendenti. Al fine di calcolare l indice quadratico di connessione è necessario calcolare le frequenze che ci si attenderebbe se, fissati i marginali di tabella, le variabili fossero indipendenti. guariti non guariti tot. gruppo A 70 30 100 gruppo B 70 30 100 tot 140 60 200 Tabella: Frequenze attese sotto l di indipendenza () Statistica 18 / 29

Es.5: Verifica Ipotesi sulla indipendenza tra mutabili con Svolgimento Si passa a calcolare l indice quadratico di connessione χ 2 = + h k i=1 j=1 (35 30)2 30 (n ij nˆ ij ) 2 (75 70)2 (25 30)2 = + + nˆ ij 70 30 = 2.38 (65 70)2 + 70 La statistica appena calcolata si distribuisce secondo una v.c. chi-quadro χ 2 con (h 1) (k 1) = 1 grado di libertà (h e k sono rispettivamente il numero di modalit delle mutabili considerate). Ad un livello di significatività del 5% e con 1 g.d.l. il valore critico è χ 2 0.95,1 = 3.84. Poichè il valore osservato della statistica è minore del valore critico (2.38 < 3.84), non si può rifiutare l nulla: di conseguenza non si può sostenere che il farmaco abbia effetti sulla cura della malattia. () Statistica 19 / 29

Es.5: Verifica Ipotesi sulla bontà di accostamento con L obiettivo è sottoporre a verifica l che i dati campionari osservati provengano da una distribuzione nota. In particolare H 0 è l affermazione: i dati campionari X 1, X 2,..., X n provengono da una certa distribuzione f(x). Poiché non si fa riferimento ad un parametro, ma all intera distribuzione, si tratta di test non parametrici....una prospettiva differente Mentre nei test parametrici la di ricerca è H 1, in quanto le conseguenze operative scaturiscono dal rifiuto di H 0, nel caso dei test di adattamento il ricercatore si augura il non rifiuto di H 0, dal momento che, in questo caso, si ipotizza di aver individuato la distribuzione di provenienza dei dati campionari. () Statistica 20 / 29

Es.5: Verifica Ipotesi sulla bontà di accostamento con Si supponga di avere a disposizione di un campione casuale X 1, X 2,..., X n generato da una v.c. X f(x, θ), incognita. Si vuole verificare se X g(x, θ 0 ), dove g(.) è completamente specificata (H 0 ); l alternativa è che X sia una v.c. distribuita secondo qualsiasi altra distribuzione che non sia g(.). Costruzione della statistica test H 0 : f(x, θ) = g(x, θ 0 ) vs. H 1 : f(x, θ) g(x, θ 0 ) Per costruire il test i dati campionari vengono suddivisi in k classi (C 1, C 2,..., C k ). Le frequenze di ciascuna classe sono n 1, n 2,..., n k. Se H 0 è vera, la probabilità che X assuma valori in ciascuna delle classi è data da p 1, p 2,..., p k p i = P (X C i ), i = 1, 2,..., k. che è la frequenza teorica attesa se H 0 fosse vera. La frequenza assoluta teorica è n i p i. () Statistica 21 / 29

Es.5: Verifica Ipotesi sulla bontà di accostamento con Costruzione della statistica test (2) La statistica test corrisponde quindi nel misurare la discrepanza tra le frequenze osservate n 1, n 2,..., n k e quelle teoriche n 1 p 1, n 2 p 2,..., n k p k, formalmente: k Xoss 2 i=1 (n i n i p i ) 2 n i p i. Se il valore di Xoss 2 non è troppo distante da 0, non si rifiuta l nulla. In particolare, poiché la statistica test si distribuisce secondo un chi-quadro con k 1 g.d.l.. Dunque se Xoss 2 > χ 2 α,k 1 si rifiuta H 0. () Statistica 22 / 29

Esempio verifica bontà di accostamento con Si supponga di voler verificare quale dei dati (rosso e blu) è equilibrato. dado blu dado rosso 1 98 108 2 104 114 3 81 105 4 89 98 5 118 112 6 110 63 questo equivale a sottoporre a verifica di che le distribuzioni di frequenza osservate siano realizzazioni di una v.c. uniforme discreta. () Statistica 23 / 29

Esempio verifica bontà di accostamento con Dado blu n i np i (n i np i ) 2 np i 1 98 100 0.04 2 104 100 0.16 3 81 100 3.61 4 89 100 1.21 5 118 100 3.24 6 110 100 1.00 9.26 Ad un livello di significatività dell 1%, χ 0.01,6 1 = 15.086, dunque X 2 < χ 0.01,6 1 essendo 9.26 < 15.086. Pertanto non si rifiuta H 0. () Statistica 24 / 29

Esempio verifica bontà di accostamento con Dado rosso n i np i (n i np i ) 2 np i 1 108 100 0.64 2 114 100 1.96 3 105 100 0.25 4 98 100 0.04 5 112 100 1.44 6 63 100 13.69 18.02 Ad un livello di significatività dell 1%, χ 0.01,6 1 = 15.086, dunque X 2 > χ 0.01,6 1 essendo 18.02 > 15.086. Pertanto si rifiuta H 0. () Statistica 25 / 29

Relazione tra intervalli di confidenza e verifica di con Sia X una v.c. tale che X N(µ, σ 2 ); se σ 2 è nota, allora la regione di accettazione dell H 0 : µ = µ 0 è data da µ 0 ± Z α/2 σ n quindi non si rifiuta H 0 se il valore dello stimatore campionario X è incluso nella regione di accettazione, formalmente: La domanda σ µ 0 Z α/2 n < X σ < µ 0 + Z α/2 n Avendo osservato il campione X 1, X 2,..., X n e di conseguenza X (che quindi è fisso), quali sono i valori µ 0 che condurrebbero al non rifiuto di H 0? () Statistica 26 / 29

Relazione tra intervalli di confidenza e verifica di con Partendo dalla regione di accettazione σ µ 0 Z α/2 n < X σ < µ 0 + Z α/2 n e tenuto conto del fatto che in questo caso µ 0 può variare mentre X è fisso. Le precedenti disequazioni vengono esplicitate rispetto a µ 0 σ X > µ 0 Z α/2 n µ 0 > X σ Z α/2 n σ X < µ 0 + Z α/2 n µ 0 < X σ + Z α/2 n dunque, l intervallo di valori di µ 0 centrato su X che conducono al non rifiuto dell nulla è σ X Z α/2 n < µ 0 < X σ + Z α/2 n che rappresenta la stima intervallare di µ ad un livello di confidenza all (1 α)%. () Statistica 27 / 29

Relazione tra intervalli di confidenza e verifica di con Si consideri di aver costruito un intervallo di confidenza 1 α =.95 sulla media di una v.c. X N(µ, σ 2 = 30). Se il campione osservato è n = 25 e la stima media campionaria x = 165.64. Sulla base di questi dati la stima intervallare è [163.49; 167.79] poiché σ X z 2 α/2 n = 165.64 1.96 30 25 = 163.49 σ X + z 2 α/2 n = 165.64 + 1.96 30 25 = 167.79 Ora, se si sottopone a verifica d la media H 0 : µ 0 = 165, si può concludere immediatamente che tale non possa essere rifiutata; infatti 165 [163.49; 167.79]. () Statistica 28 / 29

Relazione tra intervalli di confidenza e verifica di con A verifica di questo, si calcolino gli estremi della regione di accettazione: σ µ 0 Z α/2 n < X σ < µ 0 + Z α/2 n 30 165 1.96 25 < X 30 < 165 + 1.96 25 162.85 < X < 167.15 il valore osservato x = 165.64 cadrà all interno di tale regione. Tale decisione sarà presa per ogni valore di µ 0 compreso negli estremi dell intervallo di confidenza [163.49; 167.79]. () Statistica 29 / 29