Politecnico di Milano Appunti delle lezioni del corso di Statistica (2L) per gli allievi INF e TEL, AA 2008/2009. Inferenza non parametrica

Documenti analoghi
Campionamento casuale da popolazione finita (caso senza reinserimento )

PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2013

Appunti di STATISTICA

ALCUNI ESERCIZI SUI TEST DI IPOTESI PARAMETRICHE PARTE 1

Popolazione e Campione

Università degli Studi di Cassino, Anno accademico Corso di Statistica 2, Prof. M. Furno

Stima della media di una variabile X definita su una popolazione finita

Argomenti trattati: Stima puntuale e stimatore Proprietà degli stimatori Stima puntuale della media della

Stimatori corretti, stimatori efficaci e disuguaglianza di Cramer Rao

Corso di Statistica. Test per differenza tra medie e proporzioni. Prof.ssa T. Laureti a.a

Esercitazioni di Statistica

Politecnico di Milano - Anno Accademico Statistica Docente: Alessandra Guglielmi Esercitatore: Stefano Baraldo

SUCCESSIONI DI FUNZIONI

Proprietà asintotiche stimatori OLS e statistiche collegate

ESERCIZI SULLE SERIE

Anemia. Anemia - percentuali

SERIE NUMERICHE Esercizi risolti. (log α) n, α > 0 c)

Statistica. Esercitazione 12. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice

Costo manutenzione (euro)

Quesito 1. I seguenti dati si riferiscono ai tempi di reazione motori a uno stimolo luminoso, espressi in decimi di secondo, di un gruppo di piloti:

Legge Gamma e Legge Chi quadro

Stimatori, stima puntuale e intervalli di confidenza Statistica L-33 prof. Pellegrini

Statistica 1 A.A. 2015/2016

Convergenza di variabili aleatorie

Statistica. Lezione 5

UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA

SERIE DI POTENZE Esercizi risolti. Esercizio 1 Determinare il raggio di convergenza e l insieme di convergenza della serie di potenze. x n.

1. a n = n 1 a 1 = 0, a 2 = 1, a 3 = 2, a 4 = 3,... Questa successione cresce sempre piú al crescere di n e vedremo che {a n } diverge.

Soluzioni. Se l interallo avesse livello di confidenza 99%, al posto di 1,96 avremmo

Esercizi di Calcolo delle Probabilità e Statistica Matematica

Tutorato di Probabilità 1, foglio I a.a. 2007/2008

LEGGE DEI GRANDI NUMERI

1.6 Serie di potenze - Esercizi risolti

Titolo della lezione. Campionamento e Distribuzioni Campionarie

Alcuni concetti di statistica: medie, varianze, covarianze e regressioni

Esercizi sulle successioni

Esercizi di Analisi II

2,3, (allineamenti decimali con segno, quindi chiaramente numeri reali); 4 ( = 1,33)

Esercitazioni di Statistica Dott. Danilo Alunni Fegatelli

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:

Teoria dei Fenomeni Aleatori AA 2012/13

n=400 X= Km; s cor =9000 Km Livello di confidenza (1-α)=0,95 z(0,05)=1,96

Esame di Statistica A-Di Prof. M. Romanazzi

2.5 Convergenza assoluta e non

Precorso di Matematica, aa , (IV)

Lezioni di Matematica 1 - I modulo

TEST STATISTICI. indica l ipotesi che il parametro della distribuzione di una variabile assume il valore 0

STATISTICA INFERENZIALE

Cosa vogliamo imparare?

Corso di Laurea Triennale in Matematica Calcolo delle Probabilità I (docenti G. Nappo, F. Spizzichino)

VERIFICA DI IPOTESI SULLA DIFFERENZA TRA DUE MEDIE. Psicometria 1 - Lezione 12 Lucidi presentati a lezione AA 2000/2001 dott.

Elementi di calcolo combinatorio

Intervalli di Fiducia

Quartili. Esempio Q 3 Q 1. Distribuzione unitaria degli affitti settimanali in euro pagati da 19 studenti U.S. A G I F B D L H E M C

PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2005/06

Tracce di soluzioni di alcuni esercizi di matematica 1 - gruppo 42-57

Aritmetica 2016/2017 Esercizi svolti in classe Seconda lezione

6 Stima di media e varianza, e intervalli di confidenza

n 1 = n b) {( 1) n } = c) {n!} In questo caso la successione è definita per ricorrenza: a 0 = 1, a n = n a n 1 per ogni n 1.

2 Criteri di convergenza per serie a termini positivi

Quartili. Esempio Q 3. Me Q 1. Distribuzione unitaria degli affitti settimanali in euro pagati da 19 studenti U.S. A G I F B D L H E M C

Intervalli di confidenza

Esercizi svolti su successioni e serie di funzioni

Le successioni: intro

LE MISURE DI TENDENZA CENTRALE

x n (1.1) n=0 1 x La serie geometrica è un esempio di serie di potenze. Definizione 1 Chiamiamo serie di potenze ogni serie della forma

UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA FACOLTÀ DI SOCIOLOGIA a. a Esame del STATISTICA

Lezione 5. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 5. A. Iodice.

versione

16 - Serie Numeriche

APPROSSIMAZIONE NORMALE. 1. Si tirano 300 dadi non truccati. Sia X la somma dei punteggi. Calcolare approssimativamente le probabilità seguenti.

Programma (orientativo) secondo semestre 32 ore - 16 lezioni

INFERENZA o STATISTICA INFERENTE

( 4) ( ) ( ) ( ) ( ) LE DERIVATE ( ) ( ) (3) D ( x ) = 1 derivata di un monomio con a 0 1. GENERALITÀ

Teoremi limite classici

Inferenza statistica. Popolazione. Camp. Statistiche campionarie basate sulle osservazioni del campione. Estrazione casuale. Parametro e statistica

Lezione 3: Segnali periodici

Esercitazioni del corso: ANALISI MULTIVARIATA

1. Serie numeriche. Esercizio 1. Studiare il carattere delle seguenti serie: n2 n 3 n ; n n. n n. n n (n!) 2 ; (2n)! ;

1 Variabili aleatorie in casi più generali: indipendenza, LGN e TCL.

STATISTICA 1 ESERCITAZIONE 5

Politecnico di Milano Temi d esame di STATISTICA dell AA 2006/2007 per allievi ING INF [2L], docente I. Epifani

Politecnico di Milano - Scuola di Ingegneria Industriale. II Prova in Itinere di Statistica per Ingegneria Energetica 5 luglio 2012

Def. R si dice raggio di convergenza; nel caso i) R = 0, nel caso ii)

Esame di Probabilità e Statistica del 9 luglio 2007 (Corso di Laurea Triennale in Matematica, Università degli Studi di Padova).

Consideriamo un insieme di n oggetti di natura qualsiasi. Indicheremo questi oggetti con

Traccia delle soluzioni degli esercizi del fascicolo 6

Titolo della lezione. Dal campione alla popolazione: stima puntuale e per intervalli

DETERMINANTI (SECONDA PARTE). NOTE DI ALGEBRA LINEARE

Soluzioni. 2 2n+1 3 2n. n=1. 3 2n 9. n=1. Il numero 2 può essere raccolto fuori dal segno di sommatoria: = 2. n=1 = = 8 5.

Algoritmi e Strutture Dati (Elementi)

1 Esponenziale e logaritmo.

****** FUNZIONI MISURABILI E INTEGRAZIONE ******

STATISTICA INFERENZIALE - SCHEDA N. 1 CAMPIONAMENTO E STIMA

Scheda n.6: legame tra due variabili; correlazione e regressione

Confronto di due misure Campioni indipendenti

Appunti complementari per il Corso di Statistica

(1 2 3) (1 2) Lezione 10. I gruppi diedrali.

STUDIO DEL LANCIO DI 3 DADI

(sqm ottenuto dividendo per n-1 ) =

Transcript:

Politecico di Milao Apputi delle lezioi del corso di Statistica (2L) per gli allievi INF e TEL, AA 2008/2009 Ifereza o parametrica Ileia Epifai 13 maggio 2009 Il coteuto di queste dispese è protetto dalle leggi sul copyright e dalle disposizioi dei trattati iterazioali. Il materiale qui coteuto può essere copiato (o comuque riprodotto) ed utilizzato liberamete dagli studeti, dagli istituti di ricerca, scolastici ed uiversitari affereti ai Miisteri della Pubblica Istruzioe e dell Uiversità e della Ricerca Scietifica e Tecologica per scopi istituzioali, o a fie di lucro. Ogi altro utilizzo o riproduzioe (ivi icluse, ma o limitatamete a, le riproduzioi a mezzo stampa, su supporti magetici o su reti di calcolatori) i toto o i parte è vietata, se o esplicitamete autorizzata per iscritto, a priori, da parte degli autori. L iformazioe coteuta i queste pagie è riteuta essere accurata alla data della pubblicazioe. Essa è forita per scopi meramete didattici. L iformazioe coteuta i queste pagie è soggetta a cambiameti seza preavviso. L autore o si assume alcua resposabilità per il coteuto di queste pagie (ivi icluse, ma o limitatamete a, la correttezza, completezza, applicabilità ed aggiorameto dell iformazioe). I ogi caso o può essere dichiarata coformità all iformazioe coteuta i queste pagie. I ogi caso questa ota di copyright o deve mai essere rimossa e deve essere riportata ache i utilizzi parziali. Copyright 2008 Ileia Epifai Prima versioe AA 2003/1004, Ultima versioe: AA 2007/2008 1

Idice 1 Fuzioe di ripartizioe empirica 3 2 Problemi ipotetici per u sigolo campioe. Test di buo adattameto 5 2.1 Test di Kolmogorov-Smirov........................... 5 2.2 Test χ 2 per dati categorici o discreti....................... 7 2.3 Test χ 2 per dati qualuque............................ 9 3 Problemi ipotetici per dati accoppiati. Test di idipedeza e cocordaza 13 3.1 Test χ 2 di idipedeza.............................. 13 3.2 Test di idipedeza e cocordaza di Kedall................. 15 3.2.1 Coefficiete τ di Kedall.......................... 15 3.3 Test di idipedeza di Kedall.......................... 16 3.4 Test di idipedeza e cocordaza per dati gaussiai............. 18 3.5 Test di aleatorietà di Kedall (Test of radomess)............... 19 4 Test di omogeeità 20 4.1 Test di omogeeità di Wilcoxo-Ma-Whitey per due campioi idipedeti 20 4.2 Test dei segi di Wilcoxo per dati accoppiati.................. 23 2

Siamo iteressati a fare ifereza su ua f.d.r. F. Rispetto alle precedeti lezioi, la situazioe è cambiata perché cosideriamo il caso di completa igoraza itoro a F e quidi abbiamo bisogo di procedure ifereziali idipedeti dalla forma di F. Queste procedure vao sotto il ome di metodi o parametrici, perché o ci soo parametri di dimesioe fiita coivolti ell idagie. Oppure, questi metodi soo ache detti metodi distributiofree, perché l uica iformazioe che qualche volta servirà per implemetare la procedura riguarderà la atura di F, se è f.d.r. discreta o cotiua. 1 Fuzioe di ripartizioe empirica 1 Sia X 1,...,X u campioe casuale da F. Per stimare la f.d.r. icogita F costruiamo la f.d.r. empirica associata al campioe. Defiizioe 1.1 La fuzioe di ripartizioe empirica (o campioaria) associata al campioe ˆF è ua fuzioe su R a valori i [0, 1] defiita da (1) ˆF (x) = #{j : X j x} x R Dispoiamo le osservazioi del campioe X 1,...,X i ordie crescete e idichiamo co X (1) X (2)... X () la sequeza così otteuta. Le realizzazioi di X (1), X (2),...,X () dipedoo solo dal campioe osservato, quidi X (1), X (2),...,X () soo statistiche e vao sotto il ome di statistiche d ordie. X (1) e X () soo due statistiche che avete già icotrato: X (1) è il miimo e X () è il massimo delle osservazioi. Possiamo rappresetare ˆF i termii di X (1), X (2),...,X () el seguete modo: 0 x < X (1) (2) ˆF (x) = k X (k) x < X (k+1) (k = 1,..., 1) 1 x X () Osservate che la fuzioe ˆF è aleatoria e dipede soltato dal campioe casuale, quidi è ua statistica. Ioltre, qualuque sia la realizzazioe campioaria, è ua fuzioe a gradii, compresa fra 0 e 1, mootoa crescete e cotiua da destra. Cioè ogi realizzazioe di ˆF può essere pesata come ua f.d.r. discreta. Esempio 1.2 Suppoiamo di aver osservato 1, 0, 1, 1, 3, 2.5, 3, 1. Allora ˆF 8 è 0 x < 1 1/8 1 x < 0 2/8 0 x < 1 (3) ˆF8 (x) = 5/8 1 x < 2.5 6/8 2.5 x < 3 1 x 3 1 Riferimeti i Pestma (1998): Sezioi VII.1, VII.3 (solo euciato del teorema di Gliveko-Catelli). 3

Ivestighiamo ora i valori tipici di sitesi di ˆF. Ritroveremo alcue statistiche viste elle passate lezioi. Ifatti, il mometo r-esimo di ˆF è M r = 1 Xj r cioè quello che avevamo chiamato mometo campioario r-esimo. I particolare, la media di ˆF è M 1 = X, cioè la media campioaria; la variaza di ˆF è 1 j=1 (X j X) 2 = j=1 ( 1)S2 ed è proporzioale alla statistica che abbiamo chiamato variaza campioaria; la mediaa 2 di ˆF è { X(+1)/2 se è dispari ˆq 1/2 = X (/2) +X (/2+1) 2 se è pari Aalizziamo ora le proprietà probabilistiche della statistica ˆF (x). Fissato x, itroduciamo le v.a. Y 1,...,Y defiite da Y j = 1 (,x] (X j ) per j = 1,...,. Le v.a. Y 1,...,Y costituiscoo u campioe casuale estratto dalla desità beroulliaa di parametro F(x) e ˆF (x) può essere iterpretata come la media campioaria delle Y j, cioè ˆF (x) = Ȳ. Seguoo da questa rappresetazioe probabilistica di ˆF le segueti proprietà: 1. Per ogi x R fissato, ˆF (x) rappreseta il umero di osservazioi di valore al più pari a x e ha distribuzioe biomiale di parametri F(x)); 2. ˆF (x) è stimatore o distorto e cosistete i media quadratica di F(x); ifatti E F ( ˆF (x)) = F(x) e Var F ( ˆF (x)) = F(x)(1 F(x))/ 0, per F, x. I realtà vale u risultato più forte di covergeza di ˆF a F uiforme i x, forito dal seguete teorema di Gliveko-Catelli: 3. Sia X 1, X 2,... ua sequeza di v.a. i.i.d. co comue f.d.r. F. Allora ( ) P lim ˆF (x) F(x) = 0 = 1 sup x R Quidi, la fuzioe aleatoria ˆF è uo stimatore cosistete globalmete i seso forte per F. 6. La successioe { ˆF (x)} è asitoticamete gaussiaa, cioè ( ) lim P ˆF (x) F(x) F z = Φ(z), z R, x R t.c. 0 < F(x) < 1 F(x)[1 F(x)] Per covicersi di ciò è sufficiete applicare il teorema cetrale del limite alla media campioaria di v.a. beroulliae i.i.d. 2 Nel caso di ua f.d.r. discreta, per mediaa itediamo u qualuque valore che lasci alla sua siistra e alla sua destra almeo metà della massa di probabilità. Nel caso di ua f.d.r. F strettamete crescete, la mediaa coicide co il quatile di ordie 1/2 di F. 4

2 Problemi ipotetici per u sigolo campioe. Test di buo adattameto Cosideriamo ora qualche esempio di problema ipotetico che si può affrotare avedo a disposizioe u campioe di osservazioi i.i.d. Sia X 1,...,X u campioe casuale da F. Vogliamo stabilire se la comue F sottostate al campioe sia u assegata F 0 completamete specificata, cotro l alterativa che o lo sia, cioè vogliamo costruire ua procedura di verifica dell ipotesi ulla semplice H 0 : F = F 0 cotro l alterativa composta H 1 : F F 0. Per esempio: oppure H 0 : F = N(0, 1) cotro H 1 : F N(0, 1), H 0 : F = Poisso(2) cotro H 1 : F Poisso(2). Acora, potremmo essere iteressati a verificare l ipotesi ulla composta che F appartega ad ua famiglia di f.d.r. F 0 specificata a meo di qualche parametro m-dimesioale, cioè F 0 = {F(, θ), θ Θ R m }, cotro l alterativa che F o appartega a F 0. Per esempio: oppure H 0 : F è gaussiaa cotro H 1 : F o è gaussiaa H 0 : F è Poisso cotro H 1 : F o è Poisso U test usato per verificare ipotesi su F (sia che dette ipotesi specifichio completamete F sia che e idetifichio solo la forma) è detto test di buo adattameto ( test o goodess of fit ) o test di verifica del modello. I test di buo adattameto che vedremo soo basati su statistiche test che misurao lo scostameto fra f.d.r. empirica ˆF associata al campioe e f.d.r. F specificata dall ipotesi ulla. La distribuzioe esatta della statistica test sotto l ipotesi ulla è otteuta mediate simulazioi Mote Carlo. Metre, per gradi campioi, soo dispoibili espressioi esplicite di essa. 2.1 Test di Kolmogorov-Smirov 3 Siao X 1,...,X i.i.d. F. Per affrotare il problema ipotetico H 0 : F = F 0 cotro H 1 : F F 0, itroduciamo la statistica test D := sup ˆF (x) F 0 (x) x R Se H 0 è vera, soo verosimili valori piccoli di D. Ioltre, il Teorema di Gliveko-Catelli garatisce che D 0 co probabilità 1 al divergere di. Sulla base di questa osservazioe, adottiamo la regola decisioale di rifiutare H 0 se D è grade. Al solito, quatifichiamo grade, piccolo i termii di livello di sigificatività α, risolvedo l equazioe P 0 (D > k) = α Da qui la ecessità di ivestigare la distribuzioe di D sotto H 0. Vale il risultato che segue. 3 Sezioe VII.4 del Pestma (1998) 5

Proposizioe 2.1 Se X 1,...,X è u campioe casuale estratto da F 0 e F 0 è cotiua, allora la distribuzioe di D o dipede da F 0 (cioè la distribuzioe di D è la stessa ella classe delle f.d.r. F 0 cotiue). Dimostrazioe Per maggiore semplicità, dimostriamo la Proposizioe 2.1 ell ipotesi che F 0 sia strettamete crescete. Se X F 0 allora U := F 0(X) U(0, 1) poichè F U(u) = 0 se u 0, F U(u) = 1 se u 1, metre, per 0 < u < 1 abbiamo F U(u) = P(F 0(X) u) = P(X F 1 0 (u)) = F 0(F 1 0 (u)) = u (l iversa F 1 0 esiste perché F 0 è strettamete crescete). Ioltre #{j : Xj x} #{j : F0(Xj) F0(x)} #{j : Uj F0(x)} ˆF (x) = = = dove U j := F 0(X j), j = 1,...,. Ifie, D = sup : Uj F0(x)} #{j F 0(x) = sup : Uj u} #{j u x R u [0,1] Segue che la distribuzioe di D sotto H 0 coicide co quella della statistica D che si otterrebbe se il campioe fosse estratto dalla f.d.r. U(0, 1). La statistica test D è detta statistica di Kolmogorov-Smirov e il test basato su D è il test di Kolomogorov-Smirov. I quatili di D sotto H 0 soo tabulati per vari valori di e di α. Ioltre, per, è ota ache l espressioe chiusa della f.d.r. limite di D, el seso che dove lim P 0 ( D z ) = H(z) z R H(z) = 1 2 ( 1) j 1 e 2j2 z 2 Esercizio 2.2 (MPSPS 15 giugo 2000) Dato il campioe di ampiezza 4: j=0 1.126, 3.104, 2.577, 2.372 verificate l ipotesi H 0 che il campioe sia geerato da ua f.d.r. espoeziale di parametro 1 ai livelli di sigificatività 1% e 10%, mediate il test di Kolmogorov-Smirov. Soluzioe Procediamo a determiare la statistica di Kolmogorov-Smirov D 4 : x j = 1.126 2.372 2.577 3.104 F 0 (x j ) = 1 e 1.126 0.6757 1 e 2.372 0.9067 1 e 2.577 0.9240 ˆF 4 (x j ) = 0.25 0.5 0.75 1 1 e 3.104 0.9551 ˆF 4 (x j ) F 0 (x j ) = 0.4257 0.4067 0.174 0.0449 ˆF 4 (x j 1 ) F 0 (x j ) = 0.6757 0.6567 0.4240 0.2051 da cui D 4 = 0.6757. Il p-value è 0.05186, così a livello 1% accetto H 0 metre a livello 10% rifiuto H 0. 4 4 I dati soo stati geerati dalla f.d.r. gamma(3, 1)). Usado il pacchetto ctest del software R (http://cra.r-project.org) otteiamo: ks.test(c(1.126, 3.104, 2.577, 2.372), pgamma,1, 1) Oe-sample Kolmogorov-Smirov test data: c(1.126, 3.104, 2.577, 2.372) D = 0.6757, p-value = 0.05186 alterative hypothesis: two.sided 6

Bade di cofideza per F Il fatto che la distribuzioe di D = sup x ˆF (x) F(x) sia la stessa ella classe delle F cotiue, permette di costruire ua bada di cofideza per F el seguete modo: fissiamo γ e e calcoliamo, co l uso delle tavole (o di u software statistico che li forisce), il quatile di ordie γ della f.d.r. di Kolmogorov-Smirov, q (γ), cioè risolviamo l equazioe P(D q (γ)) = γ. L ultima eguagliaza è equivalete a ( P F ˆF q (γ) F(x) ˆF ) + q (γ), x R = γ Per esempio: co γ = 0.95 e = 8 si ha q γ 0.4543. Se ora abbiamo il valore della fuzioe aleatoria ˆF 8 per ua realizzazioe (x 1,...,x 8 ), (per esempio la f.d.r. empirica (3) dell esempio 1.2), cosiderato che 0 F(x) 1 x, allora { F f.d.r. cotiue t.c. max{0, ˆF 8 (x) 0.4543} F(x) mi{1, ˆF 8 (x) + 0.4543}, è ua bada di cofideza di livello 95% per F. 2.2 Test χ 2 per dati categorici o discreti } x R 5 A differeza del test di Kolmogorov-Smirov che può essere usato solo se i dati soo cotiui e l ipotesi ulla è semplice, il test di buo adattameto χ 2 permette di affrotare ache i problemi ipotetici: a) H 0 : F = F 0 cotro H 1 : F F 0 e b) H 0 : F F 0 cotro H 1 : F F 0 per qualuque tipo di dati discreti e cotiui. Sia F ua f.d.r. discreta a k salti i a 1,...,a k e siao a 1,...,a k oti. I questo caso, X assume co probabilità strettamete positiva solo i valori a 1,...,a k, ma soo icogite le probabilità P(X = a k ). Il problema di ipotesi H 0 : F = F 0 cotro H 0 : F F 0 è u problema falsamete o parametrico 6 i quato i parametri icogiti da cui F dipede soo k 1, tati quate le ampiezze del salto di F p 1 = P F (X 1 = a 1 ),..., p k 1 = P F (X 1 = a k 1 ) (l ultimo salto p k = 1 k 1 p i è oto ua volta oti i primi k 1). Siao ora p 01 := P F0 (X 1 = a 1 ),...,p 0k := P F0 (X 1 = a k ) rispettivamete i valori per p 1,...,p k derivati dall ipotesi ulla e procediamo a verificare H 0 : p i = p 0i i = 1,...,k cotro H 1 : p i p 0i per qualche i. Dato u campioe casuale X 1,...,X estratto da F calcoliamo la frequeza assoluta campioaria di ogi modalità a i, cioè quate osservazioi assumoo valore a i : N i = #{j : X j = a i } i = 1,...,k e misuriamo lo scostameto fra i dati e il modello specificato i H 0 mediate la statistica di Pearso (4) Q := k (N i p 0i ) 2 p 0i 5 Sezioe III.3 del Pestma (1998) 6 o a caso el Pestma (1998) è trattato el Capitolo III 7

Se H 0 è vera, allora N i ha distribuzioe biomiale di parametri, p 0i e quidi E 0 (N i ) = p 0i per ogi i = 1,...,k. Così, sotto H 0, soo verosimili valori piccoli di Q. Sulla base di questa osservazioe, adottiamo la seguete regola decisioale: se Q i (4) è grade, si rifiuti H 0 Per gradi campioi siamo i grado di determiare approssimativamete il livello critico della statistica test usado il seguete risultato asitotico: Proposizioe 2.3 Sia X 1, X 2,... ua sequeza di v.a. i.i.d. co comue f.d.r. F 0. Allora, k per la f.d.r. di (N i p 0i ) 2 /(p 0i ) coverge alla f.d.r. chiquadro co k 1 gradi di liberà. Pertato, per grade, a livello α rifiutiamo H 0 se Q > χ 2 k 1 (1 α) Osservazioe 2.4 (Regola per praticoi) Per stabilire quato grade deve essere, potremmo usare la stessa regola adottata per l approssimazioe della f.d.r. biomiale co la f.d.r. gaussiaa: θ 0i > 5 per ogi i = 1,...,k. Osservazioe 2.5 Per semplificare il calcolo della statistica di Pearso Q, osserviamo che k (N i p 0i ) 2 p 0i = k N 2 i p 0i + k (p 0i ) 2 p 0i 2 = k k N i p 0i p 0i = N 2 i p 0i + k p 0i 2 k N i = k N 2 i p 0i, dove l ultima eguagliaza deriva dal fatto che p p 0i = 1 e k N i =. Osservazioe 2.6 Le frequeze relative campioarie ˆp i = N i i = 1,...,k possoo essere lette come le ampiezze dei salti della f.d.r. empirica ˆF. Espressa i termii di ˆp i, la statistica di Pearso diveta Q = k (ˆp i p 0i ) 2 I altri termii, il test χ 2 calcola lo scostameto fra f.d.r. empirica ˆF e teorica F 0 i termii di scostameto fra frequeze relative campioarie (ˆp 1,..., ˆp k ) e desità teoriche p 01,...,p 0k. D altro cato, desità di probabilità e frequeze relative campioarie si possoo defiire ache quado i dati o soo ordiali ma categorici, cioè quado ogi osservazioe è classificata come apparteete a ua categoria (cioè di essere di u certo tipo) e fra tipi diversi p 0i 8

o possiamo stabilire essu ordiameto. Se, per esempio, i u idagie sociologica, soo iteressata a verificare ipotesi statistiche sulla distribuzioe delle religioi i Italia, posso applicare il test χ 2, poedo p 1 = umero delle diverse religioi preseti i Italia (ua categoria è riservata a tutti gli altri che o e professao essua) e iterpretado p 0i come la probabilità che u soggetto scelto a caso fra quelli che vivoo i Italia professi la religioe i. Esercizio 2.7 (MPSPS 3 giugo 1999, forse) Sulla base delle dimesioi, i biologi marii classificao i grachi blu come giovai, adulti e aziai. I ua popolazioe saa le proporzioi ideali soo: 50% giovai, 30% adulti, 20% aziai. U discostameto da tali proporzioi idica squilibrio dell ecosistema. I ua piccola baia vegoo pescati 58 grachi giovai, 33 adulti e 39 aziai. Si può riteere che la popolazioe sia saa? Soluzioe Verifichiamo l ipotesi H 0 : p 1 = 0.5, p 2 = 0.3, p 3 = 0.2 sapedo che N 1 = 58, N 2 = 33, N 3 = 39 e = 58 + 33 + 39 = 130. Allora Q = 58 2 0.5 + 332 0.3 + 392 0.2 130 130 8.177 Il p-value del test è 1 F χ 2 3 1 (8.177) = 1 F E(2) (8.177) = e 8.177/2 0.017 = 1.7%. Così, per esempio, a livello 1% accettiamo l ipotesi che la popolazioe sia saa, ma a livello 5% la rifiutiamo 7. 2.3 Test χ 2 per dati qualuque Il test χ 2 di buo adattameto può essere implemetato ache per la verifica di u modello discreto umerabile o cotiuo. Sia el caso di ipotesi ulla semplice che i quello di ipotesi ulla composta, dobbiamo raggruppare i dati i k classi e cofrotare le frequeze osservate di queste classi co le corrispodeti frequeze attese sotto H 0. Test χ 2 per H 0 semplice. Cosideriamo prima di tutto il problema di verifica delle ipotesi H 0 : F = F 0 cotro H 1 : F F 0 co F 0 completamete specificata. Sia X 1,...,X u campioe casuale e A 1,...,A k k itervalli disgiuti di R. Per ogi i = 1,...,k calcoliamo a) il umero N i di osservazioi che cadoo i A i ; b) la probabilità teorica sotto H 0 che X cada i A i cioè p 0i = P F0 (X A i ) (osserviamo che se H 0 è vera, il umero medio delle osservazioi che cadoo i A i è p 0i ); c) lo scostameto fra ˆF e F 0 i termii di scostameto fra N i e p 0i mediate la statistica k di Pearso Q := (N i p 0i ) 2 /(p 0i ). Ad u livello di sigificatività α e co u campioe umeroso, 7 Implemetado il test chiquadrato col software R: chisq.test(c(58,33,39),p=c(0.5,0.3,0.2)) Chi-squared test for give probabilities data: c(58, 33, 39) X-squared = 8.1769, df = 2, p-value = 0.01677 9

rifiutiamo H 0 se Q χ 2 k 1 (1 α) Il livello critico χ 2 k 1 (1 α) del test χ2 trova giustificazioe el fatto che la f.d.r. limite di k (N i p 0i ) 2 /(p 0i ) è χ 2 k 1. Esercizio 2.8 Per testare la botà di u geeratore di umeri pseudo-casuali, geero 250 umeri dalla f.d.r. uiforme sull itervallo [0,1], otteedo: valore di X [0, 0.2) [0.2, 0.4) [0.4, 0.6) [0.6, 0.8) [0.8, 1] frequeza 45 53 59 43 50 Sulla base dei dati, cosa cocludete circa la botà del programma di geerazioe? Soluzioe A i = [0,0.2) [0.2,0.4) [0.4,0.6) [0.6,0.8) [0.8,1] N i = 45 53 59 43 50 sotto H 0 : F = U(0,1): p 0i = 250 0.2 = 50 50 50 50 50 Il valore della statistica di Pearso è: Q = 452 + 53 2 + 59 2 + 43 2 + 50 2 50 250 = 3.28 I dati soo stati ripartiti i 5 classi; quidi asitoticamete Q χ 4 e il p-value è 1 F χ4 (3.28) 1 0.4879 = 0.5121: essedo il p-value molto alto, ai cosueti livelli di sigificatività siamo praticamete certi della botà del geeratore del programma 8. Osservazioe 2.9 Uo dei problemi più grossi ell implemetazioe del test χ 2 per dati raggruppati è la scelta del umero k di itervalli A 1,...,A k disgiuti e la loro locazioe sulla retta. Negli ultimi 80 ai (a partire dai lavori di Fisher degli ai 20, passado per Ma e Wald 1942) soo state elaborate umerose regole per scegliere k i modo tale da o ridurre la poteza del test. Acora oggi, seppur co qualche modifica, la regola più comue per fissare le classi è quella di Ma e Wald (1942) che proposero di scegliere k i fuzioe della dimesioe del campioe e del livello di sigificatività α come k 4(2 2 /z 1 α ) 1/5 e di scegliere itervalli A 1,...,A k equiprobabili sotto H 0, cioè tali che P F0 (A i ) = 1/k. I alcui lavori di simulazioe dei primi ai 90 (cfr. Del Barrio et alii 2000) si è proposto di aggiustare la regola di Ma-Wald dividedo per 4 e pesado α = 5% (ovvero z 1 α 1.96), cosìcché qualcuo sceglie k = parte itera di 2/5. Osservazioe 2.10 Per implemetare il test di buo adattameto χ 2 dobbiamo discretizzare i dati. Se F è cotiua, ciò produce ua perdita di iformazioe e ua coseguete riduzioe della poteza del test (leggi aumeto della probabilità di errore di secoda specie) rispetto ad altri test di buo adattameto, come per esempio quello di Kolmogorov-Smirov. Altra critica: a parità di classi A 1,...,A k, la statistica di Pearso o discrimia fra diverse f.d.r. che assegao a quelle classi stessa probabilità. D altro cato, la discretizzazioe è ache u pregio del test χ 2 di Pearso, ifatti, la sua implemetazioe richiede la sola coosceza dei dati raggruppati e o di quelli grezzi. 8 Usado R: chisq.test(c(45, 53, 59,43,50),p=c(0.2,0.2,0.2,0.2,0.2)) Chi-squared test for give probabilities data: c(45, 53, 59, 43, 50) X-squared = 3.28, df = 4, p-value = 0.5121 10

Test χ 2 per H 0 composta. Effettuiamo ora u test di buo adattameto χ 2 di u modello specificato a meo di qualche parametro icogito e abbiamo raggruppato i dati i k itervalli (a 0, a 1 ], (a 1, a 2 ],...,(a k 1, a k ]. Per esempio, vogliamo verificare se H 0 : X N(µ, σ 2 ), µ R, σ 2 > 0 cotro H 1 : X o è gaussiaa Per implemetare il test calcoliamo per ogi i = 1,...,k, il umero N i di osservazioi a valori i (a i 1, a i ] e la probabilità che X cada i (a i 1, a i ] cioè ( ) ( ) (5) p i (µ, σ 2 ai µ ai 1 µ ) = Φ Φ σ σ Quidi stimiamo i parametri µ, σ 2 e calcoliamo le p i i (5) usado degli stimatori ˆµ, ˆσ 2. Ifie calcoliamo la statistica di Pearso (6) Q = k [N i p i (ˆµ, ˆσ 2 )] 2 p i (ˆµ, ˆσ 2 ) La f.d.r. asitotica di Q i (6) sotto H 0 è acora χ 2 ma co diversi gradi di libertà rispetto al caso di ipotesi ulla semplice: se µ e σ 2 soo stimati i modo opportuo, perdiamo u grado di libertà per ogi parametro stimato e quidi, asitoticamete Q χ 2 k 1 2. Ma come possiamo stimare µ e σ 2? Se abbiamo i dati grezzi usiamo gli stimatori ML: ˆµ ML = X e ˆσ ML 2 = j=1 (X j X) 2 /. Se, ivece, dispoiamo solo dei dati raggruppati, ua ricetta semplice per stimare µ e σ 2 è la seguete: calcoliamo il valore cetrale di ogi itervallo (a i 1, a i ] (di lughezza fiita), cioè c i = a i 1 + a i, i = 1,...,k 2 e lo pesiamo co la umerosità campioaria N i dell itervallo. Poi, calcoliamo media campioaria e mometo secodo campioario di questi dati, cioè k M 1 = c k in i, M 2 = c2 i N i e applichiamo il metodo dei mometi. Per u campioe casuale gaussiao otteiamo ˆµ = M 1, ˆσ 2 = M 2 M 2 1 Il test di buo adattameto χ 2 esemplificato per il modello gaussiao può essere i geerale usato ogi qualvolta l ipotesi ulla specifichi ua f.d.r. dipedete da m parametri icogiti, θ 1,...,θ m : si stimao θ 1,...,θ m usado il metodo dei mometi co i valori cetrali delle classi, ciascuo pesato per la umerosità campioaria della classe, e si usao le stime otteute ˆθ 1,..., ˆθ m per calcolare le probabilità p 1,...,p k specificate da H 0. Si può dimostrare che sotto H 0 la statistica k Q [N i p i (ˆθ 1,..., = ˆθ m )] 2 p i (ˆθ 1,..., ˆθ m ) ha f.d.r. asitotica χ 2 k 1 m : perdiamo u grado di libertà per ogi parametro stimato. A questo puto, la regola di rifiuto da adottare è la seguete: Per grade, a livello α, 11

rifiutiamo H 0 : X F(x; θ 1,...,θ m ) a livello α se Q > χ 2 k 1 m (1 α) Il p-value di questo test asitotico è dato da 1 F χ 2 k 1 m (Q ). Osservazioe 2.11 (Regola empirica) L approssimazioe χ 2 k 1 m della f.d.r. di Q fuzioa se p i (ˆθ 1,..., ˆθ m ) > 5 per ogi i = 1,...,k. Osservazioe 2.12 L approssimazioe asitotica della f.d.r. di Q fuzioa ache quado, dispoedo dei dati grezzi, stimiamo θ 1,...,θ m co il metodo di massima verosimigliaza. Segue qualche esempio. Esempio 2.13 Ua desità espoeziale si adatta ai segueti dati raggruppati? classi N i (0, 3] 40 (3, 4] 25 (4, 7] 20 (7, 10] 15 Abbiamo 40 + 25 + 20 + 15 = 100 osservazioi ripartite i 4 classi i cui valori cetrali soo 1.5, 3.5, 5.5, 8.5; la media campioaria per questi dati raggruppati è 3.85. La desità espoeziale f(x, θ) = 1/θe x/θ 1 (0, ) (x) ha media θ, quidi la stima di θ è 3.85. Le probabilità attese stimate sotto ipotesi di modello espoeziale soo: p 1 (3.85) = 1 e 3/3.85 0.541, p 2 (3.85) 0.646 0.541 = 0.105, p 3 (3.85) 0.838 0.646 = 0.192 e p 4 (3.85) = e 7/3.85 0.162. Ioltre, 100p i > 5 per ogi i. La statistica Q vale 23.82 e il p-value del test è 1 F χ 2 4 1 1 (23.82) = e 23.82/2 6.72 10 6 : vi è fortissima evideza empirica cotro l ipotesi di dati espoeziali. Esempio 2.14 Verifichiamo se il umero quotidiao di iterruzioi di correte elettrica da maggio a settembre i ua città italiaa ha distribuzioe di Poisso, basadoci sulle segueti rilevazioi: # iterruzioi= 0 1 2 3 4 5 6 7 8 9 10 11 Numero di giori= 0 5 22 23 32 22 19 13 6 4 4 0 Per u campioe casuale proveiete da popolazioe poissoiaa di parametro θ, lo stimatore ML di θ è dato dalla media campioaria che co i ostri dati vale ˆθ ML = 1 5 + 2 22 + 3 23 + + 10 4 5 + 22 + 23 + 32 + 22 + 19 + 13 + 6 + 4 + 4 = 685 150 = 4.57. Le probabilità attese stimate p i (4.57) = P(X = i) per i = 0,...,10 valgoo 0.010, 0.047, 0.108, 0.165, 0.188, 0.172, 0.131, 0.086, 0.049, 0.025, 0.011 e p 11 = P 0 (X 11) = 0.008, da cui abbiamo che i valori di 150p i (4.57) per i = 0,...,11 soo 1.50, 7.05, 16.20, 24.75, 28.20, 25.80, 19.65, 12.90, 7.35, 3.75, 1.65, 1.2 Raggruppiamo le prime due e le ultime tre classi, otteedo 12

# iterruzioi= 1 2 3 4 5 6 7 8 9 N i = 5 22 23 32 22 19 13 6 8 p i (4.57)= 8.55 16.20 24.75 28.20 25.80 19.65 12.90 7.35 6.6 La statistica Q ha valore 5.313 ed asitoticamete ha distribuzioe χ 2 9 1 1 ; siccome χ2 7 (0.9) = 12.02, accettiamo l ipotesi ulla di modello di Poisso. 3 Problemi ipotetici per dati accoppiati. Test di idipedeza e cocordaza Siao X, Y due v.a. co f.d.r. cogiuta H: (X, Y ) H e siao F, G le f.d.r. margiali di X, Y rispettivamete. Cioè: F(x) = lim H(x, y) y G(y) = lim H(x, y) x Qui ci poiamo il problema di stabilire se - i caratteri X e Y soo idipedeti oppure - se X e Y soo cocordati, cioè all aumetare di X aumeta ache Y (e viceversa) o - se X, Y soo discordati, cioè all aumetare dell uo l altro dimiuisce. I test che rispodoo a questo tipo di problemi soo detti test di idipedeza e test di cocordaza. Affroteremo il problema i ambito o parametrico. Cocluderemo la sezioe co qualche osservazioe per il caso parametrico di f.d.r. cogiuta H gaussiaa. 3.1 Test χ 2 di idipedeza I questa sezioe costruiamo u test di idipedeza per caratteri X, Y discreti fiiti. Suppoiamo che i possibili valori di X siao x 1,...,x r e che quelli di Y siao y 1,...,y s. Idichiamo co p ij la probabilità cogiuta che X assuma valore x i e Y assuma valore y j, co p i la desità margiale di X e co q j la desità margiale di Y, cioè: p ij = P(X = x i, Y = y j ), s p i = P(X = x i ) = p ij, q j = P(Y = y j ) = j=1 i = 1,...,r ; j = 1,...,s, i = 1,...,r r p ij, j = 1,...,s. Siccome X, Y soo idipedeti se p ij = p i q j i = 1,...,r e j = 1,...,s, allora studieremo l idipedeza di X, Y co u test dell ipotesi ulla H 0 : p ij = p i q j i = 1,...,r, j = 1,...,s cotro l alterativa H 1 : p ij p i q j per qualche coppia (i, j). 13

Notate che l ipotesi H 0 specifica la desità cogiuta di X, Y a meo di r + s 2 parametri icogiti dati da p 1,...,p r 1, q 1,...,q s 1 e l ipotesi H 1 ega l ipotesi H 0 ; quidi, possiamo trattare questo problema di ipotesi co u test chiquadrato di buo adattameto co parametri p i, q j da stimare. Sia (X 1, Y 1 ),...,(X, Y ) il campioe casuale di dati accoppiati. Calcoliamo 1. il umero N ij di coppie del campioe (X 1, Y 1 ),...,(X, Y ) di valore (x i, y j ); 2. il umero N xi di coppie del campioe (X 1, Y 1 ),...,(X, Y ) co X = x i ; 3. il umero N yj di coppie del campioe (X 1, Y 1 ),...,(X, Y ) co Y = y j. Poi, stimiamo p i e q j co gli stimatori: ˆp i = N xi, ˆq j = N yj. Ifie, usiamo come statistica test la statistica di Pearso T data da (7) T = r s j=1 (N ij ˆp iˆq j ) 2 ˆp iˆq j. Ifatti, E(N ij ) = p i q j se H 0 è soddisfatta e ˆp iˆq j è ua stima di p i q j, quado p i, q j soo icogiti. La statistica T coicide co (8) T = e può essere calcolata come (9) T = r s j=1 r s j=1 (N ij N xin yj ) 2 N xi N yj N 2 ij N xi N yj. La statistica di Pearso qui defiita ha f.d.r. asitotica χ 2. Per stabilire i gradi di libertà cosideriamo che il umero delle possibili coppie (x, y) soo r s e che i parametri icogiti sotto H 0 soo r + s 2. Quidi, per quato discusso el Paragrafo 2.3, i gradi di libertà risultao: rs 1 (r + s 2) = (r 1)(s 1). Riassumedo abbiamo che la regola di rifiuto da adottare è la seguete: Per grade, a livello α, rifiutiamo H 0 : X, Y soo idipedeti a livello α se T > χ 2 (r 1)(s 1)(1 α) Il p-value di questo test asitotico è dato da 1 F χ 2 (r 1)(s 1) (T). della f.d.r. di T fu- Osservazioe 3.1 (Regola empirica) L approssimazioe χ 2 (r 1)(s 1) zioa se abbiamo almeo 5 osservazioi per ogi coppia (i, j). Osservazioe 3.2 Sia (X 1, Y 1 ),...,(X, Y ) u campioe casuale bidimesioale da ua f.d.r. H. La fuzioe aleatoria Ĥ (x, y) = #{i : X i x e Y i y} 14 x R, y R

è la fuzioe di ripartizioe empirica associata al campioe (X 1, Y 1 ),...,(X, Y ). Se siamo i uo stato di completa igoraza su H, Ĥ è la migliore stima che possiamo produrre per H. Se, ivece, l ipotesi H 0 : X, Y soo idipedeti è vera, allora useremo come stimatore di H il prodotto delle f.d.r. empiriche ˆF Ĝ associate ai campioi sigoli estratti da F e G, rispettivamete. Segue che possiamo iterpretare la statistica test di Pearso T per l idipedeza come ua sitesi (quadratica) della distaza fra le f.d.r. Ĥ e ˆF Ĝ. Quidi, di uovo, ache questo test è basato sulle f.d.r. empiriche cogiuta e margiali. 3.2 Test di idipedeza e cocordaza di Kedall Poiamoci ora il problema di verificare se i due caratteri X e Y siao dipedeti: dipedeza positiva fra X, Y sigifica tedeza dei due ad associarsi i modo tale che all aumetare dell uo aumeti ache l altro; viceversa, dipedeza egativa sigifica che all aumetare dell uo l altro dimiuisce. 3.2.1 Coefficiete τ di Kedall Kedall ha tradotto matematicamete quest idea el seguete modo. Siao (X 1, Y 1 ), (X 2, Y 2 ) due copie idipedeti del vettore (X, Y ) H e defiiamo (10) π c := P[ (X 1 X 2 ) e (Y 1 Y 2 ) hao stesso sego ] = P[(X 1 X 2 )(Y 1 Y 2 ) > 0] e (11) π d := P[ (X 1 X 2 ) e (Y 1 Y 2 ) hao sego opposto ] = P[(X 1 X 2 )(Y 1 Y 2 ) < 0]. Defiizioe 3.3 I caratteri X, Y soo perfettamete cocordati se π c = 1, cioè X, Y soo perfettamete cocordati se X 1 < X 2 implica essezialmete Y 1 < Y 2 e X 1 > X 2 implica essezialmete Y 1 > Y 2. I caratteri X, Y soo perfettamete discordati se π d = 1, cioè X, Y soo perfettamete discordati se X 1 < X 2 implica essezialmete Y 1 > Y 2 e X 1 > X 2 implica essezialmete Y 1 < Y 2. Se F e G soo cotiue, allora π d = 1 π c. Ifatti, se F e G soo cotiue, allora P(X 1 X 2 = 0) = P(Y 1 Y 2 ) = 0 e quidi 1 = P((X 1 X 2 )(Y 1 Y 2 ) > 0) + P((X 1 X 2 )(Y 1 Y 2 ) < 0) = π c + π d Defiizioe 3.4 Ua misura di associazioe fra X, Y è data da τ := π c π d ed è detta coefficiete τ di Kedall. Valgoo le segueti proprietà del coefficiete τ di Kedall. Proposizioe 3.5 1. Per ogi vettore aleatorio (X, Y ) abbiamo 1 τ 1; 2. X, Y soo perfettamete cocordati se e solo se τ = 1; 3. X, Y soo perfettamete discordati se e solo se τ = 1; 15

4. se X, Y soo idipedeti allora τ = 0. Dimostriamo solo il puto 4. Se X, Y soo idipedeti allora π c = P((X 1 X 2)(Y 1 Y 2) > 0) = P(X 1 X 2 > 0, Y 1 Y 2 > 0) + P(X 1 X 2 < 0, Y 1 Y 2 < 0) = P(X 1 X 2 > 0)P H(Y 1 Y 2 > 0) + P(X 1 X 2 < 0)P H(Y 1 Y 2 < 0) = 1 2 1 2 + 1 2 1 2 = 1 2 Quidi π d = 1 π c = 1/2 da cui segue τ = 0. Osservazioe 3.6 Notate che se τ = 0 o è detto che X, Y siao idipedeti, eccezio fatta per i dati gaussiai. Ma ritoreremo ella prossima sezioe su questo puto. Se τ = 0 parliamo geericamete di ua situazioe di asseza di associazioe fra X, Y. Osservazioe* 3.7 Si dimostra 9 che fissate le f.d.r. margiali F di X e G di Y, allora 1. X, Y soo perfettamete cocordati se e solo se (X, Y ) H + (x, y) = mi(f(x), G(y)) 2. X, Y soo perfettamete discordati se e solo se (X, Y ) H (x, y) = max(f(x) + G(y) 1, 0). 3. Ioltre, le f.d.r. margiali di H + e H soo F e G. 4. Ifie, la classe delle f.d.r. H tali che τ = 0 è stata ache essa completamete caratterizzata i termii delle f.d.r. margiali. 3.3 Test di idipedeza di Kedall Vediamo ora alcui possibili problemi ipotetici di dipedeza che si possoo affrotare: (12) H 0 : τ = 0 cotro H 1 : τ > 0 per verificare se c è cocordaza; (13) H 0 : τ = 0 cotro H 1 : τ < 0 per verificare se c è discordaza; (14) H 0 : τ = 0 cotro H 1 : τ 0 per verificare che o ci sia essu tipo di associazioe fra X e Y. U test per il problema (14), (co H 1 bilatera), può essere letto come u test di idipedeza. Ifatti H 1 è compatibile solo co ua situazioe di o idipedeza. Motivati dalle precedeti cosiderazioi, costruiamo il test di idipedeza e cocordaza di Kedall. Sia (X 1, Y 1 ),...,(X, Y ) u campioe casuale bidimesioale estratto da ua popolazioe co f.d.r. H icogita. Cotiamo quate soo le coppie di dati (X i, Y i ), (X j, Y j ) (i < j, i, j = 1,...,) cocordati e quate quelle discordati su tutte le possibili ( 1)/2 coppie el seguete modo. 9 Se iteressati cfr Cifarelli, Coti e Regazzii (1996) 16

Primo Passo Ordiiamo le coppie del campioe guardado al solo carattere X. Formalmete: se X (1),...,X () soo le statistiche d ordie di X 1,...,X e Y [k] è il valore dell osservazioe su Y accoppiata (cocomitate) a X (k), per k = 1,...,, allora il campioe sarà riordiato el seguete modo: (X (1), Y [1] ),...,(X (), Y [] ). Esempio 3.8 (Example 2 i Pestma 1998 pag. 245) Se ho il campioe di 5 dati: (3.7, 5.4), (2.1, 3.6), (4.2, 1.1), (3.2, 1.9), (2.3, 4.8), il campioe ordiato come spiegato prima è: (2.1, 3.6), (2.3, 4.8), (3.2, 1.9), (3.7, 5.4), (4.2, 1.1) Secodo Passo Cotiamo quate volte sulle ( 1)/2 coppie i segi soo cocordati: C = #{(i, j) t.c. i, j = 1,..., co i < j e Y [i] < Y [j] } e quate volte i segi soo discordati: D = #{(i, j) t.c. i, j = 1,..., co i < j ma Y [i] > Y [j] } Ifie defiiamo il coefficiete campioario di cocordaza di Kedall R K := 2(C D) ( 1) È facile dimostrare che 1. R K è stimatore o distorto di τ = π c π d 2. se i segi di tutte le coppie cocordao, allora C = ( 1)/2, D = 0 e R K = 1. Se ivece tutte discordao allora C = 0, D = ( 1)/2 e R K = 1 3. se τ = 0, R K è v.a. simmetrica perché ogi ogi coppia ha la stessa probabilità di essere cocordate e discordate. Se τ = 0 la probabilità che la statistica R K esibisca valori prossimi a 1 o a 1 è bassa, perché o c è essu tipo di associazioe fra X e Y. Quidi, per decidere sull associazioe fra X, Y valutiamo se i valori della statistica C D siao prossimi a ( 1)/2 o a ( 1)/2 o lotai da etrambi. Seguedo questa ituizioe, costruiamo le segueti regioi critiche di ampiezza α: G 1 = {C D > q(1 α)} è ua regioe critica per H 0 : τ = 0 cotro H 1 : τ > 0 G 2 = {C D < q(1 α)} è ua regioe critica per H 0 : τ = 0 cotro H 1 : τ < 0 G 3 = { C D > q(1 α 2 )} è ua regioe critica per H 0 : τ = 0 cotro H 1 : τ 0 Nelle righe precedeti, q(a) è il quatile di ordie a della f.d.r. di C D sotto H 0 e q(a) = q(1 a), a (0, 1) perché C D è v.a. simmetrica se τ = 0. Rimae ifie da idagare la f.d.r. di C D quado τ = 0, cioè sotto H 0 : per piccolo i quatili di C D soo tabulati, per esempio i Coover (1999) pagie 391-392. Per grade, vale il seguete risultato di approssimazioe gaussiaa: se τ = 0, allora lim P ( 3 ) ( 1) 2(2 + 5) R K z 17 = Φ(z) z R

Quidi, per gradi campioi approssimiamo il quatile q di C D (sotto H 0 ) a partire da quello della f.d.r. gaussiaa stadard z a, usado la seguete relazioe: q C D (a) z a ( 1)(2 + 5) 18 Esempio 3.9 (Cotiuazioe dell Esempio 2 del Pestma (1998) pag. 245) Se ho u campioe di 5 dati: (3.7, 5.4), (2.1, 3.6), (4.2, 1.1), (3.2, 1.9), (2.3, 4.8), il campioe ordiato è: (2.1, 3.6), (2.3, 4.8), (3.2, 1.9), (3.7, 5.4), (4.2, 1.1) e R K = 2/10 perché 2 3 4 5 sigum(y [1] Y [j] ) = +1 1 +1 1 sigum(y [2] Y [j] ) = 1 +1 1 sigum(y [3] Y [j] ) = +1 1 sigum(y [4] Y [j] ) = 1 Sia H 1 : τ 0. Co = 5, il p-value è P( C D 2) 0.817 e accettiamo H 0 10. Esercizio 3.10 Svolgere l esercizio. 14 pagia 255 i Pestma (1998), sostituedo alle domade i), ii) le segueti: i) Compute the outcome of the sample Kedall s coefficet of cocordace (R K ). ii) Test at a level sigificace of α = 0.10 the ull hypothesis H 0 : τ = 0 versus H 1 : τ 0. 3.4 Test di idipedeza e cocordaza per dati gaussiai Nel caso di dati cogiutamete gaussiai i test di idipedeza e cocordaza si traducoo i test sul coefficiete di correlazioe lieare ρ. Vale ifatti che Proposizioe 3.11 Se X, Y soo v.a. cogiutamete gaussiae, allora τ(x, Y ) = 0 se e solo se ρ(x, Y ) = 0. Dimostrazioe Chiedere al docete se iteressati. I test su ρ per dati accoppiati gaussiai soo descritti ella Sezioe 8.2 della dispesa su Verifica di ipotesi, AA 07/08. 10 co il software R: x<-c(3.7,2.1,4.2,3.2,2.3); y<-c(5.4,3.6,1.1,1.9,4.8) cor.test(x, y, alterative = c(two.sided), method =c(kedall), exact = NULL) Kedall s rak correlatio tau data: x ad y T = 4, p-value = 0.8167 alterative hypothesis: true tau is ot equal to 0 sample estimates: tau -0.2 18

3.5 Test di aleatorietà di Kedall (Test of radomess) Alla base delle procedure ifereziali presetate el corso è l ipotesi di casualità, aleatorietà, del campioe. Se le osservazioi X 1,...,X soo i.i.d., allora o importa l ordie co cui esse arrivao, cioè u tred crescete o decrescete fra le osservazioi è icompatibile co l ipotesi di casualità del campioe. Vediamo ora come il test di cocordaza di Kedall possa essere applicato per verificare l ipotesi ulla di casualità del campioe, i questa particolare accezioe di asseza di tred. Quidi costruiamo u test per verificare H 0 : X 1,...,X soo i.i.d. cotro u ipotesi alterativa di tred crescete, o di tred decrescete, o semplicemete cotro l alterativa bilatera: H 1 : X 1,...,X o soo i.i.d.. Per ogi i = 1,..., 1 siao C i =umero di osservazioi successive a X i maggiori di X i, D i =umero di osservazioi successive a X i miori di X i e T la somma di tutte le C i meo la somma di tutte le D i cioè: C = 1 C i, D = 1 D i e T = C D. Il valore miimo di T è ( 1)/2 e T vale ( 1)/2 se X 1 > X 2 >... > X. D altro cato T assume valore massimo ( 1)/2 se e solo se X 1 < X 2 <... < X. Pertato T ( 1)/2 è idice di u tred decrescete e T ( 1)/2 è compatibile soltato co u tred crescete. Metre, se il campioe è casuale ci aspettiamo che coppie cocordati e discordati mediamete si compesio e quidi T 0. Ma, T è semplicemete la differeza fra il umero di coppie cocordati e quelle discordati del fito campioe bidimesioale (1, X 1 ),...,(, X ). Possiamo usare allora il test di cocordaza di Kedall. Le regioi critiche di ampiezza α risultao: G 1 = {C D > q(1 α)} per H 0 : X 1,...,X è u campioe casuale cotro H 1 : ei dati c è u tred crescete G 2 = {C D < q(1 α)} per H 0 : X 1,...,X è u campioe casuale cotro H 1 : ei dati c è u tred decrescete G 3 = { C D > q(1 α/2)} è per H 0 : X 1,...,X è u campioe casuale cotro H 1 : i dati o soo idipedeti. co q(a) quatile di ordie a di C D sotto H 0. Esempio 3.12 Usado R ho geerato 10 umeri casuali dalla U(0, 1) e, ell ordie d arrivo, i dati otteuti soo 0.5923 0.6944 0.6956 0.6443 0.6114 0.5073 0.0993 0.1070 0.6701 0.3607 Potete cosiderare questi umeri come realizzazioe di u campioe casuale? Soluzioe i 0.5923 0.6944 0.6956 0.6443 0.6114 0.5073 0.0993 0.1070 0.6701 0.3607 C D 5 4 +1 7 +0 7 +1 5 +1 4 +1 3 +3 0 +2 0 +0 1 17 = T Se H 1 è bilatera, uso la regioe G 3 e il p-value del test è 2(1 P(T 17)). Sulle tavole, per = 10, i valori più prossimi a 17 soo 15 e 19 co P(T 15) = 0.90 e P(T 19) = 0.95. Pertato il p-value è compreso fra 10% e 20%. Iterpolado liearmete (15, 0.90) e (19, 0.95) otteiamo p-value 15% (R foriva 0.1557). Rifiuterò l ipotesi di radomess solo a u livello 15%. Quidi cocludo che il geeratore è u buo geeratore. 19

4 Test di omogeeità Affrotiamo ora il problema di verificare se due v.a. X, Y soo omogeee cioè se soo regolate dallo stesso modello. Altrimeti detto verifichiamo se X e Y hao la stessa f.d.r. Sia F la f.d.r. di X e G quella di Y e costruiamo u test di omogeeità per l ipotesi ulla H 0 : F(x) = G(x) x R cotro l alterativa (15) oppure H 1 : F(x) G(x) per qualche x R (16) H 1 : F(x) G(x) x R e F(x) < G(x) per qualche x oppure (17) H 1 : F(x) G(x) x R e F(x) > G(x) per qualche x Le ipotesi alterative uilaterali hao il seguete sigificato: se (16) è vera, allora X tede a essere più grade di Y e diciamo che X domia stocasticamete Y. Se ivece è vera (17), allora è Y che tede a essere più grade di X cioè Y domia stocasticamete X. I dati a ostra disposizioe possoo essere di due tipi: 1. due campioi casuali idipedeti X 1,...,X m i.i.d. F e Y 1,...,Y i.i.d. G oppure 2. u campioe casuale di dati accoppiati (X 1, Y 1 ),...,(X, Y ) geerati da ua f.d.r. cogiuta H co f.d.r. margiali F di X e G di Y. I test di buo adattameto χ 2 e di Kolmogorov-Smirov possoo essere modificati per verificare H 0 : F(x) = G(x) x R. Qui oi ivece sviluppiamo il test di omogeeità di Wilcoxo-Ma-Whitey per campioi idipedeti e il test dei segi di Wilcoxo per dati accoppiati. Per evitare complicazioi teciche, assumiamo F, G cotiue: dalla cotiuità di F e G deriva che essezialmete o ci soo ripetizioi ei campioi i quato P(X i1 = X i2 ) = P(Y j1 = Y j2 ) = P(X i = Y j ) = 0 i j, i 1 i 2 e j 1 j 2. L allievo iteressato è rimadato al Capitolo 5 i Coover 1999, per le variati ai test ecessarie i preseza di ripetizioi (tail) el campioe. 4.1 Test di omogeeità di Wilcoxo-Ma-Whitey per due campioi idipedeti 11 Estraiamo due campioi casuali idipedeti X 1,...,X m da F e Y 1,...,Y da G e riuiamo tutte le osservazioi i u uico campioe di ampiezza m +. Registriamo il rago ( rak o grado) di ogi osservazioe, cioè la posizioe che essa occupa ella classifica di tutte le m + osservazioi dalla più piccola alla più grade, chiamiamo R i il rago di X i e sommiamo i raghi delle X i : T X = m R i. 11 Riferimeti bibliografici: Sezioe VI.2 Wilcoxo s rak-sum test pagie 233-237 i Pestma (1998). 20

Esempio 4.1 Se (x 1,...,x 4 ) = (23, 10, 21, 5) e (y 1,...,y 5 ) = (3, 8, 20, 25, 12) abbiamo valori ordiati= 3 y 5 x 8 y 10 x 12 y 20 y 21 x 23 x 25 y classifica= 1 2 3 4 5 6 7 8 9 raghi di X= R 1 R 2 R 3 R 4 T X = 2+ 4+ 7+ 8 = 21 Se tutte le x i soo più piccole di ogi y j, T X ha valore m(m + 1)/2; se, ivece, tutte le x i soo più gradi di ogi y j, allora T X = m(2 + m + 1)/2. Se F(x) < G(x), mi aspetto che u gra umero di x i siao più gradi delle y j e quidi che T X sia grade. Metre, se F(x) > G(x), mi aspetto che molte y j siao più gradi delle x i e quidi T X sia piccolo. Ifie, se F = G, le x i e y j soo mescolate casualmete e quidi co alta probabilità T X sarà lotao dai valori estremi. Per costruire il test di omogeeità di Wilcoxo-Ma-Whitey abbiamo bisogo di sapere qualcosa i più sulla f.d.r. di T X se F = G. A tal fie, itroduciamo la statistica U che forisce il umero complessivo di X i maggiori di Y j el campioe riuito: m (18) U = 1 (Yj, )(X i ) j=1 Per otteere U, idividuiamo le m statistiche d ordie x (1) < < x (m) e cotiamo il umero a 1 di y j superate da x (1), il umero a 2 di y j superate da x (2),..., e il umero a m di y j superate da x (m). Poi sommiamo questi umeri cioè U = a 1 + a 2 + + a m. Ma a 1 = #y j x (1) = R 1 1, a 2 = #y j x (2) = R 2 2,...,a m = #y j x (m) = R m m da cui deduciamo che (19) U = m (R i i) = T X m(m + 1) 2 La statistica U è la statistica di Ma e Whitey, metre la somma dei raghi T X è la statistica di Wilcoxo. Usiamo ora U per calcolare media e variaza di T X, se F = G. Se F = G, allora X 1,...,X m, Y 1,...,Y è u campioe casuale di m + osservazioi co comue f.d.r. F e E(U) = m j=1 E(1 (Yj, )(X i )) = m j=1 P(X i > Y j ) = mp(x 1 > Y 1 ) = m 2 i quato P(X 1 = Y 1 ) = 0 e P(X 1 > Y 1 ) = P(X 1 < Y 1 ) = 1/2 perché X 1, Y 1 soo idipedeti e regolate dalla stessa f.d.r. cotiua F. Segue che se F = G, allora E(T X ) = E(U) + m(m + 1)/2 = m(m + + 1)/2. Coti simili, ma più tediosi, portao al seguete valore della variaza: Var(T X ) = Var(U) = m(m + + 1) 12 Se F = G e m, 20, i quatili w a della f.d.r. di T X 12 soo tabulati. Ioltre, siccome T ha desità simmetrica rispetto alla sua media quado F = G, allora fra i quatili w a e w 1 a sussiste la seguete relazioe w a = m(m + + 1) w 1 a 12 Le tavole furoo calcolate per la prima volta da Ma e Whitey el 1947 per m, 8; metre, la prima versioe del test dovuta a Wilcoxo per il caso m = è del 1945. 21

Ifie, se F = G allora la statistica test T X è asitoticamete gaussiaa co media asitotica m(m++1)/2 e variaza asitotica m(m++1)/12. Segue che per m, gradi, u valore approssimato del quatile di T X di ordie a è w a m(m + + 1) 2 + z a m(m + + 1) 12 Alla luce di quato detto appaioo sesate le segueti regole di sigificatività α per decidere sull omogeeità: Rifiuto H 0 : F(x) = G(x) x e accetto H 1 : F(x) G(x) x R e F(x) > G(x) per qualche x se T X < w α Rifiuto H 0 : F(x) = G(x) x e accetto H 1 : F(x) G(x) x R e F(x) < G(x) per qualche x se T X > w 1 α Rifiuto H 0 : F(x) = G(x) x e accetto H 1 : F(x) G(x) se T X [w α/2, w 1 α/2 ] Il test descritto è oto come test della somma dei raghi di Wilcoxo-Ma-Whitey. Osservazioe 4.2 Se lavoriamo co le somme dei raghi delle y j T Y arriviamo a costruire lo stesso test, dal mometo che essezialmete o ci soo ripetizioi el campioe riuito e quidi T X + T Y = (m + )(m + + 1)/2. Esercizio 4.3 (cotiuazioe dell Esempio 4.1) Verifichiamo sulla base dei dati foriti ell Esempio 4.1 l ipotesi H 0 : F = G cotro l alterativa H 1 : F G, a livello α = 10%; T X = 21 e, co m = 4 e = 5, scopro che w 0.10/2 = w 0.05 = 13 e w 1 0.10/2 = w 0.95 = m(m + + 1) w 0.05 = 40 13 = 27. Essedo 13 < 21 < 27 accetto H 0. Osservazioe 4.4 Il test della somma dei raghi può essere letto come la versioe o parametrica del t-test per cofrotare medie di popolazioi gaussiai e idipedeti. Ifatti, se i campioi X 1,...,X m e Y 1,...,Y soo etrambi gaussiai e hao la stessa variaza, allora F = G se e solo se le medie soo uguali e possiamo studiare l omogeeità co il t- test opportuo, a secoda della specificazioe dell ipotesi alterativa (15) o (16) o (17). Se F = N(µ X, σ 2 ) e G = N(µ Y, σ 2 ), è facile dimostrare che F > G equivale a µ X < µ Y e F < G equivale a µ X > µ Y. Vi soo varie ragioi per preferire il test di Wilcoxo-Ma-Whitey al t-test. U primo vataggio del test di Wilcoxo-Ma-Whitey rispetto al t-test è che essedo u test o parametrico (free-distributio) il livello di sigificatività calcolato coicide co quello esatto, qualuque sia la distribuzioe comue ai due campioi specificata dall ipotesi H 0. Ivece, per campioi o gaussiai, ache se umerosi, la sigificatività α del t-test asitotico calcolata è u approssimazioe di quella esatta e le due potrebbero differire i modo o trascurabile. U altro vataggio del test di Wilcoxo-Ma-Whitey è la sua robustezza rispetto a valori outliers; di cotro, ogi t-test è affetto dai valori outliers. Ovviamete, se sapppiamo che i dati soo gaussiai il t-test è preferibile al test di Wilcoxo-Ma-Whitey, i quato usa più iformazioi (cioè usa la ormalità dei dati). Osservazioe 4.5 (Test o parametrico sulla variaza) Esiste ua variate del test della somma dei raghi dovuta a Siegel e Tukey (1960) (per esempio i Coover 1999) che permette di cofrotare le variaze di due popolazioi diverse e idipedeti, quado le medie soo eguali, i u cotesto o parametrico. Siegel e Tukey cambiao la regola di assegazioe delle etichette el seguete modo: u volta ordiate tutte le osservazioi dalla più piccola 22

alla più grade, assegao etichetta 1 alla più piccola e 2 alla più grade, 3 alla peultima e 4 alla secoda, 5 alla terza e 6 alla terzultima e così via: 1, 4, 5, 8, 9,,...,(m + 1), (m + ),... 7, 6, 3, 2 Quidi cotao la somma delle etichette di X. Se questa somma è piccola, vuol dire che X è molto più dispersa di Y e rifiutao H 0 : Var(X) = Var(Y ) a favore di H 1 : Var(X) > Var(Y ). Opportue tavole soo costruite. Il test di Siegel e Tukey è ua sorta di variate o parametrica del test F di Fisher per il cofroto di variaze di popolazioi gaussiae idipedeti. 4.2 Test dei segi di Wilcoxo per dati accoppiati Estraiamo u campioe casuale di dati accoppiati (X 1, Y 1 ),...,(X, Y ) da ua f.d.r. cogiuta H co f.d.r. margiali F, G e tale che P(X = Y ) = 0. Per esempio, se H è f.d.r. cogiuta cotiua effettivamete P(X = Y ) = 0. Cotiamo poi il umero T + di coppie i cui la coordiata X è più grade di Y. Ci aspettiamo T + /2 se F = G, T + grade se F < G e T + piccola se F > G. Poiché tutte le coppie di osservazioi soo i.i.d. la statistica T + ha desità biomiale di parametri e p = P(X > Y ). Ioltre, sotto l ipotesi ulla H 0 : F = G, T + Biom(, 1/2) perché P(X = Y ) = 0 per la cotiuità di F e P(X > Y ) = P(Y > X) = 1/2. Alla luce di quato detto usiamo le segueti regole di livello α per decidere su F = G co dati accoppiati. Sia q + a è il quatile di ordie a della f.d.r. Biomiale(, 1/2). Rifiuto H 0 : F(x) = G(x) x e accetto H 1 : F(x)! G(x) x R e F(x) > G(x) per qualche x se T + < q α. + k 1 X Se T + 1 = k il p-value del test è dato da j 2 j=0 Rifiuto H 0 : F(x) = G(x) x e accetto H 1 : F(x) G(x) x R e F(x) < G(x) per qualche x se T + > q +! 1 α. kx Se T + 1 = k il p-value del test è dato da 1 j 2 j=0 Rifiuto H 0 : F(x) = G(x) x e accetto H 1 : F(x) G(x) se T + [q + α/2, q+ 1 α/2 ]. Se T + = k il p-value del test! k 1 X 1 è dato da 2mi{p 1, p 2} dove p 1 = e p2 = 1 p1. j 2 j=0 Il test appea descritto è oto come test dei segi di Wilcoxo. Per grade, i virtù del teorema cetrale del limite, abbiamo q + (a) /2 + z a /2. Osservazioe 4.6 Il test dei segi di Wilcoxo può essere letto come la versioe o parametrica del t-test per cofrotare medie di dati accoppiati gaussiai. Riferimeti bibliografici [1] Cifarelli, D.M. Coti, L., Regazzii, E. (1996) O the asymptotic distributio of a geeral measure of mootoe depedece. A. Statist. 24, 1386 1399 [2] Coover, W.J. (1999) Practical Noparametric Statistics 3 a Ed, Wiley, New York [3] Del Barrio, E. Cuesta-Albertos, J. A.; Matrá, C. (2000) Cotributios of empirical ad quatile processes to the asymptotic theory of goodess-of-fit tests. (With commets) Test 9, 1 96 23

[4] Fisher, R. (1922) O the mathematical foudatios of theoretical statistics, Philosophical Trasactios of the Royal Society, A, 222, 309 368 [5] Fisher, R.A. (1924) The coditios uder which χ 2 measures the discepacy betwee observatio ad hypohesis. J. Roy. Statist. Soc., 87, 442 450 [6] Ma, H.B. ad Wald, A. (1942) O the choice of the umber of class itervals i the applicatio of the chi-square test. A. Math. Stat.,13, 306 317 [7] Karl Pearso (1894) Cotributios to the Mathematical Theory of Evolutio, Philosophical Trasactios of the Royal Society A, 185, 71 110 [8] Pestma, Wiebe R. (1998) Mathematical Statistics A Itroductio De Gruyter [9] R: A laguage ad eviromet for statistical computig R Developmet Core Team (2003) http://www.r-project.org, R Foudatio for Statistical Computig Viea, Austria [10] Rohatgi, V.K e Saleh, A.K. Md. E. (1999) A Itroductio to Probability ad Statistics Wiley, New York [11] Silvey, S.D (1975) Statistical Iferece Chapma & Hall Lodo 24