PARTE PRIMA PROBABILITA

Транскрипт

1

2 i PARTE PRIMA PROBABILITA CAPITOLO I - Gli assiomi della probabilità 1.1 Introduzione pag Definizione assiomatica di probabilità Logica degli eventi Campo di Borel Assiomi della probabilità Probabilità condizionata Eventi indipendenti Formula di Bayes Problemi risolti CAPITOLO II - Variabili aleatorie 2.1 Definizioni Funzione di distribuzione Densità di probabilità Momenti di variabili aleatorie Distribuzioni notevoli in Probabilità e Statistica Distribuzione uniforme Distribuzione normale Distribuzione Gamma Distribuzione esponenziale Distribuzione di Maxwell Distribuzione t-student

3 ii Distribuzione Chi-quadrato Distribuzione F di Fisher Distribuzione binomiale Distribuzione di Poisson Distribuzione geometrica e ipergeometrica Distribuzione Beta Distribuzione di Weibull Problemi risolti CAPITOLO III - Variabili aleatorie multidimensionali 3.1 Coppie di variabili aleatorie Momenti congiunti Coppie di v.a. indipendenti Coppie di v.a. discrete Caso di n variabili aleatorie Trasformate delle densità di probabilità Funzione caratteristica Funzione generatrice dei momenti Problemi risolti CAPITOLO IV - Trasformazioni di variabili aleatorie 4.1 Generalità Funzioni di una variabile casuale Calcolo della funzione di distribuzione Calcolo diretto della densità Trasformazioni invertibili Momenti di Y (ω) = g[x(ω)] Trasformazioni lineari Funzioni di due o più variabili casuali Trasformazioni n-dimensionali Problemi risolti

4 iii CAPITOLO V - Processi stocastici 5.1 Definizioni Momenti Processi indipendenti Processi senza memoria Processi stazionari Esempi notevoli Processi di Markov Catene di Markov Matrice di transizione Classificazione degli stati Probabilità invarianti *********************************************** PARTE SECONDA STATISTICA CAPITOLO VI - Statistica descrittiva 6.1 Introduzione Distribuzioni di frequenze Indici di tendenza centrale e di dispersione Medie, moda, mediana, quantili Indici di dispersione Stem-and-leaf e box-plot Distribuzioni congiunte di frequenze Regressione lineare Regressione multipla Regressione non lineare

5 iv 6.8 Problemi risolti CAPITOLO VII - Distribuzioni campionarie 7.1 Modelli statistici Teoria dei campioni Distribuzione campionaria delle medie Campionamento con ripetizione Campionamento senza ripetizione Distribuzione campionaria delle varianze Campionamento con ripetizione Campionamento senza ripetizione Distribuzione campionaria delle frequenze Problemi risolti CAPITOLO VIII - Stime di parametri 8.1 Stima puntuale Stima puntuale di medie e varianze Stima di massima verosimiglianza Metodo dei momenti Stima per intervalli Intervalli di confidenza per la media Popolazione con varianza nota Popolazione con varianza sconosciuta Intervalli di confidenza per la varianza Problemi risolti CAPITOLO IX - Test parametrici di ipotesi statistiche 9.1 Principi generali di un test statistico Test parametrici Test di Neyman-Pearson tra ipotesi semplici Test parametrici con ipotesi composte

6 v Test sul valor medio per il modello normale Modello Normale-1: popolazione con varianza nota Modello Normale generale: varianza sconosciuta Popolazione con distribuzione non Normale Test sulla varianza Test di Fisher per il rapporto tra varianze Test di incorrelazione Ipotesi H 0 e H 1 composte Test del rapporto di verosimiglianza Problemi risolti CAPITOLO X - Test non parametrici 10.1 Test sulla legge di distribuzione Test di Kolmogorov-Smirnov Test Chi-quadrato Test di omogeneità Test dei segni Test dei ranghi Test di Smirnov Test Chi-quadrato di omogeneità per più campioni Test di indipendenza Test Chi-quadrato di indipendenza Test di Spearman Test sulla casualità di un campione Test di correlazione seriale Run test BIBLIOGRAFIA APPENDICE Tavole delle distribuzioni Normale standard

7 vi t-student Poisson Chi-quadrato Fisher Kolmogorov-Smirnov

8 vii

9 GLI ASSIOMI DELLA PROBABILITA 1.1 Introduzione Nel Calcolo delle Probabilità si elaborano modelli matematici per la valutazione rigorosa del concetto primitivo di probabilità che un esperimento casuale si concretizzi in un determinato evento. Ma cos è la probabilità di un evento? Ne esistono almeno quattro definizioni principali, da cui si originano altrettante teorie matematiche, elaborate dalla seconda metà del XXVII secolo fino ai giorni nostri. Esse sono: 1) Definizione classica: la probabilità P (A) di un evento A è il rapporto tra il numero N A dei casi favorevoli e il numero N dei casi possibili: P (A) = N A /N. E questa una definizione aprioristica, nel senso che P (A) è definita senza far ricorso ad alcuna effettiva prova sperimentale. La sua applicabilità è limitata allo studio di quel fenomeni casuali in cui si può assumere che il numero N dei casi possibili sia finito, e che questi siano tutti, a priori, egualmente probabili. 2) Definizione frequentista, ovvero basata sul concetto, particolarmente familiare ai fisici, di frequenza relativa di un evento: se un esperimento è ripetuto n volte, e l evento A si presenta n A volte, allora la sua probabilità è il limite della frequenza relativa: P (A) = lim n n A/n quando il numero delle prove tende ad infinito. Questa definizione implica l ipotesi preliminare che le prove ripetute si svolgano in condizioni identiche, il che, al pari della definizione classica, ne restringe l applicabilità a una classe piuttosto ristretta di fenomeni casuali. 3) Definizione soggettivista, come misura di un opinione personale: la probabilità di un evento è il grado di fiducia che si ha nel verificarsi di esso. Per esempio: 1

10 2 ASSIOMI DELLA PROBABILITA la probabilità che in un processo giudiziario l imputato sia giudicato colpevole è una misura della nostra conoscenza dei fatti e della nostra abilità deduttiva. Tale definizione si formalizza adottando lo schema tipico delle scommesse regolate da condizioni di equità: la probabilità dell evento è misurata dal prezzo che un individuo ritiene equo pagare per ricevere 1 se l evento si realizza, e 0 se non si verifica. 4) Definizione assiomatica, la cui formalizzazione matematica (che è quella che seguiremo) risale ad A. N. Kolmogorov (1933). Essa consiste nell introdurre un opportuno insieme di assiomi, verificando a posteriori il significato fisico e la validità della teoria matematica cosí precisata. 1.2 Definizione assiomatica di probabilità Oggetto della teoria matematica sviluppata nel Calcolo delle Probabilità è un generico esperimento casuale, la cui singola esecuzione è chiamata prova dell esperimento. Il risultato (o esito) della prova si indica con ω. L insieme di tutti i possibili esiti costituisce lo spazio campione Ω associato all esperimento casuale. Un evento A relativo al medesimo esperimento è un certo insieme di risultati ω, ovvero un sottoinsieme dello spazio campione Ω. Se un risultato ω A, si dice che esso realizza l evento A. Se l insieme A Ω è costituito da un solo elemento ω, allora quest ultimo prende il nome di evento elementare; altrimenti A è un evento composto Logica degli eventi Le definizioni che seguono riguardano operazioni sugli eventi, e si possono formalmente rappresentare come indicato nello schema riassuntivo di Fig.1.1. Dati due eventi A, B Ω, si dice che A implica B se è A B. I due eventi sono incompatibili se non esiste alcun risultato ω che realizzi sia A che B, ovvero se è A B =, dove è l insieme vuoto. Al contrario, se A e B non sono incompatibili, l insieme non vuoto (A B) è costituito da tutti i risultati ω che realizzano sia A che B. L insieme (A B) indica invece la realizzazione dell evento A, oppure dell evento B, oppure di entrambi. Se non si realizza un evento A, allora si realizza il suo complementare in A = Ω \ A in Ω, negazione dell evento A. Ne segue subito che Ω è l evento certo e è l evento impossibile.

11 1.2 Definizione assiomatica di probabilità 3 Figura Campo di Borel Gli eventi A i, i = 1, 2,... relativi ad un determinato esperimento casuale sono sottoinsiemi dello spazio campione Ω, sui quali effettuiamo operazioni di unione, intersezione, differenza come indicato in Fig.1. Al fine di attribuire a ciascun evento una misura di probabilità, si richiede a tali eventi di soddisfare il seguente requisito fondamentale: qualunque operazione su di essi deve essere a sua volta un evento definito in Ω. Questa proprietà si formalizza dicendo che gli eventi devono costituire un campo C, ovvero una classe additiva di insiemi A i, non vuota e chiusa rispetto alla negazione e all unione. Se esiste un insieme numerabile 1 di infiniti eventi A i, questi devono formare un campo di Borel (o σ-algebra) cosí definito: Definizione 1. Un campo di Borel B è la classe costituita da una infinità numerabile 1 Ricordiamo che un insieme di infiniti elementi è numerabile se esiste una corrispondenza unoa-uno tra gli elementi dell insieme e tutti gli interi positivi. Ad esempio: l insieme IR dei numeri reali non è numerabile; l insieme {1, 2, 3,..} è numerabile.

12 4 ASSIOMI DELLA PROBABILITA di insiemi A i Ω, tale che: 1) A i B A i = Ω\A i B 2) A i B A i B; A i B i=1 i=1 3) B; Ω B. Dunque, un campo di Borel è caratterizzato dalla proprietà che qualsiasi operazione sugli insiemi che lo formano dà luogo ad un insieme nello stesso campo, anche se gli insiemi sono una infinità numerabile. Esempio 1.1: lancio di un dado Consideriamo come singola prova di un esperimento casuale il classico esempio del lancio di un dado, che ha come risultati (eventi) possibili ω l uscita di un numero intero, compreso tra 1 e 6. Lo spazio campione è Ω = {1, 2, 3, 4, 5, 6}, ovvero è costituito da un numero finito di elementi ω, cui si attribuisce il significato di eventi elementari. Essi formano un insieme di eventi necessari e a due a due incompatibili, poiché {i} {j} = per ogni i j = 1,.., 6. Ma esistono molti altri eventi in questo esperimento casuale: ad esempio, l uscita di un numero pari, che è costituita dall evento E = {2, 4, 6} composto dai tre eventi elementari che lo realizzano; oppure l uscita di un numero basso definita dall evento E = {1, 2}; ecc. Inoltre: l intersezione {2, 4, 6} {1, 2}, che coincide con l evento elementare {2}, indica l evento: uscita di un numero pari e basso. L evento: {1, 3, 5} {5, 6} indica l uscita di un numero dispari, oppure di un numero maggiore di 4, oppure di un numero dispari e maggiore di 4 (ovvero dell intersezione dei due eventi, costituita dall evento elementare {5}). Il complementare dell insieme A = {1, 2, 3, 5} composto dai numeri primi minori di 7, ovvero l evento Ω\A = {4, 6}, indica l uscita di un numero che non sia primo (negazione di A). Tutti i possibili eventi si presentano in questo esperimento come sottoinsiemi di Ω, ed è facile verificare che il loro numero complessivo è la somma delle combinazioni di classe k di sei elementi: ( ) 6 6 = 2 6 = 64, k k=0 compresi l insieme vuoto (per k = 0) e l insieme Ω (per k = 6). Essi costituiscono un campo C, perchè soddisfano tutte le condizioni di additività sopra precisate. Se però siamo interessati solo ad alcuni eventi relativi a questo esperimento, è preferibile definire una diversa classe additiva, che costituisca un campo C contenente il minor numero possibile di eventi, compresi quelli che interessano. Si può costruire questo campo C con successive operazioni di unione e negazione che, a partire dagli insiemi dati, coinvolgano tutti gli eventi che via via si aggiungono. Ad esempio, se

13 1.2 Definizione assiomatica di probabilità 5 siamo interessati all evento: uscita di un numero pari, il campo C da considerare è composto dai quattro insiemi: C :, {2, 4, 6}, {1, 3, 5}, Ω che costituiscono rispettivamente: la negazione {1, 3, 5} dell evento numero pari ; l unione Ω degli eventi pari e dispari, e la negazione dell evento unione Ω. C è un campo, perché qualsiasi operazione sugli insiemi che lo compongono dà luogo a un insieme anch esso contenuto in C. Al contrario, la classe: C :, {2, 4, 6}, {1, 3, 5}, {1, 2}, Ω non è un campo, perché {2, 4, 6} {1, 2} = {1, 2, 4, 6} C. Esempio 1.2: misura di una grandezza Il valore teorico di una generica grandezza fisica è espresso da un numero reale, e in tal senso alla sua misura sperimentale associamo uno spazio campione Ω costituito dall asse reale (o da un suo intervallo, se siamo in grado di precisarlo a priori). Per definire una classe additiva di eventi che sia compatibile con l esperimento della misurazione, suddividiamo l asse reale in intervalli di ampiezza assegnata (ad esempio: gli intervalli aperti a sinistra e chiusi a destra, di ampiezza unitaria e aventi per centro tutti i numeri interi), in modo che qualsiasi risultato della misurazione possa appartenere ad uno di tali intervalli. Quindi, con operazioni successive di unione e negazione, aggiungiamo altrettanti insiemi agli intervalli inizialmente considerati. Il limite a cui tende la classe degli eventi cosí definiti è il campo di Borel B associato alla misura sperimentale che effettuiamo. Si può dimostrare che tale campo di Borel si genera anche a partire da tutti gli intervalli (, x 1 ] con x 1 reale qualsiasi; esso contiene anche tutti gli intervalli [x 1, x 2 ], (x 1, x 2 ), i punti x = x 1 e l infinità numerabile delle loro unioni e intersezioni Assiomi della probabilità Siamo ora in grado di attribuire una misura di probabilità a ciascun evento A i la cui collezione, come si è appena visto, forma nel caso più generale un campo di Borel B. Definizione 2. La probabilità è un funzionale P : B [0, 1] che verifica i seguenti assiomi: I. P (Ω) = 1 II. i j, A i Aj = P (A i A j ) = P (A i ) + P (A j ). La formulazione matematica del modello probabilistico è cosí completa: essa consiste nell insieme (Ω, B, P ) chiamato spazio di probabilità, e permette di assegnare un

14 6 ASSIOMI DELLA PROBABILITA numero reale non negativo P (A i ) che chiamiamo probabilità di A i, agli eventi che formano un campo di Borel B, costituito da sottoinsiemi di uno spazio campione Ω associato all esperimento casuale. L assioma I attribuisce probabilità 1 all evento certo Ω, senza tuttavia escludere a priori che esistano altri eventi, diversi da Ω, con probabilità 1. Se è teoricamente possibile un evento A Ω tale che P (A) = 1, si dice che questo evento è quasi certo. L assioma II esprime la proprietà additiva del funzionale P tra due eventi fra loro incompatibili. Tale proprietà si generalizza subito a un insieme finito o infinito di eventi a due a due incompatibili, con una delle due relazioni seguenti: ( n ) II n ) i j, A i A j = P A i = P (A i ) i=1 i=1 ( ) rii ) i j, A i A j = P ni=1a i = P (A i ) i=1 l ultima delle quali esprime la additività infinita, o σ-additività, dell insieme {A i, i = 1, 2,...} di eventi a due a due incompatibili. Dagli assiomi I), II) della probabilità si deducono svariate proprietà di P. Le più significative sono le seguenti: C1. P (A i ) = 1 P (A i ) C2. P ( ) = 0 C3. A i A j : P (A i ) P (A j ) C4. A i B : 0 P (A i ) 1 C5. A i A j : P (A i A j ) = P (A i ) + P (A j ) P (A i A j ). La proprietà C1 si dimostra considerando che per l assioma I si ha P (Ω) = P (A i A i ) = 1, e poichè A i e il suo complementare sono incompatibili, si ricava per l assioma II: P (A i ) + P (A i ) = 1. La C2 si deduce dalla C1 perchè l insieme vuoto è il complementare di Ω e quindi P ( ) = 1 P (Ω) = 0. La C3 afferma che P è un funzionale crescente di B in [0, 1], e si dimostra applicando l assioma II agli eventi (incompatibili) A i e (A j \A i ). Si trova: P (A j ) = P (A i (A j \A i )) = P (A i ) + P (A j \A i ) e poiche l insieme (A j \A i ) non è vuoto per ipotesi, risulta P (A j \A i ) 0. La C4 si prova osservando che se A i Ω non è vuoto, è anche = Ω A i e per la C3 valgono entrambe le diseguaglianze: P (A i ) P ( ) = 0 e P (A i ) P (Ω) = 1.

15 1.2 Definizione assiomatica di probabilità 7 A i A j A i A j A i A j Figura 1.2 La C5 è la generalizzazione dell assioma II per eventi non incompatibili, e si dimostra come segue. Consideriamo l evento A i A j = A i (A i A j ) che si può esprimere (v. Fig. 1.2) mediante l unione dei due eventi incompatibili A i e (A i A j ). Per l assioma II si ha allora P (A i A j ) = P (A i ) + P (A i A j ). Ma anche A j è esprimibile con l unione: (A i A j ) (A i A j ) di due eventi incompatibili, e per esso l assioma II fornisce: P (A j ) = P (A i A j ) + P (A i A j ). Eliminando P (A i A j ) dalle due precedenti eguaglianze, si ricava la C5. Esempio 1.3: eventi elementari equiprobabili Si è visto (Esempio 1.1) che nel lancio di un dado sei eventi elementari, a due a due incompatibili, costituiscono lo spazio campione Ω = {1, 2, 3, 4, 5, 6}. Per gli assiomi I e II si ha subito: P (Ω) = P ({1} {2}... {6}) = i P {i} = 1 e se ammettiamo che ciascun evento elementare abbia uguale probabilità di realizzarsi (ovvero se operiamo con un dado non truccato ), la probabilità di ciascuno vale: i = 1,.., 6 : P (i) = 1/6. Sempre per l assioma II, l evento composto: esce un numero pari ha probabilità P (2, 4, 6) = P (2) + P (4) + P (6) = 1/2 mentre l uscita di un numero che non sia primo ha probabilità P (4, 6) = P (4) + P (6) = 2/6 = 1/3. Se si effettua per due volte il lancio dello stesso dado non truccato, gli eventi elementari sono 6 2 = 36, e la probabilità che esca due volte lo stesso numero vale P (11, 22, 33, 44, 55, 66) = i P (ii) = 6/36 = 1/6.

16 8 ASSIOMI DELLA PROBABILITA Questo esempio esprime il seguente risultato di carattere generale: Se lo spazio campione consiste di un numero finito N di eventi elementari equiprobabili, la probabilità di un evento A i composto da N A eventi elementari vale P (A i ) = N A /N (1.1) e coincide con la definizione classica di probabilità, citata nella Introduzione. Esempio 1.4 Nel lancio di una moneta, i possibili eventi elementari sono soltanto due: T = {esce testa } e C = {esce croce }. Lo spazio campione associato ad una singola prova è Ω = {T C}; se la moneta è lanciata due volte si ha Ω = {T T, T C, CT, CC} e per n prove ripetute Ω è formato da 2 n eventi elementari equiprobabili, con probabilità 1/2 n. Sulla base del risultato espresso dalla (1.1), si verifica subito che nei lanci ripetuti della moneta si ha: P {C nel secondo di due lanci } = 1/2 P {C nei primi due di tre lanci } = 1/4 P {T in due qualsiasi di quattro lanci } = 3/8 P {T per la prima volta all n-esimo lancio } = 1/2 n. Esempio 1.5: distribuzione uniforme in [0, T ] Estendiamo al caso continuo il risultato dell Esempio 1.3. Supponiamo che lo spazio campione sia l intervallo [0, T ] IR e che gli eventi A i relativi ad un esperimento casuale siano una infinità numerabile di intervalli in [0, T ]. Supponiamo inoltre che si richieda di assegnare uguali probabilità ad eventi definiti da intervalli di uguale ampiezza. Questa ipotesi implica la definizione di una distribuzione uniforme di probabilità in [0, T ], e determina univocamente P (A i ). Infatti, se pensiamo di suddividere Ω in n intervalli I di eguale ampiezza T/n e senza elementi comuni, per l assioma II la loro probabilità vale P (I) = 1/n. Un evento A definito dalla unione di k intervalli I ha probabilità P (A) = k n = kt nt = L(A) L(Ω), uguale al rapporto tra le ampiezze L(A), L(Ω) degli intervalli A ed Ω. In particolare, se Ω è l intervallo unitario, P (A) coincide con la misura di Lebesgue di A. E poiché la misura di Lebesgue è una funzione continua degli intervalli, se ne deduce il seguente risultato.

17 1.3 Probabilità condizionata 9 In una distribuzione uniforme di probabilità nell intervallo [O, T ], la probabilità del generico evento A i di ampiezza L(A i ) vale: P (A i ) = L(A i) T. Ne segue, tra l altro, che ogni punto t di Ω ha probabilità nulla: P (t) = 0, t [0, T ] poiché t è un insieme di misura nulla. 1.3 Probabilità condizionata Assegnato un evento A j B con probabilità non nulla, la probabilità di un altro evento A i B, condizionata da A j si indica con P (A i A j ) e vale: P (A i A j ) = P (A i A j ) P (A j ). (1.2) Essa indica la probabilità che che si realizzi A i sapendo che A j si è verificato; oppure: la probabilità di A i in una prova valida solo se si verifica anche A j. Le probabilità condizionate soddisfano tutte le proprietà che discendono dagli assiomi I, II. In particolare: Se A i A j, allora A i A j = A i e quindi: A i A j = P (A i A j ) = P (A i )/P (A j ) > P (A i ). Se A i A j, allora A i A j = A j e quindi: A i A j = P (A i A j ) = 1. Se A i e A j sono incompatibili, allora A i A j = e quindi: La definizione (1.2) si può anche scrivere: A i A j = = P (A i A j ) = 0. P(A i A j ) = P(A j )P(A i A j ) (1.3) e si estende al caso di n eventi A 1,.., A n B nella forma seguente P(A 1 A 2... A n ) = P(A 1 )P(A 2 A 1 )P(A 3 A 1 A 2 ) P(A n A 1 A 2 A n 1 ) (1.4) che esprime la legge delle probabilità composte, molto utile in svariate applicazioni, come mostra l esempio che segue.

18 10 ASSIOMI DELLA PROBABILITA Esempio 1.6: estrazione senza reimbussolamento Da un urna contenente 6 palline bianche e 4 nere si estrae una pallina per volta, senza reintrodurla nell urna. Indichiamo con B i l evento: esce una pallina bianca alla i-esima estrazione e con N i l estrazione di una pallina nera. L evento: escono due palline bianche nelle prime due estrazioni è rappresentato dalla intersezione {B 1 B 2 }, e la sua probabilità vale, per la (1.3): P (B 1 B 2 ) = P (B 1 )P (B 2 B 1 ). Ora, P (B 1 ) vale 6/10, perché nella prima estrazione Ω è costituito da 10 elementi: 6 palline bianche e 4 nere. La probabilità condizionata P (B 2 B 1 ) vale 5/9, perchè nella seconda estrazione se è verificato l evento B 1 lo spazio campione consiste di 5 palline bianche e 4 nere. Si ricava pertanto: P (B 1 B 2 ) = 1/3. In modo analogo si ha che P (N 1 N 2 ) = P (N 1 )P (N 2 N 1 ) = (4/10) (3/9) = 4/30. Se l esperimento consiste nell estrazione successiva di 3 palline, la probabilità che queste siano tutte bianche vale, per la (1.4): P (B 1 B 2 B 3 ) = P (B 1 )P (B 2 B 1 )P (B 3 B 1 B 2 ) dove la probabilità P (B 3 B 1 B 2 ) si calcola supponendo che si sia verificato l evento condizionante {B 1 B 2 }. Lo spazio campione per questa probabilità condizionata è allora costituito da 4 palline bianche e 4 nere, per cui P (B 3 B 1 B 2 ) = 1/2 e quindi: P (B 1 B 2 B 3 ) = (1/3) (1/2) = 1/6. La probabilità dell estrazione di tre palline nere è invece: P (N 1 N 2 N 3 ) = P (N 1 )P (N 2 N 1 )P (N 3 N 1 N 2 ) = = Eventi indipendenti Due eventi A i, A j si dicono statisticamente indipendenti se e solo se: P (A i A j ) = P (A i )P (A j ). (1.5) Tale definizione esprime il concetto intuitivo di indipendenza di un evento da un altro, nel senso che il verificarsi di A i non influisce sulla probabilità del verificarsi di A j, ovvero non la condiziona. Infatti, per la definizione (1.2) di probabilità condizionata, si ha che se vale la (1.5) risulta: P (A i A j ) = P (A i )P (A j )/P (A j ) = P (A i ).

19 1.4 Eventi indipendenti 11 e dunque la conoscenza del verificarsi di A j non modifica la valutazione della probabilità dell evento A i da esso statisticamente indipendente. Si noti bene che il concetto di indipendenza è del tutto differente da quello di incompatibilità. In effetti, due eventi incompatibili (per i quali si ha A i A j = ) sono strettamente dipendenti statisticamente, poichè il verificarsi dell uno esclude il verificarsi dell altro. Per la proprietà C2 del 1.2.3, la probabilità della loro intersezione è nulla: P (A i A j ) = 0 e di conseguenza, per confronto con la (1.5), due eventi incompatibili possono essere anche statisticamente indipendenti solo nel caso banale in cui almeno uno di essi abbia probabilità nulla, ovvero sia quasi impossibile. Se due eventi con probabilità non nulla sono statisticamente indipendenti, la legge delle probabilità totali espressa dalla proprietà C5 del si modifica nella relazione seguente: P (A i A j ) = P (A i ) + P (A j ) P (A i )P (A j ). La definizione di indipendenza si estende al caso di un insieme finito o infinito di eventi A i, i quali si dicono statisticamente indipendenti se e solo se, per qualunque sottoinsieme {A 1,..., A n } di n eventi, si verifica la condizione: P (A 1 A 2... A n ) = P (A 1 )P (A 2 ) P (A n ). (1.6) Ciò significa, in particolare, che tre eventi A, B, C sono statisticamente indipendenti se lo sono a due a due, e se inoltre: Esempio 1.7 P (A B C) = P (A)P (B)P (C). Nel lancio di un dado non truccato, si considerino gli eventi: A = {esce un numero minore di 3} e B = {esce un numero pari}. Questi due eventi sono statisticamente indipendenti. Infatti, le loro probabilità valgono: P (A) = P (1, 2) = 1/3; P (B) = P (2, 4, 6) = 1/2 e la probabilità della loro intersezione vale: P {(1, 2) (2, 4, 6)} = P (2) = 1/6 P (A)P (B). Come verifica, si può osservare che la probabilità dell evento A condizionata da B coincide con la sua probabilità non condizionata: P {(1, 2) (2, 4, 6)} = P {(1, 2) (2, 4, 6)} P (2, 4, 6) = 1/6 = 1/3 P (1, 2) 1/2 Nel lancio ripetuto di una moneta (cfr. l Esempio 1.4) in cui lo spazio campione è Ω = {T T, T C, CT, CC}, si considerino gli eventi composti: A 1 = {T T, T C}, A 2 =

20 12 ASSIOMI DELLA PROBABILITA {T C, CT } e A 3 = {T T, CT }, ciascuno con probabilità 1/2. I tre eventi non sono statisticamente indipendenti, anche se lo sono a due a due. Infatti: ma si ha anche: P (A 1 A 2 ) = P {T C} = 1/4 = P (A 1 )P (A 2 ) P (A 1 A 3 ) = P {T T } = 1/4 = P (A 1 )P (A 3 ) P (A 2 A 3 ) = P {CT } = 1/4 = P (A 2 )P (A 3 ), P (A 1 A 2 A 3 ) = P ( ) = 0 P (A 1 )P (A 2 )P (A 3 ) e dunque non è verificata la condizione (1.6) per n = 3. Esempio 1.8: componenti in serie e in parallelo Si abbia un generico sistema (ad es. una macchina, un dispositivo di controllo, un circuito, una rete di comunicazione tra centri abitati, ecc.) costituito da n componenti con funzionamento statisticamente indipendente, che sono operativi ciascuno con probabilità P i, i = 1,..., n. Il collegamento è in serie se tutti i componenti devono essere operativi perché lo sia il sistema; è in parallelo se è sufficiente il funzionamento di un solo componente per rendere operativo il sistema. Indichiamo con A i l evento: è operativo l i-esimo componente e con B l evento: il sistema è operativo. L intersezione degli eventi A i, i = 1,..., n indica l evento: tutti i componenti sono operativi, e l intersezione delle loro negazioni A i = Ω\A i è l evento: nessun componente è operativo. Poichè A i sono indipendenti, le loro probabilità soddisfano la (1.6), per cui nel collegamento in serie si ha subito: n P (B) = P (A 1 A 2.. A n ) = P (A 1 )P (A 2 )..P (A n ) = P i. i=1 Nel collegamento in parallelo, P (B) è invece eguale alla probabilità che almeno un componente sia operativo, e perció vale n P (B) = 1 P (A 1 A 2.. A n ) = 1 (1 P i ). i=1 1.5 Formula di Bayes Si abbia una sequenza finita o numerabile di eventi A i B Ω con probabilità non nulle, e soddisfacente alle seguenti ipotesi:

21 1.5 Formula di Bayes 13 1) i j : A i A j = 2) i=1 A i = Ω. La prima condizione stabilisce che gli eventi devono essere a due a due incompatibili; la seconda impone che il loro insieme sia esaustivo, ossia tale che in ogni prova dell esperimento casuale si realizza uno e uno solo tra gli eventi A i (v. Fig. 1.3). A2 A 1 E A3 A 4 A5 Figura 1.3 Definito un arbitrario evento E Ω con probabilità non nulla, è chiaro per le ipotesi fatte che se si verifica E, deve anche essersi verificato almeno uno degli eventi A i, che in tal senso si possono considerare come possibili cause dell evento E che è stato registrato. La probabilità condizionata P (A i E), detta probabilità a posteriori, è quella che attribuiamo ad A i sapendo che si è verificato E, ed è legata alla probabilità a priori P (A i ) dalla seguente formula di Bayes: P (A i E) = P (A i)p (E A i ). (1.7) P (A j )P (E A j ) j Essa mostra che la conoscenza del verificarsi di E modifica la probabilità che a priori siamo portati ad attribuire all evento A i. Per dimostrare la (1.7), si osservi che ricorrendo due volte alla definizione di probabilità condizionata, si ha anzitutto: P (A i E) = P (A i E) P (E) = P (E A i) P (E) Inoltre, per l ipotesi 2) e tenendo conto che E Ω, si può scrivere: E = E Ω = E ( j = P (A i)p (E A i ). (1.8) P (E) A j ) = (E A j ). j

22 14 ASSIOMI DELLA PROBABILITA Ma per l ipotesi 1) anche gli eventi (E A j ) ed (E A k ), con j k, sono incompatibili a due a due. Quindi per l assioma II si ha: P (E) = P (E A j ) = P (E A j ) = P (A j )P (E A j ) (1.9) j j j che, sostituita nella (1.8), prova la (1.7). La (1.9) è detta Formula delle probabilità totali, ed è assai utile in molte applicazioni perchè permette di valutare la probabilità dell evento E se è nota la sua probabilità condizionata dalla sequenza degli eventi A i di cui si conoscono le probabilità a priori. Esempio 1.9: Controllo statistico della qualità Al montaggio di 200 apparecchiature uguali contribuiscono tre tecnici con abilità differenti. Il primo tecnico monta 50 apparecchiature, che al collaudo risultano perfette nel 90% dei casi; il secondo ne monta 85, perfette all 80%, e il terzo ne monta 65, perfette nel 70% dei casi. Si vuole determinare la probabilità che un apparecchio di buona qualità, scelto a caso, sia stato montato del terzo tecnico. Indichiamo con E l evento rappresentato dalla buona qualità del montaggio, e con A 1, A 2, A 3 il montaggio effettuato da ciascuno dei tre tecnici. I tre eventi A i sono esaustivi (la loro unione è lo spazio campione dei 200 apparecchi montati) ed incompatibili (il montaggio da parte di un tecnico esclude quello di un altro). Le probabilità a priori di questi tre eventi sono note: P (A 1 ) = = 0.25, P (A 2) = = 0.425, P (A 3) = = La probabilità dell evento E nella ipotesi che l apparecchio scelto sia stato montato dal primo tecnico, è la probabilità condizionata: P (E A 1 ) = 0.90 che è nota dal collaudo; e cosí pure risulta: P (E A 2 ) = 0.80, P (E A 3 ) = La probabilità da determinare è quella relativa al montaggio effettuato dal terzo tecnico, sapendo che è stata scelta una apparecchiatura perfetta. Essa si ricava applicando la (1.7) e vale: P (A 3 E) = P (A 3 )P (E A 3 ) P (A 1 )P (E A 1 ) + P (A 2 )P (E A 2 ) + P (A 3 )P (E A 3 ) = Esempio 1.10: trasmissione di un segnale binario In un sistema di comunicazione digitale, un segnale binario X è trasmesso nella forma 0 oppure 1, con probabilità di trasmissione di ciascuna delle due forme che indichiamo rispettivamente con P (X 0 ) e P (X 1 ). La trasmissione è affetta da disturbi aleatori (rumore), per cui esiste una probabilità non nulla che il segnale ricevuto, che indichiamo con Y, sia diverso da quello emesso X (v. Fig. 1.4).

23 1.5 Formula di Bayes 15 Canale simmetrico Figura 1.4 Supponiamo dapprima che i due eventi (esaustivi) X 0 = {X = 0} e X 1 = {X = 1} si realizzino con probabilità P (X 0 ) = 0.4 e P (X 1 ) = 0.6; e inoltre che la probabilità di errore nella trasmissione del segnale 0 sia uguale alla probabilità di errore nella trasmissione del segnale 1, e valga P = Si vuole determinare le probabilità di ricevere 1 e di ricevere 0. Indichiamo con Y 0 ed Y 1 la ricezione del segnale nelle forme 0 ed 1. Se il segnale trasmesso è 0 esso ha, per ipotesi, probabilità P di essere distorto in 1. Quindi P (Y 1 X 0 ) = P = Se invece il segnale trasmesso è 1, ha probabilità (1 P ) di essere ricevuto inalterato: P (Y 1 X 1 ) = Applicando la (1.9) si ricava pertanto P (Y 1 ) = P (Y 1 X 0 )P (X 0 ) + P (Y 1 X 1 )P (X 1 ) = = La probabilià di ricezione del segnale nella forma 0 si calcola invece come segue: P (Y 0 ) = P (Y 0 X 0 )P (X 0 ) + P (Y 0 X 1 )P (X 1 ) = = 0.45 o meglio, se già si conosce P (Y 1 ), come probabilità della negazione dell evento Y 1 : Canale non simmetrico P (Y 0 ) = P (Ω) P (Y 1 ) = Supponiamo ora che la probabilità di trasmissione del segnale in forma non distorta vari a seconda della forma del segnale trasmesso, e precisamente: P (X 0 non distorto) = 0.8, P (X 1 non distorto) = 0.9 essendo P (X 0 ) = 1/3. Si vuole determinare la probabilità P (E) che il segnale ricevuto sia errato. Essa si calcola applicando ancora la (1.9) e vale: P (E) = P (Y 0 X 1 )P (X 1 ) + P (Y 1 X 0 )P (X 0 ) = = 0.13.

24 16 ASSIOMI DELLA PROBABILITA 1.6 Problemi risolti 1.1. Da un mazzo di 52 carte se ne sceglie una a caso. Quanto vale la probabilità di estrarre una figura o una carta di fiori? E quella di estrarre una figura e un fiori? Soluzione. L evento {estrazione di una figura} non influisce sulla probabilità dell evento {estrazione di un fiori}, per cui essi sono statisticamente indipendenti. Ne segue: P {figura fiori} = P {figura} + P {fiori} P {figura fiori}= = P {figura fiori} = P {figura} IP{fiori} = = Se A e C sono eventi incompatibili con B, allora P (A B C) = P (A C). Vero o falso? Risposta: Vero, perché: P (A B C) = A C B P [(A B) C] P (C) = P (A C) P (C) = P (A C) Nel lancio ripetuto di due dadi non truccati, la somma dei risultati è un numero pari. Quanto vale la probabilità di aver totalizzato 8? Risposta: La probabilità che la somma sia 8 è P {8} = P {(6 + 2) (5 + 3) (4 + 4) (3 + 5) (2 + 6)} = Sapendo che è uscito un numero pari, si ha invece P {8 pari} = P {8 pari} P {pari} = P {8} 0.5 = Gli eventi A 1, A 2 sono incompatibili, esaustivi e con uguale probabilità. Se un terzo evento C Ω ha probabilità condizionate P (C A 1 ) = P (C A 2 ) = 0.5, allora P (A 1 C) = 1/4. Vero o falso?

25 1.6 Problemi risolti 17 Risposta: si ricava: Falso, perché P (A 1 ) = P (A 2 ) = 0.5 e se si applica la formula di Bayes P (A 1 C) = P (A 1 )P (C A 1 ) P (A 1 )P (C A 1 ) + P (A 2 )P (C A 2 ) = 0, ( ) = Se gli eventi A, B sono incompatibili, allora P (A) P (B). Vero o falso? Risposta: Vero, perché se sono incompatibili allora A B = Ω B da cui si deduce, per gli assiomi della probabilità, che P (A) P (B) L urna A contiene 2 palline bianche e 3 nere; l urna B ne contiene 4 bianche e 1 nera; l urna C ne contiene 3 bianche e 4 nere. Si sceglie a caso un urna, e si estrae una pallina bianca. Calcolare la probabilità che essa provenga dall urna C. Soluzione. Le probabilità di scegliere a caso una delle tre urne sono uguali: P (A) = P (B) = P (C) = 1/3. Indichiamo con E l evento {estrazione di una pallina bianca}. Le probabilità che essa sia estratta dall urna A, oppure B o C sono: P (E A) = 2/5; P (E B) = 4/5; P (E C) = 3/7 e la probabilità totale di estrarre una pallina bianca da una qualsiasi delle tre urne vale P (E) = 1 ( = 7) La probabilità di averla estratta dall urna C è data dalla formula di Bayes: P (C E) = P (C)P (E C) P (E) = (1/3)(3/7) 57/105 = Due ditte forniscono il medesimo prodotto. Se esso proviene dalla ditta A, la probabilità che si guasti prima dell istante t vale 1 e t ; se invece proviene dalla ditta B questa probabilità vale 1 e 2t. Il prodotto può essere acquistato con uguale probabilità da A o da B, e non è nota la ditta fornitrice. Tuttavia, è stato osservato che il prodotto si guasta in un intervallo di tempo 1 t 2. Determinare la probabilità che esso sia stato acquistato dalla ditta A. Soluzione. Indichiamo con E l evento: {guasto in 1 t 2} e con P (A) = P (B) = 0.5 le probabilità che il prodotto provenga da A o da B. La probabilità di guasto del prodotto A nell intervallo di tempo 1 t 2 vale P (E A) = 1 e 2 [1 e 1 ] = e 1 e 2 e quella del prodotto B nello stesso intervallo è P (E B) = 1 e 2 2 [1 e 2 1 ] = e 2 e 4.

26 18 ASSIOMI DELLA PROBABILITA La probabilità a posteriori P (A E) è data dalla formula di Bayes: P (A E) = = P (A)P (E A) P (A)P (E A) + P (B)P (E B) e 1 e 2 e 1 e 2 + e 2 e 4 = e2 (e 1) e Abbiamo sul tavolo 9 carte coperte: due di esse sono di cuori, tre di fiori e quattro di picche. Calcolare la probabilità che, scelte simultaneamente due carte a caso, siano di seme diverso. Soluzione. Indichiamo con {QQ}, {F F }, {P P } gli eventi: estrazione di due cuori, oppure due fiori, o due picche. Lo spazio campione Ω è costituito da ( 9 2) = 36 eventi possibili (numero di combinazioni di 9 elementi a 2 a 2). Tra essi, esistono: ( ) 2 = 1 evento {QQ}; 2 ( ) 3 = 3 eventi {F F }; 2 La probabilità di estrarre due carte dello stesso seme vale: ( ) 4 = 6 eventi {P P }. 2 P [{QQ} {F F } {P P }] = P {QQ} + P {F F } + P {P P } = = La probabilità di estrarre due carte di seme diverso è : P {seme diverso} = 1 P [{QQ} {F F } {P P }] = Una sorgente emette una sequenza di tre segnali binari equiprobabili nella forma 0 e 1. Sapendo che almeno due segnali sono stati emessi nella forma 1, calcolare la probabilità che sia stato emesso 0 nella prima emissione. Soluzione. Lo spazio campione contiene 2 3 = 8 eventi (= numero delle disposizioni con ripetizione di 2 elementi a 3 a 3). Questi sono: (000) (001) (011) (100) (010) (101) (110) (111) e la probabilità che sia stato emesso 1 almeno due volte vale P (E) P ( 1 per due o tre volte) = 4 8 = 0.5. La probabilità di emissione di un primo 0 condizionata da E vale: P (primo 0 E) = P [(primo 0 ) E] P (E) = 1/8 0.5 = 0.25.

27 1.6 Problemi risolti In un primo turno elettorale il polo A ha avuto il 45% dei voti, e il polo B ha vinto con il 55% dei suffragi. Si ripetono le elezioni con i medesimi votanti, e dagli exit-poll risulta che: 1) il 10% di colori che avevano votato A hanno spostato il voto su B; 2) il 20% dei vecchi elettori di B hanno votato A. Chi ha vinto (secondo gli exit-poll) il secondo turno? Soluzione. Definiamo i seguenti eventi e le loro probabilità: A 1 = {voto per A al primo turno} : P (A 1 ) = 0.45 B 1 = {voto per B al primo turno} : P (B 1 ) = 0.55 E = {voto cambiato} : P (E A 1 ) = 0.10, P (E B 1 ) = La probabilità che gli elettori abbiano votato A al secondo turno è P (A 2 ) = P (A 1 )[1 P (E A 1 )] + P (B 1 )P (E B 1 ) = = Poiché gli eventi A 2 e B 2 sono esaustivi, ha vinto A con il 51.5% avuto il 48.5%. contro B che ha Sul tavolo ci sono due mazzi di carte. Il mazzo A è completo ed ha 52 carte (ossia tredici per ognuno dei quattro semi). Dal mazzo B sono state tolte tutte le figure. Si estrae una carta a caso da uno dei due mazzi, ed è un asso. Qual è la probabilità che l asso sia stato estratto dal mazzo B? Soluzione. Le probabilità a priori di scegliere uno dei due mazzi sono uguali: P (A) = P (B) = 0.5. Se E è l evento estrazione di un asso, le probabilità di estrarlo da A o da B sono: P (E A) = 4 52 = 1 13, P (E B) = 4 40 = La probabilità a posteriori che l asso sia stato estratto dal mazzo B vale, per la formula di Bayes: P (B E) = P (B)P (E B) P (A)P (E A) + P (B)P (E B) = ( /13) = Si utilizza un prodotto fornito in percentuali uguali da due ditte A e B. E stato calcolato che, scelto a caso un esemplare difettoso, la probabilità che esso sia stato fornito dalla ditta A vale IP(A difettoso ) = Se la produzione del prodotto da parte della ditta A ha un difetto di qualità del 5%, qual è il difetto di qualità nella produzione della ditta B? Soluzione. Le probabilità a priori che la ditta fornitrice sia A oppure B sono uguali: P (A) = P (B) = 0.5. Se D è l evento: prodotto difettoso, si sa che P (D A) = Inoltre è stato calcolato che P (A D) = P (D B) = 0.25.

28 20 ASSIOMI DELLA PROBABILITA Dunque risolvendo rispetto alla probabilità richiesta: P (D B) = = 0.15 = 15% Tre macchine A, B, C producono, rispettivamente, il 60%, il 30% e il 10% del numero totale dei pezzi prodotti da una fabbrica. Le percentuali di produzione difettosa di queste macchine sono, rispettivamente, del 2%, 3% e 4%. Viene estratto a caso un pezzo che risulta difettoso. Determinare la probabilità che quel pezzo sia stato prodotto dalla macchina C. Soluzione. Le probabilità che i pezzi siano prodotti dalla macchina A, B oppure C sono: P (A) = 0.6, P (B) = 0.3, P (C) = 0.1. Se D è l evento: {pezzo difettoso}, si sa che P (D A) = 0.02, P (D B) = 0.03, P (D C) = 0.04 e dunque la probabilità totale che il pezzo sia difettoso vale P (D) = = Per la formula di Bayes la probabilità richiesta è P (C D) = P (C)P (D C) P (D) = = Un urna contiene 1 pallina nera (N) e 2 palline bianche (B). Si estrae casualmente una pallina dall urna e, dopo averne osservato il colore, la si rimette nell urna aggiungendo altre 2 palline del colore estratto e 3 palline del colore non estratto. Calcolare la probabilità che in 4 estrazioni successive, effettuate secondo la regola sopra stabilita, si ottenga la stringa (ordinata) BNNB. Soluzione. Indichiamo con B i, N i (i = 1,..., 4) gli eventi: {si ha una pallina Bianca (Nera) alla i-esima estrazione}. Dopo ogni estrazione cambia lo spazio campione, e se gli esiti delle prime tre estrazioni seguono la sequenza voluta: B 1 N 2 N 3 il numero delle palline presenti nell urna quando avviene la i-esima estrazione si modifica come segue: i Nere Bianche

29 1.6 Problemi risolti 21 Allora si ha P (B 1 ) = 2 3, P (N 2 B 1 ) = 4 8 = 1 2, P (N 3 N 2 B 1 ) = 6 13, P (B 4 N 3 N 2 B 1 ) = = 5 9 e di conseguenza la probabilità che si verifichi la sequenza BNNB vale: P (B 1 N 2 N 3 B 4 ) = = Un segnale binario X, emesso nella forma 1 con probabilità P (X 1 ) = 0, 75, è inviato su un canale di trasmissione non simmetrico nel quale la probabilità di errore nella trasmissione di X 1 vale p = 0, 08. Il segnale X è ricevuto nella forma Y = 1 con probabilità P (Y 1 ) = 0, 70. Calcolare: a) la probabilità P (Y 1 X 0 ) che il segnale 0 sia ricevuto nella forma 1 ; b) la probabilità totale di errore nella ricezione del segnale. Soluzione. a) La probabilità che X sia emesso nella forma 0 è P (X 0 ) = 1 P (X 1 ) = 0.25, e la probabilità di una trasmissione corretta del segnale 1 è P (Y 1 X 1 ) = = Per la formula delle probabilità totali, la probabilità (nota) che il segnale sia ricevuto nella forma 1 si può scrivere: P (Y 1 ) = 0.70 = P (X 0 )P (Y 1 X 0 ) + P (X 1 )P (Y 1 X 1 ) = 0.25P (Y 1 X 0 ) e risolvendo rispetto a P (Y 1 X 0 ): P (Y 1 X 0 ) = = b) La probabilità di errore nella ricezione del segnale risulta: P {errore} = P (X 0 )P (Y 1 X 0 ) + P (X 1 )P (Y 0 X 1 ) = = = Due urne contengono palline bianche e nere in proporzioni diverse. Siano p 1 e p 2 le probabilità di estrarre una pallina bianca rispettivamente dall urna U 1 e dall urna U 2. Luca vince se estraendo due palline almeno una è bianca. Egli può scegliere tra due modalità di estrazione: A) Sceglie a caso una delle due urne, estrae una pallina, la rimette nell urna da cui è stata estratta, quindi sceglie di nuovo a caso un urna ed estrae la seconda pallina.

30 22 ASSIOMI DELLA PROBABILITA B) Sceglie a caso una delle due urne, estrae una pallina, la rimette nell urna da cui è stata estratta, e sempre dalla stessa urna estrae una seconda pallina. Quale tra le due procedure è più conveniente per la vittoria di Luca? Soluzione. Indichiamo con U i la scelta di una delle due urne, con N i l evento: {pallina nera alla i-esima estrazione} e con E l evento {estrazione di almeno una pallina bianca}. Si ha anzitutto: IP(U i ) = 0.5 ; IP(E) = 1 IP(N 1 N 2 ). Con la procedura A le due estrazioni sono statisticamente indipendenti, con IP(N 1 ) = IP(N 2 ) : IP(N 1 N 2 ) = IP(N 1 )IP(N 2 ) = {IP(U 1 )IP(N 1 U 1 ) + IP(U 2 )IP(N 1 U 2 )} In tale ipotesi si ricava: {IP(U 1 )IP(N 2 U 1 ) + IP(U 2 )IP(N 2 U 2 )} = {0.5(1 p 1 ) + 0.5(1 p 2 )} 2. ( 1 p1 IP A (E) = p ) 2 2 = p 1 + p 2 (p 1 + p 2 ) Con la procedura B, la probabilità di estrarre due Nere dalla medesima urna vale: Quindi: e si ottiene: i = 1, 2 : IP(N 1 N 2 U i ) = IP(N 1 U i )IP(N 2 U i ) = (1 p i ) 2. IP(N 1 N 2 ) = IP(U 1 )IP(N 1 N 2 U 1 ) + IP(U 2 )IP(N 1 N 2 U 2 ) = 0.5(1 p 1 ) (1 p 2 ) 2 IP B (E) = 1 [ (1 p1 ) (1 p 2) 2 ] 2 = p 1 + p 2 p2 1 + p La differenza tra le due probabilità è IP A (E) IP B (E) = (p 1 + p 2 ) p2 1 + p2 2 2 = (p 1 p 2 ) 2 4 > 0 e quindi IP A (E) > IP B (E).

31 VARIABILI ALEATORIE 2.1 Definizioni Il risultato di una prova di un generico esperimento casuale non è sempre esprimibile direttamente in termini di numeri reali (si pensi per esempio al lancio di una moneta, o all estrazione da un urna di palline con colori diversi). Tuttavia, nello sviluppo del Calcolo delle probabilità siamo interessati ad associare un numero reale x = X(ω) a qualsiasi risultato ω di ogni prova dell esperimento casuale. Il funzionale X : Ω IR che cosí si viene a definire è chiamato variabile aleatoria o casuale (abbreviata nel seguito con v.a.) se soddisfa a queste due condizioni: 1. X è una funzione a valori reali definita sullo spazio di probabilita (Ω, B, P ) e misurabile, nel senso che le immagini inverse di intervalli B i IR appartengono al campo di Borel degli eventi A i : X 1 (B i ) = A i B. 2. Per ogni numero reale x, l insieme {ω : X(ω) x} è ancora un evento in B. La v.a. X(ω) è dunque una funzione che fa corrispondere a ciascun risultato ω dell esperimento casuale un elemento x di IR, e ad ogni evento A i B Ω un intervallo B i IR come è illustrato in Fig L intervallo B i appartiene a una infinità numerabile di insiemi che costituiscono un campo di Borel B su X(Ω) IR. In particolare, all evento impossibile Ω è associato l insieme vuoto dei numeri reali, e all evento certo Ω è associato l intervallo X(Ω) IR. Inoltre, poiché il funzionale X è definito su uno spazio di probabilità, la v.a. associa alla probabilità P (A i ) = P [X 1 (B i )], definita su Ω, una eguale probabilità immagine P (B i ), definita su X(Ω). Quest ultima misura la probabilità che la v.a. X(ω) assuma valori reali x B i, ed è tale che P (B i ) = P [X 1 (B i )] = P (A i ). 23

32 24 VARIABILI ALEATORIE R X x = X( ) A i X B i = X(A i ) P P* 0 P(A i ) = P*(B i ) 1 R Figura 2.1 Nel seguito indicheremo una v.a. con la lettera maiuscola (per es. X), mentre il generico valore reale che essa può assumere sarà indicato con la lettera minuscola corrispondente. La v.a. X(ω) assume un valore x IR con una ben definita probabilità, che è indotta in X(Ω) IR dalla probabilità P (ω) che si verifichi ω Ω. In conclusione, una variabile aleatoria è la trasformazione (Ω, B, P ) X (IR, B, P ) che associa ad ogni elemento ω Ω una coppia di numeri reali (x, P (x)) = (X(ω), P (ω)) con P (x) = P (ω) [0, 1]. Esempio 2.1 Nel lancio di una moneta per due volte, in cui Ω = {T T, T C, CT, CC}, definiamo la v.a. X(ω) che a ciascuno dei 4 possibili eventi elementari associa un guadagno 1 se esce T, e una perdita di una unità se esce C. La v.a. X(ω) assume allora tre valori discreti: x 1 = X(ω = CC) = 2 x 2 = X(ω = T C) = X(ω = CT ) = 0 x 3 = X(ω = T T ) = 2 e l immagine di Ω è il sottoinsieme: X(Ω) = { 2, 0, 2} IR. Poiché i quattro eventi elementari sono equiprobabili con probabilità P (ω) = 1/4, si ha che la probabilità immagine, indotta in X(Ω) per ciascuno dei tre valori di X, vale rispettivamente: P ( 2) = P (T T ) = 1/4 P (0) = P (T C CT ) = 1/2 P (2) = P (CC) = 1/4.

33 2.1 Definizioni Funzione di distribuzione Per la proprietà 2 di X(ω), l insieme {ω : X x} è un evento in B, che d ora in poi scriveremo più sinteticamente con (X x). Ad esso è possibile assegnare una probabilità P (X x) = P {X 1 (, x)} che al variare di x IR definisce la funzione ordinaria di variabile reale: F X (x) = P (X x). Questa funzione è chiamata funzione di distribuzione (cumulata), o funzione di ripartizione di X(ω). Dunque, F X (x) definisce la distribuzione delle probabilità di eventi in un esperimento casuale e, con riferimento alla v.a. X(ω) che associamo a tale esperimento, misura la probabilità che X(ω) assuma valori minori o uguali al reale x. Sulla base degli assiomi del Calcolo delle probabilità, è sempre non negativa, monotona non decrescente tra 0 e 1, tale che: lim F X(x) F X ( ) = 0, x ed è continua a destra: lim F X(ξ) F X (x + ) = F X (x). ξ x + lim F X(x) F X (+ ) = 1 x + Se X(ω) assume un numero finito o una infinità numerabile di valori reali x i, i = 1,.., n,.. con probabilità P i, allora è chiamata v.a. discreta. La sua funzione di distribuzione, illustrata in Fig. 2.2a), è una funzione costante a tratti con punti di discontinuità in x i : i x i x < x i+1 : F X (x) = P r, r=1 con P i = 1. i Al contrario, se F X (x) è continua e derivabile ovunque tranne al più in un insieme numerabile di punti, allora X(ω) è una v.a. continua, definita in un insieme continuo X(Ω) IR come illustrato in Fig. 2.2b). Se infine l immagine di Ω attraverso X è un insieme continuo X(Ω) IR, ma F X (x) ha un insieme numerabile di punti di discontinuità, allora la v.a. si definisce di tipo misto (v. Fig. 2.2c). La probabilità che una v.a. X(ω) assuma valori in un intervallo (x 1, x 2 ] aperto a sinistra, è data da: P (x 1 < X x 2 ) = F X (x 2 ) F X (x 1 ). (2.1) Infatti si ha: (, x 2 ] = (, x 1 ] (x 1, x 2 ] e poichè gli intervalli a secondo membro rappresentano eventi incompatibili ne segue che P (X x 2 ) = F X (x 2 ) = P (X x 1 ) + P (x 1 < X x 2 ) = F X (x 1 ) + P (x 1 < X x 2 )

34 26 VARIABILI ALEATORIE F ( ) X x F ( ) X x F ( ) X x x 0 1 x x a) v.a. discreta b) v.a. continua c) v.a. mista.25 Figura 2.2 da cui la (2.1). Se se però X(ω) è continua, la probabilità che assuma un valore assegnato x 1 è nulla, perchè x 1 è un insieme di misura nulla (cfr. l Esempio 1.5). Ne segue, tenuto conto della incompatibilità degli eventi (X = x 1 ) e (x 1 < X x 2 ), che per v.a. continue la (2.1) vale anche con il doppio segno di uguaglianza: P (x 1 X x 2 ) = P (X = x 1 ) + P (x 1 < X x 2 ) = F X (x 2 ) F X (x 1 ). Esempio 2.2 La v.a. definita nell Esempio 2.1 a proposito del lancio ripetuto di una moneta è discreta perché può assumere solo i tre valori x 1 = 2, x 2 = 0, x 3 = 2. La sua funzione di distribuzione vale: 0 per x < 2 1/4 per x [ 2, 0) F X (x) = P (X x) = (2.2) 3/4 per x [0, 2) 1 per x 2 ed il suo grafico è riportato in Fig. 2.2a). Un modo più espressivo per scrivere questa funzione costante a tratti consiste nel far uso della funzione scalino unitario o di Heaviside, così definita: { U(x x 1 per ogni x x ) = 0 per ogni x < x. (2.3) Con essa, la (2.2) diventa F X (x) = 1 4 U(x + 2) U(x) U(x 2) (2.2 ) ed ha il vantaggio di mostrare sia i punti di discontinuità di F X (x), sia l ampiezza del gradino in ognuno di tali punti. Esempio 2.3

35 2.1 Definizioni 27 La funzione di variabile reale: 0 per x < 0 F X (x) = 3x 2 2x 3 per x [0, 1] 1 per x > 1 (2.4) è tale che F X (0) = 0; F X (1) = 1 e la sua derivata F X (x) = 6x(1 x) è non negativa per ogni x [0, 1]. Essa può dunque essere riguardata come la funzione di distribuzione di una v.a. X(ω) continua nell intervallo [0, 1], il cui grafico è riportato in Fig. 2.2b). Esempio 2.4 L esperimento consiste nell estrazione a caso di un numero x compreso tra 0 e 1. Definiti i tre eventi composti: A 1 = {ω : x [0, 1 4 ] }, A 2 = {ω : x ( 1 4, 3 4 ] }, A 3 = {ω : x ( 3 4, 1] } aventi probabilità P (A 1 ) = P (A 3 ) = 1 4 ; P (A 2) = 1 2, associamo ad essi la v.a. 0 se ω A 1 X(ω) = x se ω A 2 1 se ω A 3. La sua funzione di distribuzione si calcola come segue: x < 0 : F (x) = P (X < 0) = 0 (2.5) 0 x 1 4 : F (x) = P (X 0) = P (A 1 ) = < x 3 4 : F (x) = P (X 0) + P ( 1 4 < X x) = (x 1 4 ) = x 3 4 < x < 1 : F (x) = P (X 0) + P ( 1 4 < X 3 4 ) = 3 4 x 1 : F (x) = P (X 0) + P ( 1 4 < X 3 4 ) + P (X 1) = = 1. Questa funzione è discontinua nei punti x = 0 ed x = 1 e continua altrove, e definisce una v.a. mista la cui distribuzione di probabilità è indicata nella Fig. 2.2c) Densità di probabilità V.a. continue. Data una v.a. X(ω) continua in X(Ω) IR e scelto un insieme B X(Ω), introduciamo la funzione integrabile f X (x) : IR [0, + ) tale che f X (x)dx = P (X B). (2.6) B Tale funzione f X (x) si chiama densità di probabilità o funzione di densità di X(ω), e il suo integrale misura la probabilità che X(ω) abbia valori x B. Per gli assiomi del Calcolo delle probabilità, essa deve soddisfare le seguenti proprietà: f X (x) 0; f X (x)dx = 1 (2.7) S

36 28 VARIABILI ALEATORIE f ( ) x X P(X x ) dp( ) = f ( x ) d x X 0 x d x Figura 2.3 dove S è il supporto di f X (x), ossia l insieme S = {x IR : f X (x) > 0}. Per la definizione di funzione di distribuzione cumulata, si ha x f X (t)dt = P (X x) = F X (x) (2.8) e quindi anche, se B è l intervallo elementare (x, x + dx]: P (x < X x + dx) = F X (x + dx) F X (x) = x+dx x f X (t)dt = f X (x)dx. (2.9) La quantità elementare dp (ω) = df X (x) = f X (x)dx misura pertanto, a meno di infinitesimi di ordine superiore, la probabilità elementare che X(ω) assuma valori in (x, x + dx]. Da quanto esposto discende anche che f X (x) = df X(x) dx (2.10) quasi ovunque in X(Ω), ovvero: la densità di probabilità è uguale alla derivata della funzione di distribuzione di X(ω), tranne al più in un insieme di punti di misura nulla, nei quali F X (x) non è derivabile.

37 2.1 Definizioni 29 f ( x) X 1/2 1/4 f ( x) X f ( x) X 1 1/ x 0 1 x 0 1/4 3/4 1 x a) v.a. discreta b) v.a. continua c) v.a. mista Esempio 2.5 Figura 2.4 La v.a. continua con funzione di distribuzione definita dalla (2.3) dell Esempio 2.3, ha come densità di probabilità la funzione 0 per x < 0 f X (x) = 6x(1 x) per x [0, 1] 0 per x > 1, che è un arco di parabola su un supporto di ampiezza unitaria, come mostrato in Fig. 2.4b). V.a. discrete e miste. Affinché le formule precedenti continuino a valere in presenza di v.a. discrete o miste, è necessario utilizzare la funzione impulsiva o funzione delta di Dirac. Si tratta della funzione generalizzata così definita: x x : δ(x x ) = 0, δ(x x ) è infinita per x = 0 δ(x x )dx = 1, ϕ(x)δ(x x )dx = ϕ(x ) dove ϕ(x) è una arbitraria funzione di x, continua per x = x. La primitiva di δ(x x ) che si annulla per x è la funzione gradino unitario definita nella (2.3): U(x x ) = x δ(ξ x )dξ. Per mezzo della funzione impulsiva, la densità di una v.a. discreta che assume valori in x 1, x 2,... con probabilità p i, i = 1, 2,... si può esprimere nel modo seguente: f X (x) = i p i δ(x x i ) con p i = 1 (2.11) i

38 30 VARIABILI ALEATORIE e si rappresenta graficamente con una successione di impulsi come indicato in Fig. 2.4a). Essa mostra la densità di probabilità della v.a. che abbiamo associato al lancio ripetuto di una moneta, che si ricava derivando la (2.2 ) e vale f X (x) = 1 4 δ(x + 2) δ(x) + 1 4δ(x 2). (2.12) La v.a. mista considerata nell Esempio 2.4 ha invece una densità che si può esprimere come segue: f X (x) = U(x 1 4 ) U(x 3 4 ) δ(x) + 1 4δ(x 1) ed è mostrata in Fig. 2.4c). La densità (2.11) di una v.a. discreta si scrive anche spesso nella seguente forma semplificata: f X (x i ) = p i, i = 1, 2,... ; f X (x) = 0, x x i che non richiede l introduzione della funzione impulsiva. 2.2 Momenti di variabili aleatorie Si chiama momento di ordine q di una v.a. reale X(ω), dotata di densità f X (x), la quantità E{X q } = x q f X (x)dx = X q (ω)p (ω)dω (2.13) (per q intero positivo) se esiste, finito, l integrale x q f X (x)dx. Se X(ω) è una v.a. discreta, tenuto conto della (2.11) e della proprietà integrale della funzione impulsiva, i suoi momenti valgono: E{X q } = i p i Ω x q δ(x x i )dx = i p i x q i. (2.14) I momenti sono importanti parametri indicatori di certe proprietà di X(ω). Poiché f X (x) 0, i momenti di ordine pari, se esistono, sono sempre non negativi. I più noti sono senza dubbio quelli per q = 1 e q = 2. Si chiama valor medio o valore atteso o ancora speranza matematica di X(ω) il momento del primo ordine: E{X} = indicato anche con la notazione m X, che per v.a. discrete vale: x f X (x)dx (2.15) E{X} = i p i x i, i = 1, 2,.... (2.15 )

39 2.2 Momenti di variabili aleatorie 31 Il valor medio è un parametro di posizione, e si può interpretare come il baricentro della distribuzione di probabilità definita dalla densità f X (x). L integrale (2.15) che lo definisce può essere esteso al supporto S di f X (x), se questo è diverso da IR. Inoltre, se il supporto è limitato: S = [a, b], E{X} può essere determinato agevolmente anche se, invece della densità, si conosce la funzione di distribuzione F X (x). Infatti, calcolando per parti l integrale e tenendo conto che F X (a) = 0, F X (b) = 1, si ricava: E{X} = b a b b xf X (x)dx = [xf X (x)] b a F x (x)dx = b F X (x)dx. (2.15 ) a a Osserviamo ancora che il valor medio ha proprietà di linearità analoghe a quelle dell integrale con cui è definito: date n v.a. X 1 (ω),.., X n (ω), la media di una loro combinazione lineare è uguale alla combinazione lineare delle medie: E{a 1 X a n X n } = a 1 E{X 1 } a n E{X n }. Spesso i momenti di ordine superiore al primo vengono calcolati proprio rispetto al valor medio m x di X(ω), operando una traslazione x = x m x che individua lo scarto dalla media. Si definiscono così i momenti centrali di ordine q = 2, 3,..n: E{(X m X ) q } = (x m X ) q f X (x)dx il più importante dei quali è quello di ordine 2, chiamato varianza di X(ω) e indicato con σx 2 : σ 2 X = E{(X m X ) 2 } = Per v.a. discrete la varianza è definita come la somma: (x m X ) 2 f X (x)dx. (2.16) σ 2 X = i p i (x i m X ) Le dimensioni di σx 2 sono ovviamente diverse da quelle della v.a. cui si riferisce; anche per questo motivo è spesso usata la sua radice quadrata positiva σ X, che è chiamata scarto quadratico medio o deviazione standard, la quale conserva le dimensioni di X(ω). La varianza si può interpretare come il momento d inerzia della distribuzione di probabilità, rispetto alla retta baricentrica x = m X e, insieme con la deviazione standard, è un parametro che misura la dispersione della distribuzione rispetto al suo valor medio. Dalla sua definizione si ricava: σ 2 X = (x 2 2xm X + m 2 X) f X (x)dx = E{X 2 } 2m X m X + m 2 X

40 32 VARIABILI ALEATORIE ovvero: σ 2 X = E{X 2 } E 2 {X} dove E{X 2 } è il momento (non centrale!) del secondo ordine di X(ω). E poichè un momento di ordine pari non può essere negativo, si ha sempre σx 2 0, ovvero anche: E{X 2 } E 2 {X}. Il significato della varianza è ben illustrato dalla seguente Diseguaglianza di Tchebyshev. Si può dimostrare che data una v.a. X(ω) con varianza finita, per ogni reale k > 0 risulta: IP( X m X k) σ 2 X/k 2. Questa diseguaglianza mostra che la probabilità che X(ω) assuma valori al di fuori di un intorno di raggio k del suo valor medio, non supera il rapporto σx/k 2 2. Quindi, al decrescere di σx 2 aumenta la probabilità che tutti i valori di X(ω) siano concentrati attorno al suo valor medio. Una v.a. X(ω) può essere priva di alcuni suoi momenti, o anche di tutti: infatti, perché esistano E{X q } con q = 1, 2,... devono esistere finiti gli integrali x q f X (x)dx. Se poi esistono questi momenti, alcuni di essi possono essere nulli. Ad esempio, tutte le v.a. che hanno una densità di probabilità simmetrica, tale cioé che f X (x) è una funzione pari, hanno momenti di ordine dispari che sono nulli: f X (x) = f X ( x) E{X q } = 0 per q = 1, 3, 5,... perché definiti dall integrale di una funzione dispari; e ciò vale anche per le v.a. discrete, se definite da una successione simmetrica di impulsi. D altra parte, accertata l esistenza dei momenti finiti di una v.a., non è assicurato che essi individuino la sua densita di probabilità f X (x). Infatti, possono esistere variabili aleatorie che hanno tutti i loro momenti uguali, ma differenti distribuzioni di probabilità. Perché una successione {E{X q }} di momenti individui univocamente una densità di probabilità, devono essere soddisfatte ulteriori condizioni. Una di queste è la seguente, che citiamo senza dimostrazione. Condizione sufficiente per l unicità di f X (x). Data una successione di momenti finiti di una v.a. X(ω), se esiste un k 0 tale che E{X 2q } k 2q (2q)! 0 per q + (2.17) allora la successione E{X q }, q = 1, 2,... individua univocamente la densità di probabilità di X(ω).

41 2.3 Distribuzioni notevoli in Probabilità e Statistica 33 Esempio 2.6 La v.a. discreta definita nell Esempio 2.1, che ha densità data dalla (2.12), ha momenti di ordine dispari che sono nulli (infatti f X (x) è simmetrica), e quelli di ordine pari valgono: E{X q } = i p i x q i = 1 4 ( 2)q q = 2 (q 1), q = 2, 4, 6,... La successione di questi momenti individua univocamente la densità (2.12), perchè è soddisfatta la condizione (2.17) con k = 1/2: E{X 2q } (1/2)2q (2q)! = 22q (1/2) 2q 2 (2q)! = 1 0 per q +. 2 (2q)! 2.3 Distribuzioni notevoli in Probabilità e Statistica Distribuzione uniforme E la generalizzazione della legge di eventi equiprobabili già esaminata nell Esempio 1.5. Una v.a. X(ω) uniformemente distribuita nell intervallo [a, b] ha densità f X (x) = 1 b a per a x b ; f X(x) = 0 altrove. (2.18) Si noti che f X (x) soddisfa entrambe le condizioni (2.7) richieste ad una funzione densità di probabilità. La funzione di distribuzione cumulata è 0 per x < a F X (x) = (x a)/(b a) per a x b 1 per x > b f ( x) X F ( x ) X 1 b-a 1 a b x 0 a b x Figura Distribuzione uniforme

42 34 VARIABILI ALEATORIE ed i momenti valgono E{X q } = b a x q b a dx = bq+1 a q+1 (b a)(q + 1). In particolare, si ha subito che il valor medio di X(ω) è ovviamente: e la varianza vale: σ 2 X = a2 + ab + b Distribuzione normale m X = a + b 2 m 2 X = (b a)2. 12 Una v.a. reale X(ω) ha una distribuzione normale o gaussiana se la sua densità vale [ 1 f X (x) = exp (x m X) 2 ] 2πσX 2σX 2, x IR (2.19) dove i parametri m X IR e σx 2 > 0 sono rispettivamente il valor medio e la varianza di X(ω). La distribuzione normale, che si indica con la notazione N (m X, σx 2 ), ha la seguente funzione di distribuzione: [ 1 x F X (x) = exp (x m X) 2 ] 2πσX 2σX 2 dx = 1 ( ) x 2 + erf mx (2.20) σ X dove erf (z) è la funzione degli errori: soddisfacente tra l altro le proprietà: erf (z) = 1 2π z erf ( z) = erf (z) ; 0 e t2 2 dt, lim erf (z) = 1/2 z e nota quantitativamente attraverso i suoi valori tabulati. Ne segue che F X (x) è monotona crescente tra 0 e 1, e vale 1/2 per x = m X perché la densità (2.19) è simmetrica rispetto al suo valor medio (v. Fig. 2.6). La v.a. Z(ω) che è distribuita con legge normale N (0, 1), ovvero ha media nulla e varianza unitaria, prende il nome di normale standard. Si può facilmente provare (con i metodi che saranno esposti nel Capitolo 4) che la sua densità si ricava dalla (2.19) mediante il cambiamento di variabile: z = x m X σ X, (2.21)

43 2.3 Distribuzioni notevoli in Probabilità e Statistica 35 f ( x) X 2 2 X = 0.05 X X = F ( x) m X 0 m X Figura Distribuzioni normali il che significa che la densità e la funzione di distribuzione di Z(ω) sono: f Z (z) = 1 e z2 2, FZ (z) = 1 + erf (z). (2.22) 2π 2 Si noti che nella (2.21) σ X è la deviazione standard di X(ω), e quindi z è un numero puro. Poiché erf (z) si ricava direttamente dalla tabella dei valori della funzione degli errori, nel calcolo di misure di probabilità riguardanti distribuzioni normali con media e varianza note, è spesso assai più comodo effettuare la trasformazione (2.21) e operare sulla variabile standardizzata Z(ω) che ha legge N (0, 1). Questa procedura è usuale nei metodi statistici che saranno esposti in un prossimo Capitolo. Ad esempio, dalla tabella di erf (z) che è riportata in Appendice si ricava subito: P ( X m X σ X ) = P ( Z 1) = F Z (1) F Z ( 1) = 2 erf (1) P ( X m X 2.15 σ X ) = P ( Z 2.15) = 2 erf (2.15) = P ( X m X 3σ X ) = P ( Z 3) = F Z (3) F Z ( 3) = 2 erf (3) Da questo calcolo si deduce, tra l altro, che ogni v.a. normale N (m X, σ 2 X ) assume valori compresi tra m X σ X e m X +σ X con probabilità che è circa uguale a , e la probabilità sale a (avvicinandosi a quella dell evento certo) se si considera l intervallo [m X 3σ X, m X + 3σ X ]. La grande importanza che la legge di distribuzione normale riveste nei metodi della Statistica matematica è dovuta al seguente Teorema, che troverà svariate applicazioni nelle stime campionarie di cui ci occuperemo nei Capitoli 7,8 e 9.

44 36 VARIABILI ALEATORIE Teorema Limite Centrale Si abbia una successione {X i (ω)}, i IN + di variabili aleatorie statisticamente indipendenti, con uguali densità di probabilità f i (x i ) aventi valor medio E{X i } = µ e varianza σ 2 i = σ2 finite. Allora la densità di probabilità della loro somma: n S n (ω) = X i (ω) i=1 converge, per n +, alla distribuzione normale N (nµ, nσ 2 ). Sulla base di questo Teorema, è possibile usare la legge normale per descrivere in termini probabilistici tutti quei fenomeni fisici che si possono considerare come prodotti dalla sovrapposizione di un elevato numero di cause statisticamente indipendenti ed aventi la medesima natura aleatoria. Nella Statistica, il teorema è indispensabile per definire le proprietà aleatorie dei valori medi di campioni estratti casualmente da una popolazione Distribuzione Gamma Una v.a. che assume valori in IR + è distribuita con legge Gamma di parametri λ e α > 0 se ha densità di probabilità f X (x) = Γ(α) è la funzione speciale così definita: λα Γ(α) e λx x α 1, x 0. (2.23) Γ(α) = 0 e t t α 1 dt, (2.24) le cui proprietà sono definite nei testi che riportano i suoi valori tabulati. Ricordiamo in particolare che Γ( 1 2 ) = π Γ(α + 1) = αγ(α) = α! per α IN + Γ(α ) = (2α 1) π/2 α. Questa distribuzione ha valor medio e varianza che valgono: m X = α λ, σ2 X = α λ 2, e se α 1 ha un massimo per x = (α 1)/λ (v Fig. 2.7).

45 2.3 Distribuzioni notevoli in Probabilità e Statistica 37 f ( x) X 4 = 0.5 = 4 = 1 : esponenziale 2 = 2 = 3 0 x Figura Distribuzioni Gamma ed esponenziale (per α = 1) Distribuzione esponenziale Per α = 1, la distribuzione Gamma si riduce a quella esponenziale definita dalla densità f X (x) = λe λx, λ > 0; x 0. (2.25) La sua funzione di distribuzione cumulata è ed ha momenti finiti di qualsiasi ordine, che valgono F X (x) = 1 e λx, x 0 (2.26) q = 1, 2,... : E{X q } = λ 0 x q e λx dx = 1 λ q 0 t q e t dt = q! λ q poiché l ultimo integrale è la funzione Gamma Γ(q + 1) = q! definita con la (2.34). In particolare, valor medio e varianza valgono m X = 1 λ, σ2 X = E{X 2 } m 2 X = 1 λ 2. Si noti che la successione dei momenti di X(ω) definisce univocamente la densità esponenziale: infatti essi soddisfano la condizione (2.17) per ogni reale k (0, λ): E{X 2q } k 2q (2q)! = 2q)! λ 2q k 2q ( ) k 2q (2q)! = 0 per q 0 : 0 < k < λ. λ La distribuzione esponenziale è assai utilizzata negli studi di affidabilità (di un dispositivo o di un materiale) con tasso di guasto costante λ. Se X(ω) è il tempo

46 38 VARIABILI ALEATORIE di attesa perché si verifichi il guasto, l affidabilità del dispositivo, definita come la probabilità di non subire guasti nell intervallo di tempo (0, t), è data da R(t) = 1 F X (t) = e λt = 1 λ f X(t). La distribuzione esponenziale dei tempi di attesa ha una notevole proprietà: per ogni t, s IR la probabilità di attendere un evento per un tempo t + s, sapendo di aver già atteso il tempo s, è uguale alla probabilità di attendere l evento per una durata di tempo t. Infatti, ricordando la definizione (1.2) di probabilità condizionata, si ha P (X > t + s X > s) = P ({X > t + s} {X > s}) P (X > s) = 1 F X(t + s) 1 F X (s) = P (X > t + s) P (X > s) = = e λt = 1 F X (t) = P (X > t). Si dice perciò che la legge esponenziale è senza memoria, nel senso che il tempo s già trascorso non influenza la probabilità che l evento si verifichi in qualunque istante successivo all istante s in cui è iniziata l osservazione Distribuzione di Maxwell Si dimostrerà nel Capitolo IV che il vettore V (ω) avente come componenti cartesiane ortogonali tre variabili aleatorie statisticamente indipendenti e con uguale distribuzione normale N (0, σ 2 ), è una v.a. con densità di probabilità f V (v) = 2 v 2 ( ) π σ 3 exp v2 2σ 2, v 0. (2.27) La densità (2.27) definisce la distribuzione di Maxwell, che ha valor medio e varianza uguali a E{V } = 2σ 2/π ; σv 2 = σ 2 (3 8/π) (2.28) dove σ 2 è, come detto, la varianza delle componenti di V (ω). Si osservi anche che f V (v) non è simmetrica rispetto al suo valor medio: infatti ha un massimo per v = 2σ E{V }. La distribuzione di Maxwell è di grande importanza nella Meccanica statistica, perché è il modello probabilistico della velocità di agitazione termica delle molecole di un gas in equilibrio termodinamico. Se indichiamo con m la massa molecolare, con T la sua temperatura e con k la costante di Boltzmann, allora risulta σ 2 = kt m,

47 2.3 Distribuzioni notevoli in Probabilità e Statistica 39 e il valor medio dell energia cinetica T della molecola del gas in equilibrio è uguale a E{T } = 1 2 me{v 2 }. Ma sostituendo il valore di σ 2 nelle (2.28) si ottiene: E{V 2 } = kt m ( 3 8 ) 8kT π mπ = 3kT m, da cui segue il noto risultato che nel modello maxwelliano le molecole di gas in equilibrio possiedono una energia cinetica media che vale E{T } = 3 2 kt. f ( v ) V = 1 = 2 = 3 0 v Figura Distribuzioni di Maxwell Assai simile alla maxwelliana è la distribuzione di Rayleigh, riguardante le proprietà probabilistiche di un vettore bidimensionale V (ω) = X1 2(ω) + X2 2 (ω) le cui componenti, statisticamente indipendenti, hanno legge normale N (0, σ 2 ). La sua densità di probabilità è la funzione f V (v) = v ( ) σ 2 exp v2 2σ 2, v 0, con valor medio e varianza che valgono: E{V } = σ π/2, σ 2 V = σ 2 (2 π/2) Distribuzione t-student La v.a. X(ω) che può assumere qualsiasi valore x IR ha una distribuzione chiamata t-student con n gradi di libertà, n = 1, 2, 3,... (dallo pseudonimo dello statistico

48 40 VARIABILI ALEATORIE britannico W.S. Gosset) se la sua densità di probabilità vale: ( ) n + 1 Γ ( ) n+1 2 f X (x) = ( ) 1 + x2 2 n n nπ Γ 2 (2.29) dove Γ( ) è la funzione Gamma (2.24). Il suo valor medio è nullo: E{X} = 0 per ogni n e la sua varianza, che è definita solo per n > 2, vale σx 2 = n n 2. n = 6 f ( x ) X N (0, 1) n = 4 n = 2 0 x Figura Confronto tra distribuzioni t-student e Normale standard Per n = 1, la distribuzione t-student si riduce alla distribuzione di Cauchy: f X (x) = 1 π(1 + x 2 ), che ha valor medio nullo ma è priva dei momenti di ordine superiore, perché l integrale (2.13) che li definisce diverge per q 2. Poiché n è intero, il coefficiente di normalizzazione nella (2.29) si determina facilmente utilizzando le proprietà della funzione Gamma, in modo che per n pari: n = 2k, k = 1, 2,... la densità t-student si può riscrivere nella forma: f X (x) = (2k 1) π 2 k 2kπ(k 1)! ( ) 1 (k+ 1 + x2 2 ) (2.29 ) 2k e per n dispari: n = 2k + 1, k = 1, 2,... si ha: 2 k ( ) (k+1) k! f X (x) = (2k 1)π 1 + x2. (2.29 ) 2k + 1 2k + 1

49 2.3 Distribuzioni notevoli in Probabilità e Statistica 41 La distribuzione t-student ha questa interessante proprietà: per n essa tende alla distribuzione normale standard N (0, 1), ma ha una dispersione più elevata per piccoli valori di n > 2. Per questo motivo, essa trova frequenti applicazioni in Statistica, quando la stima dei valori medi di una popolazione è da effettuare su piccoli campioni (v. Capitolo 8) Distribuzione Chi-quadrato Una v.a. che assume valori x IR + ha una distribuzione Chi-quadrato con n gradi di libertà, che si indica con il simbolo χ 2 n, se la sua densità di probabilità è la funzione f X (x) = x n 2 1 e x 2 2 n/2 Γ(n/2), x 0 (2.30) 0.25 f ( x ) X n = 4 n = 6 n = 10 0 x 20 Figura Distribuzioni Chi-quadrato Essa si ricava anche come un caso particolare della distribuzione Gamma, ponendo nella (2.23) α = n/2, λ = 1/2. Ha valor medio e varianza che valgono E{X} = n, σ 2 X = 2n, e si può dimostrare che è la distribuzione di una v.a. definita come la somma dei quadrati di n variabili aleatorie indipendenti X i (ω) aventi distribuzioni normali standard: n χ 2 n(ω) = Xi 2 (ω), E{X i } = 0, σx 2 i = 1. i=1 Per questo motivo, è assai utile in Statistica per la valutazione delle varianze di campioni estratti da una popolazione (v. Capitolo 8). Per una sua notevole proprietà asintotica, al crescere di n la distribuzione Chiquadrato tende ad assumere una forma a campana simmetrica rispetto al suo

50 42 VARIABILI ALEATORIE valor medio, e si può dimostrare che per n >> 1 è ben approssimata da una legge normale N (n, 2n) con media n e varianza 2n Distribuzione F di Fisher Un altra distribuzione di frequente uso nei test statistici (v. Capitolo 9) è quella di una v.a. X(ω) definita come il rapporto: X(ω) = nχ2 m(ω) mχ 2 n(ω) tra due variabili aleatorie con distribuzione Chi-quadrato ad m e n gradi di libertà (e divise per il loro grado di libertà). Questa distribuzione, che si indica con la notazione F (m, n) ed è anche chiamata di Snedecor, ha densità di probabilità f X (x) = ( m n ) m 2 ( ) m + n Γ ( ) 2 ( ) m n [ Γ Γ 2 2 x ( m 2 1) 1 + mx n ] m+m 2, x 0 (2.31) 1 f ( ) x X n = 4, m = 2 n = 6, m = 4 n = 8, m = x 4 Figura Distribuzioni F (m, n) di Fisher dove Γ( ) è sempre la funzione Gamma (2.24). Il suo valor medio dipende solo dal parametro n, vale E{X} = n se n > 2 n 2 e quindi tende a 1 per n ; la varianza vale invece s 2 X = 2n2 (m + n 2) m(n 2) 2 (n 4) se n > 4.

51 2.3 Distribuzioni notevoli in Probabilità e Statistica Distribuzione binomiale Proseguiamo l illustrazione delle leggi probabilistiche più note, considerando ora due importanti distribuzioni discrete, la binomiale e quella di Poisson, il cui interesse è strettamente legato allo studio degli esiti di una successione di prove ripetute ed indipendenti di un esperimento casuale, la cui formulazione probabilistica è dovuta a Bernoulli. Ne esaminiamo ora i risultati fondamentali. Consideriamo un esperimento casuale i cui esiti siano rappresentati da due soli eventi, che definiremo con successo (S) o fallimento (F) della prova effettuata. Supponiamo inoltre che n prove di tale esperimento siano ripetute in modo indipendente, vale a dire in modo tale che l esito di una prova sia indipendente da qualsiasi prefissata sequenza di esiti nelle prove precedenti. Indichiamo con p la probabilità di successo e con q = 1 p la probabilità del fallimento. Poichè le prove sono statisticamente indipendenti, la probabilità di una assegnata sequenza di successi e fallimenti è data dal prodotto delle probabilità degli eventi S ed F. Ne segue che una sequenza di n prove, contenente k successi e n k fallimenti, ha probabilità p k q n k. D altra parte, il numero di sequenze costituite da n esiti e contenenti k successi è uguale al numero di combinazioni di classe k di n elementi, dato dal coefficiente binomiale ( n ) k. Inoltre, ciascuna sequenza è statisticamente indipendente dalle altre, per cui la probabilità P n,k di ottenere, in n prove, k successi e n-k fallimenti è data dalla formula di Bernoulli: P n,k = ( ) n p k q n k (2.32) k Se poi il successo e il fallimento sono equiprobabili, allora si ha p = q = 1 2, e la formula diventa: ( ) n 1 P n,k = k 2 n, 2.42 in cui la probabilità in oggetto è il rapporto tra i casi favorevoli e i casi possibili definiti in uno spazio campione costituito da 2 n eventi equiprobabili. In modo analogo, la probabilità P n (k 1 k k 2 ) che in n prove il numero di successi sia compreso tra k 1 e k 2 si valuta considerando l unione degli eventi: E k = {S si presenta k volte} con k 1 k k 2, ciascuno dei quali ha probabilità espressa dalla (2.42). Poichè gli eventi E k sono incompatibili a due a due, la probabilità della loro unione vale, per il secondo assioma: k 2 P n (k 1 k k 2 ) = P (E k ) = k=k 1 k 2 k=k 1 ( ) n p k q n k. (2.33) k

52 44 VARIABILI ALEATORIE Esempio 2.7 1) Si lancia per dieci volte una moneta. In ogni lancio l evento testa e l evento croce sono equiprobabili, per cui la probabilità che esca testa per cinque volte vale, per la (2.42 ): ( 10 P 10,5 = 5 ) (1/2 10 ) = 10! = !(10 5)! 210 Per determinare la probabilità che testa esca non più di cinque volte, bisogna invece considerare come successi anche tutte le sequenze che contengono k = 0, 1,.., 4 volte testa. Ne segue che la probabilità totale è data dalla (2.33) e vale P 10,k 5 = (1/2 10 ) 5 k=0 ( ) 10 = 10! k k=0 1 k!(10 k)! = ) Da un urna contenente 5 palline bianche e 15 nere si fanno n estrazioni, con reimbussolamento della pallina estratta in ogni prova. La probabilità di estrarre tutte le palline bianche si determina considerando che in ogni prova, la probabilità di estrarre una pallina bianca vale p = 1/4, e quella di estrarre una pallina nera è q = 3/4. Applicando la (2.32) si ottiene: P n,5 = ( ) ( ) n (1/4) 5 (3/4) n 5 n 3 n 5 = n. Dunque, dopo n = 5 estrazioni la probabilità cercata vale 1/4 5 = ; dopo 6 estrazioni cresce al valore 6 3/4 6 = , ecc. Primo principio delle prove ripetute. Per la formula di Bernoulli la probabilità di non avere alcun successo dopo n prove di un esperimento casuale in cui p > 0 vale ( ) n P n,0 = p 0 q n 0 = q n 0 e quella di ottenere almeno un successo è P n,k>0 = 1 q n. Poichè 0 < q < 1, ripetendo all infinito le prove si ottiene lim P n,k>0 = 1 n ovvero: continuando le prove all infinito, prima o poi si avrà certamente almeno un successo.

53 2.3 Distribuzioni notevoli in Probabilità e Statistica 45 Secondo principio delle prove ripetute. Chiediamoci ora quale è il numero medio delle prove che si dovranno eseguire per ottenere il primo successo. Definiamo a tale scopo il tempo di attesa T (ω), o numero d ordine delle prima prova in cui si verifica il successo. T (ω) è una variabile aleatoria discreta, che assume valori interi positivi k = 1, 2,.., n,.. aventi ciascuno la probabilità P k = pq k 1 con cui si realizza una sequenza di (k 1) fallimenti seguiti dal primo successo. Se si ripetono le prove all infinito, e se p > 0, si sa per il Primo principio che le P k soddisfano la condizione k P k = 1. Dalla definizione di valor medio di T (ω) si ricava allora E{T } = kp k = kpq k 1 = p + kpq k 1 = p + q (r + 1)pq r 1 = k=1 k=1 k=2 r=1 ( ) = p + q rpq r 1 + P r = p + q(e{t } + 1). r=1 r=1 Da questa si ottiene: p E{T } = p + q = 1, e quindi E{T } = 1 p. (2.34) Resta cosí provato il seguente risultato: il numero medio delle prove che occorre eseguire per ottenere il primo successo è il reciproco della probabilitá di successo. La variabile aleatoria discreta X(ω) che assume un numero finito di valori x = k = 0, 1, 2.., n con una probabilitá data dalla (2.32) si dice dotata di distribuzione binomiale ed è indicata con la notazione B(n, p). La sua densità di probabilità è la successione di n + 1 impulsi: f X (x) = n k=0 ( ) n p k q n k δ(x k), p + q = 1 (2.35) k e la corrispondente funzione di distribuzione è la funzione a gradini F X (x) = n k=0 ( ) n p k q n k U(x k) k

54 46 VARIABILI ALEATORIE f ( x ) X N (10, 6) x Figura Approssimazione di una distribuzione binomiale con n = 25, p = 0.4. dove U(x k) è la funzione di Heaviside (2.3), primitiva della funzione impulsiva. Il valor medio della distribuzione binomiale vale: ( ) ( ) n n n n E{x} = x p k q n k δ(x k)dx = k p k q n k = k k k=0 k=0 ( ) n n 1 k(n 1)! = np k!(n k)! pk 1 q n k n 1 = np p r q n 1 r = np(p + q) n 1 = np r k=1 e in modo analogo si può calcolare che la sua varianza è σ 2 X = npq. r=0 Se n = 1, la (2.45) si riduce alla distribuzione di Bernoulli, la cui densità f X (x) = qδx + pδ(x 1) è semplicemente la somma di due impulsi che rappresentano la probabilità di avere un fallimento o un successo in una singola prova dell esperimento casuale. L applicazione delle formule (2.32),(2.33) può comportare difficoltà pratiche per valori elevati di n e di k. Esistono però formule asintotiche che permettono un rapido calcolo approssimato di P n,k e P n (k 1 k k 2 ), con una accuratezza che cresce con il numero n delle prove. Queste formule approssimate si basano su due teoremi, che ora enunciamo senza dimostrazione. Teorema locale di asintoticità (di Moivre - Laplace) Se p > 0 è la probabilità di un successo, la probabilità che in n prove indipendenti si abbiano k successi è tale che: [ ] lim P 1 (k np)2 n,k = exp (2.36) n 2πnpq 2npq

55 2.3 Distribuzioni notevoli in Probabilità e Statistica 47 uniformemente per tutti gli interi k per i quali il rapporto z = (k np)/npq assume valori in un intervallo finito. Il secondo membro della (2.36) è la densità di una v.a. normale N (np, npq) con media np e varianza npq. Dunque il Teorema ci assicura che se n e npq sono sufficientemente grandi, la distribuzione binomiale è approssimabile nel continuo dalla legge normale: B(n, p) N (np, npq) n, npq >> 1. (2.36 ) e a parità di n l approssimazione è migliore quando p = q = 0.5. La Fig mostra il confronto tra la distribuzione binomiale con n = 25, p = 0.4 e quella normale definita dalla densità (2.19) con m X = np = 10, σx 2 = npq = 6. La binomiale B(25, 0.4) non è simmetrica rispetto al suo valor medio, perché ciò si verifica solo se p = q = 1 2. Inoltre, n è ben lontano dai valori elevati che garantiscono una buona approssimazione della probabilità P n,k. Tuttavia, un controllo numerico mostra che il massimo valore assoluto della differenza tra P n,k e i valori f X (k) della densità normale per x = k (che si verifica per k = 11) rimane comunque inferiore a Teorema integrale di asintoticità Se p > 0 è la probabilità di un successo, la probabilità che in n prove indipendenti il numero dei successi sia compreso tra k 1 e k 2 soddisfa la condizione [ ] 1 k2 2πnpq lim P n(k 1 k k 2 ) = n uniformemente in [k 1, k 2 ]. k 1 exp (x np)2 2npq dx (2.37) Usando la funzione degli errori erf (z) per il calcolo dell integrale definito, la (2.37) mostra che se n è grande e npq >> 1 la probabilità in oggetto si può calcolare con buona approssimazione mediante la formula asintotica: [ ] [ ] P n (k 1 k k 2 ) k2 np k1 np = erf erf. (2.38) npq npq Applichiamo quest ultimo teorema per calcolare la probabilità che, dato un ɛ > 0 piccolo a piacere, sia verificata la diseguaglianza: k/n p ɛ. Per la (2.38) con n grande si ha P { k/n p ɛ} = P n [n(p ɛ) k n(p + ɛ)] = erf (ɛ n/pq) erf ( ɛ n/pq) = 2erf (ɛ n/pq) (2.39) e passando al limite per n : lim P { k/n p ɛ} = 2 lim erf (ɛ n/pq) = 1. n n

56 48 VARIABILI ALEATORIE Il risultato ottenuto esprime l importante Legge dei grandi numeri (o Teorema di Bernoulli) : Dato un ɛ > 0 piccolo a piacere, la probabilità dell evento { k/n p ɛ} tende ad 1 col crescere del numero delle prove indipendenti. In altre parole, se il numero delle prove è sufficientemente grande, allora il rapporto tra il numero dei successi e quello delle prove è quasi certamente prossimo alla probabilità p che si attribuisce al singolo successo. Allo stesso tempo, bisogna anche tenere conto che se X(ω) ha una distribuzione binomiale, lo scarto assoluto V (ω) = X np tra il valore di X e il suo valore atteso è una variabile casuale che al crescere di n tende alla Normale con media nulla e varianza σ 2 V = E{(V 0) 2 } = E{(X np) 2 } = σ 2 X = npq. Dunque, a parità di p la dispersione degli esiti delle prove rispetto al loro valore atteso cresce con il numero delle prove effettuate. E questa circostanza che può causare la rovina del giocatore che dopo ogni perdita decide di ripetere la stessa scommessa nella speranza che, prima o poi, il prossimo esito gli sia favorevole. Esempio Sapendo che la probabilità che un certo prodotto sia difettoso è p = 0.005, si vuole calcolare la probabilità che tra esemplari di questo prodotto, scelti a caso, ve ne siano 40 difettosi. Essa è data dalla (2.32) con n = , k = 40, e il suo valore è ben approssimato dalla formula asintotica (2.36). Tenuto conto che np = 50, npq = si ottiene: [ ] P n,k 1 (40 50)2 = exp = π Il valore esatto alla quarta cifra decimale, calcolato con la (2.32), è invece: P n.k = Per calcolare la probabilità che tra i esemplari scelti a caso ve ne siano non più di 70 che risultano difettosi, bisogna valutare P n (k 70) e per ottenerne una buona approssimazione basta applicare la (2.38) assumendo k 1 = 0 e k 2 = 70. Si ricava: P (k 70) = erf ( 70 np npq ) erf ( np npq ) = erf (2.84) erf ( 7.09) = Si lancia n volte una moneta. Come sappiamo, l evento testa ha probabilità p = 1/2. Definiamo ora l evento: E = { k/n 1/2 0.05}

57 2.3 Distribuzioni notevoli in Probabilità e Statistica 49 il quale indica che il numero k di teste risultante da n prove è compreso tra 0.45n e 0.55n. Si chiede: quante volte dobbiamo lanciare la moneta affinché la probabilità di E non sia inferiore a 0.997? Dobbiamo valutare n in modo che sia verificata la diseguaglianza: P (E) Applicando la (2.39) con ɛ = 0.05 si ha: P (E) = 2erf (0.05 n/pq) = 2erf (0.05 4n) per cui n deve soddisfare la condizione: erf (0.05 4n) Dai valori tabulati della funzione degli errori si desume che, arrotondando per eccesso, deve essere: n > 2.95, da cui: n > = 1.5 f ( x ) X 0.2 = x x Figura Distribuzioni di Poisson Distribuzione di Poisson Si è detto che l approssimazione di P n,k fornita dalla formula asintotica (2.36 ) peggiora al descescere del prodotto npq. Se allora p è molto piccolo, bisogna che n sia comunque cosí grande da rendere soddisfatta la condizione: npq = np >> 1. Ciò si verifica per l appunto nel caso dell Esempio 2.8 in cui, pur essendo p = 0.005, si ha np = 50 e npq = Se invece si ha: n >> 1, p << 1 in modo che il prodotto np è dell ordine dell unità, la (2.46 ) non è più valida. Si dimostra che essa può essere sostituita dalla nuova formula asintotica: che nella sua forma limite esprime il seguente P n,k (np) k = e np (2.40) k!

58 50 VARIABILI ALEATORIE Teorema di Poisson (degli eventi rari): Se n e p 0 in modo che il prodotto np λ 1, allora Esempio 2.9 P n,k λk k! e λ. (2.41) In un sistema costituito da 1000 componenti, la probabilità che ciascun componente si guasti indipendentemente dagli altri in un certo intervallo di tempo vale p = Si vuole conoscere la probabilità che il sistema sia in funzione nell intervallo di tempo in esame. L evento che qui si considera è E = {nessun componente si guasta}, ed il guasto con probabilità p rappresenta il singolo successo nel nostro problema di prove ripetute. Si ha pertanto: n = 1000, k = 0, np = 1 e la probabilità da determinare non si approssima con la (2.36 ), bensí con la formula di Poisson (2.40): P n,0 = ( ) 1000 ( ) 1000 = e 1 = La variabile aleatoria discreta X(ω) che assume valori k = 0, 1, 2,..n,... con probabilità data dalla (2.41) ha densità costituita dalla successione di impulsi f X (x) = e λ k=0 λ k δ(x k) (2.42) k! che definisce una distribuzione di Poisson. coincidono con il parametro λ. Infatti: Il valor medio e la varianza di X(ω) E{X} = k=0 λ λk ke k! = e λ k=0 λ k (k 1)! = λe λ r=0 λ r r! = λe λ e λ = λ e con calcoli analoghi si ricava che anche σx 2 = λ. La Fig mostra i grafici di f X (x) per due diversi valori del suo parametro λ. La distribuzione di Poisson ha notevole interesse nella definizione statistica della legge di emissione di particelle. Si consideri infatti il fenomeno costituito dalla emissione casuale di un numero n >> 1 di particelle nel tempo T. La probabilità di emissione di una singola particella nell intervallo di tempo [0, t 0 ) è p = t 0 /T. Se l intervallo [0, t 0 ) che si considera è molto minore di T, risulta: p << 1 e la probabilità che k particelle siano emesse prima di t 0 è data con buona approssimazione dalla formula di Poisson (2.40) con np = nt 0 /T = λ: P {k particelle emesse in [0, t 0 )} (nt 0/T ) k k! ( exp nt 0 T ).

59 2.3 Distribuzioni notevoli in Probabilità e Statistica 51 Se n, T + in modo che n/t 1, allora λ t 0 e la distribuzione del numero di particelle emesse in [0, t 0 ) tende alla densità di Poisson: f X (x) = e t 0 k=0 t k 0 δ(x k). k! Più in generale, la legge (2.42) è anche il modello di esperimenti casuali caratterizzati dal conteggio in un intervallo temporale [0, T ] di eventi statisticamente indipendenti (Processi di Poisson), aventi un numero medio di realizzazioni per unità di tempo uguale ad α. Si dismostra infatti che il numero di tali eventi che si verificano in un intervallo temporale di ampiezza t << T ha legge di Poisson (2.42) con parametro λ = αt Distribuzioni geometrica e ipergeometrica Nello schema di Bernoulli delle prove ripetute e indipendenti di un esperimento casuale con probabilità di successo p, la probabilità che in una sequenza di (k + 1) prove si realizzino k fallimenti seguiti dal primo successo vale: IP{F F F F F S} = p(1 p) k. f (x) X x Figura Distribuzione geometrica per p = 0.2. La variabile casuale X(ω) che assume valori discreti k = 0, 1, 2,... con la probabilità ora definita, ha una distribuzione chiamata geometrica, avente come densità di probabilità la funzione: f X (x) = p(1 p) k δ(x k), 0 < p < 1 (2.43) k=0

60 52 VARIABILI ALEATORIE mostrata in Fig Questa v.a. rappresenta quindi il numero di prove che occorre fare prima che si verifichi un successo. Per tale motivo, se si misura il tempo in unità coincidenti con il numero di prove effettuate, X(ω) è anche chiamata tempo di attesa (discreto) del primo successo. Si badi a non confondere questo tempo di attesa X(ω) con la v.a. T (ω) sopra introdotta per ricavare il Secondo principio delle prove ripetute, la quale non può avere valore nullo. X = k con k = 0, 1,... indica il numero dei fallimenti F che precedono il successo S, mentre T = k con k = 1, 2,... indica la prima prova in cui si verifica un successo. La funzione di distribuzione cumulata del tempo di attesa X(ω) vale F X (x) = x p(1 p) k U(x k). k=0 Se in particolare x = n IN, essa misura la probabilità IP(X n) ed è uguale al prodotto p s n, dove s n = 1 p [1 (1 p)n+1 ] è la ridotta n-esima della serie geometrica k (1 p)k di ragione 1 p, la quale è convergente perché (1 p) è un reale positivo minore di 1. Dunque si ha: IP(X n) = F X (n) = ps n = 1 (1 p) n+1. (2.44) Ricordando il risultato espresso dalla (2.34), il valor medio della distribuzione geometrica vale: m X = E{T } 1 = 1 p 1 = 1 p p mentre la sua varianza risulta: σ 2 X = 1 p p 2. Cosí come la distribuzione esponenziale, anche la geometrica è senza memoria. Infatti, scelti due interi positivi i, j si ricava, applicando anche la (2.44): IP(X > i + j X > j) = IP({X > i + j} {X > j}) P (X > j) = = IP(X > i + j) P (X > j) (1 p)i+j+1 (1 p) j+1 = (1 p) i = 1 F X (i) = IP(X > i), e questo risultato si può cosí interpretare: la circostanza che già si sono verificati j insucessi consecutivi non influenza il tempo di attesa del prossimo successo. Per quanto detto, la distribuzione geometrica è l analogo discreto della distribuzione esponenziale 2.3.4, definita sull intero semiasse IR +, e trova frequenti applicazioni nella teoria dei giochi o negli studi di affidabilità riguardanti fenomeni in cui si può individuare una variabile casuale definita sull insieme dei numeri naturali. =

61 2.3 Distribuzioni notevoli in Probabilità e Statistica 53 Esempio 2.10 Un giocatore del Totocalcio compila una colonna segnando in modo casuale per 13 volte uno dei 3 possibili risultati: 1, X, 2 e gioca la stessa colonna ad ogni concorso. Quante giocate deve fare, in media, prima di vincere con un 13? Consideriamo qui il caso teorico che è anche il più sfavorevole. Se il giocatore segna ciascun risultato senza conoscere le squadre di calcio coinvolte in ciascuna delle 13 partite, ognuna delle 13 previsioni ha probabilità 1/3 di successo. Di conseguenza, la probabilità che si realizzi un insieme di 13 previsioni esatte di altrettanti risultati indipendenti (ossia la probabilità di successo) è p = 1/ Il numero di giocate che è necessario effettuare prima di fare un 13 con quella sola colonna ha una distribuzione geometrica con tale probabilità p, e il numero medio di giocate da effettuare prima di avere un successo è m X = = Per sollevare il giocatore dallo sconforto, si può aggiungere che questo parametro di posizione è comunque assai poco significativo. Infatti, la varianza della stessa distribuzione geometrica è enormemente elevata: σ 2 X = (3 13 1) , per cui ci si può aspettare che la probabilità di ottenere il primo successo dopo un numero più ragionevole di tentativi, diciamo n = 50, non sia del tutto irrilevante. Dalla (2.44) si ricava però: IP(X 50) = 1 [1 1/3 13 ] , ed è presumibile che questo risultato così poco favorevole riesca a scoraggiare definitivamente il giocatore. Distribuzione ipergeometrica Un insieme è costituito da N elementi di cui N A sono di tipo A, e N B = N N A di tipo B. Se da questo insieme si fanno n estrazioni in blocco (o senza ripetizione), nel campione di n elementi così estratto il numero di elementi del tipo A è una variabile casuale discreta X(ω), la cui densità di probabilità è definita dalla seguente formula ipergeometrica: ) ( )( NA NB f X (x) = x n x ( ) N per x = 0, 1, 2,..., n (2.44 ) n ed è nulla altrove. Infatti, fissato un intero x, il numeratore che compare nella (2.44 ) è il numero degli eventi favorevoli : {x elementi di tipo A su n estratti }, che si calcola come

62 54 VARIABILI ALEATORIE prodotto tra il numero di combinazioni di x elementi del tipo A e il numero di combinazioni di (n x) elementi di tipo B ; il denominatore è il numero di eventi possibili (ed equiprobabili) che si possono verificare nella estrazione in blocco di n elementi da un insieme di N; e dunque per la definizione classica di Probabilità, il loro rapporto definisce la probabilità che X(ω) assuma il valore x. Il valor medio e la varianza di f X (x) valgono: Esempio 2.11 E(X) = nn A N, σ2 X = nn A(N N A )(N n) N 2. (N 1) Si effettua l estrazione simultanea di due palline da un urna che ne contiene N A = 4 rosse e N B = 3 nere. Calcolare la probabilità di estrarre due palline di colore diverso. Si applica la (2.44 ) con n = 2, x = 1, N = 7 e si ottiene subito: ( )( ) 4 3 IP(Rossa Nera) = 1 1 ( ) 7 = Distribuzione Beta Una v.a. che assume valori nell intervallo unitario [0, 1] ha una distribuzione Beta se la sua densità vale con A definito come segue: { f X (x) = Ax b (1 x) c per x [0, 1], b, c > 1 0 altrove (2.45) A = dove Γ( ) è la funzione Gamma (2.24). Γ(b + c + 2) Γ(b + 1)Γ(c + 1),

63 2.3 Distribuzioni notevoli in Probabilità e Statistica 55 f (x) X x Figura Distribuzioni Beta Questa densità, dipendente da due parametri b, c, ha un massimo per x = b/(b+c) se b e c sono entrambi positivi, ma diventa infinita agli estremi dell intervallo unitario se b e c sono entrambi negativi: b, c ( 1, 0). Inoltre, se b = c = 0 la (2.45) coincide con la densità uniforme f X (x) = 1 nell intervallo unitario, e per b = c = 1 rappresenta la densità parabolica: f X (x) = 6x(1 x), x [0, 1]. Per la grande generalità con cui, modificando i due parametri, può essere definita analiticamente la distribuzione delle probabilità nell intervallo unitario, questa legge è molto utile per rappresentare le proprietà statistiche di coefficienti aleatori che possono essere presenti in molti modelli matematici di fenomeni reali. Il valor medio e la varianza di f X (x) si esprimono in funzione dei parametri b e c, e valgono: E{X} = b + 1 b + c + 2 ; (b + 1)(c + 1) σ2 X = (b + c + 2) 2 (b + c + 3). (2.46) La Fig mostra alcuni grafici della distribuzione Beta, ottenuti assumendo per b e c i valori qui elencati, unitamente ai corrispondenti valori del coefficiente A, calcolati in base alle proprietà della funzione Gamma: grafico 1: b = 1/2 c = 1/2 A = 1/π 2: b = 1/2 c = 1/2 A = 8/π 3: b = 1 c = 1 A = 6 4: b = 1 c = 2 A = 12 5: b = 3 c = 2 A = 20 6: b = 3 c = 3 A = 140

64 56 VARIABILI ALEATORIE f (x) X 3 2 = 0.5 = 1 = 3 1 = 1 = x Figura Distribuzioni di Weibull W (α, β) al variare di α e β Distribuzione di Weibull Una legge probabilistica che generalizza il modello esponenziale, e dipendente da due parametri come la densità Beta, è la distribuzione di Weibull W (α, β) la cui densità è la funzione f X (x) = { αβx β 1 exp( αx β ), 0 x < + ; α, β IR + 0 altrove. (2.47) Utilizzando la definizione della funzione Gamma (2.24), si può ricavare che il valore atteso e la varianza di f X (x) valgono: E{X} = 1 Γ(1 + 1/β), αβ σ2 X = α 2/β [Γ(1 + 2/β) Γ 2 (1 + 1/β)]. Al pari della distribuzione Beta, la disponibilità di due parametri α, β rende questa legge assai adatta a rappresentare il modello probabilistico di certe grandezze che possono assumere valori casuali sull intero semiasse positivo. Il parametro β > 0 è il più significativo, e definisce la forma della distribuzione di Weibull. Se 0 < β < 1, f X (x) ha un asintoto verticale x = 0; se β = 1 la distribuzione coincide con quella esponenziale con parametro λ = α; e se β > 1, f X (x) si annulla per x 0 + e presenta un massimo per ( ) β 1 1/β x =. αβ Il parametro α > 0 è un fattore di scala che concentra su bassi valori di x (oppure disperde sul semiasse positivo) le masse di probabilità della distribuzione stessa, come è illustrato in Fig

65 2.4 Problemi risolti 57 Questa distribuzione ha un ruolo importante negli studi di affidabilità di materiali o di sistemi per i quali si assume che il tasso di guasto non sia costante (come è stato fatto a proposito della distribuzione esponenziale), ma sia una assegnata funzione λ(t) = αβ(αt) β 1 del tempo di attesa t del guasto. In tal caso, individuati i parametri α e β, l affidabilità del materiale diventa la seguente funzione del tempo di attesa: R(t) = 1 F X (t) = e αtβ dove F X (x) è la funzione di distribuzione cumulata di W (α, β), ossia la primitiva di f X (x) che si annulla per x = 0. Se la variabile casuale può assumere soltanto valori nell intervallo γ x < + con γ > 0, il semplice cambio di variabile y = x γ porta alla definizione di una distribuzione di Weibull W (α, β, γ) dipendente da tre parametri α, β, γ, avente densità f X (x) = αβ(x γ) β 1 exp[ α(x γ) β ], γ x < + ; α, β, γ IR + con valor medio traslato della quantità γ e la stessa varianza di W (α, β). 2.4 Problemi risolti 2.1. Una variabile casuale X(ω) ha densità di probabilità parabolica nell intervallo x [ 0.5, 0.5] e nulla altrove. Calcolare la probabilità che assuma valori minori di x = 0.3. Soluzione. La probabilità richiesta è uguale a quella che una v.a. ξ(ω) = X + 0.5, avente la medesima distribuzione parabolica definita nell intervallo [0, 1], abbia valori ξ 0.2. Poiché la densità di probabilità di ξ(ω) è f(ξ) = { 6ξ(1 ξ) per ξ [0, 1] 0 altrove, si ricava P (x < 0.3) = P (ξ 0.2) = ξ(1 ξ)dξ = = Calcolare la funzione di distribuzione cumulata di una variabile casuale uniformemente distribuita nell intervallo x [0, 2].

66 58 VARIABILI ALEATORIE Soluzione. Indichiamo con X(ω) questa variabile casuale. La sua densità di probabilità è f X (x) = 1/2 per x [0, 2] ed è nulla altrove. La funzione di distribuzione cumulata è il suo integrale tra e x, ossia 0 per x < 0 x F X (x) = F X (0) + dx/2 = x/2 per 0 x 2 0 F X (2) = 1 per x > Una variabile aleatoria X(ω) ha media nota µ e varianza σ 2 = 2. Utilizzando la diseguaglianza di Tchebyshev, determinare un limite inferiore alla seguente probabilità: IP( X µ 1.5). Soluzione. Se si applica la diseguaglianza di Tchebyshev si ha che da cui si ricava IP( X µ 1.5) σ2 X (1.5) 2 = 8 9 IP( X µ < 1.5) = 1 IP( X µ 1.5) = Data la funzione f(x) = { c x cos x, per 0 x π/2; 0, per x < 0; x > π/2, determinare c IR in modo che f(x) risulti la densità di probabilità di una variabile aleatoria X(ω) e calcolare la probabilità dell evento E = {X π/4}. Soluzione. f(x) deve soddisfare la proprietà π/2 ( ) c x cos xdx = c [x sin x + cos x] π/2 π 0 = c = 1 per cui deve essere: c = 2/(π 2). La probabilità richiesta è IP(X π/4) = F X (π/4) dove la funzione di distribuzione cumulata F X (x) vale: F X (x) = 2 π 2 Dunque si ottiene: x IP(X π/4) = 2 π 2 0 t cos tdt = 2 π 2 [t sin t + cost]x 0 = 2 (x sin x + cos x 1). π 2 ( ) π = ( 2 π π ) 0.46,

67 2.4 Problemi risolti Una variabile aleatoria X(ω) con valori nell intervallo 1 x 2 ha legge f(x) = α/x 2. Determinare la costante α IR della densità di probabilità, il valor medio e la varianza di X(ω). Soluzione. Se f(x) è una densità, deve soddisfare la proprietà: 2 ( dx α 1 x 2 = α 1 ) = α 2 = 1 per cui deve essere: segue: α = 2. Valor medio e varianza di X si determinano come 2 dx m X = 2 1 x = 2 log σ 2 X = E{X 2 } m 2 X = dx 4 log 2 2 = 2(1 2 log 2 2) La variabile aleatoria X(ω) ha densità di probabilità f(x) = 3 2 (x 1)2, 0 x 2 e nulla altrove. Calcolare la probabilità che X(ω) assuma valori in un intorno di raggio δ = 0.5 del suo valor medio. Soluzione. Il valor medio di X vale m X = x(x 1) 2 dx = 3 2 [ x x2 2 2x3 3 (infatti nell intervallo 0 x 2 la funzione f(x) è una parabola con vertice nel punto (1, 0)). Pertanto si deve calcolare la probabilità IP{ X 1 < 0.5}, integrando la densità nell intervallo (1 0.5) x ( ): IP{ X 1 < 0.5} = 3 2 3/2 1/2 (x 1) 2 dx = 3 3/2 1 ] 2 0 = 1 (x 1) 2 dx = Una variabile casuale X ha densità di probabilità: x 1 4 x3 per 0 x 2 f(x) = 0 altrove Determinare la media, la varianza e la mediana di X.

68 60 VARIABILI ALEATORIE Soluzione. E(X) = E(X 2 ) = σ 2 X = 4 3 ( ( ) x x x3 4 ( ) x 2 x x3 4 Per calcolare la mediana x si deve imporre: ( ) [ x x x3 x 2 dx = 4 2 x4 16 [ ] x 3 2 dx = 3 x5 = [ ] x 4 2 dx = 4 x6 = 4 da cui: ) 2 ( 1 = ) ] x 0 = 1 2 ( ) x 2 x4 = Si risolve quindi l equazione biquadratica x 4 8 x = 0, ricercandone l unica radice che appartiene all intervallo 0 x 2. Posto y = x 2 si ricava: x 1,2 = ± ±2.613, da scartare y = x 3,4 = ± ± Dunque la mediana di X vale x = Il tempo di attesa di un guasto in un dispositivo ha legge esponenziale con valor medio µ = 11 mesi. Calcolare la probabilità che il guasto si verifichi NON PRIMA di 6 mesi dopo l ultimo controllo. Soluzione. La densità f(x) e la funzione di ripartizione F (x) della distribuzione esponenziale con parametro λ = 1/µ = 1/11 sono rispettivamente: f(x) = 1 11 e x/11 ; F (x) = 1 e x/11, 0 x < +. La probabilità richiesta vale IP(X 6) = 1 IP(X < 6) = 1 F (6) = e 6/ Il giocatore A lancia un dado non truccato per 4 volte, e vince se esce almeno una volta il 6. Il giocatore B lo lancia 8 volte, e vince se il 6 esce almeno due volte. Chi ha maggiore prababilità di vincere e perché? Soluzione. In ogni lancio la probabilità che esca il 6 vale p = 1/6 (equiprobabilità di 6 eventi). La probabilità di avere k = 0 successi in n = 4 prove indipendenti vale, per la formula di Bernoulli: ( ) (1 4 0 ( ) 5 4 ( ) 5 4 P 4,0 = = ) 6 6

69 2.4 Problemi risolti 61 per cui la probabilità di vittoria per A è P (A) = 1 P 4, Per il giocatore B, la probabilità di avere non più di k = 1 successo in n = 8 prove (perdendo così la scommessa) è P 8 (0 k 1) = ( ) (1 8 0 ( ) ) 6 per cui la sua probabilità di vittoria vale ( ) (1 ( ) ( ) 5 8 = + 1 6) 8 ( ) P (B) = 1 P 8 (0 k 1) Poiché P (A) > P (B), il giocatore A ha la maggior probabilità di vittoria Da un urna con 4 palline bianche e 12 nere si effettuano estrazioni ripetute con reimbussolamento. Qual è in media il numero di prove necessarie per estrarre la prima pallina bianca? Risposta. La probabilità di estrarre una pallina bianca vale p = 4/16 = 1/4. Per il Secondo Principio delle prove ripetute e indipendenti, il valor medio del tempo di attesa T (ω) del primo successo (estrazione di una pallina bianca) è E(T ) = 1/p = Dieci simboli binari sono trasmessi su un canale simmetrico avente probabilità di errore p = Calcolare la probabilità di ricevere almeno un simbolo errato. Soluzione. La probabilità di ricezione corretta è q = In n = 10 prove ripetute e indipendenti (emissione di un simbolo), la probabilità di ricevere correttamente tutti i 10 simboli vale P 10,0 = q 10 = (0.99) e dunque la probabilità di ricevere almeno 1 simbolo errato è P 10,k 1 = 1 P 10,0 = 1 (0.99) Al giocatore di basket Joe è attribuita una percentuale di realizzazione di canestri del 60%, e al giocatore Nick del 45%. Joe deve effettuare 5 tiri al canestro, e Nick ne effettua 3. Supera la prova chi fallisce non più di un canestro. Chi fra i due ha la più alta probabilità di vincere?

70 62 VARIABILI ALEATORIE Soluzione. Ogni tiro al canestro effettuato da Joe ha probabilità di successo p = 0.6. Se k è il numero di canestri effettuati in n tiri, la probabilità che Joe superi la prova è P 5 (4 k 5) = ( ) 5 (0.6) ( ) 5 (0.6) 5 = (0.6) 4 ( ) Per Nick che effettua 3 tiri, ciascuno con probabilità di successo p = 0.45, la probablità di superare la prova è ( ) ( ) 3 3 P 3 (2 k 3) = (0.45) (0.45) 3 = (0.45) 2 ( ) Quindi la più alta probabilità di vittoria spetta a Nick La ricezione casuale di un numero k di telefonate nell intervallo di tempo [0, t 0 ] ha legge di Poisson con parametro λ = t 0. Calcolare la probabilità IP(2 k 4) di ricevere da due a quattro telefonate (2 incluso) entro l istante t 0 = 1. Soluzione. La funzione di distribuzione cumulata della legge di Poisson con parametro λ = t 0 = 1 è F (x; λ = 1) = 1 1 U(x k) e k! ed esprime la probabilità di ricevere x telefonate entro l istante t 0 = 1. La probabilità richiesta vale: IP{1 < x 4} = F (4; λ = 1) F (1; λ = 1) = 1 ( 1 e ! 4!) + 1 = 17 24e Si effettuano 600 lanci di un dado non truccato. Calcolare un valore approssimato della probabilità che il 5 esca un numero di volte compreso tra 94 e 106. Soluzione. La probabilità di successo ( esce il 5 ) in ogni prova vale p = 1/6. Per il Teorema integrale di asintoticità delle prove bernoulliane, in n = 600 prove la probabilità richiesta si approssima con P 600 (94 k 106) erf [ k= (1/6)(5/6) ] erf [ ] 6 = 2 erf [ (1/6)(5/6) ] = = 2 erf(0.657) Un messaggio di 1200 simboli binari viene trasmesso su un canale simmetrico con probabilità di errore p = Determinare una approssimazione valida della probabilità di ricevere da 250 a 320 simboli errati.

71 2.4 Problemi risolti 63 Soluzione. In n = 1200 prove bernoulliane per le quali si ha np = 300 e np(1 p) = 225, la probabilità richiesta si approssima con ( ) ( ) ( ( ) P n (250 k 320) erf erf = erf + erf ) = L esperimento consiste nel lancio, effettuato per due volte, di un dado non truccato. Se si effettuano tre prove di questo esperimento, qual è la probabilità che in una delle tre prove esca due volte lo stesso numero? Risposta. Indichiamo con E = {11, 22, 33, 44, 55, 66} l evento: esce due volte lo stesso numero. Lo spazio campione è costituito da 6 2 = 36 eventi (= numero di disposizioni con ripetizione di 6 elementi a 2 a 2). Quindi la probabilità che si realizzi l evento E vale P (E) = 6/36 = 1/6 p. Per la formula di Bernoulli con n = 3, k = 1 si trova: P 3,1 = ( ) 3 1 ( ) = = Si sa che la probabilità di errore in ricezione di una sequenza di 150 segnali trasmessi con modalità statisticamente indipendenti è p = Determinare la probabilità che due dei segnali ricevuti siano errati. Soluzione. Nella trasmissione di n = 150 segnali con probabilità di errore p = 0.01, si ha np = 1.5. Per la formula di Bernoulli il valore esatto della probabilità richiesta è ( ) 150 P 150,2 = (0.01) 2 (0.99) Poiché np è prossimo all unità, questa si approssima con la legge di Poisson degli eventi rari: P 150,2 (1.5)2 e 1.5 = e 3/ Calcolare il valore atteso della variabile aleatoria Y = 1 + X 2 dove X(ω) ha una distribuzione binomiale B(n, p) con n = 10, p = 0.5. Soluzione. Si deve calcolare E{1 + X 2 } = 1 + E{X 2 }, dove X(ω) B(10, 0.5) ha valor medio e varianza che valgono: E{X} = np = 5 ; σ 2 X = np(1 p) = 5/2.

72 64 VARIABILI ALEATORIE Poiché il momento del secondo ordine di X vale E{X 2 } = σ 2 X + E 2 {x} = 5/ = 55/2, si ricava: E{1 + X 2 } = /2 = 57/ Si effettua per 5 volte il lancio simultaneo di due dadi non truccati. Calcolare: 1) la probabilità che la somma dei numeri usciti sia minore di 6 in tutti i 5 lanci; 2) la probabilità che la somma sia compresa tra 6 e 7 in non più di due lanci. Soluzione. Indichiamo con E 1 = {11, 12, 13, 14, 22, 23} l evento: { la somma è minore di 6 }. Lo spazio campione è costituito da ( 7 2) = 21 eventi (= numero di combinazioni con ripetizione di 6 elementi a 2 a 2). Quindi la probabilità che si realizzi l evento E 1 vale P (E 1 ) = 6 21 = 2 7 p. 1) Per la formula di Bernoulli con n = 5, k = 5 si trova: ( ) 2 5 P 5,5 = ) Anche l evento E 2 = {15, 24, 33, 16, 25, 34} = { la somma è compresa tra 6 e 7 } è costituito da 6 eventi semplici, per cui ha una probabilità ancora uguale a 2/7. La probabilità che E 2 si realizzi 0, 1 o al massimo 2 volte su 5 lanci è allora P 5 (0 k 2) = = ( ) 2 (2 5 k ( ) 5 5 k = k 7) 7 k=0 ( ) ( ) 5 4 ( ) 2 2 ( ) 5 3 ( ) = Nella successione di prove indipendenti di un esperimento casuale, la probabilità di successo è p = Applicando la legge dei grandi numeri, calcolare il numero delle prove che è necessario effettuare perché con probabilità non inferiore a 0.90 si abbia un numero di successi compreso tra 0.3n e 0.4n. Soluzione. Se p = 0.35, per il Teorema integrale di asintoticità al crescere di n la probabilità che il numero k di successi sia compreso tra 0.3n e 0.4n si avvicina a: IP{0.3n k 0.4n} = erf ( ) ( ) 0.4n 0.35n 0.3n 0.35n erf 0.35(1 0.35)n 0.35(1 0.35)n 2 erf( n).

73 2.4 Problemi risolti 65 Se si vuole che questa probabilità sia non inferiore a 0.90, occorre che erf( n) Dalla tabella della funzione degli errori si ricava: z = ( ) n 1.65 n = ottenuto arrotondando per eccesso alle unità Nella nostra dotazione di 1200 utensili, 500 unità sono fornite dalla ditta A e 700 dalla ditta B. Da controlli di qualità risulta che la produzione della ditta A è difettosa con probabilità p A = e quella della ditta B con probabilità p B = Quante estrazioni casuali di utensili dalla dotazione potremo effettuare, in media, prima di trovarne uno difettoso? Risposta. Calcoliamo le probabilità degli eventi: A = { estrazione di un utensile prodotto da A}; B = { estrazione di un utensile prodotto da B}; E = { estrazione di un utensile difettoso. Esse valgono: P (A) = n A n = = 5 12 P (B) = n B n = = 7 12 P (E) = P (A)P (E A) + P (B)P (E B) = Per il Secondo Principio delle prove ripetute, il numero medio di estrazioni che si effettuano prima di trovare un elemento difettoso è l inverso di P (E): arrotondato per eccesso alle unità. E{ tempo di attesa } = 1/ = Un evento ha una probabilità costante p = 0, 01 di verificarsi in ogni prova di un certo esperimento. Calcolare la probabilità che esso si verifichi almeno 3 volte su 100 prove indipendenti dell esperimento in questione: a) facendone una valutazione esatta; b) facendone una valutazione approssimata con l uso della distribuzione di Poisson. Soluzione a) Per ottenere una valutazione esatta si applica la formula di Bernoulli: P 100 (k 3) = 1 P 100 (0 k 2) = [ ( ] 100 = 1 (0.99) (0.99) 99 + )(0.01) 2 (0.99) 98 = 2 = 1 (0.99) = =

74 66 VARIABILI ALEATORIE b) Utilizzando la legge di Poisson degli eventi rari con np = = 1, si ricava P (k 2) 2 k=0 e 1 k! = 5 2 e 1 = e di conseguenza: P (k 3) = 1 P (k 2) Si effettuano tre tiri verso un medesimo bersaglio. Le probabilità di colpirlo al primo, al secondo e al terzo colpo sono, rispettivamente, uguali a p 1 = 0.4, p 2 = 0.5 e p 3 = 0.7. a) Qual è la probabilità di aver colpito il bersaglio una sola volta dopo i tre tiri? b) Qual è la probabilità di aver colpito il bersaglio almeno una volta dopo i tre tiri? Soluzione. Indichiamo con S k = {successo: bersaglio colpito al k-esimo tiro} oppure F k = {fallimento: bersaglio mancato al k-esimo tiro} i possibili esiti di ognuno dei tre tiri. Questi eventi hanno probabilità: P (S k ) = p k, P (F k ) = 1 p k, k = 1, 2, 3, a) Nella sequenza dei tre tiri (con esiti statisticamente indipendenti), gli eventi in cui si verifica un solo successo sono tre, e le rispettive probabilità sono le seguenti: P {S 1 F 2 F 3 } = p 1 (1 p 2 )(1 p 3 ) = = 0.06 P {F 1 S 2 F 3 } = (1 p 1 )p 2 (1 p 3 ) = = 0.09 P {F 1 F 2 S 3 } = (1 p 1 )(1 p 2 )p 3 = = La probabilità di aver colpito il bersaglio una sola volta è la somma di queste: P {(S 1 F 2 F 3 ) (F 1 S 2 F 3 ) (F 1 F 2 S 3 )} = = b) La probabilità di avere avuto almeno un successo vale: 1 P {F 1 F 2 F 3 } = 1 (1 p 1 )(1 p 2 )(1 p 3 ) = = Da una recente indagine della polizia stradale risulta che il 45% degli automobilisti guida ancora in città senza allacciare le cinture di sicurezza. Se un agente controlla a caso 10 vetture in circolazione, qual è la probabilità che egli riscontri questa infrazione almeno 8 volte?

75 2.4 Problemi risolti 67 Risposta. Il successo S in ognuno degli n = 10 controlli consiste nel riscontro della infrazione, ed ha probabilità teorica p = Per la formula di Bernoulli, la probabilità che si verifichino almeno 8 successi vale ( ) P 10 (8 k 10) = p k (1 p) 10 k = = k=8 ) ( 10 8 k (0.45) 8 (0.55) (0.45) (0.45) 10 = = (0.45) 8 [ 45 (0.55) (0.45) 2]

76 68 VARIABILI ALEATORIE

77 VARIABILI ALEATORIE MULTIDIMENSIONALI L insieme {X 1 (ω), X 2 (ω),..., X n (ω)} di n variabili aleatorie, definite su un medesimo spazio di probabilità (Ω, B, P ), costituisce le n componenti di un vettore aleatorio X(ω) n dimensionale che opera la trasformazione (Ω, B, P ) (IR n, B, P ) associando ad ω l ennupla (x 1,..., x n ) IR n, e all evento A B l insieme B = X 1 (A) IR n con probabilità P (B) = P (X 1 (B)) = P (A). In questo Capitolo esamineremo le principali proprietà del vettore aleatorio X(ω) generalizzando le definizioni ed i risultati già esposti nel precedente Capitolo a proposito di una v.a. unidimensionale. Per comprendere le novità che questa analisi comporta, conviene iniziare a trattare il caso n = Coppie di variabili aleatorie Consideriamo due variabili aleatorie reali X(ω) e Y (ω), componenti di un vettore aleatorio bidimensionale X(ω) = {X 1 = X(ω), X 2 = Y (ω)}, che ad ogni evento elementare ω di un esperimento casuale associano rispettivamente i numeri reali x D x IR ed y D y IR come illustrato nello schema di Fig L intersezione B dei due eventi: (X x) e (Y y), cioè l area ombreggiata in figura, è ancora un evento in B, la cui probabilità è una funzione F XY (x, y) delle due variabili reali: F XY (x, y) = P {(X x) (Y y)} (3.1) che si chiama funzione di distribuzione congiunta (o mista) della coppia di variabili aleatorie. Essa misura la probabilità che si verifichino entrambi gli eventi: (X x) e (Y y); è sempre positiva con valori compresi tra 0 e 1, non decrescente e continua a destra rispetto a ciascuna delle variabili x, y. Le sue proprietà sono: F XY (, ) = F XY (, y) = F XY (x, ) = 0; 69

78 70 VARIABILI ALEATORIE MULTIDIMENSIONALI F XY (+, + ) = 1. y X B' (x,y) = X( ) B x X A Figura 3.1 Se esiste la derivata mista di F XY (x, y), si chiama densità di probabilità congiunta della coppia (X(ω), Y (ω)) la funzione soddisfacente le condizioni: f XY (x, y) 0, f XY (x, y) = 2 F XY (x, y) x y f XY (x, y)dxdy = 1. (3.2) La Fig. 3.2 mostra il grafico qualitativo della densità congiunta di una coppia di v.a. che assumono valori reali in X(Ω) = D x (y) D y (x) IR 2. La probabilità che esse abbiano valori in un insieme B è data dall integrale doppio: P (X B) = f XY (x, y)dxdy. (3.3) B In particolare, se questo insieme è l intersezione B = (X x) (Y y), la probabilità P (B ) è data dal volume indicato in figura, che vale P (B ) = x dx y f XY (x, y )dy = F XY (x, y). Il volume che nella stessa figura è compreso tra due piani paralleli a distanza infinitesima dy, misura la probabilità dell evento E = {(X D x ) (Y [y, y + dy])} e vale: P (E) = dy f XY (x, y)dx. (3.4) D x (y) Ma poiché (X D x ) = (X + ) è l evento certo, risulta anche P (E) = P {Y [y, y + dy]} = F Y (y + dy) F Y (y) = df Y (y) (3.4 )

79 3.1 Coppie di variabili aleatorie 71 f ( x,y ) XY P(B') = F ( ) XY x,y B' df ( y) Y dy y x X( ) Figura 3.2 dove F Y (y) = F XY (+, y) è la funzione di distribuzione della v.a. Y (ω), che ora prende il nome di funzione di distribuzione marginale di Y (ω). Confrontando la (3.4) con la (3.4 ) risulta pertanto: f XY (x, y)dx = df Y (y) = f Y (y). (3.5) dy D x(y) L integrale a primo membro ha il significato di densità di probabilità relativa alla sola v.a. Y (ω), e individua la densità di probabilità marginale di Y (ω). Essa si ottiene integrando la densità mista su tutti i valori che può assumere l altra v.a. con cui fa coppia. In modo analogo si definiscono: la funzione di distribuzione marginale di X(ω): F X (x) = F XY (x, + ) P {(X x) (Y y)} e la sua densità di probabilità marginale: f X (x) = D y (x) f XY (x, y)dy Momenti congiunti Data una coppia di v.a. X(ω), Y (ω) entrambe definite in (, + ), si chiama momento congiunto (o misto) di ordine (p + q) l integrale doppio: E{X p Y q } = x p y q f XY (x, y)dxdy (p,q interi positivi.) Il momento centrale congiunto di ordine (p + q) della coppia è definito dall integrale doppio: E{(X m X ) p (Y m Y ) q } = (x m X ) p (y m Y ) q f XY (x, y)dxdy

80 72 VARIABILI ALEATORIE MULTIDIMENSIONALI in cui le realizzazioni di X ed Y sono valutate rispetto ai valori medi delle loro distribuzioni marginali. I momenti centrali con p = 2, q = 0 e p = 0, q = 2 si identificano rispettivamente con le varianze di X(ω) ed Y (ω). Il momento centrale congiunto del secondo ordine si chiama covarianza di X(ω) ed Y (ω): Cov (X, Y ) = (x m X )(y m Y )f XY (x, y)dxdy (3.6) ed è sicuramente il più importante dal punto di vista applicativo. l integrale a secondo membro si ricava subito l importante relazione: Sviluppando Cov(X, Y ) = E{XY } m Y E{X} m X E{Y } + m X m Y = E{XY } m X m Y (3.7) la quale mostra che la covarianza è la differenza tra il momento misto del secondo ordine e il prodotto delle medie marginali. Se queste due quantità sono uguali, ovvero se la covarianza è nulla, le v.a. si dicono non correlate. La covarianza interviene sempre nella espressione della varianza di una combinazione lineare di due o più variabili aleatorie. Infatti, per la proprietà di linearità del valor medio, la varianza di Z(ω) = ax(ω) + by (ω) vale: σ 2 Z = E{(Z m Z ) 2 } = E{[(aX + by ) E{aX + by }] 2 } = E{[a(X E{X}) + b(y E{Y })] 2 } = E{a 2 (X E{X}) 2 + b 2 (Y E{Y }) 2 + 2ab(X E{X})(Y E{Y })} = a 2 σ 2 X + b 2 σ 2 Y + 2ab Cov(X, Y ). (3.8) Se poi X(ω) e Y (ω) sono non correlate, allora la (3.8) si riduce alla seguente: (X, Y ) non correlate = σ 2 Z = a 2 σ 2 X + b 2 σ 2 Y e dunque la varianza di una loro combinazione lineare è la somma delle varianze, moltiplicate per il quadrato dei rispettivi coefficienti. La (3.8) si estende al caso di una combinazione lineare Z(ω) = a 1 X 1 (ω) a n X n (ω) di n variabili aleatorie, per la quale si ricava: σ 2 Z = n i=1 n 1 a 2 i σx 2 i + 2 n i=1 j=i+1 a i a j Cov(X i X j ) che si riduce alla prima sommatoria se ciascuna coppia (X i Y j ) è non correlata. Pur essendo un momento di ordine pari, la covarianza può anche essere negativa, come si verifica facilmente dalla definizione (3.6). Si chiama coefficiente di correlazione tra X ed Y il rapporto ρ(x, Y ) = Cov(X, Y ) σ X σ Y, ρ(x, Y ) 1 (3.9)

81 3.1 Coppie di variabili aleatorie 73 tra la covarianza e il prodotto degli scarti quadratici medi di X(ω) ed Y (ω). Vedremo in un prossimo Capitolo, nell ambito del metodi regressivi di previsione relativi all analisi statistica di campioni estratti da due popolazioni, che questo coefficiente adimensionale è una misura della interdipendenza lineare tra le due v.a., nel senso che dà una indicazione sulla accuratezza con cui una variabile aleatoria può essere approssimata come funzione lineare di un altra. Se X(ω) e Y (ω) sono non correlate (linearmente), si ha ρ(x, y) = 0; se invece il modulo del coefficiente di correlazione è prossimo all unità, allora è giustificata l approssimazione: X(ω) ay (ω) + b che le lega mediante una legge lineare Coppie di v.a. indipendenti Come diretta conseguenza del concetto di indipendenza di due eventi, X(ω) e Y (ω) sono dette statisticamente indipendenti se lo sono gli eventi (X x) e (Y y), in modo che P {(X x) (Y y)} = P (X x) P (Y y). (3.10) In tale ipotesi, la funzione di distribuzione congiunta è il prodotto delle funzioni di distribuzione marginali: F XY (x, y) = F X (x)f Y (y) (3.11) da cui discende subito una analoga proprietà per la loro densità mista: f XY (x, y) = f X (x)f Y (y). (3.12) Se X(ω) e Y (ω) sono statisticamente indipendenti, tenuto conto della (3.12) si ha che il loro momento congiunto si identifica con il prodotto dei rispettivi momenti di ordine p e q: E{X p Y q } = (X, Y ) indipendenti = (3.13) x p f X (x)dx y q f Y (y)dy = E{X p }E{Y q }. Ne segue, tenuto conto della (3.7), che due v.a. indipendenti sono anche non correlate: (X, Y ) indipendenti = E{XY } = m X m Y = Cov(X, Y ) = 0. Si badi però che non è vero il contrario: infatti l indipendenza è una condizione sufficiente ma non necessaria per la non correlazione. Due v.a. possono avere covarianza nulla, anche se non sono statisticamente indipendenti. Dunque, l indipendenza statistica è una condizione più restrittiva della non correlazione. OSSERVAZIONE

82 74 VARIABILI ALEATORIE MULTIDIMENSIONALI La statistica congiunta di una coppia di v.a. è completamente nota solo se si conosce la loro densità mista f XY (x, y), ovvero anche la funzione di ripartizione congiunta F XY (x, y). Da essa, infatti, è possibile dedurre le distribuzioni marginali ed i momenti di ogni ordine, semprechè esistano. Se però le v.a. sono statisticamente indipendenti, per quanto si è visto in questo paragrafo la conoscenza delle singole distribuzioni marginali è sufficiente a descrivere compiutamente la loro statistica congiunta. Esempio 3.1 Si assuma che la traccia di un oggetto su uno schermo radar circolare, di raggio a, si possa trovare con eguale probabilità in qualsiasi punto P dello schermo. All esperimento consistente nella ricezione casuale di una traccia sullo schermo, è naturale associare le variabili aleatorie R(ω), Θ(ω), coordinate polari del punto P. Si vuole determinare la loro densità di probabilità congiunta f RΘ (r, θ), le due densità marginali ed i momenti misti. f ( x,y ) XY 1/ a R 0 a 2 y x a Figura 3.3 La probabilità che la traccia P si trovi nell elemento di superficie dσ = rdrdθ vale: e ricordando la (3.3) si può scrivere dp (ω) = P {(R, Θ) dσ} = dσ πa 2 = Eguagliando si ricava la densità mista: dp (ω) = f RΘ (r, θ)drdθ. r πa 2 drdθ { r/(πa f RΘ (r, θ) = 2 ), 0 r a; 0 θ 2π; 0, altrove il cui grafico è mostrato in Fig (3.14)

83 3.1 Coppie di variabili aleatorie 75 Le densità marginali si ricavano applicando la (3.5): f R (r) = f Θ (θ) = 2π 0 a 0 r 2r dθ = πa2 a 2, r πa 2 dr = 1 2π, 0 r a 0 θ 2π e sono nulle al di fuori dei rispettivi intervalli. Dunque, la densità di probabilità di R(ω) per 0 r a è un segmento di retta, e quella di Θ(ω) è uniforme in [0, 2π]. Il prodotto delle due densità marginali è uguale alla densità mista: f R (r)f Θ (θ) = f RΘ (r, θ), per cui si può concludere che le due v.a. sono statisticamente indipendenti. Il loro momento del secondo ordine è uguale al prodotto dei rispettivi valori medi: E{RΘ} = a 2π 0 0 rθ r πa 2 drdθ = 2 3 a π = m R m Θ, e ovviamente la covarianza tra R e Θ è nulla, perché essendo indipendenti sono anche non correlate. La probabilità che la traccia si trovi nel centro dello schermo in un cerchio di raggio r 0 << a (oppure anche: nel centro di un bersaglio circolare, nella ipotesi che la traccia cada comunque sul bersaglio) si può facilmente calcolare utilizzando la densità congiunta (3.14), e vale: r0 P {R r ) ; 0 Θ 2π} = 2π 0 ( ) r 2 πa 2 dr = r0. a Esempio 3.2 E nota la densità congiunta di una coppia di variabili aleatorie. Essa vale { 8xy, per 0 x 1; 0 y < x f XY (x, y) = 0 altrove ed assume valori maggiori di zero nel dominio D = D X (y) D Y (x) = [0, x) (y, 1]. Si vuole determinare le densità e i momenti marginali, e il loro momento congiunto di ordine due. Le densità marginali si calcolano come segue: f X (x) = f Y (y) = D Y (x) D X (y) x f XY (x, y)dy = 8 xydy = 4x 3, x [0, 1] 0 1 f XY (x, y)dy = 8 xydx = 4y(1 y 2 ), y [0, 1], y

84 76 VARIABILI ALEATORIE MULTIDIMENSIONALI e il loro grafico è mostrato, insieme con la densità mista, in Fig I valori medi e le varianze delle distribuzioni marginali si calcolano, come di consueto, applicando le loro definizioni: E{X} = 4 E{Y } = 4 σ 2 X = 4 σ 2 Y = x 4 dx = 4 5 y 2 (1 y 2 )dy = 8 15 x 5 dx E 2 {X} = = 2 75 y 3 (1 y 2 )dy E 2 {Y } = = Il prodotto delle densità marginali non è uguale alla densità congiunta: ciò significa che la coppia X(ω), Y (ω)) non è statisticamente indipendente. Calcoliamo perciò il loro momento misto: 1 x 1 x E{XY } = dx xyf XY (x, y)dy = 8 x 2 dx y 2 dy = f ( ) XY x,y y f ( y) Y f ( x ) X x 1 D ( y) D ( ) X. Y x x = y 0 1 Figura 3.4 dal quale si deduce la seguente covarianza: Cov (X, Y ) = E{XY } E{X}E{Y } = Il coefficiente di correlazione della coppia, definito dalla (3.9), nel caso in esame vale 4 ρ(x, Y ) = e il suo valore sensibilmente minore dell unità mostra che le due variabili aleatorie sono poco correlate statisticamente, nel senso precisato alla fine del

85 3.1 Coppie di variabili aleatorie Coppie di v.a. discrete Se X(ω) e Y (ω) assumono rispettivamente valori reali x i ed y j con i = 1, 2,..., n, j = 1, 2,... m, indichiamo con P ij = P {(X = x i ) (Y = y j )} la probabilità che la coppia (X, Y ) assuma i valori (x i, y j ). Ovviamente, per gli assiomi della probabilità le P ij devono soddisfare la condizione: n m P ij = 1. i=1 j=1 La distribuzione mista, i momenti e le distribuzioni marginali della coppia discreta si esprimono, sulla base delle definizioni date nei paragrafi precedenti, facendo uso della funzione scalino unitario (2.3) e della funzione impulsiva. Cosí, la loro funzione di distribuzione congiunta è data da n m F XY (x, y) = P ij U(x x i )U(y y j ) (3.15) i=1 j=1 e la corrispondente densità di probabilità congiunta è l insieme bidimensionale di impulsi: n m f XY (x, y) = P ij δ(x x i )δ(y y j ). (3.16) i=1 j=1 Le rispettive funzioni di distribuzione marginali si ottengono sommando rispetto a tutti i valori assunti dall altra v.a.: F X (x) = F Y (y) = n m P ij U(x x i ), i=1 j=1 m n P ij U(y y j ), j=1 i=1 x D x y D y mentre le densità marginali valgono rispettivamente: f X (x) = f Y (y) = n m P ij δ(x x i ), x D x i=1 j=1 m n P ij δ(y y j ), y D y. (3.17) j=1 i=1 I loro momenti congiunti sono definiti dalle somme: E{X p Y q } = n m P ij x p i yq j i=1 j=1

86 78 VARIABILI ALEATORIE MULTIDIMENSIONALI E{(X m X ) p (Y m Y ) q } = n m P ij (x i m X ) p (y j m Y ) q (3.18) i=1 j=1 e in particolare la loro covarianza vale Esempio 3.3 n m Cov (X, Y ) = P ij (x i m X )(y j m Y ). (3.19) i=1 j=1 In una coppia di v.a. discrete, X(ω) può assumere i valori ( 2, 0, 2) e Y (ω) i valori ( 1, 0, 1). Le probabilità miste P ij, con i, j = 1, 2, 3 hanno i valori riportati nella tabella di Fig. 3.5 e danno luogo, ricordando la (3.16), a una densità mista F XY (x, y) che è rappresentata dalla distribuzione di impulsi di Fig Si vuole calcolare le densità marginali, la covarianza e il coefficiente di correlazione della coppia. j i y = - 1 y = 0 y = 1 1 x = - 2 1/8 1/3 1/8 1 x = 0 0 1/ x = 2 1/4 0 1/ j P ij 7/12 1/12 1/3 i P ij 3/8 5/12 5/24 P ij ij = 1 Figura 3.5 Nella colonna a destra della tabella di Fig. 3.5 sono indicate le probabilità che si ottengono sommando, per ogni i, rispetto a tutti i valori dell indice j. I risultati delle somme forniscono le probabilità marginali di X(ω), che per la prima delle (3.17) ha densità f X (x) = 7 1 δ(x + 2) δ(x) + 1 δ(x 2). 3 Allo stesso modo, le probabilità marginali di Y (ω) sono ricavate nella riga sottostante la stessa tabella, e forniscono la densità marginale: f Y (y) = 3 5 δ(y + 1) δ(y) + 5 δ(y 1). 24 Queste distribuzioni marginali hanno i seguenti momenti del primo e secondo ordine: m X = = 1 2 ; E{X2 } = = 11 3 ; σ2 X = = 41 12

87 3.2 Caso di n variabili aleatorie 79 m Y = = 1 6 ; E{Y 2 } = = 7 12 ; σ2 Y = = 5 9. Poiché il prodotto delle densità marginali non è uguale alla densità mista assegnata, le due variabili aleatorie non sono statisticamente indipendenti. La loro covarianza si può calcolare applicando la (3.19), ma è più comodo determinarla ricordando la (3.7): Cov (X, Y ) = E{XY } m X m Y = m Xm Y = = Siamo ora in grado di determinare il coefficiente di correlazione della coppia, che per la (3.9) risulta: 5 ρ(x, Y ) = f ( x,y ) XY f X( x) x y f ( y) Y x y Figura Caso di n variabili aleatorie L estensione formale ad n dimensioni delle definizioni e dei risultati ottenuti nei precedenti paragrafi si effettua senza particolari difficoltà. Se in uno spazio di probabilità (Ω, B, P ) si definiscono le n v.a. X 1 (ω), X 2 (ω),.., X n (ω), il vettore aleatorio X(ω) = [X 1 (ω), X 2 (ω),..., X n (ω)] T, dove T indica la trasposta, ha una funzione di distribuzione F X (x) : IR n [0, 1] la quale misura la probabilità che si verifichino simultaneamente gli eventi (X i x i ), i = 1,.., n: F X (x 1, x 2,..., x n ) = P {(X 1 x 1 ) (X 2 x 2 )... (X n x n )}. (3.20)

88 80 VARIABILI ALEATORIE MULTIDIMENSIONALI La (3.20) ha il significato di funzione di distribuzione congiunta delle n v.a. X i (ω), mentre la funzione di distribuzione marginale di una tra le X i (ω) si deduce da questa mandando a + tutte le sue variabili indipendenti, tranne x i : F Xi (x i ) = F X (+,..., +, x i, +,..., + ). La derivata parziale mista di ordine n di F X (x 1,.., x n ), se esiste, è la densità di probabilità f X (x) : IR n IR del vettore X(ω), ovvero la densità di probabilità congiunta delle v.a. X i (ω): f X (x 1, x 2,.., x n ) = n F X (x 1,..., x n ) x 1... x n e il suo integrale di ordine (n 1), fatto rispetto a tutte le variabili indipendenti tranne una x i, è la densità marginale della v.a. X i (ω): f Xi (x i ) =... f X (x 1,..., x n )dx 1 dx i 1 dx i+1 dx n. (3.21) Se le X i (ω) sono statisticamente indipendenti, allora la densità congiunta è il prodotto delle n densità marginali: f X (x 1,..., x n ) = f X1 (x 1 ) f X2 (x 2 ) f Xn (x n ) e questa proprietà implica che le X i (ω) siano anche indipendenti a due a due. Il valor medio del vettore aleatorio X(ω) è il vettore n-dimensionale: m X = E{X} = [m X1, m X2,..., m Xn ] T. che ha per componenti i valori medi di ciascuna distribuzione marginale: i = 1,.., n : m Xi = x i f Xi (x i )dx i. Nel caso n-dimensionale si possono definire svariati momenti congiunti, a seconda delle componenti del vettore X(ω) che vi sono coinvolte. Particolare importanza hanno i momenti centrali del secondo ordine relativi a ciascuna coppia (X i, X j ), che sono gli elementi della matrice di covarianza: C X = [Cov(X i, X j )] i, j = 1, 2,..., n. Si tratta di una matrice simmetrica n n, definita non negativa: det(c X ) 0, in cui gli elementi della diagonale principale coincidono con la varianza di ciascuna componente X i (ω). Ricordando la definizione (3.9) del coefficiente di correlazione ρ ij = ρ(x i, X j ), la matrice di covarianza si può scrivere: C X = σ1 2 ρ 12 σ 1 σ 2... ρ 1n σ 1 σ n (3.22) ρ 21 σ 2 σ 1 σ ρ 2n σ 2 σ n ρ n1 σ n σ 1 ρ n2 σ n σ 2... σn 2

89 3.2 Caso di n variabili aleatorie 81 ed è anche il prodotto di matrici: C X = D X R X D X (3.22 ) dove D X è la matrice diagonale delle deviazioni standard σ i, e R X è la matrice di correlazione: 1 ρ ρ 1n R X = ρ ρ 2n ρ n1 ρ n Il suo determinante ha proprietà che richiamano quelle del coefficiente di correlazione (3.9) tra due v.a. Infatti, poichè anche R X è simmetrica, si vede subito che 0 det(r X ) 1, e questo determinante vale 1 nel caso in cui le X i (ω) sono tutte a due a due non correlate, perché allora la matrice di correlazione si riduce alla matrice identica, e la matrice di covarianza degenera nella matrice diagonale delle varianze: σ (X i, X j ) non correlate : R X = I; C X = ; det C X = Π i σ σn 2 i. Nel caso limite opposto, si può invece dimostrare che l annullarsi del determinante della matrice di covarianza e quindi per la (3.22 ) anche di det(r X ) è condizione necessaria e sufficiente perchè almeno una delle X i (ω) sia una combinazione lineare delle altre (n 1) variabili aleatorie: X i (ω) = a 0 + a 1 X 1 (ω) a i 1 X i 1 (ω) + a i+1 X i+1 (ω) a n X n (ω) Det (C X ) = 0, Det (R X ) = 0 con a 1,.., a i 1, a i+1,.., a n costanti non nulle. Si osservi che la condizione ora enunciata non implica affatto (tranne nel caso banale n = 2) che ciascuna coppia (X i, X j ) sia legata da una relazione lineare del tipo X i (ω) = ax j (ω) + b. Come vedremo subito nell Esempio che segue, è possibile definire sistemi di tre (o più) v.a. che non sono linearmente dipendenti a due a due, in cui tuttavia almeno una X i (ω) è combinazione lineare delle rimanenti. Il caso che tratteremo riguarda un insieme di tre variabili aleatorie discrete, per il quale è immediato applicare i risultati appena ottenuti, che sono validi per un generico vettore aleatorio con componenti sia continue che discrete. Esempio 3.4 L esperimento consiste nella estrazione casuale di una pallina da un urna che ne contiene 10 di cui 3 bianche, 2 nere e 5 rosse. Definiamo tre v.a. X(ω), Y (ω), Z(ω), e decidiamo di assegnare ad esse il valore 0 oppure 1 a seconda che si realizzino determinati eventi. Precisamente: { bianca X = 1 se si estrae una pallina nera o rossa X = 0

90 82 VARIABILI ALEATORIE MULTIDIMENSIONALI { nera Y = 1 se si estrae una pallina bianca o rossa Y = 0 { rossa Z = 1 se si estrae una pallina bianca o nera Z = 0. Si vuole studiare la statistica mista del vettore aleatorio: X(ω) = [X, Y, Z] T. A tal fine calcoliamo dapprima le probabilità P ijk = P {(X = i) (Y = j) (Z = k)}, i, j, k = 0, 1 dell intersezione di tre degli eventi sopra definiti. Tenuto conto della equiprobabilità dell estrazione di una pallina di colore bianco, nero o rosso, le P ijk valgono: P 100 = 3 10 ; P 010 = 1 5 ; P 001 = 1 2 ; P 000 = P 011 = P 101 = P 110 = P 111 = 0. La densità di probabilità congiunta è la sequenza di impulsi: f X (x, y, z) = 1 i,j,k=0 e le densità marginali di ciascuna v.a. valgono: P ijk δ(x i)δ(y j)δ(z k) f X (x) = f Y (y) = f Z (z) = 1 1 δ(x i) i=0 j,k=0 1 1 δ(y j) j=0 i,k=0 1 1 δ(z k) k=0 i,j=0 P ijk = 7 10 δ(x) + 3 δ(x 1) 10 P ijk = 4 5 δ(y) + 1 δ(y 1) 5 P ijk = 1 2 δ(z) + 1 δ(z 1). 2 Calcoliamone ora i valori medi: m X = i,j,k i P ijk = 3 10, m Y = j P ijk = 1 5, i,j,k m Z = k P ijk = 1 2 i,j,k che utilizziamo per determinare le covarianze di ciascuna coppia: Cov(X, Y ) = E{XY } m X m Y = ij P ijk m X m Y = = 3 50 i,j,k Cov(X, Z) = E{XZ} m X m Z = ik P ijk m X m Z = = 3 20 i,j,k Cov(Y, Z) = E{Y Z} m Y m Z = jk P ijk m Y m Z = = 1 10 i,j,k

91 3.3 Trasformate della densità di probabilità 83 poiché i loro momenti del secondo ordine (non centrali) sono tutti nulli. Dunque le tre variabili aleatorie sono correlate a due a due. Calcoliamo anche le loro varianze: σx 2 = (i m X ) 2 P ijk = ; σ2 Y = (j m Y ) 2 P ijk = 4 25 i,j,k i,j,k σ 2 Z = i,j,k(k m Z ) 2 P ijk = 1 4, da cui ricaviamo subito i rispettivi scarti quadratici medi: σ X = 0.458, σy = 0.4, σ Z = 0.5. Siamo ora in grado di calcolare i coefficienti di correlazione i quali, applicando la (3.9) a ciascuna coppia, valgono: ρ(x, Y ) = 0.327, ρ(x.z) = 0.654, ρ(y, Z) = 0.5 e ci indicano che X, Y, Z non formano coppie di v.a. linearmente dipendenti. Tuttavia, la matrice di covarianza di X(ω) = [X, Y, Z] T è la seguente: 21/100 3/50 3/20 C X = 3/50 4/25 1/10 3/20 1/10 1/4 e ha determinante nullo, cosí come R X. Il rango di queste matrici è 2: ciò significa che una delle tre v.a. è combinazione lineare delle altre due. Precisamente, è facile vedere che sussiste la relazione: Z(ω) = X(ω) + Y (ω). Infatti, dai calcoli svolti si può verificare che il valor medio di Z(ω) è la somma di m X ed m Y, mentre la sua varianza soddisfa la proprietà (3.8) con a = b = 1: σ 2 Z = σ 2 X + σ 2 Y + 2 Cov(X, Y ) = = 1 4, che vale per una combinazione lineare di v.a. X(ω) e Y (ω) tra loro correlate. 3.3 Trasformate della densità di probabilità Funzione caratteristica La funzione caratteristica ϕ X (u) : IR C di una variabile aleatoria X(ω) è la trasformata di Fourier (a meno del fattore 1/2π) della sua densità di probabilità f X (x): ϕ X (u) = E{e iux } = e iux f X (x)dx. (3.23) Per la definizione di momento di una v.a., essa rappresenta il valor medio della funzione complessa g(x) = e iux = cos(ux) + i sin(ux)

92 84 VARIABILI ALEATORIE MULTIDIMENSIONALI della v.a. X(ω), per cui si può anche scrivere: ϕ X (u) = E{cos(uX)} + i E{sin(uX)}. La definizione (3.23) è valida per qualsiasi variabile aleatoria: continua, discreta o mista. Se però la v.a. è discreta e assume valori in x k con probabilità p k, la sua funzione caratteristica può anche essere espressa nella forma equivalente: ϕ X (u) = k e iuxk p k = k cos(ux k )p k + i k sin(ux k )p k. (3.23 ) Le principali proprietà di ϕ X (u) sono le seguenti. 1. Dalla sua definizione (3.23) si deduce subito che ϕ X (0) = ϕ X (u) 1, dove il segno di uguaglianza vale, salvo casi eccezionali, solo per u = 0. Dimostrazione: tenuto conto che e iux = [cos 2 (ux) + sin 2 (ux)] 1/2 = 1, si ricava: ϕ X (u) = e iux f X (x)dx e iux f X (x)dx = f X (x)dx = Se Y (ω) è una funzione lineare Y = ax + b della variabile casuale X(ω) che ha funzione caratteristica ϕ X (u), allora: ϕ Y (u) = e iub ϕ X (au). Dimostrazione: basta osservare che si può scrivere ϕ Y (u) = E{e iuy } = E{e iu(ax+b) } = E{e iuax e iub } = e iub E{e iuax } e per la (3.23) è appunto: E{e iuax } = ϕ X (au). 4. Se X 1, X 2 sono v.a. statisticamente indipendenti e hanno rispettivamente funzioni caratteristiche ϕ 1 (u) e ϕ 2 (u), allora la funzione caratteristica della loro somma Y = X 1 + X 2 è uguale al prodotto delle rispettive funzioni caratteristiche: ϕ Y (u) = ϕ X1 +X 2 (u) = ϕ 1 (u) ϕ 2 (u). Dimostrazione: poichè per la (3.12) la densità mista f 12 (x 1, x 2 ) di due v.a. indipendenti è uguale al prodotto delle rispettive densità marginali, si ha: ϕ X1 +X 2 (u) = E{e iu(x 1+X 2 ) } = = e iux 1 f 1 (x 1 )dx 1 e iu(x 1+X 2 ) f 12 (x 1, x 2 ) = e iux 2 )f 2 (x 2 )dx 2 = ϕ 1 (u)ϕ 2 (u).

93 3.3 Trasformate della densità di probabilità Una funzione caratteristica ϕ X (u) è legata ai momenti della variabile casuale X(ω) da una relazione assai importante che è spesso utile nelle applicazioni. Questa sua proprietà, che riportiamo senza dimostrazione, si può enunciare come segue. Se esiste, finito, il momento E{X q } di ordine q della variabile casuale X(ω), allora esiste, ed è continua, la derivata di ordine q della sua funzione caratteristica: la quale per u = 0 vale: ϕ (q) X (u) = (ix) q e iux f X (x)dx ϕ (q) X (0) = iq E{X q }. (3.24) Se esiste ϕ (r) X (0) con r pari, allora esiste finito il momento E{Xr } e vale la (3.24). Se esiste ϕ (r) X (0) ed r è dispari, allora esiste E{X(r 1) }. Ne segue anzitutto che la (3.24) permette il calcolo dei momenti di ordine pari di X(ω), che si possono ottenere per derivazione della sua funzione caratteristica. Se poi ϕ X (u) ammette uno sviluppo in serie di Mc Laurin, allora per la (3.24) si ricava anche: ϕ X (u) = q=0 u q q! ϕ(q) X (0) = q=0 (iu) q E{X q } (3.25) q! che può essere utilizzata per la determinazione di ϕ X (u) qualora non si conosca la densità ma siano noti, ed esistano finiti, tutti i momenti della variabile aleatoria. 6. Dalla teoria delle trasformate di Fourier si ha che, sotto la condizione di assoluta integrabilità della funzione caratteristica, vale la formula di inversione: f X (x) = 1 2π e iux ϕ X (u)du (3.26) la quale permette di determinare f X (x) se è nota la funzione caratteristica ϕ X (u). Combinandola con la (3.25), la formula di inversione permette anche di calcolare la densità di probabilità di una variabile aleatoria, a partire dalla conoscenza di tutti i suoi momenti (supposto che esistano finiti). 7. La definizione (3.23) si estende senza difficoltà al caso di variabili aleatorie multidimensionali. Precisamente, data la v.a. vettoriale X = {X 1,..., X n } con densità f x (x 1,..., x n ), la sua funzione caratteristica ϕ x (u 1,.., u n ) : IR n C è la funzione di n variabili: ϕ x (u 1,.., u n ) = E{e i(u 1X u nx n) } = = e i(u 1X u nx n) f x (x 1,..., x n )dx 1....dx n.

94 86 VARIABILI ALEATORIE MULTIDIMENSIONALI In particolare, per n = 2 la funzione caratteristica è la trasformata di Fourier della densità mista delle due componenti di X = {X 1, X 2 }, e se queste sono statisticamente indipendenti vale la relazione: ϕ x (u 1, u 2 ) = ϕ x1 (u 1 )ϕ x2 (u 2 ). Anche la formula di inversione si estende facilmente al caso multidimensionale; per esempio, per n = 2 si ha: Esempio 3.5 f x (x 1, x 2 ) = 1 4π 2 exp[ i(u 1 x 1 + u 2 x 2 )]ϕ x (u 1, u 2 )du 1 du 2. Si conoscono i momenti di una v.a. X(ω) che è definita nell intervallo [0,1], ma di cui non si conosce la densità. Questi momenti valgono: q = 1, 2,... : E{X q } = 1/(q + 1). Si vuole determinare la distribuzione e la funzione di densità di X(ω). Per la (3.25) la funzione caratteristica di X(ω) è data da ϕ X (u) = q=0 (iu) q q!(q + 1) = s=1 (iu) s 1 s! = 1 iu (iu) s. s! s=1 Me se si tiene conto dello sviluppo in serie della funzione esponenziale: si ottiene: e x = s=0 x s s! = 1 + s=1 x s s!, ϕ X (u) = eiu 1 = sin u iu u icos u 1. u La funzione trovata è la trasformata di Fourier della funzione: { f X (x) = 1 se x [0, 1] 0 altrove come si può facilmente verificare sostituendola nella definizione (3.23). Infatti e iux dx = 1 [e iux] 1 iu = eiu 1 = ϕ X (u). 0 iu Pertanto, X(ω) è uniformemente distribuita nell intervallo [0, 1]. Esempio 3.6

95 3.3 Trasformate della densità di probabilità 87 La variabile casuale discreta X(ω) con densità di probabilità F X (x) = 1 2 δ(x 1) + 1 δ(x + 1) 2 assume valori per x = ±1 con probabilità p(±1) = 1/2 (v. Fig. 3.7a). Applichiamo la (3.23 ) per calcolarne la funzione caratteristica, sostituendo ad x k (con k = 1, 2) i valori ±1 e le corrispondenti probabilità p k = 1/2. Si ottiene subito: ϕ X (u) = 1 2 ( e iu + e iu) = 1 [(cos u + i sin u) + (cos u i sin u)] = cos u. 2 a 1 (u) X b f (x) X 1 (u) X a 0 a c 1 d 1 (u) X a/2 f (x) X (u) X f (x) X 0 0 Figura Funzioni caratteristiche e loro antitrasformate di Fourier Esempio 3.7 Calcoliamo la funzione caratteristica di una v.a. uniformemente distribuita nell intervallo a x a, che ha densità f X (x) = { 1/2a, per x a 0 altrove. (3.27) Per la definizione (3.23) si ha: ϕ X (u) = a a e iux 1 2a dx = 1 2a [ ] e iux a iu a = eiua e iua 2iua = 2i sin(ua) 2iua = sin(ua) ua il cui grafico, insieme a quello di f X (x), è mostrato in Fig. 3.7b).

96 88 VARIABILI ALEATORIE MULTIDIMENSIONALI Esistono tutti i momenti E{X q } della densità uniforme (2.18): per la definizione (2.13) quelli di ordine dispari sono tutti nulli, e quelli di ordine pari valgono: k = 1, 2,... : E{X 2k } = a a x 2k 1 2a dx = 1 a x 2k dx = a 0 a2k 2k + 1. La loro conoscenza permette di sfruttare un altra via per la determinazione della funzione caratteristica: infatti se si applica la (3.25) anzichè la definizione (3.23) si ritrova: (iu) 2k a 2k ϕ X (u) = (2k)! 2k + 1 = i 2k (ua)2k+1 ua(2k + 1)! = 1 ( 1) k (ua)2k+1 ua (2k + 1)! = sin(ua) ua k=0 k=0 k=0 poichè l ultima sommatoria è lo sviluppo in serie della funzione sin(ua). Esempio 3.8 Calcoliamo ancora la funzione caratteristica della v.a. con densità f X (x) = a 2 e a x con a > 0, x IR mostrata in Fig. 3.7c). Dalla definizione (3.23) si ricava: 0 ϕ X (u) = a e iux e ax dx + a e iux e ax dx = = a [ ] e x(iu+a) 0 + a [ ] e x(iu a) = a ( 1 2 iu + a 2 iu a 2 iu + a 1 ) = a2 iu a a 2 + u 2. 0 Esempio 3.9 Calcoliamo infine la funzione caratteristica di una variabile casuale X(ω) che ha legge normale N (µ, σ 2 ), applicando ancora la (3.23). Conviene anzitutto introdurre la variabile ausiliaria Y = X µ che è anch essa normale, ma con media nulla e la stessa varianza σ 2. Per la proprietà 3) la funzione caratteristica di X è legata a quella di Y dalla relazione Determiniamo ora quest ultima: ϕ Y (u) = 1 [ σ e iuy exp y2 2π 2σ 2 ϕ X (u) = E{e iu(y +µ) } = e iuµ ϕ Y (u). (3.28) ] dy = 1 [ ( )] y σ exp y 2π 2σ 2 iu dy. L ultimo integrale si calcola con la formula: π e y(py+q) /2p dy = p e q2 dove p = 1 2σ 2, q = iu

97 3.3 Trasformate della densità di probabilità 89 e fornisce ϕ Y (u) = exp ( u2 σ 2 2 ). Dalla (3.28) si deduce quindi la funzione caratteristica di X(ω) N (µ, σ 2 ), che è la seguente funzione complessa: ( ϕ X (u) = exp iuµ u2 σ 2 ). 2 Si noti, come caso particolare, che se X(ω) è normale standard (µ = 0, σ = 1) la sua funzione caratteristica, mostrata in Fig. 3.7d), è la funzione esponenziale gaussiana con valori reali: X(ω) N (0, 1) : ϕ X (u) = e u2 /2 (0, 1] Funzione generatrice dei momenti La funzione generatrice dei momenti µ X (u) : IR IR di una variabile casuale X(ω) è la trasformata di Laplace della sua densità di probabilità f X (x): µ X (u) = E{e ux } = e ux f X (x) (3.27) ed esiste se l integrale che la definisce è finito in un intorno di u = 0. Le sue principali proprietà, in parte simili a quelle della funzione caratteristica, sono le seguenti. 1. µ X (0) = Se Y (ω) è una funzione lineare Y = ax + b della v.a. X(ω), dotata di funzione generatrice dei momenti µ X (u), allora: µ Y (u) = e ub µ X (au). 3. Se X 1, X 2 sono v.a. statisticamente indipendenti con funzioni generatrici µ 1 (u) e µ 2 (u), allora la funzione generatrice dei momenti della loro somma Y (ω) = X 1 + X 2 è il prodotto delle rispettive funzioni generatrici: µ Y (u) = µ x1 +x 2 (u) = µ 1 (u) µ 2 (u). 4. Se la v.a. X(ω) ha funzione generatrice dei momenti in un intorno u u o di u = 0, allora i suoi momenti E{X q } esistono finiti, e sono uguali alla derivata di ordine q di µ X (u) calcolata nell origine: µ (q) X (0) = E{xq }. (3.28)

98 90 VARIABILI ALEATORIE MULTIDIMENSIONALI Inoltre, nell intorno u u o la funzione generatrice dei momenti ammette lo sviluppo in serie: u q µ X (u) = q! µ(q) X (0) = u q q! E{Xq }. (3.29) q=0 q=0 Si noti che, a differenza della funzione caratteristica ϕ X (u), l esistenza di µ X (u) garantisce l esistenza di tutti i momenti di X(ω), i quali sono calcolabili utilizzando le formule precedenti che non coinvolgono l unità immaginaria. Esempio 3.10 La funzione generatrice dei momenti di una v.a. X(ω) con distribuzione esponenziale f X (x) = λ e λx, λ > 0, x IR + vale µ X (u) = 0 e ux λe λx dx = λ e (λ u)x dx = 0 λ [e (λ u)x] λ u = λ 0 λ u ed è mostrata in Fig L esistenza di µ X (u) finita in un intorno u u o < λ di u = 0 garantisce l esistenza dei momenti di f X (x). Utilizzando la (3.28), si possono calcolare questi momenti verificando un risultato già ottenuto per altra via nel ( u) X 1 f ( x ) X 0 Figura 3.8 Generatrice dei momenti di una distribuzione esponenziale Infatti: q = 1, 2, 3,... : ( ) µ (q) dq λ X (u) = du q = λ u e queste derivate, calcolate per u = 0, forniscono: µ (q) X (0) = E{Xq } = q! λ q. q!λ (λ u) q+1

99 3.4 Problemi risolti 91 Al contrario, a partire dalla conoscenza dei momenti si può determinare univocamente la legge di X(ω). Infatti, è soddisfatta la condizione (2.17) per l unicità di f X (x): E{X 2q } k 2q (2q)! = (2q)! k 2q ( ) k 2q λ 2q (2q)! = 0 per q +, 0 < k < λ. λ La serie (3.29) determina la funzione generatrice dei momenti: q=0 u q q! q! λ q = q=0 ( u λ ) q = 1 1 u/λ = λ λ u = µ X(u) perchè la serie geometrica di ragione u/λ converge per u < λ. Una volta ricavata µ X (u), da questa si ottiene, con una antitrasformata, la densità esponenziale f X (x). 3.4 Problemi risolti 3.1. La variabile aleatoria Z = 3X Y con X e Y non correlate ha varianza σz 2 = 9σ2 X σ2 Y. Vero o falso? Risposta: E Falso perché σ 2 Z = 9σ2 X + σ2 Y Una coppia di variabili aleatorie discrete X, Y con valori x i = 0, 1 e y j = 0, 1, 2 ha probabilità congiunte P ij che valgono: P 00 = P 02 = 1/12; P 01 = P 10 = P 11 = 1/6; P 12 = 1/3. Determinare: le densità marginali, i loro valori medi e la covarianza della coppia. Soluzione: 2 f X (0) = P 0j = 1/12+1/6+1/12 = 1/3 2 f X (1) = P 1j = 1/6+1/6+1/3 = 2/3 j=0 j=0 f Y (0) = 1 P i0 = 1/12 + 1/6 = 1/4 1 f Y (1) = P i1 = 1/6 + 1/6 = 1/3 i=0 i=0 f Y (2) = 1 P i2 = 1/12 + 1/3 = 5/12 i=0 E{X} = 1 (2/3) = 2/3 E{Y } = 1 (1/3) + 2 (5/12) = 7/6

100 92 VARIABILI ALEATORIE MULTIDIMENSIONALI 1 2 s xy = P ij x i y j E{X}E{Y } = 1/6+(1/3) 2 (2/3)(7/6) = 5/6 7/9 = 1/18 i=0 j= Una coppia (X, Y ) di variabili aleatorie ha densità congiunta f(x, y) = 8xy, 0 x 1; 0 y x e nulla altrove. a) Determinare le densità marginali di X e Y ; b) dire se sono statisticamente indipendenti giustificando la risposta; c) calcolare il momento congiunto E{XY }. Soluzione. a) Il supporto della densità congiunta è il triangolo del piano (x, y) delimitato dalle rette y = x; y = 0 e x = 1. La densità marginale di X si ottiene integrando f(x, y) rispetto ad y sull intervallo D y (x) = [0, x] ; quella di Y integrando f(x, y) rispetto ad x sull intervallo D x (y) = [y, 1] : f X (x) = 8x f Y (y) = 8y x 0 1 b) X e Y non sono indipendenti perché c) Il momento congiunto vale E{XY } = y ydy = 4x 3, 0 x 1 xdx = 4y(1 y 2 ), 0 y 1. f X (x)f Y (y) = 16x 3 y(1 y 2 ) f(x, y). 1 x xyf(x, y)dxdy = 8 x 2 dx y 2 dy = 8 1 x 5 dx = Calcolare la covarianza della coppia (X, Y ) di variabili casuali discrete che hanno valori x i = 0, 1 e 2 ed y j = 0 e 2 con probabilità congiunte P 00 = P 20 = P 22 = 1/6; P 10 = 1/3; P 02 = P 12 = 1/12. Soluzione. Occorre dapprima calcolare le densità marginali e i valori medi di X e Y : f X (0) = f X (2) = 2 P 0j = = 1 2 4, f X(1) = P 1j = = 5 12 j=0 j=0 2 P 2j = = 1 3 j=0

101 3.4 Problemi risolti 93 2 f Y (0) = P i0 = = 2 2 3, f Y (2) = P i2 = = 1 3 i=0 i=0 E{X} = = 13 12, E{Y } = = 2 3 da cui si ottiene: s xy = P ij x i y j E{X}E{Y } = = == 1 9 i=0 j=0

102 94 VARIABILI ALEATORIE MULTIDIMENSIONALI 3.5. Date due variabili aleatorie X, Y e due costanti non nulle a, b, vale l identità: Cov(aX, by ) = (a + b)cov(x, Y ). Vero o Falso, e perchè? Risposta: è Falso, perchè vale a b Cov(X, Y ) X e Y sono due variabili aleatorie indipendenti aventi distribuzione di Poisson con parametri rispettivamente λ X = 2 e λ Y = 3. Calcolare la probabilità IP[(X 1) (Y 1)] e il momento E{XY }. Soluzione. Le densità di probabilità marginali di X e Y sono: f X (x) = e 2 2 k k! δ(x k) ; f Y (y) = e 3 3 h h! k=0 h=0 dove δ( ) sono funzioni impulsive nei punti x i, y j = 0, 1, 2,... δ(y h) Poiché X e Y sono indipendenti, la loro densità congiunta è il prodotto delle densità marginali, e così per la loro funzione di distribuzione congiunta che vale: F (x, y) = F X (x)f Y (y) = e 5 2 i 3 j U(x x i )U(y y j ) i!j! i=0 j=0 dove U( ) è la funzione a gradino unitario nei punti x i e y j. La probabilità richiesta è uguale a F (1, 1) e perciò vale: IP[(X 1) (Y 1)] = e i=0 j=0 2 i 3 j i!j! ( 2 = e !0! !1! 1!0! 1!1! = ) = 12e I valori medi marginali coincidono con i ripettivi parametri di Poisson λ X, λ Y, e sempre per la loro indipendenza statistica si ricava subito che E{XY } = m X m Y = 2 3 = Due variabili aleatorie X, Y sono distribuite con legge normale, rispettivamente N ( 2, 2) e N (1, 4) e hanno momento congiunto E{XY } = 0.6. Calcolare il loro coefficiente di correlazione. Soluzione. La covarianza della coppia è s xy = E{XY } m X m Y = = 6.2 e quindi il coefficiente di correlazione vale ρ(x, Y ) = s xy σ X σ Y =

103 TRASFORMAZIONI DI VARIABILI ALEATORIE 4.1 Generalità Si presenta di frequente il problema di determinare le proprietà statistiche di una variabile casuale Y (ω) che è il risultato della trasformazione subita da un altra variabile casuale X(ω) con distribuzione nota. Ad esempio, Y (ω) può essere l uscita di un sistema con caratteristica di funzionamento nota ed espressa matematicamente dalla funzione di variabile reale g(x), al quale sia stato applicato un ingresso casuale X(ω) secondo lo schema indicato in Fig La variabile casuale X(ω) associa ad ogni evento ω di un esperimento casuale il numero reale x D x, realizzazione dell ingresso aleatorio. Questo ingresso è trasformato dal sistema secondo la legge deterministica g(x), ed in uscita si presenta nella forma y = g(x). Dunque la funzione g(x), definita in D x, fa corrispondere all evento ω il numero reale y D Y, generica realizzazione della funzione di variabile aleatoria: Y (ω) = g[x(ω)]. (4.1) L aleatorietà di Y (ω) può anche essere dovuta a disturbi aleatori nella trasformazione di un ingresso deterministico X, oppure ad imperfezioni nelle componenti costitutive del sistema stesso. In tal caso, il modello prababilistico della funzione di trasferimento che caratterizza il sistema è del tipo: g(α(ω); x) dove α(ω) è una variabile casuale reale con statistica nota, e l uscita del sistema sarà la funzione Y (ω; x) = g[α(ω); x] della variabile casuale α(ω), che è ora definita da una trasformazione in cui x ha il ruolo di un parametro deterministico. Le due forme di aleatorietà possono anche essere presenti simultaneamente. Si consideri un ingresso aleatorio X(ω) che è trasformato da un sistema con caratteristica di funzionamento g(x, α(ω)). L uscita Y (ω) sarà allora aleatoria per l effetto combinato di X(ω) e di α(ω), ossia una funzione di due variabili casuali: Y (ω) = g[z(ω)], Z(ω) = {X(ω), α(ω)} : Ω IR 2 95

104 96 TRASFORMAZIONI DI VARIABILI ALEATORIE X( ) Y( ) g(x) Y( ) y X( ) g(x) x Figura 4.1 che sono le componenti di un vettore aleatorio bidimensionale con statistica che si suppone conosciuta. Generalizzando la formulazione di queste trasformazioni a sistemi più complessi, si può infine definire un vettore aleatorio m-dimensionale Y(ω) = g[z(ω)], che con legge definita dalla funzione vettoriale g si può esprimere come funzione di un vettore aleatorio n-dimensionale Z(ω) avente densità di probabilità nota. Nel paragrafo che segue studieremo anzitutto la trasformazione (4.1), e mostreremo come si determina la legge probabilistica della funzione di variabile casuale Y (ω), se sono note: la funzione caratteristica g(x) e la densità di probabilità f X (x) dell ingresso aleatorio. 4.2 Funzioni di una variabile casuale Calcolo della funzione di distribuzione Un metodo generale per ottenere la statistica della funzione di variabile casuale definita nella (4.1), per il quale non si richiedono ipotesi restrittive sulla funzione caratteristica g(x), consiste nel determinare la sua funzione di distribuzione F Y (y) mediante una opportuna integrazione della densità in ingresso f X (x), che per ipotesi è nota e definita sul supporto D x. Per la definizione di funzione di distribuzione di una variabile casuale, e tenuto conto della (4.1), si ha: F Y (y) = P (Y y) = P [g(x) y]. Se ora indichiamo con E x (y) = {x D x : g(x) y} l insieme dei valori di x appartenenti a D x e tali da verificare la condizione: g(x) y, si può dire che P [g(x) y] è la probabilità che X(ω) assuma valori in E x (y). Dunque, per la

105 4.2 Funzioni di una variabile casuale 97 definizione di densità di probabilità risulta F Y (y) = P [X E x (y)] = E x(y) f X (x)dx. (4.2) g(x) y a f (x) X f (y) Y -y y x 0 1 g(x) f (y) Y y b f (x) X f (0) Y 0 y x 0 1 Figura Casi a,b La densità di probabilità f Y (y) si ottiene quindi, come ci è noto, per derivazione: f Y (y) = df (y)/dy. Esempio 4.1: dispositivi elettronici a) Un dispositivo raddrizzatore a doppia semionda con funzione di trasferimento: g(x) = x è sottoposto a un ingresso aleatorio X(ω) con distribuzione normale N (1, 1/2). Per valutare la funzione di distribuzione F Y (y) in uscita, osserviamo che { {x IR : x < y} = [ y, y], se y > 0, E x (y) = 0 se y 0. Pertanto la (4.2) fornisce: dove F Y (y) = y y f X (x)dx = F X (y) F X ( y), y > 0 f X (x) = 1 π e (x 1)2, F X (x) = 1/2 + erf [ 2(x 1)] sono la densità e la funzione di distribuzione dell ingresso normale con media 1 e varianza 1/2. Per y 0 si ha invece F Y (y) = 0.

106 98 TRASFORMAZIONI DI VARIABILI ALEATORIE La densità in uscita si ricava per derivazione: f Y (y) = df X(y) dy df X( y) dy = f X (y) + f X ( y) = 1 π [ e (y 1)2 + e (y+1)2] se y > 0, mentre f Y (y) = 0 per y 0. Il dispositivo trasforma i segnali negativi restituendoli, con una eguale misura di probabilità, in valori positivi nel segnale di uscita (v. Fig. 4.2a). b) Il raddrizzatore a semionda con caratteristica: g(x) = x + x 2 = { x se x 0, 0 se x < 0 e ingresso con la medesima legge normale N (1, 1 2 ), sopprime invece i segnali negativi e trasmette inalterati quelli positivi. Infatti il dominio di integrazione nella (4.2) vale: y < 0 : E x (y) = 0 = F Y (y) = 0 y 0 : E x (y) = (, y] = F Y (y) = Dunque F Y (y) ha una discontinuità per y = 0, e si può scrivere F Y (y) = F X (y)u(y) y f X (x)dx = F X (y). dove U(y) è la funzione a gradino unitario in y = 0. Per derivazione rispetto ad y otteniamo quindi la seguente densità: f Y (y) = f X (y)u(y) + F X (0)δ(y) che è illustrata in Fig. 4.2b). L uscita del dispositivo è dunque una variabile casuale mista, perché dotata di una distribuzione continua in [0, + ) che riproduce il segnale di ingresso in tale intervallo, alla quale si aggiunge l impulso F X (0) per y = 0. Si osservi che l entità di tale impulso è uguale alla misura di probabilità da attribuire all insieme dei segnali negativi che sono stati soppressi. c) Il dispositivo con caratteristica g(x) = { 1, x 0 1, x > 0 che ha un ingresso aleatorio con distribuzione normale N (1, 1), lo trasforma in una variabile casuale discreta con valori ±1. Infatti la funzione di distribuzione in uscita F Y (y) si determina come segue: y < 1 : E x (y) = 0 = F Y (y) = 0

107 4.2 Funzioni di una variabile casuale 99 1 y < 1 : E x (y) = (, 0] = F Y (y) = y 1 : E x (y) = IR = F Y (y) = Dunque F Y (y) è la funzione costante a tratti: + 0 f X (x)dx = F X (0) f X (x)dx = 1. F Y (y) = F X (0)U(y + 1) + [1 F X (0)]U(y 1) g(x) 1 0 x c f (y) Y f (x) X g(x) x d f (x) X f (y) Y 1 F (y) Y F (x) X Figura Casi c,d dove F X (0) è la funzione di distribuzione della normale in ingresso, calcolata per x = 0: F X (0) = erf[(0 m x )/σ] = 0.5 erf(1) La distribuzione in uscita ha pertanto due gradini, di altezza rispettivamente 0.16 per y = 1 ed = 0.84 per y = 1. Per derivazione rispetto ad y si ricava subito la densità in uscita: f Y (y) = F X (0)δ(y + 1) + [1 F X (0)]δ(y 1) che è quella di una v.a. discreta (v. Fig. 4.2c) che assume valori ±1 con probabilità p(1) = 0.84 e p( 1) = d) Un ingresso normale standard N (0, 1) è applicato a un limitatore di segnale la cui caratteristica: 1, x < 1 g(x) = x, 1 x 1 +1, x > 1

108 100 TRASFORMAZIONI DI VARIABILI ALEATORIE è mostrata in Fig. 4.2d). Calcoliamo la distribuzione in uscita F Y (y) suddividendo D Y = IR in tre intervalli: y < 1 : E x (y) = 0 = F Y (y) = 0 1 y < 1 : E x (y) = (, y] = F Y (y) = y 1 : E x (y) = IR = F Y (y) = Pertanto F Y (y) è la funzione + y f X (x)dx = F X (y) f X (x)dx = 1. F Y (y) = F X (y)u(y + 1) + [1 F X (y)]u(y 1), dove F X (y) = 0.5+ erf(y) è la distribuzione normale in ingresso, calcolata per x = y. Nell intervallo 1 y < +1 la distribuzione in uscita riproduce quella in ingresso ed ha due discontinuità agli estremi di questo intervallo, con gradini di ampiezza F X ( 1) = erf( 1) = (v. Fig. 4.2d). Per derivazione di F Y (y) che in questo caso deve essere effettuata derivando opportunamente i prodotti di due funzioni di y si ottiene la seguente densità di probabilità: f Y (y) = f X (y)u(y + 1) + F X ( 1)δ(y + 1) f X (y)u(y 1)+ = 1 2π e y2 /2 [U(y + 1) U(y 1)] + +[1 F X (1)]δ(y 1) = [ ] erf( 1) [δ(y + 1) + δ(y 1)]. Questa è una densità mista che ha ancora legge normale standard per y [ 1, 1], è nulla all esterno di tale intervallo, e presenta due impulsi uguali per y = ±1 di intensità p(±1) = , che è uguale alla massa di probabilità contenuta in ciascuna delle due code della distribuzione di ingresso che sono state eliminate nella risposta del sistema (v. Fig. 4.2d) Calcolo diretto della densità Se è nota f X (x) e se g(x) è continua e derivabile in D x, si può ottenere direttamente la densità di probabilità f Y (y) applicando il seguente TEOREMA Se {x (j) (y)}, j = 1,.., N è l insieme numerabile delle radici reali dell equazione g(x) y = 0

109 4.2 Funzioni di una variabile casuale 101 nella variabile x, allora la densità di probabilità della variabile casuale Y (ω) definita dalla (4.1) vale: N f X (x (j) (y)) f Y (y) = g (x (j) (4.3) (y)) j=1 dove con g (x (j) (y)) si indica la derivata di g, calcolata per x = x (j) (y). Qualora esistano valori y per cui l equazione: g(x) y = 0 non ammette soluzioni reali, si ha f Y (y) = 0. y dy g(x) dx 1 dx 2 E (y) x ( 1) x x ( 2) x Figura 4.3 Dimostrazione. Con riferimento alla Fig. 4.3, la probabilità elementare dp che Y (ω) assuma valori compresi tra y e y + dy vale f Y (y)dy = P (y < Y y + dy) = P [y < g(x) y + dy] = = P [x (1) dx 1 < X x (1) ]+ +P [x (2) < X x (2) + dx 2 ] = f X (x (1) ) dx 1 + f X (x (2) )dx 2 dove x (1,2) sono le due radici reali che si ricavano dall equazione g(x) y = 0, e inoltre: dx j = dy g (x (j) ), j = 1, 2 sono gli incrementi elementari subiti dalla variabile reale x a seguito di un incremento positivo dy della variabile dipendente. Pertanto: { fx (x (1) ) f Y (y)dy = g (x (1) ) + f X(x (2) } ) g (x (2) dy ) che, dividendo per dy, dimostra la (4.3) con N = 2. Esempio 4.2: Caratteristica con legge quadratica

110 102 TRASFORMAZIONI DI VARIABILI ALEATORIE Un dispositivo trasforma un ingresso casuale che ha distribuzione uniforme in D x = [ 1, 1], con la legge quadratica: g(x) = x 2. Scelto un generico y IR, i valori di x D x che soddisfano la condizione: x 2 y appartengono al dominio E x (y) = [ y, y] se 0 y 1, e per la formula (4.2) si ricava F Y (y) = y y f X (x)dx = F X ( y) F X ( y). Se la distribuzione in ingresso è uniforme in 1 x 1, si ha in tale intervallo: f X (x) = 1/2; F X (x) = (x + 1)/2 e quindi: y + 1 F Y (y) = y + 1 = y, 0 y 1. (4.4) 2 2 g( x) f ( ) Y y y f ( x) X E x( y) y 0 y x Figura Trasformazione con legge quadratica La densità f Y (y) si può calcolare per derivazione, oppure applicando direttamente la (4.3) come segue. Assegnato y IR, le radici dell equazione g(x) y = x 2 y = 0 sono: x (1) (y) = y; x (2) (y) = y e sono reali solo se y 0. Poichè D x = [ 1, 1], si hanno due soluzioni distinte per 0 y 1. Dunque il dominio D y è l intervallo [0, 1] e in esso, tenuto conto che g (x (1) ) = 2x (1) = 2 y; g (x (2) ) = 2x (2) = 2 y, la densità incognita vale: f Y (y) = 1 2 y [f X( y) + f X ( y)] = 1 ( 1 2 y ) 2 che coincide con la derivata della (4.4). = 1 2 y

111 4.2 Funzioni di una variabile casuale Trasformazioni invertibili La (4.3) si modifica in una formula assai notevole quando la caratteristica del sistema è una funzione g(x) che, oltre ad essere continua e derivabile, è anche invertibile in D x. In tale ipotesi, l equazione g(x) y = 0 ha al più una sola radice reale x (1) = g 1 (y) coincidente con la funzione inversa di g(x). Per il teorema di derivazione delle funzioni inverse, vale l identità 1 g (x (1) (y)) = dg 1 (y) dy che, sostituita nella (4.3) con N = 1, porta alla formula seguente: f Y (y) = f X [x = g 1 dg 1 (y) (y)] dy. (4.5) che prende il nome di Teorema del cambio di variabile. Anche la determinazione diretta della funzione di distribuzione F Y (y) si risolve, nel caso di trasformazioni invertibili, applicando formule notevoli. Per la loro deduzione è però necessario distinguere i due casi seguenti. g(x) invertibile e crescente in D x : il dominio E x (y) è l intervallo aperto a sinistra: per cui si ricava E x (y) = {x D x : g(x) y} = (, g 1 (y)] F Y (y) = g 1 (y) f X (x)dx = F X [g 1 (y)]. (4.6) g(x) invertibile e decrescente in D x : il dominio E x (y) è l aperto a destra e di conseguenza: E x (y) = {x D x : g(x) y} = [g 1 (y), + ) F Y (y) = g 1 (y) Esempio 4.3: Generazione di numeri casuali f X (x)dx = 1 F X [g 1 (y)]. (4.6 ) Applicando la teoria delle trasformazioni invertibili, è possibile determinare la caratteristica che deve avere un dispositivo da utilizzare per trasformare un ingresso casuale in una uscita avente prescritte proprietà statistiche. Si assuma che l ingresso sia dotato di densità continua in D X IR. La sua funzione di distribuzione F X (x) è allora una funzione continua, monotona crescente in IR. Se la funzione caratteristica

112 104 TRASFORMAZIONI DI VARIABILI ALEATORIE g(x) del dispositivo in cui è immesso il segnale coincide con F X (x), in uscita si ricava per la (4.6): F Y (y) = g 1 (y) f X (x)dx = F X [g 1 (y)] = F X [F 1 (y)] = y con y [0, 1]. Inoltre, si constata subito che per y < 0 è F Y (y) = 0, e per y > 1 si ha F Y (y) = 1. Dunque, la funzione di distribuzione in uscita è quella di una variabile casuale con distribuzione uniforme in D Y = [0, 1], per cui il dispositivo genera numeri casuali equiprobabili in tale intervallo. Inversamente, proponiamoci di generare una uscita casuale continua Y (ω) con una assegnata funzione di distribuzione F Y (y) anch essa, ovviamente, monotona crescente e quindi invertibile in D Y IR. Allo scopo, è sufficiente trasformare un ingresso uniformemente distribuito in D X = [0, 1] con un dispositivo avente caratteristica g(x) = FY 1 (x) uguale alla inversa della funzione caratteristica richiesta in uscita. Infatti per tale trasformazione si ha: E x (y) = {x [0, 1] : g 1 (x) < y} = [0, F Y (y)]. Quindi, tenuto conto che f X (x) = 1 in [0, 1], la funzione di distribuzione in uscita, che si calcola ancora con la (4.6), vale: FY (y) 0 1 dx = F Y (y) f g( x ) X ( x) 1 1 y F ( x ) X f ( y) Y x E ( y) X 0 F -1( y) X x 0 1 y f ( ) X x x g( x ) y -1 F ( x ) Y E ( y) X 0 1 y F ( ) Y x f ( y) Y y

113 4.2 Funzioni di una variabile casuale 105 Figura Generazione di numeri casuali che è la distribuzione desiderata. Ad esempio, per generare numeri casuali distribuiti con continuità nell intervallo D Y = [0, 2] con densità f Y (y) = y/2, si calcola anzitutto la corrispondente funzione di distribuzione F Y (y) = y 2 /4, e si determina la caratteristica g(x) = FY 1 (x) = 2 x. Il dispositivo che trasforma un segnale uniformemente distribuito in [0,1] secondo la legge g(x) = 2 x ha in uscita segnali casuali con la distribuzione probabilistica richiesta. Infatti g 1 (y) = y2 4 ; F Y (y) = g 1 (y) Momenti di Y (ω) = g[x(ω)] 0 dx = y2 4 ; f Y (y) = df Y (y) = y dy 2. Una volta determinata la densità della funzione di variabile aleatoria, i suoi momenti di ordine q = 1, 2,... si possono calcolare mediante la loro definizione: E{Y q } = y q f Y (y)dy. (4.7) D Y Tuttavia, qualora non interessi calcolare esplicitamente la densità f Y (y) ma solo alcuni suoi momenti, è possibile determinarli direttamente utilizzando la conoscenza della densità del segnale di ingresso. A tal fine si utilizza la formula seguente: E{Y q } = g q (x)f X (x)dx (4.8) D x che definisce il momento di ordine q di una generica funzione g della variabile casuale dotata di densità f X (x). Si può facilmente dimostrare la (4.8) nell ipotesi che g(x) sia invertibile. Infatti, utilizzando infatti la (4.5) e integrando per sostituzione si ha: E{Y q }) = y q f Y (y)dy = y q f X (x = g 1 dg 1 (y) (y)) D y D y dy dy = = g q (x)f X (x) D x dg 1 dy dy dx D dx = g q (x)f X (x)dx. x In particolare, il valor medio m Y si può calcolare come segue: m Y = E{Y } = g(x)f X (x)dx (4.9) D X e la varianza con la nota formula: σ 2 Y = E{Y 2 } m 2 Y

114 106 TRASFORMAZIONI DI VARIABILI ALEATORIE dove il momento di ordine q = 2 è dato da E{Y 2 } = g 2 (x)f X (x)dx. D x Trasformazioni lineari Un sistema lineare opera la trasformazione dell ingresso X(ω) con legge: g(x) = ax + b dove a, b IR sono costanti ed a 0. Si tratta dunque di una particolare trasformazione invertibile in D X (, + ), in cui g 1 (y) = y b a ; dg 1 (y) = 1 dy a = cost. Per la (4.5) la densità di probabilità in uscita vale: ( f Y (y) = f X x = y b a ) 1 a (4.10) e, a meno di un fattore costante, ha la medesima legge probabilistica dell ingresso X(ω). Questo risultato mostra una rilevante proprietà dei sistemi lineari: essi non alterano la legge probabilistica del segnale di ingresso: Se ad esempio X(ω) è un segnale gaussiano, essi restituiscono in uscita un segnale che è ancora gaussiano, sebbene con momenti diversi. Il valor medio del segnale di uscita da un sistema lineare vale, per la (4.9): m Y = (ax + b)f X (x)dx = a m X + b D x ed è perciò calcolabile immediatamente, come funzione lineare del valor medio m X della variabile aleatoria di ingresso. Il momento del secondo ordine risulta: E{Y 2 } = (a 2 x 2 + 2abx + b 2 )f X (x)dx = a 2 E{X 2 } + 2abm X + b 2, D X per cui la varianza di Y (ω) vale: σ 2 Y = E{Y 2 } m 2 Y = a 2 [E{X 2 } m 2 X] = a 2 σ 2 X. (4.11) Essa è uguale alla varianza del segnale di ingresso nel sistema lineare, moltiplicata per a 2. Esempio 4.4: Distribuzione parabolica in [a, b]. Si è visto nel che la distribuzione parabolica sul supporto {x [0, 1]} è una particolare distribuzione Beta con densità f X (x) = 6x(1 x). Per determinare una

115 4.2 Funzioni di una variabile casuale 107 densità di probabilità parabolica F Y (y) su un supporto limitato generico [a, b], è sufficiente operare la trasformazione lineare: la cui inversa vale y = g(x) = a + (b a)x, y [a, b] x = g 1 (y) = y a b a, dg 1 (y) dy = 1 b a. Applichiamo quindi la (4.10) per ottenere: f Y (y) = f[x = g 1 1 (y)] b a = 6 (y a)(b y), y [a, b] (b a) 3 0 altrove. f d (d) v 0 D d d 0 Figura Moto aleatorio di un grave d 3 2 A A Esempio 4.5: traiettoria di un grave Si consideri la traiettoria parabolica di un grave, lanciato (in assenza di resistenza dell aria) con una velocità iniziale v nella direzione individuata dall angolo ϑ indicato in Fig Se ϑ(ω) è una variabile aleatoria uniformemente distribuita in D ϑ = [π/6, π/3], la distanza d del punto di caduta è la funzione di variabile aleatoria d(ω) = g[ϑ(ω)] = A sin 2ϑ(ω) con A = v 2 /g, dove g è l accelerazione di gravità. Poiché g(ϑ) non è invertibile in D ϑ, cerchiamo le radici dell equazione: A sin 2ϑ d = 0 appartenenti a D ϑ. Esse sono: ϑ (1) (d) = 1 2 arcsin d A ; ϑ(2) (d) = π arcsin d A

116 108 TRASFORMAZIONI DI VARIABILI ALEATORIE e sono reali, non coincidenti, se 3A/2 d < A. In tale intervallo si ha e quindi, per la (4.3): g (ϑ (1) ) = 2A cos 2ϑ (1) = 2 A 2 d 2 ; g (ϑ (2) ) = g (ϑ (1) ) f d (d) = Poiché f ϑ (ϑ) = 6/π = cost, si ottiene 1 2 A 2 d 2 [f ϑ(ϑ (1) (d)) + f ϑ (ϑ (2) (d))]. f d (d) = 6 π A 2 d 2, per mentre f d (d) = 0 al di fuori di tale intervallo. agevolmente applicando la (4.9): 3 A d < A Il valor medio di d(ω) si calcola m d = e per la sua varianza si ottiene: σ 2 d = E{d 2 } m 2 d = 6A2 π π/3 π/6 π/3 π/6 A sin 2ϑ 6 π dϑ = 3A π sin 2 2ϑdϑ m 2 d = = 3A2 2π ( π 3 + ) 3 2 ( 1 m 2 d = A π 9 ) π Funzioni di due o più variabili casuali Supponiamo ora che Y (ω) sia il risultato della trasformazione g(x 1, x 2,..., x n ) subita da n variabili casuali X 1 (ω), X 2 (ω),..., X n (ω) di cui si conosce la densità di probabilità congiunta f(x 1, x 2,..., x n ), definita in D X IR n. La funzione di distribuzione di Y (ω) = g[x 1 (ω), X 2 (ω),..., X n (ω)] si calcola con una facile estensione della formula (4.2). Precisamente, definito il dominio E X (y) = {(x 1, x 2,..., x n ) D X : g(x 1, x 2,..., x n ) y}, si ha ora: F Y (y) = P (Y y) = P [g(x 1,.., X n ) y] = E X (y) f(x 1,.., x n )dx 1 dx n. (4.12) La densità di probabilità di Y (ω) si ottiene poi come derivata della funzione di distribuzione calcolata con la (4.12), e in casi particolari si può anche determinare

117 4.3 Funzioni di due o più variabili casuali 109 direttamente dalle densità marginali di X 1 (ω),..., X n (ω), come mostra l Esempio che segue. Anche per i momenti di Y (ω) vale una formula analoga alla (4.8). Infatti, se sono note g(x 1,..., x n ) e la densità congiunta f(x 1,..., x n ), essi si possono determinare calcolando l integrale E{Y q } = g q (x 1,..., x n )f(x 1,..., x n )dx 1 dx n. (4.13) D X

118 110 TRASFORMAZIONI DI VARIABILI ALEATORIE Esempio 4.6: somma di due variabili casuali Consideriamo la funzione somma: Y (ω) = X 1 (ω) + X 2 (ω) di due variabili aleatorie con densità mista nota e definita in D 12 = IR 2. Il dominio di integrazione nella (4.12) è il semipiano: E 12 (y) = {(x 1, x 2 ) IR 2 : < x 1 y x 2 ; < x 2 < + } x2 y y = x 1+ x2 E (y) 12 0 y x1 Figura 4.7 indicato in Fig Si ricava allora: e derivando rispetto ad y: F Y (y) = f Y (y) = + y x2 dx 2 f(x 1, x 2 )dx 1 (4.14) + f(y x 2, x 2 )dx 2. (4.15) Un caso notevole si ha nell ipotesi che X 1 (ω) e X 2 (ω) siano statisticamente indipendenti, con densità che indichiamo con f 1 (x 1 ) e f 2 (x 2 ) in IR. Poichè la loro densità congiunta è uguale al prodotto di queste due densità marginali, le (4.13) e (4.14) diventano: + y x2 F Y (y) = f 2 (x 2 )dx 2 f 1 (x 1 )dx 1 (4.13 ) f Y (y) = + f 1 (y x 2 )f 2 (x 2 )dx 2 = f 1 (y) f 2 (y) (4.14 ) dove l asterisco indica il prodotto di convoluzione delle densità f 1 (x 1 ), f 2 (x 2 ) e si può anche scrivere nella forma equivalente: f 1 (y) f 2 (y) = + f 1 (x 1 )f 2 (y x 1 )dx 1.

119 4.3 Funzioni di due o più variabili casuali 111 La (4.14 ) esprime il seguente TEOREMA DI CONVOLUZIONE Se due variabili casuali sono statisticamente indipendenti, la densità della loro somma è uguale alla convoluzione delle rispettive densità. Se in particolare le due densità marginali hanno come supporto IR +, vale a dire: f 1 (x 1 ) = f 2 (x 2 ) = 0 per x 1, x 2 < 0, allora f 1 (y x 2 ) = 0 per x 2 > y, per cui la (4.14 ) si può riscrivere nella forma: f Y (y) = 0 f 1 (y x 2 )f 2 (x 2 )dx 2 = y 0 f 1 (y x 2 )f 2 (x 2 )dx 2. (4.16) x 2 1 y = x 1 + x 2 C 2 C x1 Figura 4.8 Supponiamo ad esempio che le variabili casuali X 1 (ω), X 2 (ω) siano indipendenti e uniformemente distribuite nell intervallo fondamentale [0, 1]. Le loro densità valgono: f 1 (x 1 ) = f 2 (x 2 ) = 1 in tale intervallo, e sono nulle altrove. Per determinare la funzione di distribuzione della loro somma, basta osservare che per la (4.14) essa è uguale all area del dominio di integrazione E 12 (y) da definirsi come segue (v. Fig. 4.8): 0, per y < 0 C 1, per 0 y < 1 E 12 (y) = C 2, per 1 y < 2 [0, 1] [0, 1], per y 2. Pertanto, indicando con m(c i ) la misura degli insiemi C i, si ricava: 0, per y < 0 m(c F Y (y) = 1 ) = y 2 /2, per 0 y < 1 m(c 2 ) = 2y 1 y 2 /2, per 1 y < 2 1, per y 2

120 112 TRASFORMAZIONI DI VARIABILI ALEATORIE e per derivazione nei vari intervalli di D Y = [0, 2]: { y, per 0 y < 1 f Y (y) = 2 y, per 1 y < 2. Dunque la v.a. Y (ω) = X 1 (ω) + X 2 (ω) somma di distribuzioni uniformi indipendenti, ha la distribuzione triangolare di Fig Essa si poteva anche calcolare direttamente usando il Teorema di convoluzione. Dalla (4.16), tenuto conto che f 1 ed f 2 sono nulle al di fuori dell intervallo [0,1], si ricava infatti: 0 y < 1 : f Y (y) = 1 y < 2 : f Y (y) = = y y y 1 f 1 (y x 2 ) 1 dx 2 = f 1 (y x 2 ) 1 dx 2 + f 1 (x 1 )dx 1 = 1 y 1 y 0 y 1 f 1 (x 1 )dx 1 = y f 1 (y x 2 )f 2 (x 2 )dx 2 = dx 1 = 2 y. F (y) Y 1 f (y) Y y Figura Distribuzione triangolare Il valor medio di Y (ω) vale ovviamente m Y = 1, come si verifica subito dal calcolo dell integrale: m Y = (x 1 + x 2 )f(x 1 )f(x 2 )dx 1 dx 2 = E{X 1 } + E{X 2 } = 1. D 12 Il momento del secondo ordine di Y (ω) vale: E{Y 2 } = (x 1 + x 2 ) 2 f(x 1 )f(x 2 )dx 1 dx 2 = E{X1} 2 + E{X2} 2 + 2E{X 1 X 2 } D 12 dove E{X 2 1 } = E{X2 2 } = 1/3 ed inoltre: E{X 1X 2 } = E{X 1 }E{X 2 } = 1/4, perché l indipendenza statistica implica una covarianza nulla. Pertanto si ricava: E{Y 2 } = = 7 6, σ2 Y = E{Y 2 } m 2 Y = = 1 6

121 4.3 Funzioni di due o più variabili casuali 113 e la varianza di Y (ω) è uguale alla somma delle varianze di X 1 (ω) e X 2 (ω), in accordo con la (3.8) usata per variabili casuali indipendenti. Somma o differenza di distribuzioni normali indipendenti Usando il Teorema di convoluzione si può anche dimostrare un risultato notevole assai utile, per esempio, nei problemi di induzione statistica: la somma (o differenza) di due v.a. normali e indipendenti è ancora una v.a. normale, con media uguale alla somma (o differenza) delle medie e varianza uguale alla somma delle varianze. Infatti, se X 1, X 2 sono indipendenti ed hanno legge normale, rispettivamente con medie e varianze m 1, m 2 e σ 2 1, σ2 2 la loro somma (o differenza) Y = X 1 ± X 2 ha una densità data dalla (4.14 ): + f Y (y) = f 1 (y x 2 )f 2 (±x 2 )dx 2 = [ 1 + = exp (y x 2 m 1 ) 2 ] [ 2πσ 1 σ 2 2σ1 2 exp (±x 2 m 2 ) 2 ] 2σ2 2 dx 2 = = exp [ (y m 1) 2 2σ1 2 2πσ 1 σ 2 m2 2 2σ 2 2 ] + L ultimo integrale si può calcolare usando la formula: [ ( σ 2 exp x 1 + σ σ1 2 x 2 y m 1 σ2 2 σ1 2 m )] 2 σ2 2 dx 2. + e x 2(px 2 π +q) /4p dx 2 = p e q2 con p = σ2 1 + σ2 2 2σ1 2, q = y m 1 σ2 2 σ1 2 m 2 σ2 2, e dopo alcuni ulteriori calcoli si perviene al risultato f Y (y) = [ 1 exp 2π(σ (y m 1 m 2 ) 2 ] σ2 2 ) 2(σ1 2 + σ2 2 ) che è appunto una funzione di densità normale, con media m Y = m 1 ±m 2 e varianza σ 2 Y = σ2 1 + σ2 2. Esempio 4.7: modulo di un vettore aleatorio Cosideriamo un vettore V = X 1 i + X 2 j le cui componenti X 1 (ω), X 2 (ω) secondo una coppia di assi cartesiani ortogonali sono variabili casuali statisticamente indipendenti, ciascuna con distribuzione normale N (0, σ 2 ). Il suo modulo V = g(x 1, X 2 ) = X X2 2

122 114 TRASFORMAZIONI DI VARIABILI ALEATORIE è una variabile aleatoria la cui funzione di distribuzione si può determinare applicando la (4.12) con f(x 1, x 2 ) = f 1 (x 1 )f 2 (x 2 ) = 1 ( 2πσ 2 exp x2 1 + ) x2 2 2σ 2. Passando a coordinate polari nel piano (x 1 = ρ cos ϑ, x 2 = ρ sin ϑ) il dominio di integrazione nella (4.12) si scrive: E 12 (v) = {(ρ, ϑ) D ρϑ : 0 ρ v; 0 ϑ 2π} per cui la funzione di distribuzione di V vale: F V (v) = 2π 0 v 1 /2σ dϑ 2 0 2πσ 2 e ρ2 ρdρ = 1 v σ 2 ρe ρ2 /2σ 2 dρ (4.17) 0 se ρ 0, ed è nulla per v < 0. Derivando rispetto a v sotto il segno di integrale, si ricava la seguente densità di probabilità di V (ω): f V (v) = df (v) dv = v σ 2 e v2 /2σ 2, v 0 che è una distribuzione di Rayleigh (cfr ) con parametro σ uguale alla deviazione standard delle densità normali delle due componenti. Il metodo di calcolo appena applicato si può agevolmente estendere allo studio del modulo di un vettore aleatorio in IR 3 : V (ω) = X1 2(ω) + X2 2 (ω) + X2 2 (ω) le cui componenti sono variabili casuali indipendenti, ancora distribuite con legge normale N (0, σ 2 ) e densità congiunta ( 1 f(x 1, x 2, x 3 ) = f 1 (x 1 )f 2 (x 2 )f 3 (x 3 ) = σ 3 exp x2 1 + x2 2 + ) x2 3 (2π) 3/2 2σ 2. Se passiamo a un sistema di coordinate sferiche (ρ 0, ϑ [0, π], ϕ [0, 2π]) la funzione di distribuzione di V (ω) è definita dall integrale triplo: F V (v) = f(x 1 = ρ cos ϑ cos ϕ, x 2 = ρ cos ϑ sin ϕ, x 3 = ρ sin ϑ) ρ 2 sin ϑdρdϑdϕ E X (v) da calcolarsi sul dominio: E X (v) = {(ρ, ϑ, ϕ) D ρϑϕ : 0 ρ v; 0 ϑ π; 0 ϕ 2π}. Si ricava allora, per v 0:

123 4.3 Funzioni di due o più variabili casuali 115 F V (v) = 2π 0 π v dϕ dϑ σ 3 (2π) 3/2 e ρ2 /2σ 2 ρ 2 senϑdρ = 2 v σ 3 ρ 2 e ρ2 /2σ 2 dρ π 0 la cui derivata prima fornisce la seguente densità di probabilità di V (ω): ( ) df (v) 2v 2 f V (v) = = dv σ 3 π exp v2 2σ 2, v 0. Si ricava cosí la distribuzione di Maxwell già presentata nel del Capitolo II. Esempio 4.8: Probabilità di un guasto Nella teoria della previsione dei guasti, il tempo che intercorre tra l istante in cui un sistema inizia il suo funzionamento e quello in cui cessa di funzionare è una variabile aleatoria con la distribuzione esponenziale definita nel Consideriamo ora un sistema S costituito da due componenti S 1, S 2 e indichiamo con X 1 (ω), X 2 (ω) gli istanti in cui ciascuno di questi cessa il suo funzionamento. Assumendo come modello di probabilità dei guasti due leggi esponenziali: f 1 (x 1 ) = c 1 e c 1x 1, f 2 (x 2 ) = c 2 e c 2x 2, x 1, x 2 0 (4.18) x 2 t A B 0 t x 1 Figura 4.10 e supponendo che X 1 (ω), X 2 (ω) siano statisticamente indipendenti, determiniamo la legge probabilistica della variabile casuale T (ω) che rappresenta l istante in cui cessa di funzionare il sistema complessivo S. Allo scopo, facciamo una delle seguenti ipotesi: 1. S si guasta se si guasta almeno uno dei suoi componenti (che in tal caso sono collegati in serie); 2. S si guasta solo se si guastano entrambi i componenti (collegamento in parallelo);

124 116 TRASFORMAZIONI DI VARIABILI ALEATORIE 3. Il componente S 1 funziona dall istante t = 0, e quando si guasta entra in funzione S 2 (collegamento ausiliario: S si guasta solo quando si guasta S 2 ). 1. Nel caso di componenti collegati in serie, T (ω) è la funzione: T (ω) = g(x 1, X 2 ) = min[x 1 (ω), X 2 (ω)] e il calcolo di F T (t) è da effettuare con la (4.12), integrando sul dominio E X (t) = {(x 1, x 2 ) : min(x 1, x 2 ) t} = A(t) B(t) mostrato in Fig. 4.10, dove A, B sono gli insiemi: A(t) B(t) = {(x 1, x 2 ) : (0 x 1 t) (0 x 2 t)} = {(x 1, x 2 ) : (0 x 1 t) (0 x 2 t)}. Ne segue la funzione di distribuzione F T (t) = t 0 t t t f 1 (x 1 )dx 1 + f 2 (x 2 )dx 2 f 1 (x 1 )dx f 2 (x 2 )dx 2 = = F 1 (t) + F 2 (t) F 1 (t)f 2 (t) e la densità di probabilità f T (t) = df (t) dt = [1 F 2 (t)]f 1 (t) + [1 F 1 (t)]f 2 (t). Sostituendo le espressioni (4.18) e le relative funzioni di distribuzione note, si ricava: f T (t) = (c 1 + c 2 )e (c 1+c 2 )t, t 0. Dunque, nel sistema con componenti in serie il tempo di attesa del guasto ha ancora legge esponenziale. Il suo valor medio (e quindi la vita media del sistema complessivo) è m T = 1/(c 1 + c 2 ), minore della vita media dei singoli componenti, e la varianza vale σ 2 T = 1/(c 1 + c 2 ) Esaminiamo ora la statistica del sistema con componenti che funzionano in parallelo. Per esso l istante del guasto è la variabile casuale T (ω) = g(x 1, X 2 ) = max[x 1 (ω), X 2 (ω)] e il dominio di integrazione nella (4.12) diventa Si ricava perciò E X (t) = {(x 1, x 2 ) : (0 x t) (0 x t)} B(t). F T (t) = t 0 t f 1 (x 1 )dx f 2 (x 2 )dx 2 = F 1 (t)f 2 (t) 0

125 4.3 Funzioni di due o più variabili casuali 117 e la densità di probabilità la quale, usando le (4.18), si riscrive: f T (t) = F 2 (t)f 1 (t) + F 1 (t)f 2 (t) f T (t) = c 1 e c 1t + c 2 e c 2t (c 1 + c 2 )e (c 1+c 2 )t. Il valor medio e la varianza di questa distribuzione valgono: m T = σ 2 T = 0 0 f T (t)tdt = c 1 c 2 c 1 + c 2 t 2 f T (t)dt m 2 T = 1 c c (c 1 + c 2 ) 2 per cui il sistema in esame ha vita media maggiore di quella del sistema con componenti in serie; tuttavia cresce anche la dispersione di f T (t) rispetto al suo valor medio. f (t) T 3 2 in serie 1 in parallelo ausiliario 0 2 t 4 Figura Probabilità di un guasto 3. Consideriamo infine il sistema con collegamento ausiliario. Poichè S 2 entra in funzione solo quando ha smesso di funzionare S 1, l istante del guasto del sistema è la somma T (ω) = g(x 1, X 2 ) = X 1 (ω) + X 2 (ω) delle variabili casuali che rappresentano gli istanti del guasto di S 1 ed S 2. Quindi (si veda l Esempio 4.6) la densità di T (ω) è il prodotto di convoluzione delle densità esponenziali di X 1 (ω) ed X 2 (w). Essa si può determinare direttamente applicando la (4.16): t f T (t) = c 1 c 2 e c 1(t x 2) e c 2x 2 dx 2 = 0 t t = c 1 c 2 e c 1t e x 2(c 2 c 1 ) dx 2 = c 1 c 2 e c 1t e x 2(c 2 c 1 ) dx 2 0 0

126 118 TRASFORMAZIONI DI VARIABILI ALEATORIE da cui risulta: c 1 c 2 : f T (t) = c ( 1c 2 e c1t e c 2t c 2 c 1 c 1 = c 2 = c : f T (t) = c 2 te ct. La vita media del sistema e la varianza di T (ω) sono quelle proprie di una somma di variabili casuali indipendenti, e risultano quindi uguali alla somma delle medie e delle varianze di X 1 (ω), X 2 (ω): m T = 1 c c 2 ; σ 2 T = 1 c c 2. 2 La Fig mostra le densità che si ricavano assumendo c 1 = 1, c 2 = 2 nei tre casi ora considerati. 4.4 Transformazioni n-dimensionali Il metodo di calcolo della funzione di distribuzione di Y (ω) = g(x 1, X 2,..., X n (ω), esplicitato dalla formula (4.12), non è più applicabile se g : IR n IR m con m > 1, ovvero se è una applicazione da D X IR n a D Y IR m che definisce le m trasformazioni: Y j (ω) = g j [X(ω)] j = 1,...., m > 1 (4.19) dal vettore aleatorio n-dimensionale X(ω) nel vettore aleatorio m-dimensionale Y(ω) = {Y j (ω)}. Se m = n, si può però estendere al caso multidimensionale il metodo di calcolo diretto della densità f Y (y), già introdotto nel 4.2.2, servendosi del seguente TEOREMA I Sia g(x) = {g i (x 1,.., x n )} : IR n IR n continua e derivabile in D X, e Y(ω) = g[x(ω)] : Ω IR n. Se {x (k) (y)}, k = 1,.., N è l insieme numerabile di N radici reali del sistema: g(x) y = 0 nelle n incognite x i, allora la densità di probabilità del vettore n-dimensionale Y(ω) è data da: f Y (y) = N k=1 f X (x (k) (y)) J(x (k) (y)) (4.20) dove f X (x) è la densità nota del vettore X(ω), e J(x) è il determinante jacobiano della trasformazione (4.19) con m = n, entrambi da calcolare per x = x (k) (y). Se esistono valori y per cui il sistema g(x) y = 0 non ammette soluzioni reali, allora f Y (y) = 0.

127 4.4 Transformazioni n-dimensionali 119 Trasformazione invertibile. Un caso particolare si ha quando g(x), oltre al essere continua e dotata di derivate parziali continue, è anche invertibile in D X. In tal caso g : D X D Y è un diffeomorfismo, ed è possibile applicare il seguente Teorema, che generalizza al caso n-dimensionale la formula (4.5). TEOREMA II Siano D X, D Y due aperti di IR n, e g : D X D Y un diffeomorfismo. densità di probabilità di Y(ω) = g[x(ω)] è data da: Allora la f Y (y) = f X [x = g 1 (y)] J 1 (y) (4.21) dove g 1 (y) è la inversa di g(x), e J 1 (y) è lo Jacobiano della trasformazione inversa Y X: ( ) ( ) g J 1 1 xi (y) = det = det ; i, j = 1, 2,..., n. y y j Infatti, se g è invertibile il sistema: g(x) y = 0 ha al più una sola radice reale x (1) = g 1 (y) e dal Teorema I, tenuto conto che J 1 (y) = 1/J(x (1) ) dove J(x) è lo Jacobiano della trasformazione diretta X Y, si ricava la (4.21). Trasformazione lineare. Se infine g(x) è lineare: g i (x 1,..., x n ) = a i1 x a in x n + b i, i = 1,.., n allora, detta A = [a ij ] la matrice n n dei coefficienti della trasformazione Y(ω) = AX(ω) + b, si ha: J(x) = det(a); J 1 (y) = det(a 1 ) e la densità di Y(ω) vale, per i Teoremi precedenti: f Y (y) = f X[x = A 1 (y b)] det(a) = f X [x = A 1 (y b)] det(a 1 ), (4.22) che generalizza la (4.10) al caso n-dimensionale.

128 120 TRASFORMAZIONI DI VARIABILI ALEATORIE Momenti del vettore Y = g(x) Per quanto riguarda i momenti di Y(ω), indichiamo con E{Y q } il vettore colonna le cui n componenti sono i valori attesi di ciascuna componente Y i (ω) del vettore aleatorio Y(ω) = g[x(ω)]. Se è nota la densità di probabilità di X(ω), il vettore E{Y q } si può calcolare nel modo seguente: E{Y q } = g q (x) f X (x)dx, D X che estende al caso n-dimensionale la formula (4.8). Esempio 4.9 x D X IR n X 1 (ω) e X 2 (ω) sono due variabili casuali note e indipendenti, con densità f 1 (x 1 ) = 4x 3 1, 0 x 1 1; f 2 (x 2 ) = 2 3 x 2, 1 x 2 2 e nulle al di fuori degli intervalli sopra definiti. Queste sono le densità marginali del vettore aleatorio X(ω) : Ω D X IR 2 che ha densità di probabilità f X (x) = f 1 (x 1 )f 2 (x 2 ) = 8 3 x3 1x 2 sul dominio D X = {(x 1, x 2 ) : 0 x 1 1; 0 x 2 2}. Un dispositivo con caratteristica g(x) = {g 1 (x), g 2 (x)}, g 1 (x) = a(x 1 + x 2 ); g 2 (x 1 ) = bx 1 con a, b > 0, trasforma X(ω) in un vettore aleatorio Y(ω) : Ω IR 2 di componenti Y 1 (ω) = g 1 [(X(ω)] e Y 2 (ω) = g 2 [X(ω)], avente valori nel dominio D Y = {(y 1, y 2 ) : a(1 y 2 /b) y 1 a(2 y 2 /b); b y 2 0}. che è mostrato in Fig Si vuole determinare la densità congiunta e le densità marginali di Y(ω). Poiché è generato da una trasformazione lineare, Y(ω) si può scrivere: [ ] a a Y(ω) = AX(ω), con A = b 0 e la sua densità si ricava dalla (4.22). Con semplici calcoli si ottiene: det(a) = ab; A 1 = [ 0 ] 1/b 1/a 1/b

129 4.4 Transformazioni n-dimensionali 121 x g : D X y 2 0 D Y a 2a 3a C 1 y 1 - b C x 1 Figura 4.12 e la trasformazione inversa x = A 1 y è definita da x 1 = y 2 /b x 2 +y 1 /a + y 2 /b. Pertanto, per ogni (y 1, y 2 ) D Y la densità mista vale f Y (y) = 8 3 f 1(x 1 = y 2 /b)f 2 (x 2 = y 1 /a + y 2 /b) 1 ab = 8 3ab 4 y3 2 ( y1 a + y ) 2. b Le densità marginali di ciascuna componente si possono determinare integrando f Y (y) rispetto all altra variabile (si ricordi la (3.5)). Cosí, per ottenere la densità marginale f(y 1 ) di Y 1 (ω) si deve integrare per verticali sui due sottoinsiemi C 1, C 2 di Fig. 4.12, tali che C 1 C 2 = D Y, e si ricava: 0 a y 1 2a : f(y 1 ) = f Y (y)dy 2 = 8 0 ( b(1 y 1 /a) 3ab 4 y 3 y1 2 b(1 y 1 /a) a + y ) 2 dy 2 b ( ) 4 ( ) ] 5 [5y 1 + 4a = 2 15a 2 1 y 1 1 y 1 ; a a b(2 y1 /a) 2a y 1 3a : f(y 1 ) = f Y (y)dy 2 = b = 2 [ ( {5y 15a y ) ] [ 4 ( 1 4a 1 + a 2 y 1 a ) 5 ]} Per determinare la densità marginale di Y 2 (ω) si integra invece rispetto a y 1 per orizzontali e si ricava: f(y 2 ) = a(2 y2 /b) a(1 y 2 /b) f Y (y)dy 1 = 8 3ab 4 a(2 y2 /b) a(1 y 2 /b) y 3 2(y 1 /a + y 2 /b)dy 2 = 4y3 2 b 4.

130 122 TRASFORMAZIONI DI VARIABILI ALEATORIE 1 a = 2 b = 4 f(y ) f(y ) Figura 4.13 per y 2 [ b, 0], mentre f(y 2 ) = 0 al di fuori di questo intervallo. Il prodotto delle due densità marginali, che sono riportate in Fig. 4.13, non è uguale alla densità congiunta f Y (y). Ciò indica che le due componenti del vettore Y(ω) prodotto dalla trasformazione non sono statisticamente indipendenti, come invece accade per le componenti del vettore trasformato X(ω). Se le dimensioni di Y(ω) IR m e X(ω) IR n non sono uguali (per esempio m < n), conviene spesso usare, al posto di Y(ω), un vettore incrementato Z(ω) IR n, che si costruisce assegnandogli un numero n m di componenti aleatorie fittizie. Questo accorgimento permette di studiare la trasformazione X Z con i metodi forniti dai Teoremi I e II sopra citati (si veda al riguardo il Problema 4.2 che segue). 4.5 Problemi risolti 4.1. Nel circuito di Fig. 4.14, che è percorso da una corrente I di 0.02 Ampere, le resistenze valgono r o = 500 Ohm e r 1 = 1000 ± 10% Ohm. La tolleranza con cui si conosce il valore di r 1 suggerisce di considerare quest ultima come una variabile casuale distribuita nell intervallo 900 r con legge parabolica. Calcolare il valor medio, la varianza e la densità di probabilità della differenza di potenziale V (ω) e della conduttanza Γ(ω) = 1/r 1. Soluzione. La densità di probabilità della resistenza r 1 si determina applicando la formula ricavata nel Esempio 4.4: f R (r 1 ) = (r 1 900)(1100 r 1 ) = 3 ( ) ( r r ) 1, r 1 [900, 1100]. 100 La differenza di potenziale è la funzione:

131 4.5 Problemi risolti 123 r0 V r 1 I Figura 4.14 V (ω) = g(r 1 ) = I(r o + r 1 ) = r 1 (ω), anch essa definita da una trasformazione lineare, la cui densità di probabilità, tenuto conto che r 1 = g 1 dg 1 (V ) = 50(V 10); dv = 50, si ricava applicando la (4.10): f V (V ) = f R [r 1 = 50(V 10)] 50 = 3 (V 28)(32 V ) 32 f( V ) f( ) V Figura e rappresenta una distribuzione parabolica nell intervallo 28 V 32 Volt. Il suo valor medio è m V = m X = 30 Volt, e la sua varianza vale, per la (4.11): σv 2 = 16σ2 X. La conduttanza è definita dalla trasformazione Γ(ω) = g[x(ω)] = x

132 124 TRASFORMAZIONI DI VARIABILI ALEATORIE che è invertibile in D X = [0, 1]. La trasformazione inversa è x = g 1 (Γ) = 1 200Γ 9 2 ; dg 1 (Γ) dγ e applicando la (4.5) conduce alla seguente densità di Γ(ω): ( 1 f(γ) = 6 200Γ 9 ) ( Γ + 9 ) Γ 2 = = 3 (200Γ) 2 = 1 200Γ 2 ( ) ( 1 Γ ) Γ che ha come supporto l intervallo D Γ = [1/1100, 1/900]. Per la non-linearità della trasformazione, questa distribuzione non è più simmetrica in D Γ (v. Fig. 4.15). Infatti il suo valor medio si può ottenere applicando la (4.9): 1 x(1 x) m Γ = x dx = 3 ( log 9 ) ed è minore del punto medio dell intervallo D Γ. varianza di Γ(ω), che risulta: 1 σγ 2 = E{Γ 2 } m 2 Γ = 6 0 x(1 x) ( x) 2 dx m2 Γ = = 6 (200) 2 In modo analogo si calcola la ( 10 log ) m 2 Γ Lo spazio percorso da un corpo che si muove di moto rettilineo e uniforme con velocità aleatoria V 0 (ω), a partire da una posizione iniziale pure aleatoria e rappresentata da Y 0 (ω), è definito da Y (ω; t) = Y 0 (ω) + V 0 (ω)t, 0 t 1 (4.23) dove Y 0 (ω) e V 0 (ω) sono due variabili casuali indipendenti aventi, rispettivamente, distribuzioni uniforme e parabolica in [0,1]: f 1 (y 0 ) = 1, y 0 [0, 1] f 2 (v 0 ) = 6v 0 (1 v 0 ), v 0 [0, 1] e il parametro t [0, 1] è il tempo (adimensionalizzato). Calcolare, al variare del tempo t, la funzione di densità di Y(ω, t) dato dalla (4.23). Soluzione. Per calcolare f Y (y; t) si può definire i due vettori aleatori: Z(ω; t) = {Y (ω; t), V 0 (ω)} D Z (t) X(ω) = {Y 0 (ω), V 0 (ω)} D X = D Z (t = 0)

133 4.5 Problemi risolti 125 z 2 = v 0 1 v 0 = D X y t D (t) Z v 0 = y - 1 t 0 t 1 1+t 2 z 1= y Figura 4.16 dove il dominio D Z (t) = {(z 1, z 2 ) : z 2 t z z 2 t; 0 z 2 1} è mostrato in Fig Studiamo la trasformazione z = g(x; t) con t parametro, definita da La trasformazione inversa è ed ha determinante jacobiano che vale: z 1 = g 1 (x; t) = y 0 + v 0 t z 2 = g 2 (x 2 ) = v 0. x 1 = y 0 = g 1 1 (z; t) = z 1 z 2 t x 2 = v 0 = g 1 2 (z) = z 2 [ ] det(a 1 ) = dg 1 1 t dz = = Quindi la densità di Z(ω; t) è, per la (4.22): f Z (z; t) = f 1 (y 0 = z 1 z 2 t)f 2 (v 0 = z 2 ) = 6z 2 (1 z 2 ) se z D Z (t), ed è nulla altrove. La densità Y (ω; t) si ricava come densità marginale della distribuzione del vettore Z(ω; t), e si ottiene integrando f Z (z; t) rispetto alla sua componente fittizia z 2 = v 0 : f Y (y; t) = 6 v 0 (1 v 0 )dv 0 D Y (t)

134 126 TRASFORMAZIONI DI VARIABILI ALEATORIE dove il dominio di integrazione, come risulta dalla Fig. 4.16, vale [0, y/t], per 0 y t D Y (t) = [0, 1], per t y 1 [(y 1)/t, 1], per 1 y 1 + t. f (y ; t) Y 1 t = 0 t = 0.5 t = Figura Densità di probabilità al variare di t [0, 1] Effettuando l integrazione si ricava: y 2 (3t 2y)/t 3, per 0 y t f Y (y; t) = 1, per t y 1 1 (y 1) 2 (3t 2y + 2)/t 3, per 1 y 1 + t. La Fig mostra il grafico di tale densità per alcuni valori di t. Nella applicazione meccanica, da essa si può ricavare, per esempio, la probabilità che in un istante generico del moto il sistema abbia percorso uno spazio non superiore ad un assegnato valore y. y

135 PROCESSI STOCASTICI 5.1 Definizioni Si chiama processo stocastico X(ω, t) una famiglia {X(ω)} t di variabili aleatorie definite su uno stesso spazio di probabilità (Ω, B, P ) con t variabile indipendente in un sottoinsieme T IR +. I processi stocastici sono modelli matematici di grandezze aleatorie che evolvono nel tempo. In quanto tali, possono essere interpretate in due modi differenti: 1. come un insieme di variabili aleatorie X(ω, t 1 ),... X(ω, t n ) definite in una successione di istanti t 1,... t n IR + prefissati, oppure 2. come un insieme di funzioni del tempo t, dette realizzazioni di X, ciascuna delle quali è originata da un evento casuale. Una conoscenza completa della natura di un processo stocastico richiede la definizione delle distribuzioni congiunte di un qualsiasi insieme di variabili casuali X(ω, t k ), k = 1,..., n appartenenti alla famiglia. Se indichiamo con X 1 = X(ω, t 1 ),... X n = X(ω, t n ) le n variabili aleatorie con cui si identifica il processo negli istanti t 1,..., t n, la statistica di ordine n del processo è dunque nota se si conosce la sua funzione di distribuzione di ordine n, che per definizione è la funzione di n variabili: F n (x 1,..., x n ; t 1,..., t n ) = P [(X 1 x 1 ) (X n x n )], n = 1, 2,... (5.1) Se esiste la sua derivata mista di ordine n, si chiama densità di probabilità di ordine n del processo la funzione: f n (x 1,..., x n ; t 1,..., t n ) = n F n (x 1,..., x n ; t 1,..., t n ) x 1... x n. (5.2) 127

136 128 PROCESSI STOCASTICI Ad esempio, la statistica del secondo ordine di un processo stocastico è nota se, fissati due istanti t 1, t 2, è definita la densità di probabilità congiunta (o la funzione di distribuzione congiunta) della coppia di variabili aleatorie X 1 (ω) = X(ω, t 1 ) e X 2 (ω) = X(ω, t 2 ). Come noto, la conoscenza di f 2 (x 1, x 2 ; t 1, t 2 ) permette tra l altro di determinare le densità marginali di X 1 e X 2, i loro valori medi, e il grado di correlazione esistente tra gli stati del medesimo processo in due istanti di tempo. Fissato invece un istante t 1 = t, la statistica del primo ordine del processo è definita dalla densità f(x; t) della variabile aleatoria X(ω, t = t 1 ), la quale coincide con la densità marginale f(x; t) = f 2 (x 1, x 2 ; t 1, t 2 )dx 2 (5.3) della distribuzione del secondo ordine. Se ne deduce che la conoscenza della statistica di ordine n del processo implica la conoscenza di tutte le statistiche di ordine inferiore. Tuttavia, è di solito assai arduo disporre della densità di qualsivoglia ordine n di un processo: spesso ci si limita a studiare la sua statistica del primo e del secondo ordine, nella quale rientrano i momenti del processo che sono qui elencati Momenti Il valore atteso di X(ω, t) è il valore atteso della variabile casuale X(ω) in un assegnato istante t: m(t) = E(X) t = xf 1 (x, t)dx (5.4) ed è dunque, in generale, una funzione ordinaria della variabile reale t. Fissati due istanti t 1, t 2, il momento congiunto del secondo ordine delle variabili casuali X 1, X 2 è chiamato autocorrelazione R(t 1, t 2 ) del processo: R(t 1, t 2 ) = E(X 1 X 2 ) = x 1 x 2 f 2 (x 1, x 2 ; t 1, t 2 )dx 1 dx 2, (5.5) ed è una funzione degli istanti considerati. L autocovarianza C(t 1, t 2 ) del processo è la covarianza della coppia X 1, X 2 che vale: C(t 1, t 2 ) = E[(X 1 m(t 1 ))(X 2 m(t 2 ))] = R(t 1, t 2 ) m(t 1 )m(t 2 ). La varianza σ 2 (t) del processo è l autocovarianza per t 1 = t 2 = t: ed è pure essa, in generale, funzione del tempo t. σ 2 (t) = C(t, t) = R(t, t) m 2 (t) (5.6)

137 5.1 Definizioni Processi indipendenti Due processi X(ω, t), Y (ω, t) si dicono statisticamente indipendenti se, date le successioni di istanti {t 1,..., t n }, {t 1,..., t m} l insieme di variabili aleatorie X(ω, t k ), k = 1,..., n è indipendente dall insieme delle Y (ω, t h ), h = 1,..., m ovvero se la loro densità congiunta di ordine n + m soddisfa: f n+m (x 1,..., x n ; t 1,... t n ; y 1,..., y m ; t 1,... t m) = f n (x 1,..., t n )f m (y 1..., t m) per ogni intero n ed m Processi senza memoria Fissato un istante t = t 1 IR +, le proprietà di X(ω, t 1 ) dipendono in generale da quelle che ha avuto il processo in istanti precedenti, ed influiscono su quelle che avrà negli istanti futuri. Un processo è chiamato senza memoria se la variabile aleatoria X(ω, t 1 ) è statisticamente indipendente dalle variabili aleatorie X(ω, t h ) per ogni h 1 intero. Ciò significa che lo stato del processo nell istante che si considera è indipendente dal suo passato e dal suo futuro: la sua densità di probabilità di ordine n vale f n (x 1,..., t n ) = f 1 (x 1, t 1 )f 1 (x 2, t 2 ) f 1 (x n, t n ) ed è quindi nota in base alla sola statistica del primo ordine del processo. Il più classico esempio di processo senza memoria è il rumore bianco citato nel paragrafo che segue Processi stazionari a) Stazionarietà in senso stretto Un processo stocastico è stazionario in senso stretto se le proprietà dei due processi X(ω, t), X(ω, t + ɛ) sono invarianti rispetto a una traslazione dei tempi, in modo che f n (x 1,..., x n ; t 1,..., t n ) = f n (x 1,..., x n ; t 1+ɛ,..., t n+ɛ ) per ogni ɛ IR e ogni intero n. Per questa definizione la stazionarietà in senso stretto implica: densita del primo ordine indipendente dal tempo: f 1 (x, t) = f 1 (x, t + ɛ) = f 1 (x);

138 130 PROCESSI STOCASTICI valore atteso costante rispetto a t: E(X) = xf 1 (x)dx = m X ; densità del secondo ordine e autocorrelazione che dipendono solo dalla differenza τ = t 2 t 1 tra gli istanti considerati: R(t 1, t 2 ) = x 1 x 2 f 2 (x 1, x 2, τ)dx 1 dx 2 = R(τ). (5.6) b) Stazionarietà in senso lato Un processo stocastico X(ω, t) è stazionario in senso lato (o debolmente stazionario) se ha momenti tale che E(X) = cost < + E(X 2 ) < +, R(t 1, t 2 ) = R(τ). (5.7) La stazionarietà debole riguarda dunque solo i momenti del primo e secondo ordine del processo, e non le corrispondenti densità, come avviene nella definizione in senso stretto: quest ultima implica la stazionarietà in senso lato ma non viceversa. 5.2 Esempi notevoli Nel definire il modello matematico di un fenomeno fisico mediante un processo stocastico, si usa spesso esprimerlo in termini analitici come una funzione ordinaria di t contenente una o più variabili casuali α i (ω) come parametri: X(ω, t) = X(α i (ω), t). In tal caso le statistiche del processo dipendono dalla distribuzione di probabilità congiunta che si assegna all insieme delle variabili casuali α i (ω), e si ricavano con i metodi noti descritti dalla teoria della trasformazione di variabili casuali, che ora sono da applicare trattando il tempo t come un parametro della trasformazione. In altre applicazioni si definiscono invece processi stocastici speciali, che sono il risultato di una modellizzazione del fenomeno reale basata su opportune ipotesi di natura probabilistica. Esempio 5.1 Date le variabili casuali indipendenti a(ω), b(ω), formiamo il processo X(ω, t) = a + bt.

139 5.2 Esempi notevoli 131 Esso è costituito da una famiglia di rette, che sono le realizzazioni del processo, e la sua media nell istante t è la funzione lineare del tempo che si ricava in termini delle medie di a(ω), b(ω): E(X) = E(a) + E(b)t. Fissati gli istanti t 1, t 2, l autocorrelazione del processo vale R(t 1, t 2 ) = E(a + bt 1 )E(a + bt 2 ) = E(a 2 ) + E(ab)(t 1 + t 2 ) + E(b 2 )t 1 t 2 e la sua autocovarianza è C(t 1, t 2 ) = σ 2 a + σ 2 b t 1 t 1 + Cov(a, b)(t 1 + t 2 ). La varianza del processo al tempo t è perciò σ 2 (t) = σ 2 a + σ 2 b t 2 + 2tCov(a, b) e poichè a(ω), b(ω) sono indipendenti si riduce a σ 2 (t) = σ 2 a + σ 2 b t 2. Si tratta di un processo non stazionario, nemmeno in senso debole Rumore di Rice Un modello di rumore aleatorio in circuiti elettrici è rappresentato dal processo: n X(ω, t) = A j cos(ν j t + Φ j ) j=1 con A j, ν j, Φ j variabili aleatorie note. La statistica di X(ω, t) è completamente definita dalle distribuzioni di probabilità congiunte di queste 3n variabili casuali. Una sua versione molto semplificata può essere descritta dal processo X(ω, t) = a cos(νt + Φ(ω)) (5.8) con fase aleatoria uniformemente distribuita in [0, 2π], ed a, ν costanti reali deterministiche. Le realizzazioni di questo processo sono funzioni cosinusoidali del tempo, con eguale ampiezza e frequenza ma con fasi differenti, probabilisticamente definite da una densità uniforme in [0, 2π]. Si ottiene facilmente: E(x) = E[a cos(νt + Φ)] = a 2π cos(νt + Φ)dΦ = 0 2π 0 R(t 1, t 2 ) = a 2 E[cos(νt 1 + Φ) cos(νt 2 + Φ)] = 1 2 a2 cos ν(t 2 t 1 ); σx 2 = a2 2. Dunque il processo (5.8) è debolmente stazionario.

140 132 PROCESSI STOCASTICI 5.3. Trasmissione binaria semicasuale In relazione alla emissione di un segnale in forma binaria equiprobabile ad intervalli regolari di tempo T, definiamo il processo X(ω, t) = X n (ω), (n 1)T t nt (5.9) dove n =..., 1, 0, 1, 2,... e le X n sono variabili casuali statisticamente indipendenti con eguali densità f(x n ) = 1 2 [δ(x n + 1) + δ(x n 1)]. X(t) Y(t) 1 1 A( ) T t T t trasmissione binaria semicasuale rumore binario Figura 5.1 X(ω, t) e un processo debolmente stazionario che si chiama trasmissione binaria semicasuale: le sue realizzazioni assumono casualmente valori ±1 ad intervalli di tempo T ed i valori che assume sono indipendenti da quelli che assume in ogni altro intervallo. Si ricava facilmente: E(X) = 0 E(X 2 ) = 1 2 x 2 n[δ(x n + 1) + δ(x n 1)]dx n = 1 e inoltre si sa che E(X n X m ) = 0 per n m perché le X n sono indipendenti. Quindi: σx 2 = { 1 R(t 1, t 2 ) = 1 se (n 1)T t1, t 2 < nt 0 altrimenti.

141 5.2 Esempi notevoli Rumore binario E una generalizzazione della trasmissione binaria semicasuale, in cui ciascuna realizzazione è traslata nel tempo di una quantità aleatoria A(ω) indipendente dalle X n e avente densità uniforme nell intervallo [0, T ]. La sua rappresentazione analitica è perciò Y (ω, t) = X(ω, t)[t A(ω)] (5.10) dove X(ω, t) è la trasmissione binaria semicasuale. Una generica traiettoria del processo è indicata in Fig. 5.1, insieme con quella del processo semicasuale X(ω, t). Il valore atteso e la varianza del rumore binario Y (ω, t) sono uguali a quelli di X(ω, t) perché la traslazione rispetto al tempo non modifica i momenti a t prefissato; la sua autocorrelazione è invece diversa se τ = t 2 t 1 T, perché l appartenenza di t 1, t 2 al medesimo intervallo dipende dai valori che assume A(ω). Si ha in tal caso: R(t 1, t 2 ) = P (A T τ ) = T τ 0 da = 1 τ T = R(τ) se τ T, mentre R = 0 se τ > T. Dunque anche il rumore binario è un processo debolmente stazionario. Per come è stato costruito, esso è il modello probabilistico che si associa a prove ripetute ed indipendenti di un esperimento casuale, che avvengono con eguale probabilità di successo o di fallimento, ad uguali intervalli di tempo T Rumore bianco E uno speciale caso limite del rumore binario, che si definisce quando T 0 e σ 2 in modo che il prodotto σ 2 T tende a un valore finito. Per le sue particolari proprietà e per la semplicità della sua descrizione in termini matematici, è ampiamente usato per approssimare un gran numero di fenomeni fisici aleatori Passeggiate a caso Consideriamo ancora le successioni di infinite prove ripetute a intervalli uguali di tempo T di un generico esperimento casuale con eguale probabilità di successo o di fallimento. Associamo alla successione una funzione del tempo a gradino che in corrispondenza di ciascuna prova ha un incremento della quantità s se l esito è un successo e decresce della quantità s se è un fallimento. Questa funzione a gradino (v. Fig. 5.2) è una realizzazione di un processo stocastico X(ω, t) chiamato passeggiate a caso. Se nelle prime n prove si sono avuti k successi, il valore della generica realizzazione del processo al tempo t = nt è x(nt ) = ks (n k)s = (2k n)s.

142 134 PROCESSI STOCASTICI Per la formula di Bernoulli (2.42), la probabilità dell evento {X(nT ) = (2k n)s} vale: ( ) n 1 P [X(nT ) = (2k n)s] = k 2 n e il valor medio del processo X(ω, t) per (n 1)T < t nt risulta: E(X) = n k=0 ( ) n (2k n)s k 2 n = 0. La varianza è uguale al momento del secondo ordine del processo al tempo t, e nell istante t = nt vale: n ( ) σ 2 (t) = s 2 n (2k n) 2 k 2 n = ns 2 = ts2 T. k=0 Se n è sufficientemente grande, per il Teorema di asintoticità di Moivre Laplace (2.46) la probabilità dell evento {X(nT ) = (2k n)s} è approssimata dalla gaussiana: P [X(nT ) = (2k n)s] [ ] 2 nπ exp (2k n)2. 2n X(t) s 0 T t Figura Passeggiate a caso Se infine a t costante effettuiamo un passaggio al limite per s, T 0, e se s tende a zero come T, si ottiene un nuovo processo stocastico chiamato moto browniano o processo di Wiener Levy, che rappresenta il modello matematico del moto irregolare di particelle libere di muoversi in un mezzo fluido.

143 5.2 Esempi notevoli Processo di Poisson Consideriamo una scelta casuale di istanti t i in IR +, e definiamo il processo X(ω, t) tale che X(ω, 0) = 0 e la differenza X(ω, t 2 ) X(ω, t 1 ) sia uguale al numero di punti t i in [t 1, t 2 ]. La famiglia di funzioni cosí definita si chiama processo di Poisson. Ogni sua realizzazione è una funzione a scala con gradino unitario nei punti casuali t i, come indicato in Fig Se invece fissiamo l istante t, allora X(ω, t) è una variabile aleatoria il cui valore coincide con il numero k di punti nell intervallo [0, t]. Per la legge degli eventi rari (2.51) la probabilità dell evento E = {k punti in [0, t]} è approssimata da P k,t (λt)k e λt, k! per cui X(ω, t) per ogni fissato t è distribuita con legge di Poisson con parametro λt. X(t) ti Figura Processo di Poisson t La statistica del primo ordine del processo è quella della distribuzione di Poisson: m X (t) = λt, σ 2 X(t) = λt. Scelti poi due istanti generici t 1, t 2 > 0, si può calcolare che R(t 1, t 2 ) = E(X 1 X 2 ) = { λt2 + λ 2 t 1 t 2 se t 1 t 2 λt 1 + λ 2 t 1 t 2 se t 1 t 2 e quindi C(t 1, t 2 ) = R(t 1, t 2 ) m X (t 1 )m X (t 2 ) = λ min(t 1, t 2 ). Il processo di Poisson non è stazionario; è però un processo con incrementi stazionari in senso lato. Si definisce incremento di Poisson il processo Y (ω, t) = X(ω, t + ɛ) X(ω, t) ɛ (5.11)

144 136 PROCESSI STOCASTICI che per ogni t fissato ha valori uguali al rapporto k/ɛ, dove k è il numero di punti nell intervallo [t, t + ɛ]. Il valor medio degli incrementi di Poisson è costante e vale: E(Y ) = e l autocorrelazione risulta: E(X(t + ɛ)) E(X(t)) ɛ = λ, dove τ = t 2 t 1. { λ 2 se τ > ɛ R(t 1, t 2 ) = λ 2 + λ ɛ λ τ se τ < ɛ ɛ 2 Facendo tendere ɛ a zero, si ottiene un nuovo processo stocastico debolmente stazionario Z(ω, t), che definisce gli impulsi di Poisson: dx(ω, t) Z(ω, t) = lim Y (ω, t) = = ɛ 0 dt i δ(t t i ). (5.13) Questo processo consiste nella successione di infiniti impulsi unitari negli istanti casuali t i, ed è facile verificare che ha media ed autocorrelazione date da E(Z) = λ R(t 1, t 2 ) = λ 2 + λδ(t 1 t 2 ) = λ[λ + δ(τ)]. 5.3 Processi di Markov X(ω, t) è chiamato processo di Markov se per ogni n e per t 1 < t 2 <... < t n IR + si ha: P [X(ω, t n ) x n x n 1, t n 1,..., x 1, t 1 ] = P [X(ω, t n ) x n x n 1, t n 1 ]. In tale processo la distribuzione in probabilità all istante t n è condizionata soltanto dalle proprietà statistiche che ha avuto nell istante immediatamente precedente t n 1, e ha perso la memoria della sua storia prima di t n 1. Ne segue che la densità di probabilità di ordine n del processo vale: f n (x 1, t 1,..., x n, t n ) = f 1 (x 1, t 1 )f(x 2, t 2 x 1, t 1 ) f(x n, t n x n 1, t n 1 ) e per la definizione di probabilità condizionata si può calcolare come: f n (x 1, t 1,..., x n, t n ) = f 2(x 1, t 1 ; x 2, t 2 ) f 2 (x n, t n ; x n 1, t n 1 ). f 1 (x 1, t 1 )... f 1 (x n 1, t n 1 )

145 5.4 Catene di Markov 137 Quest ultima formula mostra che le proprietà di un processo di Markov sono note se si conosce la sua statistica fino al secondo ordine, che è definita dalle densità congiunte delle coppie (x i, x j ), i, j = 1,... n. Fissati tre istanti t 1 < t 2 < t 3 (e tralasciando di indicarli tra gli argomenti delle varie densità, per semplicità di scrittura), si ha in particolare che: f(x 1, x 2, x 3 ) = f 2(x 1, x 2 )f 2 (x 2, x 3 ) f 1 (x 2 ) e poiché per definizione di probabiità condizionata si ha sostituendo si ricava: f 2 (x 1, x 2 ) = f(x 1 x 2 )f 1 (x 2 ), f 2 (x 2, x 3 ) = f(x 3 x 2 )f 1 (x 2 ), f(x 1, x 2, x 3 ) = f(x 1 x 2 )f(x 3 x 2 )f 1 (x 2 ). Se ora interessa valutare la probabilità condizionata: f(x 1, x 3 x 2 ) = f(x 1, x 2, x 3 ), f 1 (x 2 ) quest ultima per la formula precedente risulta uguale a: f(x 1, x 3 x 2 ) = f(x 1 x 2 )f(x 3 x 2 ). Il risultato mostra che le variabili casuali X 1, X 3, condizionate da X 2, sono indipendenti. Questo significa che sotto la condizione che sia noto lo stato presente X 2, il passato del processo markoviano è indipendente dal suo futuro. In questo senso si può affermare che l ipotesi markoviana è l analogo probabilistico dei problemi ai valori iniziali della Meccanica, che sono descritti da equazioni differenziali la cui soluzione al tempo t 2 > t 1 è univocamente determinata se si assegna lo stato iniziale x(t 1 ) del sistema dinamico, e tale soluzione non dipende dal valore che essa assume in qualche istante t 3 > t Catene di Markov Di solito nel processo di Markov il tempo t varia in un insieme continuo T IR +. Se l insieme dei tempi è discreto, ossia T IN dove IN è l insieme dei numeri naturali, il processo discreto che ne risulta si chiama catena di Markov. Precisamente, si ha la seguente DEFINIZIONE. Si chiama catena di Markov il processo stocastico tale che:

146 138 PROCESSI STOCASTICI t T IN; le variabili casuali X n assumono tutte valori nello stesso insieme numerabile discreto E IN, chiamato spazio degli stati; esistono reali non negativi p ij (n) con i, j E, n N tali da soddisfare la proprietà di Markov: p ij (n)=p (X n+1 = j X n = i, X n 1 = i n 1,..., X 1 = i 1 ) = P (X n+1 = j X n = i). Se p ij non dipendono da n, la catena è omogenea Matrice di transizione Se l insieme E degli stati è finito, i numeri p ij sono gli elementi di una matrice quadrata P il cui ordine è uguale alla cardinalità di E. Questa matrice si chiama matrice di transizione ed ha le seguenti proprietà: p ij 0; la somma degli elementi di ogni sua riga vale 1. Infatti, in conseguenza degli assiomi della probabilità per ogni i si deve avere: p ij = j j P (X n+1 = j X n = i) = P (X n+1 E X n = i) = 1. La matrice di transizione definisce univocamente gli stati j di X n+1 qualora siano noti gli stati i di X n. Inoltre, la sua conoscenza permette di determinare anche probabilità congiunte del tipo: P (m) ij = P (X n+m = j X n = i) = p (m) ij, cioè la probabilità che dopo m passi successivi all istante t = n (nel quale la catena si trova nello stato i) essa si trovi nello stato j. Infatti, se definiamo con P m = [p (m) ij ] la matrice di transizione dopo m passi successivi all n esimo, sfruttando la definizione di p (m) ij si ricava che essa è il risultato del prodotto matriciale P m = P m 1 P da cui ponendo m = 2, 3,... si ottiene: P 2 = PP = P 2, P 3 = P 2 P = P 3,... e per ricorrenza: P m = P m.

147 5.4 Catene di Markov 139 Poiché la variabile aleatoria X n assume valori in E, la sua legge probabilistica è descritta da un vettore riga con dimensioni uguali alla cardinalità di E, che indichiamo con w = (w 1, w 2,..., w k,...); w k = P (X n = k) e tale da soddisfare per ogni valore intero dell indice k: w k 0; w k = 1 in modo che w sia una densità discreta su E. Indichiamo in particolare con v = (v 1, v 2,..., v h,...), v h = P (X 0 = h) lo stato probabilistico della catena nell istante iniziale t 0. Dopo n passi della catena, la legge degli stati è definita dal vettore w avente le componenti: k w k = h P (X n = k X 0 = h)p (X 0 = h) = h p (n) hk v h. Pertanto le leggi dei due stati (quello iniziale e quello della catena dopo n passi) sono legate dalla relazione: w = vp n. Se ne conclude che le leggi congiunte degli stati n = 1, 2,... sono determinate univocamente dalla matrice di transizione P e dalla legge iniziale v. Infatti, si può dimostrare che data una matrice di transizione P e una legge su E, esiste sempre una catena di Markov associata a P e con legge iniziale v. Esempio Figura Consideriamo tre nodi (i, j = 1, 2, 3) di un generico grafo i quali per esempio a seguito di indagini statistiche effettuate su determinati campioni rappresentativi degli stati di un sistema risultano collegati fra loro con le probabilità di transizione indicate in Fig. 54.

148 140 PROCESSI STOCASTICI Supponiamo di dover studiare una successione di transizioni tra questi stati, che avviene in successivi istanti t 1, t 2,... t n,... sempre con le medesime probabilità di transizione, e a partire dall istante t 0 nel quale lo stato del sistema si trova nel nodo 2 con probabilità 1. Si ha un problema di questo tipo, per esempio, quando si studia il flusso di abitanti tra centri urbani limitrofi, oppure le variazioni della concentrazione di un elemento inquinante in ambienti collegati, ecc. Il suo modello matematico naturale è una catena di Markov omogenea definita sullo spazio degli stati E = (1, 2, 3) in cui le variabili casuali X n = X(t n ) possono assumere i valori di E con probabilità da determinare. E nota la legge iniziale perché per t = t 0 si ha P (X 0 = 1) = 0, P (X 0 = 2) = 1, P (X 0 = 3) = 0, e quindi v = (v 1, v 2, v 3 ) = (0, 1, 0). Se p ij è la probabilità di transizione dallo stato i allo stato j, essa si trova sulla i esima riga e j esima colonna della matrice di transizione della catena, che vale P = Se vogliamo conoscere la legge w (1) dello stato X 1 = X(t 1 ) basta applicare a v questa matrice di transizione. Si scrive allora e si ottiene: (w (1) 1, w(1) 2, w(1) 3 ) = (0, 1, 0)P w (1) = (0.4, 0.3, 0.3) ossia: dopo un passo della catena il sistema si trova nello stato 1 con probabilità 0.4 e negli stati 2 o 3 con probabilità 0.3. Si noti che il risultato è conforme agli assiomi della probabilità totale, perché in t = t 1 la somma delle probabilità degli stati deve essere uguale all unità. Se ora vogliamo conoscere la legge dello stato X 2 = X(t 2 ) si può applicare la matrice di transizione al vettore riga w (1) appena trovato; ma è anche possibile calcolare subito w (2) a partire dallo stato iniziale, scrivendo: dove (w (2) 1, w(2) 2, w(2) 3 ) = (0, 1, 0)P P 2 = PP =

149 5.4 Catene di Markov 141 Si ricava in ogni caso: w (2) = (0.27, 0.56, 0.17) che definisce univocamente la legge della catena dopo due passi, e cosí si può proseguire per n = 3, 4, Classificazione degli stati Nella teoria delle catene di Markov, dati due stati i, j E si dice che i comunica con j se esiste un intero n > 0 tale che p (n) ij > 0, e si scrive in tal caso: i j. Ciò significa che nella catena è possibile passare dallo stato i allo stato j in n passi. Si badi che i j non implica necessariamente l inverso: j i; si può tutt al più affermare che: i j, j h i h perché se esistono n, m tali che p (n) ij > 0, p (m) jh > 0, allora p (n+m) ih = k p (n) ik p(m) kh p(n) ij p(m) jh > 0 e quindi i comunica con h (attraverso j). Due stati (i, j) comunicano se esistono due interi n, m (anche diversi) tali che p (n) ij > 0 e p (m) ji > 0, ovvero se è possibile passare da i a j in n passi e la j ad i in m passi. Un sottoinsieme C E è una classe chiusa se gli stati di C non comunicano con gli stati appartenenti all insieme complementare di C in E. Se X k C, allora per qualsiasi n k si avrà X n C, e pertanto se la catena raggiunge una classe chiusa vi resterà per sempre. Una classe chiusa C è irriducibile se e solo se tutte le coppie dei suoi stati comunicano fra loro. Se l unica classe irriducibile è E, allora la stessa catena di Markov si dice irriducibile, perché tutti i suoi stati comunicano. Se invece uno stato costituisce da solo una classe irriducibile, questo stato si chiama assorbente. Se esiste un intero m > 0 tale che p (m) ij > 0 per ogni coppia (i, j), la matrice di transizione P si dice regolare e tale è la catena di Markov associata a tale matrice regolare. Una catena regolare è irriducibile, ma non vale sempre l inverso: esistono catene irriducibili che non sono regolari. Un criterio sufficiente per la regolarità della catena è il seguente: Se la catena è irriducibile e inoltre esiste un h E tale che p hh > 0, allora la catena è regolare.

150 142 PROCESSI STOCASTICI Stati transitori e ricorrenti. Indichiamo con τ j (ω) = min[n : X n (ω) = j] la variabile aleatoria che definisce il primo istante in cui la catena di Markov visita lo stato j. Il numero ρ ij = P (τ j < + X n = i) è la probabilità che la catena visiti prima o poi lo stato j partendo dallo stato i. Uno stato si dice transitorio se ρ ii < 1, vale a dire se con probabilità maggiore di zero la catena che parte dallo stato i non vi ritorna più. Si dice ricorrente (o anche persistente) se ρ ii = 1, ovvero prima o poi vi ritorna con probabilità 1. In una catena irriducibile tutti gli stati sono ricorrenti. Se l insieme E degli stati è finito, uno stato i è transitorio se e solo se esiste uno stato j tale che i j ma j non comunica con i. Nella catena dell Esempio 5.8 (e illustrata dal grafo di Fig. 5.4) tutti gli stati comunicano, perché P 2 ha elementi che sono tutti > 0. Quindi la catena è irriducibile e non ci sono stati assorbenti. Inoltre, poiché nella matrice di transizione esiste un h = 2 tale che p 22 > 0, è soddisfatta la condizione sufficiente per affermare che la catena è anche regolare. Tutti gli stati sono ricorrenti perché prima o poi la catena ritorna in ciascuno di essi; non esistono stati transitori. Esempio 5.9 Consideriamo il grafo di Fig. 5.5 nel quale cinque nodi, numerati progressivamente, sono tra loro variamente collegati e supponiamo che il passaggio tra i nodi avvenga nel verso indicato e con le probabilità indicate Figura A questo grafo si può associare una catena di Markov costituita da cinque stati, identificati dal vettore E = {1, 2, 3, 4, 5} con matrice di transizione

151 5.4 Catene di Markov 143 1/ /2 0 1/2 0 1/4 0 1/4 P = i cui elementi p ij coincidono con le probabilità di transizione assegnate in figura. Si noti anzitutto che la somma degli elementi su ogni riga vale 1 (probabilità dell evento certo). Inoltre: Poichè p 3,3 = 1, una volta che la catena entra nello stato 3 non vi esce più. Lo stato 3 è assorbente e quindi ricorrente. Gli stati 1 e 4 comunicano tra loro ma non con gli altri stati. La classe {1, 4} è chiusa e irriducibile. Gli stati 2 e 5 sono transitori poiché la catena che parte da uno di essi, con probabilità maggiore di zero non vi ritornerà più andando a finire o nella classe irriducibile {1, 4} o nello stato assorbente. In conclusione la catena è l unione di due classi irriducibili I 1 = {3}, I 2 = {1, 4} e di un insieme T = {2, 5} di stati transitori: E = I 1 I 2 T Probabilità invarianti Supponiamo che l insieme E degli stati sia finito, con cardinalità N. Una probabilità v = (v 1, v 2,..., v N ) si dice invariante o stazionaria se v = vp, (5.12) ovvero se la transizione da uno stato con legge v riproduce uno stato con la medesima legge. Se gli stati iniziali di X 0 hanno una legge stazionaria, allora X n ha legge w = vp n = vpp n 1 = vp n 1 =... = v, per cui se la legge iniziale è stazionaria, tutte le X n hanno la stessa legge. Si può dimostrare (Teorema di Markov Kakutani) che una matrice di transizione su un insieme finito di stati ha sempre almeno una probabilità invariante. Per la sua unicità è però necessario che la matrice di transizione sia anche regolare nel senso definito nel paragrafo precedente. Vale infatti a tale proposito il

152 144 PROCESSI STOCASTICI TEOREMA DI MARKOV. Se P è una matrice di transizione regolare si ha lim n p(n) ij = π j dove π = (π 1,..., π N ) è l unica probabilità invariante di P. Una importante conseguenza del Teorema di Markov è la seguente. Se v è la legge iniziale degli stati della catena, sappiamo che la legge di X n è w = vp n. La probabilità che X n assuma il valore j si può scrivere che per n tende a P (X n = j) = i E v i p (n) ij lim P (X n = j) = v i π j = π j. n i E Questo mostra che qualunque sia la legge iniziale degli stati della catena, la legge di X n converge alla distribuzione invariante π. Per la definizione espressa con la (5.13), questa distribuzione invariante soddisfa l equazione matriciale: π[p I] = 0 dove I è la matrice identica. Perché essa abbia soluzioni non banali occorre che det[p I] = 0, ovvero che λ = 1 sia un autovalore di P. Dunque π è l autovettore riga associato all autovalore unitario della matrice regolare di transizione, e le sue componenti π j si possono ricavare risolvendo il seguente sistema lineare di N equazioni: in modo che siano soddisfatte le condizioni j = 1,..., N : N π j = p ij π i (5.13) i=1 π j 0; N π j = 1 (5.14 ) j=1 stabilite dagli assiomi della probabilità. La catena dell Esempio 5.8 è regolare: quindi per il Teorema di Markov i suoi stati convergono ad un unica probabilità invariante che si può determinare applicando le (5.13) le quali richiedono unicamente la conoscenza della matrice di transizione. Si ha cosí il sistema lineare: π 1 = 0.4π π 3

153 5.4 Catene di Markov 145 π 2 = 0.8π π π 3 π 3 = 0.2π π 2 il quale, tenuto conto della condizione (5.14 ), ha questa unica soluzione: π = ( , , ). (5.14) Si può dunque affermare che la catena, con il trascorrere del tempo (ovvero in una successione di infinite transizioni che avvengono con le probabilità indicate) cadrà in uno dei tre stati rispettivamente con le probabilità invarianti date dalla (ref5e15). Esempio 5.10 Nel grafo di Fig. 5.6 sia E = {1, 2, 3, 4, 5} l insieme dei suoi nodi. Assumiamo che dal nodo i = 1, 2,..., 5 avvengano transizioni casuali ad un nodo adiacente, con eguale probabilità di passaggio a tutti i nodi contigui. Se indichiamo con k i il numero dei Figura 5.6 nodi adiacenti all i esimo, con questa ipotesi si definisce su E una catena di Markov con le seguenti probabilità di transizione: { p ij = 1/ki se j è adiacente a i 0 altrimenti. Pertanto la matrice di transizione della catena vale 0 1/3 0 1/3 1/3 1/3 0 1/3 0 1/3 P = 0 1/3 0 1/3 1/3. 1/3 0 1/3 0 1/3 1/4 1/4 1/4 1/4 0 Questa è una matrice regolare: infatti, qualunque sia lo stato iniziale della catena, dopo un passo il processo si può trovare con probabilità non nulla in ciascuno degli altri stati. Ciò ci assicura che P 2 è composta da elementi tutti positivi, e soddisfa la definizione di regolarità con m = 2. Per il Teorema di Markov esiste dunque una unica probabilità invariante π = {π 1,..., π 5 } per gli stati della catena. Questa si determina cercando la soluzione del sistema (5.13) che nel nostro caso si scrive: π 1 = 1 3 (π 2 + π 4 ) π 5

154 146 PROCESSI STOCASTICI π 2 = 1 3 (π 1 + π 3 ) π 5 π 3 = 1 3 (π 2 + π 4 ) π 5 π 4 = 1 3 (π 1 + π 3 ) π 5 π 5 = 1 3 (π 1 + π 2 + π 3 + π 4 ). La sua soluzione soddisfacente la (5.14 ) è: π = { 3 16, 3 16, 3 16, 3 16, 1 }. 4 Qualunque sia la legge iniziale degli stati della catena, per n essa tende alla legge π ora calcolata. Ad esempio, se supponiamo di partire dal centro del grafo, assumeremo la legge iniziale v = {0, 0, 0, 0, 1}. Dopo un passo gli stati della catena hanno legge: { 1 w (1) = vp = 4, 1 4, 1 4, 1 } 4, 0 ; dopo due passi: { 1 w (2) = w (1) P = 6, 1 6, 1 6, 1 6, 1 3} e al crescere del numero n di passi le componenti di w (n) tendono a π j, j = 1, 2,..., 5.

155 STATISTICA DESCRITTIVA 6.1 Introduzione Una valutazione approssimata della misura di probabilità da assegnare a un evento casuale si può effettuare in modo empirico se, sulla base della definizione frequentista di probabilità già accennata nella Introduzione del Capitolo I, si determina la frequenza degli esiti favorevoli di un esperimento casuale ripetuto n volte. Se l esperimento ripetuto consiste nella rilevazione di certe caratteristiche di una popolazione (o universo), ovvero di un generico insieme di N oggetti o individui (con N che può anche essere infinito), il risultato di n prove è una serie di dati, la cui analisi porta a determinare una legge di probabilità empirica per la caratteristica della popolazione che vogliamo studiare. E bene precisare subito che le serie di dati da esaminare statisticamente sono quelle che si deducono dalla osservazione di un campione della popolazione, ossia di un numero n limitato (e possibilmente piccolo) dei suoi N elementi. Per ottenere risultati attendibili sulle caratteristiche dell intera popolazione, occorre perciò che i campioni siano adeguatamente scelti in modo da essere effettivamente rappresentativi dell universo dal quale sono stati estratti. In secondo luogo, occorre sviluppare i metodi che attraverso l analisi dei campioni consentano di stimare in modo attendibile le caratteristiche o parametri della popolazione che si intende esaminare. Il campionamento e i metodi di stima dei parametri sono oggetto della Statistica inferenziale, di cui ci occuperemo nei Capitoli che seguono. In questo Capitolo ci limiteremo, in via preliminare, ad esporre le tecniche in uso per l organizzazione degli n dati raccolti, e per la rappresentazione delle probabilità empiriche che da essi si deducono. Le n osservazioni effettuate possono avere come obiettivo la definizione di caratteri qualitativi della popolazione, consistenti in certe caratteristiche di natura non numerica (come ad esempio il colore, il grado di istruzione, l attività professionale, la preferenza per un candidato,...) oppure di caratteri quantitativi (ad es. il peso, la lunghezza, il reddito,...) che si riferiscono invece a qualsiasi grandezza misurabile. A loro volta, i caratteri quantitativi possono essere discreti se assumono solo un 147

156 148 STATISTICA DESCRITTIVA numero limitato di valori, oppure continui con valori in un assegnato intervallo di IR. Nei riguardi dei possibili risultati dell esame di un carattere qualitativo, che sono chiamati modalità, osserviamo che in certi casi essi sono comunque suscettibili di un ordinamento (come ad esempio il grado di istruzione sopra citato), mentre spesso non hanno alcun ordinamento rispetto alle altre modalità (il colore, il sesso,...). In entrambi i casi, è sempre possibile associare a ciascuna modalità un numero reale, in modo che la serie di dati risultante dalle osservazioni sia ancora riconducibile ad un insieme di numeri reali, definito su un sottoinsieme (discreto) di IR. Nel seguito illustreremo le tecniche che si utilizzano per descrivere serie di dati relativi a tutti quei caratteri di una popolazione che siano comunque rappresentabili con punti discreti dell asse reale, oppure appartenenti ad uno o più intervalli di IR. 6.2 Distribuzioni di frequenze Consideriamo dunque una serie di n dati numerici {x 1, x 2,..., x n } ricavati da altrettante osservazioni fatte sugli elementi di una popolazione, e relativi ad un suo carattere quantitativo X continuo, oppure discreto ma con un numero elevato di modalità. Questi dati si chiamano determinazioni di X oppure realizzazioni o valori empirici. Indicato con IR l insieme delle modalità del carattere, definiamone una partizione { i }, i = 1,..., m in m classi tra loro disgiunte, tale che la loro unione coincida con, e con intervalli i aperti a destra: i = [a i, b i ), = i i, i j =, i j = 1, 2,.., m. Ad ogni classe i, avente a i e b i come confini inferiore e superiore, si associa poi la sua ampiezza b i a i (non necessariamente uguale per ogni indice i) e il suo valore centrale x i che è la semisomma dei suoi confini. La scelta delle classi i è arbitraria, ma deve essere fatta in modo da ottenere una rappresentazione significativa dei dati raccolti sul carattere da studiare: è preferibile che il loro numero sia elevato, ma nello stesso tempo occorre evitare di definire intervalli parziali che contengano pochi dati della serie. Di regola, è bene che i dati in ciascuna classe siano maggiori o uguali a 5, e si sceglie un numero di classi che non si scosti troppo dalla parte intera di m = 1 + (10/3) log 10 n. Se la serie si riferisce a un carattere discreto con modalità appartenenti all insieme IN dei numeri naturali, si può assumere queste modalità come valori centrali di altrettante classi di ampiezza uguale e unitaria. Poiché per definizione ogni dato raccolto appartiene ad una ed una sola classe i della partizione, si può procedere al calcolo delle seguenti quantità:

157 6.2 Distribuzioni di frequenze 149 la frequenza assoluta n i di ciascuna classe (a volte chiamata anche incidenza ) che è il numero di elementi della serie che appartengono alla classe i. Si noti che si avrà: n 1 + n n m = n; la frequenza relativa f i = n i /n di ciascuna classe, detta anche probabilità empirica, e tale che f 1 + f f m = 1. la frequenza cumulata N i, somma delle prime i frequenze assolute: i N i = n 1 + n n i = n j ; j=1 la frequenza cumulata relativa F i, somma delle prime i probabilità empiriche: F i = f 1 + f f i = N i n = 1 n i n j. j=1 Con i dati raccolti si può costruire un istogramma che rappresenta la distribuzione delle frequenze per ciascuna classe del campione. Questa si ottiene riportando sulle ascisse le varie classi i, e sulle ordinate i valori della funzione costante a tratti: ϕ n (x) = n i i, x i, i = 1,.., m che misura la frequenza assoluta per unità di ampiezza della classe i. Per semplicità di scrittura, in questa formula e in quelle che seguono indichiamo con il simbolo i sia la i-esima classe, sia la misura della sua ampiezza b i a i. In tal modo ciascun rettangolo dell istogramma ha un area proporzionale alla frequenza assoluta n i, e la sua area totale è proporzionale alla numerosità n della serie di dati. In modo analogo si può costruire l istogramma delle frequenze relative, chiamato anche distribuzione delle probabilità empiriche. Esso si ottiene riportando la funzione costante a tratti: f n (x) = n i f i, x i, i = 1,.., m n i i e la sua area complessiva è uguale ad 1 (ovvero alla probabilità dell evento certo). Una distribuzione di frequenze relative, riguardante il campione esaminato nell Esempio 6.1 che segue, è mostrata in Fig Al crescere della numerosità n del campione e per intervalli parziali i sufficientemente piccoli, la funzione f n (x) sarà una buona approssimazione della densità di probabilità f X (x) di quel particolare carattere X della popolazione da cui è stato estratto il campione. Se la popolazione è composta da infiniti elementi, nel passaggio al limite si ha: n i lim n n lim f i = IP(X i ) = f X (x)dx. n i Agli istogrammi delle frequenze si possono associare:

158 150 STATISTICA DESCRITTIVA il poligono delle frequenze relative, che unisce le ordinate f n (x i ) calcolate in corrispondenza dei valori centrali x i delle singole classi (v. Fig. 6.1). Se si effettua il doppio passaggio al limite di f n (x i ) per n e i 0, i, il poligono delle frequenze relative tende al grafico della densità f X (x) del carattere X dell intera popolazione; il grafico delle frequenze cumulate N i e delle frequenze cumulate relative F i. Un esempio di quest ultimo è mostrato in Fig Al crescere di n e per i sufficientemente piccoli, esso approssima il grafico della funzione di distribuzione cumulata F X (x) della variabile casuale X(ω) che rappresenta il carattere della popolazione oggetto di studio. Alla distribuzione delle frequenze cumulate si associa spesso un grafico chiamato ogiva, il quale è la spezzata che unisce i punti (sup i, N i ) di ogni classe, a partire dal punto (a 1, 0) coincidente con l estremo inferiore della prima classe. Con lo stesso criterio, si costruisce anche l ogiva percentuale che unisce i punti (sup i, F i ) nella distribuzione delle frequenze cumulate relative. L ogiva percentuale (v. Fig. 6.2) fornisce una immediata valutazione approssimata (per difetto) della percentuale di elementi del campione che hanno un valore minore o uguale a una quantità prefissata. 6.3 Indici di tendenza centrale e di dispersione Medie, moda, mediana, quantili Cosí come nel calcolo delle probabilità si usano i momenti per individuare alcune proprietà rappresentative della distribuzione probabilistica di una variabile aleatoria, nella Statistica descrittiva si definiscono i seguenti parametri di posizione per le distribuzioni di frequenze. La media pesata x = 1 m n i x i (6.1) n i=1 dove x i è il valore centrale delle classi. Se la serie di dati non è raggruppata in classi, in modo che m n e n i = 1 per ogni i, allora x è la media aritmetica, che in generale non è uguale alla media pesata. La media spuntata x t (trimmed mean), che è la media dei dati calcolata considerando solo il 90% (o qualche altra percentuale) dei dati centrali. Essa si determina ordinando anzitutto la serie dei dati secondo la sequenza crescente: x 1 x 2 x 3... x n (6.2)

159 6.3 Indici di tendenza centrale e di dispersione 151 Si eliminano il primo 5% e l ultimo 5% dei dati della serie cosí ordinata, e si effettua la media (6.1) dei rimanenti. La moda (Mo), che è il valore centrale della classe con la frequenza più elevata. Se esiste più di una classe con un valore massimo delle frequenze, la distribuzione è detta multimodale e questo parametro perde il suo significato di indice di posizione centrale. La mediana x, che si può definire come il valore di x che divide in parti uguali la superficie coperta dall istogramma delle frequenze relative. Se i dati x i sono n determinazioni del carattere X(ω), la mediana è tale che IP(X x) = IP(X > x) = 1/2. Per calcolare la mediana bisogna fare riferimento alla serie di dati ordinata come nella (6.2), e si determina la classe k = [a k, b k ) con indice k = 1, 2,..., m alla quale appartiene l (n/2)-esimo dato nella serie cosí ordinata, se n è pari, oppure l (n + 1)/2-esimo dato della serie, se n è dispari. Se n k, f k sono la frequenza assoluta e relativa di questa classe e N k 1, F k 1 sono le frequenze cumulate della classe che la precede, allora per la definizione di mediana deve essere: 1 2 = N x k 1 n + a k per cui il valore delle mediana risulta: x = a k + k n k n k dx = N k 1 n k n + n k ( x a k ) n k ( n 2 N k 1) = a k + k f k ( 1 2 F k 1). (6.3) Quando la serie di dati non è raggruppata in classi, allora si procede some segue. se n è dispari, la mediana x coincide con il dato che occupa la (n + 1)/2-esima posizione nella serie ordinata; se n è pari, la mediana è la media aritmetica tra i due dati della serie ordinata che occupano la (n/2)-esima posizione e quella successiva. Per distribuzioni unimodali (in cui l istogramma delle frequenze ha un solo massimo) e simmetriche, i quattro parametri di posizione ora definiti coincidono, ma in generale ciò non avviene. Quantile. In modo analogo alla mediana, si definiscono in Statistica altri indici di posizione chiamati quantili o frattili, i quali suddividono l asse reale (sul quale si riportano le modalità del carattere) in due intervalli con probabilità

160 152 STATISTICA DESCRITTIVA assegnata. Precisamente, dato il reale q [0, 1], si chiama quantile q-esimo del carattere X(ω) il valore x q IR tale che IP(X x q ) = F X (x q ) = q ovvero: è il valore massimo delle modalità per cui la frequenza cumulata relativa non supera il valore q. Se la funzione di distribuzione cumulata F X (x) di X(ω) è continua e invertibile, allora si deduce subito che x q = FX 1 (q). Se espressi in percentuale, i quantili vengono chiamati percentili, e inoltre in casi particolari assumono anche nomi affini. Ad esempio: il decimo quantile x 0,1 è chiamato primo decile; il quantile x 0,25 è il primo quartile; il quinto decile x 0,5 non è altro che la mediana x, e cosí via. Quando i dati della serie ordinata sono raggruppati in classi, il suo quantile di ordine q si determina come per la mediana. Precisamente, indicata con k la classe cui appartiene l (n q)-esimo dato, se n è pari, oppure l (n + 1) q-esimo dato, se n è dispari, allora ripetendo il calcolo già fatto per la mediana risulta: che si riduce alla (6.3) per q = 0.5. x q = a k + k n k (nq N k 1 ) = a k + k f k (q F k 1 ) (6.3 ) Quando invece i dati non sono raggruppati in classi, il suo quantile di ordine q si definisce come quel dato che è preceduto da (n q) dati della serie ordinata. Quindi si trova nella (n + 1) q-esima posizione della sequenza x 1 < x 2 <... < x k <... x n, e si calcola come segue. - se (n + 1)q è un numero intero, allora x q coincide con l (n + 1)q-esimo dato x k con k = (n + 1)q; - se (n + 1)q non è intero ed è compreso tra gli interi k e k + 1, si assume come quantile x q la media aritmetica tra i dati x k e x k+1 della serie ordinata. Media mobile. Si usa di frequente per analizzare le serie temporali che si ottengono nel rilevamento di dati su fenomeni caratterizzati da una qualche periodicità (settimanale, mensile o stagionale, come ad esempio il traffico urbano o aeroportuale, la vendita di quotidiani,...) per evitare che le fluttuazioni periodiche dei dati raccolti impediscano di mettere in evidenza le tendenze a medio e lungo termine che interessa rilevare. Data la serie temporale {x 1, x 2,..., x n }, la sua media mobile x t+h su ogni sequenza di k dati consecutivi è definita da k x M (t + h) = p j x t+j, con t = 0, 1, 2,..., n k ; j=1 p j = j

161 6.3 Indici di tendenza centrale e di dispersione serie temporale 10 media mobile Figura 6.0 dove: k indica la periodicità delle rilevazioni; h (compreso tra 1 e k) è un indice che determina la collocazione delle medie mobili all interno dell intervallo di k dati della serie (di solito: h = 1; h = (k + 1)/2 se k è dispari; oppure h = k); e infine p j sono pesi che di solito si scelgono costanti (p j = 1/k, j) ma che possono anche essere scelti arbitrariamente per rappresentare nel modo più adeguato il particolare fenomeno rilevato con la serie statistica. Ad esempio, si abbia la serie temporale raccolta in quattro settimane di osservazioni giornaliere x i che è riportata nella seconda colonna della Tabella che segue. i x t i media mobile i x t i media mobile , , , , , , , , , , , , , , , , , , , , , , La media mobile settimanale (k = 7) dei dati, calcolata in modo che ogni valore sia collocato al centro dell intervallo di dati di riferimento (h = (k + 1)/2 = 4), e assumendo pesi costanti p j = 1/7, ha il valore indicato nella quarta colonna e il suo grafico è mostrato in Figura 6.0.

162 154 STATISTICA DESCRITTIVA Indici di dispersione Quando i dati sono raggruppati in classi, l indice di dispersione centrale della distribuzione di frequenze è la varianza: σ 2 = 1 m n i (x i x) 2 (6.4) n i=1 ovvero la somma dei quadrati degli scarti x i x tra ogni valore centrale e la media pesata della distribuzione. La sua radice quadrata positiva σ è lo scarto quadratico medio o deviazione standard della distribuzione. Si chiama inoltre coefficiente di variazione il numero puro C v = σ/x, rapporto tra la deviazione standard e la media dei dati. Se gli n dati x i non sono raggruppati in classi, la loro varianza è diversa dalla (6.4), e vale: σ 2 = 1 n (x i x) 2. (6.4 ) n i=1 Una interessante proprietà di quest ultima varianza (6.4 ) è la seguente. Supponiamo che i dati osservati si riferiscano a un miscuglio di m gruppi A i, i = 1,..., m (come caso molto speciale, questo miscuglio può anche identificarsi con l insieme delle classi i prima definite). Se ogni gruppo contiene n i dati x ri con r i = 1,..., n i, la media aritmetica e la varianza dei dati appartenenti a ciascun gruppo sono rispettivamente: Il parametro: x Ai = 1 n i n i r i =1 x ri, σi 2 = 1 f i (x ri x Ai ) 2. (6.4 ) f i σw 2 = 1 m n i σi 2 n i=1 è la media pesata delle varianze calcolate all interno ( within ) dei singoli gruppi, e si avvicina alla varianza (6.4 ) se tutti i gruppi riproducono in modo omogeneo la dispersione che caratterizza gli n dati osservati. Il parametro: r i =1 σb 2 = 1 m n i (x Ai x) 2 n i=1 è la varianza delle singole medie rispetto alla media aritmetica, ed è un indice della eterogeneità tra ( between ) i vari gruppi. Con alcuni calcoli si può dimostrare che la varianza (6.4 ) si può scomporre nella somma delle due precedenti: σ 2 = σ 2 W + σ 2 B,

163 6.3 Indici di tendenza centrale e di dispersione 155 per cui si può sinteticamente esprimere come la somma tra la media delle varianze e la varianza delle medie. Il confronto tra i valori di σw 2 e σ2 B può essere utile per effettuare una scelta corretta di un campione della popolazione, secondo le procedure che verranno illustrate nel prossimo Capitolo. Il momento centrale di ordine 3 di una distribuzione è, per definizione: m 3 = 1 m n i (x i x) 3. (6.5) n i=1 Quest ultimo è utile per calcolare il coefficiente di asimmetria della distribuzione di frequenze, il quale è il numero puro: α 3 = m 3 σ 3 (6.6) dove σ è lo scarto quadratico medio della distribuzione. Questo coefficiente è nullo se la distribuzione è simmetrica; è negativo se è asimmetrica a sinistra (ciò si verifica quando la moda è minore della mediana e della media); ed è positivo se la distribuzione di frequenze è asimmetrica a destra. Esempio 6.1 Si misura il peso X, espresso in Kg, di un campione di 100 individui estratti a caso da una popolazione. La sequenza degli n = 100 valori osservati x i, ordinata come nella (6.2), è la seguente: 59.6, 59.8, 60.2, 60.3, 61.8, 62.5, 62.7, 62.95, 63.3, 64.1, 64.15, 64.3, 64.4, 64.9, 65.02, 65.1, 65.15, 65.25, 65.28, 65.3, 65.35, 65.4, 65.45, 65.55, 65.6, 65.6, 65.66, 65.75, 65.9, 66, 66.1, 66.24, 66.35, 66.55, 66.6, 66.65, 66.76, 66.78, 66.9, 67, 67.1, 67.24, 67.35, 67.55, 67.6, 67.6, 67.66, 67.75, 67.79, 67.8, 67.81, 67.82, 67.85, 67.95, 68, 68.1, 68.17, 68.2, 68.29, 68.3, 68.31, 68.34, 68.35, 68.4, 68.48, 68.55, 68.6, 68.65, 68.76, 68.78, 68.9, 69, 69.1, 69.2, 69.3, 69.55, 69.6, 69.6, 69.66, 69.75, 69.79, 69.8, 69.8, 69.8, 70.8, 70.9, 71, 71.1, 71.17, 71.2, 71.29, 71.3, 71.5, 71.8, 72, 72.2, 73, 73.2, 73.8, Poichè il minimo vale 59.6 Kg e il massimo è 74.2 Kg, scegliamo un intervallo = [59.5, 74.5) che contenga tutti i valori registrati, e suddividiamolo in 5 classi di eguale ampiezza i = 3 (sebbene per la regola citata in precedenza il numero di classi più adeguato sarebbe 8 perchè m = 1 + (10/3) 2 = 7.6). Utilizzando le osservazioni fatte si può costruire la seguente tabella di contingenza:

164 156 STATISTICA DESCRITTIVA i classe i x i n i f i Ni F i f i i 1 [59.5, 62.5) ,05 5 0,05 0, [62.5, 65.5) , ,23 0,06 3 [65.5, 68.5) , ,65 0,14 4 [68.5, 71.5) , ,92 0,09 5 [71.5, 74.5) , ,00 0,0266 la quale riporta: i valori centrali, le frequenze assolute e relative e quelle cumulate, per ognuna delle classi scelte. Dalla tabella si può notare subito che i n i = 100 = n e i f i = 1. L ultima colonna serve per costruire l istogramma delle frequenze relative che è mostrato in Fig L ogiva percentuale è invece mostrata in Fig Valutando la sua ordinata per x = 70, si ricava che almeno l 80% degli individui del campione ha un peso non superiore a 70 Kg (il dato esatto, rilevato dalla serie ordinata, è 84%). La moda della distribuzione di frequenze è x = 67 (il valore centrale della classe in cui n i è massima). La media pesata vale: x = 1 ( ) = 67.45, 100 mentre la media aritmetica dei dati è La media spuntata è più vicina alla media aritmetica: si calcola su 90 dati raggruppati nelle quattro classi superiori, perché si ottiene tagliando le code della serie, ossia sopprimendo i primi 5 dati e gli ultimi 5 dati della serie ordinata secondo valori crescenti. Essa vale: x t = 1 [ (8 5)] = La mediana cade nella terza classe, e applicando la (6.3) con k = 3 si ricava: La varianza definita dalla (6.4) vale: ˆx = (50 23) = σ 2 = n i (x i 67.45) 2 = , i=1

165 6.3 Indici di tendenza centrale e di dispersione f i i i 0.05 x x Kg Figura 6.1 F i ogiva percentuale Kg Figura 6.2 mentre quella relativa ai 100 dati non raggruppati, definita dalla (6.4 ), vale Se ora consideriamo separatamente i gruppi di dati appartenenti a ciascuna classe i, le loro medie aritmetiche e varianze, fornite dalla (6.4 ), valgono: x 1 = x 2 = x 3 = x 4 = x 5 = σ1 2 = σ2 2 = σ2 3 = σ2 4 = σ2 5 = Si noti, in particolare, che le medie x i non sono i valori centrali x i delle classi. Si ricavano le seguenti varianze parziali del miscuglio: σ 2 W = , σ 2 B = la cui somma: = è appunto uguale alla varianza dei dati non raggruppati. Poiché σb 2 >> σ2 W si deduce, come d altra parte è ovvio, che le

166 158 STATISTICA DESCRITTIVA cinque classi sono molto eterogenee, ossia che non è possibile assumerne una sola per rappresentare adeguatamente la sequenza dei dati osservati. Il momento centrale di ordine 3 si calcola applicando la (6.5): m 3 = n i (x i 67.45) 3 = , i=1 per cui il coefficiente di asimmetria (6.6) della distribuzione di frequenze vale: α 3 = (8.5275) 3 = Esso indica che la frequenza dei dati nelle classi inferiori alla terza (contenente la moda) è minore della frequenza dei dati nelle classi superiori (la quarta e la quinta) Stem-and-leaf e box-plot Ci sono altri modi per avere una rappresentazione sbrigativa, anche se grossolana, dei dati di una serie statistica. Uno di essi è il diagramma stem-and-leaf ( a ramo e foglia ) il quale si basa, come per gli istogrammi, su una preventiva suddivisione in m classi di uguale ampiezza delle modalità di un carattere quantitativo. Si dispongono su una colonna (il ramo ) le prime cifre significative (le centinaia, o le decine o le unità,...) dell estremo inferiore di ogni classe, e alla destra di ogni numero incolonnato si riportano le foglie, ovvero la cifra successiva (le decine, o le unità, o i decimi,...) di ciascun dato x i che appartiene a quella classe. Ne risulta un diagramma di m righe si completa scrivendo in una prima colonna, posta a sinistra del ramo, le frequenze cumulate a partire dalle due classi estreme, in modo che risultino incolonnati i seguenti valori: N 1, N 2,..., 1 N m 2, 1 N m 1. Fa eccezione la riga della classe che contiene la mediana, nella quale si scrive (tra parentesi) la sua frequenza assoluta anzichè quella cumulata. Ad esempio, data la serie statistica degli n = 11 dati seguenti: e suddiviso l insieme dei dati in m = 3 classi di ampiezza unitaria, questo risulta rappresentato dal seguente diagramma stem-and-leaf: unità decimi (6)

167 6.3 Indici di tendenza centrale e di dispersione 159 Ovviamente si può costruire più di un diagramma per ciascuna serie di dati, e la scelta più conveniente è quella che meglio illustra la disposizione dei dati nella serie ordinata, in modo che il diagramma si presenti come una struttura a barre la cui lunghezza ricorda, almeno grossolanamente, l istogramma delle frequenze che si ricava con le modalità precisate nel 6.2. Se, come ulteriore esempio, riconsideriamo le serie di 100 dati esaminata nell Esempio 6.1, suddivisa in m = 8 classi di ampiezza 0.2, il suo diagramma stem-and-leaf che ha come ramo le decine è il seguente: decine unità (25) Se però costruiamo il diagramma a partire da un ramo che rappresenti le unità, allora si deve considerare un numero doppio di classi (m = 16) e si ottiene uno stem-and-leaf plot molto più dettagliato, ma anche più complicato da determinare: unità decimi (15)

168 160 STATISTICA DESCRITTIVA Entrambi i diagrammi rappresentano con efficacia l addensarsi dei dati nell intervallo (65, 70) Kg. e la loro scarsa dispersione rispetto al valore centrale. Box-plot. Un altro grafico di semplice esecuzione che si traccia per avere una sommaria indicazione sulla distribuzione dei dati di una serie statistica è il box-plot o diagramma a scatola. In una cornice, con base graduata sui valori del carattere rappresentato, si disegna una scatola rettangolare che si estende dal primo quartile x 0.25 al terzo quartile x La differenza x 0.75 x 0.25 è chiamata escursione interquartile. Si suddivide poi la scatola in due rettangoli riportando anche il valore della mediana x 0.5, e si tracciano due segmenti esterni che collegano le parti laterali della scatola ai valori estremi x 1 ed x n della serie statistica ordinata (v. Fig. 6.3). Il grafico che ne risulta indica in modo efficace la dislocazione della metà centrale dei dati della serie (cioé di quel 50% dei dati che sono contenuti nella scatola ) e la eventuale asimmetria della loro distribuzione, che si riconosce subito nel caso in cui la posizione della mediana suddivida la scatola in due parti fortemente disuguali. a b Figura Esempi di diagrammi a scatola La Fig. 6.3a) mostra il box-plot che rappresenta gli 11 dati della serie statistica sopra introdotta. Poiché (n + 1)/4 = 12/4 = 3 è intero, il suo primo quartile è il terzo dato della serie ordinata, e il terzo quartile è il nono dato: x 0.25 = 1.95 ; x 0.75 = Quindi la scatola ha una ampiezza uguale all escursione interquartile = 0.9 ed è suddivisa in due parti disuguali dal valore della mediana x 0.5 = 2.25, che è il sesto dato della serie ordinata. La Fig. 6.3b) riporta invece il box-plot relativo alla serie di 100 dati dell Esempio 6.1. Poiché (n + 1)/2 non è intero, il suo primo quartile è la media aritmetica tra il 25-esimo e il 26-esimo dato della serie, ovvero x 0.25 = 65.6 (questi due dati sono addirittura uguali); e il terzo quartile è la media aritmetica tra il 75-esimo e il 76-esimo: x 0.75 = = La mediana della serie di dati non raggruppati, che è diversa da quella prima calco-

169 6.4 Distribuzioni congiunte di frequenze 161 lata applicando la (6.3), è la media aritmetica tra il 50-esimo dato e il 51-esimo: x 0.5 = = Il diagramma a scatola che ne risulta rivela con buona evidenza una bassa escursione interquartile e una moderata asimmetria della distribuzione dei dati. 6.4 Distribuzioni congiunte di frequenze I metodi di analisi dei dati raccolti che sono stati illustrati nei paragrafi precedenti si possono impiegare anche quando il campione è la collezione di n dati riguardanti due caratteri differenti di una medesima popolazione, che indichiamo con X e Y. In tal caso il campione si presenta come un insieme di n coppie (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) (6.7) in cui i numeri reali x k e y k, k = 1,..., n, sono le determinazioni di X e di Y. Indicati con x, y IR gli insiemi delle modalità dei due caratteri, suddividiamo x in m intervalli, y in l intervalli, e definiamo una arbitraria partizione di = x y IR 2 in m l classi disgiunte, costituite dai rettangoli ij = [a i, b i ) [c j, d j ), i = 1, 2,..., m; j = 1, 2,..., l aventi come valore centrale il punto (x i, y j ) = ((a i + b i )/2, (c j + d j )/2). L analisi delle coppie di dati (6.7) porta allora alla valutazione empirica approssimata delle quantità già definite nel Capitolo 3. Precisamente, si può determinare: il numero n ij di coppie in cui la modalità di X appartiene all intervallo [a i, b i ) e quella di Y appartiene all intervallo [c j, d j ). Questo numero n ij è la frequenza assoluta congiunta della classe ij ; la frequenza relativa congiunta f ij = n ij /n che, se divisa per l area della classe ij, porta alla costruzione di un istogramma tridimensionale rappresentante la distribuzione delle probabilità empiriche congiunte; la frequenza cumulata congiunta N ij, che è la somma delle frequenze assolute congiunte delle classi rs con r i ed s j ; la frequenza cumulata relativa congiunta F ij = N ij /n, che è la somma delle probabilità empiriche congiunte f rs con r i, s j ; le probabilità empiriche marginali dei caratteri X e Y, che sono rispettivamente: i = 1,..., m : f i = 1 l n ij ; j = 1,..., l : f j = 1 m n ij. n n j=1 i=1

170 162 STATISTICA DESCRITTIVA L organizzazione dei dati raccolti nel campione (6.7) si può effettuare costruendo tabelle a doppia entrata analoghe a quella di Fig che riportano per ogni classe ij i valori di una delle grandezze sopra elencate. Covarianza Il più importante momento centrale di una distribuzione empirica congiunta è la covarianza dei dati su X e Y rilevati nel campione. In Statistica si usa indicarla con s xy e, in analogia con le (3.19), (3.7) vale: s xy = 1 m l n ij (x i x)(y n j y) 1 m l n ij x i y n j x y (6.8) i=1 j=1 i=1 j=1 dove x i, y j sono i valori centrali di X e Y nella classe ij, e x, y sono le medie delle distribuzioni empiriche marginali di X e Y, definite come nella (6.1). Se le modalità delle n coppie di dati (x k, y k ) non sono state raggruppate in classi, allora la covarianza dei dati si può calcolare con la somma: s xy = 1 n (x k x)(y k y) = 1 n x k y k x y, (6.8 ) n n k=1 k=1 dove x, y sono le medie aritmetiche dei dati x k e y k. Nel paragrafo che segue vedremo come, insieme con le varianze marginali di X e Y, la covarianza (6.8) sia di fondamentale importanza per definire, attraverso l analisi del campione (6.7), il grado di correlazione lineare esistente tra le modalità dei due caratteri della popolazione che sono stati esaminati. Contingenza e indice di connessione Supponiamo ora che i due caratteri X, Y siano statisticamente indipendenti. In tale ipotesi, ogni realizzazione di X non è condizionata dalle realizzazioni di Y o viceversa, e ricordando la proprietà (3.12) del Capitolo 3 le frequenze relative congiunte f ij = n ij /n rilevate dal campione dovrebbero teoricamente essere uguali al prodotto: f i f j = (n i /n)(n j /n) delle probabilità empiriche marginali, per ogni i = 1,..., m e j = 1,..., l. E assai raro che ciò si verifichi in una generica coppia del campione esaminato, e per valutare in che misura sia rispettata nel campione questa legge di indipendenza si può determinare la differenza tra queste due quantità, moltiplicate per n. Il parametro statistico che ne risulta è c ij = n ij n in j n e si chiama contingenza della coppia (i, j). Poichè coinvolge unicamente le frequenze assolute (miste e marginali) delle varie classi, essa si può impiegare anche quando si è in presenza di caratteri qualitativi di una popolazione (mentre invece la covarianza si riferisce esclusivamente a caratteri quantitativi). Più utile ai fini pratici è un indice che si basa sulla media quadratica delle contingenze rilevate per ogni coppia del campione, che prende il nome di indice di connessione

171 6.5 Regressione lineare 163 χ 2 di Pearson ed è cosí definito: m l χ 2 (n ij n i n j /n) 2 = n n i n j i=1 j=1 m l n 2 = n ij 1. n i n j i=1 j=1 Questo indice, che è nullo solo quando tutti i dati del campione soddisfano rigorosamente la già citata legge di indipendenza (3.12), è usato nei tests che saranno trattati nel 10.3 del Capitolo 10, atti a verificare ipotesi di indipendenza statistica tra due caratteri qualsiasi di una popolazione. 6.5 Regressione lineare Supponiamo di essere interessati a scoprire se e come il carattere Y della popolazione è in qualche modo legato al carattere X. Se riportiamo sul piano (x, y) i punti con coordinate (x k, y k ) forniti dal campione (6.7), si ottiene un cosiddetto diagramma di dispersione (del tipo che verrà mostrato in Fig. 6.4), dal quale si può in certi casi intuire che il carattere X influenza il carattere Y. Una valutazione statistica quantitativa di come ciò avviene si ha solo se si ipotizza una relazione analitica y = f(x) in cui le modalità di Y sono espresse in funzione di quelle del carattere X, pensato come una variabile indipendente. La stima di questa funzione è chiamata regressione di Y su X. La scelta della legge f dipende ovviamente da caso a caso, ma quella che si usa di solito è anche la più semplice: la funzione lineare. In altre parole, si effettua una regressione lineare quando si ipotizza che i dati y k forniti dal campione (6.1) siano deducibili dai dati x k secondo la legge: y = f(x) = a + bx (6.9) e si determinano i coefficienti a, b in modo che la stessa descriva nel miglior modo possibile il legame tra i dati osservati nel campione. La determinazione di a, b viene fatta minimizzando lo scarto quadratico medio tra tutti i valori y k osservati e quelli che si ottengono in funzione di x k dalla relazione lineare (6.9). Questo scarto quadratico medio vale: S(a, b) = 1 n [y k f(x k )] 2 = 1 n (y k a bx k ) 2 (6.10) n n k=1 k=1 e, interpretato come funzione dei coefficienti incogniti a, b, ha derivate parziali S a S b = 2 n = 2 n n (a y k + bx k ) k=1 n k=1 (bx 2 k x k y k + ax k )

172 164 STATISTICA DESCRITTIVA le quali si annullano per a 1 y k + b x k = 0 n n k k b x 2 k 1 x k y k + a x k = 0. (6.11) n n n k Ricerchiamo i punti di stazionarietà di S(a, b). Dal sistema (6.11) si ricava: k a = 1 y k b x k = y bx n n k k b x 2 k 1 x k y k + x(y bx) = 0 n n k k dove x, y sono i valori medi di X, Y. Usando ora l espressione (6.8 ) della covarianza dei dati, si ottiene: a = y s xy σx 2 x, k b = s xy σ 2 x dove σ 2 x è la varianza della distribuzione marginale di X. (6.12) Il punto di stazionarietà (6.12) è un minimo per S(a, b). Infatti, sia le derivate seconde di S(a, b) che il determinante della matrice Hessiana sono positivi: 2 S a 2 = 2 ; 2 S b 2 det(h) = 2 S a 2 2 S b 2 = 2 x 2 k > 0; n k ( 2 ) 2 S = 4 a b ( 1 n 2 S a b = 2x ) x 2 k x 2 = 4σx 2 > 0. Se ne conclude che la stima migliore dei valori del carattere Y, fatta sulla base delle osservazioni del carattere X secondo la legge lineare (6.9), è fornita dalla retta di regressione: y = y + s xy σx 2 (x x) (6.13) il cui coefficiente angolare è direttamente proporzionale alla covarianza dei dati (x k, y k ). Se indichiamo con k ξ = x x, η = y y (6.14) gli scarti delle due modalità rispetto alle loro medie aritmetiche, la (6.13) si scrive più semplicemente: η = bξ (6.13 ) che nel piano traslato (ξ, η) con origine in (x, y) è l equazione della retta di regressione per gli scarti (di Y su X) rispetto alle loro medie. Il coefficiente b, definito nella (6.12), si chiama coefficiente di regressione lineare di Y su X, ed è il parametro più

173 6.5 Regressione lineare 165 importante nella stima della regressione che abbiamo effettuato: esso è una misura della variazione del carattere Y per una assegnata variazione del carattere X. La legge lineare (6.13) non è esatta: esiste una differenza tra f(x k ) = a + bx k e i dati y k effettivamente osservati. Questa differenza si chiama residuo: r k = y k f(x k ) = y k a bx k ed in generale è diversa da zero per ogni k. Tuttavia, la somma dei residui è nulla: infatti ricordando il risultato (6.12) si ha sempre: r k = (y k a bx k ) = n(y a bx) = 0. k k Se valutiamo l errore commesso, calcolando il minimo dello scarto quadratico medio S(a, b), che si ha per a, b definiti dalla (6.12), questo errore minimo fornisce una indicazione quantitativa sulla validità della ipotesi fatta sulla dipendenza lineare di Y da X. Sostituiamo nella (6.10) le espressioni (6.12) di a, b, usando le definizioni (??) degli scarti ξ, η. Si trova che l errore quadratico medio di cui sono affette le (6.13), (6.13 ) vale: ɛ = 1 ( η k s ) 2 xy n σ 2 ξ k = 1 ηk 2 + s2 xy k x n nσ 4 ξk 2 2s xy k x nσ 2 ξ k η k = k x k ( ) dove: = σ 2 y + s2 xy σ 2 x 2 s2 xy σ 2 x = σ 2 y 1 s2 xy σ 2 xσ 2 y ρ(x, Y ) = s xy σ x σ y [ 1, 1] è il coefficiente di correlazione tra i dati delle coppie (cfr. coefficiente di determinazione lineare. = σ 2 y[1 ρ 2 (X, Y )] la 3.9), detto anche Dunque, la stima effettuata mediante la relazione lineare (6.13) è esatta se ρ = 1 e in tal caso si dice che esiste una perfetta correlazione tra X ed Y. La stima è valida se ρ è molto prossimo a 1, e non è efficace per piccoli valori di ρ, perché allora i caratteri X e Y sono scarsamente correlati e l errore quadratico medio ɛ cresce, avvicinandosi al valore σ 2 y della varianza dei dati y k, che può anche essere elevata. Al limite per ρ 0, la covarianza s xy e il coefficiente di regressione b tendono a zero, con la conseguenza che i valori stimati di y k tendono alla loro media aritmetica y. In questo caso limite i caratteri X e Y sono non correlati, nel senso che non si può dire che esista una relazione lineare che lega le loro realizzazioni. Dobbiamo però anche osservare che la non correlazione non esclude la possibilità di una loro dipendenza con legge diversa da quella lineare (per esempio: quadratica, come descritto nel 6.7 che segue). A conferma di questa affermazione basta ricordare che la non correlazione è una proprietà più debole della indipendenza statistica ( 3.1.1, 3.1.2).

174 166 STATISTICA DESCRITTIVA La radice quadrata positiva dell errore ɛ sopra calcolato si chiama errore standard σ xy della regressione lineare, e vale: Esempio 6.2 σ xy = σ y 1 ρ 2 (X, Y ). (6.14) Da n = 12 osservazioni dei caratteri X e Y di una popolazione si ricavano le seguente coppie di dati (x k, y k ): (65, 68) (63, 66) (67, 68) (64, 65) (68, 69) (62, 66) (70, 68) (66, 65) (68, 71) (67, 67) (69, 68) (71, 70) che in Fig. 6.4 sono rappresentate da 12 punti del piano (x, y). Si vuole verificare se, e con quale errore standard, si può affermare che le modalità di Y dipendono da quelle di X con una legge di regressione lineare del tipo (6.13). y y x Figura Regressione lineare Le medie aritmetiche e le varianze marginali valgono: x = 1 x k = = 66.6 y = 1 12 σ 2 x = 1 12 σ 2 y = 1 12 k k k k y k = = x 2 k x 2 = y 2 k y 2 = xy x = = y = a + bx La covarianza della coppie di dati, da calcolare applicando la (6.8 ), vale: s xy = 1 12 k x k y k = = =

175 6.6 Regressione multipla 167 Ne segue, applicando la (6.12), che i coefficienti a, b della retta di regressione di Y su X valgono: b = = a = = Sulla base dei valori osservati, la migliore stima dei valori di Y è dunque fornita dalla retta di regressione: y = x che è indicata in Fig. 6.4, e nel piano traslato degli scarti (ξ, η) con origine nel punto (x = 66.6, y = ) ha equazione η = ξ. Per valutare l errore quadratico medio ɛ della regressione effettuata, è sufficiente calcolare ancora il coefficiente di correlazione delle coppie di dati, che vale: ρ(x, Y ) = s xy σ x σ y = = Il suo valore ragionevolmente vicino all unità indica che la legge di dipendenza lineare di Y da X può essere sostenuta, almeno in un modello di previsione statistica di prima approssimazione. Da questo calcolo si ricava: ɛ = σ 2 y[1 ρ 2 (X, Y )] = 3.243( ) = la cui radice quadrata è l errore standard della regressione lineare: σ xy = ɛ = Se si riportano in Fig. 6.4 le rette di equazione y = a + bx ± σ xy, si può osservare che nella regione compresa tra queste due rette cadono 8 dei 12 punti campionari: dunque internamente alle due rette si trova il 66.6% delle osservazioni registrate nel campione con numerosità n = 12. Questo risultato percentuale dà una indicazione approssimata sulla significatività della regressione effettuata. Nell ambito della teoria dei campioni, che sarà sviluppata nei prossimi Capitoli, si vedrà che al crescere di n le distribuzioni dei dati x k e y k tendono teoricamente a leggi normali con medie rispettivamente uguali a x e y. Ciò significa che al crescere di n anche la distribuzione dei punti del piano (x, y) attorno alla retta di regressione tende alla legge normale, e in tale circostanza il calcolo delle probabilità per leggi normali (cfr ) prevede che il 68.27% (anzichè il 66.6%) dei punti campionari siano interni alle rette y = a + bx ± σ xy. 6.6 Regressione multipla Il metodo di regressione lineare visto nel precedente paragrafo si può estendere allo studio della dipendenza di un carattere Y da più caratteri X, Z,... della medesima

176 168 STATISTICA DESCRITTIVA popolazione. Consideriamo in particolare il caso in cui, avendo a disposizione una serie di n terne (x k, y k, z k ) riguardanti tre caratteri X, Y, Z della popolazione, si voglia studiare la regressione lineare di Y sui due regressori X e Z, che si suppone non siano linearmente dipendenti l uno dall altro. Introdotti allora gli scarti dei dati rispetto alle loro medie aritmetiche: ξ = x x, η = y y, ζ = z z, si pone η = f(ξ, ζ) = b 1 ξ + b 2 ζ (6.15) che generalizza la (6.13 ) e si determinano i coefficienti di regressione parziale b 1, b 2 che rendono minima la media dei quadrati delle differenze tra η k e f(ξ k, ζ k ): S(b 1, b 2 ) = 1 (η k b 1 ξ k b 2 η k ) 2. (6.16) n k Annullando le derivate parziali di S(b 1, b 2 ), che valgono: si ottiene il sistema S b 1 = 2 n S b 2 = 2 n b 1 n b 2 n k k n (b 1 ξk 2 + b 2 ξ k ζ k ξ k η k ) k=1 n k=1 ξ 2 k + b 2 n ζ 2 k + b 1 n (b 2 ζ 2 k + b 1 ξ k ζ k η k ζ k ), ξ k ζ k = 1 ξ k η k n k k ξ k ζ k = 1 ζ k η k. (6.17) n k k Se teniamo conto che per definizione le varianze marginali e le covarianze tra i dati delle coppie (x k, y k ), (x k, z k ), (y k, z k ) sono rispettivamente: σx 2 = 1 ξ n k, 2 k s xy = 1 ξ k η k, n k si ottiene la seguente soluzione del sistema (6.17): σy 2 = 1 η n k, 2 σz 2 = 1 ζk 2 n k k s xz = 1 ξ k ζ k, s yz = 1 η k ζ k, n n k k b 1 = s xyσ 2 z s xz s yz σ 2 xσ 2 z s 2 xz b 2 = s yzσx 2 s xz s xy σxσ 2 z 2 s 2. (6.18) xz Questi sono i valori dei coefficienti parziali di regressione che, introdotti nella (6.15), determinano l equazione del piano di regressione di Y sui due caratteri X e Z, stimata in modo da rendere minimo l errore quadratico medio (6.16).

177 6.7 Regressione non lineare 169 Questa regressione multipla perde significato se i caratteri X, Z sono legati da una relazione rigorosamente lineare, in modo che per ogni k risulti x k = c 1 +c 2 z k. Infatti, si noti che i denominatori comuni ai due coefficienti (6.18) si possono anche scrivere: σ 2 xσ 2 z s 2 xz = σ 2 xσ 2 z[1 ρ 2 (X, Z)], e si annullano per ρ(x, Z) = 1, ossia quando X e Z sono legati da una relazione lineare. Al contrario, quando X e Z sono completamente scorrelati si ha ρ(x, Z) = 0, e in tal caso b 1 e b 2 si identificano con i coefficienti delle regressioni semplici di Y, effettuate separatamente su X e su Z. Ripristinando nella (6.15) le variabili originarie al posto degli scarti, si ricava subito che l equazione di questa regressione multipla nel sistema di riferimento (x, y, z) è con a = y b 1 x b 2 z, e b 1, b 2 dati dalle (6.18). y = f(x, z) = a + b 1 x + b 2 z (6.16 ) 6.7 Regressione non lineare Se la regressione semplice lineare di Y su X, trattata nel 6.5, non ha un esito soddisfacente perché il suo errore standard (6.14) è troppo elevato, si deve cercare una legge f(x), non più lineare, che meglio approssimi la relazione esistente tra i dati del campione (sempreché, naturalmente, questa relazione esista). Si può per esempio effettuare una regressione quadratica: η = f(ξ) = b 1 ξ + b 2 ξ 2 (6.19) per scarti tra i dati di Y su X, oppure scegliere altre leggi (esponenziale, logaritmica, iperbolica,..) che pensiamo siano più adatte a rappresentare la relazione cercata. Nel caso della regressione (6.19), i coefficienti b 1, b 2 si possono ancora calcolare minimizzando lo scarto quadratico medio tra η k e f(ξ k ), ma è più comodo determinarli utilizzando i risultati della regressione multipla appena effettuata nel paragrafo precedente. A tal fine, si introduce la definizione di un carattere fittizio Z = X 2 e si sostituisce il suo scarto ζ = z z al posto di ξ 2 nella (6.19). Con tale posizione, la regressione quadratica (6.19) è equivalente alla regressione lineare multipla (6.15), che è certamente non singolare perché ζ, pur essendo una funzione di ξ, non dipende linearmente da quest ultima. I coefficienti parziali di questa regressione multipla, già determinati nella (6.18), sono anche quelli che rendono minimo l errore quadratico medio nella regressione (6.19). Pertanto, in termini delle variabili originarie x, y, la regressione quadratica di Y su X risulta definita da con b 1, b 2 dati ancora dalle (6.18), e inoltre y = f(x) = a + b 1 x + b 2 x 2 (6.20 ) a = y b 1 x b 2 z = y b 1 x b 2 n x 2 k. (6.20) k

178 170 STATISTICA DESCRITTIVA Il medesimo artificio, consistente nell introdurre uno o più caratteri fittizi, è generalmente usato, in Statistica, per effettuare altre speciali regressioni non lineari che si possono rendere formalmente equivalenti a regressioni lineari multiple. Esempio 6.3 Si ha motivo di ritenere che le modalità del carattere Y di una popolazione abbiano un minimo per un certo valore (incognito) di un secondo carattere X della medesima popolazione. Si vuole ricercare questo minimo mediante l analisi di 10 coppie di dati (x k, y k ), ricavate da osservazioni fatte ad intervalli costanti di X. Dalla serie di dati, che è la seguente: (10, 37) (15, 27) (20, 31) (25, 27) (30, 36) (35, 44) (40, 45) (45, 51) (50, 62) (55, 66), 80 y y = x x x Figura Regressione quadratica si ricava che x = 32.5, y = Calcolati gli scarti di x k e y k rispetto a queste medie, effettuiamo la regressione quadratica (6.19) di Y su X, ricavando dapprima le modalità z k del carattere fittizio Z = X 2. Esse sono: 100, 225, 400, 625, 900, 1225, 1600, 2025, 2500, 3025 ed hanno media aritmetica z = Calcolando quindi anche gli scarti ζ k = z k z, siamo in grado di effettuare la regressione lineare multipla (6.61) di Y sui due regressori X e Z = X 2. Procedendo con i seguenti calcoli: σx 2 = 1 10 σz 2 = 1 10 s xz = 1 10 si ricava dalle (6.18): k k k ξ 2 k = σ 2 y = 1 10 ζ 2 k = s xy = 1 10 ξ k ζ k = s yz = 1 10 b 1 = , b 2 = ηk 2 = k ξ k η k = 167 k k η k ζ k = 11745

179 6.8 Problemi risolti 171 e dalla (6.20): a = La parabola che rende minimo l errore quadratico medio della regressione (6.20 ) è pertanto: y = x x 2 e il suo grafico è mostrato in Fig Il minimo della parabola di regressione si trova nel punto ( b 1, b2 1 4ab ) 2 = ( , 30.96) 2b 2 4b 2 del piano (x, y) e fornisce una risposta al nostro problema, che ovviamente non sarebbe stato possibile ottenere attraverso una regressione lineare. 6.8 Problemi risolti 6.1. Da un campione con numerosità n = 16 si estrae la seguente serie statistica di dati (non raggruppati in classi): 10, 14, 8, 11, 11, 15, 12, 9, 12, 17, 10, 5, 6, 14, 12, 13. Calcolare: la media aritmetica, la media pesata, la media spuntata, la moda e la mediana della serie. Soluzione: La serie ordinata per valori crescenti è 5, 6, 8, 9, 10, 10, 11, 11, 12, 12, 12, 13, 14, 14, 15, 17. La media aritmetica è uguale alla media pesata e vale x = [ ] = = La media spuntata vale x t = [ ] = = La moda è la determinazione che ha la maggiore frequenza, ossia 12. La mediana è la media aritmetica tra l ottavo e il nono dato della serie ordinata: x = x 8 + x 9 2 = = Da 10 osservazioni del carattere di una popolazione si ricavano questi valori:

180 172 STATISTICA DESCRITTIVA 5.8, 7, 4.7, 5, 5.2, 6.1, 6.5, 7.6, 4.1, 6.3. Rappruppati questi dati in 4 classi di ampiezza unitaria, calcolare: la media delle varianze σw 2, la varianza delle medie σ2 B e la varianza delle osservazioni effettuate. Soluzione: Dai dati della serie ordinata: 4.1, 4.7, 5, 5.2, 5.8, 6.1, 6.3, 6.5, 7, 7.6 si ricava questa tabella per le frequenze e le varianze dei dati in ciacuna classe: classe x Ai n i σi 2 [4, 5) [5, 6) [6, 7) [7, 8) La media aritmetica dei dati non raggruppati vale x = 1 [ ] = La media delle varianze σ 2 i vale: e la varianza delle medie è σw 2 = 1 4 n i σi 2 = i=1 σb 2 = 1 4 n i (x Ai 5.83) 2 = i=1 La loro somma è uguale alla varianza dei dati non raggruppati: σ 2 = k=1 (x k 5.83) 2 = σ 2 W + σ 2 B = = Dalle osservazioni effettuate su due caratteri X, Y di una popolazione si ricavano questi campioni: A : (5, 124) (9, 300) (4, 112) (7, 160) B : (4, 112) (5, 124) (5, 120) (4, 124). Quale dei due mostra un maggior grado di dipendenza statistica tra i caratteri osservati?

181 6.8 Problemi risolti 173 Soluzione. Indichiamo con (x i, y j ), i, j = 1,..., 4 i dati delle quattro coppie campionarie. Nel campione A nessun dato si ripete, per cui la frequenza congiunta di ciascuna coppia e quelle marginali valgono: n 11 = n 22 = n 33 = n 44 = 1, n ij = 0 per i j n i = n j = 1. Con queste frequenze si calcola l indice di connessione di Pearson per il campione A: χ 2 A = n 1 1 = 4(4 1) = 12. i=j Nel campione B i dati sono: x 1 = 4, x 2 = 5 y 1 = 112, y 2 = 120, y 3 = 124 e le relative frequenze si possono disporre nella seguente tabella a doppia entrata: n ij n j n i Ne segue che l indice di connessione per il campione B vale: ( 1 χ 2 B = ) = 2. Quindi i due caratteri hanno il maggior grado di dipendenza statistica nel campione A, perchè il suo indice χ 2 è maggiore di quello di B Determinare la mediana dei seguenti insiemi di dati campionari, non raggruppati in classi: A = { } B = { } C = { }

182 174 STATISTICA DESCRITTIVA Soluzione. Ordiniamo i dati dei campioni per valori crescenti: A = { } (n = 5) B = { } (n = 8) C = { } (n = 6). Nel campione A (n dispari) la mediana è il terzo dato: x(a) = 9. Nei campioni B e C (n pari) le mediane sono la media aritmetica dei due valori centrali: x(b) = (9 + 11)/2 = 10 ; x(c) = ( )/2 = Determinare la retta di regressione per i seguenti dati sperimentali (x k, y k ): (10, 121) (20, 98) (30, 75) (40, 59) (50, 38) ricavati in 5 prove sui caratteri X e Y di una popolazione, e calcolare l errore standard della regressione effettuata. Soluzione. x = 1 ( ) = 30 5 y = 1 ( ) = σ 2 x = 1 5 [(10 30) (50 30) 2 ] = 200 σ 2 y = 1 5 [( ) ( ) 2 ] = s xy = 1 [(10 30)( ) (50 30)( )] = a = = ; b = = La retta di regressione è quindi: y = x. Il coefficiente di correlazione tra i dati delle coppie vale: ρ(x, Y ) = = , per cui l errore standard della regressione risulta: σ xy = [1 ( ) 2 ] Calcolare la mediana, il secondo decile e il terzo quartile di questi due insiemi di dati campionari non raggruppati: A = { }; B = { }

183 6.8 Problemi risolti 175 Soluzione. Nel campione A in cui n = 10, ordinato per valori crescenti {x k } con k = 1,..., 10: , la mediana x, il secondo decile x 0.2 e il terzo quartile x 0.75 valgono: x = (x 5 + x 6 )/2 = ( )/2 = 13.5 (n + 1) 0.2 = 2.2 x 0.2 = (x 2 + x 3 )/2 = (8 + 8)/2 = 8 (n + 1) 0.75 = 8.25 x 0.75 = (x 8 + x 9 )/2 = ( )/2 = 26. Nel campione B in cui n = 5, ordinato per valori crescenti {x k } con k = 1,..., 5: , la mediana x e i quantili x 0.2, x 0.75 valgono: x x 3 = 18 (n + 1) 0.2 = 1.2 x 0.2 = (x 1 + x 2 )/2 = (6 + 15)/2 = 10.5 (n + 1) 0.75 = 4.5 x 0.75 = (x 4 + x 5 )/2 = ( )/2 = E dato il campione ( 2, 5) (5, 31) (2, 22) ( 1, 12) (6, 45) ricavato da 5 osservazioni (x k, y k ) dei caratteri (X, Y ). Dopo aver operato la regressione lineare di Y su X determinando la stima ŷ, calcolare i residui r k = y k ŷ k. Soluzione. Con lo stesso procedimento seguito nel Problema 6.5 si calcola anzitutto: x = 2; y = 23; σ 2 x = 10; s xy = 43.4 da cui si ottiene: a = = 14, 32; b = = Dunque la regressione lineare di Y su X consiste nella stima: ŷ = x. I residui valgono: r 1 = 5 ( ) = r 2 = 31 ( ) = r 3 = 22 ( ) = -1 r 4 = 12 ( ) = 2.02 r 5 = 45 ( ) = Verifica: la somma dei residui è zero.

184 176 STATISTICA DESCRITTIVA 6.8. Le frequenze assolute n(i) dei voti riportati da 50 studenti in una prova scritta d esame sono le seguenti: n(< 18) = 15, n(18) = 4, n(19) = 1, n(20) = 4, n(21) = 2, n(23) = 3, n(24) = 4, n(25) = 5, n(26) = 1, n(27) = 5, n(28) = 2, n(29) = 1, n(30) = 3 e la media aritmetica dei voti è Si vuole costruire un istogramma delle frequenze dei voti, composto da 7 classi (aperte a destra): la prima comprendente le insufficienze, e le altre sei di ampiezza x = 2, centrate sui voti 19, 21,..., 29. Quale deve essere l ampiezza della prima classe (insufficienze) perché la media pesata che ne risulta sia uguale a quella aritmetica? Soluzione. Con i dati del problema si costruisce la seguente tabella di contingenza: i classe i x i n i 1?? 15 2 [18,20) [20,22) [22,24) [24,26) [26,28) [28,30] 29 6 Se la media ponderata è uguale a quella aritmetica nota, deve essere = 1 50 (15x ) da cui si ricava: x 1 = = Poiché x 1 è il valore centrale della classe 1, questa deve avere ampiezza uguale a 2( ) = = [8.4, 18) Calcolare l altezza di ciascuna barra dell istogramma delle frequenze relative f(i) dei voti nel Problema 6.8, in modo che la sua area complessiva sia uguale ad 1. Soluzione. Se indichiamo con i l ampiezza delle 7 classi del Problema 6.8 e con h i le altezze delle barre dell istogramma, deve essere per cui si ricava h 1 = n ; i = 2,..., 7 : h i = n i 50 i = n i 50 2 = 0.01 n i 15 h 1 = = h 2 = 0.05 h 3 = 0.06 h 4 = 0.03 h 5 = 0.09 h 6 = 0.06 h 7 = 0.06.

185 6.8 Problemi risolti 177 Verifica: 7 i h i = ( ) = = 1. i= (a) Determinare la retta di regressione di Y su X per la seguente serie statistica di 5 coppie (x k, y k ) di osservazioni: (1, 8) (2, 12) (3, 22) (4, 28) (5, 30). (b) Calcolare il coefficiente di correlazione ρ(x, Y ). (c) Si può affermare che la stima lineare è valida? Perché? (d) Calcolare l errore standard σ xy della regressione effettuata. Soluzione. (a) Con calcoli analoghi a quelli del Problema 6.5 si ricava: x = 15/5 = 3 ; y = 100/5 = 20 σx 2 = 1 ( ) 9 = 2 5 σy 2 = 1 ( ) 400 = s xy = 1 ( ) 3 20 = 12 5 da cui: b = 12/2 = 6 ; a = = 2. Dunque la retta di regressione è: y = 2 + 6x. (b) coefficiente di correlazione: ρ(x, Y ) = (c) SI, perché il coefficiente di correlazione è molto prossimo ad 1. (d) errore standard: σ xy = 75.2[1 (0.9785) 2 ] In una indagine su 180 famiglie si rileva la spesa annuale X sostenuta per l acquisto di quotidiani e quella annuale Y effettuata per l acquisto di CD musicali. L importo delle spese è espresso in migliaia di lire e raggruppato in 3 classi x i per i quotidiani e 4 classi y j per i CD. La tabella riporta il numero n ij di famiglie che hanno sostenuto spese appartenenti alle classi x i e y j. Y [0 200) [ ) [ ) [ ) X [50 250) [ ) [ )

186 178 STATISTICA DESCRITTIVA (a) Calcolare la media pesata della spesa totale Z = X + Y ; (b) dire se i caratteri X e Y sono correlati, giustificando la risposta; (c) calcolare la deviazione standard di Z. Soluzione. (a) La media pesata di Z è la somma delle medie pesate di X e Y. I valori centrali e le frequenze marginali di X nelle tre classi sono: x 1 = 150, n 1 = 86; x 2 = 350, n 2 = 52; x 3 = 550, n 3 = 42. Per le spese Y, suddivise in 4 classi, si ha: y 1 = 100, n 1 = 33; y 2 = 300, n 2 = 69; y 3 = 500, n 3 = 60; y 4 = 700, n 4 = 18. Quindi le medie pesate di X e Y valgono: X = 1 ( ) = y = 1 ( ) = da cui si ottiene Z = = (b) La covarianza dei due caratteri vale s xy = E(XY ) X Y = 1 ( ) = = e poiché è diversa da zero, i due caratteri sono correlati. (c) La deviazione standard di Z vale σ Z = σx 2 + σ2 Y + 2s xy dove: σx 2 = ( )/180 (301.1) 2 = σy 2 = ( )/ = e sostituendo si ottiene: σ Z = = (a) Determinare la retta di regressione y = f(x) per la seguente serie statistica di 5 coppie (x k, y k ) di osservazioni: ( 2, 2) (1, 0) (2, 2) (3, 1) (6, 4). (b) Calcolare la varianza dei residui r k = y k f(x k ). Soluzione (a):

187 6.8 Problemi risolti 179 x = 2; y = 1; σ 2 x = s xy = b = 5 La retta di regressione è: x y = 7 2 = 5 4 = = ; a = = y = x x. 34 (b) La varianza dei residui è uguale al valore minimo dello scarto quadratico medio, ovvero al quadrato dell errore standard σ xy. Infatti, poiché la variabile residuo ha media nulla, si ha r = y k (a + bx k ), k = 1,..., 5 σr 2 = E{[r E{r}] 2 } = E{r 2 } = 1 5 [y k a bx k ] 2 = σy 2 s2 xy 5 σ 2 k=1 x = (σ xy ) 2. Allora è sufficiente calcolare ancora per ottenere: σ 2 y = σ 2 r = = =

188 180 STATISTICA DESCRITTIVA

189 DISTRIBUZIONI CAMPIONARIE 7.1 Modelli statistici I primi tre Capitoli di questo libro hanno trattato la formulazione matematica di un modello probabilistico per un generico esperimento casuale. Si è visto che un modello probabilistico è definito in modo completo quando si precisa lo spazio di probabilità (Ω, B, P ) da associare all esperimento in studio, ovvero lo spazio campione Ω dei possibili esiti, il campo di Borel B degli eventi A i, e il funzionale P : B [0, 1]. In tale modello la probabilità P che si assegna al generico evento A i B è univocamente definita, e si calcola sulla base della distribuzione probabilistica che si assume nota, ed adeguata a descrivere il fenomeno aleatorio oggetto di studio. Tuttavia, nell analisi di un fenomeno reale cui si attribuisce natura casuale, o di una popolazione di individui o di oggetti dotati di caratteri aventi anch essi natura casuale, la legge di probabilità cui questi obbediscono è raramente nota in forma completa. Piú spesso si può soltanto affermare a priori che P appartiene a una famiglia P di leggi probabilistiche (per esempio: alla famiglia delle leggi normali, o binomiali,...) che è la collezione delle leggi di probabilità ammissibili nella descrizione matematica di quel particolare carattere aleatorio. Ci si trova cosí di fronte a un problema che per certi aspetti è l inverso di quello affrontato nel Calcolo delle probabilità, ovvero: determinare la legge P P del carattere, sulla base di informazioni relative a probabilità empiriche ricavate da un campione estratto dalla popolazione. Di questo problema si occupa la Statistica inferenziale la quale, attraverso l analisi dei dati forniti dal campione, ha lo scopo di definire univocamente, e nel miglior modo possibile, la legge probabilistica incognita P che descrive la natura aleatoria di quel particolare carattere della popolazione. Una volta assegnata la famiglia delle leggi probabilistiche che riteniamo ammissibili, l insieme (Ω, B, P) costituisce il modello statistico per il fenomeno casuale (o per il carattere della popolazione) che si sta studiando. Nel seguito supporremo di esaminare un carattere quantitativo di una popolazione o, al piú, un carattere in qualche modo suscettibile di un ordinamento. In tal caso, ogni elemento P P dipenderà in generale da un insieme di parametri incogniti θ i Θ IR, che varia a seconda 181

190 182 DISTRIBUZIONI CAMPIONARIE della famiglia P che caratterizza il modello statistico. I modelli che più frequentemente si adottano nella Statistica inferenziale fanno riferimento a note leggi di distribuzione di probabilità, tra cui quelle citate nel 2.3. Se ad esempio stiamo studiando un carattere che può assumere casualmente qualsiasi modalità in un intervallo limitato ma incognito, il modello statistico più pertinente è quello uniforme con due parametri, che si indica con R(θ 1, θ 2 ) ed è definito dalla famiglia di densità: 1 f(x, θ 1, θ 2 ) =, x [θ 1, θ 2 ], θ 2 θ 1 i cui parametri incogniti sono da ricercarsi nel dominio Θ = {(θ 1, θ 2 ) : < θ 1 < θ 2 < + }. Se si suppone che il carattere sia distribuito normalmente, con valor medio da determinarsi, si ricorre al seguente modello Normale-1: [ ] N (θ, σ 2 1 (x θ)2 ) : θ Θ = IR, f(x, θ) = exp (2πσ) 1/2 2σ 2. Se invece della distribuzione normale teorica si conosce il valor medio e si vuole determinare la varianza, si definisce il modello Normale-2: [ ] 1 (x µ)2 N (µ, θ) : θ Θ = IR +, f(x, θ) = exp, (2πθ) 1/2 2θ e se si vuole determinare sia il valor medio che la varianza, il modello statistico di riferimento è quello Normale generale: [ 1 (x θ1 ) 2 ] N (θ 1, θ 2 ) : f(x, θ 1, θ 2 ) = exp (2πθ 2 ) 1/2 2θ 2 nel quale i due parametri incogniti sono da ricercare nel dominio Θ = {(θ 1, θ 2 ) : < θ 1 < +, θ 2 > 0}. Il modello che si assume per effettuare la statistica dei dati risultanti da una sequenza di n prove ripetute e indipendenti, con probabilità di successo incognita, è quello Binomiale: ( ) n n Bi(n, θ) : θ Θ = (0, 1), f(x, θ) = θ k (1 θ) n k δ(x k), k e se la probabilità di successo teorica è molto piccola si usa, come prescritto dalla legge degli eventi rari, il modello di Poisson: k=0 Π(θ) : θ Θ = IR +, f(x, θ) = e θ k=0 θ k δ(x k). k! Infine, negli studi di affidabilità e per la previsione statistica dei guasti si può ricorrere al modello esponenziale: E(θ) : θ Θ = IR +, f(x, θ) = θe θx, x 0.

191 7.2 Teoria dei campioni Teoria dei campioni La valutazione dei parametri incogniti che sono presenti in un modello statistico del tipo, per esempio, di quelli appena citati, si effettua con l esame di una piccola parte della popolazione, opportunamente scelta con criteri di casualità mediante estrazione di n elementi della popolazione. Questa parte della popolazione, sulla quale si concentrano le osservazioni atte a fornire le informazioni mancanti al modello statistico, è il campione di grandezza (o numerosità) n. La scelta degli elementi di popolazione che vanno a costituire il campione può essere effettuata in molti modi diversi, ma deve comunque seguire regole precise con l obiettivo di riprodurre nel miglior modo possibile tutte le proprietà di quel carattere della popolazione che si vuole studiare. I metodi di campionamento più noti sono: il campionamento casuale, che si ottiene effettuando estrazioni statisticamente indipendenti da un insieme di individui che hanno tutti la medesima probabilità di essere estratti ; il campionamento stratificato, nel quale la popolazione è anzitutto suddivisa in gruppi di individui con caratteristiche omogenee. Da ciascuno di questi strati di popolazione si estrae quindi un numero di individui che è proporzionale alla numerosità del gruppo stesso; il campionamento a grappoli, il cui metodo consiste invece nella suddivisione della popolazione in tanti gruppi di individui eterogenei, ognuno dei quali sia rappresentativo delle caratteristiche dell intera popolazione. Il campione da esaminare è in tal caso uno qualsiasi di questi gruppi, che può essere scelto per estrazione o per comodità di elaborazione dei dati. Si utilizzano anche metodi di campionamento più raffinati, che con tecniche diverse combinano tra loro quelli ora citati. Tuttavia, nel seguito ci limiteremo a trattare unicamente le tecniche da sviluppare quando si effettua un campionamento casuale. In questo contesto, la condizione di equiprobabilità delle estrazioni implica teoricamente che nella definizione del campione, l estrazione di ciascuno degli n elementi da una popolazione finita debba essere effettuata con ripetizione, ovvero assicurando la possibilità che l elemento scelto possa ripresentarsi ad una qualsiasi estrazione successiva. Questa condizione si verifica, per esempio, quando nella estrazione di n palline da un urna, ogni pallina estratta viene reimbussolata, al fine di non modificare la popolazione da cui si effettua ogni estrazione successiva. Se questa condizione non si verifica, l estrazione è chiamata senza ripetizione o in blocco, e modifica le probabilità teoriche delle successive estrazioni, perchè condizionate da quella già effettuata che non può più ripetersi. I risultati che ricaveremo nell ipotesi di equiprobabilità delle estrazioni, dovranno pertanto essere corretti, se esse avvengono senza ripetizione. Tuttavia, questa correzione è significativa solo se la popolazione è costituita da pochi individui, mentre diventa trascurabile se la

192 184 DISTRIBUZIONI CAMPIONARIE numerosità N degli individui della popolazione è elevata, ed è teoricamente nulla per N, ossia per popolazioni di infiniti elementi. In ogni caso, un campione casuale di grandezza (numerosità) n, scelto per effettuare la statistica su un carattere quantitativo X della popolazione, sarà descritto da un insieme X = {X 1, X 2,..., X n } di n elementi, al quale corrisponde l insieme x = {x 1, x 2,..., x n } degli n valori osservati. Teoricamente, se facessimo tendere a + la numerosità del campione che estraiamo da una popolazione infinita, allora il campione coinciderebbe con la popolazione stessa, e la distribuzione delle probabilità empiriche che si potrebbe ricavare secondo la tecnica spiegata nel Capitolo precedente si identificherebbe con la densità di probabilità del carattere X della popolazione. Ma i metodi della indagine statistica si basano proprio sull ipotesi opposta: quella di avere a disposizione un campione con numerosità n molto minore degli N individui della popolazione. Se la collezione degli n elementi del campione è casuale, in generale a ciascuna possibile scelta corrisponderà un valore diverso della osservazione x i fatta a proposito dell i-esimo elemento del campione estratto dalla popolazione. Di conseguenza, l insieme X che descrive il generico campione di grandezza n deve essere riguardato come un vettore aleatorio, insieme di n variabili casuali X i, i = 1,.., n, le quali sono statisticamente indipendenti nel caso che il campione sia stato estratto casualmente e con ripetizione. Si chiama statistica campionaria, o anche riassunto campionario, qualsiasi quantità g(x) che si esprime per mezzo delle n variabili casuali X i, e che interessa valutare in vista della stima dei parametri del modello statistico. Una statistica campionaria è anch essa una variabile casuale G n = g(x), e come tale è dotata di una distribuzione di probabilità che chiameremo distribuzione campionaria della statistica G n. Un esempio di statistica di un campione di ordine n è la variabile casuale G n = 1 n (Xq 1 + Xq Xq n) (7.1) che ha il significato di momento campionario di ordine q, e per q = 1 diventa la media campionaria cosí definita: µ n = 1 n (X 1 + X X n ). (7.2) L indice n introdotto nella notazione sta ad indicare che tale media risulta dall esame di un campione di grandezza n del carattere X della popolazione, e serve per distinguere tale media campionaria dal valor medio µ (eventualmente incognito) della distribuzione teorica del carattere X, che è stata definita nel modello statistico. La varianza campionaria è la variabile aleatoria definita dalla seguente statistica: Sn 2 = 1 n (X i µ n ) 2 (7.3) n i=1

193 7.3 Distribuzione campionaria delle medie 185 che in generale potrà assumere valori diversi dalla varianza teorica σ 2 (eventualmente incognita) della distribuzione probabilistica dal carattere X. La sua radice quadrata positiva S n è la deviazione standard campionaria. Se dalla medesima popolazione si estraggono diversi campioni di grandezza n, allora i valori che assumono le loro statistiche e in particolare la media campionaria (7.2) e la varianza campionaria (7.3) saranno in generale diversi e distribuiti con leggi probabilistiche che sono definite dalle rispettive distribuzioni campionarie. Nei due paragrafi che seguono ricaveremo in dettaglio le proprietà delle distribuzioni campionarie di queste due statistiche. 7.3 Distribuzione campionaria delle medie Per valutare il valore atteso della distribuzione campionaria delle medie µ n definita dalla (7.2), dobbiamo prendere in considerazione tutti i possibili campioni di grandezza n che possono essere estratti dalla popolazione, e fissare l attenzione sull iesimo elemento X i di questi campioni. Questo è una variabile casuale con la medesima distribuzione teorica del carattere X della popolazione, poiché è il risultato di estrazioni casuali dalla popolazione stessa. Indichiamo con f X (x) tale distribuzione teorica del carattere, con µ la sua media e con σ 2 la sua varianza, eventualmente sconosciute. Si ricava: { } 1 E{µ n } = E X i = 1 E{X i } = 1 n n n ne{x} = 1 n n µ = µ (7.4) i i Dunque, il valor medio della distribuzione campionaria della statistica µ n coincide con il valor medio µ della distribuzione teorica del carattere X. La varianza della distribuzione campionaria delle medie (che è diversa dalla statistica (7.3), di cui ci occuperemo nel paragrafo che segue) è per definizione la quantità σ 2 n = E{[µ n E{µ n }] 2 } = E{µ 2 n + µ 2 2µ n µ} = E{µ 2 n} µ 2 = 1 n 2 E{(X X n ) 2 } µ 2, (7.4 ) e per ricavarne una espressione significativa, occorre distinguere a seconda della procedura che è stata seguita per estrarre il campione Campionamento con ripetizione Se il campione è stato estratto con ripetizione da una popolazione finita di N elementi, oppure se N, allora le variabili casuali X i sono statisticamente indipendenti, con uguali densità di probabilità f(x i ) = f X (x). Si ha in tal caso: E{(X X n ) 2 } = (x x n ) 2 f(x 1 )f(x 2 ) f(x n )dx 1 dx n =

194 186 DISTRIBUZIONI CAMPIONARIE = (x x 2 n +2x 1 x 2 +2x 1 x x n 1 x n )f(x 1 )f(x 2 ) f(x n )dx 1 dx n = = E{X 2 1} E{X 2 n} + 2 n i,j=1 E{X i }E{X j }. Ma poichè le distribuzioni di tutte le X i hanno momenti uguali a quelli della densità teorica f X (x), e inoltre il numero di combinazioni di n elementi a due a due vale n(n 1)/2, risulta: E{(X X n ) 2 } = n E{X 2 } + n(n 1)µ 2. Sostituendo questo risultato nella (7.4 ) si ottiene: σ 2 n = E{X2 } n + n 1 n µ2 µ 2 = 1 n [E{X2 } µ 2 ] = σ2 n. (7.5) Dunque, la varianza della distribuzione campionaria delle medie è uguale alla varianza teorica della distribuzione del carattere X, divisa per la numerosità del campione. La radice quadrata positiva della quantità (7.5): è chiamata errore standard della media campionaria. σ n = σ n (7.5 ) Dalla (7.5) si deduce anche che, nella ipotesi di una distribuzione teorica della popolazione con varianza σ 2 non nulla, valgono le seguenti notevoli proprietà di convergenza della media campionaria: Convergenza in media quadratica della statistica µ n al valor medio µ della distribuzione teorica f X (x). Infatti: lim n σ2 n = lim E{(µ n µ) 2 } = 0. n Legge debole dei grandi numeri. Fissato un ɛ > 0 arbitrario, per la diseguaglianza di Chebyshev (v. 2.2) si ha: per cui, passando al limite: IP{ µ n µ ɛ} σ2 n ɛ 2 = σ2 nɛ 2 lim IP{ µ n µ ɛ} = 0. (7.6) n E cosí dimostrato che la statistica µ n converge in probabilità al valor medio teorico µ, quando la numerosità del campione tende ad infinito.

195 7.3 Distribuzione campionaria delle medie 187 Infine, è di grande importanza il fatto che per grandi campioni è possibile determinare non solo i momenti del primo e del secondo ordine, ma anche la densità stessa della distribuzione campionaria delle medie. Precisamente, basandosi sul Teorema Limite Centrale enunciato nel 2.3.2, si può dimostrare che: al crescere di n la distribuzione campionaria delle medie approssima la legge normale N (µ, σ 2 /n) che ha media µ e varianza data dalla (7.5). Dimostrazione. La media campionaria (7.2) relativa a campioni estratti con ripetizione da una popolazione finita (oppure da una popolazione infinita) si può anche esprimere come µ n = S n /n, dove S n è la somma di n variabili casuali indipendenti che hanno la medesima densità di probabilità. Quindi, per il Teorema Limite Centrale, la sua densità converge, per n, alla distribuzione normale con media e varianza ossia converge alla legge N (µ, σ 2 /n). E{µ n } = 1 n E{S n} = 1 n nµ = µ σ 2 n = 1 n 2 σ2 (S n ) = 1 n 2 nσ2 = σ2 n, Per facilitare i calcoli relativi ai test statistici, al posto della media campionaria µ n si usa spesso la variabile media campionaria standardizzata già introdotta nel 2.3.2, e definita dal rapporto Z n = µ n µ σ n. (7.6 ) In base al Teorema Limite Centrale, si può affermare che per n sufficientemente grande la distribuzione di Z n è ben approssimata dalla legge normale standard N (0, 1) con media nulla e varianza uguale ad Campionamento senza ripetizione Se il campione è estratto senza ripetizione ( in blocco ) da una popolazione con un numero finito N di elementi, le n variabili aleatorie X i non sono più indipendenti, perché ogni estrazione modifica la composizione della popolazione da cui devono essere scelti i successivi elementi del campione. Ne segue, per la legge delle probabilità composte (1.4), che la densità di probabilità congiunta del campione X non è più il prodotto delle densità f(x i ), bensí il seguente prodotto di densità condizionate: f(x 1,..., x n ) = f(x 1 )f(x 2 x 1 )f(x 3 x 1, x 2 ) f(x n x 1, x 2,..., x n 1 ). Si può dimostrare che in tal caso il valor medio della distribuzione campionaria della statistica µ n è ancora uguale alla media teorica µ, ma la sua varianza vale: σ 2 n = σ n 2 N n N 1. (7.7)

196 188 DISTRIBUZIONI CAMPIONARIE A parità di grandezza n del campione, se N > n non è molto elevato essa è dunque minore della (7.5) che è valida per un campionamento con ripetizione, ma tende al valore (7.5) quando N. Esempio 7.1 Illustriamo i risultati precedenti con il seguente esempio. In una popolazione costituita da N = 5 elementi, il carattere X oggetto di studio assume rispettivamente i valori: 2, 3, 6, 8, 11. Da essa si estraggono tutti i possibili campioni di grandezza n = 2, allo scopo di valutare la media del carattere, che evidentemente ha il valore teorico µ = 6. Campionamento con ripetizione. Il numero di campioni con numerosità 2 che possiamo casualmente estrarre con ripetizione dalla popolazione è uguale al numero delle disposizioni con ripetizione di 5 elementi a due a due, ossia 5 2 = 25. In dettaglio, i possibili campioni sono i seguenti: 2, 2 2, 3 2, 6 2, 8 2, 11 3, 2 3, 3 3, 6 3, 8 3, 11 6, 2 6, 3 6, 6 6, 8 6, 11 8, 2 8, 3 8, 6 8, 8 8, 11 11, 2 11, 3 11, 6 11, 8 11, 11. (7.8) Ciascuno di questi campioni ha una media campionaria µ n che vale, rispettivamente: (7.9) e se valutiamo le frequenze relative di ciascuna di queste medie campionarie, possiamo costruire il grafico a) di Fig Esso rappresenta una densità di probabilità discreta che definisce la distribuzione campionaria delle medie relativa alla statistica in oggetto. Il valor medio di questa distribuzione vale: E{µ n } = 1 [ ( ) + 4.7] = 6 25 e, in accordo con la (7.4), coincide con il valore teorico µ prima citato. Se ci proponiamo di valutare µ attraverso il valore della statistica µ n che ricaviamo da un solo campione estratto casualmente, è assai probabile che il risultato non sia uguale a 6. L errore medio che possiamo compiere è legato alla dispersione della distribuzione di figura rispetto al suo valor medio, e si valuta calcolandone la varianza σ 2 n definita dalla (7.4). Si trova: σ 2 n = 1 25 [(2 6)2 + 2(2.5 6) (9.5 6) 2 + (11 6) 2 ] = = 5.4.

197 7.3 Distribuzione campionaria delle medie 189 4/25 2/25 f ( n ) 25 4/20 f ( n ) 20 2/20 1/ n n a) campionamento con ripetizione b) campionamento senza ripetizione Figura 7.1 Questa varianza della distribuzione delle medie campionarie è legata alla varianza teorica del carattere X, Infatti si verifica subito che, come previsto dalla (7.5) con n = 2, è la metà della varianza teorica σ 2 che vale: σ 2 = 1 5 [(2 6)2 + (3 6) (11 6) 2 ] = La radice quadrata di σ 2 n vale σ n = Questo è l errore standard che si commette nel valutare il valor medio del carattere, attraverso l analisi della statistica µ n effettuata su un suo campione di grandezza n = 2. Campionamento senza ripetizione. In tal caso, il numero totale di campioni che possiamo estrarre è uguale alle disposizioni senza ripetizione di 5 elementi a due a due, e vale 5! (5 2)! = 20. I campioni sono quelli dell insieme (7.8) privato degli elementi sulla diagonale principale, che contengono valori ripetuti. Le 20 possibili medie campionarie sono ancora indicate nella (7.9), con esclusione dei valori 2, 3, 6, 8, 11 che si trovano sulla diagonale principale. La distribuzione delle frequenze relative di queste medie campionarie è mostrata nel grafico b) di Fig Questa distribuzione ha ancora valor medio E{µ n } = 6 ma varianza minore che, in accordo con la (7.7), vale: σ 2 n = 2 20 [(2.5 6)2 + (4 6) (9.5 6) 2 ] = σ2 2. L errore standard nella valutazione della media del carattere è quindi leggermente inferiore, e vale σ n = Esempio 7.2: Distribuzione della differenza di medie campionarie Le lampadine prodotte dall azienda A hanno una vita media µ A di 1400 ore, con deviazione standard σ A = 200 ore; quelle dell azienda B hanno vita media µ B = 1200 ore, con deviazione standard σ B = 100 ore. Si prova un campione casuale di n = 125 lampadine estratte dalla produzione dell azienda A, e un campione di m = 100

198 190 DISTRIBUZIONI CAMPIONARIE lampadine provenienti dalla produzione dell azienda B. Calcolare la probabilità che le lampadine fornite dal produttore A abbiano una vita media: 1) di almeno 160 ore maggiore di quelle fornite da B; 2) che differisce per meno di 150 ore dalla vita media di quelle prodotte da B. Le distribuzioni campionarie delle medie µ n e µ m dei due campioni sono entrambe approssimabili con leggi normali, aventi valore atteso uguale a quello della popolazione da cui sono estratti: E{µ n } = µ A = 1400, E{µ m } = µ B = Le loro deviazioni standard, per la (7.5 ), sono rispettivamente: σ n = σ A = ; σ m = σ B = Definiamo la variabile casuale d(ω) che denota la differenza tra le medie campionarie: d(ω) = µ n µ m. Essa ha una distribuzione con valor medio E{d} = E{µ n } E{µ m } = = 200 ore, e la sua varianza si determina applicando la (3.8) del Capitolo III, dopo aver posto: a = 1, b = 1, X µ n, Y µ m : σ 2 (d) = σ 2 n + σ 2 m 2 Cov (µ n, µ m ). Se i due campioni estratti sono statisticamente indipendenti, la loro covarianza è nulla e anche d(ω) ha legge normale, come dimostrato nell Esempio 4.6 del capitolo 4, con deviazione standard σ(d) = σ 2 n + σ 2 m = (17.888) ore. Per calcolare le probabilità richieste, usiamo la variabile casuale standardizzata: Z(ω) = d E{d} σ(d) = d che ha una distribuzione normale N (0, 1) e calcoliamo i valori z che essa assume per d = 160 e per d = ±150. Si trova subito: d = 160 : z 0 = d = 150 : z 1 = d = 150 : z 2 = Le probabilità cercate si ricavano allora utilizzando la (2.32) e la Tabella dei valori di erf(z) che si trova in Appendice: IP(d 160) = P (Z z 0 ) = 1 + erf (1.952) = IP( d < 150) = IP(z 1 < Z < z 2 ) = erf ( 2.44) erf ( 17.08) = 1 erf (2.44) = =

199 7.4 Distribuzione campionaria delle varianze Distribuzione campionaria delle varianze Campionamento con ripetizione Se il modello statistico che si assume per studiare la popolazione è quello normale, e se il campione è estratto con ripetizione da una popolazione finita, oppure se la popolazione è infinita, la statistica (7.3), chiamata varianza campionaria, ha una distribuzione che si può dedurre applicando il seguente, importante: TEOREMA (Chi-quadrato) Se da una popolazione normalmente distribuita con varianza σ 2 si estraggono campioni casuali di numerosità n, la variabile aleatoria Q n (ω) = ns2 n σ 2 1 σ 2 (X i µ n ) 2 (7.10) ha una distribuzione χ 2 n 1 con (n 1) gradi di liberta. Ricordando le proprietà della distribuzione Chi-quadrato, già presentata nel Capitolo 2, la variabile Q n ha dunque la densità (2.40) con n 1 al posto di n, ha valor medio E{Q n } = n 1 e varianza σ 2 {Q n } = 2(n 1). i = 1 1 n = 11 n = 21 f ( S ) n 2 f ( ^ S ) n E{ Sn 2 } ^ Sn 2 E{ } Figura Distribuzioni campionarie della varianza La varianza campionaria S 2 n è definita, per la (7.10), dalla trasformazione lineare S 2 n = g(q n ) = σ2 n Q n, e usando le formule di trasformazione per funzioni di variabili casuali la sua distribuzione campionaria ha una densità di probabilità che si ricava applicando la (4.5) o la (4.10) del Capitolo 4. Poiché si ha g 1 (S 2 n) = ns2 n σ 2 ; dg 1 ds 2 n = n σ 2,

200 192 DISTRIBUZIONI CAMPIONARIE si ricava: f(s 2 n) = f χ 2 n 1 ( Q n = ns2 n σ 2 ) dg 1 ds 2 n ( = f χ 2 n 1 Q n = ns2 n σ 2 ) n σ 2. (7.11) In Fig. 7.2 sono riportate con linea continua due distribuzioni campionarie di S 2 n, calcolate assumendo σ 2 = 1 e n = 11 e 21. Il loro valor medio vale: e la sua varianza si può calcolare come segue: σ 2 (S 2 n) = E{(S 2 n) 2 } σ4 (n 1) 2 n 2 = E{S 2 n} = σ2 n E{Q n} = n 1 n σ2 (7.12) ( σ 2 n ) 2 E{Q 2 n} σ4 (n 1) 2 n 2 = = σ4 n 2 [E{Q2 n} (n 1) 2 ] = σ4 n 2 [E{Q2 n} E 2 {Q n }] = σ4 2(n 1) n 2 σ2 {Q n } = n 2 σ 4 dove σ 2 è la varianza teorica della popolazione con distribuzione normale. Per n >> 1, si può accettare il risultato: σ 2 (Sn) 2 = 2σ 4 /n, e di conseguenza la deviazione standard della distribuzione campionaria delle varianze è ben approssimata da: La (7.12) mostra un risultato degno di nota: σ(s 2 n) = σ 2 2/n. (7.13) il valor medio della statistica S 2 n non coincide con la varianza teorica σ 2 della popolazione. Questa proprietà, che come vedremo è assai importante ai fini della stima della varianza sconosciuta di un carattere della popolazione, è invece soddisfatta dalla seguente statistica: Ŝ 2 n = n n 1 S2 n 1 n 1 (X i µ n ) 2 (7.14) i che chiameremo varianza campionaria corretta, la quale ha evidentemente valor medio E{Ŝ2 n} = n n 1 E{S2 n} = σ 2. (7.15) La distribuzione campionaria di questa varianza corretta Ŝ2 n si ricava facilmente invertendo la trasformazione (7.14) e usando la (7.11). Anche essa si esprime in termini della densità Chi-quadrato della variabile Q n = n σ 2 S2 n = n 1 σ 2 Ŝ2 n,

201 7.4 Distribuzione campionaria delle varianze 193 e vale: ( f(ŝ2 n) = f Sn 2 = n 1 ) n Ŝ2 n n 1 n ( = f χ 2 Q n 1 n = n 1 σ 2 ) Ŝn 2 n 1 σ 2. (7.16) Le distribuzioni (7.16) che si ottengono per n = 11 e n = 21 sono riportate con linea tratteggiata in Fig. 7.2, e sono confrontate con le distribuzioni campionarie (7.11) della statistica S 2 n. La varianza della distribuzione corretta (7.16) vale: [ ] E{Q σ 2 (Ŝ2 n) = E{(Ŝ2 n) 2 } σ 4 = σ 4 2 n } (n 1) 2 1 = σ 4 (n 1) 2 σ2 (Q n ) = 2 n 1 σ4. La sua deviazione standard è perciò σ(ŝ2 n) = σ 2 2 n 1 (7.17) e per n >> 1 è assai vicina a quella della distribuzione delle varianze campionarie S 2 n Campionamento senza ripetizione Se il campione è estratto in blocco da una popolazione con un numero finito N di elementi, tenuto conto delle osservazioni fatte nel la distribuzione campionaria di Sn 2 non è più quella definita con la (7.11). Calcoli più laboriosi mostrano, in particolare, che anche il suo valor medio è diverso dal valore (7.12), e deve essere modificato in: E{Sn} 2 = N N 1 n 1 σ 2. (7.18) n Da quest ultima segue che la varianza campionaria corretta Ŝ2 n con valor medio uguale alla varianza teorica, si modifica in tal caso nella statistica: Ŝ 2 n = N 1 N n n 1 S2 n = N 1 N da usare al posto della statistica (7.14). 1 n 1 (X i µ n ) 2, (7.19) i

202 194 DISTRIBUZIONI CAMPIONARIE Esempio 7.3 Riprendiamo lo studio dei 25 campioni (7.8) che si possono estrarre con ripetizione dalla popolazione costituita da 5 elementi con valore 2, 3, 6, 8, 11, che come si è già visto ha varianza teorica σ 2 = Ciascuno di essi ha una statistica Sn 2 (con n = 2) che vale: (7.20) e il calcolo delle frequenze relative porta alla definizione di una distribuzione campionaria discreta, che è mostrata nel grafico a) di Fig Il valor medio di tale distribuzione vale: E{Sn} 2 = 1 27 [4( ) + 2( )] = 25 5 = 5.4 e, in accordo con il risultato (7.12), è la metà della varianza teorica σ 2. Ne segue che la varianza campionaria corretta, il cui valor medio coincide con σ 2, è la statistica Ŝ 2 n = 2S 2 n i cui valori possibili sono il doppio di quelli riportati nella (7.20). f ( n ) f ( n ) /25 4/20 4/25 S 2 S 2 2/25 2/20 E{ S 2 n} 2 E{ S 2 n} S n S 2 n a) campionamento con ripetizione b) campionamento senza ripetizione Figura 7.3 Campionamento senza ripetizione. I 20 possibili campioni estratti senza ripetizione dalla stessa popolazione hanno tutti varianze S 2 n non nulle, definite nella (7.20) con esclusione dei valori sulla diagonale principale. La distribuzione delle loro frequenze relative è mostrata nel grafico b) di Fig. 7.3, ed ha valor medio E{Sn} 2 = 1 27 [4( ) + 2( )] = 20 4 = Osservando che 27 4 = = σ2, si riconosce che il risultato ottenuto verifica la (7.18), valida per campioni senza ripetizione. Inoltre, in tal caso la varianza campionaria corretta è definita, per la

203 7.5 Distribuzione campionaria delle frequenze 195 (7.19), dalla statistica Ŝ 2 n = S2 n = 8 5 S2 n, il cui valor medio coincide con la varianza teorica della popolazione. Infatti: E{Ŝ2 n} = 8 5 E{S2 n} = = 54 5 = σ Distribuzione campionaria delle frequenze Supponiamo che il carattere X della popolazione da cui si estrae il campione abbia due sole modalità, il cui esame può dar luogo a realizzazioni di due soli eventi casuali incompatibili ed esaustivi (vero/falso, bianco/nero,...). In tale ipotesi il modello statistico per X è quello Binomiale, in cui p è la probabilità teorica di successo (X è vero, bianco,...) e q = 1 p è la probabilità di fallimento. Indichiamo ora con n s il numero (ossia anche la frequenza assoluta) di successi rilevati in un campione casuale estratto da questa popolazione con n prove indipendenti. La distribuzione campionaria f(n s ) di queste frequenze è definita dalla probabilità di osservare n s successi, la quale è data dalla formula di Bernoulli (2.42). Dunque anche f(n s ) è binomiale, descritta dalla densità discreta (2.45) del Capitolo 2 e definita sull insieme dei numeri interi positivi. Se n è sufficientemente grande, essa si approssima nel continuo con una legge normale (v. Fig. 7.4) con media e varianza che valgono: E{n s } = np, σ 2 (n s ) = npq. (7.21) Ne segue, ad esempio, che le probabilità di osservare un numero di successi maggiore di k 0 oppure compreso tra k 1 e k 2 si approssimano, per un campione di numerosità n sufficientemente grande, con IP(n s > k 0 ) IP(Z > z 0 ) = 1 2 erf (z 0) IP(k 1 n s k 2 ) IP(z 1 Z z 2 ) = erf (z 2 ) erf (z 1 ) dove si è posto: z i = k i np npq. La frequenza relativa dei successi: Y = n s /n, è invece una variabile aleatoria con valori in IR +, la cui distribuzione è definita dalla densità f Y (y) = f(n s = ny) n n N (p, pq/n). Per n sufficientemente grande, essa si approssima con una distribuzione normale avente valor medio e varianza che valgono: E{Y } = E{n s} n = np n = p,

204 196 DISTRIBUZIONI CAMPIONARIE f( n s ) N (8, 7.84) n s Figura Distribuzione campionaria delle frequenze nell Esempio 7.4 σ 2 Y = σ2 (n s ) n 2 = npq p(1 p) = n2 n. (7.22) Esempio 7.4 Dall analisi della produzione di un utensile, risulta che il 2% del prodotto di fabbricazione è difettoso. Si vuole calcolare la probabilità che in un lotto di 400 utensili appena consegnati a un cliente quelli difettosi siano almeno 12. Il lotto in questione si può considerare un campione estratto con n = 400 prove ripetute e indipendenti da una popolazione di infiniti elementi. Durante la scelta del campione, ciascuna estrazione avviene con una probabilità teorica p = 0.02 di avere un prodotto difettoso (nel nostro caso, la scelta di un utensile difettoso è il successo ). La distribuzione campionaria delle frequenze n s di utensili difettosi, mostrata in Fig. 7.4, è approssimabile con una curva normale con media e deviazione standard che valgono: E{n s } = np = = 8 σ(n s ) = np(1 p) = = 2.8. Si deve determinare la probabilità IP(n s 12), rappresentata dall area ombreggiata in figura. Per calcolarla, utilizziamo la variabile standardizzata Z = n s E{n s }, σ(n s ) che per n s = 12 vale z = Ricordando quindi la (2.32) e usando la Tabella di erf(z) in Appendice, si ricava: IP(n s 12) = 1 IP(Z < 1.428) 1 2 erf (1.43) = =

205 7.6 Problemi risolti 197 In Fig. 7.4 sono anche disegnati i rettangoli con base unitaria e altezza uguale alle probabilità (2.42) di avere un campione con n s successi. La probabilità ora calcolata è approssimata dall area di questi rettangoli che si trova a destra di n s = 12. Si badi però che l insieme di questi rettangoli non deve essere confuso con l istogramma delle frequenze empiriche delle modalità di un carattere X, che è stato definito del Capitolo precedente. Infatti, se le osservazioni da rilevare nel campione riguardano due possibili modalità ( successo o fallimento ) di un carattere, l istogramma delle loro frequenze sarà costituito da due soli rettangoli, con altezza proporzionale rispettivamente al numero dei successi e dei fallimenti che si osservano in quel particolare campione esaminato. I rettangoli di Fig. 7.4 hanno invece base unitaria, centrata sulle possibili frequenze n s della modalità successo, e altezza uguale alla probabilità bernoulliana di osservare queste frequenze di successo. 7.6 Problemi risolti 7.1. Si estrae un campione di numerosità n = 64 da una popolazione con varianza σ 2 = 121. Calcolare la probabilità di avere una media campionaria che differisce per più di 2 unità da quella incognita della popolazione. Soluzione. La distribuzione campionaria delle medie si approssima con una legge normale avente media E{µ n } uguale alla media teorica µ e varianza σ 2 n = σ 2 /n = 121/64 = (11/8) 2. Se introduciamo la variabile standardizzata Z n = µ n µ σ n la probabilità richiesta si calcola nel modo seguente: P ( µ n µ > 2) = P (σ n Z n > 2) = P ( Z n > 2 8/11 = ) = 1 2 erf(1.4545) e dalla Tabella di erf(z) si ricava: P ( µ n µ > 2) = Si estrae un campione {X i } da 50 osservazioni di un carattere avente un modello statistico normale N (2, 1), ma è noto soltanto il numero Z di osservazioni dalle quali risulta X i 0, i = 1,..., 50. Determinare la legge di Z(ω). Soluzione. Le 50 osservazioni sono altrettante prove ripetute e indipendenti di un esperimento casuale. Se chiamiamo successo l evento S = {X i 0}, esso si verifica con probabilità p = IP{X 0} = erf ( 0 µ σ ) = 1 2 erf(2) = = La variabile casuale Z che rappresenta il numero di eventi S che si verificano in 50 prove ha pertanto distribuzione binomiale con parametri n = 50, p = : Z B(50, ).

206 198 DISTRIBUZIONI CAMPIONARIE 7.3. Si dispone di un campione di 100 osservazioni del carattere X di una popolazione, la cui deviazione standard è nota e vale σ = 120. Qual è la probabilità che la media campionaria differisca per più di 3 unità da quella incognita del carattere X? Risposta. La distribuzione campionaria delle medie si approssima con una legge normale avente media E{µ n } uguale alla media teorica µ e deviazione standard σ n = σ/ 100 = 12. Se Z n è la corrispondente variabile standardizzata, la probabilità richiesta vale P ( µ n µ > 3) = P (σ n Z n > 3) = P ( Z n > 0.25) = 1 2 erf(0.25) e dalla Tabella di erf(z) si ricava: P ( µ n µ > 3) = In un lotto di 50 pile, la loro tensione in uscita ha una deviazione standard di 25V. Se da questo lotto ne estraiamo senza ripetizione n = 25, qual è la probabilità che la media delle pile estratte differisca per più di 1 Volt dalla media teorica dichiarata dal costruttore? Risposta. Poiché il campione di n = 25 pile è estratto in blocco da una popolazione di N = 50 elementi, la distribuzione campionaria della tensione media ha legge normale con deviazione standard σ n = σ N n n(n 1) = (50 1) = 2 7 e per renderla normale standard si può definire la variabile campionaria La probabilità rischiesta vale quindi: e dalla Tabella di erf(z) si ricava: Z n = µ n µ σ n = 7 2 (µ n µ). P ( µ n µ > 1) = P ( Z n > 3.5) = 1 2 erf(3.5) P ( µ n µ > 1) = La lunghezza di 3000 lamine è distribuita normalmente con media µ = 68 mm e scarto quadratico medio σ = 3 mm. Si estraggono, con ripetizione, 80 campioni di 25 lamine ciascuno. Determinare in quanti campioni ci si deve aspettare una media compresa tra 66, 8 e 68, 3 mm. Soluzione. La distribuzione campionaria delle medie ricavate dai campioni di numerosità n = 25 è normale, con media µ n = µ = 68 e deviazione standard σ n = 3/ 25 = 0.6 mm.

207 7.6 Problemi risolti 199 Introdotta la variabile standardizzata Z n = (µ n 68)/0.6, la probabilità che la media campionaria sia compresa tra 66.8 e 68.3 mm. si calcola come segue: P (66.8 µ n 68.3) = P [( )/0.6 Z n ( )/0.6] = = P ( 2 Z n 0.5) = erf(0.5) + erf(+2) e dalla Tabella di erf(z) si ricava: P (66.8 µ n 68.3) = = = p. Per la legge dei grandi numeri, p è il valore del rapporto tra il numero N x di campioni in cui P (66.8 µ n 68.3) e il numero totale dei campioni estratti. Quindi = N x 80 arrotondato all unità per difetto. N x = Data la popolazione dei numeri 0, 2, 4, 6, 8: a) calcolare la media µ e la varianza σ 2 della popolazione; b) elencare i possibili campioni di numerosità n = 2 estraibili con ripetizione da tale popolazione; c) elencare i possibili valori della media campionaria X e le relative probabilità; d) sulla base dei dati ricavati al punto precedente, calcolare la media µ X e la varianza σ 2 X della media campionaria X, verificando che valgono le uguaglianze: µ X = µ; σ 2 X = σ 2 /n. Soluzione. a) Media e varianza valgono µ = 20 5 = 4, σ2 = = 8. b) I campioni di numerosità 2 estraibili con ripetizione sono 5 2 = 25, e precisamente: 0,0 0,2 0,4 0,6 0,8 2,0 2,2 2,4 2,6 2,8 4,0 4,2 4,4 4,6 4,8 6,0 6,2 6,4 6,6 6,8 8,0 8,2 8,4 8,6 8,8. c) Le medie di ciascun campione valgono rispettivamente:

208 200 DISTRIBUZIONI CAMPIONARIE e quindi i possibili valori di X hanno queste probabilità: p(0) = 1/25, p(1) = 2/25, p(2) = 3/25, p(3) = 4/25, p(4) = 1/25, p(5) = 4/25, p(6) = 3/25, p(7) = 2/25, p(8) = 1/25. d) µ X = ( ) = = 4 µ σ 2 X = ( ) = = 4 σ2 / I pacchi da sei bottiglie di acqua minerale confezionati da uno stabilimento hanno un peso medio di 9, 3 Kg., con varianza σ 2 = 0, 4 Kg 2. Calcolare la probabilità che un campione di n = 20 pacchi proveniente dallo stabilimento abbia un peso totale maggiore di 184 Kg. Soluzione. La distribuzione campionaria del peso medio di ogni pacco ha valor medio E{µ n } = µ = 9.3 Kg e varianza σ 2 n = σ 2 /n = 0.4/20 = 0.02 Kg 2. La probabilità richiesta è uguale a quella che un singolo pacco abbia un peso maggiore di 184/20 = 9.2 Kg. e si calcola come ( IP Z n 9.2 E{µ ) n} = IP(Z n ) = 1 σ n 2 + erf(0.7071) = Due fornitori riforniscono lo stesso negozio di CD; il primo ne fornisce il 70%, e il secondo il 30% del totale. Da un indagine campionaria della ditta acquirente risulta che il 94% dei CD del primo fornitore ha un diametro maggiore di cm. e il 10% maggiore di cm. Inoltre, l 8% dei CD del secondo fornitore ha un diametro minore di cm. e il 95% è minore di 12.6 cm. Assumendo che la distribuzione dei diametri dei CD sia normale, a) determinare la percentuale dei CD ricevuti dal negozio con diametro compreso tra 12.4 e 12.6 cm. b) avendo venduto un CD con un diametro non compreso tra 12.4 e 12.6 cm., qual è la probabilità che quel CD provenga dal secondo fornitore? Soluzione. a) Occorre anzitutto determinare la media e la varianza delle distribuzioni campionarie normali dei CD ricevuti dai due fornitori. Se X è la variabile casuale che indica il diametro, e Z quella standardizzata, dai dati del problema si ha che per quelli del primo fornitore: ( 0.94 = IP(X 12.45) = IP Z µ ) ( ) µ1 = 0.5 erf σ 1 σ ( = IP(X 12.58) = IP Z µ ) ( ) µ1 = 0.5 erf σ 1 σ 1

209 7.6 Problemi risolti 201 ossia: ( ) ( ) µ µ1 erf = 0.44 ; erf = σ 1 Dalla Tabella di erf (z) si trova: µ = 1.56 σ µ 1 = σ 1 e risolvendo il sistema si ricava: µ 1 = , σ 1 = Analogamente, dai dati campionari sui CD del secondo fornitore, si ricava: ( 0.08 = IP(X 12.45) = IP Z µ ) ( ) µ2 = erf σ 2 σ ( = IP(X 12.6) = IP Z 12.6 µ ) ( ) µ2 = erf σ 2 σ 2 ossia: ( ) ( ) µ µ2 erf = 0.42 ; erf = σ 2 Dalla Tabella di erf (z) si trova: µ = 1.41 σ µ 2 = σ 2 e risolvendo il sistema si ricava: µ 2 = , σ 1 = Definiamo ora gli eventi: E = {12.4 cm. X 12.6 cm.}; F 1 = {CD del primo fornitore}; F 2 = {CD del secondo fornitore} e calcoliamo: ( ) ( ) 12.6 µ µ1 IP(E F 1 ) = erf erf σ 1 = erf(1.7221) + erf(2.654) = ( ) ( ) 12.6 µ µ2 IP(E F 2 ) = erf erf σ 2 = erf(1.653) + erf(2.4285) = La probabilità totale che i CD abbiano diametro compreso tra 12.4 e 12.6 cm. è IP(E) = IP(F 1 )IP(E F 1 )+IP(F 2 )IP(E F 2 ) = = %. b) L evento E = {X (12.4, 12.6)} ha probabilità IP(E ) = 1 IP(E) = 0.05, e inoltre: IP(E F 1 ) = 1 IP(E F 1 ) = ; IP(E F 2 ) = 1 IP(E F 2 ) = La probabilità a posteriori che è richiesta vale dunque: IP(F 2 E ) = 0.30 IP(E F 2 ) 0.70 IP(E F 1 ) IP(E F 2 ) = σ 1 σ 2 σ 1 σ 2

210 202 DISTRIBUZIONI CAMPIONARIE

211 STIME DI PARAMETRI Dopo aver precisato le proprietà di due tra le statistiche campionarie più importanti, ossia la media (7.2) e la varianza (7.3), in questo Capitolo ci occupiamo delle metodologie che, utilizzando i dati desunti dalla osservazione di un campione della popolazione, consentono di determinare i valori più attendibili da attribuire ai parametri incogniti θ i presenti nel modello statistico che è stato adottato per la popolazione stessa. I metodi di stima che possiamo sviluppare sono di due tipi: stima puntuale, se si utilizza una statistica campionaria G n = g(x 1,..., X n ) con l obiettivo di determinare il valore corretto di un parametro incognito ϑ della popolazione; stima per intervalli di confidenza se, oltre al valore approssimato del parametro incognito da stimare, si precisa anche il grado di approssimazione della stima puntuale effettuata, determinando la probabilità che il valore stimato appartenga a un prefissato intervallo. Nei due paragrafi che seguono sono illustrate le modalità con cui si perviene a questi due tipi di stima parametrica. 8.1 Stima puntuale Una statistica campionaria G n = g(x 1,..., X n ), utilizzata per stimare il valore incognito di un parametro θ del modello statistico della popolazione, si chiama stimatore puntuale di ϑ. Avendo a disposizione le realizzazioni (x 1,..., x n ) di un campione, sono molti gli stimatori puntuali che possiamo definire. Per esempio: se ϑ è un valor medio, possiamo scegliere come suo stimatore il riassunto (7.2), oppure la mediana (6.3) della distribuzione di frequenze nel campione esaminato. Se ϑ è una varianza, due suoi stimatori possono essere la statistica (7.3), oppure quella corretta (7.14). Quale statistica scegliere, per avere i risultati più attendibili? Il criterio da seguire nella scelta si basa sulla verifica che lo stimatore abbia ben definite proprietà, che sono precisate dalle definizioni che seguono. 203

212 204 STIME DI PARAMETRI Stimatore corretto. La statistica G n è uno stimatore corretto, o imparziale, o non distorto ( unbiased ) di θ se il suo valore atteso coincide con il valore teorico del parametro da stimare, per qualsiasi legge probabilistica compatibile con il modello statistico della popolazione: E{G n } = θ, P (x, θ) P. (8.1) Stimatore consistente. La statistica G n è uno stimatore consistente in probabilità se, per qualsiasi ϑ compatibile con il modello statistico, esso converge al valore teorico ϑ con probabilità 1 quando la numerosità del campione tende ad infinito: lim IP( G n ϑ ɛ) = 1, ɛ > 0. (8.2) n G n è invece consistente in media quadratica se per n si annulla il suo errore quadratico medio: e in tal caso è anche consistente in probabilità. lim E{(G n ϑ) 2 } = 0 (8.2 ) n Se G n è uno stimatore corretto, il suo errore quadratico medio coincide con la varianza σ 2 (G n ). Pertanto è anche consistente (in media quadratica e in probabilità) se la varianza della sua distribuzione campionaria tende a zero per n : lim n σ2 (G n ) = 0. (8.2 ) Stimatore efficiente. Scelti due stimatori G (1) n e G (2) n entrambi corretti, diciamo che G (1) n è lo stimatore più efficiente tra i due se ha una distribuzione campionaria con una varianza minore di quella della distribuzione campionaria di G (2) N : σ 2 (G (1) n ) σ 2 (G (2) n ) (8.3) per ogni numerosità n del campione e per ogni valore teorico ϑ del parametro da stimare. Tenuto conto delle precedenti proprietà di una statistica campionaria, siamo ora in grado di enunciare il seguente: CRITERIO DI STIMA PUNTUALE: Una statistica G n (X 1,..., X n ) è il miglior stimatore di ϑ se è il più efficiente nell insieme degli stimatori corretti e consistenti. Il valore ˆϑ = g n (x 1,..., x n ) del miglior stimatore, calcolato utilizzando le n determinazioni x i del campione, è la stima ottima del parametro ϑ.

213 8.1 Stima puntuale Stima puntuale di medie e di varianze Sulla base del criterio appena enunciato, non è difficile definire la stima ottima per le medie e per le varianze di una popolazione di infiniti elementi, descritta da un modello statistico normale. Riguardo al valor medio, i risultati ricavati nel Capitolo precedente ed espressi dalle (7.4) e (7.6) mostrano che la media campionaria µ n definita dalla (7.2) è uno stimatore corretto e consistente (sia in probabilità che in media quadratica) della media teorica µ. Ma essa è anche il più efficiente tra gli stimatori corretti e consistenti. Limitiamoci a chiarire quest ultima affermazione con due esempi. 1). Dato un campione estratto da una popolazione con media µ e varianza σ 2, consideriamo come statistica G n una generica combinazione lineare delle variabili casuali indipendenti X 1,..., X n : n G n = a i X i i=1 in cui n a i = 1 (8.4) i=1 e con almeno due coefficienti a i che siano diversi da 1/n (perché altrimenti G n coinciderebbe con la media campionaria µ n ). Il valore atteso della statistica (8.4) vale: n n E{G n } = a i E{X i } = a i µ = µ i=1 e quindi anche G n è uno stimatore non distorto della media µ. Ricordando i calcoli già effettuati nel 3.1.1, la sua varianza vale e si può anche scrivere σ 2 (G n ) = σ 2 i=1 n n σ 2 (G n ) = a 2 i σ 2 (X i ) = a 2 i σ 2 i=1 i=1 n i=1 ( a i 1 n + 1 n ) 2 = σ 2 n i=1 ( a i 1 ) 2 + σ2 n n > σ2 n perché per almeno due coefficienti a i la differenza a i 1/n è diversa da zero. Dunque la varianza di G n è sempre maggiore della varianza σ 2 n della media campionaria µ n, e per la (8.3) si deduce che µ n è più efficiente della statistica (8.4). Inoltre, σ 2 (G n ) è maggiore di zero per qualsiasi numerosità del campione, e tale che lim n σ2 (G n ) = σ 2 a 2 i > 0. i=1 Quindi G n non è nemmeno uno stimatore consistente della media µ. 2). La mediana ˆx di una distribuzione campionaria di frequenze, definita nella (6.3), è anch essa uno stimatore non distorto di µ, e si può calcolare che per n >> 1 ha una varianza che vale: σ 2 (ˆx) = π 2n σ2.

214 206 STIME DI PARAMETRI Dunque ˆx è anche uno stimatore consistente, perchè la sua varianza tende a zero per n. Tuttavia, per n finito quest ultima è maggiore della varianza (7.5) della distribuzione campionaria di µ n, e quindi µ n è più efficiente di ˆx. Poiché si può dimostrare che µ n è più efficiente di qualsiasi stimatore della media, si può concludere che la statistica (7.2) è il miglior stimatore di µ, e di conseguenza la stima ottima del valor medio vale : ˆµ = 1 n x i. (8.5) n i=1 Riguardo alla stima puntuale della varianza di una popolazione normale, nel 7.4 si è ricavato che il valor medio della distribuzione campionaria di S 2 n, definita nella (7.3), non soddisfa la condizione (8.1). Pertanto, la statistica S 2 n è uno stimatore distorto della varianza σ 2 della popolazione. Al contrario, in un campionamento con ripetizione la statistica corretta (7.14) soddisfa entrambe le proprietà di non distorsione e di consistenza perché, ricordando i risultati già ottenuti nel 7.4.1, è tale che σ2 E{Ŝ2 n} = n 1 E{Q n} = lim n σ2 (Ŝ2 n) = lim n σ2 (n 1) = σ2 n 1 2 n 1 σ4 = 0. Inoltre, anche per Ŝ2 n si può dimostrare che è il più efficiente tra gli stimatori corretti e consistenti della varianza. Si può pertanto concludere che la statistica (7.14) è il miglior stimatore della varianza σ 2 della popolazione, e che la sua stima ottima effettuata con campioni estratti con ripetizione vale: ˆσ 2 = 1 n 1 n (x i µ n ) 2. (8.5 ) i=1 E proprio questo valore che viene restituito dalla maggior parte dei software di elaborazioni statistiche, quando si chiede la varianza di una assegnata serie di dati. Se il campione è estratto in blocco da un numero N non elevato di elementi, ricordando la (7.19) la stima (8.5 ) si corregge moltiplicandola per il coefficiente (N 1)/N Stima di massima verosimiglianza E un metodo di stima puntuale assai efficace e attendibile, che spesso può essere applicato con successo per valutare qualsiasi parametro incognito (non necessariamente coincidente con le medie o le varianze) presente nel modello statistico che si adotta per studiare una popolazione. Il procedimento per ottenere una stima di massima verosimiglianza è il seguente.

215 8.1 Stima puntuale 207 Supponiamo che la popolazione sia descritta da un modello statistico con densità f(x, ϑ) dipendente da un parametro incognito ϑ Θ IR, ed occorra stimare ϑ con l analisi di una statistica campionaria G n, di cui sono note n osservazioni indipendenti x 1, x 2,..., x n. Queste osservazioni sono le realizzazioni di n variabili casuali indipendenti: X i, i = 1,..., n, ciascuna con densità f(x i, ϑ). Poichè sono indipendenti, la loro densità di probabilità congiunta vale, come detto nel Capitolo 3: L(ϑ; x 1,..., x n ) = f(x 1, ϑ)f(x 2, ϑ) f(x n, ϑ). (8.6) Questa densità, interpretata come una funzione ordinaria della variabile reale ϑ e dipendente dagli n parametri x i, è detta verosimiglianza per la realizzazione x = {x 1,.., x n } del campione. Si chiama stima di massima verosimiglianza per il parametro ϑ quel valore (se esiste) della variabile indipendente, per cui la funzione L(ϑ; x 1,..., x n ) ha un massimo nel dominio di interesse Θ del parametro da stimare. Questo valore si indica con M LE(ϑ) (Maximum Likelihood Estimation), e deve soddisfare la condizione: L[ϑ = MLE(ϑ); x 1,..., x n ] = sup L(ϑ; x 1,..., x n ). ϑ Θ Se per qualsiasi realizzazione del campione la verosimiglianza L(ϑ; x 1,..., x n ) ha un massimo in Θ, e se L(ϑ; x 1,..., x n ) è derivabile rispetto a ϑ, allora la stima di massima verosimiglianza M LE(ϑ) è un suo punto di stazionarietà che soddisfa l equazione: dl(ϑ; x)/dϑ = 0. Poiché L(ϑ; x) non è identicamente nulla in Θ, quest ultima equazione si può anche scrivere: d d log L(ϑ; x) = dϑ dϑ log[f(ϑ; x 1) f(ϑ; x n )] = d dϑ i=1 n log f(ϑ; x i ) = 0 i=1 ed effettuando la derivata si ricava la seguente equazione di verosimiglianza: n f(ϑ, x i ) 1 = 0. (8.7) ϑ f(ϑ, x i ) Per la maggior parte dei modelli statistici di uso più frequente non è difficile verificare che i punti di stazionarietà che soddisfano la (8.7) corrispondono effettivamente a un massimo di L(ϑ; x), per cui la soluzione della equazione di verosimiglianza (supposto che esista e sia unica in Θ) fornisce la stima MLE(ϑ), espressa in termini delle osservazioni x i rilevate nel campione. Se il parametro incognito ϑ è il valor medio µ di una popolazione di infiniti elementi, si può anche dimostrare che la stima di massima verosimiglianza del valor medio coincide con la media campionaria µ n e di conseguenza, per quanto si è visto nel paragrafo precedente, fornisce la stima ottima del valor medio della popolazione. Verifichiamo questa sua proprietà nell ipotesi che siano state fatte n osservazioni su una popolazione cui si attribuisce un modello statistico normale N (ϑ, σ 2 ). Ogni osservazione ha una distribuzione f(x i, ϑ) = 1 σ 2π exp [ (x i ϑ) 2 2σ 2 ], i = 1,..., n

216 208 STIME DI PARAMETRI e la funzione di verosimiglianza vale: L(ϑ; x) = n i=1 [ 1 σ 2π exp (x i ϑ) 2 ] 2σ 2 = [ 1 (2πσ 2 exp ) n/2 n (x i ϑ) 2 ] 2σ i=1 2. Per determinare il suo punto di massimo calcoliamo le derivate prime: [ df(x i, ϑ) (x i ϑ) 2 ] dϑ 2σ 2 = 1 σ 2π xk ϑ σ 2 exp per cui l equazione di verosimiglianza (8.7) si scrive: 1 σ 2 n (x i ϑ) = 0. i=1 Poichè σ 2 > 0, si ricava: x 1 + x x n nϑ = 0, da cui MLE(ϑ) = 1 n (x 1 + x x n ) = µ n. = x k ϑ σ 2 f(x i, ϑ) Al contrario, con calcoli del tutto analoghi si può mostrare che in un modello N (µ, ϑ) Normale-2, la stima di massima verosimiglianza per ϑ non concide con la stima ottima della varianza che si ottiene invece con la statistica (7.14). Infatti, tenuto conto che le densità di ciascuna osservazione X i del campione sono le loro derivate valgono: df(x i, ϑ) = 1 [ exp dϑ 2πϑ f(x i, ϑ) = 1 2πϑ exp (x i µ) 2 2ϑ [ (x i µ) 2 2ϑ ], ] [ (xi µ) 2 2ϑ 2 1 ] = (x i µ) 2 ϑ 2ϑ 2ϑ 2 f(x i, ϑ) e l equazione di verosimiglianza per ϑ è in tal caso: 1 n 2ϑ 2 [(x i µ) 2 ϑ] = 1 [ n ] 2ϑ i=1 2 (x i µ) 2 nϑ = 0. i=1 La sua soluzione è: MLE(ϑ) = 1 n (x i µ) 2 n i=1 e coincide con la varianza campionaria (7.2) che è una stima distorta della varianza teorica σ 2. Questo metodo di stima puntuale è comunque particolarmente efficace quando si devono determinare parametri incogniti che non siano la media o la varianza della

217 8.1 Stima puntuale 209 distribuzione teorica ipotizzata nel modello statistico. illustrano la sua applicazione per questo tipo di stime. Esempio 8.1 I due esempi che seguono Si vuole stimare il valore del parametro c IR nel modello statistico esponenziale del tipo E(λ + c) f(x, c) = (λ + c)e (λ+c)x, x 0 che si attribuisce a una popolazione dalla quale è stato estratto, con ripetizioni, un campione di numerosità n. Definita la funzione di verosimiglianza (8.6) con ϑ = c, le derivate delle densità f(x i, c) valgono: df(x i, c) = e (λ+c)x i x i (λ + c)e (λ+c)x i = dc e di conseguenza l equazione di verosimiglianza è n ( ) 1 λ + c x i = n n λ + c x i = n i=1 i=1 ( ) 1 λ + c x i f(x i, c) ( ) 1 λ + c µ n = 0. La stima di massima verosimiglianza per il parametro c è pertanto: MLE(c) = 1 µ n λ. Si noti che MLE(c) = 0 implica: µ n = 1/λ, e questo risultato verifica che la stima di massima verosimiglianza per il valor medio µ = 1/λ di una popolazione con modello esponenziale E(λ) coincide con la media campionaria µ n. Esempio 8.2 Si estrae con ripetizioni un campione di numerosità n da una popolazione avente un carattere X con valori in (0, 1], al quale si decide di assegnare un modello statistico descritto dalla densità { (1 + b)x b per x (0, 1] f X (x, b) = 0 altrove, con b IR parametro incognito. Per stimarlo, osserviamo che ogni elemento X i del campione ha densità f(x i, b) = (1 + b)x b i la cui derivata vale ( ) df(x i, b) 1 = x b db i[1 + (1 + b) log x i ] = 1 + b + log x i f(x i, b). L equazione di verosimiglianza (8.7) si scrive: n ( ) b + log x i = n n 1 + b + log x i = i=1 e risolvendola rispetto a b si ottiene: i=1 MLE(b) = 1 n 1 + b + log(x 1x 2 x n ) = 0, n log(x 1 x 2 x n ).

218 210 STIME DI PARAMETRI Metodo dei momenti Si tratta di un metodo di stima puntuale che è concettualmente assai semplice, e sebbene in generale non fornisca risultati molto precisi, è molto utile per ottenere simultaneamente la stima di più di un parametro incognito presente nel modello statistico. Precisamente, assumiamo che il modello di popolazione sia descritto da una densità f X (x; ϑ 1, ϑ 2,..., ϑ M ) dipendente da M parametri incogniti, e che questa sia dotata dei suoi primi M momenti: E{X q }(ϑ 1, ϑ 2,..., ϑ M ), q = 1,..., M noti come assegnate funzioni degli M parametri incogniti. Estratto dalla popolazione un campione di numerosità n, consideriamo gli M momenti campionari di ordine q, già definiti nella (7.0). Indichiamo con g n (q) (x 1,..., x n ) le realizzazioni di questi M momenti campionari, che possiamo calcolare utilizzando i dati x i. Imponendo che ciascuna realizzazione uguagli il corrispondente momento della densità teorica, si perviene al seguente sistema di M equazioni nelle M incognite ϑ q : q = 1,..., M : E{X q }(ϑ 1, ϑ 2,..., ϑ M ) = g (q) n (x 1,..., x n ) (8.8) la cui soluzione (se esiste, e se è unica in Θ) fornisce la stima degli M parametri incogniti, espressa in termini degli n dati osservati. Al posto di qualche momento campionario del tipo (7.1) si può anche utilizzare, per migliorare l approssimazione dei risultati, i corrispondenti momenti campionari centrali, come per esempio la stima ottima (8.5) della varianza. Esempio 8.3 Si assume che il carattere X di una popolazione possa avere valori uniformemente distribuiti in un intervallo di IR da determinare. Il modello statistico per X è perciò quello uniforme R(ϑ 1, ϑ 2 ) avente come parametri incogniti gli estremi di tale intervallo, ed è descritto dalla densità costante (2.28) con momenti del primo e secondo ordine che valgono: E{X} = 1 2 (ϑ 1 + ϑ 2 ), E{X 2 } = 1 3 (ϑ2 1 + ϑ 1 ϑ 2 + ϑ 2 2). Per stimare i due estremi incogniti, si estrae un campione casuale con numerosità n = 10 dal quale si ricavano i seguenti dati x i : 1.4, 3.05, 1.9, 0.45, 2.2, 4.1, 3.5, 2.7, 4.25, La media campionaria e il momento campionario di ordine 2 risultano rispettivamente: g (1) n µ n = 1 10 i x i = 2.45, g (2) n = 1 10 x 2 i = i

219 8.2 Stima per intervalli 211 Applichiamo il metodo dei momenti, scrivendo la (8.8) per q = 1, 2. sistema: Si ricava il ϑ 1 + ϑ 2 = ϑ ϑ 1 ϑ 2 + ϑ 2 2 = la cui soluzione fornisce: ϑ 1 = , ϑ 2 = Esempio 8.4 Si ha motivo di ritenere che un parametro X, presente nel modello matematico di un fenomeno fisico aleatorio, possa assumere casualmente valori compresi nell intervallo [0, 1], con legge non uniforme, bensí soddisfacente un modello statistico Beta B(b, c), descritto dalla densità che è definita nella (2.53) del Capitolo II. Essa dipende dai due parametri incogniti b, c > 1, che ci proponiamo di stimare mediante l analisi di un campione costituito, per esempio, dai risultati x i di n osservazioni indipendenti del fenomeno fisico oggetto di studio. Poichè il valor medio e la varianza della distribuzione teorica sono funzioni note dei due parametri incogniti definite nella (2.54), conviene usare i dati del campione per calcolare le stime ottime ˆµ, ˆσ 2 della media e della varianza, e uguagliarle alle loro espressioni teoriche. Si ricava in tal modo il seguente sistema: ˆµ = b + 1 b + c + 2 ˆσ 2 = (b + 1)(c + 1) (b + c + 2) 2 (b + c + 3) che ha come soluzione: b = ˆµ2 (1 ˆµ) ˆσ 2 (1 + ˆµ) ˆµ(1 ˆµ)2 c = ˆµ 2 + ˆσ 2 con ˆµ e ˆσ 2 definite rispettivamente dalle (8.5) e (8.5 ). 8.2 Stima per intervalli La stima ottima ˆϑ di un parametro ϑ che abbiamo ricavato nel paragrafo precedente, si determina esaminando i dati forniti da uno dei tanti campioni che casualmente è possibile estrarre dalla popolazione. Ciò significa che il valore empirico ottenuto è da considerare approssimato, perché assai raramente esso coinciderà con il vero valore del parametro.

220 212 STIME DI PARAMETRI Se però si conosce la distribuzione campionaria della statistica usata per stimare questo parametro, siamo in grado di valutare l errore commesso, e di definire l intervallo [ϑ min ˆϑ ϑ max ] che, con probabilità γ [0, 1] molto prossima ad 1, contiene il vero valore del parametro in questione. Questo metodo di stima, che evidentemente migliora e completa i risultati che si ottengono con una semplice stima puntuale, si chiama stima per intervalli. L intervallo [ϑ min, ϑ max ] tale che IP(ϑ min ϑ ϑ max ) γ ϑ Θ si chiama intervallo di confidenza o intervallo fiduciario, i suoi estremi sono i limiti fiduciari, e γ è il livello fiduciario o probabilità fiduciaria, che si sceglie in anticipo e quantifica, per cosí dire, il nostro grado di accettazione dell errore commesso nella stima. Espressa in percentuale, la probabilità γ esprime anche il livello di significatività della stima effettuata. Fissato γ, quanto più piccolo è l intervallo di confidenza, tanto migliore è l approssimazione della stima puntuale effettuata. La stima intervallare più frequente usa un intervallo fiduciario simmetrico, centrato sul valore empirico ˆϑ calcolato, e prende anche il nome di stima a due code se la condizione: IP( ˆϑ δ ϑ ˆϑ + δ) γ ϑ Θ implica l esclusione delle regioni più esterne (le code ) di una distribuzione di tipo normale. In altri casi, è invece preferibile effettuare stime a una coda, che sono definite da condizioni del tipo: IP(ϑ ϑ max ) γ, IP(ϑ min ϑ) γ ϑ Θ in cui gli intervalli di confidenza sono limitati solo a destra o a sinistra. La definizione delle distribuzioni campionarie delle medie e delle varianze che è stata effettuata nei 7.3 e 7.4 del Capitolo precedente, ci permette di determinare per questi due parametri le stime intervallari che seguono Intervalli di confidenza per la media Popolazione con varianza nota. Supponiamo dapprima che la popolazione da cui è stato estratto il campione abbia una distribuzione teorica con media µ incognita da determinare, e varianza nota σ 2. Se la popolazione ha un modello statistico Normale N (θ, σ 2 ), anche la media campionaria µ n ha una distribuzione normale, che per le (7.4) e (7.5 ) ha media µ e deviazione standard σ/ n, per qualunque valore della numerosità n del campione. Se la popolazione ha una distribuzione teorica che non è normale, per il Teorema Limite Centrale la distribuzione campionaria delle medie ha ancora legge normale N (µ, σ 2 /n) se la numerosità del campione è sufficientemente elevata (in pratica, se n 30).

221 8.2 Stima per intervalli 213 In entrambi i casi, fissato il livello fiduciario γ e introdotta la variabile normale standard Z n = µ n µ σ/ N (0, 1), (8.9) n si può determinare un intervallo di confidenza simmetrico, centrato sul valore empirico µ n della media campionaria, calcolando il valore di z per cui si ha: ( IP µ n σ z µ µ n + σ ) ( z = IP µ n µ σ ) z n n n = IP( Z n z) = 2 erf (z) = γ. (8.10) Questo valore di z che soddisfa la (8.10), e che indichiamo con z q z (1+γ)/2 (v. il grafico a) di Fig. 8.1) è il quantile di ordine q = (1 + γ)/2 della legge Normale standard, e viene chiamato coefficiente fiduciario. Ricordando che il quantile z q di ordine q della distribuzione N (0, 1) è quel valore di Z tale che F Z (z q ) = erf(z q) = q, esso si può ricavare dalla Tabella di erf(z) riportata in Appendice, ricercando nelle sue colonne il numero più prossimo al valore q 0.5 (ovvero al valore γ/2), eventualmente interpolando tra due valori vicini. N (0,1) (0,1) N z z z a) stima con intervallo simmetrico b) stima a una coda Figura Intervalli di confidenza z z Calcolati il valore empirico µ n e il coefficiente fiduciario z γ, l intervallo di confidenza simmetrico per una stima al livello fiduciario γ risulta pertanto: µ n σ n z (1+γ)/2 µ µ n + σ n z (1+γ)/2 (8.11) ed ha come estremi i limiti fiduciari: µ n ± σ n z (1+γ)/2. (8.11 ) In modo analogo si può procedere per determinare i limiti superiori o inferiori di intervalli di confidenza per le stime a una coda. Ad esempio, il valore z γ di z che

222 214 STIME DI PARAMETRI soddisfa la seguente condizione: ( IP µ µ n + σ ) z = IP (µ n µ z σ ) = IP(Z n z) = n n = 1 IP(Z n z) = 1 [1/2 + erf ( z)] = 1/2 + erf (z) = γ è il quantile di ordine q = γ della legge N (0, 1) e definisce il limite fiduciario superiore per il seguente intervallo di confidenza a una coda: < µ µ n + σ n z γ (8.12) che è mostrato nel grafico b) di Fig Esso si determina ricercando nella Tabella di erf(z) il valore di z che corrisponde a una probabilità uguale a γ 1/2. Allo stesso modo si determina il limite fiduciario inferiore dell intervallo di confidenza: µ n σ n z γ µ < +, (8.13) dove z γ è ancora il quantile di ordine γ di N (0, 1), soddisfacente la condizione: ( IP µ µ n σ ) z = IP (µ n µ z σ ) = IP(Z n z) = 1/2 + erf (z) = γ. n n OSSERVAZIONE 8.1 I limiti fiduciari ora determinati si prestano anche alla risoluzione dei seguenti problemi di stima, collegati a quello della determinazione di un intervallo di confidenza simmetrico. Determinazione del livello fiduciario. Fissato lo scarto δ = µ n µ = σ n z (1+γ)/2 nella stima del valor medio µ attraverso il risultato empirico µ n, la probabilità fiduciaria con cui si può affermare che µ = µ n ± δ è data dal valore di γ che soddisfa la condizione: n z (1+γ)/2 = σ δ, il quale per la (8.10) vale: ( ) n γ = 2 erf z = σ δ. (8.14) Determinazione della numerosità del campione. Fissato il livello fiduciario γ, la numerosità del campione che è necessaria per sostenere che il valor medio stimato vale µ = µ n ± δ si calcola imponendo la condizione: z (1+γ)/2 σ n δ

223 8.2 Stima per intervalli 215 con z (1+γ)/2 che soddisfa la (8.10). Da questa si ottiene: Popolazione con varianza sconosciuta. ( ) σ 2 n z (1+γ)/2. (8.15) δ Supponiamo ora che la popolazione da cui è stato estratto il campione abbia una distribuzione teorica in cui anche la varianza σ 2, in aggiunta alla media µ da determinare, sia sconosciuta. In tal caso, per effettuare una stima intervallare di µ ci si basa sulla densità t-student illustrata nel del Capitolo II, alla quale fa riferimento il seguente: TEOREMA 8.1 (t-student) Se da una popolazione normalmente distribuita si estraggono campioni casuali di numerosità n con media campionaria µ n e varianza campionaria corretta Ŝ2 n, allora la variabile casuale T n = (µ n µ) n Ŝ n (8.16) ha una distribuzione t-student con ν = n 1 gradi di libertà. Ne segue che se la popolazione ha una distribuzione teorica normale, una volta determinate le realizzazioni delle due statistiche campionarie (7.2) e (7.14) con numerosità n qualsiasi, una stima intervallare simmetrica per µ con livello fiduciario γ si potrà effettuare determinando quel valore t q di t che soddisfa la condizione: IP ( ) µ n Ŝn t µ µ n + Ŝn t n n = IP ( ) µ n µ Ŝn t n = IP( T n t) = γ. (8.17) Il coefficiente fiduciario t q per questa stima a due code è il quantile della distribuzione t-student con ν = n 1 gradi di libertà, che lascia alla sua destra un area uguale alla probabilità (1 γ)/2. Esso si può ricavare da una apposita Tabella dei quantili delle distribuzioni t-student che è riportata in Appendice, e per un prefissato grado di libertà ν è il valore che si trova nella colonna del quantile = q = 1 1 γ 2 = 1 + γ 2. (8.17 ) L intervallo di confidenza simmetrico per una stima di µ al livello fiduciario γ è pertanto: µ n Ŝn n t q µ µ n + Ŝn n t q. (8.18) Si noti che i suoi limiti fiduciari si ottengono dalla (8.11 ) sostituendo σ, ora incognito, con Ŝn (n qualsiasi), e il coefficiente z q con t q. In modo simile, si ricavano i

224 216 STIME DI PARAMETRI seguenti intervalli di confidenza a una coda: < µ µ n + Ŝn n t q, µ n Ŝn n t q µ < +, (8.19) i cui limiti fiduciari superiore o inferiore sono da determinare calcolando il coefficiente t q che è ora il quantile della distribuzione t-student con ν = n 1 gradi di libertà, con q = γ. Le formule (8.17)-(8.19) sono state ricavate nella ipotesi che la popolazione sia normalmente distribuita, e valgono anche per piccoli campioni (n < 30) estratti casualmente da questa. Se invece la popolazione non è normalmente distribuita, non sono soddisfatte le ipotesi del precedente Teorema. In tal caso si può però dimostrare che il Teorema 8.1 vale ancora per n sufficientemente grande, circostanza in cui, come si è detto nel 3.2.6, la distribuzione t-student tende alla legge Normale standard identificandosi con la variabile aleatoria Z n definita con la (8.9). Ne segue che le stime intervallari per la media di una popolazione con distribuzione diversa da quella normale si ottengono ancora, se la numerosità del campione è sufficientemente elevata (n 30), calcolando i coefficienti fiduciari z γ che compaiono nelle (8.11)-(8.15), dopo aver sostituito in queste formule la deviazione standard incognita σ con il valore empirico della statistica campionaria Ŝn. Riportiamo qui, per comodità, le espressioni di Ŝn che si deducono dall analisi della distribuzione campionaria delle varianze effettuata nel 7.4 del Capitolo VII. Se il campione di numerosità n è estratto con ripetizione da una popolazione finita, oppure se la popolazione è infinita, si ha n Ŝ n = n 1 S n. (8.20) Se il campione è estratto senza ripetizione da una popolazione con un numero finito di N elementi, allora N 1 n Ŝ n = N n 1 S n, (8.21) dove S n è la radice quadrata positiva della varianza campionaria (7.2): Esempio 8.5 S n = 1 n n (X i µ n ) 2. i=1 La media e la deviazione standard del diametro di un campione di 200 utensili prodotti da una fabbrica sono rispettivamente µ n = cm e S n = cm. Nell ipotesi che il campione sia stato estratto con ripetizione da un numero elevato di pezzi fabbricati, determinare: 1) i limiti fiduciari al 95% e al 99% per il diametro

225 8.2 Stima per intervalli 217 medio dei tondini in produzione; 2) la numerosità n del campione che si dovrebbe esaminare per poter concludere, al livello fiduciario γ = 0.95, che l errore nella stima della media è inferiore a cm. 1) Il campione è estratto da una popolazione avente distribuzione non nota, con media e varianza pure sconosciute. La numerosità n è sufficiente per asserire che i limiti fiduciari sono dati da con Ŝn che per la (8.20) vale Ŝ n = µ n ± Ŝn 200 z q = cm 199 e z q con q = (1 + γ)/2 si ricava dalla Tabella di erf(z). Al livello fiduciario γ = 0.95, si trova dalla Tabella che γ/2 = = erf (1.96), e quindi z q = Al livello γ = 0.99, si ha invece z q = 2.575, interpolando tra i valori più vicini a γ/2 = Si ottengono pertanto i seguenti risultati: al livello γ = 0.95 : µ = ± = ± cm. al livello γ = 0.99 : µ = ± = ± cm. 2) Per stimare il valor medio con un errore inferiore a δ = 0.001, occorre che n soddisfi la condizione (8.15) con Ŝn = al posto di σ incognita. Al livello di fiducia del 95% si deve perciò avere (arrotondando per eccesso perché n è intero): esempio 8.6 ( n ) 2 = Dieci misurazioni della lunghezza di un oggetto danno come risultato una media µ n = 4.38 cm e una deviazione standard S n = cm. Si vuole determinare i limiti fiduciari al 95% e al 99% della lunghezza effettiva dell oggetto. Il campione è l insieme di dieci prove ripetute e indipendenti consistenti nella misurazione della lunghezza dell oggetto, e si può considerare estratto con ripetizione dalla popolazione delle infinite misurazioni teoricamente possibili. In accordo con il Teorema di asintoticità per prove ripetute e indipendenti (v del Capitolo II), il modello statistico da adottare è quello Normale-2, con media e varianza sconosciute. Poichè abbiamo a disposizione un piccolo campione (n = 10), i limiti fiduciari per la media µ si calcolano usando la distribuzione t-student con ν = n 1 = 9 gradi di libertà, e sono definiti dalla (8.18) con 10 Ŝ n = cm 9

226 218 STIME DI PARAMETRI calcolato applicando la (8.20). Al livello fiduciario γ = 0.95 il quantile q dato dalla (8.17 ) vale q = = e al livello fiduciario γ = 0.99: q = = La Tabella dei quantili della distribuzione t-student con 9 gradi di libertà (v. Appendice) fornisce rispettivamente i seguenti coefficienti fiduciari: t q = e t q = Pertanto, in applicazione della (8.18) si ricava che i limiti fiduciari per il valor medio della lunghezza dell oggetto sono: al livello γ = 0.95 : µ = 4.38 ± al livello γ = 0.99 : µ = 4.38 ± = 4.38 ± cm = 4.38 ± cm. Esempio 8.7 Da una popolazione di 200 voti in centesimi di un esame scolastico si estrae un campione casuale di 50 voti che ha media µ n = 75 e varianza S 2 n = 100. Calcolare: 1) i limiti fiduciari al 95% per la stima della media dei voti; 2) il livello fiduciario con cui potremo affermare che tale media vale 75 ± 1. 1) Il campione è estratto senza ripetizione da una popolazione finita con N = 200 elementi, con media e varianza sconosciute. Poiché n > 30, possiamo calcolare i limiti fiduciari applicando la (8.11 ) dopo aver sostituito, al posto di σ incognita, la stima corretta di Ŝn che questa volta è data dalla (8.21). Il suo valore è prossimo a quello della deviazione standard campionaria, e vale Ŝ n = S2 n = 100 = Il coefficiente fiduciario z γ per γ = 0.95 vale z γ = 1.96 (v. l Esempio 8.5 precedente). Pertanto i limiti fiduciari per la stima della media dei voti sono: µ = 75 ± == 75 ± ) Per valutare il livello fiduciario di una stima intervallare del valor medio con un errore non superiore a ±1, si applica la (8.14) con δ = 1 e Ŝn = al posto di σ. Si ricava allora: ( ) 50 γ = 2 erf 2 erf (0.70) = =

227 8.2 Stima per intervalli 219 Ciò significa che una stima in cui si afferma che µ è uguale al valore empirico con lo scarto massimo di una unità, ha soltanto il 51.6% di probabilità di essere vera. Esempio 8.8 Con un montacarichi che ha un limite di sicurezza di 8200 kg si devono trasportare 25 casse, scelte a caso da un lotto ricevuto in ditta. Si sa che il peso medio di ciascuna cassa è µ = 300 kg, con deviazione standard σ = 50 kg. Si vuole calcolare: 1) la probabilità che il peso delle 25 casse non superi il limite di sicurezza del montacarichi; 2) il numero massimo di casse che è possibile caricare, se si vuole rimanere al di sotto del limite di sicurezza di 8200 kg. con una probabilità del 99.9%. 1) In questo problema si assume di conoscere i parametri µ e σ 2 del modello statistico per la popolazione delle casse, e poiché non conosciamo il numero N di elementi della popolazione da cui è stato estratto il campione di n = 25 casse, si intende che questo è stato scelto da una popolazione infinita. La distribuzione campionaria delle medie dei pesi ha valor medio E(µ n ) = µ = 300 kg e deviazione standard che per la (7.5 ) vale σ n = σ/ 25 = 10 kg. Si deve determinare la probabilità fiduciaria γ per un test a una coda sul peso delle 25 casse del campione, al quale si richiede di non superare il limite di sicurezza di 8200 kg. Questo limite di sicurezza è raggiunto se ciascuna cassa ha un peso medio di µ n = 8200/25 = 328 kg. Quindi, la probabilità da calcolare è γ = IP(µ n < 328). Introducendo, al solito, la variabile standardizzata Z n = µ n E(µ n ) = µ n 300, σ n 10 al peso limite µ n di ciascuna cassa corrisponde il valore standardizzato z = 2.8. Si ricava dunque: γ = IP(µ n < 328) = IP(Z n < 2.8) = erf(2.8) = = ) Nella seconda domanda è invece fissato il livello fiduciario γ = 0.999, e si richiede il numero n di casse che soddisfa la condizione: ( P µ n 8200 ) = n ovvero anche il valore z γ di Z n che soddisfa: IP(Z n z γ ) = erf(z γ) = Dall esame della Tabella dei valori di erf(z) risulta: z γ = 3.1 per cui, ricordando l espressione della variabile stardardizzata Z n, si ricava che deve essere: z γ = 3.1 = 8200/n /. n

228 220 STIME DI PARAMETRI Si ottiene perciò la seguente equazione nella incognita n: 60n + 31 n 1640 = 0 che ha soluzione n = 24, 76. Da essa si deduce che per non superare il limite di sicurezza con probabilità fiduciaria γ = 0.999, è necessario caricare un numero massimo di 24 casse. Esempio 8.9 Dall analisi di 500 sferette da cuscinetto prodotte in uno stabilimento, si ricava che esse hanno un peso medio di 5.02 grammi, con deviazione standard σ = 0.30 gr. 1) Determinare la probabilità fiduciaria con cui si può affermare che il peso medio delle sferette in produzione vale µ = 5.02 ± 0.02 gr. 2) Dai 500 elementi esaminati si estrae senza ripetizione un campione di n = 100 sferette. Calcolare la probabilità che questo campione abbia un peso complessivo compreso tra 496 e 500 gr., oppure maggiore di 510 gr. 1) Per il primo problema, si assume che il modello statistico per il peso delle sferette abbia varianza nota σ 2 = (0.3) 2 = 0.09 gr 2, e media µ da stimare mediante i dati forniti da un campione di numerosità n = 500 estratto con ripetizione dalla popolazione degli elementi in produzione. Si richiede la probabilità fiduciaria γ per una stima intervallare di µ con uno scarto massimo δ = 0.02 gr. Essa si determina applicando la (8.14), e dalla Tabella di erf(z) si ricava: ( ) γ = 2 erf = 2erf (1.49) = = ) Nel secondo problema, occorre determinare la distribuzione campionaria delle medie dei pesi, che risulta da un generico campione di n = 100 sferette estratto senza ripetizione da una popolazione di N = 500 elementi. Per il Teorema Limite Centrale, questa distribuzione campionaria è ben approssimata dalla legge normale con valor medio E{µ n } = µ = 5.02, e varianza da calcolare applicando la (7.7): σn 2 = σ = gr Si chiede di determinare le probabilità IP(4.96 µ n 5) e IP(µ n 5.10) che sono rappresentate dalle aree evidenziate in Fig La variabile casuale standardizzata Z n = µ n E{µ n } σ 2 n = µ n assume, in corrispondenza degli estremi richiesti per µ n, i seguenti valori: µ n = 4.96 : z 1 = 2.22 µ n = 5 : z 2 = 0.74 µ n = 5.10 : z 3 = 2.96

229 8.2 Stima per intervalli 221 E{ n } n Figura 8.2 per cui le probabilità cercate sono: IP(4.96 µ n 5) = IP( 2.22 Z n 0.74) = erf (2.22) erf (0.74) = Esempio 8.10 IP(µ n 5.10) = IP(Z n 2.96) = 1 erf (2.96) = Da un campione di n = 100 votanti intervistati all uscita dai seggi in un ballottaggio elettorale risulta che il 55% di essi si è espresso a favore del candidato A. Si vuole determinare: 1) i limiti fiduciari al 95% e al 99% sulla percentuale di voti favorevoli al candidato A ; 2) Il numero n di interviste necessarie per affermare, al livello fiduciario γ = 0.95, che il candidato sarà eletto. L universo costituito dall elettorato attivo si suddivide in elettori favorevoli o contrari al nostro candidato A. Se indichiamo con p la probabilità (incognita) che l elettore sia a lui favorevole, la popolazione degli elettori che hanno votato A è distribuita con legge binomiale, avente una media E{n s } = 100p e varianza σ 2 (n s ) = 100p(1 p), dove n s è il numero di successi (voti a favore) riscontrati nel campione di elettori intervistati. Consideriamo tutti i possibili campioni di grandezza n = 100 estratti da questa popolazione, e valutiamo la distribuzione campionaria delle frequenze relative Y = n s /100. Nel 7.5 è stato ricavato che anche Y ha una distribuzione binomiale, che si può approssimare con una legge normale avente valor medio e deviazione standard date dalla (7.22): E{Y } = E(n s) 100 = p σ Y = σ(n s) 100 = p(1 p) 100 1) La prima domanda richiede una stima intervallare per la frequenza relativa Y di voti favorevoli, che effettuiamo introducendo la variabile standardizzata: Z = Y p σ Y = Y p p(1 p)/n..

230 222 STIME DI PARAMETRI Si deve determinare l intervallo di confidenza: p z q σ Y p p + z q σ Y con z q da calcolare per i livelli fiduciari richiesti usando la Tabella di erf(z), e precisamente: z q = 1.96 al livello γ = 0.95; z q = 2.58 al livello γ = Dalle osservazioni sul campione ricaviamo che il valor medio della distribuzione delle frequenze relative di voti favorevoli è E{Y } = p = 0.55, e la sua deviazione standard vale: σ Y = = Si ottengono cosí i seguenti limiti fiduciari: al livello γ = 0.95 : p = 0.55 ± = 0.55 ± al livello γ = 0.99 : p = 0.55 ± = 0.55 ± Dunque, arrotondando gli scarti alla seconda decimale, si conclude che al livello fiduciario γ = 0.95 il candidato avrà una percentuale di voti che va dal 45% al 65%; al livello fiduciario γ = 0.99 avrà una percentuale compresa tra il 42% e il 68%. 2) Il candidato sarà eletto se Y > 0.50, e per stimare al livello di fiducia γ = 0.95 la probabilità che venga eletto, bisogna imporre che IP(Y > 0.50) = IP(Z > z 0 ) = 1 2 erf (z 0) = 0.95, dove z 0 è il valore della variabile standardizzata per Y = 0.5, che scriviamo in funzione di n: z 0 = = n. (8.22) /n Ricercando nella Tabella di erf(z) il valore z 0 che soddisfa: erf (z 0 ) = 0.45 e ricordando che erf ( z) = erf (z), si ricava: z 0 = Se sostituiamo questo valore nella (8.22) si ottiene, arrotondando per eccesso: n = ( ) = Occorrerebbero pertanto 268 interviste per affermare, con un rischio di sbagliare limitato al 5%, che il candidato A vincerà il ballottaggio. Esempio 8.11 Un campione Auditel di 1000 spettatori di un programma televisivo è costituito da n a = 700 adulti e n b = 300 bambini. Dal rilevamento dei dati di ascolto di un programma di nuova produzione risulta che questo è gradito da 280 adulti e da 240 bambini. Si vuole conoscere, ai livelli di fiducia γ = 0.95 e 0.99, i limiti fiduciari per il maggior gradimento del programma da parte dei bambini, rispetto a quello mostrato dagli adulti.

231 8.2 Stima per intervalli 223 Si considerino due campioni che supponiamo statisticamente indipendenti: quello costituito dagli spettatori adulti e quello dei bambini. Le frequenze relative Y a e Y b con cui si riscontra il gradimento dello spettacolo nei due campioni sono rispettivamente: Y a = = 0.4 = p a; Y b = = 0.8 = p b. Le distribuzioni campionarie di queste due frequenze relative, che indicano anche la percentuale p a, p b di gradimento del programma da parte dei due campioni, sono approssimabili (cfr. 7.5) con leggi normali aventi hanno valori medi E{Y a } = p a = 0.4 e E{Y b } = p b = 0.8. Le rispettive varianze valgono, per la (7.22): σa 2 = p a(1 p a ) = n a 700 σ 2 b = p b(1 p b ) n b = Definiamo ora la variabile casuale d(ω) = Y b Y a = = che rappresenta la differenza tra la frequenza relativa di gradimento da parte dei bambini, e quella riscontrata negli adulti. Se d(ω) ha realizzazioni maggiori di zero, significa che il programma ha un maggior gradimento da parte dei bambini, e viceversa se d < 0. Dalle osservazioni sul campione si ha che il suo valor medio è ovviamente E{d} = E{Y b } E{Y a } = 0.4, e la deviazione standard di questa distribuzione campionaria vale, per la (3.8) del Capitolo III: σ d = σa 2 + σb 2 = = Una stima per intervalli del maggior gradimento da parte dei bambini si effettua calcolando il seguente intervallo di confidenza: E{d} z q σ d d E{d} + z q σ d dove, al solito, z q è il coefficiente fiduciario per la differenza standardizzata Z = (d 0.4)/σ d, e vale z q = 1.96 al livello γ = 0.95; z q = 2.58 al livello γ = I limiti fiduciari per la differenza di gradimento ai livelli di fiducia richiesti sono allora: al livello γ = 0.95 : d = 0.4 ± = 0.4 ± al livello γ = 0.99 : d = 0.4 ± = 0.4 ± In termini percentuali, il risultato è il seguente: al livello fiduciario del 95%, il maggior gradimento del programma da parte dei bambini (rispetto a quello dimostrato dagli adulti) è da valutare tra il 34.2% e il 45.8%; al livello fiduciario del 99%, si stima invece compreso tra il 32.4% e il 47.6%.

232 224 STIME DI PARAMETRI Intervalli di confidenza per la varianza Se si conosce la distribuzione campionaria delle varianze, è possibile determinare un intervallo di confidenza per la varianza σ 2 della popolazione da cui è stato estratto il campione di numerosità n. Nel 7.4 si è visto che ciò è possibile se il modello statistico della popolazione ha legge normale, perché in tal caso dal Teorema Chi-quadrato si deduce che la stima ottima della varianza: Ŝn 2 = σ2 n 1 Q n (8.23) è distribuita con la densità (7.16), la quale a sua volta è calcolabile attraverso la legge Chi-quadrato con ν = n 1 gradi di libertà della variabile aleatoria Q n. Non è facile determinare i valori della distribuzione Chi-quadrato definita nella (2.20) e, come per la legge t-student, si ricorre di solito ai valori tabulati dei suoi quantili χ q, che sono riportati per diversi gradi di libertà in una Tabella della Appendice. Denotiamo allora per comodità con χ j = χ q=qj il quantile della distribuzione Chiquadrato che, per definizione, è tale da soddisfare la condizione: IP(Q n χ j ) = q j [0, 1]. Se si impone che Q n assuma valori in un intervallo [χ 1, χ 2 ] con un assegnato livello fiduciario γ, tenendo conto della (8.23) si ha ( IP(χ 1 Q n χ 2 ) = IP χ 1 n 1 ) σ 2 Ŝn 2 χ 2 = ( n 1 = IP Ŝn 2 σ 2 n 1 ) Ŝn 2 χ 2 χ 1 = γ. (8.24) f ( Q n ) E{ Q n } 2 Figura 8.3 Un intervallo di confidenza per la varianza σ 2 si ricava perciò, al livello fiduciario γ, determinando due quantili χ 1, χ 2 che soddisfano la (8.24). La scelta non è unica, ma di solito si determinano quelli che escludono due code della distribuzione Chiquadrato, aventi la medesima area uguale a (1 γ)/2. Con tale scelta (v. Fig. 8.3)

233 8.2 Stima per intervalli 225 i due quantili sono tali che: q 1 = 1 γ 2 ; q 2 = 1 + γ 2 (8.25) e definiscono un intervallo fiduciario che, pur non essendo centrato sul valor medio della distribuzione campionaria di Ŝn, 2 la suddivide in due parti con uguale area γ/2, a destra e a sinistra del valor medio il quale, come si è visto nel 7.4, coincide proprio con la varianza teorica della popolazione. La probabilità che σ 2 assuma valori in questo intervallo è uguale alla probabilità fiduciaria γ assegnata. La stima intervallare al livello fiduciario γ, per la varianza di una popolazione distribuita con legge normale, è dunque: n 1 χ 2 Ŝ 2 n σ 2 n 1 χ 1 Ŝ 2 n (8.26) con quantili dati dalla (8.25) e dove Ŝ2 n è una realizzazione della varianza campionaria corretta (7.14). In modo analogo si possono effettuare stime a una coda della varianza, tali da soddisfare condizioni del tipo: ( IP(Q n χ 1 ) = IP σ 2 n 1 ) Ŝn 2 = γ ( χ 1 IP(Q n χ 2 ) = IP σ 2 n 1 ) Ŝn 2 = γ (8.27) χ 2 nelle quali χ 1, χ 2 sono i quantili della Chi-quadrato per cui q 1 = 1 γ ; q 2 = γ, e tagliano un area della distribuzione campionaria che è uguale a 1 γ, rispettivamente a sinistra di χ 1 e a destra di χ 2. Caso di grandi campioni Nel si è detto che per n >> 1 la distribuzione Chi-quadrato è ben approssimata dalla legge Normale con media n e varianza 2n. Di conseguenza, se il campione usato per una stima intervallare della varianza ha numerosità n elevata (almeno maggiore di 30), la variabile aleatoria Q n ha una distribuzione prossima ad N (n, 2n), e la variabile Z n = Q n n 2n = (n 1)Ŝ2 n σ 2 n (8.28) 2n è prossima alla Normale standard. In tal caso, la stima intervallare di σ 2 al livello fiduciario γ si può effettuare imponendo che sia IP( Z n z q ) = γ, dove Z n è dato dalla posizione (8.28) e z q è, al solito, il quantile della Normale standard di ordine q = (1 + γ)/2 = q 2 che soddisfa erf (z q ) = γ/2.

234 226 STIME DI PARAMETRI Se ricaviamo σ 2 dalla (8.28) e, tenuto conto che n >> 1, assegnamo un valore unitario al rapporto (n 1)/n, si deduce allora che l intervallo di confidenza (8.26) può essere ben approssimato dal seguente: 1 + Ŝ 2 n 2 n z q σ 2 1 Ŝ 2 n 2 n z q (8.26 ) che è più comodo da calcolare perché richiede solo la determinazione di z q anziché quella di χ 1 e χ 2. Esempio 8.12 Per stimare la varianza di un coefficiente di resistenza aerodinamica C x, si effettuano 12 prove in una galleria del vento sul medesimo modello della struttura in esame. Dai risultati delle prove si ricava che il valor medio empirico del coefficiente di resistenza è circa 0.3, con varianza campionaria S 2 n = Si vuole determinare: 1) i limiti fiduciari per la varianza teorica σ 2 (C x ) del coefficiente di resistenza, al livello di fiducia γ = 0.9 ; 2) il livello fiduciario con cui si può affermare che σ 2 (C x ) Teoricamente, non sarebbe possibile assumere per C x un modello statistico normale, perché N (µ, σ 2 ) è definito sull insieme dei numeri reali, mentre C x > 0. Tuttavia, si può facilmente verificare che la curva gaussiana (2.29) con un valor medio µ X 0.3 e varianza di un ordine di grandezza inferiore, ha valori trascurabili al di fuori di un intervallo non negativo 0 < x < 0.6). Di conseguenza, il modello statistico normale si può ritenere compatibile con il nostro C x e una stima intervallare di σ 2 (C x ) si può effettuare applicando le precedenti formule (8.24)-(8.27). 1) Per una distribuzione Chi-quadrato con ν = n 1 = 11 gradi di libertà, i quantili calcolati con la (8.25) sono: q 1 = 1 γ 2 = 0.05 ; q 2 = 1 + γ 2 = 0.95 e la Tabella dei quantili χ q in Appendice fornisce: χ 1 = 4.57; χ 2 = Il valore empirico della varianza campionaria corretta è: Ŝn 2 = S2 n = e applicando la (8.26) si ottiene, al livello fiduciario γ = 0.9, la seguente stima intervallare della varianza teorica: = σ 2 (C x ) = ) per determinare il livello fiduciario per una stima a una coda tale che σ 2 (C x ) 0.03, usiamo la prima delle (8.27) ricercando il valore del quantile χ 1 γ che soddisfa la condizione: n 1 Ŝ n = = 0.03, χ 1 γ χ 1 γ

235 8.2 Stima per intervalli 227 ossia: χ 1 γ = Per ν = 11, la Tabella dei quantili fornisce i valori χ = 5.58 per q = 0.1, e χ = 7.58 per q = Interpolando linearmente tra questi dati per ottenere il valore di q corrispondente al quantile 5.998, ricaviamo: q = ( ) da cui γ = 1 q = Questo è il livello fiduciario con cui si può affermare che σ 2 (C x ) Esempio 8.13 Da una popolazione di N = 300 elementi avente un carattere X distribuito con legge normale N (µ, σ 2 = 150) si estraggono senza ripetizione n = 101 esemplari. Si desidera effettuare, al livello fiduciario γ = 0.98, una stima intervallare per la varianza del carattere X risultante nei 101 elementi del campione. In questo problema la varianza teorica è nota, e il suo valore è da utilizzare per effettuare una stima sulla varianza campionaria Sn. 2 Si riscrive la (8.24) nella forma seguente: ( IP(χ 1 Q n χ 2 ) = IP χ 1 n 1 ) σ 2 Ŝn 2 χ 2 = ( ) σ 2 = IP n 1 χ 1 Ŝ2 n σ2 n 1 χ 2 = 0.98 e si ricavano dalla Tabella in Appendice i quantili della distribuzione Chi-quadrato con ν = 100 gradi di libertà, corrispondenti a q 1 = = 0.01 ; q 2 = = 0.99, che valgono: χ 1 = 70.1 ; χ 2 = 136. Si deducono i seguenti limiti fiduciari per la stima ottima della varianza campionaria: = Ŝ2 n = 204. Ricordando poi che il campione è stato estratto senza ripetizione, questa statistica è legata alla varianza campionaria S 2 n dalla relazione (7.19): Ŝn 2 = N 1 N n n 1 S2 n = S2 n = Sn 2, per cui la stima intervallare richiesta è S 2 n (8.29) I limiti fiduciari per S 2 n sono molto vicini a quelli calcolati per Ŝ2 n, perché la numerosità del campione è superiore a 30.

236 228 STIME DI PARAMETRI Per lo stesso motivo, è anche possibile approssimare il risultato richiesto effettuando una stima intervallare sulla variabile normale standard (8.28). Nel nostro caso, per avere risultati coerenti con i precedenti non è però lecito approssimare all unità il rapporto (n 1)/n, perché il suo valore esatto è stato usato nel ricavare la (8.29). Risolvendo la posizione (8.28) rispetto a Ŝ2 n ricaviamo il seguente intervallo di confidenza approssimato: ( 1 ) 2 n z q σ 2 Se sostituiamo z q = 2.33 risulta: ( n n 1 Ŝ2 n Ŝ2 n ) 2 n z q σ 2 n n 1. e dividendo i limiti fiduciari per , si ottiene la seguente approssimazione dell intervallo di confidenza per S 2 n: S 2 n , da confrontare con il risultato esatto (8.29) che è stato ottenuto usando i coefficienti fiduciari della distribuzione Chi-quadrato. 8.3 Problemi risolti 8.1. La connessione a un sito Internet è ogni volta accettata con probabilità ϑ, 0 ϑ 1. Se X(ω) è la variabile aleatoria che rappresenta il numero di tentativi necessari per avere il collegamento, qual è il modello statistico da assumere per la variabile Y (ω) = X 1? In n giorni diversi si osserva il numero di tentativi che sono stati necessari per la connessione, e se ne calcola la media campionaria µ n. Questa statistica è uno stimatore non distorto di E{Y }? Soluzione. Se X = k, k = 1, 2,... definisce il numero d ordine della prima prova in cui si è verificato un successo, Y k = X k 1 indica il numero dei fallimenti che precedono il primo successo. Il modello statistico di Y è quello della distribuzione geometrica : che ha media f(y = k) = ϑ(1 ϑ) k, k = 0, 1, 2,... E{Y } = 1 ϑ ϑ = 1 ϑ 1. Per il Secondo Principio delle prove bernoulliane, la distribuzione delle medie campionarie di X è l inverso della probabilità ϑ: { } X X n E{µ n } = E = 1 = E{Y } + 1 = E{X}. n ϑ

237 8.3 Problemi risolti 229 Quindi µ n non è uno stimatore corretto di E{Y }, ma lo è di E{X} Consideriamo la funzione f(x, ϑ) = ϑx + 1 ϑ/2 per 0 x 1 e nulla altrove, dipendente dal parametro reale ϑ. a) Per quali valori di ϑ la funzione è una densità di probabilità? b) Calcolare, in funzione di questi valori, la media della variabile aleatoria che ha una densità di probabilità f(x, ϑ). c) Sia ora {X k }, k = 1,..., n un campione di numerosità n del carattere X. Definite le due statistiche: S n = ( n 1 n X k, T n = 12 X k 1 ), n n 2 k=1 quale delle due è uno stimatore non distorto di ϑ? Soluzione. a) L integrale di f(x, ϑ) vale 1 e non dipende da ϑ: 1 0 k=1 ( ϑx + 1 ϑ ) dx = ϑ ϑ 2 = 1. Quindi f(x, ϑ) è una densità per qualsiasi valore reale di ϑ. b) E{X} = 1 0 ( x ϑx + 1 ϑ ) [ ] ϑx 3 1 dx = x2 2 ϑx2 = ϑ c) Calcoliamo i valori medi delle due statistiche: E{S n } = { n } n E X k = n ne{x} = 1 ( ϑ ) = ϑ 2 k=1 ( { 1 n } E{T n } = 12 n E X k 1 ) ( 1 = 12 2 n ne{x} 1 ( 1 = 12 2) 2 + ϑ 12 1 = ϑ. 2) k=1 Lo stimatore corretto di ϑ è T n ϑ da stimare. perché il suo valor medio coincide con il parametro 8.3. Da una popolazione di N = 1000 sbarre metalliche si estrae in blocco un campione di n = 200 elementi. Stimare la lunghezza media µ delle sbarre e lo scarto quadratico medio σ n della distribuzione campionaria delle medie, sapendo che la lunghezza media del campione è x = 21 cm e che la radice quadrata della varianza campionaria è S n = 1 n ni=1 (x i x) 2 = 0.5 cm.

238 230 STIME DI PARAMETRI Soluzione. Poiché la media campionaria è una stima corretta del valor medio della popolazione, si ha subito che ˆµ = 21 cm. Il campione è estratto senza ripetizione da N elementi, per cui la distribuzione campionaria delle medie ha uno scarto quadratico medio che vale σ n = σ N n n N 1 e per calcolarlo bisogna stimare la varianza σ 2 incognita della popolazione. La stima ottima della varianza è ˆσ 2 = N 1 N n n 1 S2 n = e sostituendo la sua radice quadrata si ricava: ˆσ σ n = = cm Da una popolazione di N = 3000 studenti universitari maschi si è estratto un campione di n = 100 elementi, i cui pesi sono raccolti nella seguente tabella: pesi numero studenti [60, 65) 10 [65, 70) 14 [70, 75) 16 [75, 80) 20 [80, 85) 18 [85, 90) 12 [90, 95) 20 Stimare il peso medio di tutta la popolazione e lo scarto quadratico medio della media nei due casi: a) di estrazione bernoulliana e b) di estrazione in blocco. (Si assuma come valore del peso di ogni classe il valore centrale). Soluzione. Per ognuna delle sette classi calcoliamo: i valori centrali, gli scarti rispetto alla media e i loro quadrati. Ne risulta la seguente tabella: i n i x i x i x (x i x) 2 [60, 65) [65, 70) [70, 75) [75, 80) [80, 85) [85, 90) [90, 95)

239 8.3 Problemi risolti 231 per completare la quale si è già utilizzato il primo risultato: x = 1 ( ) = La stima ottima della varianza incognita della popolazione, effettuata con un campione estratto con ripetizione, è ˆσ 2 = 1 ( ) = Pertanto nel caso di estrazione bernoulliana ( con ripetizione ) lo scarto quadratico medio della media vale σ n = ˆσ 7949 = n Nel caso di estrazione in blocco ( senza ripetizione ), la precedente stima della varianza deve essere moltiplicata per il coefficiente correttivo (N 1)/N, che però si può trascurare perché 2999/ Allora per estrazioni in blocco risulta: σ n = ˆσ n N n N 1 = La durata di cinque valvole di una certa popolazione fornisce il campione: { 637, 632, 636, 637, 633 } ore. Ricavare la stima corretta della vita media delle valvole e della sua varianza. Soluzione: ˆµ = ˆσ 2 = = 635 ore = 11 2 = 5.5 (ore) Sia X una variabile casuale normale di media µ e varianza σ 2. Siano X 1, X 2, X 3 le variabili casuali indipendenti descritte dalle tre determinazioni x 1, x 2, x 3 di un campione da essa estratto con ripetizione. Per stimare il parametro µ si considerano i due stimatori X3 e S 3 definiti, rispettivamente, da: X 3 = X 1 + X 2 + X 3, S 3 = X X X 3. 1) Gli stimatori X3 e S 3 generano stime corrette di µ? Perché?

240 232 STIME DI PARAMETRI 2) Confrontando le rispettive varianze, stabilire quale tra i due stimatori è il più efficiente. Soluzione. 1) I valori medi delle due statistiche valgono: E{ X 3 } = E{X 1} + E{X 2 } + E{X 3 } 3 E{S 3 } = E{S 1} + E{S 2 } + 3E{S 3 } 5 = 3µ 3 = µ = 5µ 5 = µ e poiché sono uguali a µ, entrambe le statistiche generano stime corrette di µ. 2) Tenuto conto che X i sono indipendenti, le varianze di X3 e S 3 valgono: σ 2 { X 3 } = 1 [ ] σ 2 (X 1 ) + σ 2 (X 2 ) + σ 2 (X 3 ) = σ2 = σ2 3 σ 2 {S 3 } = 1 [ ] σ 2 (X 1 ) + σ 2 (X 2 ) + 9σ 2 (X 3 ) = σ2 e poiché σ 2 ( X 3 ) < σ 2 (S 3 ), ne segue che X3 è il più efficiente Da una popolazione molto grande di sfere si estraggono n = 50 sfere il cui peso medio è x = 195 g. Sapendo che la varianza dell universo è σ 2 = g 2, determinare l intervallo di confidenza per la stima della media µ al livello γ = 1 α = Soluzione. La popolazione è molto grande, e la numerosità del campione è maggiore di 30. Qualunque sia il modello statistico della popolazione, si può approssimare la distribuzione campionaria delle medie con una Normale con media x = µ = 195 g. e deviazione standard σ n = σ = = g. n 50 L intervallo di confidenza I per la media è tale che: 195 σ n z γ < µ < σ n z γ, dove z γ è il coefficiente fiduciario per la variabile standardizzata Z n = (µ n µ)/σ n al livello fiduciario γ = Si determina z γ usando la Tabella di erf(z) : e sostituendo si ricava: erf(z γ ) = γ 2 = z γ = < µ < I = (191.53, ) Le ripetute e numerose misurazioni di un certo angolo, effettuate mediante un teodolite assai preciso, descrivono una variabile casuale normale, incentrata sulla vera misura µ dell angolo e di scarto quadratico medio σ = 0.1. Stimare, mediante

241 8.3 Problemi risolti 233 un intervallo di confidenza di livello 0.99, il valore incognito µ attraverso un campione di 9 misure la cui media risulta essere x = 48. Soluzione. La popolazione ha legge normale con varianza nota, per cui la distribuzione campionaria delle medie è una normale N (µ, σ 2 /n) per qualunque n, ed è descritta dalla variabile standardizzata Z n = x µ σ/ = 30(48 µ). n Il suo coefficiente fiduciario z γ al livello γ = 0.99 vale: per cui si ricava: erf(z γ ) = γ 2 = z γ = z γ 30 < µ < 48 + z γ 30 I = (47.914, ) Da una popolazione di 3000 studenti universitari si estrae un campione (senza ripetizione) di 200 studenti. Sia x = 170 cm l altezza media del campione e s 2 = 20, 25 cm 2 la varianza del campione. Determinare l intervallo di confidenza della media al livello di fiducia del 98%. Soluzione. La popolazione ha varianza teorica sconosciuta, per cui bisogna stimarla. Il campione è estratto in blocco da un numero elevato di elementi: la stima di σ 2 è ˆσ 2 = n n 1 s2 = = ˆσ = La distribuzione campionaria delle medie ha quindi deviazione standard σ n = ˆσ N n n(n 1) = Al livello di fiducia γ = 1 α = 0.98, la variabile standardizzata Z n = (170 µ)/0.308 ha un coefficiente fiduciario z γ che vale: per cui si ricava: erf(z γ ) = γ 2 = 0.49 z γ = z γ < µ < z γ I = (169.28, ) Nel misurare il coefficiente di dilatazione lineare di un metallo, uno sperimentatore stima che la deviazione standard è di 0.05 mm. Quanto deve essere grande il

242 234 STIME DI PARAMETRI campione delle misure affinché egli abbia la fiducia del 99% che l errore, nello stimare il coefficiente medio, non sia superiore a 0.01 mm? Risposta. La variabile standardizzata per la distribuzione campionaria dei coefficienti medi µ n è Z n = µ n µ n = σ n 0.55 (µ n µ) e il suo coefficiente fiduciario al livello γ = 0.99 (lo stesso dell esercizio VI.2) è z γ = Affinché l errore µ n µ nella stima di µ sia minore o uguale a 0.01 mm, deve essere: 0.05 n z γ = µ n µ 0.01 ossia n ( ) = (12.9) 2 = e quindi, arrotondando all unità per eccesso: n Da una popolazione normalmente distribuita si estrae un campione di 10 anelli di diametro medio x = 28.2 cm, con scarto quadratico medio del campione pari a s = 5.29 cm. Determinare l intervallo di confidenza per la stima del diametro medio della popolazione con livello di fiducia γ = 1 α = Soluzione. E stato estratto (si sottintende: con ripetizione) un piccolo campione (n < 30) da una popolazione normale con varianza sconosciuta. Si usa quindi la statistica T n = ( x µ) n n = (28.2 µ) Ŝ n in cui L intervallo richiesto è Ŝ n = 1 s n n n n 1 = Ŝ n s = 5.29 = cm. n t γ < µ < t γ, dove t γ è il quantile di ordine q = (1+γ)/2 della distribuzione t-student con n 1 = 9 gradi di libertà. Al livello di fiducia γ = 0.95, si ha: q = ; t γ = e sostituendo si ottiene l intervallo fiduciario: I = ( , ) (24.21, 32.19) cm Vengono effettuate in tempi diversi 20 misurazioni della concentrazione di un certo elemento in un materiale, e si osserva una media µ n = 1.23 e una varianza corretta Ŝ2 n = 0.4. Nell ipotesi che questa concentrazione abbia un modello statistico normale con parametri sconosciuti, determinare l intervallo fiduciario al livello 0.95

243 8.3 Problemi risolti 235 per la sua media e la sua varianza. Quale sarebbe invece l intervallo fiduciario per la media, se si supponesse che il modello normale avesse varianza nota σ 2 = 0.4? Soluzione. Se la popolazione normale ha varianza sconosciuta, la distribuzione campionaria delle medie ha legge t-student con n 1 = 19 gradi di libertà. In una stima intervallare della media si ha: µ n Ŝn n t q < µ < µ n + Ŝn n t q con t q = quantile di ordine q = (1 + γ)/2 = della t-student con 19 gradi di libertà, che vale t q = Sostituendo si ottiene: < µ < I (0.934, 1.526). La distribuzione campionaria delle varianze ha legge χ 2 con 19 gradi di libertà, e la stima intervallare della varianza sconosciuta della popolazione è n 1 Ŝn 2 < σ 2 < n 1 Ŝn 2 χ 2 χ 1 dove χ 2 è il quantile di ordine q = (1 + γ)/2 = 0.975, e χ 1 è il quantile di ordine q = (1 γ)/2 = della legge χ Dalle Tavole risulta: χ 1 χ = 8.91, χ 2 χ = 32.9 e sostituendo: < σ2 < < σ 2 < Se il modello normale avesse varianza nota σ 2 = 0.4, si dovrebbe assumere una distribuzione campionaria delle medie con legge normale e deviazione standard σ n = σ/ n = La stima intervallare della media sarebbe z γ < µ < z γ dove: erf(z γ ) = γ/2 = 0.475, ovvero: z γ = Sostituendo si ottiene: < µ < In 10 prove su strada un motore di autoveicolo ha consumato in media litri di carburante per 100 Km. e la varianza campionaria è risultata S 2 n = 3.5. Nell ipotesi che la distribuzione dei consumi segua una legge normale, stimare al livello fiduciario del 99% il massimo della media dei consumi di quel motore. Soluzione. Si tratta di determinare un intervallo di confidenza unilaterale inferiore per la media µ di una popolazione normale con varianza incognita. Questo intervallo di confidenza è < µ < µ n + Ŝn n t 0.99

244 236 STIME DI PARAMETRI dove Ŝ n = 1 n n n n 1 S2 n = e t 0.99 è il quantile di ordine γ = 0.99 della distribuzione t-student con n 1 = 9 gradi di libertà. Dalle Tavole risulta: t 0.99 = 2.821, e sostituendo si ricava la stima: µ < litri Si esamina un campione di 100 pile prodotte dalla ditta A e un secondo campione di 150 pile messe in commercio dalla ditta B. La media campionaria della tensione in uscita delle pile prodotte dalla ditta A risulta µ A = 12.2 Volt; quella della ditta B è µ B = 11.7 Volt. Si suppone inoltre che i due campioni siano stati prelevati da popolazioni distribuite normalmente e con uguali varianze σ 2 = Determinare, al livello di fiducia del 90%, l intervallo di confidenza per la differenza δ tra le tensioni medie delle pile prodotte dalle due ditte. Soluzione. La distribuzione campionaria della differenza δ = µ A µ B tra le medie ha legge normale, con media δ = = 0.5 Volts e varianza σ 2 δ = σ2 A n A + σ2 B n B = = (Volt)2. Il valor medio di δ ha la seguente stima intervallare: δ σ δ z γ < µ δ < δ + σ δ z γ, con z γ tale che erf(z γ ) = γ/2 = Dalle Tavole di erf(z) si ricava: z γ = e sostituendo: < µ δ < I (0.426, 0.573) Volts Un campione di n = 16 elementi di una popolazione con legge normale avente media µ e varianza σ 2 incognite, ha mostrato una media campionaria x n = 68 ed una varianza campionaria corretta ŝ 2 n = 9. a) Determinare l intervallo di confidenza per la stima della media µ al livello di confidenza del 95%. b) Calcolare la probabilità fiduciaria γ con cui si può affermare che µ è compreso nell intervallo 68 ± Soluzione. a) Si dispone di un piccolo campione, estratto da una popolazione normale con varianza sconosciuta. Al livello γ = 0.95, la stima intervallare di µ è la seguente: x ŝn n t q < µ < x + ŝn n t q

245 8.3 Problemi risolti 237 in cui t q è il quantile di ordine q = (1 + γ)/2 = della distribuzione t-student con 16 1 = 15 gradi di libertà, e vale: t = Sostituendo si ricava: < µ < I (66.40, 69.60). 4 b) Se si vuole affermare che: x µ = ŝn n t q = 3 4 t q = , allora deve essere: t q = /3 = Nella distribuzione t-student con 15 gradi di libertà, questo è il valore del quantile di ordine q = 1 + γ 2 = 0.95 da cui: γ = Un campione di n = 25 elementi estratto da una popolazione con legge normale ha una media campionaria µ n = 10 e varianza campionaria corretta Ŝ2 n = 2. Determinare gli intervalli di confidenza per la stima della media µ e della varianza σ 2 della popolazione, al livello fiduciario del 95%. Soluzione. La distribuzione campionaria delle medie ha legge t-student con 24 gradi di libertà. Al livello γ = 0.95, la stima intervallare per µ è µ n Ŝn n t q < µ < µ n + Ŝn n t q dove t q è il quantile di ordine q = (1 + γ)/2 = della t-student con 24 gradi di libertà, che vale t = Sostituendo si trova: < µ < I µ (9.42, 10.58). La distribuzione campionaria delle varianze ha legge χ 2 sempre con 24 gradi di libertà, e la stima intervallare per σ 2 è: 24 χ Ŝ2 n < σ 2 < 24 2 χ Ŝ2 n. 1 Se γ = 0.95, χ 1 e χ 2 sono rispettivamente i quantili di ordine q 1 = e q 2 = della distribuzione χ 2, e valgono: χ 1 = 12.4, χ 2 = Sostituendo si ricava: < σ2 < I(σ2 ) (1.22, 3.87) Da una popolazione normale con varianza sconosciuta si estrae un campione di 9 elementi che ha una media x n = 100 e varianza campionaria corretta Ŝ2 n = 0, 65.

246 238 STIME DI PARAMETRI Determinare la probabilità fiduciaria γ con cui si può affermare che la media µ della popolazione è compresa in un intervallo di estremi 100 ± 0, 5. Soluzione. La probabilità γ si definisce come segue: ( γ = IP( T n t q ) = IP x n µ = Ŝn n t q 0.5 ) dove t q è il coefficiente fiduciario per una variabile T n che ha legge t-student con 8 gradi di libertà. Esso deve soddisfare la condizione t q , e dalla tavola della distribuzione t-student con ν = 8 si ricava che il quantile che soddisfa tale condizione con il segno di uguaglianza vale q = Si ricava perciò q 1 + γ 2 = 0.95 γ = Si estrae un campione da una popolazione il cui carattere X ha media incognita e varianza σ 2 = 9. Qualè la numerosità minima che deve avere il campione per poter affermare, con probabilità almeno del 90%, che la media campionaria si scosta per non più di 2 da quella incognita di X? Risposta. La probabilità richiesta si calcola imponendo: z γ σ 9 = z γ n n 2 dove z γ, coefficiente fiduciario della variabile standardizzata Z n = ( x µ)/σ n, è tale che erf(z γ ) = γ/2 = Dalla Tabella di erf(z) risulta: z γ all unità per eccesso, si ricava: 1.65 = 1.65 e quindi, sostituendo e arrotondando ( 3 2 n ) 2 = n 2

247 TEST PARAMETRICI DI IPOTESI STATISTICHE 9.4 Principi generali di un test statistico Si chiama ipotesi statistica qualsiasi ipotesi fatta sulla forma o sulle proprietà della distribuzione probabilistica osservata in un esperimento che coinvolge una variabile aleatoria. Uno degli scopi fondamentali della Statistica Matematica consiste nella definizione dei metodi per verificare la validità di ipotesi fatte riguardo a questa variabile aleatoria, sulla base sia di considerazioni teoriche, sia della analisi dei dati osservati in un campione. L ipotesi formulata su un generico fenomeno aleatorio è usualmente chiamata ipotesi nulla, e indicata con H 0. Possiamo suddividere le ipotesi statistiche in due grandi categorie: Ipotesi parametriche, che si riferiscono a certi parametri della distribuzione teorica di una o più popolazioni, la quale si assume già definita nella famiglia delle funzioni di distribuzione F X (x) compatibili con il modello statistico adottato per ciascuna popolazione. In generale, una ipotesi parametrica è specificata da una ipotesi nulla del tipo: H 0 : ϑ Θ 0 Θ (9.28) per un parametro incognito ϑ (eventualmente multidimensionale) che si assume appartenente ad un determinato sottoinsieme Θ 0 del dominio Θ compatibile con il modello statistico. Il test ha come obiettivo la verifica della validità della ipotesi (9.28). Ipotesi non parametriche, fatte per esempio sulla forma o sulla natura stessa della funzione di distribuzione F X (x) del carattere aleatorio da studiare, oppure riguardanti proprietà aleatorie congiunte di più caratteri delle medesima popolazione, oppure ancora relativi a popolazioni differenti. 239

248 240 TEST PARAMETRICI Una ipotesi non parametrica è specificata da una ipotesi nulla del tipo: H 0 : F X (x) F 0 F (9.29) in cui F 0 è una classe appropriata di funzioni appartenente alla famiglia F delle funzioni di distribuzione compatibili con il modello statistico che si assume contenga la vera funzione di distribuzione F X (x) carattere X (eventualmente multidimensionale) che esaminiamo con il campione. Le ipotesi nulle del tipo (9.28) o (9.29) si chiamano semplici se Θ 0 oppure F 0 contengono solo un elemento; si dicono composte in caso contrario. Si chiama test statistico la regola che ci permette di decidere se, e in quale misura, accettare o respingere una ipotesi nulla del tipo (9.1) o (9.2), esaminando le osservazioni fatte su una statistica campionaria. L impostazione di un test statistico si effettua nel modo seguente. 1. Si definisce una legge probabilistica per il carattere aleatorio X, compatibile con il modello statistico della popolazione su cui si effettua il test. 2. Si definisce l ipotesi nulla H 0 da verificare. 3. Si definisce una ipotesi alternativa H 1 che è una ipotesi da considerare valida quando si rifiuta H 0, e nei due casi sopra esaminati è rispettivamente del tipo: H 1 : ϑ Θ 1 con Θ 1 = Θ \ Θ 0 (9.1 ) H 1 : F X (x) F 1 con F 1 = F \ F 0. (9.2 ) 4. Si definisce una statistica campionaria G n (X 1,..., X n ) con distribuzione nota quando l ipotesi nulla H 0 è vera. 5. Si suddivide lo spazio G delle possibili osservazioni campionarie in due insiemi disgiunti: l insieme A detto regione di accettazione di H 0, e il suo complementare C = G \ A detto regione di rifiuto o regione critica. 6. Si assume come criterio decisionale la regola di accettare l ipotesi nulla H 0 se la realizzazione osservata della statistica G n appartiene ad A, e di rifiutarla se appartiene alla regione critica. La decisione di accettare o rifiutare l ipotesi nulla in seguito alle osservazioni del campione è sempre affetta da due tipi di errore, che sono definiti come segue. L errore di prima specie α è quello che commettiamo se rigettiamo l ipotesi nulla H 0 quando essa è vera: α = IP(H 1 H 0 ) IP(G n C H 0 vera). (9.30) L errore di seconda specie β è quello che commettiamo se accettiamo H 0 mentre invece è vera l ipotesi alternativa: β = IP(H 0 H 1 ) IP(G n A H 1 vera). (9.31)

249 9.5 Test parametrici 241 Il livello di significatività del test è la massima probabilità con la quale siamo disposti a rischiare di commettere un errore di prima specie. Sulla base della ipotesi fatta sulla legge della distribuzione campionaria, possiamo definire la probabilità α di commettere un errore di prima specie, e quindi riconoscere il livello di significatività del test ovvero, in modo equivalente, il livello di fiducia del test che è specificato dalla quantità 1 α. Le probabilità α, β di errore variano, ovviamente, al variare degli insiemi A e C con cui abbiamo scelto la regione di accettazione e quella di rifiuto. D altra parte, sono possibili infinite suddivisioni dello spazio delle osservazioni campionarie, e di regola si opera in modo da scegliere la regione di accettazione A in modo da rendere piccolo l errore di prima specie (solitamente, α = 0.05 oppure 0.01). Tuttavia, mantenendo fissa la numerosità n dei campioni, al decrescere di α cresce la probabilità β dell errore di seconda specie. Fissato α, si deve pertanto ricercare la suddivisione dello spazio G che rende minimo l errore β. Si definisce potenza di un test la quantità W = 1 β [0, 1] che misura la probabilità di respingere l ipotesi nulla H 0 quando è vera l ipotesi alternativa H 1. La determinazione della potenza di un test è spesso difficile, perché per il suo calcolo esplicito occorre conoscere anche la distribuzione campionaria di G n quando è vera l ipotesi alternativa H 1 la quale, per giunta, spesso non è semplice ma composta. Nei casi in cui ciò è possibile, il test (se esiste) in cui fissato α l errore β è minimo si chiama il test più potente tra quelli con α assegnato. A sua volta, la potenza di un test con α assegnato cresce al crescere della numerosità dei campioni, che è comunque limitata per motivi di ordine pratico. Fissato anche n, se l ipotesi alternativa è composta, il grafico della potenza W (g n ) in funzione dei possibili valori empirici g n che può assumere la statistica campionaria G n si chiama curva di potenza del test. Se invece di riportare la potenza W (g n ) si riporta l errore di seconda specie β, si ha la curva caratteristica operativa β(g n ) del test. In questo Capitolo tratteremo più in dettaglio alcune tecniche in uso per effettuare la verifica di ipotesi parametriche per le quali, come vedremo, esiste sotto certe condizioni un criterio per la definizione di un test di massima potenza. Nel Capitolo seguente tratteremo infine i metodi più comuni per effettuare test di ipotesi non parametriche. 9.5 Test parametrici In un test statistico sul parametro ϑ di una distribuzione F X (x; ϑ) compatibile con il modello statistico della popolazione, l ipotesi nulla e quella alternativa sono del tipo (9.28), (9.1 ). Tre esempi molto particolari sono i seguenti. Se si assume: H 0 : ϑ = ϑ 0 ; H 1 : ϑ = ϑ 1, (9.32) si imposta un test fra due ipotesi semplici, perché queste sono definite su due insiemi Θ 0 e Θ 1 costituiti entrambi da un solo elemento. Se invece si assume: H 0 : ϑ = ϑ 0 ; H 1 : ϑ > ϑ 0 oppure ϑ ϑ 0, (9.33)

250 242 TEST PARAMETRICI l ipotesi alternativa è composta, perché Θ 1 = (ϑ 0, + ) oppure Θ 1 = (, ϑ 0 ) (ϑ 0, + ). E ancora: se per un modello Normale-2 N (ϑ 1, ϑ 2 ) si fa l ipotesi nulla: H 0 : ϑ 1 = ϑ 10, ϑ 2 = ϑ 20 ; Θ 0 IR 2 = {ϑ 10, ϑ 20 }, questa è una ipotesi semplice per i due parametri incogniti (media e varianza); se invece l ipotesi nulla è H 0 : ϑ 1 = ϑ 10 e si lascia la varianza indeterminata, allora H 0 è composta. Nei test parametrici anche le ipotesi alternative, come quelle nulle, sono sempre ristrette alla classe delle distribuzioni F X (x; ϑ) ammissibili dal modello statistico, le quali si suppone abbiano legge nota anche se dipendente da certi parametri da stimare. Questa circostanza consente almeno in certi casi in cui le ipotesi alternative sono soggette ad opportune restrizioni di valutare anche i rischi di seconda specie β e quindi la potenza del test parametrico effettuato. Accettato un livello di significatività α, per riconoscere il test parametrico di massima potenza tra quelli ammissibili occorre definire la regione di rifiuto C in modo da avere un rischio di seconda specie β che sia il minore possibile. La soluzione di questo problema esiste sempre nel caso del test parametrico tra ipotesi semplici che consideriamo nel paragrafo che segue. 9.6 Test di Neyman-Pearson tra ipotesi semplici Assumiamo le due ipotesi semplici (9.32) per il parametro ϑ IR di una distribuzione F X (x, ϑ) assolutamente continua con densità f X (x, ϑ). La regione critica per il test più potente tra quelli che hanno un prefissato livello di significatività si può determinare applicando un Teorema che si può cosí enunciare. TEOREMA (di Neyman-Pearson, 1933) Sia G n (X) una statistica campionaria, con valore empirico noto attraverso le n osservazioni (x 1,..., x n ) = x su un campione X estratto da una popolazione con funzione di distribuzione assolutamente continua. Scelto arbitrariamente un reale positivo c, il test più potente, tra quelli per cui si ha α = IP(G n (X) C H 0 ), esiste ed è quello per cui la regione critica C è l insieme C = { x : l(x) = L(ϑ 0, x) L(ϑ 1, x) < c }, c IR + dove l(x) è il rapporto di verosimiglianza tra le funzioni (8.6), calcolate per ϑ = ϑ 0 e ϑ = ϑ 1. Ad ogni c > 0 corrisponde dunque in questo test una partizione ottimale dello spazio campionario. Reciprocamente, scelto un livello di significatività α, la condizione (9.6) definisce la regione critica C che rende minimo l errore di seconda specie β. Illustriamo questo Teorema con l esempio che segue.

251 9.6 Test di Neyman-Pearson tra ipotesi semplici 243 Esempio 9.1 Assumiamo un modello statistico Normale-1 N (ϑ, σ 2 ) con varianza nota e media da determinare, scegliendo tra l ipotesi nulla che essa valga ϑ 0 = 0 e l ipotesi alternativa che il suo valore sia ϑ 1 = 2. Nelle due ipotesi che ci interessano, le funzioni di verosimiglianza per le realizzazioni di un campione di numerosità n sotto l ipotesi nulla e quella alternativa, sono (cfr ): [ ] [ n 1 L(ϑ 0 ; x) = i=1 σ 2π exp x2 i 1 n x 2 ] i 2σ 2 = (2πσ 2 exp ) n/2 2σ i=1 2. [ n 1 L(ϑ 1 ; x) = σ 2π exp (x i 2) 2 ] [ 1 n (x i 2) 2 ] 2σ 2 = (2πσ 2 exp ) n/2 2σ 2 i=1 e il rapporto di verosimiglianza vale: [ exp 1 ] 2σ 2 x 2 i i l(x) = [ exp 1 ( 2σ 2 x 2 i + 4n 4 )] = x i i i 1 = ( exp 2n ) ( σ 2 exp 2nµ n σ 2 i=1 [ ) = exp 2n ] σ 2 (µ n 1), dove è stata introdotta la realizzazione µ n della statistica campionaria da usare nel test, che è la media campionaria (7.2). Secondo il teorema di Neyman-Pearson, per ogni arbitrario c > 0 il test più potente è quello per cui l(x) < c. Nel nostro caso, ciò comporta che nella distribuzione campionaria delle medie la regione ottimale di rifiuto è quella definita dalla condizione: µ n > 1 σ2 log c h. (9.34) 2n Scelto ora un rischio di prima specie α, si determina il valore di h tenendo conto che la distribuzione campionaria delle medie ha legge normale N (µ n, σ 2 /n). Infatti, se H 0 è vera, il valor medio di questa distribuzione è nullo e dunque: n α = IP(µ n > h H 0 ) = σ 2π h exp ( nµ2 n 2σ 2 ) dµ n = 1 2 erf ( h n σ ). (9.35) Una volta valutato h, tenuto conto che se è vera H 1 la distribuzione campionaria ha media E{µ n } = 2, si determina anche l errore di seconda specie β: β = IP(µ n h H 1 ) = ( n h = σ exp n(µ n 2) 2 ) 2π 2σ 2 dµ n = 1 [ ] (h 2) n 2 + erf, (9.36) σ

252 244 TEST PARAMETRICI H 0 : N ( 0,1) H 1 : N ( 1,1) n A : accetto H 0 C : rifiuto H 0 Figura Test di Neyman-Pearson per ipotesi semplici dal quale si ricava la potenza W = (1 β) del test. Scelto invece un arbitrario c > 0, la (9.34) definisce la regione di rifiuto per il test più potente tra quelli che hanno rischi di prima e seconda specie definiti dalle (9.35) e (9.36). La Fig. 9.1 illustra le distribuzioni campionarie delle medie µ n per le due ipotesi semplici, nel caso in cui la varianza nota del modello statistico vale σ 2 = 16, e si effettua un test tra le ipotesi semplici sopra precisate, al livello di significatività α = 0.1, disponendo di un campione di numerosità n = 16. Dalla (9.35) si ha subito: erf(h) = 0.4 da cui si ricava, usando la Tabella in Appendice, che h = 1.3. A questo valore di h corrisponde, ancora per la (9.34), un valore di c uguale a Dalla (9.36) si ricava allora: e la potenza del test vale W [ ] 2n(1 h) c = exp = e σ 2 β = erf ( 0.7) 0.24 Le conclusioni da trarre sono allora le seguenti. Accettato un livello di significatività α = 0.01, se la media empirica osservata da un campione di 16 elementi è minore di µ n = h = 1.3, si accetta l ipotesi nulla dichiarando che la media teorica della distribuzione normale nel modello N (ϑ, 16) è µ = 0; se la media empirica è maggiore di µ n = 1.3, si rifiuta l ipotesi nulla e si accetta l ipotesi alternativa, dichiarando che µ = 2. Per definire la regione critica C, si può anche fissare un valore positivo di c, per esempio c = 1. Con tale scelta, in base al Teorema di Neyman-Pearson la regione ottimale di rifiuto definita dalla (9.34) è µ n > h = 1, per un test con rischi di prima

253 9.7 Test parametrici con ipotesi composte 245 e seconda specie che valgono: α = IP(µ n > 1 H 0 ) = 1/2 erf(1) β = P (µ n < 1 H 1 ) = 1/2 + erf( 1) = α e in tal caso risultano uguali. Sebbene la potenza di questo test cresca al valore W = , bisogna tener conto che essa è determinata per l insieme dei test in cui si accetta un rischio di prima specie α = che è ben maggiore del precedente. Si osservi infatti, più in generale, che: al diminuire di α, aumenta h e quindi si restringe la regione di rifiuto; in tal caso però cresce β e quindi diminuisce la potenza del test; fissato un h < 2, al crescere della grandezza n del campione decrescono sia α che β (infatti l argomento della funzione degli errori nella (9.36) è negativo). Ne consegue che, una volta definito il livello di significatività α, al crescere della grandezza del campione aumenta la potenza del test. 9.7 Test parametrici con ipotesi composte Un test con entrambe le ipotesi semplici, del tipo che abbiamo appena studiato, si incontra raramente nelle applicazioni. E invece assai più frequente il caso in cui entrambe le ipotesi H 0, H 1 (o almeno una di esse) sono composte. In questo paragrafo tratteremo questi tipi di test parametrici, assumendo dapprima che solo l ipotesi alternativa sia composta. Data una ipotesi nulla del tipo (9.28), le ipotesi alternative che si usano più spesso sono: 1) H 1 : ϑ ϑ 0 2) H 1 : ϑ > ϑ 0 3) H 1 : ϑ < ϑ 0. (9.37) Nel caso 1) il test si chiama bidirezionale; nel caso 2) è unidirezionale superiore o con con coda a destra, e nel caso 3) è unidirezionale inferiore o con coda a sinistra. C è una stretta relazione tra un test con ipotesi di questo tipo e la determinazione di un intervallo di confidenza per ϑ, già trattato nel Capitolo 8. Infatti, consideriamo un test bidirezionale per H 0 al livello di significatività α. Una volta definita la distribuzione campionaria della statistica G n, da usare quando è vera l ipotesi nulla su ϑ, una regione A di accettazione di H 0 è un intervallo delle realizzazioni campionarie contenente g n = ϑ 0 (v. Fig. 9.2). L area sottesa dalla distribuzione campionaria in questo intervallo deve essere uguale ad 1 α, perchè α è il rischio di prima specie definito dalla (9.30) e misura la somma delle due aree della distribuzione che sono esterne alla regione di accettazione. Dunque, la regione di accettazione del test bidirezionale al livello di significatività α è un intervallo I γ soddisfacente la condizione: IP(G n A H 0 vera) = IP(g n I γ ) γ = 1 α, (9.38) ossia è un intervallo di confidenza per una stima di ϑ al livello fiduciario γ = 1 α. Questo intervallo non è unico: esiste, in generale, una famiglia I γ,α = {I γ } di insiemi

254 246 TEST PARAMETRICI H 1 H 0 H 1 H = C 0 A = I C g n Figura 9.2 che soddisfano la (9.11). Il test più potente (se esiste) è quello in cui la regione di accettazione A dell ipotesi nulla è l intervallo I γ I γ,α che ha ampiezza minore. Questo risultato vale anche per i test unidirezionali definiti dalle ipotesi alternative 2) e 3) nella (9.37), ai quali corrispondono intervalli di confidenza aperti rispettivamente a sinistra o a destra. Per la valutazione dell errore di seconda specie β del test, che è definito dalla (9.31), occorre tenere presente che nelle ipotesi alternative composte si ammette che il parametro ϑ possa assumere qualsiasi altro valore ϑ 1 IR ϑ 0, e quindi a ciascuna realizzazione campionaria g n = ϑ 1 corrisponde un differente errore di seconda specie. Esso è dunque una funzione β(ϑ 1 ) del valore empirico ϑ 1 osservato nella statistica campionaria, e la potenza del test è la funzione W (ϑ 1 ) = 1 β(ϑ 1 ). Stabilito il rischio di prima specie α che si è disposti ad accettare, la valutazione esplicita della regione di accettazione di H 0 si effettua applicando i metodi per la determinazione degli intervalli di confidenza che sono stati esposti nel Capitolo 8, e per tale motivo dipende dal parametro su cui si deve effettuare il test, dalla numerosità del campione di cui disponiamo, e dal modello statistico della popolazione da cui tale campione è stato estratto Test sul valor medio per il modello normale Consideriamo in dettaglio il caso di più frequente interesse nelle applicazioni: quello in cui la popolazione ha un modello statistico normale e quindi le distribuzioni campionarie sono anche esse normali con media ϑ 0 = µ 0 se H 0 è vera, oppure ϑ 1 = µ 1 IR µ 0 se è vera l ipotesi alternativa H 1. Per procedere nel test occorre anzitutto distinguere il caso in cui la varianza della popolazione è nota (in cui si applicheranno i metodi del ) da quello in cui è incognita (ed è quindi necessario usare le distribuzioni t-student come spiegato nel ) Modello Normale-1: popolazione con varianza σ 2 nota

255 9.7 Test parametrici con ipotesi composte 247 In tal caso le distribuzioni campionarie normali associate alle ipotesi H 0 ed H 1 hanno uguale varianza σ 2 n = σ 2 /n e non devono essere stimate. Per qualunque numerosità n del campione, si può determinare la regione di accettazione del test e l errore di seconda specie usando la Tabella di erf(z) come segue. Test bidirezionale. Il test bidirezionale più potente per il valor medio, al livello di significatività α, è quello in cui si assume come regione di accettazione di H 0 l intervallo di confidenza simmetrico rispetto a µ 0, del tipo (8.11) con γ = 1 α: A : µ 0 σ n z 1 α/2 µ n µ 0 + σ n z 1 α/2 (9.39) dove z 1 α/2 è il coefficiente fiduciario per la variabile standardizzata Z n = µ n µ 0 σ/ n, (9.40) ovvero il suo quantile di ordine 1 α/2 che è legato al rischio di prima specie α dalla condizione (8.10) che qui si riscrive nella forma: 1 α = IP( Z n z 1 α/2 ) = 2erf(z 1 α/2 ). Nel test bilaterale l ipotesi nulla H 0 è da accettare se il valore empirico della variabile Z n definita dalla (9.40), calcolato attraverso le osservazioni del campione, appartiene all intervallo (9.39). In caso contrario, si conclude che i dati forniti dal campione non sono compatibili, al livello di significatività α, con l ipotesi H 0. Il rischio di seconda specie si determina come segue: 1 β(µ 1 ) = IP(µ n A H 1 N (µ 1, σ n )) = σ n 2π ( = erf z 1 α/2 + µ ) ( 0 µ 1 + erf σ n Se introduciamo la nuova variabile standardizzata [ µ0 +σ nz 1 α/2 exp µ 0 σ n z 1 α/2 z 1 α/2 + µ 1 µ 0 σ n (µ n µ 1 ) 2 2σ 2 n ] dµ n ). (9.41) Z n = µ n µ 0 σ n µ n µ 1 σ n = µ 1 µ 0 σ n, (9.42) ossia la differenza tra le normali standard associate rispettivamente alla ipotesi nulla H 0 e alla ipotesi alternativa H 1, il rischio di seconda specie si può più sinteticamente riscrivere in funzione di z n nella forma: β(z n) = erf(z 1 α/2 z n) + erf(z 1 α/2 + z n). Ne deriva una curva caratteristica operativa (mostrata qualitativamente nel grafico con linea continua di Fig. 9.3) che tende a zero per µ 1 ±, è monotona crescente per < µ 1 < µ 0 (ossia per z n < 0); vale β(µ 0 ) = 1 α per µ 1 = µ 0 (ossia per z n = 0); ed è monotona decrescente per µ 0 < µ 1 < + (z n > 0).

256 248 TEST PARAMETRICI 1 H : 1 1 < H : 1 1 H : > 0 - z z 1- Figura Curve caratteristiche operative per tests sul valor medio z' n Test unidirezionale superiore. La regione di accettazione in questo test, per il quale l ipotesi alternativa è H 1 : µ = µ 1 > µ 0, è l intervallo aperto a sinistra: A : < µ n µ 0 + σ n z 1 α dove z 1 α è il quantile di ordine 1 α della normale standard (9.13), che al livello di significatività α soddisfa la condizione 1 α = IP(Z n z 1 α ) = erf(z 1 α), ) (9.43) mentre il rischio di seconda specie vale [ 1 µ0 +σ nz 1 α β(µ 1 ) = IP(µ n A H 1 N (µ 1, σ n )) = exp (µ n µ 1 ) 2 ] σ n 2π 2σn 2 dµ n ( ) µ0 + σ n z 1 α µ 1 = erf erf( ) = 1 ( σ n 2 + erf z 1 α + µ ) 0 µ 1.(9.44) σ n Espresso in funzione della differenza standardizzata (9.15), esso vale β(z n) = erf(z 1 α z n) (9.17 ) ed è una funzione monotona decrescente di µ 1 e z n: tende a zero per z n + ; è uguale a 0.5 per z n = z 1 α ; è ancora uguale ad 1 α per µ 1 = µ 0 (ossia per z n = 0) e teoricamente tende all unità per µ 1, z n (v. Fig. 9.3). Test unidirezionale inferiore. La regione di accettazione in questo test, per il quale l ipotesi alternativa è H 1 : µ = µ 1 < µ 0, è l intervallo aperto a destra: A : µ 0 σ n z 1 α µ < +

257 9.7 Test parametrici con ipotesi composte 249 dove z 1 α è ancora il quantile di ordine 1 α della normale standard (9.40) il quale, fissato il rischio di prima specie α, è tale da soddisfare la condizione 1 α = IP(Z n z 1 α ) = erf(z 1 α). Il rischio di seconda specie vale [ 1 + β(µ 1 ) = IP(µ n A H 1 N (µ 1, σ n )) = exp σ n 2π µ 0 σ n z 1 α ( ) µ0 σ n z 1 α µ 1 = erf(+ ) erf = 1 ( 2 erf σ n (µ n µ 1 ) 2 2σ 2 n z 1 α + µ 0 µ 1 σ n o anche, se espresso in funzione della differenza standardizzata (9.42): ] dµ n ) (9.45) β(z n) = erf(z 1 α + z n). (9.18 ) L errore di seconda specie è in tal caso una funzione monotona crescente, simmetrica della (9.17 ) rispetto all asse z n = 0: tende teoricamente a zero per z n ; è uguale a 0.5 per z n = z 1 α, vale ancora 1 α per µ 1 = µ 0 (ossia per z n = 0) e tende all unità per µ 1, z n +. La Fig. 9.3 mostra che a parità di α ed n i rischi di seconda specie dei test unilaterali (indicati con linea tratteggiata) sono minori di quello del corrispondente test bilaterale, in tutto l intervallo di µ 1 definito dalla particolare ipotesi alternativa che si considera. Ne segue che, sempre a parità di α e n, un test unilaterale è più potente di un test bilaterale. Esistono specifici diagrammi di curve caratteristiche (si veda ad esempio il testo [3] citato in Bibliografia) in cui il rischio di seconda specie è riportato in funzione di µ 0 µ 1 /σ al variare di α e n. I diagrammi mostrano, tra l altro, che la pendenza delle curve cresce al crescere di n, per cui qualsiasi test con assegnato rischio di prima specie è tanto più potente quanto maggiore è la numerosità del campione. In definitiva, questi diagrammi consentono quindi di valutare la numerosità campionaria che è necessaria per effettuare un test con prefissata potenza W (z n) = 1 β(z n) Modello Normale generale: popolazione con varianza sconosciuta. Se la varianza σ 2 della popolazione normale è sconosciuta, essa dovrà essere stimata con la statistica campionaria corretta Ŝ2 n definita nella (7.14). Sulla base del Teorema 8.1 (t-student), il test si effettua osservando se il valore empirico della statistica T n definita nella (8.16) appartiene alla regione di accettazione di H 0 oppure alla regione di rifiuto dell ipotesi nulla. Se si effettua un test bidirezionale, la regione di accettazione è fornita dall intervallo di confidenza (8.18), che ora si scrive: A : µ 0 ŝn n t 1 α/2 µ n µ 0 + ŝn n t 1 α/2 (9.46)

258 250 TEST PARAMETRICI dove ŝ n è il valore empirico della radice quadrata di Ŝ2 n, e t 1 α/2 è il quantile di ordine (1 α/2) della distribuzione t-student con (n 1) gradi di libertà. Confrontandola con la (9.39), si nota che la (9.46) si ricava sostituendo semplicemente ŝ n al posto di σ e t 1 α/2 al posto di z 1 α/2. In modo analogo, applicando le (8.19) e indicando con t 1 α il quantile di ordine (1 α) della t-student con (n 1) gradi di libertà, si ricavano le regioni di accettazione per un test unidirezionale superiore ( coda a destra ): A : < µ n µ 0 + ŝn n t 1 α (9.47) oppure unidirezionale inferiore ( coda a sinistra ): A : µ 0 ŝn n t 1 α µ n < +. (9.48) L ipotesi nulla sarà da accettare solo se il valore empirico t n = (µ n µ 0 ) n/ŝ n ricavato dal campione appartiene a una delle regioni ora definite. Le formule precedenti sono valide per qualsiasi numerosità n del campione, ma si usano soltanto per piccoli campioni (n < 30 circa). Infatti, si ricordi che la distribuzione t-student tende alla normale standard per n, per cui quando n > 30 i quantili t 1 α/2 e t 1 α possono essere sostituiti dai corrispondenti quantili z 1 α/2 e z 1 α della variabile standardizzata Z n = µ n µ 0 ŝ n / n, (9.49) che è analoga alla (9.40) ma con la stima ŝ n al posto di σ. In definitiva, se il test si effettua usando grandi campioni è ancora possibile utilizzare tutti i risultati (compresa la determinazione dei rischi di seconda specie) che sono stati ricavati per il modello Normale-1. A tal fine, occorre soltanto stimare preventivamente la varianza con il suo valore campionario corretto Popolazione con distribuzione non normale Si è visto nel Capitolo 6 che, indipendentemente dal modello statistico usato per la popolazione, le distribuzioni campionarie delle medie approssimano, al crescere di n, la legge normale N (µ, σ 2 /n). Ne segue che se n è sufficientemente grande (n > 30) e se l ipotesi nulla è vera, la distribuzione delle medie campionarie si può approssimare con una legge normale avente media µ 0 e varianza σ 2 /n, se σ 2 è nota, oppure Ŝ2 n/n se σ 2 è incognita. Pertanto, per grandi campioni le regioni di accettazione e i rischi de seconda specie nei tre tipi di test sono ancora quelle ricavati nello studio del modello Normale-1, indipendentemente dalla forma della distribuzione della popolazione da cui è stato estratto il campione. Viceversa, per piccoli campioni estratti da una popolazione non normale non è possibile, in generale, procedere al test sul valor medio. Esempio 9.2

259 9.7 Test parametrici con ipotesi composte 251 Il peso medio di un campione di 100 confezioni di un prodotto alimentare vale µ n = 1570 gr. Questo campione è stato estratto da una popolazione per la quale si assume un modello statistico normale N (ϑ, σ 2 ) con deviazione standard σ = 120 gr. H 0 H1 1 W(z' ) n z n A n Figura z' n Effettuando tests con livelli di significatività α = 0.05 e 0.01, quando si può affermare che il peso medio µ dell intera popolazione di quel prodotto, confezionato dalla stessa ditta è di 1600 gr? Si tratta di effettuare un test bidirezionale scegliendo tra una ipotesi nulla semplice e una ipotesi alternativa composta: H 0 : µ = 1600 gr H 1 : µ 1600 gr. Se H 0 è vera, la distribuzione campionaria delle medie µ n è normale con valor medio 1600 e deviazione standard σ n = 120/ 100 = 12; se è vera H 1, la distribuzione campionaria è una qualsiasi Normale con valor medio µ n 1600 e uguale deviazione standard (v. Fig. 9.4). Applichiamo la (9.12) per determinare le regioni di accettazione dell ipotesi nulla ai vari livelli di significatività. Per α = 0.05, si ha: z /2 = z = 1.96, e quindi la regione di accettazione dell ipotesi nulla è l intervallo A = {z n : 1.96 z n 1.96} = {µ n : gr µ n gr}. Al livello α = 0.01 si ha invece z /2 = z = 2.58, e quindi un intervallo più ampio: A = {z n : 2.58 z n 2.58} = {µ n : gr µ n gr}. Il valore empirico z n della variabile standardizzata (9.40) risultante dalla osservazione del campione è z n = = Al livello di significatività 0.05 (ovvero con un rischio massimo di sbagliare del 5%) esso non appartiene ad A, e pertanto rigettiamo H 0 affermando che i dati forniti dal campione non sono compatibili con l affermazione che il peso medio sia di 1600

260 252 TEST PARAMETRICI gr. Al contrario, con un livello di significatività 0.01 (cioè con un rischio massimo di sbagliare dell 1%), risulta z n A ed accettiamo l ipotesi nulla concludendo che il peso medio è di 1600 gr. Il rischio di seconda specie di questo test è fornito dalla (9.41) e in funzione della differenza standardizzata (9.42) che qui si scrive z n = (µ )/12, vale: β(z n) = erf(1.96 z n) + erf( z n) se α = 0.05, β(z n) = erf(2.58 z n) + erf( z n) se α = La curva di potenza del test W (z n) = 1 β(z n) ha un grafico che è mostrato in Fig. 9.4 per un livello di significatività α = Esempio 9.3 I carichi di rottura dei cavi prodotti da una fabbrica hanno un valor medio µ = 1800 Kg. Con una diversa tecnologia si intende mettere in produzione un nuovo tipo di cavo con carico di rottura maggiore. Si esaminano 50 cavi scelti a caso dalla nuova produzione, e si trova che la media campionaria dei nuovi carichi di rottura è µ n = 1850 con varianza campionaria corretta Ŝ2 n = Kg 2. Si può affermare, a un livello di significatività α = 0.01, che i nuovi cavi hanno un carico medio di rottura più elevato? Definiamo anzitutto le due ipotesi sulle quali dobbiamo fare la nostra scelta: H 0 : µ = 1800 Kg (non c è variazione nel carico di rottura) H 1 : µ > 1800 Kg (la nuova produzione migliora il carico di rottura). Pur senza fare alcuna ipotesi sul modello statistico dei cavi di nuova produzione, poichè il campione esaminato è sufficientemente grande la distribuzione campionaria delle medie si può approssimare con una legge normale avente media µ 0 = 1800 Kg se H 0 è vera, e varianza Ŝ2 n/n = /50 = 200 Kg 2. Effettuiamo un test unidirezionale superiore sulla variabile standardizzata (9.49) che nel nostro caso, se H 0 è vera, vale: Z n = µ n (9.50) Assumendo un rischio di prima specie α = 0.01, il valore di z 1 α che delimita la regione di accettazione e quella di rifiuto si calcola con la (9.43) imponendo: 1 α = IP(Z n C H 0 vera) = erf (z 1 α) = 0.99 ossia erf(z 1 α ) = 0.49, e dalla Tabella di erf(z) si ricava: z 1 α = La regione di accettazione di H 0 (v. Fig. 9.5) è dunque l intervallo e quella di rifiuto è A : {z n : < z n 2.33} = {µ n : < µ n 1833} C : {z n : 2.33 < z n < } = {µ n : 1833 < µ n < }.

261 9.7 Test parametrici con ipotesi composte 253 H 0 H1 1 W(z ' ) n A z n C n Figura z' z n 1- Sotto l ipotesi H 0 vera, il valore empirico di z n ottenuto dal campione si ricava sostituendo µ n = 1850 nella (9.50). Esso vale z n = 3.55 ed appartiene alla regione di rifiuto. Dunque l ipotesi nulla è da rigettare, e l affermazione che i cavi di nuova produzione hanno un più elevato carico di rottura può essere sostenuta al livello di significatività prescritto. Il rischio di seconda specie di questo test unidirezionale è dato dalla (9.44), ed espresso in funzione della differenza standardizzata z n = (µ )/ 200 vale: β(z n) = erf(2.33 z n). La corrispondente curva di potenza W (z n) = 1 β(z n) è mostrata in Fig Esempio 9.4: Test sulle frequenze relative Una ditta farmaceutica afferma che un suo analgesico è efficace per un periodo di dodici ore nel 90% dei casi. In un campione di n = 200 persone, la medicina ha dato in effetti ottimi risultati a n s = 160 sofferenti. Si chiede di valutare se, al livello di significatività α = 0.01, la ditta farmaceutica può legittimamente sostenere quanto affermato. Se p è la probabilità che l analgesico abbia effetto per dodici ore, si chiede di procedere a un test unidirezionale scegliendo fra le seguenti ipotesi: H 0 : p = p 0 = 0.9 (l affermazione è corretta); H 1 : p = p 1 < 0.9 (l affermazione è falsa). La frequenza relativa dei successi della medicina rilevata dal campione è y = n s /n = 160/200 = 0.8. Nell ipotesi che H 0 sia vera, la distribuzione campionaria delle frequenze relative Y = n s /n dei successi è approssimabile con una legge normale (cfr. 7.5) con media E{Y } = p 0 = 0.9 e deviazione standard σ 0 = p 0 (1 p 0 ) = = n 200

262 254 TEST PARAMETRICI H 1 H 0 W( p ) Y = n s /n C A z Figura p z ' Nel nostro test unidirezionale inferiore al livello di significatività α = 0.01, il quantile z 1 α per la variabile standardizzata che è tale da soddisfare la condizione Z = Y p 0 = Y 0.9 σ α = IP(Z z 1 α ) = erf (z 1 α) = 0.99, vale z 1 α = 2.33 come nell Esempio precedente. La regione di accettazione dell ipotesi nulla è dunque l intervallo aperto a destra: A = {z : 2.33 z < + } = {Y : Y < + } indicata in Fig. 9.6, mentre la regione di rifiuto è C = {z : < z < 2.33} = {Y : < Y < }. Il valore empirico di z n osservato nel campione è z n = = 4.71 ed appartiene alla regione di rifiuto. Quindi, al livello di significatività 0.01 dobbiamo rigettare H 0, concludendo che l affermazione della ditta farmaceutica non è corretta, in quanto non legittimata dalle osservazioni effettuate sul campione. Prima di procedere al calcolo dell errore di seconda specie, è qui necessario sottolineare che le distribuzioni campionarie associate all ipotesi alternativa sono normali con varianze diverse, in generale, da σ0 2. Infatti, fissato un valore p 1 < p 0 compatibile con l ipotesi alternativa, questa è normalmente distribiuta con media p 1 e deviazione standard p 1 (1 p 1 ) σ 1 = σ 0, n

263 9.7 Test parametrici con ipotesi composte 255 che è maggiore di σ 0 per tutti i reali p 1 compresi nell intervallo (1 p 0 ) < p 1 < p 0. La Fig. 9.6 mostra due di queste distribuzioni, che al diminuire di y 1 aumentano la dispersione rispetto al loro valor medio. Ne segue che il rischio di seconda specie in questo test è non è dato dalla (9.45), ma deve essere calcolato come segue: [ β(p 1 ) = IP[Y A H 1 N (p 1, σ1)] == exp (Y p 1) 2 ] σ 1 2π p 0 σ 0 z 1 α 2σ1 2 dy = ( ) p0 σ 0 z 1 α p 1 = erf(+ ) erf = 1 ( σ erf σ0 z 1 α + p ) 1 p 0. σ 1 σ 1 Il suo andamento qualitativo non varia rispetto a quello calcolato con la (9.45): è sempre una funzione monotona crescente, e vale 0.5 per p 1 = p 0 σ 0 z 1 α = che è l estremo inferiore dall intervallo di accettazione A. Per ricercare una analogia formale con la (9.18 ), si può anche definire la differenza standardizzata: Z = p 1 p 0 n = (p 1 p 0 ) σ 1 p 1 (1 p 1 ), mediante la quale il rischio di seconda specie si può riscrivere nella forma: β(z ) = 1 ( ) 2 + erf σ0 z 1 α + z σ 1 che assume il valore 0.5 per z = σ 0 σ 1 z 1 α = z 1 α p 0 (1 p 0 ) (p 0 σ 0 z 1 α )(1 p 0 + σ 0 z 1 α ) = La potenza W (p 1 ) = 1 β(p 1 ) del test è la funzione monotona decrescente riportata in Fig Esempio 9.5: Test sulla differenza di distribuzioni normali Due campioni di 100 persone ciascuno sono estratti dalla popolazione dei pazienti di una malattia. Al campione A, unitamente alla terapia usuale si somministra una nuova cura in fase di sperimentazione; al campione B viene prescritto di continuare unicamente con la terapia usuale. A conclusione del trattamento, risulta che sono guariti n A = 75 pazienti del gruppo A e n B = 65 pazienti del gruppo B. Possiamo ritenere che la nuova cura è efficace, ai livelli di significatività α = 0.01, 0.05 e 0.10? Indichiamo con Y A la frequenza relativa (incognita) di guarigione tra la popolazione dei pazienti che si sono curati anche con la nuova terapia, e con Y B la frequenza relativa di guarigione con la cura usuale, che supponiamo statisticamente indipendente da Y A. Definiamo quindi la variabile aleatoria differenza tra le frequenze relative: d(ω) = Y A Y B,

264 256 TEST PARAMETRICI sulla quale effettuiamo un test unidirezionale superiore per verificare le seguenti ipotesi: H 0 : d = 0 (la nuova cura non ha effetto) H 1 : d = d 1 > 0 (la nuova cura è più efficace di quella usuale). In seguito alle osservazioni fatte sui campioni, le frequenze relative di guarigione nelle due popolazioni di pazienti hanno distribuzioni approssimabili con leggi normali, rispettivamente con valor medio E{Y A } = = p A = 0.75 ; E{Y B } = = p B = 0.65 e varianze che per la (7.22) valgono: σ 2 (Y A ) = = , σ 2 (Y B ) = = Poichè Y A e Y B sono normali e statisticamente indipendenti, anche d(ω) ha una distribuzione normale, come mostrato nel Capitolo 4. Essa ha valor medio E{d} = 0 se H 0 è vera, oppure E{d} = d 1 > 0 se è vera H 1, con uguale deviazione standard che vale (si confronti con l Esempio 7.2): σ d = σ 2 (Y A ) + σ 2 (Y B ) = = Il valore empirico della differenza d rilevato dai campioni è d n = p A p B = 0.10, e quello della corrispondente variabile standardizzata della differenza tra le frequenze relative vale: z n = d n E{d} = 0.10 σ d Per un test unidirezionale con coda a destra, i quantili z 1 α corrispondenti ai livelli richiesti si calcolano applicando la (9.43) come come è stato fatto nell Esempio 9.3, e valgono: α = 0.01 : z 1 α = 2.33 (d 1 α = 0.15) α = 0.05 : z 1 α = (d 1 α = 0.106) α = 0.10 : z 1 α = 1.28 (d 1 α = 0.082). In parentesi sono riportati i corrispondenti valori del quantile d 1 α = σ d z 1 α della distribuzione normale di d(ω). La regione di accettazione dell ipotesi nulla è A = {z n :, z 1 α } = {d n :, d 1 α }. Ai livelli di significatività α = 0.01 e 0.05, il risultato empirico standardizzato z n 1.55 < z 1 α (corrispondente a d n = 0.10 < d 1 α ) cade nella regione di accettazione di H 0, per cui si deduce che le differenze percentuali di guarigione nei due campioni non sono statisticamente significative, e non si può affermare che esse indichino una efficacia della nuova cura.

265 9.7 Test parametrici con ipotesi composte 257 H, n = H, n = d n H Figura 9.7 d Al contrario, al livello di significatività α = 0.10 si ha che z n cade nella regione di rifiuto di H 0 : respingeremo dunque l ipotesi nulla e affermeremo che la nuova cura è più efficace di quella usuale. Le conclusioni che si traggono dal test dipendono in modo determinante dal tipo del rischio α che siamo disposti a correre se si fallisce la previsione. Nel caso in cui si accetti un livello di significatività α = 0.1, bisogna mettere in conto che esiste un 10% di probabilità di illudere il paziente, somministrandogli una cura che non ha effetti utili. Si può decidere di diminuire questo rischio di errore ma, a parità di numerosità del campione, cresce di conseguenza il rischio β di commettere un errore di seconda specie, che consisterebbe nel non somministrare la nuova cura, anche se in realtà questa è efficace: in tal caso aumenterebbe il rischio di non intervenire efficacemente per guarire un maggior numero di malati. Questo rischio di seconda specie del test si determina applicando la (9.44): β(d 1 ) = 1 ( 2 + erf z 1 α d ) 1 e accettando un rischio di prima specie α = 0.10, in corrispondenza del valore empirico d 1 = d n = 0.10 vale: β(0.10) = 1 ( 2 + erf ) = 1 erf (0.2723) = = Ne segue che in base all analisi dei campioni il rifiuto della nuova terapia sarebbe controproducente, con una probabilità che è circa del 40%, ai fini di un miglioramento della terapia in uso. D altra parte, esiste un modo per diminuire il rischio di prima specie α senza aumentare l entità del rischio di seconda specie β: esso consiste nell aumentare la numerosità n dei campioni, perchè in tal modo si aumenta l affidabilità della decisione che si assume a seguito del test. Si supponga infatti di rifare il medesimo test su altri due campioni di 300 pazienti ciascuno, dal quale risultano frequenze relative di guarigione, che indicheremo con σ d

266 258 TEST PARAMETRICI Y A, Y B, che sono uguali a quelle del test precedente: Y A = = 0.75 ; Y B = = Se è vera l ipotesi nulla, la distribuzione campionaria della differenza d = Y A Y B tra le nuove frequenze relative ha ancora media E{d} = 0.10, ma ha ora deviazione standard σ d = σ 2 (Y A ) + σ2 (Y B ) = = che denota una minor dispersione dei dati campionari rispetto alla media. Per il dato empirico d n = 0.10 con n = 300, la variabile standardizzata assume ora il valore: z n = 0.10 σ d = 0.10 = > 2.33, che appartiene alla regione di rifiuto al livello di significatività α = Rigettando l ipotesi nulla H 0, potremo allora affermare che la nuova cura è efficace, sapendo che la probabilità di commettere un errore di prima specie (nell illudere il paziente) è limitata all 1% e che contemporaneamente il rischio di seconda specie (di non utilizzare un farmaco più efficace) è comunque ridotto al valore: β(0.10) = 1 ( 2 + erf ) = 1 erf (0.358) La Fig. 9.7 mostra il confronto tra i risultati che si ottengono usando le due distribuzioni campionarie con differente numerosità, nel caso in cui sia vera l ipotesi nulla H 0 : d = 0. Per n = 300, il quantile d 1 α = z 1 α della differenza d = Y A Y B ai vari livelli di significatività vale: α = 0.01, z 1 α = 2.33 : d 1 α = α = 0.05, z 1 α = : d 1 α = α = 0.01, z 1 α = 1.28 : d 1 α = e, al contrario del caso in cui n = 100, il dato empirico d n = 0.10 cade nella regione di rifiuto anche se si assume il minore tra i tre rischi di prima specie Test sulla varianza Per procedere a tests sulla varianza occorre che la popolazione da cui si estrae il campione sia normalmente distribuita, perchè questa condizione è necessaria per determinare gli intervalli di confidenza ricavati nel Quando è possibile accettare quasta ipotesi preliminare, un test bilaterale con ipotesi: H 0 : σ 2 = σ 2 0 H 1 : σ 2 = σ 2 1 σ 2 0

267 9.7 Test parametrici con ipotesi composte 259 si effettua verificando se il valore empirico q n della statistica Q n = n 1 σ0 2 Ŝn 2 n σ0 2 Sn, 2 (9.51) definita nel Teorema Chi-quadrato del 7.4.1, appartiene alla regione di accettazione risultante dalla scelta di un determinato rischio di prima specie α. Tenuto conto che Q n ha una distribuzione Chi-quadrato con (n 1) gradi di libertà, questa regione di accettazione è l intervallo A = {q n : χ α/2 q n χ 1 α/2 } = {S 2 n : σ 2 0χ α/2 /n S 2 n σ 2 0χ 1 α/2 /n} (9.52) dove χ α/2, χ 1 α/2 sono i quantili di ordine α/2 e (1 α/2) della Chi-quadrato con (n 1) gradi di libertà, e la regione di rifiuto di H 0 è l insieme C = {0 q n < χ α/2 } {χ 1 α/2 < q n < + }. (9.25 ) Se invece di vuole effettuare un test unilaterale, con coda a destra o a sinistra, le regioni di accettazione e di rifiuto saranno: H 1 : σ 2 1 > σ 2 0 : H 1 : σ 2 1 < σ 2 0 : A = {q n : 0 q n χ 1 α } = {S 2 n : 0 S 2 n σ 2 0χ 1 α /n} C = {q n : χ 1 α < q n < + } = {S 2 n : σ 2 0χ 1 α /n < S 2 n < + } A = {q n : χ α q n < + } = {S 2 n : σ 2 0χ α /n S 2 n < + } C = {q n : 0 q n < χ α } = {S 2 n : 0 S 2 n < σ 2 0χ α /n} dove, ovviamente, χ α e χ 1 α sono i quantili di ordine α e 1 α della Chi-quadrato con n 1 gradi di libertà. Fissato un valore σ 2 1 compatibile con l ipotesi alternativa, la statistica Q n = ns 2 n/σ 2 1 ha anch essa una distribuzione Chi-quadrato con (n 1) gradi di libertà. Pertanto il rischio di seconda specie in questi test è definito da β(σ 2 1) = IP(q n A H 1 vera) = IP(q n A Q n = ns 2 n/σ 2 1 χ 2 (n 1) ) e sarà calcolabile integrando opportunamente sulla regione A, al variare del valore corrente di σ1 2, questa distribuzione Chi-quadrato associata all ipotesi alternativa. Caso di grandi campioni Sappiamo che per n la distribuzione Chi-quadrato tende alla normale N (n, 2n). Ne segue che per grandi campioni (almeno n > 30), potremmo approssimare la regione di accettazione e il rischio di seconda specie utilizzando la variabile normale standard (8.28) già definita nel precedente Capitolo. Conviene però utilizzare la circostanza che in tal caso la deviazione standard campionaria S n è approssimabile con una legge normale, avente media σ e scarto σ/ 2n. Per la verifica di un ipotesi nulla H 0 sulla varianza, si può utilizzare allora la statistica Z n = (S n σ 0 ) 2n σ 0, (9.26)

268 260 TEST PARAMETRICI anch essa con distribuzione normale standard. Scelto un rischio di prima specie α e calcolati i quantili z 1 α/2 e z 1 α, si individuano così le seguenti regioni di accettazione: H 1 : σ1 2 σ0 2 : A = {z n : z 1 α/2 z n z 1 α/2 } = ( = {S n : σ 0 1 z ) ( 1 α/2 S n σ z )} 1 α/2 2n 2n H 1 : σ1 2 > σ0 2 : A = {z n : < z n z 1 α (} = = {S n : S n σ z )} 1 α 2n H 1 : σ1 2 < σ0 2 : A = {z n : z 1 α ( z n < + } = = {S n : σ 0 1 z ) } 1 α S n < + 2n che per grandi campioni approssimano la (9.52) e seguenti. Il rischio di seconda specie in tal caso si calcola più facilmente, perchè è definito dall integrale: β(σ 1 ) = IP(S n A S n caln(σ 1, σ1/2n)) 2 = 1 [ (Sn σ 1 ) 2 ] exp σ 1 2σ1 2/2n ds n e si può determinare utilizzando la Tavola della funzione degli errori. A seconda dell intervallo A esso vale: [ 2n ( ) H 1 : σ1 2 σ0 2 σ0 : β(σ 1 ) = erf 1 + σ ] 0 z σ 1 σ 1 α/2 [ 1 2n ( ) σ0 erf 1 σ ] 0 z σ 1 σ 1 α/2 [ 1 2n ( ) H 1 : σ1 2 > σ0 2 σ0 : β(σ 1 ) = erf 1 + σ ] 0 z 1 α + 1 σ 1 σ 1 2 H 1 : σ1 2 < σ0 2 : β(σ 1 ) = 1 [ 2n ( ) 2 erf σ0 1 σ ] 0 z 1 α σ 1 σ 1 Fissati α ed n, il suo andamento qualitativo è mostrato per i tre casi in Fig Per σ 1 = σ 0 esso vale sempre 1 α, che è il valore massimo di β nel test bilaterale, ma tende all unità per il test unilaterale superiore quando σ 1 0, e per quello unilaterale inferiore quando σ 1. Più dettagliati diagrammi di β in funzione del rapporto σ 1 /σ 0 si possono consultare in [3] al variare di α e della numerosità del campione. Esempio 9.6 Per la misurazione di un coefficiente di resistenza in galleria del vento, in aggiunta alla serie di prove già considerata nell Esempio 8.12 si effettua una nuova serie di n = 20 prove, i cui risultati mostrano ancora un valor medio empirico dell ordine di 0.3, ma una varianza campionaria S 2 n = che è maggiore di quella del campione precedente. Si vuole effettuare un test per verificare se con gli ultimi dati raccolti si A

269 9.7 Test parametrici con ipotesi composte H : < 0 H : H : > 0 1 Figura Curve caratteristiche operative per tests sulla varianza può affermare, al livello di significatività α = 0.10, che la varianza della popolazione dei risultati ottenuti in quella galleria del vento è σ 2 = Definita l ipotesi nulla H 0 : σ0 2 = 0.02, se essa è vera la statistica (9.24) vale Q n = 20 σ0 2 Sn 2 = 1000Sn 2 ed ha una distribuzione campionaria con legge Chi-quadrato con n 1 = 19 gradi di libertà. Per procedere in un test bidirezionale, definiamo l ipotesi alternativa: H 1 : σ e determiniamo le regioni di accettazione e di rifiuto di H 0, definite dalla (9.52). Se assumiamo α = 0.10, dalla riga ν = 19 della Tabella dei quantili Chi-quadrato in Appendice si ricava: χ 0.05 = 10.1, χ 0.95 = Di conseguenza, le regioni di accettazione e di rifiuto sono i seguenti intervalli di q n : A = [10.1, 30.1], C = [0, 10.1) (30.1, + ). Il valore empirico della statistica Q n che si ottiene sostituendo in essa S 2 n = vale q n = 28 e appartiene alla regione di accettazione (v. Fig. 9.9). Si può perciò concludere, al livello α = 0.10, che il campione è compatibile con l affermazione che le misurazioni effettuate in quella galleria del vento hanno una varianza σ 2 = Si noti che si perviene invece a un risultato opposto se si effettua un test unidirezionale superiore assumendo l ipotesi alternativa H 1 : σ 2 > Infatti in tal caso l intervallo di accettazione di H 0 sarebbe: A = [0, χ 1 α ] = [0, χ 0.90 ] = [0, 27.2] e il valore empirico q n = 28 andrebbe a cadere nella regione di rifiuto C = (27.2, + ).

270 262 TEST PARAMETRICI f( Q n ) H 0 E Q n 0.05 q n A Figura 9.9 Per confrontare questi risultati con quelli che si ottengono per grandi campioni, supponiamo ora che i precedenti dati campionari siano stati ricavati da n = 32 prove, anzichè 20. In tal caso si può usare la statistica (??) che vale: Z n = 8(S n 0.02) Al livello α = 0.10, si ha z 1 α/2 = z 0.95 = 1.645, e per questa statistica la regione di accettazione di H 0, definita dalla prima delle (9.27), è il seguente intervallo di z n : A = [ 1.645, 1.645]. Il valore empirico di Z n vale z n = = ed appartiene ad A, per cui il risultato del test sarebbe uguale a quello che si ricava dall esame del piccolo campione. In modo analogo, nel test unidirezionale superiore si ricava: A = (, z 1 α ] = (, z 0.90 ] = (, 1.288] che non contiene z n ; dunque l ipotesi nulla sarebbe in tal caso da rigettare, come già rilevato nel caso in cui n = 20. Se n = 32, i rischi di seconda specie connessi ai due test si possono approssimare usando le formule (9.53). In particolare, se si fa coincidere σ 1 con il valore empirico della deviazione standard S n = , si ha σ 0 /σ e per il test bilaterale si ricava il seguente errore di seconda specie: β(0.167) = erf[8( ) ] erf[8( ) ] = erf(0.167) erf( ) = mentre per il test unilaterale superiore si ha invece: β(0.167) = 1 + erf[8( ) ] = 2

271 9.7 Test parametrici con ipotesi composte 263 = erf( 0.135) = 0.5 erf(0.135) = Anche se non è applicabile ai test effettuati con piccoli campioni, il confronto indica comunque che è da attribuire una certa preferenza al test unilaterale, che a parità di α comporta un rischio di seconda specie inferiore a quello del test bilaterale Test di Fisher per il rapporto tra varianze Si abbiano due caratteri X, Y normalmente distribuiti rispettivamente con leggi N (µ X, σx 2 ) e N (µ Y, σy 2 ), da ciascuno dei quali è stato estratto un campione con numerosità n ed m, aventi rispettivamente varianza campionaria corretta Ŝ2 n e Ŝ2 m. Applicando ai due campioni il Teorema Chi-quadrato del 7.4.1, si ricava facilmente che la variabile aleatoria V (ω) = (n 1)Q m (m 1)Q n = σ2 XŜ2 m(y ) σ 2 Y Ŝ2 n(x) (9.53) è distribuita con densità F di Fisher, definita nella (2.41) del 2.3.8, avente m 1 e n 1 gradi di libertà. Si supponga ora di dover verificare se le distribuzioni normali dei due caratteri hanno la medesima varianza. Si può allora porre nella (9.53): σx 2 = σ2 Y, ed effettuare un test sulla statistica V m,n = Ŝ2 m(y ) Ŝn(X) 2 ricavata dalla osservazione delle varianze corrette dei due campioni di X e Y. Definita l ipotesi nulla H 0 : σx 2 = σy 2 e quella alternativa H 1 : σ 2 X σ 2 Y, si potrà accettare H 0 se il valore empirico di V m,n è sufficientemente prossimo ad 1 (che è anche il limite cui tende il valor medio della distribuzione di Fisher per n ). Scelto un livello di significatività α, la regione di accettazione di H 0 si determina calcolando l intervallo A = [f α/2, f 1 α/2 ], dove f α/2 e f 1 α/2 sono i quantili della distribuzione F (m 1, n 1) di Fisher con m 1 e n 1 gradi di libertà, che escludono due code con probabilità α/2. In Appendice sono riportate due Tabelle che indicano, al variare di m ed n, i quantili f 0.95 (m, n) e f (m, n) da utilizzare per test bidirezionali ai livelli di significatività α = 0.10 e Per il loro impiego, occorre anche sfruttare la seguente proprietà della distribuzione F (m, n): Esempio 9.7 f α/2 (m, n) = 1 f 1 α/2 (n, m). (9.54)

272 264 TEST PARAMETRICI In seguito alle due serie di misurazioni del coefficiente di resistenza C x già considerate negli Esempi 9.6 e 8.12 si vuole verificare, al livello di significatività α = 0.10, l ipotesi che le distribuzioni di frequenza dei risultati (che come già detto sono approssimabili con leggi normali) abbiano la medesima varianza. Indichiamo allora con X la frequenza relativa (teorica) delle n = 12 misure effettuate sul modello dell Esempio 8.12, e con Y quella delle m = 20 misure dell Esempio 9.6. Poichè le varianze campionarie sono risultate, rispettivamente: Sn(X) 2 = e Sm(Y 2 ) = 0.028, le varianze empiriche corrette valgono: Ŝn(X) 2 = = , Ŝ2 m(y ) = = , 19 e se è vera l ipotesi nulla H 0 : σx 2 = σ2 Y, il valore empirico del loro rapporto è Calcoliamo ora la regione di accettazione V m,n = = A = ( f 0.05 (m 1, n 1), f 0.95 (m 1, n 1) ) con m 1 = 19, n 1 = 11. Il quantile f 0.95 (19, 11) si calcola interpolando tra i valori forniti per m = 15 e m = 20 dalla apposita Tabella in Appendice: f 0.95 (19, 11) = 1 5 f 0.95(15, 11) f 0.95(20, 11) = Il quantile f 0.05 (19, 11) si calcola utilizzando la (9.30) dopo aver ricavato f 0.95 (11, 19) con una doppia interpolazione lineare, effettuata dapprima tra m = 15 e m = 20 per per fissati valori di n = 10 e 15, e quindi interpolando tra n = 10 e n = 15 i risultati ottenuti per m = 19: f 0.95 (10, 19) = 1 5 f 0.95(10, 15) f 0.95(10, 20) = f 0.95 (15, 19) = 1 5 f 0.95(15, 15) f 0.95(15, 20) = f 0.95 (11, 19) = 1 5 f 0.95(10, 19) f 0.95(15, 19) = 1 25 f 0.95(10, 15) + In definitiva si ottiene: f 0.95(10, 20) f 0.95(15, 15) f 0.95(15, 20) = f 0.05 (19, 11) = 1 f 0.95 (11, 19) 0.44 e poichè il dato empirico V m,n appartiene all intervallo A = (0.44, ), si accetta l ipotesi nulla concludendo che al livello di significatività α = 0.10 i due campioni sono compatibili con l affermazione che le varianze delle misurazioni effettuate sui due modelli sono uguali.

273 9.7 Test parametrici con ipotesi composte Test di incorrelazione Si è visto nel Capitolo 3 che le variabili aleatorie X e Y con cui in Statistica si rappresentano due caratteri di una popolazione sono statisticamente non correlate se è nullo il loro coefficiente di correlazione ρ(x, Y ) definito dalla (3.9). La valutazione di questo coefficiente è anche importante per verificare la correttezza di una regressione lineare di Y su X che si ottiene, come mostrato nel Capitolo 5, attraverso l analisi di un campione di n coppie (x k, y k ) di dati riguardanti i due caratteri X e Y della medesima popolazione. Avendo a disposizione questo campione, un test sul coefficiente di correlazione tra i due caratteri si può effettuare ricorrendo al seguente stimatore: R n = Cov(X, Y ) S n,x S n,y = n (X k X)(Y k Y ) k=1 ns n,x S n,y (9.55) dove X, Y, S n,x, S n,y sono rispettivamente le medie campionarie e le radici quadrate delle varianze campionarie dei due caratteri. Introdotte le seguenti ipotesi: H 0 : ρ(x, Y ) = 0 ; H 1 : ρ(x, Y ) 0 (9.56) relative al coefficiente di correlazione teorico dei due caratteri, si può dimostrare che se l ipotesi nulla è vera, la statistica T n = R n n 2 1 R 2 n (9.57) è distribuita con legge t-student con n 2 gradi di libertà. Ne segue che le regioni di accettazione e di rifiuto di H 0 in un test bidirezionale al livello di significatività α sono rispettivamente: A = ( t 1 α/2, t 1 α/2 ); C = (, t 1 α/2 ) (t 1 α/2, + ), dove t 1 α/2 è il quantile della distribuzione t-student con n 2 gradi di libertà, che esclude una coda di probabilità α/2. Se il valore empirico della statistica (9.33), calcolato con i dati forniti dal campione, appartiene alla regione di accettazione cosí determinata, si concluderà che i due caratteri sono non correlati al livello di significatività α. Esempio 9.8 Nella regressione lineare effettuata nell Esempio 6.2 del Capitolo 6 è già stato calcolato che il coefficiente di correlazione tra i caratteri X e Y ha il valore empirico R n = Poiché esso è relativamente prossimo all unità, si è dedotto che i dati (x k, y k ) ricavati dal campione di numerosità n = 12 sono sufficientemente correlati statisticamente.

274 266 TEST PARAMETRICI Effettuiamo un test di incorrelazione sulla statistica (9.33), per verificare se si possono trarre le medesime conclusioni anche nei confronti delle proprietà statistiche della coppia di caratteri della popolazione dalla quale è stato estratto il campione esaminato. Il valore empirico che si ricava per la statistica (9.57) vale 10 t n = (0.7027) 2 = L esame della tabella dei quantili della distribuzione t-student con n 2 = 10 gradi di libertà mostra che t 1 α/2 = oppure oppure rispettivamente per α = 0.05 oppure 0.02 oppure Ne segue che ai vari livelli di significatività le regioni di rifiuto di H 0 sono: α = 0.05 : α = 0.02 : α = 0.01 : C = (, 2.228) (2.228, + ) C = (, 2.764) (2.764, + ) C = (, 3.169) (3.169, + ) e quindi il dato empirico t n appartiene alla regione di rifiuto dell ipotesi nulla H 0 : ρ(x, Y ) = 0 per test bidirezionali con rischio di prima specie α = 0.02 o superiori, mentre invece cade nella regione di accettazione per α = Se ne conclude che se si accetta di commettere un errore di prima specie maggiore o uguale a 0.02, l ipotesi nulla sulla incorrelazione dei due caratteri è da rigettare. Al contrario, si concluderà che i due caratteri sono non correlati, solo se si vuole avere una probabilità massima dell 1% di commettere un errore di prima specie. Si osservi però che in tal caso l errore di seconda specie β(t n ) può essere assai elevato, perché varia in un intervallo compreso tra zero e 1 α = Ipotesi H 0 e H 1 composte Nel caso in cui anche l ipotesi nulla sia composta, e genericamente del tipo: H 0 : ϑ Θ 0 Θ IR, 1 N 1, N 2, N 3, c n

275 9.7 Test parametrici con ipotesi composte 267 Figura 9.10 l errore di prima specie del test dipende dagli effettivi valori empirici g n Θ 0 che la statistica campionaria G n può assumere nell insieme Θ 0 compatibile con l ipotesi nulla. Fissata la regione critica C del test, e tenuto conto della definizione (9.30), l errore di prima specie è ora la funzione α(g n ) = IP(G n C ogni H 0 vera, con ϑ = g n Θ 0 ), e come livello di significatività del test si assume in tal caso l estremo superiore dei possibili errori di prima specie: Esempio 9.9 α = sup g n Θ 0 α(g n ). (9.58) Si effettua un test sull intervallo di tempo medio tra due successivi interventi di manutenzione di un dato componente della strumentazione di bordo di un velivolo. Indicato con X(ω) il tempo che intercorre tra due successivi controlli di manutenzione, si assume per esso un modello statistico esponenziale, descritto dalla densità f X (x, ϑ) = ϑe ϑx che come è noto (crf ) ha valor medio µ = 1/ϑ e varianza σ 2 = 1/ϑ 2 = µ 2. Avendo a disposizione una serie statistica di 200 rilevamenti, da cui risulta un intervallo medio di tempo µ n = 3.4 mesi, si vuole verificare se, con un prescritto livello di significatività, la media dei tempi di attesa tra due controlli si può ritenere non superiore a 3 mesi. A tal fine si assumono le seguenti ipotesi composte: H 0 : 1/ϑ Θ 0 = [0, 3] H 1 : 1/ϑ > 3. Se l ipotesi nulla H 0 è vera, tenuto conto della elevata numerosità del campione le possibili distribuzioni campionarie delle medie sono normali, con media µ n 3 e varianza σn 2 = σ2 n = µ2 n 200 come indicato in Fig La regione di accettazione di H 0 è A = [0, c] e quella critica è C = (c, + ), dove c si determina ricercando il valore µ c di µ 3 che rende massimo l errore di prima specie. Per questo test unidirezionale, è facile rendersi conto (si veda la Fig. 9.10) che sup α(µ n ) = α(3), 0 µ n 3 per cui µ c = 3. Se dunque H 0 è vera e µ n = µ c = 3, assumendo per esempio un livello di significatività α = 0.01 si deve avere: IP(µ n C µ n = µ c = 3) = 1 2 erf (z c) = α = 0.01

276 268 TEST PARAMETRICI dove z c è il coefficiente fiduciario per la variabile standardizzata Z c = (c µ n) ( ) n c 200. = µ n 3 1 Usando come di consueto la tabella di erf(z), si ricava z c = 2.33 da cui ( c = z ) c = Poichè il valore empirico di µ n ricavato dal campione appartiene alla regione di accettazione A = [0, 3.494] dell ipotesi nulla, essa viene verificata al livello di significatività α = Se invece si accetta un rischio di prima specie più elevato: α = 0.10, il coefficiente fiduciario vale z c = 1.29 e si trova: ( c = ) = , 200 per cui in tal caso l ipotesi nulla è da rifiutare perché il dato empirico appartiene alla regione di rifiuto C = ( , + ) determinata con il nuovo livello di significatività Test del rapporto di verosimiglianza E la generalizzazione del test di Newman-Pearson fra ipotesi semplici, descritto nel 9.2.1, al caso in cui si abbiano da verificare generiche ipotesi composte del tipo: H 0 : ϑ Θ 0 Θ IR d H 1 : ϑ Θ 1 = Θ\Θ 0. (9.59) Avendo a disposizione le n osservazioni (x 1,..., x n ) = x dedotte da un campione X della popolazione, si definisce la statistica λ n (Θ 0, X) = sup L(ϑ, X) ϑ Θ 0 sup ϑ Θ L(ϑ, X) (9.60) detta rapporto di verosimiglianza, in cui L(ϑ, X) è la funzione di verosimiglianza (8.6), da esprimere analiticamente in base al modello statistico adottato. Si può dimostrare che in un test sulla statistica (9.60) con ipotesi composte (9.59) la regione critica è l insieme C = {x : λ n (Θ 0, x) < c},

277 9.8 Problemi risolti 269 dove c > 0 è scelto in modo che il test abbia un prescritto livello disignificatività α, ovvero tale da soddisfare la condizione IP(G n (X) C H 0 vera ) = L(ϑ, x)dx = IP(λ n (Θ 0, x) < c) α, ϑ Θ 0. C Questo metodo è ampiamente usato per effettuare test di verifica per un ampia classe di ipotesi composte sebbene, in generale, non porti alla costruzione di un test di massima potenza come invece avviene nel caso di ipotesi semplici. Si può comunque dimostrare, sotto particolari condizioni di regolarità della stima di massima verosimiglianza, che il test possiede proprietà ottimali in una sua variante asintotica, vale a dire quando la numerosità del campione tende ad infinito. Questa teoria asintotica, per la quale si rimanda al testo [2] citato in Bibliografia, riguarda però soltanto problemi in cui l ipotesi nulla è definita su un sottospazio di Θ, ossia tale che H 0 : ϑ Θ 0 con dim(θ 0 ) < dim(θ). Questo è il caso, per esempio, di un test sulla varianza per il modello Normale-2: N (ϑ 1, ϑ 2 ) in cui è un semipiano, e Θ = {ϑ = (ϑ 1, ϑ 2 ) : < ϑ 1 < +, ϑ 2 > 0} Θ 0 = {ϑ = (ϑ 1, ϑ 2 ) : ϑ 1 = ϑ 10, ϑ 2 > 0} è la semiretta dei valori positivi di ϑ 2, per ϑ 1 assegnato. 9.8 Problemi risolti 9.1. Da un campione di 200 cambi per autovetture, la cui durata di funzionamento espressa in Km. ha un modello statistico normale con varianza nota σ 2 = , si ricava che il chilometraggio medio campionario è di Km. Possiamo affermare, al livello di significatività α = 0.01, che la durata media dei cambi è di Km? E al livello di significatività α = 0.20? Soluzione. Si deve effettuare un test bidirezionale su una popolazione con varianza nota, assumendo una ipotesi nulla H 0 : µ = µ 0 = Km, e una ipotesi alternativa H 1 : µ = µ Km. Se è vera H 0, la regione di accettazione è l intervallo A : σ n z 1 α/2 µ n σ n z 1 α/2 in cui σ n = σ n = = 230 e z 1 α/2 è il quantile di ordine (1 α/2) della variabile standardizzata Z n = (µ n µ 0 )/σ n. Al livello α = 0.01 si ha dalle Tavole: z = Sostituendo si ricava µ n A = ( , )

278 270 TEST PARAMETRICI e poiché il valore empirico x = appartiene ad A, accetto H 0. Al livello α = 0.20 si ha z Sostituendo si ricava µ n A = (44504, 45096) e x = non appartiene ad A, bensì alla regione critica e dunque rifiuto H 0. Si perviene allo stesso risultato se si preferisce effettuare il test sulla variabile normale standard Z n il cui valore empirico, se H 0 è vera, vale z n = ( )/ Infatti, al livello α = 0.01 esso appartiene alla regione di accettazione A = ( z 0.995, z ) = ( 2.58, 2.58) e al contrario, al livello α = 0.20 non appartiene all intervallo A = ( 1.287, 1.287) Si dispone del seguente campione: x 1 = 7, x 2 = 6, x 3 = 8, x 4 = 5, x 5 = 6, x 6 = 10 di sei osservazioni di un carattere X di cui non è noto il modello statistico. In un test bilaterale sul valor medio di X, si può accettare, al livello di significatività α = 0.1, l ipotesi che esso valga µ = 6? Soluzione. Per procedere nel test occorre assumere che la popolazione con varianza sconosciuta abbia legge normale, e usare una distribuzione campionaria con legge t-student. L ipotesi nulla è H 0 : µ 0 = 6 e l ipotesi alternativa è H 1 : µ 6. I valori empirici della media e della varianza campionaria sono x = 42/6 = 7 s 2 n = 1 6 ( ) = 8 3. In un test bilaterale al livello α = 0.1, se H 0 è vera l intervallo di accettazione è dove 6 ŝn 6 t 0.95 µ 6 + ŝn 6 t 0.95 ŝ n = 1 n n n n 1 s2 n = e t 0.95 è il quantile di ordine (1 α/2) della distribuzione t-student con n 1 = 5 gradi di libertà, che vale: t 0.95 = Dunque la regione di accettazione di H 0 è l intervallo µ A (4.528, 7.471) e poiché il valore empirico della media ( x = 7) appartiene ad A, accetto H 0 : µ 0 = 6.

279 9.8 Problemi risolti 271 Si perviene allo stesso risultato calcolando il valore empirico della statistica T n = µ n µ 0 15 n = (µn µ 0 ) ŝ n 8 il quale, se H 0 è vera, vale t n = e quindi appartiene alla regione di accettazione A = ( t 0.95, t 0.95 ) = ( 2.015, 2.015) Da una popolazione con legge normale si estrae un campione di numerosità n = 8 la cui varianza vale S 2 n = In un test sulla varianza incognita della popolazione, si può affermare che σ 2 < 0.09, al livello di significatività α = 0.10? Soluzione. Si imposta un test unidirezionale inferiore per una popolazione normale con varianza sconosciuta, assumendo le ipotesi: Se H 0 è vera, la statistica H 0 : σ 2 = σ 2 0 = 0.09, H 1 : σ 2 < Q n = n 1 σ0 2 Ŝn 2 = 0.09Ŝ2 7 n = 77.7 Ŝ2 n segue la legge χ 2 con n 1 = 7 gradi di libertà, e la regione di accettazione di H 0 è l intervallo A = [χ α, + ) dove χ α è il quantile di ordine α = 0.1 della distribuzione χ 2 con 7 gradi di libertà. Dalle Tavole si ricava: χ 0.10 = Il valore empirico della varianza campionaria corretta è ŝ 2 n = n n 1 s2 n = , 7 e quindi il valore empirico di Q n vale: q n = Dunque q n A = [2.83, + ) e l ipotesi nulla è da accettare: ne consegue che dalle risultanze del campione non si può affermare: σ 2 < Cinque osservazioni di un carattere avente legge normale hanno i seguenti esiti: Sviluppare un test con livello di significatività α = 0.1, per verificare se la media del carattere vale µ = 5 oppure µ = 6. Qual è la potenza del test effettuato? Soluzione. I valori empirici della media e della varianza campionaria sono: x = 28 5 = 5.6, s2 n = per cui la stima corretta della varianza della popolazione è ˆσ 2 = n n 1 s2 n = = (5.6) 2 = 1.84,

280 272 TEST PARAMETRICI e la distribuzione campionaria delle medie ha legge normale con media µ e deviazione standard ˆσ σ n = n = Definite l ipotesi nulla H 0 : µ = µ 0 = 5, l ipotesi alternativa H 1 : µ = µ 1 = 6 e la variabile standardizzata Z n = µ n µ 0 = µ n 5 σ n della distribuzione campionaria delle medie quando H 0 è vera, la regione critica (µ c, + ) del test si calcola imponendo che ( α = 0.1 = IP(µ n > µ c H 0 ) = IP(5+σ n Z n > µ c ) = IP Z n > µ ) c 5 = 1 ( ) erf µc ossia, usando le Tavole di erf(z): ( ) µc 5 erf = da cui si trova: µ c = µ c = La regione critica è dunque C = (5.873, + ) e non contiene il valore empirico x = 5.6 della media calcolata. Se ne conclude che l ipotesi nulla µ 0 = 5 è verificata dalle risultanze del campione. La potenza del test è W = 1 β, e il rischio di seconda specie β si calcola utilizzando la variabile normale standard Z 1 = (µ n µ 1 )/σ n che rappresenta la distribuzione campionaria quando è vera l ipotesi alternativa. Si ricava allora: ( β = IP (µ n µ c H 1 vera) = IP Z n µ ) ( c 6 = IP Z n ) = σ n = erf( ) = Pertanto la potenza del test vale W = Su 100 transistor prodotti da una ditta, 6 risultano difettosi. Al livello di significatività α = 0.1, si può accettare l ipotesi che la percentuale dei transistor difettosi non supera il 5%? Qual è il massimo rischio di prima specie che si può correre nel fare questa affermazione? Soluzione. Indichiamo con p = n d /n la frequenza relativa degli n d transistor difettosi, e impostiamo un test unidirezionale superiore per verificare l ipotesi nulla contro l ipotesi alternativa H 0 : p = p 0 = 0.05 (5 transistor difettosi) H 1 : p = p 1 > 0.05 (più di 5 transistor difettosi).

281 9.8 Problemi risolti 273 Se H 0 è vera, la distribuzione campionaria di p ha media p 0 = 0.05 e deviazione standard p 0 (1 p 0 ) σ p = = , n 100 ed è quindi descritta dalla normale standard Z n = (p 0.05)/ Al livello α = 0.1 la regione di accettazione di H 0 è l intervallo A = (, z 0.9 ) dove z 0.9 è il quantile di ordine 1 α della normale standard, tale che 0.90 = erf(z 0.9 ) erf(z 0.9 ) = 0.4 da cui: z Il valore empirico di Z n vale: z n = 0.01/ = ed appartiene ad A = (, 1.285). Dunque si conclude che al livello α = 0.1 l ipotesi H 0 è da accettare. Il massimo rischio di prima specie α max compatibile con l accettazione di H 0 è definito dalla condizione 1 α max = erf(z n ) = erf(0.4587) = per cui si ricava: α max = Una macchina costruisce anelli che dovrebbero avere un diametro medio di 5 cm, con una tolleranza di 0.2 cm. In un campione scelto a caso di 40 anelli, il diametro medio risulta x = 4.9 cm. Dire se al livello di significatività del 5% la produzione è sotto controllo. Soluzione. Si deve affettuare un test bidirezionale su un campione estratto da una popolazione normale con media µ = 5 cm e deviazione standard σ = 0.2 cm. L ipotesi nulla da verificare è H 0 : µ n = µ 0 = 5 cm, contro una ipotesi alternativa H 1 : µ n 5 cm. Se H 0 è vera, la distribuzione campionaria delle medie è descritta dalla Normale standard Z n = µ n µ 0 = µ n 5 σ n 0.2/ 40. Al livello di significatività α = 0.05, la regione di accettazione di H 0 è l intervallo A = ( z 0.975, z ), dove z è il quantile di ordine (1 α/2) della normale standard e vale z = Il valore empirico di Z n rilevato nel campione è z n = x 5 0.2/ (4.9 5) = e non appartiene all intervallo di accettazione A = ( 1.96, 1.96). Ne segue che al livello α = 0.05 si deve rifiutare l ipotesi nulla µ 0 = 5, concludendo che la produzione non è più sotto controllo.

282 274 TEST PARAMETRICI 9.7. Una ditta costruisce lampadine che dovrebbero avere una vita media di 1600 ore. In un campione di 100 lampadine la vita media risulta x = 1570 ore, con uno scarto quadratico medio s = 120 ore. Controllare l ipotesi nulla H 0 : µ = 1600 ore ai livelli di significatività del 5% e dell 1% rispettivamente. Soluzione. Poiché abbiamo un campione con numerosità sufficientemente elevata, anche se non si conosce il modello statistico della popolazione la distribuzione campionaria delle medie si approssima con una legge Normale con media µ n = 1750 ore e deviazione standard stimata attraverso lo scarto quadratico medio campionario: σ n = Ŝn = 1 n n n n 1 s = ore. 99 In un test bidirezionale per l ipotesi nulla H 0, contro l ipotesi alternativa : H 1 : µ 1600 ore, se H 0 è vera la variabile standardizzata ha regioni di accettazione: Z n = µ n 1600 = µ n 1600 σ n A = ( z 0.975, z ) = ( 1.96, 1.96) al livello α = 0.05 A = ( z 0.995, z ) = ( 2.58, 2.58) al livello α = Il valore empirico di Z n risultante dal campione è z n = x = Al livello di significatività α = 0.05 esso non appartiene ad A = ( 1.96, 1.96) e di conseguenza si rifiuta l ipotesi H 0. Al contrario, al livello α = 0.01 risulta z n A = ( 2.58, 2.58) e si accetta H In un campione di 10 sfere metalliche prodotte da una macchina si calcola il diametro medio di 7 mm, con uno scarto quadratico medio s = 1.2 mm. Verificare, al livello di significatività dell 1%, se il diametro medio di tutta la produzione è di 6.5 mm. Soluzione. Si dispone di un piccolo campione estratto da una popolazione con varianza sconosciuta: occorre perciò supporre che questa abbia modello normale. L ipotesi nulla da verificare è H 0 : µ = µ 0 = 6.5 mm., e quella alternativa è H 1 : µ 6.5 mm. Si usa la statistica T n = µ n µ 0 n ŝ n in cui n 10 ŝ n = s n 1 = mm,

283 9.8 Problemi risolti 275 la quale ha una distribuzione t-student con 9 gradi di libertà, e nell esame del campione assume il valore empirico t n = In un test bidirezionale al livello α = 0.01, l intervallo di accettazione dell ipotesi nulla è A = ( t 0.995, t ) dove t è il quantile di ordine (1 α/2) della distribuzione t-student con 9 gradi di libertà, che vale t = Poiché t n 1.25 A = ( 3.25, 3.25), al livello α = 0.01 si accetta l ipotesi che il diametro medio della popolazione di sfere sia uguale a 6.5 mm Una casa costruttrice di automobili vuole esaminare un dispositivo che, opportunamente applicato, ridurrebbe il consumo di un certo tipo di automobili. A tale scopo, decide di provare tale dispositivo su un campione casuale di 50 automobili che normalmente hanno un consumo medio di 10 litri ogni 100 km. Dall esame del campione risulta che il consumo medio su 100 km è x = 9.5 litri, con uno scarto quadratico medio corretto ŝ = 0.8 litri. Valutare la convenienza effettiva di un tale dispositivo fissando un livello di significatività α = 1%. Soluzione. Si sottopone a verifica l ipotesi nulla H 0 : µ = µ 0 = 10 litri/km, in cui si afferma che il dispositivo non modifica significativamente il consumo normale. L ipotesi alternativa è H 1 : µ < 10 litri/km, che afferma che il consumo con il dispositivo è effettivamente minore del normale. ( Si osservi che il caso µ > 10, ovviamente privo di interesse, è escluso a priori). Poiché il campione è sufficientemente grande, si assume che le medie campionarie siano distribuite normalmente con media µ 0 = 10 (se H 0 è vera) e deviazione standard σ n = ŝ/ n = 0.8/ litri/km. Effettuiamo un test unidirezionale inferiore sulla variabile standardizzata Z n = (µ n µ 0 )/σ n, che dal campione risulta avere un valore empirico z n = Scelto un livello di significatività α = 0.1, usiamo le Tavole per calcolare il quantile di ordine 1 α = 0.99 della Normale standard, che vale z 0.99 = La regione di accettazione di H 0 è l intervallo aperto a destra: A = ( z 1 α, + ) = ( z 0.99, + ) = ( 2.33, + ). Questo intervallo non contiene il valore empirico z n < z Dunque l ipotesi nulla è da rifiutare, e dal test si deduce che il dispositivo riduce il consumo medio La durata media delle lampadine prodotte da una ditta, in un modello con legge normale, è di 1800 ore con uno scarto quadratico medio di 100 ore. Impiegando

284 276 TEST PARAMETRICI un nuovo materiale si pensa che la durata media possa essere accresciuta a 1850 ore. Per provare ciò, si prende un campione di 50 lampadine e si trova che la durata media è di 1830 ore. a) Al livello di significatività dell 1 % (rischio del produttore) valutare se c è stato un reale miglioramento, confrontando l ipotesi nulla H 0 : µ 0 = 1850 (effettivo miglioramento) con l ipotesi alternativa H 1 : µ 1 = 1800 (situazione immutata). b) Calcolare la probabilità β di commettere un errore di seconda specie (rischio del consumatore), cioè di dichiarare una durata media di 1850 ore quando invece è vera l ipotesi alternativa. Soluzione. a) Si deve effettuare un test con ipotesi semplici su una popolazione normale con varianza nota. Poiché in questo test si ha µ 0 > µ 1, la regione di accettazione di H 0 e quella critica sono rispettivamente A = (µ c, + ), C = (, µ c ) con µ c da determinare. Introduciamo la variabile standardizzata che definisce la distribuzione campionaria delle medie. Se H 0 è vera, essa vale Z n = µ n 1850 σ/ n = µ n = µ n Il suo valore critico al livello di significatività α = 0.01 si calcola scrivendo: ( α = 0.01 = IP(µ n < µ c H 0 ) = IP Z n < z c = µ ) c 1850 = erf(z c) e dalle Tavole di erf(z) si ricava: erf(z c ) = 0.49 z c = 2.33 ; µ c = z c Si noti che z c = 2.33 non è altro che il quantile z 0.99 di ordine 1 α della distribuzione Normale standard. Dunque la regione critica è l intervallo aperto a sinistra: C = {z n : < z n < 2.33} = {µ n : < µ n < }. Il valore empirico di µ n rilevato nel campione (al quale corrisponde il valore empirico z n = ( )/ di Z n ) non appartiene alla regione critica. In seguito alle osservazioni sul campione, si deve pertanto accettare l ipotesi nulla, dichiarando che con il nuovo materiale c è un effettivo miglioramento. b) Il rischio di seconda specie β si determina introducendo la variabile standardizzata Z 1 = (µ µ 1 )/ 200 che rappresenta la distribuzione campionaria quando è vera l ipotesi alternativa, e facendo il seguente calcolo: β = IP(µ n µ c H 1 ) = IP ( Z 1 µ c µ ) = IP ( ) Z 1 = 200 = 1 ( ) erf 1 erf(1.21) = = %

285 9.8 Problemi risolti Il consumo di carburante di un modello di scooter, espresso in Km/litro, ha legge normale con varianza nota σ 2 = 6, 25. Da un campione di 36 esemplari prodotti, si ricava una media dei consumi di 24,4 Km/l. Si domanda: a) Al livello di significatività α = 0, 05, si può accettare l ipotesi che il consumo medio del modello è di 25 Km/l, in alternativa all ipotesi che esso sia di 23 Km/l? b) Quale errore si commette nel dichiarare un consumo di 25 Km/l, se è vera l ipotesi alternativa? Soluzione. a) Definita l ipotesi nulla H 0 : µ = µ 0 = 25 e quella alternativa H 1 : µ = µ 1 = 23, si procede ad un test unidirezionale inferiore nel quale la regione critica è C = (, z c ). Determiniamo il valore critico z c e il valore empirico z n della variabile standardizzata Z n la quale, se H 0 è vera, è definita come Z n = µ n µ 0 σ/ n = µ n 25 = 2.4(µ n 25). 6.25/6 Il suo valore empirico è z n = 2.4( ) = 1.44, e il suo valore critico (cambiato di segno) è il quantile di ordine 1 α = 0.95 della distribuzione Normale standard (confronta anche con il precedente Esercizio 10/7). Dunque si ricava: z c = z 1 α = z 0.95 = 1.65 C = (, 1.65) e poiché il dato empirico z n non appartiene alla regione critica ora calcolata, si deduce che l ipotesi nulla deve essere accettata al livello di significatività del 5%. b) Se si usa lo stesso metodo dell Esercizio precedente, per calcolare l errore di seconda specie occorre prima determinare il valore critico µ c della media campionaria: µ c = 25 + z c = σ n e quindi scrivere: ( β = IP(µ n µ c H 1 ) = IP Z 1 µ ) c 23 σ n = 1 ( ) erf erf(3.15) = = dove Z 1 = (µ n µ 1 )/σ n è la variabile standardizzata che rappresenta la distribuzione campionaria quando è vera l ipotesi altermativa. Oppure, con procedura più rapida, si può applicare la formula: β = erf(z 1 α z ) in cui z è la differenza tra le Normali standard associate alla ipotesi nulla e alla ipotesi alternativa, e vale: z = µ n 25 µ n 23 = 2 σ n σ n = 4.8. Si ha così il medesimo risultato: β = erf( ) = 0.5 erf(3.15)

286 278 TEST PARAMETRICI

287 TEST DI IPOTESI NON PARAMETRICHE 10.1 Test sulla legge di distribuzione In gran parte dei test statistici trattati nel Capitolo precedente è stata sfruttata l ipotesi preliminare che il modello statistico della popolazione in esame fosse facilmente identificabile, ed esprimibile mediante leggi probabilistiche note (normale, binomiale, esponenziale,...). Capita spesso che ciò non sia possibile, o per lo meno che la legge di distribuzione F (x) che siamo portati ad attribuire alla popolazione sia da verificare. Questa verifica si effettua con metodi chiamati anche test per la bontà dell adattamento, i più noti dei quali sono il test di Kolmogorov-Smirnov e il test Chi-quadrato, che si impostano come segue. Si abbia in campione X = (X 1, X 2,..., X n ) estratto da una popolazione il cui carattere X ha una funzione di distribuzione incognita F X (x). Per verificare se un modello statistico con assegnata legge F (x) è adatto a descrivere le proprietà probabilistiche del carattere X, si effettua un test per la seguente ipotesi nulla: in alternativa alla ipotesi: H 0 : F X (x) = F (x), x IR (10.1) H 1 : F X (x) F (x) per almeno un x IR. (10.2) In molte applicazioni, non si hanno informazioni sufficienti per individuare completamente la legge F (x) da assumere per il modello statistico, e occorre stimarne simultaneamente uno o più parametri. In tal caso, il test consiste nel verificare l ipotesi nulla composta: H 0 : F X (x) F 0 = {F (x; ϑ), ϑ Θ} (10.1 ) che la distribuzione teorica appartenga a una famiglia F 0 di distribuzioni con legge F, in cui ϑ è il parametro (o l insieme dei parametri) da stimare secondo i metodi esposti nel Capitolo 8. In ogni caso, per procedere nel test occorre disporre di un riassunto campionario adeguato a rappresentare la distribuzione da testare. A tal fine, raggruppati eventualmente i dati (x 1,..., x n ) in m classi k = [a k, b k ) come è stato precisato nel 279

288 280 TEST DI IPOTESI NON PARAMETRICHE 6.2, si determina la frequenza cumulata relativa dei dati del campione, che in questo contesto è anche chiamata funzione di distribuzione empirica e si esprime come: F n (x) = 1 n m n k U(x a k ), x IR (10.3) k=1 dove n k è la frequenza assoluta dei dati appartenenti alla k-esima classe, e U(x a k ) è la funzione a scalino unitario (2.3). Se invece la numerosità del campione non è elevata, per cui non è necessario raggruppare in classi gli n dati x i, la funzione di distribuzione empirica è la funzione a scalino costante 1/n nei punti x i : F n (x) = 1 n U(x x i ), x IR. (10.4) n i=1 Questa funzione di distribuzione empirica si utilizza quindi per costruire le statistiche su cui si effettuano i test che seguono Test di Kolmogorov-Smirnov Questo test si applica quando la funzione F (x) è continua, e per verificare l ipotesi nulla (10.1) usa la statistica: D n = sup F n (x) F (x) (10.5) <x< che rappresenta la massima deviazione della distribuzione empirica dalla ipotetica funzione di distribuzione F (x) che si vuole testare. Per la sua stessa definizione, la statistica D n può assumere solo valori d n [0, 1]. Inoltre, si può dimostrare che nell ipotesi che H 0 sia vera, essa è indipendente dalla forma della funzione F (x). Questo risultato è assai rilevante, perché consente di calcolare una volta per tutte D n e di tabularne i valori al variare della numerosità n del campione. La tabella in Appendice riporta, al crescere di n, alcuni quantili di questa distribuzione statistica. Se H 0 è vera, i valori empirici d n di D n non possono scostarsi troppo da zero per ogni x, per cui al test con livello di significatività α si associa la regione critica: C = (d 1 α, 1], dove d 1 α è il quantile della distribuzione tale che IP(D n d 1 α ) = 1 α. Esiste anche una notevole proprietà asintotica della distribuzione di Kolmogorov- Smirnov, in conseguenza della quale vale una regola chiamata test di Kolmogorov sulla bontà di adattamento, che qui ci limitiamo ad enunciare come segue. Test sulla bontà di adattamento Se n è sufficientemente grande (n 20), l ipotesi nulla (10.1) è da rigettare se il valore empirico della statistica D n soddisfa la diseguaglianza: n dn λ α, (10.6)

289 10.1 Test sulla legge di distribuzione 281 dove λ α soddisfa l identità K(λ α ) = j= ( 1) j e 2j2 λ 2 α = 1 α e vale λ α = per α = 0.05 e λ α = per α = Altrimenti, si deduce che al livello di significatività α i dati del campione si adattano all ipotesi fatta. Nel caso in cui si debba verificare una ipotesi composta del tipo (10.1 ), il test usa una differente statistica e precisamente: ˆD n = sup F n (x) F (x; ˆϑ n ) <x< dove ˆϑ n è la stima di massima verosimiglianza (cfr ) del parametro ϑ della distribuzione. La regione critica del test è però più difficile da determinare, anche se si semplifica la ricerca sfruttando le proprietà asintotiche della nuova statistica da utilizzare. Esempio 10.1 Un dispositivo ha generato n = 20 numeri casuali x i che sono elencati nella seconda colonna della Tabella Si può respingere l ipotesi che essi siano distribuiti con legge normale avente media 2 e varianza 1? Applichiamo il test di Kolmogorov-Smirnov calcolando anzitutto la funzione di distribuzione normale teorica, che per comodità conviene esprimere in funzione della variabile standardizzata z = x 2 riportata nella terza colonna. Usando la formula (2.32) e la Tabella di erf(z) si perviene ai valori di F (z i ) indicati nella quarta colonna. La funzione di distribuzione empirica, espressa dalla (10.4), è n F n (z) = 0.05 U(z z i ). i=1 Nei punti di discontinuità z i essa vale: F + n (z i ) = 0.05 i, e il suo limite sinistro per z z i vale invece F n (z i ) = 0.05 (i 1). E perciò immediato ricavare le differenze F + n (z i ) F (z i ) e F n (z i ) F (z i ) che sono riportate nelle ultime due colonne. Poichè la distanza tra F n (z) e F (z) per ogni z z i è minore di quelle ora determinate nei punti di discontinuità di F n (z), si ricava che il valore empirico della statistica (10.5) vale d n = , perché è il massimo valore assoluto delle differenze calcolate. La Tabella della distribuzione D n in Appendice mostra, alla riga n = 20, che il quantile d 1 α vale per α = 0.20 e aumenta al descescere di α. Dunque, per α = 0.20 la regione critica del test è C = (0.2315, 1] ed ha ampiezza minore se si assumono livelli di significatività minori. Poiché il dato empirico non appartiene a questi intervalli si conclude, con un rischio di prima specie inferiore o uguale ad α = 0.20, che i valori generati hanno effettivamente una distribuzione normale con media 2 e varianza 1.

290 282 TEST DI IPOTESI NON PARAMETRICHE TABELLA 10.1 i x i zi F(z i ) F n + (z i ) - F(z i ) F n -(z i ) - F(z i ) ,36 0,82 0,86 1,04 1,06-1,64-1,18-1,14-0,96-0,94 0,0505 0,1190 0,1271 0,1685 0,1736-0,0005-0,0190 0,0229 0,0315 0,0764-0,0505-0,0690-0,0271-0,0185 0, ,12 1,14 1,44 1,47 1,78-0,88-0,86-0,56-0,53-0,22 0,1894 0,1949 0,2877 0,2981 0,4129 0,1106 0,1551 0,1123 0,1519 0,0871 0,0606 0,1051 0,0623 0,1019 0, ,80 1,90 2,29 2,67 2,73-0,20-0,10 0,29 0,67 0,73 0,4207 0,4602 0,6141 0,7486 0,7673 0,1293 0,1398 0,0359-0,0486-0,0173 0,0793 0,0898-0,0141-0,0986-0, ,75 3,11 3,18 3,24 3,56 0,75 1,11 1,18 1,24 1,56 0,7734 0,8665 0,8810 0,8925 0,9406 0,0266-0,0165 0,0190 0,0575 0,0594-0,0234-0,0665-0,0310 0,0075 0,0094 Si noti che si giunge a conclusioni affini applicando la regola asintotica di Kolmogorov sopra enunciata, anche se ci troviamo ai limiti di applicabilità della stessa (n = 20). Infatti il valore empirico di D n è tale che 20 d n = , e soddisfa la condizione (10.6) almeno per valori di α minori o uguali a Test Chi-quadrato Si tratta di un criterio di verifica di ipotesi del tipo (10.1) e (10.1 ) che è ampiamente usato perché, a differenza del test di Kolmogorov-Smirnov, si applica a qualsiasi tipo di distribuzione, anche non continua, e si avvale di una statistica che si può calcolare più facilmente dell estremo superiore D n definito nella (10.5). Per applicare il test Chi-quadrato è necessario suddividere il supporto della distribuzione F (x) da testare in m intervalli o classi k = [a k, b k ), e per ogni classe valutare le seguenti quantità: 1. la frequenza (assoluta) n k delle osservazioni desunte da un campione di numerosità n, che appartengono all intervallo [a k, b k ); 2. la probabilità teorica p 0 k = IP(X k H 0 ) che il carattere X con distribuzione (ipotetica) F (x) abbia valori in k, nell ipotesi che H 0 sia vera. Se si dispone di una espressione analitica della funzione di distribuzione teorica, ciascuna probabilità p 0 k non è altro che la differenza p0 k = F (a k+1) F (a k ). Tuttavia,

291 10.1 Test sulla legge di distribuzione 283 il test è applicabile anche quando il modello statistico che vogliamo verificare non è riconducibile alle usuali leggi probabilistiche richiamate nel 7.1. L ipotesi nulla è qui individuata completamente dall insieme m-dimensionale p 0 = {p 0 1,..., p0 m} delle probabilità teoriche relative alle m classi, le quali sono soggette all unica condizione: k p0 k = 1 imposta dagli assiomi della Probabilità. Con le quantità sopra definite, costruiamo la statistica T n = m k=1 (n k np 0 k )2 np 0 k (10.7) che svolgendo il quadrato a numeratore si può anche scrivere: m T n = n 2 k np 0 k=1 k m m m 2 n k + n p 0 n 2 k k = np 0 k=1 k=1 k=1 k n, (10.7 ) perché n n m = n (cfr. 6.2). Un apposito Teorema mostra che se l ipotesi nulla (10.1) è vera, quando n la statistica T n tende, indipendentemente da H 0, a una distribuzione Chi-quadrato con (m-1) gradi di libertà. Poiché nell ipotesi H 0 vera il valore atteso della frequenza dei dati nella classe k è E(n k H 0 ) = np 0 k, la statistica (10.7) è una misura (in valore assoluto) della deviazione dei dati osservati dai rispettivi valori medi ipotetici, e il test consiste nella verifica che il valore empirico t n di questa statistica sia sufficientemente piccolo. Per ogni livello di significatività α, esso si effettua individuando come regione critica l intervallo C = (χ 1 α, + ) (10.8) dove χ 1 α è il quantile di ordine (1 α) della distribuzione Chi-quadrato con (m 1) gradi di libertà, e si può cosí enunciare. Test Chi-quadrato per ipotesi H 0 semplici Siano n k le frequenze osservate in un campione di numerosità n, tali da soddisfare le condizioni n 50; n k 5, k = 1,..., m. Allora, al livello di significatività α, se il valore empirico t n della statistica (10.7) soddisfa la condizione: t n χ 1 α, (10.9) l ipotesi nulla (10.1) è rifiutata; altrimenti, H 0 è da ritenere consistente con i risultati sperimentali. E utile considerare alcuni svantaggi e i numerosi vantaggi che comporta l applicazione di questo test. A suo svantaggio, bisogna osservare che raggruppando i dati in classi e lavorando su di queste si perdono informazioni rispetto a quelle che si potrebbero desumere da una analisi più dettagliata del medesimo campione. Inoltre, per le condizioni

292 284 TEST DI IPOTESI NON PARAMETRICHE poste su n e n k occorre disporre di un numero sufficientemente elevato di osservazioni campionarie, le quali devono essare significative per tutte le classi prese in considerazione. Per contro, tra i suoi vantaggi merita sottolineare: la sua universalità: come già accennato, si può applicare anche a distribuzioni discrete, multidimensionali, o non espresse analiticamente da una assegnata funzione F (x). Il test si può effettuare anche per verificare ipotesi sulle proprietà di un generico esperimento casuale, cui si può associare uno spazio campione costituito da m eventi incompatibili A 1,..., A m. Allo scopo, basta valutare le frequenze osservate n k e quelle teoriche p 0 k con cui gli m eventi A k si realizzano. Il test Chi-quadrato è consistente, in senso affine alla definizione già usata nel 6.1 per uno stimatore. Infatti, definito l insieme p p 0 delle probabilità teoriche p = {p 1,..., p m }, k = 1,..., m : p k = IP(X k H 1 ) sotto l ipotesi alternativa che sia vera H 1, si dimostra che per ogni F H 1 la potenza W n (p) del test tende ad 1 per n che tende ad infinito. Nel caso più generale in cui l ipotesi nulla è composta come in (10.1 ), a differenza del test di Kolmogorov-Smirnov non è difficile definire una appropriata regione critica. Vale infatti il seguente ulteriore risultato.

293 10.1 Test sulla legge di distribuzione 285 Test Chi-quadrato per ipotesi H 0 composte Se la distribuzione F (x, ϑ) da testare dipende da un insieme ϑ di r parametri incogniti, allore l ipotesi nulla (10.1 ) è caratterizzata da un insieme p 0 (ϑ) = {p 0 1(ϑ),..., p 0 m(ϑ)} che non è univocamente definito perché dipendente dagli r parametri incogniti. Se però si sostituisce ϑ con una sua stima ˆϑ di massima verosimiglianza, si può definire la statistica modificata: T n ( ˆϑ) m [n k np 0 k = ( ˆϑ)] 2 np 0 k ( ˆϑ) (10.10) k=1 che diventa una funzione dei soli dati campionari, e può essere determinata per ogni realizzazione del campione X. Per determinare ˆϑ, ricordiamo (cfr ) che se r = 1 e ϑ è il valor medio di F, la sua stima di massima verosimiglianza coincide con la media campionaria µ n. Nel caso generale di un insieme di r parametri incogniti da determinare sperimentalmente, si dimostra che la stima di massima verosimiglianza ˆϑ di ϑ = {ϑ 1,..., ϑ r } è la soluzione rispetto a ϑ (se esiste) del sistema: j = 1,..., r : m k=1 n k p 0 k (ϑ) p0 k (ϑ) ϑ j = 0. (10.11) TABELLA 10.2 k [a k, b k ) n k p 0 k k 200p k 0 1 [0,1) 52 0, , [1,3) 81 0, , [3,6) 46 0, , [6, + ) 21 0, ,31091 n 2 Nel 1924 Fisher ha dimostrato che quando n la distribuzione di T n ( ˆϑ) tende alla legge Chi-quadrato con (m 1 r) gradi di libertà, dove r è il numero dei parametri incogniti di F (x, ϑ). Ne segue che la regione di rifiuto dell ipotesi nulla composta (10.1 ) è ancora l intervallo (10.8) in cui però χ 1 α è il quantile della Chi-quadrato con (m 1 r) gradi di libertà, e la regola del test per ipotesi composte si modifica come segue. Siano n k le frequenze osservate in un campione di numerosità n, tali da soddisfare le condizioni n 50; n k 5 k = 1,..., m. Al livello di significatività α, se il

294 286 TEST DI IPOTESI NON PARAMETRICHE valore empirico t n della statistica (10.10) soddisfa la condizione: t n χ 1 α dove χ 1 α è il quantile della distribuzione Chi-quadrato con m 1 r gradi di libertà, allora l ipotesi nulla (10.1 ) è rifiutata; altrimenti, H 0 è da ritenere consistente con i risultati sperimentali. Esempio 10.2 Nell Esempio 9.9 del Capitolo precedente è stato proposto un test sulle medie degli intervalli di tempo tra due controlli di manutenzione di un apparecchiatura di bordo. Vediamo ora se le n = 200 osservazioni campionarie già utilizzate sono compatibili con l ipotesi che il tempo X(ω) intercorso tra due successivi controlli abbia una distribuzione esponenziale con valor medio µ X = 1/λ = 2.5 mesi. L ipotesi nulla è H 0 : F X (x) = 1 exp ( 2 ) 5 x, x IR + e per verificarla applicando il test Chi-quadrato occorre suddividere IR + in m opportuni intervalli, ad esempio: IR + = [0, 1) [1, 3) [3, 6) [6, + ). Supponiamo che dalla serie ordinata dei 200 dati campionari si ricavi per ciascuno dei 4 intervalli le frequenze assolute n k riportate nella terza colonna della Tabella Se H 0 è vera, le probabilità teoriche per ciascuna classe, riportate nella quarta colonna, valgono: ( k = 1,..., 4 : p 0 k = F (a k+1 ) F (a k ) = exp 2 ) ( 5 a k exp 2 ) 5 a k+1 Calcoliamo ora il valore empirico della statistica T n definita nella (10.7 ), sommando le quantità n 2 k /200p0 k riportate nell ultima colonna, e sottraendo n = 200. Si ottiene: t n = Scelto un livello di significatività α = 0.01, la Tabella dei quantili della distribuzione Chi-quadrato mostra che la regione di rifiuto di H 0 è l intervallo: C = (6.25, + ). Poiché t n non vi appartiene, concludiamo che al livello α = 0.01 o inferiori l ipotesi di una distribuzione esponenziale con media 2.5 mesi è consistente con le osservazioni del campione. Supponiamo invece di non assegnare il parametro λ della distribuzione teorica esponenziale con cui intendiamo esprimere le proprietà della variabile X(ω). In tal caso, l ipotesi nulla è composta: H 0 : F X (x) F 0 = {F (x, ϑ) = 1 e ϑx, ϑ IR + }. (10.12) Per valutare ϑ si assume la sua stima di massima verosimiglianza, che coincide con il reciproco della media campionaria già utilizzata nell Esempio 9.9: ˆϑ = 1 µ n =

295 10.1 Test sulla legge di distribuzione 287 Ne segue che se l ipotesi nulla è vera, le probabilità teoriche da calcolare son ora: ( p 0 k( ˆϑ) = exp a ) ( k exp a ) k e per k = 1,..., 4 valgono: p 0 1( ˆϑ) = , p 0 2( ˆϑ) = , p 0 3( ˆϑ) = , p 0 4( ˆϑ) = (Si noti che la loro somma è sempre uguale ad 1, probabilità dell evento certo). 1 F k F(x, = 1 ) 3,4 = 1 2, x 15 Figura 10.1 Il valore empirico della statistica modificata T n ( ˆϑ), fornito dalla (10.10), risulta pertanto: t n = 8.54, mentre la nuova regione di rifiuto di H 0 si valuta determinando il quantile χ 0.90 della distribuzione Chi-quadrato con = 2 gradi di libertà. Si ricava ora: C = (4.61, + ), che contiene il valore empirico t n. Ne segue che al livello di significatività α = 0.10 l ipotesi composta (10.11) non è consistente con i dati campionari aventi media µ n = 3.4 mesi. Osserviamo tuttavia che la stessa ipotesi è da accettare se diminuiamo il livello di significatività del test ad α = 0.01, perché allora la regione di rifiuto diventa C = (9.21, + ) ed esclude il valore empirico sopra determinato. La Fig mostra il confronto tra le due distribuzioni teoriche (quella con media µ X = 2.5 assegnata e quella con media stimata µ n = 3.4), e il grafico delle frequenze cumulate relative F k che si ricavano dalle 200 osservazioni campionarie, raggruppate nelle 4 classi che abbiamo utilizzato. Esempio 10.3 Per controllare i tavoli da gioco di un Casino si registrano giocate di una stessa roulette, manovrata da croupiér diversi e scelti a caso. Dall indagine risulta che il rosso è uscito volte, il nero volte, e per 251 volte è uscito lo zero.

296 288 TEST DI IPOTESI NON PARAMETRICHE Con quale livello di significatività si può affermare che quella roulette non è truccata? Gli eventi da considerare sono tre: A 1 = {esce il rosso}, A 2 = {esce il nero}, A 3 = {esce lo zero}, e assumendo come ipotesi nulla che l uscita di uno tra i 37 numeri, compreso lo zero, sia equiprobabile (ovvero che la roulette non sia truccata), le probabilità teoriche dei tre eventi sono: p 0 1 = IP(A 1 ) = 18 37, p0 2 = IP(A 2 ) = 18 37, p0 3 = IP(A 3 ) = Le frequenze osservate dei tre eventi sono: n 1 = 4.828, n 2 = 4.921, n 3 = 251 e calcolato il valore empirico della statistica (10.7 ) con n = si ottiene: t n = 2, 301. Confrontiamo ora questo valore con i quantili della distribuzione Chi-quadrato con 3 1 = 2 gradi di libertà. Nel test interessa soprattutto limitare il più possibile il rischio di errore di seconda specie, per evitare di concludere che la roulette non è truccata mentre invece lo è. Sarà perciò conveniente usare il massimo rigore, assumendo il maggior rischio possibile di prima specie. Dall esame della Tabella Chi-quadrato risulta che χ 1 α = 1, 39 per α = 0, 5 e χ 1 α = 2, 77 per α = 0, 25. Interpolando linearmente in questo intervallo, si trova che χ 1 α = 2, 31 per 1 α = 0, 5 + 0, 25 2, 31 1, 39 = 0, , 77 1, 39 Dunque, al livello di significatività α = 1 0, 6667 = 0, 3333 la regione critica del test è C = (2.31, + ), e non contiene il valore empirico t n = 2, 301. Si può concludere che la roulette non è truccata al livello di significatività 0, 333, ovvero con circa il 33% di probabilità di rigettare l ipotesi nulla mentre essa è vera. Esempio 10.4: test Chi-quadrato per il modello di Poisson Supponiamo di disporre di n osservazioni indipendenti di una variabile aleatoria X(ω) con valori interi x i = 0, 1, 2,..., e di voler verificare l ipotesi H 0 : F X (x) Π(ϑ) che X abbia una distribuzione di Poisson con parametro da determinare. Suddividiamo l insieme {x i } = IN nelle m classi: k = k 1 per k = 1, 2,... m 1 m = {m 1, m, m + 1, m = 2,...}, e specifichiamo l ipotesi nulla determinando le probabilità p 0 k (ϑ) che otteniamo applicando la (2.52). Esse sono: p 0 k(ϑ) = f X (k 1, ϑ) = e ϑ ϑ k 1, k = 1, 2,..., m 1 (k 1)! p 0 m(ϑ) = f(k, ϑ) = e ϑ ϑ k k!. (10.13) k=m 1 k=m 1

297 10.1 Test sulla legge di distribuzione 289 TABELLA 10.3 numero contravvenzioni x k n i k o piu' k n p ( ) 0,0083 0,0396 0,0949 0,1518 0,1821 0,1747 0,1397 0,0958 0,0574 0,0306 0,0251 n - 104p ( ) k 4,1368 0,8816-1,8696-0,7872-1,9384-2,1688-1,5288-0,9632-0,9696 2,8176 2, k n Poiché il parametro ϑ della distribuzione di Poisson coincide con il suo valore atteso, la sua stima di massima verosimiglianza è uguale alla media campionaria: ˆϑ = µn, per cui nella statistica (10.10) si devono inserire le probabilità p 0 k( ˆϑ) = e µ n µ k 1 n, k = 1, 2,..., m 1 (k 1)! p 0 m( ˆϑ) = e µ µ k m 1 n n k! = 1 p k ( ˆϑ). (10.14) k=m 1 Calcoliamo ora le frequenze assolute n k. Per k = 1,..., m 1, esse sono uguali al numero di osservazioni con valore x i = k 1, mentre n m è data dal numero di osservazioni da cui risulta un valore x i m 1. Siamo ora in grado di calcolare il valore empirico t n della statistica (10.10) e di confrontarlo con la tabella dei quantili della distribuzione Chi-quadrato con m 2 gradi di libertà, rigettando l ipotesi nulla se e solo se t n χ 1 α. Ad esempio, supponiamo di voler verificare se il numero di contravvenzioni giornaliere elevate da un vigile urbano si può ritenere distribuito casualmente con legge di Poisson. Nell esaminare i verbali di n = 104 suoi giorni lavorativi, scegliamo m = 11 e indichiamo con n k, k = 1,..., 10 il numero di giorni in cui ha elevato k 1 contravvenzioni, e con n 11 il numero di giorni in cui ha elevato 10 o più contravvenzioni. Risultano le frequenze riportate nella terza colonna della Tabella 10.3, le quali forniscono un valor medio µ n = k=1 k=1 (k 1)n k = 4, 798 ˆϑ. (10.15) Per tale valore di ˆϑ le probabilità teoriche, nell ipotesi che H 0 sia vera, sono quelle indicate nella quarta colonna. Nell ultima colonna sono infine mostrati i corrispon-

298 290 TEST DI IPOTESI NON PARAMETRICHE denti valori delle differenze n k np 0 k (4, 798). Da questi si ricava il valore empirico t n = 26, della statistica (10.10). Se si assume un ragionevole livello di significatività: α = 0.10, il quantile χ 0.9 della distribuzione Chi-quadrato con 9 gradi di libertà mostra che la regione di rifiuto del test è C = (14.7, + ) e contiene t n. Dunque, al livello α = 0.10 si conclude che l ipotesi di una distribuzione di Poisson del numero di contravvenzioni non è consistente con le risultanze dei verbali esaminati. Esempio 10.5: test Chi-quadrato per il modello normale Supponiamo ora di avere n osservazioni di un carattere X che può assumere qualsiasi valore reale, e di voler verificare l ipotesi H 0 che X(ω) abbia distribuzione Normale generale N (ϑ 1, ϑ 2 ) con media e varianza da determinare. Per procedere in un test Chi-quadrato, occorre definire una partizione opportuna di IR in m intervalli k = [a k, b k ), k = 1,..., m con a 1 =, a 2 = b 1 k = 2,..., m 1 : a k+1 = a k + h, h > 0; b m = + scelti in modo che n 1 = n m = 0. L ipotesi H 0 è allora specificata dalle probabilità [ p 0 1 bk k(ϑ 1, ϑ 2 ) = exp (x ϑ 1) 2 ] dx, k = 1,..., m (10.16) 2πϑ2 2ϑ 2 a k che hanno derivate parziali p 0 [ k 1 bk = (x ϑ 1 ) exp (x ϑ 1) 2 ] dx ϑ 1 ϑ 2 2πϑ2 a k 2ϑ 2 p 0 [ ] k 1 bk = (x ϑ 2 ) 2 exp ϑ 2 2πϑ2 k=1 2ϑ 2 2 a k (x ϑ 1) 2 2ϑ 2 dx p0 k (ϑ) 2ϑ 2. La stima di massima verosimiglianza ˆϑ del parametro bidimensionale ϑ = {ϑ 1, ϑ 2 } è ora da ricercarsi come soluzione del sistema (10.12) che qui si scrive: m [ n k p 0 k=1 k (ϑ) 1 bk ϑ 3/2 (x ϑ 1 ) exp (x ϑ 1) 2 ] dx = 0 2 2π a k 2ϑ 2 { m [ n k 1 bk p 0 k (ϑ) (x ϑ 1 ) 2 exp (x ϑ 1) 2 ] } dx ϑ 2 p 0 2πϑ2 2ϑ k(ϑ) = 0. 2 a k Tenuto conto che k n k = n e dell espressione (10.16) di p 0 k, esso fornisce: [ bk ϑ 1 = 1 x exp (x ϑ 1) 2 ] dx m a k 2ϑ 2 n k n [ bk k=1 exp (x ϑ 1) 2 ] dx 2ϑ 2 a k

299 10.1 Test sulla legge di distribuzione 291 ϑ 2 = 1 n m n k k=1 bk a k [ (x ϑ 1 ) 2 exp (x ϑ 1) 2 ] dx 2ϑ 2 [ bk exp (x ϑ 1) 2 ]. (10.17) dx 2ϑ 2 a k Se l ampiezza h degli intervalli k in cui f k 0 è ragionevolmente piccola, gli integrali nella (10.17) si possono approssimare con i prodotti di h per i rispettivi integrandi calcolati nei valori centrali x k di ciascun intervallo, avendo l avvertenza di definire i valori estremi con x 1 = b 1 e x m = a m. In questo modo si ricavano facilmente le seguenti stime approssimate di massima verosimiglianza: ˆϑ 1 1 n m n k x k, k=1 ˆϑ2 1 n m n k (x k ˆϑ 1 ) 2 (10.18) che si mostrano valide anche se n 1 e n m non sono esattamente nulle, ma soltanto molto minori della numerosità n del campione da cui si traggono le osservazioni. TABELLA 10.4 k=1 k k x k n k z k erf( z k ) p 0 k n - np 0 k k (-, -0.5) [-0.5, 0.5) [0.5, 1.5) [1.5, 2.5) [2.5, 3.5) [3.5, 4.5) [4.5, 5.5) [5.5, 6.5) [6.5, 7.5) [7.5, 8.5) [8.5, 9.5) [9.5, 10.5) [10.5, + ) -0, , ,0955-1,7000-1, ,5134-0,1178 0,2776 0,6732 1,0680 1,4640 1,8590 2,2550-0,5000-0,4820-0,4554-0,4032-0,3186-0,1950-0,0470 0,1103 0,2486 0,3577 0,4280 0,4686 0,4878 0,0180 0,0266 0,0522 0,0846 0,1236 0,1480 0,1573 0,1383 0,1091 0,0703 0,0406 0,0192 0,0122 1,8700 2,2335 0,4288 0,7984 2,1455 1,6080 0,3591 1,3832 2,3464 2,3112 1,7776 3,0033 1,2688 Valutando quindi il parametro incognito bidimensionale con le stime (10.18), è possibile determinare il valore empirico t n della statistica T n definita con la (10.10). Se H 0 è vera ed n è sufficientemente grande, la distribuzione di Tn ha legge Chiquadrato con m 3 gradi di libertà. L ipotesi di una legge normale per il carattere X è allora da accettare, al livello di significatività α, se t n è minore del quantile χ 1 α della distribuzione Chi-quadrato con m 3 gradi di libertà. Per sviluppare un caso numerico concreto, supponiamo ora che le 104 osservazioni con frequenze n k riportate nella Tabella 10.3 dell Esempio precedente siano state estratte da un carattere X definito con continuità su IR, e che con esse si voglia verificare se X è normalmente distribuito.

300 292 TEST DI IPOTESI NON PARAMETRICHE E opportuno definire 11 intervalli k, k = 2,..., 12 di ampiezza h = 1 con valori centrali x k = 0, 1,..., 10, più altri due che si estendono a ±, per un totale di m = 13 intervalli come mostrato nella Tabella Nel caso presente, si deve intendere che le frequenze n k elencate nella quarta colonna sono relative al numero di osservazioni che cadono nell intervallo k. Le stime (10.18) dei due parametri della distribuzione non sono altro che la media già calcolata nella (10.15) e la varianza dei dati osservati, che vale ˆϑ 2 = k=2 n k [k 2 ˆϑ 1 ] 2 = 6, Usando queste stime, si calcolano le probabilità teoriche che per la (10.16) valgono: p 0 k( ˆϑ 1, ˆϑ 2 ) = erf b k ˆϑ 1 ˆϑ2 erf a k ˆϑ 1 ˆϑ2 e si deducono ricavando con la Tabella di erf(z) i due valori richiesti della funzione degli errori. Nella Tabella 10.4 sono riportate: z k = (a k ˆϑ 1 )/ ˆϑ2, erf(z k ), le probabilità p 0 k e le differenze n k np 0 k ( ˆϑ) usate per ottenere il valore empirico della statistica (10.10). Questo valore empirico vale t n = 11, 72. Il quantile χ 0.75 della distribuzione Chi-quadrato con m 3 = 10 gradi di libertà vale 12.5, per cui al livello α = = 0.25 la regione di rifiuto del test è C = (12.5, + ) che non contiene t n. Se ne conclude che assumendo un rischio di prima specie del 25%, l ipotesi che X abbia una distribuzione normale con i parametri sopra stimati è consistente con le frequenze osservate Test di omogeneità Siano X e Y due campioni estratti dalla medesima popolazione in modo indipendente, per esempio in tempi diversi o in condizioni generali diverse. Uno dei problemi più importanti nella Statistica applicata consiste nel verificare se X e Y sono campioni omogenei, nel senso che si possono considerare estratti da una popolazione con proprietà identiche oppure se, al contrario, la sua distribuzione è variata da campione a campione. Problemi di questa natura si incontrano, ad esempio, nel controllo di qualità della produzione, in medicina, nella pianificazione dell assetto del territorio e nelle Scienze economiche. Nella sua formulazione generale, si indicano con F X (t) e F Y (t) le funzioni di distribuzione (incognite) della popolazione da cui sono stati estratti i due campioni, e si effettua un test assumendo le ipotesi: H 0 : F X (t) = F Y (t) t IR H 1 : F X (t) F Y (t) per almeno un t IR. (10.19)

301 10.2 Test di omogeneità 293 In questo paragrafo presenteremo dapprima alcuni test per la verifica di queste ipotesi, concludendo con un test per il caso più generale in cui il numero dei campioni sia maggiore di due Test dei segni Questo test è di facile esecuzione, ma si applica solo quando i due campioni X = (X 1,..., X n ) e Y = (Y 1,..., Y n ) hanno la stessa numerosità. Formate le n coppie (X i, Y i ), indichiamo con n + la frequenza assoluta delle coppie in cui la differenza X i Y i ha segno positivo; con n quella delle coppie in cui X i Y i ha segno negativo; e con n 0 la frequenza delle coppie in cui X i = Y i. Consideriamo quindi la statistica S n = n + n (10.20) effettuata sulle (n n 0 ) coppie in cui X i Y i. Se H 0 è vera, le distribuzioni campionarie di n + ed n sono uguali, e per (n n 0 ) sufficientemente grande (per es. circa maggiore di 10) si approssimano con leggi normali aventi media (n n 0 )/2 e varianza (n n 0 )/4, che si ricavano applicando la (7.21). Di conseguenza, la statistica S n ha anch essa distribuzione normale, con media nulla e varianza σ 2 n = (n n 0 )/2 che è data dalla somma delle varianze di n +, n (si applichi la (3.8) al caso di una differenza di variabili aleatorie). Fissato un livello di significatività α, potremo allora procedere a un test bidirezionale su S n per verificare, con la procedura già esposta nel 8.2, se il suo valore empirico s n è sufficientemente piccolo. Questo test dei segni si effettua definendo la regione critica C = (, σ n z 1 α ) (σ n z 1 α, + ) dove z 1 α è il coefficiente fiduciario della Normale standardizzata per cui erf(z 1 α ) = (1 α)/2. Al livello di significatività α, dovremo dunque accettare H 0, concludendo che i campioni X e Y sono omogenei (vale a dire: la distribuzione della popolazione non è variata), se il valore empirico della statistica S n soddisfa la condizione: n n0 s n < 2 z 1 α. (10.21) E bene osservare che per la verifica dell ipotesi nulla questo test si avvale di una condizione piuttosto debole, ossia che la distribuzione di S n abbia mediana nulla. Questa è certamente una condizione necessaria perché H 0 sia vera, ma non certo sufficiente per affermare che i due campioni provengono da popolazioni ugualmente distribuite per ogni z IR. In questo senso, il test non sfrutta in modo efficiente le informazioni fornite dal campione, e deve essere utilizzato per la sua praticità soltanto nella fase preliminare di uno studio statistico che potrà avere bisogno di approfondimenti. Esempio 10.6

302 294 TEST DI IPOTESI NON PARAMETRICHE Si effettuano in tempi diversi n = 15 osservazioni del medesimo carattere di una popolazione, ricavandone i due seguenti campioni statisticamente indipendenti: X = ( , , , , 2.54, , 1.106, 1.713, 1.074, , , 2.08, 1.148, , ) Y = (0.8939, 2.62, 0.573, , , , , (10.22) 1.459, 1.074, 1.921, 0.273, 1.952, 1.242, , ). Dal confronto delle osservazioni risultanti dai due campioni si può affermare che essi sono stati estratti da popolazioni con la medesima distribuzione? Eseguiamo un test dei segni calcolando le differenze X i Y i. Esse valgono: per cui si ricava: ( , , , , , , , 0.254, 0, , , 0.128, 0.094, 0.592, ) n + = 8, n = 6, n 0 = 1, s n = f (t) Y 0.2 f (t) X t Figura Confronto tra le densità di probabilità teoriche di X e Y. Fissato un livello di significatività α = 0.05, il coefficiente fiduciario che si ricava dalla Tabella di erf(z) vale z 1 α = 1.96, e l ipotesi nulla che F X (t) = F Y (t) è da accettare se s n verifica la condizione 15 1 s n < 1.96 = Poichè il valore empirico calcolato è s n = 2 si deve concludere, accettando un errore di prima specie del 5%, che la popolazione da cui sono stati estratti i due campioni ha la medesima distribuzione. In realtà, per definire i dati di questo Esempio i due campioni sono stati generati da un computer nel modo seguente: X è un campione casuale estratto da una

303 10.2 Test di omogeneità 295 popolazione normale con media 0.8 e varianza 1, mentre Y è stato estratto da una popolazione con legge parabolica (cfr ) nell intervallo [ 1, 3]. Dal confronto tra le due densità teoriche f X (t) e f Y (t), mostrato in Fig. 10.2, risulta evidente la diversità, soprattutto qualitativa, tra le due distribuzioni. Si può però anche sostenere che esse grossolanamente si somigliano, nel senso che concentrano gran parte delle masse di probabilità nello stesso intervallo dell asse reale: e questo è, in definitiva, il responso che è in grado di fornire il test che abbiamo appena effettuato Test dei ranghi Esiste una classe speciale di test, che sono stati proposti per effettuare la statistica su uno o più caratteri qualitativi della popolazione, che sono definibili in termini di una qualche relazione tra le osservazioni effettuate anziché dal loro valore numerico. Essi prendono il nome di test dei ranghi, perché le osservazioni sono ordinate secondo un determinato criterio di preferenza, e la posizione che ciascun dato assume in questa sequenza è chiamata rango della osservazione. Un test sui ranghi può avere per oggetto, come caso particolare, anche campioni di caratteri quantitativi, e quello elaborato da Wilcoxon per verificare l ipotesi di omogeneità (10.19) pur essendo semplice come quello dei segni, ha il vantaggio, rispetto a quest ultimo, di essere applicabile a campioni con differente numerosità. Siano X = (X 1,..., X n ) e Y = (Y 1,..., Y m ) due campioni indipendenti di numerosità n ed m, estratti con le solite modalità da una popolazione. Si procede ordinando in un unica sequenza crescente gli n + m dati provenienti dai due campioni, e si associa a ciascun dato il suo rango, definito dal numero d ordine che esso occupa nella sequenza cosí ordinata. Se alcuni dati si ripetono due o più volte, il loro rango è la media delle posizioni da essi occupate nella sequenza ordinata. Chiamate rispettivamente con S X ed S Y le somme dei ranghi degli elementi X i, Y j dei due campioni, si considera quindi la statistica in cui U X = nm + n(n + 1) 2 U = min{u X, U Y } (10.23) S X, U Y = nm + m(m + 1) 2 S Y. E stato dimostrato da Wilcoxon che se l ipotesi nulla (10.19) è vera, per n, m + la statistica (10.23) tende alla distribuzione normale con media µ U = nm/2 e varianza σu 2 = nm(n + m + 1)/12. Questa sua proprietà asintotica può già essere utilizzata se n, m 4 con n + m 20, e sotto queste condizioni fornisce una buona approssimazione della regione critica per un test bidirezionale sulla corrispondente statistica normalizzata: Z n,m = U nm/2 nm(n + m + 1)/12 (10.23 ) che sotto l ipotesi H 0 vera deve avere media pressoché nulla. Infatti, se z 1 α è il coefficiente fiduciario al livello α della distribuzione Normale standard, la regione

304 296 TEST DI IPOTESI NON PARAMETRICHE critica del test è C = (, z 1 α ) (z 1 α, + ) e di conseguenza l ipotesi nulla è da accettare se il valore empirico z n,m della statistica (10.23 ) soddisfa la condizione: z n,m < z 1 α. Esempio 10.7 Per illustrare una applicazione del test dei ranghi utilizziamo ancora le osservazioni ricavate dai campioni (10.22) dell Esempio precedente, ma per sfruttare l arbitrarietà sulla scelta del numero di osservazioni che possono essere fornite dai due campioni, supponiamo ora che X contenga questi 5 ulteriori dati: 0.92, 1.2, 0.566, 0.422, in modo che la numerosità del campione X diventa n = 20, e quella di Y rimane m = 15. Disponiamo i 35 dati campionari in una sequenza ordinata crescente, che è riprodotta nella Tabella 10.5 insieme con la indicazione del campione da cui i dati provengono e del rango da attribuire a ciascun dato. La somma dei ranghi delle osservazioni fornite dai due campioni è rispettivamente S X = e S Y = (si noti che deve risultare: S X + S Y = nm), da cui si ottiene: U X = e U Y = TABELLA 10.5 dato campione rango dato campione rango dato campione rango -0,5730 Y 1-0,5187 Y 2-0,3928 X 3-0,2092 X 4-0,1413 X 5-0,0836 Y 6 0,1714 X 7 0,2084 X 8 0,2178 Y 9 0,2730 Y 10 0,3239 X 11 0,4220 X 12 0,4507 Y 13 0,5660 X 14 0,5954 Y 15 0,5972 Y 16 0,8863 X 17 0,8939 Y 18 0,9200 X 19 0,9272 X 20 0,9620 X 21 0,9974 X 22 1,0740 X 23,5 1,0740 Y 23,5 1,1060 X 25 1,1480 X 26 1,2000 X 27 1,2420 Y 28 1,4590 Y 29 1,7130 X 30 1,9210 Y 31 1,9520 Y 32 2,0800 X 33 2,5400 X 34 2,6200 Y 35 Se H 0 è vera, la distribuzione della statistica U definita con la (10.23) è approssimabile con una Normale con media µ U = nm/2 = 150 e varianza σu 2 = 900; il suo valore empirico risulta: min{u X, U Y } = 148.5, e ad esso corrisponde un valore empirico z n,m = = 0.05 della variabile standardizzata Z n,m definita nella (10.23 ).

305 10.2 Test di omogeneità 297 Al livello di significatività α = 0.05, il valore assoluto di z n,m è minore del coefficiente fiduciario z 1 α z 0.95 = e di conseguenza, tenuto anche conto che la numerosità dei due campioni è maggiore di 4 con n + m > 20, il test dei ranghi si conclude nell accettare l ipotesi nulla H 0 : F X (t) = F Y (t) Test di Smirnov E una estensione del test di Kolmogorov-Smirnov, esposto nel , per la verifica di ipotesi di omogeneità del tipo (10.19) riguardanti una coppia di funzioni di distribuzione continue F X (t) e F Y (t). Questo test si basa sulla statistica D n,m = sup F n,x (t) F m,y (t) (10.24) <t<+ dove F n,x (t) e F m,y (t) sono le funzioni di distribuzione empiriche (10.4) costruite con due campioni X, Y rispettivamente di numerosità n ed m F (t) n,x F (t) m,y 0.25 F (t) n,x F (t) m,y t Figura Distribuzioni empiriche di X, Y e loro differenza. Al crescere di n, m queste due distribuzioni empiriche sono stime ottime delle corrispondenti funzioni di distribuzione teoriche F X (t), F Y (t) delle popolazioni da cui sono estratti i due campioni. Se l ipotesi nulla (10.19) è vera, ne segue che per n ed m sono sufficientemente grandi la statistica D n,m non si scosta praticamente da zero, ed H 0 è da accettare se il valore empirico d n,m della statistica (10.24) non supera un certo valore limite, prescritto dal livello di significatività scelto. Questo valore limite è fornito da una proprietà asintotica di D n,m analoga a quella della statistica (10.5), e dimostrata da un Teorema dovuto a Smirnov. Da esso si deduce la regola seguente: indipendentemente dalla forma delle funzioni di distribuzione (continue) da confrontare, l ipotesi H 0 di omogeneità è da accettare al

306 298 TEST DI IPOTESI NON PARAMETRICHE livello di significatività α se, per n, m sufficientemente grandi è verificata la condizione: n + m d n,m < nm λ α (10.25) dove λ α è il coefficiente fiduciario già utilizzato per il test di Kolmogorov del Esempio 10.8 Eseguiamo il test di omogeneità di Smirnov sui due campioni X e Y già utilizzati nell Esempio precedente Le distribuzioni empiriche dei due campioni sono le funzioni definite nella (10.4) con t al posto di x: sono funzioni a scalino costante (rispettivamente uguale a 1/20 e 1/15) nei punti x i ed y i che si leggono nelle prime colonne della Tabella Il loro grafico, insieme con quello delle differenze F n,x (t) F m,y (t), è riportato nella Fig Il massimo di queste differenze vale d n,m = , e poiché al livello di significatività α = 0.05 si ha λ α = (cfr ), risulta: 35 d n,m = < = La condizione (10.25) è dunque soddisfatta, per cui anche con questo test l ipotesi nulla sulla omogeneità dei due campioni è da accettare al livello prescritto Test Chi-quadrato di omogeneità per più campioni Questo metodo è assai generale, perché si può usare per verificare l omogeneità di un numero finito qualsiasi M di campioni, estratti da una popolazione il cui carattere X può assumere valori reali sia discreti che continui. Se X(ω) è una variabile aleatoria discreta, indichiamo con x k, k = 1,..., m i suoi m valori che possono essere registrati nelle osservazioni campionarie; se X(ω) è continua e il numero delle osservazioni è molto elevato, suddividiamo come di consueto in m classi k l insieme IR delle sue modalità, e chiamiamo con k-esima realizzazione di X(ω) la generica osservazione campionaria che cade nella classe k. Supponiamo ora di avere a disposizione un numero M di campioni X j, j = 1,..., M estratti con procedure statisticamente indipendenti dalla medesima popolazione, ciascuno con numerosità differente, che indichiamo con n j. Analizzando questi campioni, determiniamo la frequenza assoluta n kj della k-esima realizzazione nel j-esimo campione, in modo che, sommando su tutte le osservazioni di ogni singolo campione, si avrà tra l altro: m j = 1,..., N : n kj = n j = numerosità del campione X j, k=1 e sommando anche rispetto ai vari campioni risulta: M m M n kj = n j = N = numero totale delle osservazioni. j=1 k=1 j=1

307 10.2 Test di omogeneità 299 Poichè si vuole verificare l ipotesi H 0 che tutte le osservazioni siano state tratte dalla medesima popolazione, questa ipotesi si precisa ora imponendo che j = 1,..., M : 1 n j (n 1j,..., n mj ) = (p 0 1,..., p 0 m) = p 0, ossia che le frequenze relative di ogni k-esima realizzazione siano uguali in tutti i campioni, e definite da un valore comune (ma per ora incognito) p 0 k il quale forma un insieme di probabilità p 0 tale che p p0 m = 1. Seguendo il metodo Chi-quadrato, come misura delle deviazioni esistenti tra le osservazioni campionarie e i loro valori teorici assumiamo la seguente statistica: T N (p 0 ) = M m j=1 k=1 (n kj n j p 0 k )2 n j p 0. (10.26) k Se non si assume nessun modello statistico per la popolazione, le probabilità teoriche da cui questa statistica dipende devono essere stimate con il metodo di massima verosimiglianza, sulla base di tutte le informazioni fornite dai campioni in nostro possesso. Questa stima fornisce il seguente risultato: k = 1,..., m : ˆp 0 k = n k N = 1 N M n kj j=1 dove n k è il numero totale delle osservazioni del dato x k che risultano negli M campioni. Usando queste stime si può ora calcolare la statistica M m T N (ˆp 0 (n kj n j n k /N) 2 M m n 2 ) = N = N kj 1 (10.26 ) n j=1 k=1 j n k n j=1 k=1 j n k e verificare se il suo valore empirico ˆt N cade nella regione critica del test. Questa regione critica è ancora definita dalla (10.8), ma con χ 1 α che ora è il quantile di ordine (1 α) della distribuzione Chi-quadrato con (m 1)(M 1) gradi di libertà, e la regola di accettazione dell ipotesi nulla sulla omogeneità dei campioni consiste nel verificare che la statistica (10.25 ) soddisfi la condizione: ˆt N < χ 1 α con (m 1)(M 1) gradi di libertà. (10.27) Ricordiamo che la statistica (10.26 ) è utilizzabile se non è stato scelto un modello statistico teorico per la popolazione da studiare. Se invece questo modello si presuppone noto, allora l ipotesi nulla sarà specificata da probabilità del tipo p 0 k (ϑ), dove ϑ è un insieme di r parametri incogniti del modello adottato. Per ricavare le stime di questi parametri incogniti, occorrerà considerare l insieme di tutti i dati come un unico campione con frequenze assolute n k, k = 1,..., m e su di esso determinare la stima di massima verosimiglianza ˆϑ. Una volta note, queste stime consentono di

308 300 TEST DI IPOTESI NON PARAMETRICHE determinare le probabilità p 0 k ( ˆϑ) che a loro volta, sostituite nella (10.26), forniscono la statistica: T N [p 0 ( ˆϑ)] M m [n kj n j p 0 k = ( ˆϑ)] 2 n j p 0 k ( ˆϑ). (10.28) j=1 k=1 In tal caso, per accettare l ipotesi nulla è richiesto che il valore empirico della (10.27) sia minore del quantile della distribuzione Chi-quadrato con (m 1)M r gradi di libertà, dove r è il numero dei parametri incogniti nella distribuzione teorica. Un caso speciale di notevole rilevanza per le applicazioni sia ha quando m = 2, ed è relativo a problemi in cui il carattere della popolazione ha due sole modalità (vero/falso, in/out,...) rappresentabili, in generale, da due eventi A e B = Ω\A incompatibili ed esaustivi dello spazio campione Ω. L ipotesi nulla sulla omogeneità di M campioni estratti da questa popolazione consiste in tal caso nella affermazione (da verificare) che l evento A abbia la medesima probabilità di realizzarsi in tutti gli M campioni. Indichiamo per semplicità di scrittura con p A questa probabilità teorica. Se H 0 è vera, la sua stima si effettua calcolando la frequenza relativa dell evento A nell insieme degli N dati forniti da tutti i campioni, e vale ˆp A = 1 N M j=1 n Aj = n A N dove abbiamo indicato con n Aj il numero di realizzazioni da A nel j-esimo campione, e con n A il numero totale di realizzazioni da A. La probabilità teorica dell evento B sarà di conseguenza ˆp B = 1 ˆp A = 1 n A N, mentre, per gli assiomi della probabilità, il numero n Bj di realizzazioni di B nei singoli campioni sarà tale che M M M n Aj + n Bj = n j, j = 1,..., M ; n A + n B = n Aj + n Bj = n j = N. j=1 j=1 j=1 Inserendo allora ˆp 0 1 = ˆp A e ˆp 0 2 = ˆp B nella (10.26), dopo alcuni calcoli si ricava una espressione assai comoda della statistica da usare in questo speciale problema. Essa si può scrivere: N T N (n A ) = N M n 2 Aj n A (10.29) N n A n A n j e per calcolare il suo valore empirico occorre semplicemente inserirvi il numero delle realizzioni di A rilevate nei singoli campioni. Per la condizione (10.27), l ipotesi sulla omogeneità dei campioni sarà da accettare se questo valore empirico è minore del quantile della distribuzione Chi-quadrato con M 1 gradi di libertà. Esempio 10.9 j=1

309 10.2 Test di omogeneità 301 Si vuole studiare l omogeneità di M = 4 campioni estratti in tempi diversi da una popolazione il cui carattere ha m = 21 modalità possibili, che si conviene di indicare progressivamente con gli interi k = 1,..., 21. Numeriamo i campioni j = 1,..., 4 in ordine cronologico, e riportiamo le frequenze assolute delle realizzazioni rilevate nei vari campioni come indicato nella Tabella Se calcoliamo le loro somme in orizzontale rispetto ai quattro campioni, otteniamo le frequenze totali n k della realizzazione k, indicate nella quinta colonna della stessa Tabella; e se le sommiamo in verticale rispetto all indice k, ricaviamo le numerosità n j dei singoli campioni che sono riportate nell ultima riga. Ne risulta un numero totale di N = 506 osservazioni. Se è vera l ipotesi H 0 che i quattro campioni sono stati estratti dalla stessa popolazione, le probabilità teoriche di ciascuna realizzazione sono date da ˆp 0 k = n k/506, e sono riportate nell ultima colonna. Per verificare questa ipotesi, calcoliamo il valore empirico della statistica (10.26 ) con i dati della Tabella, e confrontiamolo con i quantili della distribuzione Chi-quadrato con 20 3 = 60 gradi di libertà. Si ricava: ˆt 506 = , che è maggiore dei quantili della distribuzione Chi-quadrato con ν = 60 riportati in Appendice. Dunque non è soddisfatta la condizione (10.27), e concludiamo che i quattro campioni non sono omogenei, ossia che la popolazione da cui sono stati estratti ha modificato la sua distribuzione probabilistica. In effetti, si può notare dalla Tabella 10.6 che in ciascun campione le frequenze delle osservazioni non variano con la stessa legge al crescere di k, e ciò vale soprattutto per il campione j = 4 che mostra frequenze più elevate per grandi valori di k. Per convalidare questa osservazione, rifacciamo il test escludendo quest ultimo campione, vale a dire analizzando le 362 osservazioni risultanti dai primi tre. Il valore empirico della statistica (10.26 ) risulta allora: ˆt 362 = ed è minore del quantile χ = 66.8 della distribuzione Chi-quadrato con 2 20 = 40 gradi di libertà. Ciò significa che, almeno al livello di significatività α = 0.005, è da accettare l ipotesi nulla di omogeneità dei primi tre campioni, e con lo stesso rischio di prima specie si deve concludere che la popolazione ha modificato la sua distribuzione teorica dopo l estrazione del terzo campione e prima dell estrazione del quarto. Esempio Per effettuare un controllo di qualità nella produzione di un determinato oggetto, si esaminano quattro campioni indipendenti, estratti a caso dalla popolazione degli oggetti prodotti quotidianamente. Le numerosità dei campioni sono: n 1 = 119, n 2 = 113, n 3 = 93, n 4 = 147. (10.30 ) Indicato con A l evento: produzione di un esemplare difettoso, si rilevano le frequenze assolute n Aj, j = 1,..., 4 degli elementi difettosi in ciascun campione. Esse sono: n A1 = 7, n A2 = 13, n A3 = 5, n A4 = 15. (10.30 ) Si vuole effettuare un test di omogeneità sui campioni, per verificare se è variata in modo apprezzabile la probabilità di produzione di oggetti difettosi.

310 302 TEST DI IPOTESI NON PARAMETRICHE TABELLA 10.6 k n k1 n k2 n k3 n k4 n k p 0 k ,0356 0,0810 0,0949 0,0909 0,0751 0,1107 0,0395 0,0435 0,0731 0,0435 0,0178 0,0534 0,0573 0,0474 0,0395 0,0178 0,0277 0,0099 0,0198 0,0099 0,0119 n = N = 506 1,0000 j Il numero totale degli oggetti difettosi osservati è n A = 40, e il numero totale degli oggetti osservati è N = 492. Assumiamo l ipotesi nulla H 0 che la frequenza relativa degli elementi difettosi sia inalterata: essa è descritta da una probabilità teorica ˆp A = 40/492 = , e da una probabilità di elementi non difettosi che vale 1 ˆp A = Per procedere al test Chi-quadrato di omogeneità è sufficiente usare le (??), che introdotte nella statistica (10.29) forniscono il valore empirico: ˆt 492 = Al livello di significatività α = 0.10, il quantile χ 0.9 della distribuzione Chi-quadrato con 1 3 = 3 gradi di libertà vale 6.25, ed è maggiore di ˆt 492. Dunque, con un rischio di prima specie del 10% si deve accettare H 0, concludendo che la percentuale di prodotti difettosi è rimasta invariata.

311 10.3 Test di indipendenza Test di indipendenza Nelle applicazioni si pone di frequente il problema di verificare se due caratteri X, Y di una popolazione sono statisticamente indipendenti. Supponiamo che i due caratteri siano stati osservati in modo da disporre di un campione casuale bidimensionale (X 1, Y 1 ),..., (X n, Y n ) di numerosità n. Ricordando la definizione di variabili causali indipendenti data nel 3.1.3, un test di indipendenza deve consistere nella verifica della ipotesi nulla: H 0 : F XY (x, y) = F X (x)f Y (y) (10.30) dove F X,Y è la funzione di distribuzione congiunta della dei caratteri aleatori (X,Y), ed F X (x), F Y (y) sono le rispettive distribuzioni marginali. Il test più usato per compiere tale verifica si basa sul metodo Chi-quadrato già applicato nei paragrafi precedenti, e si sviluppa come segue Test Chi-quadrato di indipendenza Il metodo si applica a generici modelli discreti con un numero finito di realizzazioni. Ciò significa che i caratteri X e Y possono avere modalità rappresentabili con: variabili casuali discrete, che assumono rispettivamente valori (X 1, X 2,..., X mx ) e (Y 1, Y 2,..., Y my ), oppure: variabili aleatorie continue, in cui il supporto di X (anche l intero asse reale) sia preventivamente suddiviso in m X intervalli o classi (X) h, h = 1,..., m X e quello di Y in m Y intervalli (Y ) k, k = 1,..., m Y. Indichiamo con n hk il numero delle coppie osservate in cui (X i, Y i ) : X i (X) h, Y i (Y ) k aventi cioè dati che sono contenuti nel rettangolo (X) h (Y ) k. Queste frequenze assolute sono tali che: m X n hk = n k ; h=1 m Y n hk = n h ; k=1 m X m Y n hk = n h=1 k=1 dove le n h (e rispettivamente le n k ) sono frequenze assolute marginali, uguali al numero delle coppie aventi un dato X i che appartiene all intervallo (X) h (oppure un dato Y i che appartiene all intervallo (Y ) k ). Se l ipotesi nulla (10.30) è vera, esistono certamente m X + m Y costanti p 0 h, p0 k [0, 1] tali che p 0 hk = IP[(X (X) h ) (Y (Y ) k )] = p 0 h p 0 k, h = 1,..., m X, k = 1,..., m Y,

312 304 TEST DI IPOTESI NON PARAMETRICHE e la loro stima di massima verosimiglianza, per ogni indice h, k è: ˆp 0 h = n h n, ˆp0 k = n k n. Dunque se H 0 è vera, ricordando che il rapporto n hk /n è la frequenza relativa congiunta delle osservazioni che cadono nel rettangolo X h Y k, si deduce che le differenze: n hk n ˆp0 h ˆp 0 k = 1 ( n hk n ) hn k n n dovrebbero essere sufficientemente piccole in valore assoluto. Seguendo il metodo Chi-quadrato si considera perciò la statistica m T n (ˆp 0 X m Y (n hk n h n k /n) 2 ( mx m Y n 2 ) hk ) = n = n 1 (10.31) n h n k n h n k h=1 k=1 h=1 k=1 che per n hk sufficientemente grandi ha una distribuzione Chi-quadrato con (m X m Y 1 r) gradi di libertà, dove r è il numero dei parametri indipendenti da stimare nella ipotesi che H 0 sia vera. Gli (m X + m Y ) parametri p 0 h, p0 k appena stimati sono legati, per il primo assioma delle probabilità, dalle due condizioni: m X p 0 h = p 0 k = 1, h=1 m Y k=1 per cui solo r = m X +m Y 2 sono indipendenti, e i gradi di libertà della distribuzione di T n (p 0 ) risultano: m X m Y 1 (m X + m Y 2) = (m X 1)(m Y 1). La regola del test è pertanto la seguente. Al livello di significatività α, l ipotesi nulla (10.30) è da rifiutare se e solo se il valore empirico t n della statistica (10.31) soddisfa, per n hk sufficientemente grandi (> 5 circa per ogni h, k), la condizione: t n χ 1 α dove χ 1 α è il quantile della distribuzione Chi-quadrato con (m X 1)(m Y 1) gradi di libertà. Esempio Una casa automobilistica vuole verificare se il colore della carrozzeria scelto dagli acquirenti delle proprie vetture a benzina è statisticamente indipendente dal particolare tipo di modello acquistato. Indichiamo con X il carattere: modello di autovettura, e suddividiamo l intera produzione in m X = 5 classi, comprendenti nell ordine i modelli del segmento 1 : utilitario; 2 : medio-basso; 3 : medio; 4 : medio-alto; 5 : alto. Indichiamo poi con Y il carattere colore della carrozzeria che raggruppiamo in m Y = 6 classi: 1 : blu; 2 : grigio; 3 : nero; 4 : verde; 5 : rosso; 6 : giallo e altri.

313 10.3 Test di indipendenza 305 TABELLA 10.7 modello h blu grigio nero verde rosso giallo etc. k = n h utilitario medio-basso medio medio-alto alto n k= n = 788 Da un indagine sulle vendite effettuate da alcuni concessionari in un determinato periodo dell anno risulta un campione di n = 788 coppie di osservazioni, le cui frequenze congiunte sono riassumibili con una tabella di contingenza a due entrate che ha l aspetto della Tabella Essa contiene tutti gli elementi necessari per calcolare il valore empirico della statistica (10.31) che risulta: t n = Secondo la regola del test Chi-quadrato, questo valore è da confrontare con i quantili della distribuzione con 4 5 = 20 gradi di libertà riportati nella Tabella in Appendice. Si riconosce facilmente che t n > χ 1 α per qualsiasi livello di significatività α, per cui si deve concludere che l ipotesi di indipendenza statistica tra i due caratteri non è consistente con i dati osservati. L unico svantaggio di questo test di indipendenza consiste nel fatto che necessita di campioni bidimensionali con numerosità elevata, in grado di produrre frequenze congiunte n hk per lo meno maggiori o uguali a 5 per ogni indice h e k delle classi utilizzate. Se non è disponibile un campione di questa natura, nemmeno modificando la scelta delle classi (X) h e (Y ) k, ci si deve accontentare di un altro tipo di test dei ranghi: quello sul coefficiente di correlazione di Spearman che però fornisce soltanto una condizione necessaria, ma non sufficiente, per l indipendenza della coppia (X, Y ) Test di Spearman Il coefficiente di correlazione dei ranghi di Spearman, che indicheremo con R S, è una semplificazione dell analogo coefficiente R n di correlazione lineare di Pearson definito nella (9.31), che è stato usato nel Capitolo 9 per effettuare un test parametrico sulla incorrelazione dei caratteri X, Y da cui si estrae un campione bidimensionale (X k, Y k ) di numerosità n. Il test che si basa su questo nuovo coefficiente non è però considerato un test parametrico, perché utilizza non già i valori effettivi X k, Y k dei dati del campione, bensì più

314 306 TEST DI IPOTESI NON PARAMETRICHE semplicemente i loro ranghi, ossia la posizione che ciascun dato viene ad occupare in una delle due sequenze ordinate di tutte le osservazioni X k e di tutte le osservazioni Y k (cfr. anche ). Se indichiamo con d k = rango(x k ) rango(y k ), k = 1,..., n la differenza tra i ranghi occupati dai due elementi di ciascuna coppia di osservazioni, il coefficiente di correlazione di Spearman è la statistica R S = 1 6 n(n 2 1) n d k, ed ha anch esso la proprietà 1 R S 1. Precisamente, ha valori prossimi a +1 se valori elevati di X k sono accoppiati a valori elevati di Y k ; e ha valori prossimi a 1 se gli X k più grandi si accoppiano agli Y k più piccoli. Inoltre, sotto l ipotesi H 0 che i due caratteri siano incorrelati, si dimostra che il valor medio di R S è nullo, e per n 10 circa la distribuzione della statistica k=1 T S = R S n 2 1 R 2 S (10.32) è approssimabile con una t-student con n 2 gradi di libertà. Ne deriva una regola di accettazione della ipotesi di incorrelazione che è del tutto analoga a quella utilizzata nel test parametrico del 9.4.3, ma che ora si riferisce al valore empirico t S della statistica sui ranghi (10.32) che si calcola molto più facilmente della (9.23). Se risulta: t S > t 1 α/2, (10.33) si deve rifiutare l ipotesi di incorrelazione, il che implica anche che è da rifiutare l ipotesi (più restrittiva) di indipendenza dei caratteri X ed Y. Se invece la condizione (10.33) non è verificata, si deve accettare l ipotesi nulla sulla incorrelazione (nel senso di Spearman) dei due caratteri. Tuttavia, ciò non significa che si possa accettare anche l ipotesi (10.30) che essi siano statisticamente indipendenti: per giungere a una conclusione in tal senso occorre una ulteriore verifica che dovrà essere fatta con il precedente test Chi-quadrato. Esempio Per illustrare una semplice applicazione del test dei ranghi di Spearman riconsideriamo il campione con numerosità n = 10 utilizzato nell Esempio 6.3 per effettuare una regressione quadratica del carattere Y su un carattere X della stessa popolazione. Numerate in ordine crescente con l indice k = 1,..., 10 le dieci coppie di dati, determiniamo il posto occupato da ciascun X k nella sequenza ordinata di tutte le osservazioni del carattere X, e operiamo nello stesso modo per ricavare il rango delle

315 10.4 Test sulla casualità di un campione 307 TABELLA 10.8 k = X k Y k rango(x ) k rango(y ) k 5 1,5 3 1, d k - 4 0,5 0 2, Y k. Risultano i ranghi indicati nella Tabella 10.8 e le differenze d k che sono riportate nell ultima riga. Si ricava facilmente: 10 k=1 d k = 23.5 ; r S = = ; 8 t S = (0.8575) 2 = Il valore empirico t S cosí calcolato è maggiore dei quantili della distribuzione t- Student con n 2 = 8 gradi di libertà, che sono riportati nella Tabella in Appendice. Poichè è soddisfatta la condizione (10.33), il test di Spearman porta a rifiutare l ipotesi che i due caratteri siano incorrelati. Di conseguenza, si può anche affermare che l ipotesi di indipendenza tra X ed Y non è compatibile con i dati osservati Test sulla casualità di un campione Concludiamo la rassegna dei test non parametrici esaminando i metodi atti a verificare se i dati campionari in nostro possesso costituiscano effettivamente un insieme di informazioni statisticamente indipendenti. I metodi statistici esposti in questo e nei precedenti Capitoli si basano tutti sul presupposto che i campioni di cui disponiamo siano casualmente estratti da una popolazione che mantiene uguali le proprietà probabilistiche dei suoi caratteri durante tutte le estrazioni effettuate per la raccolta delle osservazioni. Se un campione è veramente casuale, non ha alcuna importanza l ordine temporale con cui è stata raccolta la sequenza di osservazioni campionarie. Se però i dati di un campione X = (X 1,..., X n ) costituiscono una sequenza temporale, e sono stati raccolti in un arco di tempo ragionevolmente esteso, può esserci motivo di ritenere che la sequenza delle osservazioni fatte non si comporti più come

316 308 TEST DI IPOTESI NON PARAMETRICHE un insieme di n osservazioni statisticamente indipendenti, perché la popolazione può aver subito modificazioni o fluttuazioni in qualche suo carattere, tali da compromettere la casualità delle osservazioni fatte. Ad esempio, nel rilevamento del numero giornaliero di incidenti stradali in un tratto di strada statale ci si può attendere una periodicità di sette giorni dovuta alla diversa entità del traffico nei vari giorni della settimana; i prezzi di molti prodotti stagionali variano con regolarità durante l anno, con la conseguenza che una statistica sui prezzi mensili mostrerà variazioni periodiche ogni 12 osservazioni; e ancora: nel campionamento di certe variabili economiche, effettuato con rilevamenti quotidiani, ci si può attendere che molte di esse abbiano valori correlati in base all andamento giornaliero del mercato azionario. Prima di effettuare tests statistici basati su osservazioni temporali di questo tipo, occorre verificare che il campione X sia effettivamente casuale. Pe la definizione di indipendenza statistica tra n variabili aleatorie X k, l insieme X è casuale se la sua funzione di distribuzione è il prodotto delle distribuzioni marginali, ossia F X (x 1,..., x n ) = F X1 (x 1 )F X2 (x 2 ) F Xn (x n ). (10.34) E assai arduo definire in modo completo una statistica che consenta di verificare, con un prescritto livello di significatività, se è valida l ipotesi (10.34). Ci si può però accontentare di costruire tests di facile uso, che si basano sull ordine temporale in cui ciascun elemento del campione si realizza nelle ripetute osservazioni Test di correlazione seriale La (10.34) implica che sia anche statisticamente indipendente qualsiasi sottoinsieme di ν = 2, 3,..., n 1 elementi di X, e in particolare ciascuna coppia di dati contigui (X k, X k+1 ) con k = 1,..., n 1. Ne segue che un test sulla correlazione tra gli elementi di queste coppie può risultare efficace nella individuazione di quei campioni che non sono estratti casualmente dalla popolazione in esame. Consideriamo dunque tutte le (n 1) coppie (X k, X k+1 ) di osservazioni contigue del campione, alle quali aggiungiamo la coppia (X n, X 1 ) e definiamo la statistica R X = n k=1 (X k X)(X k+1 X) ns 2 X (10.35) chiamata coefficiente di correlazione circolare della serie temporale (X 1,..., X n ), avente media aritmetica X e varianza S 2 X. Il test non parametrico in questione si basa sul principio che se il campione è casuale, tutte le n! possibili permutazioni degli elementi della serie sono equiprobabili. E poiché solo il numeratore dei termini a secondo membro nella (10.35) sono influenzati da permutazioni dei dati, è sufficiente studiare la distribuzione della statistica R X = n (X k X)(X k+1 X). (10.36) k=1

317 10.4 Test sulla casualità di un campione 309 Riguardo a quest ultima, si può dimostrare che se il campione X è estratto casualmente da una popolazione con distribuzione dotata di momenti finiti del primo e secondo ordine, allora R X ha una distribuzione che per n tende a una Normale con valore atteso e varianza dove: E{ R X } = S 2 n 1, σ2 { R X } = S2 2 S 4 n 1 S q = (X 1 X) q + (X 2 X) q (X n X) q, q = 2, 4. Se dunque usiamo la variabile standardizzata Z X = R X E{ R X } σ{ R, (10.37) X } questa dovrà assumere valori assoluti prossimi a zero, se è vera l ipotesi H 0 di casualità di un campione con numerosità elevata (almeno n = 10 circa). La regola di questo test sulla casualità del campione è pertanto la seguente: il campione esaminato non può considerarsi casuale, al livello di significatività α, se la realizzazione z X della statistica normalizzata (10.37) soddisfa la condizione z X > z 1 α/2 dove z 1 α/2 è il quantile della distribuzione normale standard che esclude una coda di probabilità α/2, ossia tale che: 2erf(z 1 α/2 ) = 1 α. Esempio Per 15 giorni consecutivi si rileva il numero dei passeggeri di nazionalità italiana che utilizzano un certo volo di linea. Ne risulta il seguente campione: Si vuole verificare, al livello di significatività α = 0.05, se si tratta di un campione estratto casualmente dalla popolazione dei passeggeri di quel volo. La media aritmetica dei 15 valori osservati è X = 17.6 e il valore empirico della statistica (10.36) vale R X = ( )( ) ( )( ) = Per determinare il valore atteso e la varianza della distribuzione della statistica R X calcoliamo ora le quantità S 2, S 4 che risultano: S 2 = ( ) 2 + ( ) ( ) 2 = S 4 = ( ) 4 + ( ) ( ) 4 = da cui E{ R X } = = , σ 2 { R X } = (165.73) =

318 310 TEST DI IPOTESI NON PARAMETRICHE Il valore empirico di Z X è pertanto z X = = , da confrontare con il quantile z = 1.96 della normale standard. Poiché z X = < 1.96, si deduce che z X cade nella regione di accettazione del test, e si conclude che il campione è effettivamente casuale. Si osservi che l ordine in cui le osservazioni si dispongono nel campione è essenziale in questo test. Infatti, supponiamo che gli stessi dati siano disposti nel campione con questa diversa sequenza temporale: Poiché la media aritmetica non cambia, sono pure invariate le quantità S 2, S 4 e quindi anche il valor medio e la varianza della statistica R X. Tuttavia il suo valore empirico è ora 71.73, e quello della statistica standardizzata vale z R = 2.04 > Dunque, al medesimo livello di significatività risulta che il secondo campione non si può considerare casuale. In effetti, vi si può riconoscere una certa periodicità settimanale dei dati con valore elevato, che compromette la casualità del campione e lo rende inutilizzabile se, ad esempio, si vuole studiare statisticamente la relazione tra il numero di passeggeri e qualche altro carattere della stessa popolazione che non sia influenzato dal particolare giorno della settimana in cui è stato effettuato il volo Run test Se le modalità del carattere X sono soltanto due, ogni estrazione consiste nella realizzazione di uno tra due eventi dicotomici che indicheremo con A, B e il campione che ne risulta è una successione del tipo: AABBAABBBABBBAAAABBB... (10.38) In tale campione, è chiamata run (malamente traducibile in italiano con il termine pacchetto ) ogni successione di eventi identici, compresa tra due eventi ad essi incompatibili oppure insiemi vuoti. Per esempio, nel campione (10.38) ci sono 8 runs, perché le n = 20 realizzazioni si presentano suddivise in 4 pacchetti di eventi A e 4 pacchetti di eventi B. In tali campioni, un indicatore dell ordine con cui A oppure B compaiono nella sequenza di n osservazioni è costituito dal numero totale U di runs presenti nel campione. Ad esempio, un campione di numerosità n = 20 con 10 realizzazioni di A e 10 realizzazioni di B può avere un numero minimo di 2 runs (formati di pacchetti di 10 eventi uguali e contigui), e un massimo di 20 runs (se A e B si alternano). Poiché in entrambi i casi si è indotti a ritenere che le estrazioni effettuate non siano statisticamente indipendenti, il campione si potrà considerare casuale solo se il numero di runs in esso contenuti è assai diverso da questi due valori estremi. Usiamo dunque la statistica U (anziché la (10.36)) per effettuare un semplice test sulla casualità di un campione di n osservazioni di un carattere dicotomico. Se esso

319 10.4 Test sulla casualità di un campione 311 contiene n A realizzazioni dell evento A e n B dell evento B, si può dimostrare che al crescere di n A ed n B la distribuzione campionaria di U è ben approssimata da una distribuzione normale con valor medio e varianza che valgono: E{U} = 1 + 2n An B n A + n B, σ 2 U = 2n An B (2n A n B n A n B ) (n A + n B ) 2 (n A + n B 1). Ne segue che per n A ed n B sufficientemente elevati (e comunque entrambi maggiori o uguali a 10) è possibile effettuare un test sulla casualità del campione determinando il valore empirico z U della statistica standardizzata Z U = U E{U} σ U. (10.39) Se questo è tale che z U > z 1 α/2, si dovrà dedurre che al livello di significatività α il campione non può considerarsi casuale. Il run test è anche usato spesso per verificare la casualità di campioni costituiti da valori numerici reali (x 1, x 2,..., x n ). A tal fine, l evento A si considera realizzato se una osservazione x k è maggiore della mediana ˆx, e l evento B si intende realizzato se x k < ˆx. Se qualche x k coincide con la mediana, viene eliminato dalla sequenza. Si ricava cosí una successione del tipo (10.38) alla quale si applica il metodo appena esposto. I due esempi che seguono, tratti dal testo [5], illustrano due tipiche applicazioni del metodo del run test ora descritto. Esempio Si controlla la qualità dei pezzi prodotti da una macchina, indicando con d la rilevazione di un difetto, e con n l esito favorevole del controllo. In un campione di 27 estrazioni si rilevano 10 eventi d e 17 eventi n, cosí distribuiti in ordine di tempo: n n n n n d d d d n n n n n n n n n n d d n n d d d d. Si vuole verificare se il campione in esame è casuale, al livello di significatività Poiché n d = 10, n n = 17, la distribuzione campionaria del numero di runs ha valore atteso e varianza: E{U} = = σu 2 = ( ) ( ) 2 = ( ) Il numero di runs nella sequenza è u = 6 (si noti che è molto minore del valore atteso), e la statistica standardizzata (10.39) ha il valore empirico z U = Se si assume α = 0.01, la regione di accettazione del test ha come estremo superiore il quantile della distribuzione normale standard che soddisfa: erf(z ) = (1 0.01)/2 = L esame della Tabella di erf(z) fornisce: z = < z U, per cui si deve rifiutare l ipotesi che i dati contigui nella serie campionaria siano incorrelati. Se ne deduce che il campione non è casuale, perché il test porta ad escludere che esso possa soddisfare la proprietà (10.34).

320 312 TEST DI IPOTESI NON PARAMETRICHE Esempio successive misurazioni in pollici del diametro medio dei pezzi lavorati da un tornio automatico forniscono le seguente serie statistica di dati {x k }: Si vuole verificare, con un run test al livello α = 0.01, l ipotesi H 0 che questo campione sia casuale, oppure se si debba accettare l ipotesi alternativa che le osservazioni hanno evidenti fluttuazioni periodiche, che potrebbero essere addebitate a troppo frequenti messe a punto della macchina utensile. Se ordiniamo per valori crescenti le osservazioni del campione, gli elementi centrali valgono 0.250: questo è perciò anche il valore della mediana ˆx della serie temporale. Escludendo le 5 osservazioni che coincidono con ˆx = 0.250, i dati osservati danno luogo, a seconda che il loro valore sia maggiore o minore della mediana, alla seguente successione temporale di eventi A = {x k > 0.250} e B = {x k < 0.250}: A A B A B A B A B A A B A B A A B B A A B A A B B A B A B B A B A B A. In questa sequenza si ha: n A = 19, n B = 16, u = 27, per cui la distribuzione campionaria dei pacchetti di eventi ha valore atteso e varianza E{U} = = σu 2 = ( ) ( ) 2 ( ) = e il valore empirico di Z U è z U = = La regione di rifiuto del test è quella già determinata nell Esempio precedente: C = (, 2.575) (2.575, + ) e poiché z U vi appartiene, si deve concludere che il campione analizzato non é casuale. Visto che il numero di runs che esso contiene è molto maggiore del suo valore atteso, è ragionevole supporre che la macchina abbia subito aggiustamenti troppo frequenti.

321 10.4 Test sulla casualità di un campione 313 BIBLIOGRAFIA 1. Papoulis A., Probabilità, variabili aleatorie e processi stocastici, Boringhieri, Torino, Ivchenko G. - Medvedev Y., Mathematical statistics, Mir, Moskow, Vicario G. - Levi R., Statistica e probabilità per ingegneri, Progetto Leonardo, Bologna, Pellerey F., Elementi di statistica per le applicazioni, Celid, Torino, Johnson R.A., Miller and Freund s Probability and Statistics for Engineers, Prentile Hall, Englewood Cliffs, New Jersey, Hoel P.G., Introduction to mathematical statistics, Wiley, New York, Fagnola F. - Pistone G., Primo semestre di probabilità, CLUT, Torino, Baldi P., Calcolo delle probabilità e statistica, McGraw-Hill Italia, Milano, 1992.

322 314 TEST DI IPOTESI NON PARAMETRICHE

323 APPENDICE Tavole delle distribuzioni statistiche Normale standard t-student Poisson Chi-quadrato F (m, n) di Fisher D n di Kolmogorov-Smirnov 315

324 316 APPENDICE

325 Distribuzioni 317

326 318 APPENDICE Distribuzione cumulativa di Poisson F ( x, ) X

328 320 APPENDICE

330 322 APPENDICE