PIU DI UNA VARIABILE CASUALE Supponiamo di avere n variabili casuali, X 1, X 2,..., X n. Le n variabili casuali si dicono indipendenti se e solo se P(X 1 x 1 X 2 x 2... X n x n ) = = P(X 1 x 1 ) P(X 2 x 2 )... P(X n x n ) per qualunque x 1, x 2,..., x n. Se le n variabili sono riferite a n esperimenti o prove indipendenti, allora le n variabili saranno esse stesse indipendenti e vale la precedente fattorizzazione. Le n variabili casuali si dicono identicamente distribuite se hanno esattamente la stessa distribuzione di probabilità. Per variabili che sono sia indipendenti che identicamente distribuite si userà l abbreviazione i.i.d.. Esempio Abbiamo visto che la variabile casuale X Bin(n, p) descrive il numero di successi in n prove indipendenti, in cui ad ogni prova si ha una probabilità pari a p di osservare un successo. Abbiamo anche visto che X può essere espressa come dove X i = X = X 1 + X 2 +... + X n { 1 se alla i-esima prova si ha un successo 0 se alla i-esima prova si ha un insuccesso 78
è la variabile casuale che descrive l esito della i-esima prova, i = 1,..., n. Ciascuna delle X i è tale che X i Be(p) e quindi le n variabiabili sono identicamente distribuite. Inoltre le n prove sono indipendenti, quindi le variabili X i sono indipendenti. In sintesi, le n variabili X 1,..., X n sono i.i.d.. 79
VALORE ATTESO E VARIANZA DI COMBINAZIONI LINEARI DI VARIABILI CASUALI Siamo interessati a valutare alcune proprietà, ad esempio media e varianza, di combinazioni linerari di variabili casuali, come somme di variabili casuali. Esempio Gli incassi di un ristorante in una settimana (supponendo 6 giorni di apertura) derivano dalla somma degli incassi di ognuno dei 6 giorni della settimana in cui il ristorante è aperto. La variabile casuale che descrive gli incassi di una settimana è pertanto la somma di 6 variabili casuali che descrivono gli incassi giornalieri. Possiamo essere interessati all incasso atteso di una settimana, ossia il valore atteso della somma degli incassi giornalieri, o alla variabilità dell incasso di una settimana, ossia la varianza della somma degli incassi. Supponiamo di avere n variabili casuali X 1, X 2,..., X n. Una combinazione lineare delle n variabili, è una nuova variabile Y così definita: Y = a 1 X 1 + a 2 X 2 +... + a n X n dove a 1, a 2,..., a n sono costanti fissate. La media e la varianza della variabile casuale Y sono: E(Y ) = a 1 E(X 1 ) + a 2 E(X 2 ) +... a n E(X n ) 80
e V (Y ) = a 2 1V (X 1 ) + a 2 2V (X 2 ) +... + a 2 nv (X n ) ATTENZIONE: L ultima equazione vale se le n variabili sono indipendenti. Come caso particolare, si ha che, se X 1,..., X n sono i.i.d. con E(X i ) = m e V (X i ) = v 2 (se sono identicamente distribuite devono anche avere uguale media e uguale varianza) allora, posto e Y = X 1 + X 2 +... + X n E(Y ) = nm V (Y ) = nv 2 Esempio 1 Si sa che gli incassi in migliaia di euro di un ristorante in un giorno lavorativo seguono una distribuzione uniforme sull intervallo [0,5,3]. Si determinino la media e la varianza degli incassi di una settimana sapendo che i giorni di apertura del ristorante in una settimana sono 6 e che gli incassi dei vari giorni possono considerarsi indipendenti. Poniamo X i =v.c. che descrive gli incassi nell i-esimo giorno di apertura di una settimana U[0, 5, 3]. Per le ipotesi del problema X 1,..., X 6 sono i.i.d.. Sappiamo che E(X i ) = 3, 5 2 = 1, 75 e V (X i) = 81 (3 0, 5)2 12 = 0, 52
Posto abbiamo Y = X 1 +... + X 6 E(Y ) = 6 1, 75 = 10, 5 migliaia di euro e V (Y ) = 6 0, 52 = 3, 12 Esempio 2 Abbiamo visto che X Bin(n, p) è esprimibile come X = X 1 +... + X n dove le X i sono i.i.d. Be(p). In base ai precedenti risultati E(X) = n E(X i ) = np e V (X) = n V (X i ) = np(1 p) Abbiamo ottenuto con un procedimento diverso rispetto a quello precedentemente visto la media e la varianza di una variabile casuale binomiale. 82
Se le X i sono normali, non solo si riesce a determinare la media e la varianza di una loro combinazione lineare, ma anche l esatta distribuzione. Siano X 1,..., X n n variabili casuali normali indipendenti tali che X i N(µ i, σ 2 i ), i = 1,..., n Posto abbiamo che Y = a 1 X 1 + a 2 X 2 +... a n X n Y N(a 1 µ 1 +a 2 µ 2 +...+a n µ n, a 1 σ 2 1+a 2 2σ 2 2+...+a 2 nσ 2 n) In particolare, se le X i sono i.i.d. N(µ, σ 2 ), posto Y = X 1 + X 2 +... + X n si ha che Y N(nµ, nσ 2 ) Esempio Supponiamo che una ditta produttrice di birra utilizzi per riempire le bottiglie dal contenuto nominale di 330gr un macchinario che è imperfetto. In particolare, il contenuto di birra (in gr) che il macchinario versa in ciascuna bottiglia è una variabile casuale con distribuzione normale di media 330gr e varianza 9gr 2. Sapendo che il peso di una bottiglia vuota è di 180gr, si calcoli la probabilità che il peso di una confezione di 10 bottiglie piene sia maggiore 83
a 5,13kg. Indichiamo con X i e W i, rispettivamente, il peso (in gr) e il contenuto di birra (in gr) della i-esima bottiglia della confezione, per i = 1,..., 10, X i = W i + 180 Sappiamo che W i N(330, 9) e dalla proprietà di chiusura della variabile casuale normale a trasformazione lineari abbiamo che X i N(330 + 180 = 510, 9) per tutti gli i. Sia T = X 1 +... + X 10 la variabile casuale che descrive il peso (in gr) complessivo delle 10 bottiglie della confezione. Si vuole determinare P(T > 5130) Se la quantità versata in ciascuna bottiglia non dipende dalle quantità versate nelle altre bottiglie, allora le X i oltre ad essere identicamente distribuite sono anche indipendenti e T N(10 510, 10 9). Pertanto, ( ) 5130 5100 P(T > 5130) = 1 P(T 5130) = 1 Φ = 90 = 1 Φ(3, 16) = 0, 0008 84
IL TEOREMA DEL LIMITE CENTRALE Prendiamo n variabili casuali X 1, X 2,..., X n i.i.d. e tali che E(X i ) = m e V (X i ) = v 2. Posto S n = X 1 + X 2 +... + X n Sappiamo dai precedenti risultati che E(S n ) = nm e V (S n ) = nv 2 Si può dimostrare che, per n grande, S n. N(nm, nv 2 ) indica si distribuisce approssimativamente co- dove. me. In altre parole, la distribuzione normale approssima la distribuzione della somma di n variabili casuali i.i.d., per n sufficientemente grande, qualunque sia la loro distribuzione (anche se le X i sono discrete). Da questo risultato deriva il ruolo fondamentale della distribuzione normale. Quanto grande deve essere n affiché questa approssimazione sia valida? Dipende dalla forma della funzione (di densità) di probabilità delle X i. 85
Esempio: Somma di v.c. U(0,5) indipendenti f(x) 0.00 0.05 0.10 0.15 0.20 1 2 5 0 5 10 15 20 25 x 86
Esempio: Somma di v.c. esponenziali indipendenti f(x) 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 1 2 3 5 8 10 0 5 10 15 20 x 87
Un esempio importante di applicazione del teorema del limite centrale è alla distribuzione binomiale. Sappiamo che se X Bin(n, p), allora X = X 1 +... + X n dove le X i sono variabili casuali i.i.d. Be(p), con E(X i ) = p e V (X i ) = p(1 p). Per il teorema del limite centrale, X. N(np, np(1 p)) Per n grande possiamo approssimare la distribuzione binomiale con la distribuzione normale. Agli effetti pratici, si verifica che l approssimazione è adeguata se np e n(1 p) sono entrambi maggiori di 5. Ad esempio, per p = 0, 5, n 10. 88
prob. 0.0 0.1 0.2 0.3 0.4 n=4,p=0.3 prob. 0.00 0.05 0.10 0.15 0.20 0.25 n=10,p=0.3 0 1 2 3 4 x 0 2 4 6 8 x n=20,p=0.3 n=100,p=0.3 prob. 0.00 0.05 0.10 0.15 prob. 0.00 0.02 0.04 0.06 0.08 0 5 10 15 x 0 10 20 30 40 50 60 x 89
Se possiamo approssimare la distribuzione binomiale con quella gaussiana, possiamo calcolare la funzione di ripartizione della binomiale tramite la funzione di ripartizione della gaussiana. Ad esempio, sia X Bin(100, 0, 3). Vogliamo calcolare P(X 40). Piuttosto che calcolare, P(X 40) = P(X = 0)+P(X = 1)+...+P(X = 40) = ( ) ( ) 100 100 = 0, 3 0 (1 0, 3) 100 + 0, 3 1 (1 0, 3) 99 +... + 0 1 ( ) 100 + 0, 3 40 (1 0, 3) 60 40 essendo n grande, possiamo usare l approssimazione ( ) P(X 40) =. 40 30 P(Y 40) = Φ 21 dove Y N(100 0, 3 = 30, 100 0, 3 0, 7 = 21) e =. indica è approssimativamente uguale a. 90
Esempio 1 Una banca decide di offrire azioni della propria società ad un gruppo di 1400 clienti selezionati. Il prezzo di ciascuna azione è di 5û. Per ciascuno dei 1400 clienti il numero X di azioni richieste è una variabile casuale così distribuita 0 con p = 1/2 1 con p = 1/3 X = 2 con p = 1/6 > 2 con p = 0 Le richieste dei clienti sono assunte indipendenti. 1. Si calcoli il ricavo atteso dalla vendita delle azioni e la varianza del ricavo. Sia X i la variabile casuale che descrive il numero di azioni richieste dall i esimo cliente, i = 1,..., 1400. In base alle specificazioni del problema, le X i sono i.i.d., con distribuzione di probabilità sopra specificata. La richiesta complessiva dei 1400 clienti è T = X 1 + X 2 +... + X 1400 Il ricavo dalla vendita delle azioni è Allora, R = 5 T E(R) = E(5 T) = 5 E(T) = 5 1400 E(X i ) Dato che E(X i ) = 0 1 2 + 1 1 3 + 2 1 6 = 2 3 91
7û si ha E(R) = 5 1400 2 = 4666, 3 V (R) = V (5 T) = 25 V (T) = 25 1400 V (X i ) Dato che V (X i ) = E(Xi 2 ) {E(X i )} 2 = 0 2 1 +12 1 +22 1 2 3 6 4 9 = 5 9 si ha V (R) = 25 1400 5 = 19444, 4û2 9 2. Si calcoli la probabilità che il numero di azioni richieste dai 1400 clienti sia compreso tra 900 e 950. Si richiede P(900 T 950). T è la somma di 1400 v.c. i.i.d. e per il teorema del limite centrale T. N(E(T), V (T)). E(T) = 1400 E(X i ) = 1400 2 3 = 933, 3 V (T) = 1400 V (X i ) = 1400 5 = 777, 78 9 Allora, P(900 T 950) =. P(900 Y 950) = = Φ = P(Y 950) P(Y 900) = ( ) ( ) 950 933, 3 900 933, 3 Φ = 777, 78 777, 78 = Φ(0, 6) Φ( 1, 2) = Φ(0, 6) 1 + Φ(1, 2) = = 0, 726 1 + 0, 885 dove Y N(933, 3, 777, 78). 92
Esempio 2 Si supponga che le telefonate che arrivano ad un centralino abbiano una distribuzione uniforme sull intervallo (1,5) minuti. Si calcoli la probabilità che la durata complessiva di 60 telefonate sia superiore a 3 ore e un quarto. Sia X i la variabile casuale che descrive la durata in minuti della i esima telefonata. Allora, X i U[1, 5] e le X i sono i.i.d. (è ragionevole assumere indipendenti le durate delle chiamate). Sia T = X 1 + X 2 +... + X 60 la variabile casuale che descrive la durata complessiva delle 60 telefonate. Vogliamo calcolare P(T > 195). Per il teorema del limite centrale, T. N(E(T), V (T)) dove e E(T) = 60 E(X i ) = 60 6 2 = 180 min V (T) = 60 V (X i ) = 60 (5 1)2 12 = 80 min 2 P(T > 195) =. P(Y > 195) = 1 P(Y 195) = ( ) 195 180 = 1 Φ = 1 0, 9535 80 dove Y N(180, 80). 93
Esempio 3 Sia p = 0, 02 la probabilità che una bottiglia di vino si rompa durante il trasporto dal produttore al rivenditore. Il danno per una bottiglia rotta, a carico del rivenditore, è pari a 4û. Calcolare la probabilità che il danno subito dal rivenditore 1. per una partita di 10 bottiglie sia almeno 8û Dire che su 10 bottiglie il danno subito dal rivenditore è almeno di 8ûequivale a dire che almeno due delle 10 bottiglie si rompono. Indichiamo con X la variabile casuale che descrive il numero di bottiglie rotte tra le 10 acquistate dal rivenditore. X Bin(10, 0, 02) (dobbiamo però assumere che ciò che accade a ciascuna bottiglia sia indipendente da ciò che accade alle altre bottiglie, il che potrebbe essere non realistico). La probabilità cercata è allora P(X 2) = 1 P(X < 2) = 1 [P(X = 0)+P(X = 1)] = [( ) ( ] 10 10 = 1 0, 02 0 (1 0, 02) 10 + )0, 02(1 0, 02) 9 0 1 Si noti che non possiamo applicare il teorema del limite centrale in quanto np = 10 0, 02 = 0, 2 < 5 e quindi l approssimazione normale non è molto buona. 2. per una partita di 400 bottiglie si mantenga sotto 40û Il danno subito si mantiene sotto 40ûse e solo se 94
si rompono meno di 10 bottiglie. Indichiamo con Y la variabile casuale che descrive il numero di bottiglie rotte nella partita di 400 bottiglie. Y Bin(400, 0, 02). Vogliamo P(Y < 10). Poiché np, n(1 p) > 5 possiamo calcolare questa probabilità sfruttando il teorema del limite centrale. In particolare, Y. N(400 0, 02 = 8, 400 0, 02 0, 98 = 7, 84) Allora, P(Y < 10) =. Φ ( 10 8 7, 84 ) = Φ(0, 71) = 0, 76 95
Il teorema del limite centrale ci dice che se X 1,..., X n sono i.i.d. con E(X i ) = m e V (X i ) = v 2, allora, per n sufficientemente grande, S n = X 1 +... + X n. N(nm, nv 2 ) Per la proprietà di chiusura a trasformazioni lineari della variabile casuale normale X n = S n n = X 1 +... + X n n. N(m, v2 n ) ossia la media di variabili casuali i.i.d. si distribuisce, per n grande, approssimativamente come una variabile casuale normale. Si noti che, mentre la media della normale rimane costante e pari a m = E(X i ), al crescere di n la varianza v2 n diminuisce e anzi tende a 0 per n. Ciò significa che la distribuzione della media X n diventa al crescere di n sempre più concentrata attorno a m sino a quando, al limite, Xn = m con probabilità 1. Questa è la legge dei grandi numeri. 0 densita m x 96
Supponiamo che le n variabili X i si riferiscano a n ripetizioni indipendenti dello stesso esperimento. La legge dei grandi numeri ci permette di interpretare il valore atteso m di una variabile casuale come la media (in senso statistico) dei valori che si ottengono replicando un numero elevato di volte l esperimento casuale a cui è associata la variabile. Un importante applicazione del precedente risultato è alla variabile casuale binomiale. Abbiamo visto che, se X Bin(n, p), per n grande, X. N(np, np(1 p)) da cui ˆp = X p(1 p) n. N(p, ) n da cui si vede che per n, ˆp = p con probabilità 1. Ma se X è il numero di successi in n prove indipendenti, ˆp non è altro che la frazione di successi in n prove indipendenti. Concludiamo che all aumentare del numero di prove la frazione di successi converge alla probabilità di successo (si confronti con la definizione frequentista di probabilità). Lanciamo una moneta bilanciata. La probabilità che esca testa è 1/2. Se lanciamo una moneta 10 volte la frequenza relativa del numero di teste può essere diversa da 1/2, ma la legge dei grandi numeri mi assicura che aumentando il numero di lanci, la frequenza relativa delle teste si avvicinerà sempre più a 1/2 e si stabilizzerà su questo valore. 97
LA VARIABILE CASUALE CHI-QUADRATO Siano Z 1,..., Z r r variabili casuali i.i.d. N(0, 1). Poniamo X = Z 2 1 + Z 2 2 +... + Z 2 r Si dice che X ha distribuzione chi-quadrato con r gradi di libertà e si scrive X χ 2 r. Si ha E(X) = r e V (X) = 2r La variabile casuale chi-quadrato assume valori positivi e la sua funzione di densità di probabilità ha una asimmetria positiva. f(x) 0.00 0.05 0.10 0.15 0.20 0.25 r=3 r=6 r=10 0 5 10 15 20 x Per r, in virtù del teorema del limite centrale, χ 2 r. N(r, 2r) Come per la variabile casuale normale, la funzione di ripartizione della variabile casuale chi-quadrato non è esplicitabile. Tuttavia, la variabile casuale chi-quadrato è usata soprattutto in Statistica Inferenziale, dove più che 98
essere interessati a calcolare le probabilità, si è interessati a calcolare i quantili di tale variabile. Nel seguito indicheremo con χ 2 α;r il quantile α della variabile chiquadrato con r gradi di libertà. Dalle tavole dei quantili del chi-quadrato si vede, ad esempio, che χ 2 0,9;12 = 18, 5 e χ 2 0,05;5 = 1, 15 Per valori grandi di r possiamo approssimare il quantile χ 2 α;r tramite il quantile α di N(r, 2r), ossia prendiamo il quantile z α di N(0, 1) e poniamo χ 2 α;r =. z α 2r + r 99
LA VARIABILE CASUALE t DI STUDENT Prendiamo due variabili casuali X 1 e X 2 indipendenti e tali che X 1 N(0, 1) e X 2 χ 2 r. Poniamo T = X 1 X2 /r Si dice che la variabile casuale T si distribuisce come una variabile casuale t di Student con r gradi di libertà e si scrive T t r. La funzione di densità della variabile casuale t con r gradi di libertà ha una forma simile a quella di una normale standardizzata (campanulare e simmetrica attorno allo 0), ma è caratterizzata da code più lunghe. f(x) 0.0 0.1 0.2 0.3 0.4 r=2 r=10 r=100 6 4 2 0 2 4 6 Per r la t di Student con r gradi di libertà converge ad una N(0, 1). Anche per la distribuzione t non è esplicitabile la funzione di ripartizione. Tuttavia, il suo uso principale si ha in Statistica Inferenziale, dove si è più interessati a calcolare quantili della variabile, piuttosto che probabilità. Indicheremo con t α;r il quantile α della variabile t con r x 100
gradi di libertà. Dalle tavole dei quantili della t si vede, ad esempio, che t 0,975;5 = 2, 5706 e t 0,95;7 = 1, 8946 Per la simmetria attorno allo 0 della densità della t di Student, vale t α;r = t 1 α;r Pertanto, se vogliamo t 0,05;7 (non riportato nelle tavole), possiamo usare t 0,05;7 = t 0,95;7 = 1, 8946 Per r grande, possiamo approssimare t α;r con z α. 101