Esercitazioni di Statistica La distribuzione delle statistiche campionarie Teorema del limite centrale Prof. Livia De Giovanni statistica@dis.uniroma.it Esercizio (Scozzafava) Una ferrovia metropolitana è servita da treni costituiti da carrozze non comunicanti. Alla partenza 0 passeggeri scelgono a caso una delle carrozze. Determinare il numero (minimo) di posti a sedere che devono essere disponibili su ciascuna carrozza affinché la probabilità α che che restino viaggiatori in piedi sia minore di 0.0. Soluzione Si indichi con A una qualunque delle carrozze e sia E i levento il passeggero i-mo sale sulla carrozza A (i=,..,0). La scelta a caso corrisponde a supporre indipendenti ed equiprobabili, con probabilità, questi 0 eventi. Il numero di successi, cioè il numero di passeggeri che sale su A è dato da: S 0 = E + E + + E 0 Quindi restano viaggiatori in piedi se per il numero x di posti a sedere si ha x < S 0. Si richiede che: o equivalentemente P (S 0 > x) < 0.0 P (S 0 x) 0.99 Le variabili E i sono indipendenti e identicamente distribuite come Bernoulli con valor medio E(E i ) = e varianza V ar(e i) =. Si può applicare il Teorema del limite centrale: P (S 0 < x) = P ( S 0 0 ) < x 0 ) 0 0
Si richiede P (S 0 x) 0.99 P (S 0 x) = P (Z < x 0 ) 0 con Z Normale standardizzata. Dalle tavole della Normale il valore z che si lascia a destra una probabilità 0.0 è.3 da cui x 0 =.3 0 da cui risulta x.7. Su ogni carrozza devono essere disponibili almento posti a sedere. Esercizio American Airline sostiene che il % degli individui che hanno prenotato il volo non si presenta al check in. Se la compagnia ha venduto 0 biglietti per un volo che ha solo 33 posti a sedere, qual è la probabilità che tutti i passeggeri che si presentano abbiano un posto a sedere? Soluzione X = Presentarsi al check-in X Ber(0.9) X, X,..., X 0 è un campione casuale di variabili casuali i.i.d di X. Definiamo 0 Y = X i, i= quindi, Y B(0, 0.9), essendo la somma di 0 variabili casuali indipendenti ed identicamente distribuite secondo una Bernoulli di parametro 0.9. Essendo n sufficientemente elevato, per il teorema del limite centrale si ha che: Si ottiene quindi: Y N(0 0.9, 0 0.9 ( 0.9)). P (Y 33) = P ( Y 8 3.37 33 8 ) = P (Z.8) = 0.930 3.37 Esercizio 3 Una diga riceve ogni giorno una quantità di unità di acqua che ha una distribuzione normale con media, e varianza. Si estrae con reimmissione un campione di 0 giorni.. Qual è la probabilità che la media campionaria ( X) sia superiore a 7?. Qual è la probabilità che la varianza campionaria (S ) sia superiore a.? 3. Quali sarebbero le distribuzioni se la popolazione non si distribuisse secondo una normale?
Soluzione. La media campionaria ha distribuzione normale per ogni numerosità campio naria in caso di popolazione normale. Risulta pertanto: P r( X > 7) = P r( ( X ) / 0. Poiché, in caso di distribuzione normale (7 ) ) > / ) = P r(z > 3.7) = 0.0008 0 S σ (n ) χ n, ( P r(s >.) = P r χ n > ) (n ). = P r(χ 9 >.) = 0. () 3. In questo caso non possiamo fare assunzioni circa la distribuzione delle variabili casuali X e (n )S (numerosità piccola), e quindi non possiamo calcolare le probabilità σ corrispondenti. Esercizio A. Data la variabile casuale X che assume i valori 0,, con probabilità,, rispettivamente,. determinare l insieme dei campioni di numerosità che X può generare,. determinare la distribuzione della media campionaria X e derivarne il valore medio e la varianza, 3. determinare la distribuzione di S = n n i= (X i X) e derivarne il valor medio. Commentare i risultati ottenuti. Soluzione. X 0 P (X) Si ricava facilmente E(X) = e V ar(x) = I campioni di numerosità che X può generare con ripetizione risultano: (X, X ) (0, 0) (0, ) (0, ) (, 0) (, ) (, ) (, 0) (, ) (, ) 3
p 0.0 0. 0. 0.3 0. 0. 0 x. Per determinare la funzione di probabilità della variabili casuali X S si calcolano le probabilità dei campioni e i valori di X e S in ciascun campione: (X, X ) p(x, X ) X = (X + X ) S = [(X X) + (X X) ] (0, 0) 0 0 (0, ) (0, ) (, 0) (, ) 0 3 (, ) (, 0) 3 (, ) (, ) 0 La funzione di probabilità della variabile casuale media campionaria X risulta: X p( X) 0 3 Il valor medio e la varianza della variabile casuale media campionaria X risultano: E( X) = 0 + + + 3 + = = E(X) V ar( X) = (0 ) = = n V ar(x) + ( ) + ( ) + (3 ) + ( )
p 0.0 0. 0. 0.3 0 0.. media_campionaria 3. La funzione di probabilità della variabile casuale S risulta: S p(s ) 0 8 Il valor medio della variabile casuale S risulta: E(S ) = 0 + 8 + = = = n n V ar(x) Lo stimatore S di V ar(x) è distorto. Uno stimatore non distorto è ˆσ = n n S. B. Data la variabile casuale X che assume i valori,, con probabilità,, rispettivamente,. determinare l insieme dei campioni di numerosità che X può generare,. determinare la distribuzione della media campionaria X e derivarne il valore medio e la varianza, 3. determinare la distribuzione di S = n n i= (X i X) e derivarne il valor medio. Commentare i risultati ottenuti. Soluzione. X P (X) Si ricava facilmente E(X) = 7 = 3. e V ar(x) =.7
p 0.0 0. 0. 0.3 0. 0. x I campioni di numerosità che X può generare con ripetizione risultano: (X, X ) (, ) (, ) (, ) (, ) (, ) (, ) (, ) (, ) (, ). Per determinare la funzione di probabilità della variabili casuali X e S si calcolano le probabilità dei campioni e i valori di X e S in ciascun campione: (X, X ) p(x, X ) X = (X + X ) S = [(X X) + (X X) ] (, ) 0 (, ) 3 (, ) (, ) 3 (, ) 0 (, ) (, ) (, ) (, ) 0 La funzione di probabilità della variabile casuale media campionaria X risulta: X 3 p( X)
p 0.00 0.0 0.0 0. 0.0 0. 0.30 3 media_campionaria Il valor medio e la varianza della variabile casuale media campionaria X risultano: E( X) = + 3 + + + = 3. = E(X) V ar( X) = ( 3.) = = n V ar(x) + (3 3.) + ( 3.) 3. La funzione di probabilità della variabile casuale S risulta: S p(s ) 0 Il valor medio della variabile casuale S risulta: + ( 3.) + ( 3.) E(S ) = 0 + + =.37 =.37 = n n V ar(x) Lo stimatore S di V ar(x) è distorto. Uno stimatore non distorto è ˆσ = n n S. Diversamente dal caso A nel caso B la distribuzione di X non è simmmetrica e pertanto non risulta simmetrica per n = la distribuzione della media campionaria applicandosi il teorema centrale del limite solo per grandi numerosità campionarie. Esercizio (Scozzafava) Si sommano 00 numeri reali, ciascuno dei quali viene arrotondato all intero più vicino: si assume che ciascun errore di arrotondamento sia una variabile casuale con distribuzione Uniforme nell intervallo [-0., 0.] e che questi 00 numeri casuali siano indipendenti. Determinare un numero ϵ > 0 tale che con probabilità p > 0.99 l errore sulla somma sia compreso tra ϵ e ϵ. 7
Soluzione Si indichi X k l errore di arrotondamento sul k mo numero (k =,.., 00). Le variabili X k sono indipendenti e identicamente distribuite Uniformi con valor medio E(X k ) = 0 e varianza V ar(x k ) =. Si può applicare il Teorema del limite centrale. Detto S 00 l errore (somma algebrica degli errori) sulla somma la probabilità che l errore sulla somma sia compreso tra ϵ e ϵ risulta: P ( ϵ S 00 ϵ) = P ( ϵ 00 00 S 00 ϵ) = F ( ϵ) 00 00 con F funzione di ripartizione della variabile casuale Normale standardizzata. Siccome si richiede: P ( ϵ S 00 ϵ) = F ( ϵ) 0.99 00 dalle tavole della Normale il valore z che si lascia a destra una probabilità 0.00 è.8 da cui: ( ϵ).8 00 da cui risulta ϵ 7.. 8