Integrazioni del corso di Calcolo delle Probabilità Università degli Studi di Roma La Sapienza Docente: Alessandra Faggionato

Documenti analoghi
Notazione: nel seguito, dato un insieme A, P(A) indicherà l insieme delle parti di A.

PROBABILITÀ I. a.a. 2011/2012 DIARIO DELLE LEZIONI

PROBABILITÀ I. a.a. 2011/2012 DIARIO DELLE LEZIONI

CALCOLO DELLE PROBABILITÀ I. a.a. 2016/2017. Informatica. Leggere attentamente le seguenti note

CP110 Probabilità: Esame 13 settembre Testo e soluzione

Misure e loro proprietà (appunti per il corso di Complementi di Analisi Matematica per Fisici, a.a )

Matematica e Statistica per Scienze Ambientali

Esercizi settimana 5. Esercizi applicati. Esercizio 1. Si considerino tre monete truccate, ognuna con probabilità 2 3

CP210 Introduzione alla Probabilità: Esame 2

Esercitazione del 21/10/2011 Calcolo delle probabilità

Matematica con elementi di Informatica

II Appello di Calcolo delle Probabilità Laurea Triennale in Matematica 2016/17

11. Misure con segno.

Scrivere su ogni foglio NOME e COGNOME. Le risposte devono essere giustificate sui fogli protocollo e riportate nel foglio RISPOSTE.

Esercizi settimana 4. Esercizi applicati. Esercizio 1. Si considerino tre monete truccate, ognuna con probabilità 2 3

Statistica ARGOMENTI. Calcolo combinatorio

II Appello di Calcolo delle Probabilità Cognome: Laurea Triennale in Matematica 2013/14 Nome: 20 febbraio

III Appello di Calcolo delle Probabilità Cognome: Laurea Triennale in Matematica 2013/14 Nome: 16 luglio

) la sua densità discreta sarà della forma. p X (0) = 1 2, p X(1) = 1 2,

2. Introduzione alla probabilità

Esercizi di Probabilità e Statistica

III Appello di Calcolo delle Probabilità Laurea Triennale in Matematica 2018/19

Note di Teoria della Probabilità.

Vettori Aleatori discreti

Primi elementi di combinatoria Federico Lastaria, Analisi e Geometria 1

NOTE DI ALGEBRA LINEARE v = a 1 v a n v n, w = b 1 v b n v n

Esercitazione del 16/04/2019 Istituzioni di Calcolo delle Probabilità

Primi elementi di Probabilità

Matematica Applicata L-A Definizioni e teoremi

CP110 Probabilità: Esame 2 luglio Testo e soluzione

Variabili aleatorie binomiali e di Poisson

V Appello di Calcolo delle Probabilità Cognome: Laurea Triennale in Matematica 2014/15 Nome: 7 gennaio

Statistica Inferenziale

9. Test del χ 2 e test di Smirnov-Kolmogorov. 9.1 Stimatori di massima verosimiglianza per distribuzioni con densità finita

(2) se A A, allora A c A; (3) se {A n } A, allora +

Basi matematiche per il Machine Learning

Il modello di Bernoulli

8. Completamento di uno spazio di misura.

Esercizi di Calcolo delle Probabilità

Massimo limite e minimo limite di una funzione

Calcolo delle Probabilità

Due variabili aleatorie X ed Y si dicono indipendenti se comunque dati due numeri reali a e b si ha. P {X = a, Y = b} = P {X = a}p {Y = b}

Sviluppi e derivate delle funzioni elementari

Calcolo delle Probabilità e Statistica Matematica Fisciano, 10/1/2012

Analisi Reale. Anno Accademico Roberto Monti. Versione del 13 Ottobre 2014

Esercizi: fascicolo 4

Calcolo delle Probabilità 2

Corso di Laurea Triennale in Matematica Calcolo delle Probabilità I (docenti G. Nappo, F. Spizzichino)

1 PRELIMINARI 1.1 NOTAZIONI. denota l insieme vuoto. a A si legge a appartiene a A oppure a è elemento di A.

Calcolo della probabilità

Esercizi. 2. [Conteggio diretto] Due dadi vengono lanciati in successione. a) Qual è la probabilità che la somma dei due risultati faccia 7?

CP110 Probabilità: Esame 4 luglio Testo e soluzione

Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2017/2018. Giovanni Lafratta

8 Derivati dell entropia

c) Ancora in corrispondenza allo stesso valore di p e ponendo Y = minorazione, fornita dalla diseguaglianza di Chebichev, per la probabilita

Elementi di Probabilità e Statistica - 052AA - A.A

Richiami di TEORIA DELLE PROBABILITÀ

Si noti che questa definizione dice esattamente che

1 Eventi. Operazioni tra eventi. Insiemi ed eventi. Insieme dei casi elementari. Definizione di probabilità.

CP210 Introduzione alla Probabilità: Esonero 2

I Appello di Calcolo delle Probabilità Laurea Triennale in Matematica 2016/17

Definizione formale di probabilitá

20. Prodotto di spazi di misura. I teoremi di Tonelli e di Fubini.

La media campionaria. MEDIA CAMPIONARIA Date n v.a. X 1,..., X n indipendenti e identicamente distribuite (in breve i.i.d.), la v.a.

Calcolo delle Probabilità e Statistica Matematica: definizioni prima parte. Cap.1: Probabilità

STATISTICA: esercizi svolti sulle VARIABILI CASUALI

ELEMENTI DI LOGICA MATEMATICA LEZIONE VII

! X (92) X n. P ( X n X ) =0 (94)

Scrivere su ogni foglio NOME e COGNOME. Le risposte devono essere giustificate sui fogli protocollo e riportate nel foglio RISPOSTE.

ES.2.2. Consideriamo un esperimento statistico definito da un insieme Ω di risultati possibili. Una partizione finita di Ω è una sequenza di K eventi

Probabilità 1, laurea triennale in Matematica I prova scritta sessione estiva a.a. 2008/09

Modelli probabilistici variabili casuali

Indice. 1 Nozioni di base 2. 2 I tre principi di Littlewood 5. 3 Il ``quarto'' principio di Littlewood 7

CP110 Probabilità: Esonero 1. Testo e soluzione

Dimostrazione. Indichiamo con α e β (finiti o infiniti) gli estremi dell intervallo I. Poniamo

I Sessione I Prova Scritta o Recupero Esonero di Probabilità e Statistica a.a. 2012/ Giugno 2013

Esercitazione del 29 aprile 2014

P ( X n X > ɛ) = 0. ovvero (se come distanza consideriamo quella euclidea)

Variabili casuali multidimensionali

Tutorato III Probabilità e Statistica a.a. 2015/2016

V Appello di Calcolo delle Probabilità Cognome: Laurea Triennale in Matematica 2012/13 Nome: 18 ottobre

Esercizi - Fascicolo III

Probabilità 1, laurea triennale in Matematica Prova scritta sessione invernale a.a. 2008/09 del 26/01/2010

Prova Scritta di Probabilità e Statistica Cognome: Laurea in Matematica. 28 giugno 2012 Matricola: Nome:

Esercitazione del 21/02/2012 Istituzioni di Calcolo delle Probabilità

Alcuni complementi di teoria dell integrazione.

p(ϕ) = a 0 Id + a 1 ϕ + + a n ϕ n,

La funzione di ripartizione caratterizza la v.a. Ad ogni funzione di ripartizione corrisponde una ed una sola distribuzione.

5. Distribuzioni. Corso di Simulazione. Anno accademico 2009/10

X n = αx n 1 + Y n. Si dimostri che. Usando la precedente relazione si dimostri che. e che. e si determini il limite di media e varianza quando n +.

Alcuni complementi sulla misura di Lebesgue in R N

Esercizi - Fascicolo IV

Riassumiamo le proprietà dei numeri reali da noi utilizzate nel corso di Geometria.

3. Successioni di insiemi.

3. Distribuzioni. Corso di Simulazione. Anno accademico 2006/07

2 per ogni n N +. k=1 a k) ( n. k=1 b k) n

i) la somma e il prodotto godano delle proprietà associativa, commutativa e distributiva;

Scritto del

PROBABILITA. DEFINIZIONE: Ogni singolo risultato di un esperimento casuale si chiama evento elementare

Transcript:

Integrazioni del corso di Calcolo delle Probabilità Università degli Studi di Roma La Sapienza Docente: Alessandra Faggionato Contents 1. Spazio ingenuo di probabilità 1 2. Esempi di spazi di probabilità con spazi campionari non numerabili 5 3. Modelizzazione di n prove indipendenti di tipo successo/insuccesso 6 4. Spazi di probabilità prodotto 7 5. Variabili aleatorie reali 10 6. Variabili aleatorie discrete vettoriali 11 7. Indipendenza di variabili aleatorie 13 8. Valor medio della funzione di una v.a. m dimensionale 15 9. Varianza di una somma di variabili aleatorie 17 10. Integrazione su v.a. di Poisson e v.a. geometrica 20 11. Monotonia del valore atteso 21 12. Valore atteso condizionato 21 13. Legge di una v.a. 22 14. Interpretazione frequentistica della probabilità 23 15. Integrazione sulle variabili aleatorie gaussiane 24 16. Classi di variabili aleatorie speciali 24 17. Valore atteso e varianza di v.a. binomiale e di v.a. ipergeometrica 26 18. Complementi sulla funzione generatrice dei momenti 26 1. Spazio ingenuo di probabilità Dato un insieme S, denotiamo con P(S) l insieme delle parti di S. Definizione 1. Uno spazio (ingenuo) di probabilità è una coppia (S, P), dove S è un insieme non vuoto e P un applicazione P: P(S) [0, 1] tale che (a) P(S) = 1. (b) Per ogni famiglia numerabile E i } di sottoinsiemi di S a due a due disgiunti (ossia E i E j = per i j) si ha P ( ) E i = P(E i ) In questo contesto, S si dice uno spazio campionario, i sottoinsiemi di S eventi e P una misura o legge di probabilità su S. Remark 1. Purtroppo tale definizione è troppo restrittiva, e molti modelli probabilistici interessanti non rientrano nella definizione di spazio (ingenuo) di probabilità data sopra. In generale è sufficiente che P sia una funzione P: F [0, 1], dove F è un sottoinsieme di P(S) con opportune proprietà (σ-algebra). 1

2 Proposizione 1. Se S è numerabile (finito o infinito) vale P (E) = a E P (a}) E S. (1.1) Proof. Possiamo scrivere E come l unione disgiunta E = a E a} di una famiglia numerabile di eventi elementari. Invocando l additività finita se E è finito, e l additività numerabile se E è infinito numerabile concludiamo che vale (1.1). Proposizione 2. Data una famiglia finita di eventi E 1, E 2,..., E n, vale P( n E i) n P(E i). Inoltre le stessa proprietà vale per una successione di eventi E 1, E 2,... : P( E i) P(E i) Proof. Trattiamo solo il caso della famiglia finita, il caso con la successione di eventi è completamente analogo. Definiamo F 1 := E 1, F i = E i \ i 1 k=1 E k per i : 2 i n. Per costruzione F 1, F 2, F 3,..., F n è una famiglia di eventi a due a due disgiunti. Per l additività finita abbiamo n P ( n F i ) = P (F i ). (1.2) Osservando che n F i = n E i e che per la proprietà di monotonia P (F i ) P (E i ) essendo F i E i, da (1.2) otteniamo che P ( n E i) n P (E i). Proposizione 3 (Principio di inclusione esclusione). Dati E 1,..., E n eventi, vale n P (E 1 E 2 E n ) = ( 1) r+1 P (E i1 E i2 E ir ). (1.3) r=1 (i 1,i 2,...,i r): 1 i 1 <i 2 < <i r n Proof. Diamo la dimostrazione con S numerabile (chi non ha familiarità con le serie assolutamente convergenti può limitarsi a S finito). Notiamo che (1.1) può essere riscritta come P (E) := a S P (a})1(a E) con 1 funzione caratteristica. Quindi scrivendo P (E 1 E 2 E n ) = a S P (a})1(a E 1 E 2 E n ), (1.4) P (E i1 E i2 E ir ) = a S P (a})1(a E i1 E i2 E ir ), (1.5) (1.3) puo essere riscritta come P (a})1(a E 1 E 2 E n ) = a S [ n P (a}) ( 1) r+1 a S r=1 (i 1,i 2,...,i r): 1 i 1 <i 2 < <i r n ] 1(a E i1 E i2 E ir ). (1.6)

3 Per verificare (1.6) ci basta provare per ogni a S che n 1(a E 1 E 2 E n ) = ( 1) r+1 r=1 (i 1,i 2,...,i r): 1 i 1 <i 2 < <i r n 1(a E i1 E i2 E ir ) (1.7) Se a E 1 E 2 E n la suddetta identità è banalmente vera dato che si riduce a 0 = 0. Sia a E 1 E 2 E n. Supponiamo che a appartenga ad esattamente m insiemi del tipo E i. Allora 1(a E i1 E i2 E ir ) (i 1,i 2,...,i r): 1 i 1 <i 2 < <i r n corrisponde a quanti modi possiamo scegliere r indici tra gli m indici i per cui a E i, e quindi vale ( ) m r. Ne deriva che (1.7) equivale a m ( ) m 1 = ( 1) r+1 r ovvero (portando tutto a sx) r=1 m ( ) m ( 1) r = 0. r r=0 La suddetta indetità è vera dato che il lato sx è lo sviluppo del binomio ( 1 + 1) m. Proposizione 4. Sia S insieme numerabile (finito o infinito). Allora valgono i seguenti fatti: (i) se P è una funzione di probabilità avente spazio campionario S, allora la funzione p : S R definita come p(s) := P (s}) per s S soddisfa p(s) 0 s S, p(s) = 1. (1.8) (ii) Viceversa, data una funzione p : S R che soddisfa (1.8), esiste un unica funzione di probabilità P avente S spazio campionario per cui P (s}) = p(s). Inoltre, vale s S P (E) := s E p(s), E S. (1.9) Proof. Ci limitiamo al caso di S finito. La dimostrazione nel caso generale è simile, ed usa alcune proprietà delle serie a segno nonnegativo. Proviamo il punto (i). Sia p(s) = P (s}). Tale numero per assioma è in [0, 1]. Siccome S è finito, possiamo scrivere S = s 1, s 2,..., s n }. Quindi S = s 1 } s 2 } s n }. Siccome gli eventi elementari s 1 }, s 2 },... s n } sono a due a due disgiunti, per l additività finita vale n P (S) = P (s i }). Notiamo che il membro sinistro è 1 per assioma, il membro destro si puo riscrivere come n p(s i), quindi abbiamo completato la dimostrazione di (1.8). Proviamo il punto (ii). Sia P una funzione di probabilità per cui P (s}) = p(s). Dato E S, scrivendo E come l unione finita e disgiunta degli eventi elementari s} con s E, ovvero E = s E s},

4 per l additività finita abbiamo P (E) = s E P (s}) = s E p(s). Quindi necessariamente P verifica (1.9). Verifichiamo ora che la funzione P definita sull insieme delle parti P(S) tramite (1.9) soddisfa gli assiomi. Poiche gli addendi nel membro destro in (1.9) sono nonnegativi abbiamo che P (E) 0 ed inoltre che P (E) n p(s i) = 1. Quindi abbiamo provato che P (E) [0, 1]. Banalmente P (S) = 1 dato che n p(s i) = 1. La numerabile additivià per S finito equivale all additività finita e quest ultima deriva dalla proprietà associativa della somma. Proposizione 5. [Legge della probabilità totale] Siano F 1,..., F n eventi che formano una partizione dello spazio campionario S (cioè sono a 2 a 2 disgiunti e la loro unione dà S) tali che P (F i ) > 0 per ogni i. Allora, per ogni evento E S, vale P (E) = n P (E F i )P (F i ). Proof. Siccome P (F i ) > 0, le suddette probabilità condizionate P (E F i ) hanno senso. Siccome F 1,..., F n formano una partizione di S abbiamo che E = n (EF i) e gli eventi EF 1, EF 2,...,EF n formano una famiglia finita di insieme a due a due disgiunti. Per l additività finita abbiamo quindi n P (E) = P (EF i ) Per la regola del prodotto concludiamo che P (EF i ) = P (E F i )P (F i ) e quindi P (E) = n P (E F i )P (F i ). Proposizione 6 (Teorema di Bayes). Siano F 1,..., F n eventi che formano una partizione di S (cioè sono a 2 a 2 disgiunti e la loro unione dà S) tali che P (F i ) > 0 per ogni i. Sia E un evento con P (E) > 0. Allora, per i 1, 2,..., n}, vale P (F i E) = P (E F i)p (F i ) P (E) = P (E F i )P (F i ) n j=1 P (E F j)p (F j ). (1.10) Proof. Siccome P (E) > 0 e P (F i ) > 0 per ogni i, tutte le probabilità condizionate che appaiono in (1.10) hanno senso. Abbiamo P (F i E) = P (F ie) E = P (E F i)p (F i ) P (E) dove nella prima identità abbiamo usato la definizione di probabilità condizionata, e nella seconda abbiamo applicato la regola del prodotto al numeratore. Questo prova la prima identità in (1.10) La seconda deriva dalla prima identità in (1.10) e dal fatto che P (E) = n j=1 P (E F j)p (F j ) per la legge della probabilità totale. Proposizione 7. Esistono eventi E, F, G che sono a 2 a 2 indipendenti ma che non soddisfano P (EF G) = P (E)P (F )P (G), e quindi E, F, G non sono indipendenti. Ad esempio uno puo prendere tre persone p 1, p 2, p 3 e definire E = p 1 e p 2 hanno stesso compleanno, F = p 2 e p 3 hanno stesso compleanno,e = p 1 e p 3 hanno stesso compleanno.

5 Proof. Abbiamo P (E) = 365 = 1 1 365 2 365. Analogamente P (E) = P (F ) = 365. Abbiamo P (EF ) = 3652 = 1. Analogamente P (EG) = P (F G) = 1. Abbiamo EF G = EF 365 3 365 2 365 2 quindi P (EF G) = 1. Ne risulta che P (EF ) = P (E)P (F ), P (F G) = P (F )P (G), 365 2 P (EG) = P (E)P (G) ma P (EF G) P (E)P (F )P (G). 2. Esempi di spazi di probabilità con spazi campionari non numerabili Esempio 1. Modellizziamo l esperimento ideale in cui si sceglie a caso un punto dall intervallo [0, 1]. Lo spazio campionario è allora S = [0, 1]. Risulta naturale proporre come funzione di probabilità P (E) := lunghezza di E E S Siccome non tutti i sottinsiemi di S = [0, 1] hanno una lunghezza ben definita, la funzione P non potrà essere definita per ogni E [0, 1]. Si prova infatti che non esiste una funzione di probabilità sull insieme delle parti di [0, 1] per cui P (E) = b a se E [0, 1] è l intervallo [a, b]. Questo problema si supera modificando la definizione di spazio di probabilità per cui gli eventi non sono tutti i possibili sottinsiemi di S, ma una sottofamiglia con opportune proprietà (detta σ algebra) per cui la lunghezza è ben definita. Si noti che per definizione P (s}) = 0 per ogni esito s, cioè gli esiti hanno probabilità di realizzazione nulla (anche se uno verrà realizzato). Esempio 2. Lanciamo una moneta onesta infinite volte, e ad ogni lancio identifichiamo testa con 0 e croce con 1. Lo spazio campionario è dato da S = 0, 1} N+ = (x 1, x 2,... ) : x k 0, 1} k = 1, 2, 3,... }. x k è da intendersi come il risultato del lancio k-esimo. Dato a S e n N +, consideriamo l evento E n a E n a := x S : x i = a i, i = 1,..., n} Se ad esempio a = (0, 0, 0,...), allora E n a è l evento che corrisponde ad ottenere n volte testa nei primi n lanci. Anche se non sappiamo come definire una misura di probabilità su ogni sottoinsieme di S (S ha la cardinalità del continuo), la misura di probabilità P corrispondente a lanci di una moneta onesta è tale che P(E n a ) = 2 n (2.1) per ogni a S. Si noti che Ea n Ea n se n n e che a} = n 1 Ea n. Pertanto, applicando il teorema del limite di successioni monotone abbiamo P(a}) = P( n 1 E n a ) = lim n + P(En a ) = lim n + 2 n = 0 Vale a dire, ogni punto di S ha probabilità 0, e chiaramente P non è identificata dai suoi valori sui singleton. Esempio 3. Dato un insieme non vuoto S, e fissato un elemento x S, consideriamo la misura di probabilità su S detta delta di Dirac (ed indicata con P = δ x ), definita da 1 se x E δ x (E) = E S 0 se x E È immediato verificare che δ x è una misura di probabilità su S. Si può anche verificare che δ x è l unica misura di probabilità P su S tale che, per ogni y S 1 se x = y P(y}) = 0 se x y

6 Ossia, anche nel caso di S non numerabile, δ x è identificata dai suoi valori sui singleton. 3. Modelizzazione di n prove indipendenti di tipo successo/insuccesso Consideriamo n prove indipendenti, dove ciascuna ha 2 esiti possibili che denotiamo con 1, 0 ( successo, insuccesso rispettivamente) per cui il successo ha probabilità p. Lo spazio campionario dell esperimento dato dalle n prove è S = (x 1, x 2,..., x n ) : x i 1, 0} per ogni i = 1,..., n}. Per trovare la buona funzione di probabilità che modelizza questo esperimento osserviamo che possiamo scrivere P ( (x 1, x 2,..., x n ) ) = P ( n E i ) dove E i = alla prova i esima esce x i. Gli eventi E i si riferiscono a prove operativamente indipendenti, e quindi in una buona modelizzazione E 1, E 2,..., E n devono essere eventi matematicamente indipendenti. Ma allora deve essere P ( n E i ) = P (E i ). D altro canto abbiamo che P (E i ) = f(x i ) dove f(1) = p e f(0) = 1 p. Mettendo insieme tutti i pezzi abbiamo P ( (x 1, x 2,..., x n ) ) = P ( n E i ) = P (E i ) = f(x i ). Quindi la nostra candidata funzione di probabilità ha i seguenti valori sugli eventi elementari: P ( (x 1, x 2,..., x n ) ) = f(x i ) = p k (1 p) n k, (3.1) dove k indica il numero di 1 (successi) nella stringa (x 1, x 2,..., x n ). Siccome n f(x i) 0 per ogni (x 1, x 2,..., x n ) S e siccome (x 1,x 2,...,x n) S f(x i ) = [ x i 0,1} f(x i )] = [p + (1 p)] = 1, per la Prop. 4 concludiamo che esiste un unica funzione di probabilità P : P(S) [0, 1] che soddisfa (3.1). Conclusione: Consideriamo l esperimento dato da n prove indipendenti, dove ciascuna ha 2 esiti possibili che denotiamo con 1, 0 (successo, insuccesso rispettivamente) per cui la probabilità di successo in una singola prova è pari a p. Allora lo spazio di probabilità (S, P ) che modellizza tale esperimento è il seguente: S = (x 1, x 2,..., x n ) : x i 1, 0} per ogni i = 1,..., n}, mentre P è l unica funzione di probabilità P : P(S) [0, 1] che soddisfa (3.1).

7 4. Spazi di probabilità prodotto Iniziamo la nostra discussione con un esempio: vogliamo modelizzare con uno spazio di probabilità l esperimento che consiste nel lanciare prima un dado e poi una moneta truccata, dove la probabilità di avere testa è 1/3. I due lanci sono considerati operativamente indipendenti, cioè l uno non puo influenzare il risultato dell altro. Lo spazio campionario S, dato dall insieme dei possibili esiti, è banalmente S = (x 1, x 2 ) : x 1 1, 2,..., 6}, x 2 T, C} } (x 1 è da pensare come l esito del lancio del dado e x 2 come l esito del lancio della moneta). Essendo S finito (quindi numerabile) ci resta solo da definire la funzione di probabilità P : P(S) [0, 1]. Siccome la moneta è truccata, non possiamo invocare la simmetria e concludere che gli esiti di S sono equiprobabili. Invece, essendo gli esperimenti operativamente indipendenti, è naturale richiedere che, fissati x 1 1, 2,..., 6} e x 2 T, C}, i due eventi (visti come sottinsiemi di S) E 1 e E 2, definiti come E 1 = il lancio del dado ha dato x 1 e E 2 = il lancio della moneta ha dato x 2, siano eventi indipendenti. Quindi P deve essere tale che P ( (x 1, x 2 )} ) = P (E 1 E 2 ) = P (E 1 )P (E 2 ). È naturale porre P(E 1 ) = 1/6 e P(E 2 ) = 1/3 se x 2 = T oppure P(E 2 ) = 2/3 se x 2 = C. Quindi possiamo definire P sugli eventi elementari come P ( (x 1, x 2 )} ) 1 1 = 6 3 = 1 1 2 6 3 = 2 18 se x 2 = T, 18 se x 2 = C, Ricordiamo che, essendo S numerabile, la funzione di probabilità P è univocalmente determinata una volta assegnata sugli eventi elementari. Per avere una buona definizione bisogna però verificare che P(x}) [0, 1] per ogni x S e che x S P(x}) = 1. Queste verifiche seguono facilmente dalla definizione e sono lasciate al lettore. Il precedente esempio guida puo essere facilmente generalizzato come segue. Consideriamo un esperimento dato da n sotto esperimenti tra loro indipendenti (ci riferiamo all indipendenza operativa nell esecuzione degli esperimenti elementari). Supponiamo che l esperimento i esimo sia descritto dallo spazio di probabilità (S i, P i ), dove S i è lo spazio campionario che assumiamo essere numerabile (finito o infinito), e P i : P(S i ) [0, 1] è la funzione di probabilità. Allora l esperimento globale dato dagli n sotto esperimenti elementari tra loro indipendenti è descritto dallo spazio di probabilità (S, P) così definito: Lo spazio campionario S è dato dal prodotto cartesiano S = S 1 S 2 S n = (x 1, x 2,..., x n ) : x i S i 1 i n }. Essendo S numerabile, definiamo P : P(S) [0, 1] come l unica funzione di probabilità tale che P ( (x 1, x 2,..., x n ) }) = P i (x i }). (4.1) Essendo S numerabile la funzione di probabilità è univocalmente determinata una volta assegnata sugli eventi elementari. Per avere una buona definizione bisogna però verificare

8 che P(x}) 0 per ogni x S e che x S P(x}) = 1. Queste verifiche seguono facilmente dalla definizione (4.1) e sono lasciate al lettore. La formula (4.1) è motivata dalla seguente osservazione: se E i è l evento che il sotto esperimento i-esimo abbia esito x i allora, essendo i sotto esperimenti operativamente indipendenti, è naturale supporre che E 1, E 2,..., E n siano eventi indipendenti. Inoltre è naturale assumere che P(E i ) = P i (x i }). Quindi P ( (x 1, x 2,..., x n ) }) = P ( n E i ) = P(E i ) = P i (x i }). Il suddetto spazio di probabilità (S, P) è detto spazio di probabilità prodotto degli spazi di probabilità (S i, P i ), 1 i n. Valgono le seguenti proprietà: Proposizione 8. Siano (S i, P i ), 1 i n, spazi di probabilità con S i insieme numerabile, e sia (S, P) il loro spazio prodotto. 1) Se per ogni i E i S è un evento definito in termini del solo sotto esperimento i esimo, allora E 1, E 2,..., E n sono eventi indipendenti, 2) Se per ogni i S i è finito ed ha esiti equiprobabiliti, allora S ha esiti equiprobabili. Osserviamo che la prima delle suddette proprietà conferma che lo spazio prodotto è il giusto spazio di probabilità per modellizzare gli n esperimenti elementari indipendenti. Notiamo inoltre che se E i S è un evento definito in termini del solo esperimento elementare i esimo allora E i deve essere della forma E i = S 1 S 2 S i 1 Ẽi S i+1 S n, (4.2) per qualche insieme Ẽi S i. Dim. della Proposizione 8. Dimostriamo il primo punto. Per provare che E 1, E 2,..., E n sono indipendenti dobbiamo provare che, dati 1 i 1 < i 2 < < i r n, vale P (E i1 E i2 E ir ) = P(E i1 ) P(E i2 ) P(E ir ). Per semplicità di notazione (ma il ragionamento si generalizza in modo banale) consideriamo solo il caso in cui r = n e quindi i 1 = 1, i 2 = 2,... i n = n, cioè proviamo che P ( n E i ) = P(E i ). (4.3)

9 Come appena osservato, E i è della forma (4.2) per qualche Ẽi S i. Quindi, per l additività (finito o numerabile) di P e poi per (4.1), vale P(E i ) = P ((x 1,..., x i 1, x i, x i+1,, x n )}) = x 1 S 1 x i 1 S i 1 x i x Ẽi i+1 S i+1 x n S n P i (x i }) = x 1 S 1 x i 1 S i 1 x i x Ẽi i+1 S i+1 x n S n P 1 (x 1 }) P i 1 (x i 1 }) P i (x i }) x 1 S 1 x i 1 S i 1 x i Ẽi ( ) P i+1 (x i+1 }) P n (x n }). x i+1 S i+1 x n S n (4.4) Nell ultimo membro tutte le somme tranne la i esima valgono 1, mentre la i esima vale P i (Ẽi). Da cui concludiamo che P(E i ) = P i (Ẽi). (4.5) Per concludere procediamo come segue: ) P ( n E i ) = P (Ẽ1 Ẽ2 Ẽn = P ((x 1, x 2,..., x n )}) = x 1 Ẽ1 x 2 Ẽ2 x n Ẽn P 1 (x 1 })P 2 (x 2 }) P n (x n }) = P i (x i }) = (4.6) x 1 Ẽ1 x 2 Ẽ2 x n Ẽn x i Ẽi P i (Ẽi) = P(E i ). Si noti che ciò conclude la dimostrazione di (4.3). Nella suddetta espressione la prima identità segue dall identità insiemistica n E i = Ẽ1 Ẽ2 Ẽn, che a sua volta segue da (4.2). La seconda identità segue da (4.1), la terza dalla proprietà distributiva somma prodotto, la quarta dalla l additività (finita o numerabike) di P i e la quinta da (4.5). Dimostriamo ora il secondo punto della proposizione. Per ipotesi, P i (x i }) = 1/ S i per ogni x i S i e per ogni i. Per (4.1) abbiamo P((x 1, x 2, x n )}) = P 1 (x 1 })P 2 (x 2 }) P n (x n }) = 1 S 1 1 S 2 1 S n = 1 S Quindi tutti gli eventi elemetari di S hanno probabilità 1/ S e perciò S ha esiti equiprobabili. Esempio 1. Consideriamo n prove indipendenti, dove ogni prova ha due esiti che chiamiamo successo e insuccesso, per cui il successo si verifica con probabilità p [0, 1]. Codificando successo e insuccesso rispettivamente con le cifre 1 e 0, la singola prova i-esima è modellizzata dallo spazio di probabilità (S i, P i ), dove S i = 0, 1} e P i (1}) = p,

10 P i (0}) = 1 p =: q. Lo spazio prodotto che modellizza l esperimento globale dato dalle n prove, detto schema di Bernoulli di parametro p, è quindi (S, P) dove S = 0, 1} n = (x 1, x 2,..., x n ) : x i 0, 1} i : 1 i n} P((x 1, x 2,..., x n )}) = p k q n k, k := i : x i = 1, 1 i n} Esempio 2. Si lanciano 2 monete truccate per cui testa esce rispettivamente con con probabilità 1/3 e 1/4. Vogliamo determinare la probabilità che escano due facce uguali. Considerando S = (T, T, ), (C, C), (T, C), (C, T )}, dobbiamo calcolare P(E) dove E = (T, T ), (C, C)}. Per l additività finita e per (4.1) abbiamo P(E) = P((T, T )}) + P((C, C)}) = (1/3)(1/4) + (2/3)(3/4) = 7/12. 5. Variabili aleatorie reali Proposizione 9. Data X : S R variabile aleatoria discreta, vale: V ar(x) = 0 se e solo se P (X = E(X)) = 1. Proof. Sia x i } l insieme numerabile dei possibili valori assunti da X. Supponiamo prima che V ar(x) = 0. Per la proposizione che permette di calcolare E(f(X)) con f(u) = (u E(X)) 2 abbiamo V ar(x) = E(f(X)) = i (x i E(X)) 2 p X (x i ). (5.1) Siccome V ar(x) = 0 tutti gli addendi nel membro destro devono essere nulli, quindi se p X (x i ) > 0 allora x i = EX. Quindi l unico valore possibile assunto con probabilità positiva è E(X) (deve essere assunto altrimenti sarebbe p X (x i ) = 0 per ogni i mentre sappiamo che 1 = i p X(x i ) ). Inoltre, siccome 1 = i p X(x i ) e siccome p X (x i ) = 0 se x i E(X), deve valere p X (E(X)) = 1. Abbiamo quindi provato che 1 = p X (E(X)) = P (X = E(X)). Supponiamo viceversa che P (X = E(X)) = 1. Ne deriva che E(X) deve essere un possibile valore di X (altrimenti l evento X = E(X)} sarebbe impossibile e quindi la sua probabilità sarebbe 0). A meno di rinominare i possibili valori, posso assumure x 1 = E(X). Si noti che P (X = E(X)) = 1 implica che P (X E(X)) = 0. Sia ora x i un possibile valore di X diverso da E(X). Siccome X = x i } X E(X)}, per monotonia abbiamo P (X = x i ) P (X E(X)) = 0 da cui concludiamo che p X (x i ) = P (X = x i ) = 0. Per (5.1) concludiamo che V ar(x) = i (x i E(X)) 2 p X (x i ) = (x 1 E(X)) 2 p X (x 1 ) + i 1 (x i E(X)) 2 p X (x i ) = 0 1 + i 1(x i E(X)) 2 0 = 0 Abbiamo quindi provato che V ar(x) = 0. Proposizione 10. Sia S numerabile e sia X : S R variabile aleatoria. Allora X è v.a. discreta e E(X) = s S X(s)P (s}).

11 Proof. L insieme dei possibili valori di X è dato da X(S), immagine di uno spazio numerabile, quindi è esso stesso un insieme numerabile. Ne deriva che X è v.a. discreta. Sia x i } = X(S) l insieme dei possibili valori di X. Abbiamo X(s)P (s}) = X(s)P (s}) = x i P (s}) = x i P (s}) s S i s S: i s S: i s S: X(s)=x i X(s)=x i X(s)=x i (5.2) Siccome S è numerable e X = x i } = s S : X(s) = x i } S, per additività finita o numerabile abbiamo P (X = x i ) = P (s}). s S : X(s)=x i Inserendo la suddetta uguaglianza nell ultimo membro di (5.2) otteniamo X(s)P (s}) = x i P (s}) = x i P (X = x i ) s S i s S: i X(s)=x i e ora basta osservare che l ultimo membro è per definizione E(X). 6. Variabili aleatorie discrete vettoriali Nel seguito, salvo indicazione esplicita, (S, P ) sarà un generico spazio di probabilità. Inoltre, v.a. sarà l abbreviazione di variabile aleatoria. Definizione 2. Una v.a. m dimensionale discreta (detta anche vettore aleatorio discreto) è una funzione X = (X 1, X 2,..., X m ) : S R m per cui le funzioni X 1, X 2,..., X m sono v.a. discrete. Esempio. Segliamo a caso uno studente della classe e descriviamo la sua data di nascita con la terna di numeri (X 1, X 2, X 3 ) dove X 1 è il numero del giorno di nascita, X 2 il mese usando la numerazione da 1 a 12 (1=gennaio,..) e X 3 è l anno di nascita. Una v.a. 1 dimensionale discreta è semplicemente una v.a. discreta (reale, cioè a valori in R). Proposizione 11. Se X è v.a. m dim. discreta allora X può assumere al più un infinità numerabile di valori. Proof. Osserviamo che X può assumere solo valori in W 1 W 2 W m = (w 1, w 2,..., w m ) : w 1 W 1, w 2 W 2,..., w m W m } dove in generale W k è l insieme dei possibili valori assunti da X k. Siccome il prodotto cartesiano di insiemi numerabile è un insieme numerabile, otteniamo che W 1 W 2 W m è numerabile e quindi i possibili valori di X formano un insieme numerabile (uso che un sottoinsieme di un insieme numerabile è numerabili). Data X v.a. m dim. discreta, definiamo la densità discreta di X come la mappa p X : R m [0, 1] tale che p X (a) = P (X = a), a R m.

12 Proposizione 12. Data X v.a. m dim. discreta, valgono le seguenti proprietà: (i) p X (a) 0 per ogni a R m, (ii) p X (a) > 0 per un insieme numerabile di valori a R m, (iii) a R m : p X (a)>0 p X(a) = 1. Viceversa, data una mappa p : R m [0, 1] soddisfacente le suddette tre proprietà con p X sostituito da p, esiste una v.a. m dim. discreta X tale che p = p X. Si noti che il punto (ii) giustifica la notazione al punto (iii): la somma nel punto (iii) è una somma finita o una serie, oggetti ben definiti. La dimostrazione della suddetta proposizione non fa parte del programma. Si noti che la suddetta proposizione vale anche per m = 1. Definizione 3. Se X 1,..., X m : S R sono v.a. discrete, la densità discreta p X della v.a. m dim. X = (X 1,..., X m ) è detta densità congiunta delle v.a. X 1,..., X m, mentre le densità discrete p X1,..., p Xm rispettivamente di X 1,..., X m sono dette densità marginali di X. Proposizione 13. Nota la densità congiunta si ottengono le densità marginali. In generale, date X 1,..., X m : S R v.a. discrete, la densità marginale p Xi si ottiene come p Xi (a) = P X1,X 2,...,X m (a 1, a 2,..., a i 1, a, a i+1,..., a m ). (6.1) a 1,a 2,...,a i 1,a i+1,...,a m dove a 1 varia tra i possibili valori di X 1, a 2 varia tra i possibili valori di X 2 e così via. Per esempio nel caso m = 2 vale p X1 (a) = a 2 p X1,X 2 (a, a 2 ), p X2 (a) = a 1 p X1,X 2 (a 1, a), (6.2) dove nella prima somma a 2 varia tra i possibili valori di X 2 e nella seconda somma X 1 varia tra i possibili valori di X 1. Infine, le densità marginali non determinano la densità congiunta. Proof. Consideriamo per semplicità di notazione il caso m = 2, per cui (6.1) si riduce a (6.2). Chiamo W 2 l insieme dei possibili valori di X 2. Allora p X1 (a) = P (X 1 = a) = P (X 1 = a, X 2 W 2 ) = P (X 1 = a, X 2 = a 2 ) = p X1,X 2 (a, a 2 ) a 2 W 2 a 2 W 2 (si noti che la terza identità nella suddetta espressione segue dalla additivà - numerabile o finita - di P ). In conclusione, p X1 (a) = a 2 W 2 p X1,X 2 (a, a 2 ). Analogamente si prova che p X2 (a) = a 1 W 1 p X1,X 2 (a 1, a) dove W 1 è l insieme dei possibili valori di X 1. Questo conclude la dimostrazione di (6.2). Per dimostrare che le densità marginali non determinano quella congiunta, diamo il seguente controesempio. Lancio due volte una moneta e, dato i = 1, 2, chiamo U i la v.a. che vale 1 se al lancio i esimo esce testa e 0 se al lancio i esimo viene croce. Pongo X 1 := U 1, X 2 := U 2, X 1 := U 1 e X 2 := U 1. È facile verificare che p X 1 = p X 1 e p X2 = p X 2, mentre p X1,X 2 p X 1,X 2 (lasciamo la verifica come facile esercizio). Esperimento 1. Da un urna contenente 6 palline numerate da 1 a 6 si estraggono due palline con rimpazzo. Indichiamo con X 1 e X 2 i risultati delle due estrazioni, e poniamo

13 X = (X 1, X 2 ). L esperimento è descritto dallo spazio campionario S = (u, v) : u, v 1,..., 6} }, avente esiti equiprobabili. Si noti che X 1 (u, v) = u, X 2 (u, v) = v e X(u, v) = (u, v). È facile calcolare p X1, p X2 e p X : 1/6 se c 1,..., 6}, p X1 (c) = p X2 (c) = 0 altrimenti, mentre p X (u, v) = 1/36 se (u, v) S, 0 altrimenti. Esperimento 2. Dalla suddetta urna si estraggono due palline senza rimpiazzo. Indichiamo con X 1 e X 2 i risultati delle due estrazioni, e poniamo X = (X 1, X 2 ). L esperimento è descritto dallo spazio campionario S = (u, v) : u, v 1,..., 6}, u v } avente esiti equiprobabili. Si noti che X 1 (u, v) = u, X 2 (u, v) = v e X (u, v) = (u, v). È facile calcolare p X 1, p X 2 e p X : 1/6 se c 1,..., 6}, p X 1 (c) = p X 2 (c) = 0 altrimenti, mentre p X (u, v) = 1/30 se (u, v) S, 0 altrimenti. Confrontando i due esperimenti, otteniamo che p X1 = p X 1, p X2 = p X 2 ma p X p X, quindi le densità marginali non determinano univocalmente la densità congiunta come già dimostrato. 7. Indipendenza di variabili aleatorie Definizione. Le v.a. X 1, X 2,..., X m : S R (definite sullo stesso spazio di probabilità) si dicono indipendenti se per ogni scelta di A 1, A 2,..., A m R si ha P (X 1 A 1, X 2 A 2,..., X m A m ) = P (X 1 A 1 )P (X 2 A 2 ) P (X m A m ). (7.1) Si noti che la definizione vale in generale, anche per v.a. non discrete. Proposizione 14. Le v.a. X 1,... X m : S R sono indipendenti se e solo se per ogni scelta di A 1, A 2,..., A m R gli eventi X1 A 1 }, X2 A 2 },..., Xm A m } sono indipendenti. Dim. Supponiamo X 1,..., X m essere indipendenti e fissiamo A 1, A 2,..., A m R. Per provare che gli eventi X 1 A 1 }, X2 A 2 },..., Xm A m } sono indipendenti dobbiamo provare che P (X i1 A i1 } X ir A ir }) = P (X i1 A i1 ) P (X ir A ir ) (7.2)

14 per ogni scelta di indici 1 i 1 < i 2 < < i r m are variare di r = 2, 3,..., m. Siccome X i1 A i1 } X ir A ir } = m X i A i } dove A A i se i i 1,..., i r } i = R altrimenti, per la definizione di indipendenza abbiamo Usando che P (X i1 A i1 } X ir A ir }) = P (X i A i) = m P (X i A i). P (X i A i ) se i i 1,..., i r } 1 altrimenti otteniamo (7.2). Viceversa, supponiamo che per ogni per ogni scelta di A 1, A 2,..., A m R gli eventi X1 A 1 }, X2 A 2 },..., Xm A m } sono indipendenti. Allora (7.1) è banalmente verificata, da cui l indipendenza di X 1,..., X m. Diamo ora un criterio molto utile per verificare l indipendenza di v.a. discrete: Proposizione 15. Siano X 1,... X m : S R v.a. discrete. Allora X 1,..., X m sono indipendenti se e solo se p X1,X 2,...,X m (a 1, a 2,..., a m ) = p X1 (a 1 )p X2 (a 2 ) p Xm (a m ) (7.3) dove a 1, a 2,..., a m variano tra i possibili valori di X 1, X 2,..., X m, rispettivamente. Dim. Per semplicità di notazione consideriamo solo il caso m = 2, il caso generale si tratta con gli stessi ragionamenti. Supponiamo dapprima che X 1, X 2 siano v.a. discrete indipendenti e proviamo (7.3). Per definizione, p X1,X 2 (a 1, a 2 ) = P (X 1 = a, X 2 = a 2 ). Per l indipendenza di X 1, X 2, l ultimo membro può essere scritto come P ( X 1 = a 1 ) P ( X2 = a 2 ). Quindi possiamo concludere che p X1,X 2 (a 1, a 2 ) = P (X 1 = a, X 2 = a 2 ) = P ( X 1 = a 1 ) P ( X2 = a 2 ) = px1 (a 1 )p X2 (a 2 ). Supponiamo ora che valga (7.3) con m = 2, per ogni a 1, a 2 possibili valori di X 1, X 2 rispettivamente, e proviamo l indipendenza di X 1 e X 2. Denotiamo con W 1, W 2 l insieme dei possibili valori di X 1, X 2 rispettivamente. Fissati A 1, A 2 R possiamo scrivere P (X 1 A 1, X 2 A 2 ) = P ( a1 A 1 W 1, a 2 A 2 W 2 X 1 = a 1, X 2 = a 2 }). (7.4) Per l additività di P (finita o numerabile), P ( a1 A 1 W 1,a 2 A 2 W 2 X 1 = a 1, X 2 = a 2 }) = Per (7.3) con m = 2 abbiamo che a 1 A 1 W 1 a 2 A 2 W 2 P (X 1 = a 1, X 2 = a 2 ). P (X 1 = a 1, X 2 = a 2 ) = p X1,X 2 (a 1, a 2 ) = p X1 (a 1 )p X2 (a 2 ) = P (X 1 = a 1 )P (X 2 = a 2 ). (7.5)

15 Quindi abbiamo a 1 A 1 W 1 P (X 1 = a 1, X 2 = a 2 ) = a 2 A 2 W 2 P (X 1 = a 1 )P (X 2 = a 2 ) = a 1 A 1 W 1 a 2 A 2 W 2 P (X 1 = a 1 ) P (X 2 = a 2 ) = a 1 A 1 W 1 a 2 A 2 W 2 P (X 1 A 1 W 1 )P (X 2 A 2 W 2 ) = P (X 1 A 1 )P (X 2 A 2 ). (7.6) Combinando (7.4), (7.5) e (7.6) otteniamo che quindi X 1, X 2 sono indipendenti. P (X 1 A 1, X 2 A 2 ) = P (X 1 A 1 )P (X 2 A 2 ) Esempi. Applicando il suddetto criterio o verificando le ipotesi nella definizione di indipendenza è facile verificare che le variabili X 1, X 2 dell esperimento 1 sono indipendenti, mentre le variabili X 1, X 2 dell esperimento 2 non sono indipendenti. Nota. Grazie alla Proposizione 2, otteniamo che, se X 1,..., X m : S R sono v.a. discrete indipendenti, allora la densità congiunta di X 1,..., X m è univocalmente determinata dalle densità marginali (infatti vale (7.7) ). Per v.a. in generale, non necessariamente discrete, ricordiamo che vale il seguente criterio di cui non richiediamo la dimostrazione: Proposizione 16. Siano X 1,... X m : S R v.a. Allora, X 1,..., X m sono indipendenti se e solo se F X1,...,X m (a 1,..., a m ) = F X1 (a 1 ) F Xm (a m ) (7.7) per ogni a 1,..., a m R, dove la funzione di distribuzione congiunta F X1,...,X m : R m [0, 1] è definita come F X1,...,X m (a 1,..., a m ) = P (X 1 a 1,..., X m a m ), mentre F Xi è la funzione di distribuzione di X i, ovvero F Xi (a) = P (X i a) per ogni a R. 8. Valor medio della funzione di una v.a. m dimensionale La seguente proposizione estende un risultato già studiato nel caso m = 1, la relativa dimostrazione è completamente analoga al caso m = 1 e quindi verrà omessa: Proposizione 17. Siano X 1,..., X m : S R v.a. discrete, sia X = (X 1,..., X m ) : S R m e sia f : R m R una generica funzione. Allora la mappa composta f(x) = f X : S R è una v.a. discreta. Inoltre, E (f(x)) = ( ) f (a 1, a 2,..., a m ) p X1,X 2,...,X m a1, a 2,..., a m, (8.1) a 1,a 2,...,a m dove a 1, a 2,..., a m variano tra i possibili valori di X 1, X 2,..., X m rispettivamente. Esempio. Consideriamo le v.a. X 1 e X 2 dell esperimento 2. Vogliamo calcolare E(X 1 X 2 ). A tal fine possiamo usare la Prop. 17 dato che X 1 X 2 = f(x ) dove X = (X 1, X 2 )

16 e f : R 2 R è definita come f(u, v) = u v. Quindi E(X 1 X 2) = [ 6 1 30 u=1 v=1 6 6 u vp(x 1 = u, X 2 = v) = 1 u v = 30 u,v:1 u,v 6, u v ] [ 6 u v 1 2 2 2 6 2 = 1 ( 6 u ) ] 2 1 2 2 2 6 2 =... 30 u=1 v=1 u=1 Indichiamo due utili corollari della precedente proposizione: Corollario 1. Se X 1,..., X m : S R sono v.a. discrete e c 1,..., c m R, allora vale E(c 1 X 1 + + c m X m ) = c 1 E(X 1 ) + + c m E(X m ). (8.2) Dim. Per semplicità di notazione, supponiamo m = 2. Il caso generale è completamente analogo. Grazie alla suddetta proposizione 17 con f(u, v) = c 1 u + c 2 v, otteniamo che E(c 1 X 1 + c 2 X 2 ) = a 1,a 2 ( c1 a 1 + c 2 a 2 )P (X 1 = a 1, X 2 = a 2 ) = c 1 a 1 P (X 1 = a 1, X 2 = a 2 ) + c 2 a 2 P (X 1 = a 1, X 2 = a 2 ) = a 1,a 2 a 1,a 2 ( ) ( ) c 1 a 1 P (X 1 = a 1, X 2 = a 2 ) + c 2 a 2 P (X 1 = a 1, X 2 = a 2 ) = a 1 a 2 a 2 a 1 c 1 a 1 P (X 1 = a 1 ) + c 2 a 2 P (X 2 = a 2 ) = c 1 E(X 1 ) + c 2 E(X 2 ). a 1 a 2 Sopra a 1, a 2 variano tra i possibili valori di X 1, X 2, rispettivamente. Corollario 2. Se X 1, X 2,..., X m : S R sono v.a. discrete indipendenti, allora E(X 1 X 2 X m ) = E(X 1 ) E(X 2 ) E(X m ). (8.3) Dim. Per semplicità di notazione, supponiamo m = 2. Il caso generale è completamente analogo. Grazie alla Proposizione 17 otteniamo che E(X 1 X 2 ) = a 1,a 2 a 1 a 2 P (X 1 = a 1, X 2 = a 2 ) = = a 1 a 2 P (X 1 = a 1 )P (X 2 = a 2 ) = a 1,a 2 [ ] [ ] a 1 P (X 1 = a 1 ) a 2 P (X 2 = a 2 ) = E(X 1 )E(X 2 ). a 1 a 2 Si noti che nella seconda identità abbiamo usato l indipendenza di X 1, X 2. Proposizione 18. Siano X 1,..., X n variabili aleatorie indipendenti (quindi definite sullo stesso spazio di probabilità). Allora date le funzioni f 1, f 2,..., f n : R R, le variabili aleatorie f 1 (X 1 ),..., f n (X n ) sono indipendenti ed in particolare vale [ n ] E f i (X i ) = E [ f i (X i ) ] (8.4)

17 Proof. Dimostriamo prima l indipendenza, ovvero dobbiamo provare che per ogni famiglia di insiemi A 1, A 2,..., A n R vale P(f i (X i ) A i i : 1 i n) = P(f i (X i ) A i ). Dato che f i (X i ) A i se e solo se X i fi 1 (A i ) possiamo scrivere P(f i (X i ) A i i : 1 i n) = P ( X i f 1 i (A i ) i : 1 i n ). Per l indipendenza di X 1, X 2,..., X n possiamo riscrivere il suddetto membro destro come P ( X i fi 1 (A i ) i : 1 i n ) = P ( X i fi 1 (A i ) ) Usando di nuovo che f i (X i ) A i se e solo se X i fi 1 (A i ) possiamo scrivere P ( X i fi 1 (A i ) ) = P ( X i fi 1 (A i ) i : 1 i n ). Mettendo insieme le suddette uguaglianza otteniamo l indipendenza. Nel caso di v.a. discrete indipendenti abbiamo provato che il valore atteso del prodotto coincide con il prodotto dei singoli valori attesi (si veda il file di integrazioni). Tale propietà vale anche per v.a.continue, e anche miste... ma non richiedo la dimostrazione nel caso generale. Usando tale propietà e l indipendenza appena provata di f 1 (X 1 ),..., f n (X n ) otteniamo immediatamente (8.4). 9. Varianza di una somma di variabili aleatorie Definizione 4. Date X 1, X 2 : S R v.a. discrete, definiamo la covarianza Cov(X 1, X 2 ) tra X 1 e X 2 come Cov(X 1, X 2 ) = E [(X 1 E(X 1 )) (X 2 E(X 2 ))]. (9.1) Se Cov(X 1, X 2 ) = 0 diciamo che X 1, X 2 sono non correlate. Proposizione 19. Vale Cov(X 1, X 2 ) = Cov(X 2, X 1 ), Cov(X, X) = Var(X) e Cov(X 1, X 2 ) = E(X 1 X 2 ) E(X 1 )E(X 2 ) (9.2) Dim. Le prime due uguaglianza sono banali. Proviamo (9.2). Sviluppando il prodotto otteniamo che E [(X 1 E(X 1 )) (X 2 E(X 2 ))] = E [X 1 X 2 X 1 E(X 2 ) E(X 1 )X 2 + E(X 1 )E(X 2 )]. Grazie alla linearità dell operatore valor medio, possiamo riscrivere il membro destro della suddetta espressione come E(X 1 X 2 ) E(X 1 )E(X 2 ) E(X 1 )E(X 2 ) + E(X 1 )E(X 2 ) = E(X 1 X 2 ) E(X 1 )E(X 2 ), da cui (9.2). Proposizione 20. Siano X 1, X 2 : S R v.a. discrete. Se X 1, X 2 sono indipendenti allora Cov(X 1, X 2 ) = 0. Il viceversa non è vero.

18 Dim. Se X 1, X 2 sono indipendenti, otteniamo che Cov(X 1, X 2 ) = 0 grazie al Corollario 2. Per provare che il viceversa non è vero basta esibire un controesempio. A tal fine, consideriamo due v.a. X 1, X 2 definite sullo stesso spazio di probabilità a valori 1, 0, 1 tali P (X 1 = 1, X 2 = 0) = P (X 1 = 1, X 2 = 0) = P (X 1 = 0, X 2 = 1) = P (X 1 = 0, X 2 = 1) = 1/4. Una tale coppia di v.a. esiste grazie alla Proposizione 1. Si noti che P (X 1 = 1) = P (X 1 = 1) = P (X 2 = 1) = P (X 2 = 1) = 1/4, P (X 1 = 0) = P (X 2 = 0) = 1/2. quindi E(X 1 ) = E(X 2 ) = 0. Siccome P (X 1 X 2 = 0) = 1 abbiamo anche che E(X 1 X 2 ) = 0. Quindi Cov(X 1, X 2 ) = E(X 1 X 2 ) E(X 1 )E(X 2 ) = 0. Banalmente X 1, X 2 non sono indipendenti, infatti P (X 1 = 1, X 2 = 1) = 0, mentre P (X 1 = 1)P (X 2 = 1) = 1/4 1/4 > 0 e ciò contraddice (7.1). Il concetto di covarianza risulta utile per studiare la varianza di una somma di v.a. discrete definite sullo stesso spazio di probabilità: Proposizione 21. Se X 1,..., X m : S R sono v.a. discrete, allora m Var(X 1 + + X m ) = Var(X j ) + 2 Cov(X i, X j ). (9.3) j=1 1 i<j m In particolare, se X 1,..., X m sono indipendenti, o almeno a 2 a 2 indipendenti, o almeno a 2 a 2 non correlate, allora m Var(X 1 + + X m ) = Var(X j ). (9.4) Dim. (9.4) deriva da (9.3) dato che nei casi considerati vale Cov(X i, X j ) = 0 con i j. Dimostriamo (9.3). Per definizione di varianza ho: [ m ] 2 m Var(X 1 + + X m ) = E X i E( X i ). (9.5) Dato che E( m X i) = m E(X i) posso scrivere [ m ] 2 [ m m ] 2 E X i E( X i ) = E X i E(X i )}. (9.6) Osservo che [ m 2 X i E(X i )}] = m X i E(X i )} 2 + 2 j=1 1 i<j m X i E(X i )}X j E(X j )}

19 Quindi per la linerità di E( ) ho [ m ] 2 E X i E(X i )} = m E ( X i E(X i )} 2) + 2 E (X i E(X i )}X j E(X j )}). (9.7) 1 i<j m Combinando (9.5), (9.6) e (9.7) ed infine usando la definizione di varianza e covarianza ho Var(X 1 + + X m ) = = m E ( X i E(X i )} 2) + 2 E (X i E(X i )}X j E(X j )}) m Var(X i ) + 2 1 i<j m 1 i<j m Cov(X i, X j ). Concludiamo con la bilinerità della covarianza: Proposizione 22. Siano X 1,..., X m, Y 1,..., Y n v.a. definite sullo stesso spazio di probabilità e siano a 1,..., a m, b 1,..., b n numeri reali. Allora m n m n Cov a i X i, b j Y j = a i b j Cov (X i, Y j ). (9.8) j=1 j=1 Dim. Sia Y v.a. generica definita sullo stesso spazio di probabilità delle X 1,..., X m. Allora ( m ) ( ) m m Cov a i X i, Y = E [ a i X i E( a i X i )][Y E(Y )] = ( m ) E a i [X i E(X i )][Y E(Y )] = m a i E ([X i E(X i )][Y E(Y )]) = m a i Cov(X i, Y ), dove la prima e la quarta uguaglianza seguono dalla definizione di covarianza, la seconda e la terza dalla linearità del valore atteso. Abbiamo provato che Cov(, ) è lineare nella prima entrata, analogamente lo è nella seconda. Quindi, applicando prima la linearità nella prima entrata e poi la linearità nella seconda entrata abbiamo m n m n m n Cov a i X i, b j Y j = a i Cov X i, b j Y j = a i b j Cov (X i, Y j ). j=1 j=1 j=1

20 10. Integrazione su v.a. di Poisson e v.a. geometrica La v.a. geometrica gode della seguente proprietà detta assenza di memoria: Proposizione 23. Se X è v.a. geometrica di parametro p, allora dati n 1, n 2 interi positivi vale P (X = n 1 + n 2 X > n 1 ) = P (X = n 2 ). Dim. P (X = n 1 + n 2 X > n 1 ) = P (X = n 1 + n 2, X > n 1 ) P (X > n 1 ) = p(1 p)n 1+n 2 1 (1 p) n 1 = P (X = n 1 + n 2 ) P (X > n 1 ) = p(1 p) n 2 1 = P (X = n 2 ). Proposizione 24. Siano X, Y v.a. di Possoin indipendenti rispettivamente di parametro λ e µ, definite sullo stesso spazio di probabilità. Allora X + Y è v.a. di Poisson di parametro λ + µ. Dim. X + Y assume con probabilità positiva solo valori interi non negativi. Sia k un numero intero non negativo. Allora P (X + Y = k) = k P (X = j, Y = k j) = j=0 e (λ+µ) k j=0 k e j=0 λ j µ k j j! (k j)! = e (λ+µ) k! λ λj j! k j=0 e µ µk j (k j)! = ( k )λ j µ k j (λ+µ) (λ + µ)k = e j k! (l ultima uguaglianza segue dal teorema del binomio). Siccome l ultima espressione coincide con la probabilità per una v.a. di Poisson di parametro λ + µ di essere pari a k, abbiamo la tesi. La v.a. di Poisson, in certe condizioni, approssima la v.a. binomiale. Infatti, vale la seguente proprietà detta anche legge dei piccoli numeri: Proposizione 25. Per ogni n 1, 2, 3,... } sia p n (0, 1) tale che il limite lim n np n esiste finito e positivo. Allora, posto X n = Bin(n, p n ) e Y = P oisson(λ) dove λ = lim n np n, vale lim P (X n = k) = P (Y = k), k 0, 1, 2,... }. n Dim. Dobbiamo dimostrare che per ogni k intero non negativo vale ( n lim )p kn(1 p n ) n k λ λk = e n k k!. A tal fine osserviamo che ( ) n 1 n(n 1)(n 2) (n k + 1) 1 = k nk k! n k = ( 1 1 ) ( 1 2 ) ( 1 k 1 ) 1 n n n k!

21 e quindi ( n )p kn(1 p n ) n k = (n p n) k k k! ( 1 1 ) ( 1 2 ) ( 1 k 1 ) (1 pn ) n n n n (1 p n ) k. Siccome n p n λ abbiamo che (n p n ) k λ k. Inoltre, vale ( lim 1 1 ) ( = lim 1 2 ) ( = = lim 1 k 1 ) n n n n n n = 1. Siccome n p n λ abbiamo che p n 0. Quindi (1 p n ) k 1. Infine, abbiamo che lim (1 p n) n = lim e n log(1 pn) = e lim log(1 pn) n (np n) pn. n n L ultimo limite si calcola ricordando che np n λ, mentre per De L Hospital vale Quindi log(1 x) 1 lim = lim x 0 x x 0 1 x = 1. e lim n (np n) log(1 pn) pn = e λ. Mettendo insieme tutti i limiti calcolati finora otteniamo la tesi. 11. Monotonia del valore atteso Proposizione 26. Sia X una v.a. non negativa, allora E(X) 0. Come conseguenza abbiamo la monotonia del valore atteso: se X e Y sono variabili aleatorie definite sullo stesso spazio di probabilità e X Y, allora E(X) E(Y ). Proof. Dimostriamo la prima parte della proposizione restringendoci al caso di X v.a. discreta. Assumiamo X 0. Per definizione di valore atteso ho E(X) = x i x i P (X = x i ) dove x i varia tra i possibili valori di X. Siccome X 0, ho x i 0 per ogni i. Essendo P (X = x i ) 0 ho x i P (X = x i ) 0 per ogni i e quindi E(X) = x i x i P (X = x i ) 0. Dimostriamo ora la seconda parte della proposizione, cioé che EX EY se X, Y : S R e X Y. A tal fine pongo Z := X Y. Ho Z 0 dato che X Y. Per la prima parte della proposizione (già dimostrata) concludo che EZ 0. Siccome ho anche EZ = EX EY per linearità del valore atteso, concludo che EX EY = EZ 0, e quindi EX EY. 12. Valore atteso condizionato Definizione 5. Dato un evento F di probabilità positiva e data una v.a. X, definitiamo il valore atteso di X condizionato a F, ovvero E[X F ], come il valore atteso di X rispetto alla probabilità condizionata P ( F ). Proposizione 27. Siano F 1, F 2,..., F n eventi di probabilità positiva a due a due disgiunt la cui unione è tutto lo spazio campionario S. Allora data una v.a. X vale n E(X) = E[X F i ]P (F i ).

22 Proof. Diamo la dimostrazione assumendo che X sia v.a. discreta. Usando la legge della probabilità totale e scambiando l ordine delle somme otteniamo: E(X) = xp (X = x) = n x P (X = x F i )P (F i ) = x R x R ( ) n n xp (X = x F i ) P (F i ) = E[X F i ]P (F i ). x R Infatti: la prima = deriva dalla def. di valore atteso, la seconda = deriva dalla legge della probabilità totale, la terza = segue da uno scambio di somme, l ultima = deriva dalla def. di valore atteso condizionato. Esempio. Vi sono due urne con palline. Nell urna A vi sono 4B, 3R,2V (4 palline bianche, 3 rosse..). Nell urna B vi sono 5B, 2R, 1V. Lancio un dado. Se esce 1 estraggo 4 palline dall urna A, altrimenti estraggo 2 palline dall urna B. Determinare E(X) dove X è il numero di palline bianche estratte. Svolgimento. Sia F = esce 1. Per la suddetta prop. applicata a F, F c abbiamo E(X) = E(X F )P (F ) + E(X F c )P (F c ) = E(X F )(1/6) + E(X F c )(5/6). Rispetto a P ( F ) X è v.a. ipergeometrica(n=9,n=4,m=4). Quindi E(X F ) = 4 4/9 = 16/9. Rispetto a P ( F c ) X è v.a. ipergeometrica(n=8,n=2,m=5). Quindi E(X F ) = 2 5/8 = 5/4. Mettendo insieme tutti i pezzi abbiamo E(X) = (16/9)(1/6) + (5/4)(5/6). 13. Legge di una v.a. Proposizione 28. Siano date due v.a. X, Y tali che in un opportuno intorno dell origine valga M X (t) = M Y (t) <. Allora X e Y hanno la stessa distribuzione. Ricordiamo la seguente definizione: Definizione 6. La legge, o distribuzione, di una v.a. X è la mappa R A P(X A) [0, 1]. Ad essere precisi nella suddetta definizione uno dovrebbe restringersi ai sottinsiemi A borelliani, ma tralasciamo questi dettagli di teoria della misura. Proposizione 29. Siano X, Y v.a. discrete. Allora X, Y hanno la stessa distribuzione se e solo se p X = p Y (uguaglianza delle densità discrete). Siano X, Y v.a. continue. Allora X, Y hanno la stessa distribuzione se e solo se f X (z) = f Y (z) per tutti i valori z R a meno di un insieme di lunghezza 0 (uguaglianza delle funzioni di densità a meno di insieme di lunghezza 0). Proof. Supponiamo X, Y siano v.a. discrete aventi la stessa legge. Prendendo A = z} con z R, otteniamo p X (z) = P(X A) = P(Y A) = p Y (z), dove la prima e la terza uguaglianza derivano dalla definizione di densità di probabilità, mentre la secondo deriva dall ipotesi che X, Y hanno la stessa legge. Siccome per una generica v.a. discreta Z vale P(Z A) = z A p Z (z) con la convenzione che la somma a destra è per i valori z per cui p Z (z) > 0, abbiamo che data una v.a. discreta la sua legge à determinata dalla sua densità di probabilità. Quindi

23 se due v.a. discrete X, Y hanno la stessa densità di probabilità, allora devono avere la stessa legge. La dimostrazione nel caso di v.a. continue richiede alcune conoscenze di teoria della misura per ora non acquisite dagli studenti. Ci limitiamo ad osservare che se f X e f Y sono uguali allora banalmente X, Y hanno la stessa legge. 14. Interpretazione frequentistica della probabilità Consideriamo un esperimento descritto da uno spazio di probabilità (Ŝ, ˆP ) e concentria moci su un dato evento F Ŝ. Ad esempio, se consideriamo il lancio di un dado onesto e ci interessa l evento F = esce 1 o esce 2 abbiamo Ŝ = 1, 2, 3, 4, 5, 6}, ˆP (E) = E /6 per ogni E Ŝ e F = 1, 2}. Vogliamo ottenere nell ambito della probabilità assiomatica un interpretazione frequentistica della probabilità ˆP (F ). A tal fine consideriamo una successione di prove identiche e operativamente indipendenti, con lo stesso protocollo dell esperimento iniziale descritto dallo spazio di probabilità (Ŝ, ˆP ) (nell esempio del dado: lancio un dado infinite volte). Sia (S, P ) lo spazio di probabilità che descrive la suddetta successione di prove. Considero le variabili aleatorie X n : S 0, 1} con n = 1, 2, 3,... definite come 1 se nella prova n esima si verifica F, X n := 0 altrimenti. Si noti che X n assume valore 1 con prob. ˆP (F ) e assume valore 0 con prob. ˆP (F c ). Quindi le variabili X n, con n 1, sono identicamente distribuite ed inoltre E(X n ) = ˆP (F ). Siccome le variabili X n, con n 1, si riferiscono ad esperimenti operativamente indipendenti, abbiamo che le variabili aleatorie X n, con n 1, sono indipendenti. Siccome abbiamo verificato che X n, n 1, sono variabili aleatorie i.i.d. con media ˆP (F ), possiamo applicare la legge forte dei grandi numeri che ci dà: ( P lim n X 1 + X 2 + X n n ) = ˆP (F ) = 1. (14.1) Definiamo ν n (F ) come la frequenza relativa con cui l evento F si è realizzato nelle prime n prove. Per definizione ν n (F ) = 1 numero di volte in cui F si è verificato nelle prime n prove. n Siccome X 1 + X 2 + X n è il numero di volte in cui F si è verificato nelle prime n prove, abbiamo ν n (F ) = X 1 + X 2 + X n. n Dalla suddetta identità e da (14.1) otteniamo la seguente formula che rappresenta l interpretazione frequentistica della probabilità nell approccio assiomatico: ( P lim ν n(f ) = ˆP ) (F ) = 1. n Perciò, a parte un evento di P probabilità nulla, ˆP (F ) è il limite della frequenza relativa con cui l evento F si è verificato nelle prime n prove, con n.

24 15. Integrazione sulle variabili aleatorie gaussiane Notazione: si scrive X N (µ, σ 2 ) se X è v.a. gaussiana (normale) di media µ e varianza σ 2. Proposizione 30. Valgono le seguenti implicazioni: (a) Se X N (µ, σ 2 ), allora X µ σ è una normale standard. (b) Se X è una normale standard, allora (σx + µ) N (µ, σ 2 ). Proof. Le due implicazioni si dimostrano con opportuni cambi di variabili in itegrali. Ci limitiamo a dimostrare (a). Per un teorema di probabilità, due variabili aleatorie sono identicamente distribuite se e solo se hanno la stessa funzione di distribuzione. Quindi, se chiamiamo Φ la funzione di distribuzione della normale standard, abbiamo che per dimostrare (a) ci basta provare che Abbiamo X µ σ P ( X µ σ P ( X µ σ u se e solo se X σu + µ. Quindi u) = Φ(u), u R. (15.1) u) = P (X σu + µ) = 1 σu+µ (x µ)2 exp 2πσ 2σ 2 }dx = 1 σu+µ exp 1 ( x µ 2π 2 σ Facendo il cambio di variabile y = x µ σ P ( X µ σ otteniamo quindi u) = 1 2π u Abbiamo quindi provato (15.1) e quindi la tesi. e y2 /2 dy = Φ(u). 16. Classi di variabili aleatorie speciali ) 2 } 1 dx. (15.2) σ Definizione 7. Una variabile aleatoria X si dice di Bernoulli di parametro p (0, 1) se X è una variabile aleatoria discreta con densità discreta p se k = 1, p X (k) = 1 p se k = 0, 0 altrimenti. Definizione 8. Fissati un numero n intero positivo e un numero p (0, 1), una variabile aleatoria X si dice di binomiale di parametri n, p se X è una variabile aleatoria discreta con densità discreta ( n ) p X (k) = k p k (1 p) n k se k è intero e 0 k n, 0 altrimenti. Proposizione 31. Consideriamo n prove indipendenti di tipo successo/insuccesso dove la probabilità di successo è p. Chiamiamo X il numero di successi ottenuti. Allora X è v.a. binomiale di parametri n, p. Proof. Questa affermazione è stata dimostrata a lezione, in alternativa vedasi anche la discussione dell esempio 4f, punto (b), cap 3 del ross.

25 Definizione 9. Dato p (0, 1) una variabile aleatoria X si dice geometrica di parametro p se X è una variabile aleatoria discreta con densità discreta (1 p) k 1 p se k è intero positivo, p X (k) = 0 altrimenti. Si ammette anche che X possa assumere valore, con la richiesta che P (X = ) = 0. Nota: l esempio tipico di variabile aleatoria geometrica di parametro p è il seguente: Proposizione 32. Consideriamo una successione di prove indipendenti di tipo successo/insuccesso dove la probabilità di successo è p. Definiamo X come il numero della prova in cui si ha il primo successo (con la convezione che X = se non vi sono mai successi). Allora X è variabile aleatoria geometrica di parametro p. Proof. Proviamo prima che P (X = ) = 0. A tal fine osserviamo che X = } = E i dove E i = nelle prime i prove ho insuccesso. Abbiamo la successione monotona decrescente di eventi E 1 E 2 Quindi, per definizione di evento limite, abbiamo lim i E i = E i e, per il teorema di continuità della probabilità, abbiamo P (X = ) = P ( E i ) = lim i P (E i ) (16.1) Siccome, per indipendenza, P (E i ) = (1 p) i e 1 p sta in (0, 1), concludiamo che lim i P (E i ) = 0 e quindi P (X = ) = 0. Verifichiamo che P (X = k) con k R ha la forma giusta. Siccome X ha valori in N + + }, P (X = k) = 0 se k non è intero positivo. Se k è intero positivo ho X = k} = ( k 1 E i) Ek c dove E i è l evento che alla prova i esima ho insuccesso. Siccome E 1, E 2,... E k 1, Ek c si riferiscono a prove distinte, sono eventi indipendenti. Ne deriva che ( ( ) k 1 ) P (X = k) = P ( k 1 E i) Ek c = P (E i ) P (Ek c ) = (1 p)k 1 p e questo conclude la dimostrazione che p X ha la forma richiesta per avere X v.a. geometrica di parametro p. Definizione 10. Dato un intero positivo r e un numero p (0, 1), una variabile aleatoria X si dice binomiale negativa di parametri r, p se X è una variabile aleatoria discreta con densità discreta ( n 1 p X (n) = r 1) p r 1 (1 p) n r se n = r, r + 1, r + 2,..., 0 altrimenti. Si ammette anche che X possa assumere valore, con la richiesta che P (X = ) = 0. Proposizione 33. Consideriamo una successione di prove indipendenti di tipo successo/insuccesso dove la probabilità di successo è p. Definiamo X come il numero della prova in cui si ha il successo r esimo (con la convezione che X = se non vi sono almeno k successi). Allora X è variabile aleatoria binomiale negativa di parametri r, p. Proof. Fatta a lezione. In alternativa vedere Ross, cap 4, sezione 4.8.2.