Capitolo 1 Variabili casuali multidimensionali Definizione 1.1 Le variabili casuali multidimensionali sono k-ple ordinate di variabili casuali unidimensionali definite sullo stesso spazio di probabilità. Tali variabili vengono indicate nel modo seguente X = (X 1,..., X k ) dove k rappresenta la dimensione del vettore casuale. Posto che il vettore x = (x 1,..., x k ) corrisponda a una possibile determinazione della variabile aleatoria k-dimensionale X, è possibile definire la funzione di distribuzione congiunta. Definizione 1.2 La funzione di distribuzione (o di ripartizione) congiunta F (x) è data dalla probabilità del verificarsi dell evento (X 1 x 1 ) (X k x k ) F (x) = F (x 1,..., x k ) = Pr(X 1 x 1,..., X k x k ) Analogamente per h < k si definisce la funzione di distribuzione marginale. Definizione 1.3 Se X 1,..., X h sono elementi di un vettore aleatorio k-dimensionale (con h < k), la funzione di distribuzione (o di ripartizione) marginale è data dalla probabilità di verificarsi dell evento (X 1 x 1 ) (X h x h ) F (x 1,..., x h ) = lim F (x 1,..., x k ) = F (x 1,..., x h,,..., ) x h+1,...,x k 1
2 A. Pollice - Statistica Multivariata 1.1 Variabili casuali multidimensionali discrete Una variabile aleatoria k-dimensionale si dice discreta se può assumere un numero finito o un infinità numerabile di k-ple di valori. Definizione 1.4 Se X è un vettore aleatorio k-dimensionale discreto, la funzione di probabilità di X è definita da p(x 1,..., x k ) = Pr(X 1 = x 1,..., X k = x k ) Dunque p(x 1,..., x k ) restituisce la probabilità congiunta associata a una determinata k-pla di valori. Definizione 1.5 Per un vettore aleatorio discreto X si dice supporto l insieme definito da X = {(x 1,..., x k ) p(x 1,..., x k ) > 0} Per la definizione di vettore aleatorio discreto, X è un insieme finito o al più infinitamente numerabile. Definizione 1.6 La funzione di probabilità marginale corrisponde alla probabilità associata a un sottoinsieme di h componenti del vettore aleatorio X (con h < k) ed è data dall espressione seguente p(x 1,..., x h ) = x h+1... x k p(x 1,..., x h,..., x k ) (1.1) Dunque la funzione di probabilità marginale di un certo sottoinsieme di h elementi di X fornisce la probabilità della h-pla (x 1,..., x h ) qualunque siano le determinazioni assunte da (X h+1,..., X k ). Definizione 1.7 La funzione di probabilità condizionata restituisce la probabilità associata ad un sottoinsieme di h elementi del vettore aleatorio X dato che i restanti k h elementi assumano un valore noto p(x 1,..., x h x h+1,..., x k ) = = Pr(X 1 = x 1,..., X h = x h X h+1 = x h+1,..., X k = x k ) = = p(x 1,..., x k ) p(x h+1,..., x k ) (1.2) Questa definizione è un ovvia estensione del concetto di probabilità condizionata alla funzione di probabilità. Naturalmente affinchè la (1.2) abbia senso è necessario che p(x h+1,..., x k ) > 0.
Cap.1: Variabili casuali multidimensionali 3 1.2 Variabili casuali multidimensionali continue Tutte le definizioni contenute nel paragrafo precedente hanno un corrispettivo con riferimento alle variabili aleatorie multidimensionali continue ovvero dotate di funzione di densità congiunta. Definizione 1.8 Dato un vettore aleatorio X associato alla funzione di ripartizione F, se esiste una funzione f : R k R tale che per qualsiasi x in R k valga x1 xk F (x) = F (x 1,..., x k ) =... f(t)dt essa è detta funzione di densità congiunta di X. La funzione di densità congiunta soddisfa le seguenti proprietà: (i) f(x) 0 (1.3) (ii) f(x)dx = 1 (1.4) R k (iii) C R k, Pr(X C) = f(x)dx (1.5) (iv) per qualsiasi x = (x 1,..., x k ) punto di continuità di f C f(x 1,..., x k ) = k F (x 1,..., x k ) x 1... x k (1.6) Definizione 1.9 Il supporto X di un vettore aleatorio continuo X corrisponde al più piccolo insieme a cui la densità assegna probabilità 1. Definizione 1.10 In analogia con il caso di vettori aleatori discreti si dice che la generica h-pla (X 1,..., X h ), con h < k, ha funzione di densità marginale data dall espressione f(x 1,..., x h ) =... f(x 1,..., x h,..., x k )dx h+1... dx k (1.7) Definizione 1.11 La funzione di densità di X 1,..., X h condizionata ad X h+1 = x h+1,..., X k = x k è data dall espressione f(x 1,..., x h x h+1,..., x k ) = f(x 1,..., x k ) f(x h+1,..., x k ) (1.8)
4 A. Pollice - Statistica Multivariata 1.3 Indipendenza stocastica Definizione 1.12 Se F (x 1,..., x k ) è la funzione di distribuzione congiunta del vettore casuale (X 1,..., X k ) ed F i (x i ) sono le distribuzioni marginali delle componenti unidimensionali X i (i = 1,..., k), queste ultime sono dette stocasticamente indipendenti se vale F (x) = k F i (x i ) i=1 L indipendenza stocastica di (X 1,..., X k ) implica quella di tutti i possibili accoppiamenti delle sue componenti unidimensionali. Il contrario non è altrettanto vero: se tutte le coppie possibili di componenti unidimensionali di x sono indipendenti non è detto che lo siano simultaneamente tutte le k componenti. 1.4 Valori attesi Definizione 1.13 Il valore atteso del vettore aleatorio k-dimensionale X è dato dal vettore k-dimensionale dei valori attesi dei suoi elementi µ = E(X) = (E(X 1 ),..., E(X k )) = (µ 1,..., µ k ) Naturalmente la definizione precedente ha senso purché esista finito il valore atteso di ogni componente del vettore aleatorio X. Le principali proprietà sono le seguenti (i) Il valore atteso del trasposto di un vettore aleatorio è uguale al trasposto del valore atteso del vettore stesso E(X ) = [E(X)] (1.9) (ii) Linearità. Per X vettore casuale k-dimensionale ed A e b rispettivamente matrice e vettore di costanti in R h k ed R h vale E(A X + b) = A E(X) + b (1.10) (iii) Additività. Per X 1 e X 2 vettori casuali in R k ed A e B matrici di costanti in R h k vale E(A X 1 + B X 2 ) = A E(X 1 ) + B E(X 2 ) (1.11)
Cap.1: Variabili casuali multidimensionali 5 Definizione 1.14 La matrice di varianze e covarianze di un vettore aleatorio k- dimensionale X è data dall espressione seguente Cov(X) = E{(X E(X))(X E(X)) } = E(XX ) E(X)E(X) (1.12) La definizione precedente ha senso purché valga E(X 2 j ) < +, j = 1,..., k Il perchè è facilmente intuibile se si considera che gli elementi della matrice di varianze e covarianze Σ = Cov(X) sono dati da σ 2 1 σ 12... σ 1k σ 21 σ2 2... σ 2k Σ =...... σ k1 σ k2... σk 2 Dunque Σ è una matrice quadrata simmetrica in R k k che contiene le varianze σ ii = σ 2 i = E (X i E(X i )) 2 di ciascuna componente X i sulla diagonale principale, mentre al di fuori di questa si trovano tutte le possibili covarianze σ ij = σ ji = E{(X i E(X i ))(X j E(X j ))} (se i j) tra le coppie di componenti (X i, X j ). Proprietà 1.15 Qualsiasi matrice di varianze e covarianze è semidefinita positiva. Affinché Cov(X) sia semidefinita positiva deve valere a Cov(X)a 0 per qualsiasi a nonnullo in R k, e quindi 0 a Cov(X)a = E{a [X E(X)][X E(X)] a} = E{[a (X E(X))] 2 } }{{} 0 Definizione 1.16 La matrice di covarianze tra il vettore aleatorio k- dimensionale X e il vettore aleatorio h-dimensionale Y è data dall espressione seguente: Cov(X, Y ) = E{(X E(X))(Y E(Y )) } = E(XY ) E(X)E(Y ) (1.13) Come nel caso precedente se Σ XY = Cov(X, Y ) σ X1 Y 1 σ X1 Y 2... σ X1 Y h σ X2 Y 1 σ X2 Y 2... σ X2 Y h Σ XY =... σ Xk Y 1 σ Xk Y 2... σ Xk Y h
6 A. Pollice - Statistica Multivariata Ne concludiamo che Σ XY è una matrice in R k h il cui generico elemento σ Xi Y j = E{(X i E(X i ))(Y j E(Y j ))} è la covarianza tra la coppia (X i, Y j ). Si osservi che Cov(X, X) = Cov(X): questa seconda definizione è quindi più generale. Tuttavia, a meno che non sia ulteriormente specificato o definito dal contesto, parleremo di matrice di varianze e covarianze nel senso della Def. 1.14. Proprietà 1.17 Se Z = AX + b e K = CY + d, con X ed Y vettori casuali in R k, A e C matrici di costanti in R h k, b e d vettori di costanti in R h, vale Cov(Z, K) = ACov(X, Y )C. Cov(Z, K) = E{[Z E(Z)][K E(K)] } = = E{[AX + b E(AX + b)][cy + d E(CY + d)] } = = E{[AX + b A E(X) b)][cy + d C E(Y ) d] } = = E{A[X E(X)][Y E(Y )] C } = ACov(X, Y )C I casi particolari più importanti di questo risultato sono i seguenti: (i) X = Y Cov(Z, K) = ACov(X)C (1.14) (ii) K = Z = AX + b Cov(Z) = ACov(X)A (1.15) (iii) K = Z = X + b Cov(Z) = Cov(X) (1.16) (iv) K = Z = AX Cov(Z) = ACov(X)A (1.17) Definizione 1.18 Sia t un vettore di R k, la funzione generatrice dei momenti della variabile aleatoria k-dimensionale X è data dal seguente valore atteso M(t) = E[exp(t X)] = E[exp(t 1 X 1 + + t k X k )] Si noti che M(t) esiste sicuramente per t = o e in particolare M(o) = 1: tuttavia affinchè questa definizione sia ben posta è necessario che M(t) esista almeno su un insieme aperto di R k contenente l origine. Quando questa condizione non è verificata la f. g. m. perde di utilità. Definizione 1.19 Siano X ed Y due vettori aleatori di dimensioni rispettivamente k ed h e sia g una funzione a valori in R l e di argomento in R k+h. Sia inoltre f(x y) la densità di X condizionata a valori di Y. Il valore atteso di g(x, Y ) condizionato a valori di Y è definito dal vettore con elemento generico dato dall espressione seguente per j = 1,..., l E X Y [g j (X, Y )] =... g j (x, y)f(x y)dx (1.18)
Cap.1: Variabili casuali multidimensionali 7 Nel caso di vettori aleatori discreti si ottiene una definizione analoga alla precedente sostituendo alle funzioni di densità e agli integrali rispettivamente le funzioni di probabilità e le sommatorie. Proprietà 1.20 Per i valori attesi condizionati vale la seguente relazione Infatti per qualsiasi j con j = 1,..., l E Y {E X Y [g(x, Y )]} = E X,Y [g(x, Y )] (1.19) E Y {E X Y [g j (X, Y )]} = E Y... g j (x, y)f(x y)dx = }{{} =... }{{} = h dim... } {{ } (k+h) dim... } {{ } k dim k dim g j (x, y)f(x y)dxf(y)dy = g j (x, y)f(x, y)dx dy = E X,Y [g j (X, Y )] Con procedimento analogo si può dimostrare lo stesso risultato nel caso discreto. Caso particolare: La media di una variabile aleatoria multidimensionale è uguale alla media dei vettori delle medie condizionate: E Y [E X Y (X)] = E X (X) (1.20) Definizione 1.21 Si definisce matrice di covarianze condizionate il seguente valore atteso condizionato Cov(X, Y Z) = E X,Y Z {[(X E X Z (X))(Y E Y Z (Y )) ]} Proprietà 1.22 La matrice delle covarianze tra gli elementi di X ed Y è uguale alla somma della media delle matrici di covarianze condizionate e della matrice di covarianze tra i vettori delle medie condizionate Cov(X, Y ) = E Z [Cov(X, Y Z)] + Cov[E X Z (X), E Y Z (Y )] (1.21)
8 A. Pollice - Statistica Multivariata Cov[E X Z (X), E Y Z (Y )] = = E Z {E X Z (X)[E Y Z (Y )] } E Z E X Z (X) [E Z E Y Z (Y )] = }{{}}{{} E(X) [E(Y )] = E Z [E X,Y Z (XY )] E Z {E X,Y Z (XY ) E X Z (X)[E Y Z (Y )] } E(X)[E(Y )] = }{{} Cov(X,Y Z) = E X,Y (XY ) E(X)[E(Y )] E Z [Cov(X, Y Z)] }{{} Cov(X,Y ) Caso particolare: La matrice di varianze e covarianze del vettore aleatorio X è uguale alla somma della media delle matrici di varianze e covarianze di X condizionate a valori di Y e della matrice di varianze e covarianze tra le medie condizionate Cov(X) = E Y [Cov(X Y )] + Cov[E X Y (X)] (1.22) 1.5 Trasformazioni biunivoche di vettori casuali Sia X un vettore casuale k-dimensionale dotato di densità f X (x) e sia Y ottenuto da X tramite la trasformazione g biunivoca e regolare e tale che Y = g(x). Siano inoltre X R k e g(x ) = Y R k rispettivamente il supporto di X e quello di Y. Allora, posti A X e g(a) = B Y e poiché g è una trasformazione biunivoca vale Pr(X A) = Pr(Y B) Per la (1.5) la relazione precedente espressa tramite le densità congiunte porta all espressione seguente f Y (y)dy = f X (x)dx = f X (g 1 (y))mod J dy B A B=g(A) dove il terzo integrale è stato ottenuto applicando la trasformazione y = g(x) alla variabile di integrazione del secondo integrale e mod J indica il valore assoluto del determinante della matrice jacobiana della trasformazione inversa g 1. Dall espressione precedente si ricava la funzione di densità congiunta della Y f Y (y) = mod J f X (g 1 (y)) (1.23)