Analisi della correlazione canonica Su un collettivo di unità statistiche si osservano due gruppi di k ed m variabili L analisi della correlazione canonica ha per obiettivo lo studio delle relazioni di interdipendenza tra i due gruppi di variabili L ACC permette di individuare due nuovi gruppi di variabili artificiali incorrelati al loro interno e massimamente correlati tra loro A. Pollice - Statistica Multivariata
Determinazione delle componenti canoniche Due variabili X e Y di dimensione k ed m che, osservate su un collettivo di n individui, danno luogo alle matrici dati X = x 11. x 1k. x n1 x nk Y = y 11. y 1m. y n1 y nm Vettori di medie campionarie X = 1 n X u n = ( X 1,..., X k ) Ȳ = 1 n Y u n = (Ȳ 1,..., Ȳ m )
Matrici di varianze e covarianze campionarie S X = 1 n (X u n X ) (X u n X ) S Y = 1 n (Y u nȳ ) (Y u n Ȳ ) S XY = 1 n (X u n X ) (Y u n Ȳ ) = S Y X
U e V vettori n-dimensionali U = Xa V = Y b Medie campionarie Ū = a X V = b Ȳ Varianze e covarianza campionarie SU 2 = a S X a SV 2 = b S Y b S UV = a S XY b = b S Y X a
Coefficiente di correllazione tra U e V ρ UV = a S XY b a S X a b S Y b Le variabili latenti U e V (i vettori a e b) sono definite in modo da massimizzare ρ UV Il coefficiente di correlazione è invariante per trasformazioni lineari delle variabili, quindi bisogna introdurre i vincoli di unitarietà delle varianze delle variabili U e V
Problema di massimo vincolato max a a S XY b max b a S XY b a S X a = 1 b S Y b = 1 Funzione lagrangiana (a, b, ν, η) = a S XY b ν 2 (a S X a 1) η 2 (b S Y b 1)
Sistema per la soluzione del problema di massimo vincolato a (a, b, ν, η) = S XY b νs X a = o b (a, b, ν, η) = S XY a ηs Y b = o ν (a, b, ν, η) = a S X a 1 = 0 η (a, b, ν, η) = b S Y b 1 = 0
Risolvendo il sistema si ottengono i seguenti risultati Formule di transizione: ν = η = Cov(U, V ) a = 1 ν S 1 X S XY b Equazioni caratteristiche: S 1 b = 1 ν S 1 Y S Y Xa X S XY SY 1 S Y Xa = ν 2 a SY 1 S Y XSX 1 S XY b = ν 2 b
ν 2 = λ è un autovalore di E 1 = SX 1 S XY SY 1 S Y X come di E 2 = SY 1 S Y XSX 1 S XY a e b sono autovettori corrispondenti e tali che a S X a = 1 e b S Y b = 1 E 1 ed E 2 hanno un numero di autovalori non nulli pari a r(e 1 ) = r(e 2 ) = r min(k, m)
Cov(U, V ) = ν = λ implica che le combinazioni lineari delle colonne di X ed Y massimamente correlate tra loro sono individuate dagli autovettori a 1 e b 1 corrispondenti al più grande autovalore λ 1 di E 1 o di E 2 e tali che a 1 S Xa 1 = b 1 S Y b 1 = 1 Prime componenti canoniche U 1 = Xa 1 V 1 = Y b 1 Prima correlazione canonica: ρ U1 V 1 = S U1 V 1 = λ 1
In modo analogo si possono definire le coppie componenti canoniche successive, che sono incorrelate con le precedenti La h-esima coppia di componenti canoniche consiste nelle combinazioni lineari massimamente correlate U h = Xa h V h = Y b h e tali che S Uh U 1 = = S Uh U h 1 = 0 S Vh V 1 = = S Vh V h 1 = 0
a h e b h sono gli autovettori associati all h-esimo autovalore λ h delle matrici E 1 ed E 2 e tali che a h S Xa h = 1 e b h S Y b h = 1 L autovalore λ h coincide con il quadrato del coefficiente di correlazione canonica tra U h e V h
L analisi della correlazione canonica consiste nel trasformare le k colonne di X e le m colonne di Y in r coppie di vettori (U 1, V 1 ),..., (U r, V r ) Se U = (U 1,..., U r ) e V = (V 1,..., V r ) si ha S 2 U = S2 V = I r S UV = diag( λ 1,..., λ r ) Le r correlazioni canoniche misurano l associazione tra i due insiemi di variabili quando tutte le correlazioni entro gli insiemi sono state rimosse
Nello studio dell interdipendenza tra due variabili multidimensionali, l analisi della correlazione canonica consente di ridurre la dimensione delle osservazioni I suoi risultati possono essere interpretati analizzando i valori dei coefficienti che individuano le variabili canoniche La rappresentazione grafica delle osservazioni nel riferimento (U j, V j ) per j = 1,..., r può servire come strumento per l individuazione di osservazioni anomale Se si calcolano componenti e correlazioni canoniche in base alle matrici di correlazione, piuttosto che alle matrici di varianze e covarianze gli elementi dei vettori a j e b j (per j = 1,..., r) sono adimensionali
Proprietà campionarie sotto l assunzione di normalità Si assuma W = (X, Y ) N k+m (µ W, Σ W ), con µ W = ( µx µ Y ) ( ΣX Σ Σ W = XY Σ Y X Σ Y ) Se si osservano n replicazioni indipendenti di W gli stimatori di massima verosimiglianza delle matrici Σ X, Σ XY, Σ Y e Σ Y X sono dati dalle corrispondenti matrici di varianze e covarianze campionarie E 1 ed E 2 sono stimatori di massima verosimiglianza di ɛ 1 = ΣX 1 Σ XY Σ 1 Y Σ Y X ed ɛ 2 = Σ 1 Y Σ Y XΣ 1 X Σ XY
Se gli r autovalori λ 1,..., λ r di ɛ 1 ed ɛ 2 sono tutti distinti, i loro stimatori di massima verosimiglianza coincidono con gli autovalori λ 1,..., λ r delle matrici E 1 ed E 2 In tal caso gli autovettori ã j e b j corrispondenti a λ j e tali che ã j Σ Xã j = b j Σ Y b j = 1 sono stimati da a j e b j, autovettori di E 1 ed E 2 corrispondenti a λ j e tali che a j S Xa j = b j S Y b j = 1
Verifica di ipotesi Procedure per la verifica della significatività delle componenti canoniche sotto l assunzione distributiva di normalità { H0 : λ 1 = 0 H 1 : λ 1 0 { H0 : Σ XY = O H 1 : Σ XY O Test del rapporto di verosimiglianze generalizzato λ = ( S S X S Y con lim n 2 ln λ χ2 km ) n/2
Significatività dell ipotesi che un certo numero di autovalori di ɛ 1 ed ɛ 2 siano diversi da zero { H0 : λ 1 > > λ r0 > 0, λ h = 0, h > r 0 H 1 : più di r 0 autovalori diversi da 0 { H0 : r(σ XY ) = r 0 H 1 : r(σ XY ) > r 0 Test di Bartlett γ = [n 12 ] r (m + k + 3) dove p = (k r 0 )(m r 0 ) j=r 0 +1 ln(1 λ 2 j ) con lim n γ χ2 p