Analisi della correlazione canonica

Capitolo 8 Analisi della correlazione canonica Si supponga che su un collettivo di unità statistiche si siano osservati due gruppi di k ed m variabili corrispondenti ad altrettanti aspetti di un fenomeno in esame. Lo studio delle relazioni di interdipendenza tra i due gruppi di variabili costituisce l obiettivo dell analisi della correlazione canonica, proposta da H. Hotelling (1938) allo scopo di analizzare i legami tra le caratteristiche fisiologiche (variabili antropometriche) e quelle mentali (risposte a tests psicologici) di un insieme di individui. Lo studio della correlazione tra le variabili di un gruppo e quelle dell altro richiederebbe il calcolo di k m coefficienti di correlazione semplice tra le variabili dei due gruppi accoppiate, di k(k 1)/2 ed m(m 1)/2 coefficienti di correlazione semplice all interno di ciascun gruppo, dei coefficienti di correlazione multipla tra le singole variabili di un gruppo e tutte o parte delle variabili dell altro gruppo. Nella stessa ottica che ha portato allo studio delle componenti principali, il metodo proposto per affrontare lo studio delle interdipendenze tra due gruppi di variabili consiste nell individuare un doppio sistema di variabili latenti che riproducano la correlazione tra i due gruppi di variabili osservate al netto di quella presente al loro interno. In altri termini dalla rappresentazione originaria delle unità statistiche, fornita dai due gruppi di variabili rilevate, si vuole ottiene una sintesi tale da rappresentarle tramite due nuovi gruppi di variabili artificiali che siano incorrelati al loro interno e massimamente correlati tra loro. 113

114 A. Pollice - Statistica Multivariata 8.1 Determinazione delle componenti canoniche Si considerino le due variabili X e rispettivamente di dimensione k ed m che, osservate su un collettivo di n individui, danno luogo alle matrici dati x 11 x 1k y 11 y 1m X.... (8.1) x n1 x nk y n1 y nm caratterizzate dai seguenti vettori di medie campionarie X 1 n X u n ( X 1,..., X k ) Ȳ 1 n u n (Ȳ1,..., Ȳm) (8.2) e dalle matrici di varianze e covarianze campionarie S X 1 n (X u n X ) (X u n X ) S 1 n ( u nȳ ) ( u n Ȳ ) (8.3) S X 1 n (X u n X ) ( u n Ȳ ) S X Siano U e V vettori n-dimensionali ottenuti come combinazioni lineari delle colonne delle matrici X ed rispettivamente con a e b vettori di k ed m costanti, si ha U Xa V b (8.4) Ū a X V b Ȳ (8.5) S 2 U a S X a S 2 V b S b (8.6) S UV a S X b b S X a ed il coefficiente di correllazione tra U e V è dato da ρ UV a S X b a S X a b S b (8.7) Le variabili latenti U e V (i vettori a e b) sono definite in modo tale da massimizzare ρ UV, e poiché il coefficiente di correlazione è invariante per

Cap. 8: Analisi della correlazione canonica 115 trasformazioni lineari delle variabili, ciò implica l introduzione dei consueti vincoli che in questo caso riguardano l unitarietà delle varianze delle variabili artificiali U e V. Ancora una volta la definizione delle variabili latenti è ottenuta risolvendo un problema di massimo vincolato max a a S X b max b a S X b (8.8) a S X a 1 b S b 1 Indicando con ν/2 ed η/2 i moltiplicatori, la funzione lagrangiana è data da (a, b, ν, η) a S X b ν 2 (a S X a 1) η 2 (b S b 1) (8.9) quindi il sistema che ne deriva è a (a, b, ν, η) S X b νs X a o b (a, b, ν, η) S X a ηs b o ν (a, b, ν, η) a S X a 1 0 η (a, b, ν, η) b S b 1 0 b S b 1 (8.10) inoltre poiché vale a S X b b S X a, ne risulta che ν η, quindi il sistema diventa S X b νs X a S X a νs b a S X a 1 b S b 1 a S X b νa S X a ν b S X a ηb S b η a S X a 1 a 1 ν S 1 X S X b a S X a 1 b S b 1 b 1 ν S 1 S Xa (8.11) Le prime due equazioni del sistema espresse in quest ultima forma vengono anche dette formule di transizione poiché servono per ricavare a da b e viceversa. Dalla loro applicazione si ottiene 1 ν S X S 1 S Xa νs X a S 1 X S X S 1 S Xa ν 2 a 1 ν S XS 1 X S X b νs b a S X a 1 b S b 1 a S X a 1 b S b 1 S 1 S XS 1 X S X b ν 2 b (8.12)

116 A. Pollice - Statistica Multivariata osservando le prime due equazioni si deduce che ν 2 λ è un autovalore di E 1 S 1 X S X S 1 S X come di E 2 S 1 S XS 1 X S X e che a e b sono gli autovettori corrispondenti e rispettivamente tali che a S X a 1 e b S b 1. Le due matrici E 1 ed E 2 hanno un numero di autovalori non nulli pari al rango e poiché S X e S devono essere invertibili, allora necessariamente r(s X ) k e r(s ) m, mentre r(s X ) r(s X ) r min(k, m), quindi complessivamente r(e 1 ) r(e 2 ) r min(k, m) (8.13) Inoltre, poiché è Cov(U, V ) a S X b ν λ, gli autovettori a 1 e b 1 che corrispondono al più grande degli autovalori di E 1 (ovvero di E 2 ) indicato con λ 1 individuano le combinazioni lineari delle colonne di X ed che risultano massimamente correlate tra loro, dette prime componenti canoniche U 1 Xa 1 V 1 b 1 (8.14) Si definisce invece prima correlazione canonica la quantità ρ U1 V 1 S U1 V 1 λ 1 (8.15) In modo analogo si possono definire le coppie componenti canoniche successive. Siano U 2 Xa 2 V 2 b 2 (8.16) e si vogliano determinare i vettori a 2 e b 2 in modo tale che la correlazione tra U 2 e V 2 sia massima e che U 1 e U 2 siano incorrelate, e così pure V 1 e V 2. max a2 a 2 S X b 2 max b2 a 2 S X b 2 a 2 S Xa 2 1 b 2 S b 2 1 a 1 S Xa 2 0 b 1 S b 2 0 (8.17) Considerando ora come moltiplicatori ν/2, η/2, γ e δ si ottiene la seguente espressione per la funzione lagrangiana (a 2, b 2, ν, η, γ, δ) (8.18) a 2S X b 2 ν 2 (a 2S X a 2 1) η 2 (b 2S b 2 1) γa 1S X a 2 δb 1S b 2

Cap. 8: Analisi della correlazione canonica 117 La soluzione del problema di massimo vincolato è data dal sistema a 2 (a 2, b 2, ν, η, γ, δ) S X b 2 νs X a 2 γs X a 1 o b 2 (a 2, b 2, ν, η, γ, δ) S X a 2 ηs b 2 δs b 1 o ν (a 2, b 2, ν, η, γ, δ) a 2 S Xa 2 1 0 η (a 2, b 2, ν, η, γ, δ) b 2 S Xb 2 1 0 γ (a 2, b 2, ν, η, γ, δ) a 1 S Xa 2 0 δ (a 2, b 2, ν, η, γ, δ) b 1 S b 2 0 Tralasciando per brevità le quattro equazioni relative ai vincoli, si ha a 1 S X b 2 ν a 1S X a 2 γ a }{{} 1S X a 1 0 { }{{} b 2 S X a 1 γ 0 1 {}}{{}}{ b 1 S Xa 2 η b 1S b 2 δ b a 1S b 1 0 2 S X b 1 δ 1 λ1 b 2 S XS 1 X S X b 1 γ 1 λ1 a 2 S X S 1 S Xa 1 δ (8.19) (8.20) dove l ultima espressione è ottenuta trasformando a 1 e b 1 tramite le formule di transizione. Si noti ora che per la definizione delle prime componenti canoniche si può scrivere S X S 1 X S X b 1 λ 1 S b 1 e S X S 1 S Xa 1 λ 1 S X a 1, quindi il sistema prende la forma seguente λ1 b 2S b 1 γ }{{} 0 {}}{ (8.21) λ1 a 2S X a 1 δ e di conseguenza γ δ 0. Pertanto, annullati i due vincoli sull incorrelazione, il problema si riconduce esattamente a quello della determinazione della prima coppia di componenti canoniche, quindi anche in questo caso, posto ν η λ, si ottengono le due equazioni caratteristiche { S 1 X S X S 1 S Xa 2 λa 2 S 1 S XS 1 X S (8.22) X b 2 λb 2 e poiché si dimostra in modo analogo a quanto già visto che λ coincide ancora con la funzione da massimizzare, allora detto λ λ 2 il secondo maggiore

118 A. Pollice - Statistica Multivariata autovalore delle matrici E 1 ed E 2 ed a 2 e b 2 rispetivamente gli autovettori corrispondenti e tali da soddisfare a 2 S Xa 2 1 e b 2 S b 2 1, la seconda coppia di variabili canoniche è definita da mentre la seconda correlazione canonica è data da U 2 Xa 2 V 2 b 2 (8.23) ρ U2 V 2 S U2 V 2 λ 2 (8.24) Si noti che oltre ad essere S U1 U 2 0 e S V1 V 2 0, valgono anche S U1 V 2 a 1 S X b 2 γ 0 S U2 V 1 a 2 S X b 1 δ 0 (8.25) In generale la h-esima coppia di componenti canoniche consiste nelle combinazioni lineari U h Xa h V h b h (8.26) tali da essere massimamente correlate, posto che S Uh U 1 S Uh U h 1 0 S Vh V 1 S Vh V h 1 0 (8.27) Si ricava facilmente che a h e b h sono gli autovettori associati all h-esimo autovalore λ h delle matrici E 1 ed E 2 e tali che a h S Xa h 1 e b h S b h 1. Inoltre l autovalore λ h coincide con il quadrato del coefficiente di correlazione canonica tra U h e V h. Quindi se r r(s X ) min(k, m), l analisi della correlazione canonica consiste nel trasformare le k colonne di X e le m colonne di in r coppie di vettori (U 1, V 1 ),..., (U r, V r ) (8.28) inoltre, posto U (U 1,..., U r ) e V (V 1,..., V r ), si ha che S 2 U S2 V I r e S UV diag( λ 1,..., λ r ). Le r correlazioni canoniche misurano pertanto l associazione tra i due insiemi di variabili quando tutte le correlazioni entro gli insiemi sono state rimosse. Nelle applicazioni finalizzate allo studio dell interdipendenza tra due variabili multidimensionali, l analisi della correlazione canonica consente di ridurre la dimensione delle osservazioni. Analogamente a quanto detto per le componenti principali, i suoi risultati possono essere interpretati analizzando i valori dei coefficienti che individuano le variabili canoniche. Inoltre

Cap. 8: Analisi della correlazione canonica 119 la rappresentazione grafica delle osservazioni nel riferimento (U j, V j ) per j 1,..., r può servire come strumento diagnostico per l individuazione di quelle osservazioni multidimensionali che presentano valori anomali. E possibile calcolare componenti e correlazioni canoniche in base alle matrici di correlazione, piuttosto che in base alle matrici di varianze e covarianze. In tal caso gli elementi dei vettori a j e b j (per j 1,..., r) sono adimensionali. 8.2 Proprietà campionarie sotto l assunzione di normalità Si ponga W (X, ) con W N k+m (µ W, Σ W ), essendo rispettivamente µ W ( µx µ ) ( ΣX Σ Σ W X Σ X Σ ) (8.29) Si assuma di osservare n replicazioni indipendenti di W. Come è noto gli stimatori di massima verosimiglianza delle matrici Σ X, Σ X, Σ e Σ X sono dati dalle corrispondenti matrici di varianze e covarianze campionarie, pertanto E 1 ed E 2 risultano essere gli stimatori di massima verosimiglianza di ɛ 1 Σ 1 X Σ X Σ 1 Σ X ed ɛ 2 Σ 1 Σ XΣ 1 X Σ X. Nel caso in cui gli r autovalori λ 1,..., λ r di ɛ 1 ed ɛ 2 siano tutti distinti, i loro stimatori di massima verosimiglianza coincidono con gli autovalori λ 1,..., λ r delle matrici E 1 ed E 2. In questo caso anche gli autovettori ã j e b j corrispondenti a λ j e tali che ã j Σ Xã j b j Σ b j 1 sono stimati da a j e b j, autovettori di E 1 ed E 2 corrispondenti a λ j e tali che a j S Xa j b j S b j 1. Nel caso in cui gli autovalori di ɛ 1 ed ɛ 2 non siano tutti distinti, i risultati appena enunciati perdono validità, ossia λ 1,..., λ r non sono più gli stimatori di massima verosimiglianza di λ 1,..., λ r, anche se continuano ad essere stimatori consistenti (ciò vale anche in assenza dell assunzione di normalità di W). 8.3 Verifica di ipotesi Sotto l assunzione distributiva effettuata al paragrafo precedente è possibile costruire delle procedure per la verifica della significatività delle componenti canoniche. In primo luogo può verificarsi l ipotesi che sia nullo λ 1, il maggiore degli autovalori di ɛ 1 ed ɛ 2, ovvero che siano nulli tutti gli autovalori, ovvero che sia r r(ɛ 1 ) r(ɛ 2 ) r(σ X ) 0, e cioè Σ X O il che

120 A. Pollice - Statistica Multivariata equivale all assenza di correlazione tra X ed { H0 : λ 1 0 H 1 : λ 1 0 { H0 : Σ X O H 1 : Σ X O (8.30) Il test del rapporto di verosimiglianze generalizzato per verificare questa ipotesi è già noto ed è dato dalla (3.73) λ ( ) S n/2 (8.31) S X S con ( SX S S X S X S ) (8.32) ed inoltre lim 2 ln λ n χ2 km (8.33) Nel caso in cui l ipotesi nulla suddetta sia respinta, può volersi verificare la significatività di un dato numero di autovalori di ɛ 1 ed ɛ 2, ovvero la signigficatività dellipotesi che il rango di Σ X assuma un certo valore r 0 { H0 : r(σ X ) r 0 H 1 : r(σ X ) > r 0 (8.34) con r 0 costante e tale che 1 < r 0 < min(k, m), ovvero { H0 : λ 1 > > λ r0 > 0, λ h 0, h > r 0 H 1 : ɛ 1 ed ɛ 2 hanno più di r 0 autovalori distinti diversi da 0 (8.35) Per la verifica di questa ipotesi, posto k m, viene utilizzato un test dovuto a Bartlett (1939) e dato dall espressione [ γ n 1 ] 2 (m + k + 3) r jr 0 +1 ln(1 λ 2 j) (8.36) Sotto l ipotesi nulla la distribuzione campionaria asintotica di γ è data da con p (k r 0 )(m r 0 ). lim γ n χ2 p (8.37)

Cap. 8: Analisi della correlazione canonica 121 8.4 Dati qualitativi e variabili dicotomiche L analisi della correlazione canonica può anche essere applicata a variabili di tipo qualitativo. Sia N una tabella di contingenza r c in cui n individui sono classificati in base alle modalità di due mutabili statistiche tra le quali si voglia verificare se vi è una relazione (associazione). Sia n jh la frequenza delle unità che presentano la j-esima modalità del fattore riga e la h-esima modalità del fattore colonna. La matrice N di elemento generico n jh può essere espressa in modo alternativo, tramite la matrice n (r + c) Z (X, ) (8.38) in cui le colonne di X ed sono variabili dicotomiche (0/1) che indicano la presenza delle modalità rispettivamente di riga e di colonna: X ij ih { 1 l i-esimo individuo possiede il j-esimo livello del fattore riga; 0 altrimenti { 1 l i-esimo individuo possiede l h-esimo livello del fattore colonna; 0 altrimenti per i 1,..., n, j 1,..., r, h 1,..., c. Si noti che r j1 X j c h1 h u n ed inoltre X j h n jh. Tramite l analisi della correlazione canonica si vogliono determinare le variabili latenti U Xa V b (8.39) in modo tale che siano massimamente correlate. Ciascuna riga delle matrici X ed ha tutti gli elementi nulli ed un solo elemento uguale ad 1 in corrispondenza con i livelli del fattore riga e rispettivamente colonna posseduti dall individuo in questione. Di conseguenza per un individuo appartenente al j-esimo livello del fattore riga e all h-esimo del fattore colonna si ha: U a j V b h (8.40) In altri termini un individuo nel (j, h)-esimo incrocio di N viene associato al punteggio (a j, b h ). Questi punteggi possono essere rappresentati tramite un diagramma a punti (in cui n jh osservazioni sono associate ad (a j, b h )). La forma più o meno allungata della nuvola di punti esprime una misura della relazione tra i due fattori qualitativi di classificazione. Si noti come in questo caso, posti f e g rispettivamente i vettori dei totali marginali di riga e di colonna di N, la matrice di varianze e covarianze

122 A. Pollice - Statistica Multivariata campionaria di Z sia data da ( ns Z Z Z n Z Z nsx ns X ns X ns ) ( diag(f) n 1 ff N ˆN N ˆN diag(g) n 1 gg ) dove ˆN fg corrisponde alla stima di N nell ipotesi che tra righe e colonne non vi sia associazione. Poiché r j1 X j c h1 h u n, allora non è possibile calcolare le inverse delle matrici S X e S (ciò che serve per il calcolo delle correlazioni canoniche). Il modo per ovviare a questo inconveniente consiste nell eliminare la prima colonna di X e di. In tal caso l origine degli assi (a, b) coincide con il punto che rappresenta il primo livello del fattore di riga e il primo livello del fattore di colonna. Si noti come anche in questo caso si possono calcolare le correlazioni canoniche successive alla prima. Inoltre tutto quanto appena detto può essere utilizzato anche quando i dati disponibili risultino dall osservazione di un insieme di caratteristiche qualitative e quantitative, utilizzando queste ultime insieme alle variabili dicotomiche che rappresentano le modalità delle mutabili.