Analisi delle corrispondenze

Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello di analizzare le relazioni tra le modalità di due (o più) caratteri qualitativi Ad applicazioni di questo tipo si è già accennato alla fine del capitolo sulla correlazione canonica, quando si fatto riferimento all uso di detta metodologia in presenza di dati qualitativi L analisi delle corrispondenze mira ad individuare la struttura dell associazione interna a una tabella di contingenza tramite la rappresentazione grafica delle modalità dei due caratteri in uno spazio di dimensionalità minima (in quasi tutte le applicazioni il piano cartesiano) 111 Analisi delle corrispondenze semplici Si disponga di una tabella di contingenza in cui n individui sono classificati secondo due fattori qualitativi X 1 e X 2 con rispettivamente k 1 e k 2 livelli X 1 X 2 X 21 X 2h X 2k2 tot X 11 n 11 n 1h n 1k2 n 10 X 1j n j1 n jh n jk2 n j0 X 1k1 n k1 1 n k1 h n k1 k 2 n k1 0 tot n 01 n 0h n 0k2 n 147

148 A Pollice - Statistica Multivariata La struttura delle relazioni tra i livelli dei due fattori può essere analizzata considerando i profili riga (distribuzioni delle frequenze relative di X 2 condizionate rispetto a ciascuna modalità di X 1 ) e i profili colonna (distribuzioni delle frequenze relative di X 1 condizionate rispetto a ciascuna modalità di X 2 ): vengono ritenute somiglianti le modalità di X 1 caratterizzate da profili riga simili, e quelle di X 2 caratterizzate da profili colonna simili L analisi delle corrispondenze fornisce una rappresentazione sintetica delle informazioni contenute nella tavola di contingenza attraverso la considerazione delle prossimità tra profili riga e profili colonna Si indichi con N la matrice k 1 k 2 con elemento generico n jh Questa matrice può essere rappresentata nella cosiddetta forma disgiuntiva in cui le due mutabili X 1 e X 2 sono trasformate rispettivamente in k 1 e k 2 variabili dicotomiche Sia X (1) una matrice n k 1 il cui elemento generico X (1) ij vale 1 se l individuo i-esimo è caratterizzato dal j-esimo livello del primo fattore, e vale 0 altrimenti Analogamente si definisca la matrice X (2) per il secondo fattore Si ricava facilmente che vale X (1) X (2) = N (111) Inoltre indicando con D 1 e D 2 rispettivamente le matrici diagonali dei totali di riga e di colonna D 1 = X (1) X (1) = diag(n 10,, n k1 0) D 2 = X (2) X (2) = diag(n 01,, n 0k2 ) (112) è possibile ottenere le matrici dei profili riga e dei profili colonna rispettivamente date, per j = 1,, k 1 ed h = 1,, k 2, da D 1 1 N = [n jh/n j0 ] ND 1 2 = [n jh /n 0h ] (113) Lo studio delle relazioni tra le due mutabili X 1 e X 2 si traduce in quello della correlazione canonica tra i due insiemi di variabili dicotomiche riportate nelle matrici X (1) e X (2) Pertanto è noto come per individuare i vettori a e b di k 1 e k 2 coefficienti che definiscono le due variabili unidimensionali v = X (1) a w = X (2) b (114)

Cap 11: Analisi delle corrispondenze 149 massimamente correlate tra loro e con varianza unitaria, bisogna risolvere le due equazioni caratteristiche D 1 1 ND 1 2 N λi k1 = 0 D 1 2 N D 1 1 N λi k 2 = 0 (115) Le soluzioni delle (115) corrispondono agli autovalori e autovettori delle matrici D1 1 ND 1 2 N e D2 1 N D1 1 N Se k 1 k 2, i k 1 autovalori comuni alle due matrici misurano complessivamente la correlazione tra i due gruppi di variabili dicotomiche, ovvero l associazione tra i due fattori Ciascun autovalore λ s = [cov(v s, w s )] 2, con s = 1,, k 1 misura l interdipendenza tra i due gruppi di variabili spiegata dalla s-esima soluzione canonica Inoltre la sua radice quadrata λ s è detta inerzia e misura la variabilità associata a ciascuna dimensione (o asse): il rapporto λ s / k 1 1 s=0 λ s detto frazione di inerzia indica l idoneità della s-esima soluzione a rappresentare l associazione tra i fattori Si noti come il maggiore tra gli autovalori λ 0 abbia sempre valore unitario Infatti considerando a 0 = u k1 e b 0 = u k2 si ottiene v 0 = X (1) a 0 = u n = X (2) b 0 = w 0 (116) In questo caso la correlazione tra v 0 e w 0 (dette coefficienti componenti canoniche banali) è massima e pari a 1 cov(v 0, w 0 ) = λ 0 = 1 (117) Le k 1 soluzioni sono individuate da altrettante coppie di vettori di coefficienti a s e b s che corrispondono agli autovettori normalizzati delle matrici D1 1 ND 1 2 N e D2 1 N D1 1 N associati agli autovalori λ s per s = 0,, k 1 1 Come nell analisi della correlazione canonica ne conseguono le due relazioni di mutua transizione a s = 1 λs D 1 1 Nb s b s = 1 λs D 1 2 N a s (118) ovvero rispettivamente per j = 1,, k 1 e h = 1,, k 2 a sj = 1 k2 n jh λs h=1 n j0 b sh b sh = 1 k1 (119) n jh λs j=1 n 0h a sj

150 A Pollice - Statistica Multivariata Inoltre, poiché le diverse componenti canoniche sono tra loro incorrelate, vale per s t ed s, t = 0,, k 1 1 ed in particolare per t = 0 ed s = 1,, k 1 1 v sv t = w sw t = 0 (1110) v su n = v sv 0 = 0 w su n = w sw 0 = 0 (1111) da cui si deduce che le componenti canoniche diverse da quelle banali hanno media nulla Si noti inoltre che k 1 1 s=0 λ s = tr(d 1 1 ND 1 2 N ) = k 1 k 2 j=1 h=1 n 2 jh n j0 n 0h (1112) quindi se N è perfettamente diagonale (caso teorico di massima associazione), allora k 1 = k 2, n jh = 0 per j h, mentre per j = h si ha n jh = n j0 = n 0h In tal caso λ s = 1 per s = 0,, k 1 1 Dall espressione precedente si ricava k 1 1 s=1 k 1 k 2 n 2 jh λ s = 1 = = n j=1 j0 n 0h h=1 [ ] = 1 k 1 k 2 (n jh n j0 n 0h /n) 2 = 1 n n j0 n 0h /n n χ2 (1113) j=1 h=1 dove con χ 2 si è indicato l omonimo indice per la misura dell associazione tra due caratteri qualitativi Tale indice risulta dunque nullo se lo sono tutti gli autovalori associati alle soluzioni non banali 1111 Rappresentazione grafica Si consideri la prima soluzione non banale legata all autovalore λ 1 Il vettore n-dimensionale v 1 = (v 11,, v 1n ) = X (1) a 1 (1114) esprime le n osservazioni in termini della coordinata ottenuta come trasformazione del carattere X 1 Volendo rappresentare la j-esima modalità di X 1 in termini della nuova coordinata v 1, se ne considera la media per gli n j0

Cap 11: Analisi delle corrispondenze 151 individui che la posseggono ovvero il centroide della j-esima modalità di X 1 nello spazio della prima componente canonica v 1 (j, 0) = 1 v 1i (1115) n j0 i X 1j Si noti che v 1i è dato dal prodotto della i-esima riga di X (1) per a 1 Se l iesimo individuo è caratterizzato dalla j-esima modalità del primo carattere, allora l i-esima riga di X (1) coincide con il vettore indicatore del j-esimo elemento v 1i = (0,, 0, 1, 0,, 0) a 11 a 1k1 = a 1j (1116) di conseguenza per la (1115), e analogamente per la seconda soluzione legata all autovalore λ 2, si ha che v 1 (j, 0) = a 1j v 2 (j, 0) = a 2j (1117) La j-esima modaltà del primo carattere X 1 ha coordinate (a 1j, a 2j ) sul piano delle prime due componenti canoniche (o coordinate fattoriali) del primo carattere Si vogliano ora rappresentare le modalità del secondo carattere sullo stesso piano Per esprimere la h-esima modalità del carattere X 2 in termini delle coordinate fattoriali del primo carattere, ovvero in termini di a 1 si considerano le seguenti medie ponderate v 1 (0, h) = v 2 (0, h) = P k1 j=1 n jha 1j n 0h P k1 j=1 n jha 2j n 0h (1118) le cui espressioni, tenendo conto delle relazioni di mutua transizione diventano v 1 (0, h) = λ 1 b 1h v 2 (0, h) = λ 2 b 2h (1119) Sul piano fattoriale del primo carattere è dunque possibile rappresentare due serie di punti che corrispondono alle modalità dei due caratteri, in modo da analizzarne le relazioni: i punti riga di coordinate (a 1j, a 2j ) per j = 1,, k 1 e i punti colonna di coordinate ( λ 1 b 1h, λ 2 b 2h ) per h = 1,, k 2

152 A Pollice - Statistica Multivariata Analogamente si può considerare il piano fattoriale del secondo carattere, ottenendo i punti riga ( λ 1 a 1j, λ 2 a 2j ) per j = 1,, k 1 e i punti colonna (b 1h, b 2h ) per h = 1,, k 2 Generalmente viene utilizzata una terza rappresentazione che mette sullo stesso piano i due caratteri, considerando i punti riga ( λ 1 a 1j, λ 2 a 2j ) per j = 1,, k 1 e i punti colonna ( λ 1 b 1h, λ 2 b 2h ) per h = 1,, k 2 Poiché per s = 1,, k 1 1 valgono le seguenti relazioni v su n = a sx (1) u n = k 1 j=1 n j0a sj = 0 w su n = b sx (2) u n = k 2 h=1 n 0hb sh = 0 (1120) si ricava facilmente che per s = 1,, k 1 1 vale 1 n k 1 j=1 n j0 λs a sj = 1 n k 2 h=1 n 0h λs b sh = 0 (1121) Dunque per il terzo sistema di coordinate presentato l origine degli assi corrisponde ai centroidi o profili medi dei due caratteri nella rappresentazione fattoriale I punti del grafico che si avvicinano all origine sono quelli i cui profili sono maggiormente somiglianti con quelli medi Analogamente i punti situati in posizione periferica hanno profili che si discostano maggiormente da quelli medi Due modalità del primo carattere aventi profili simili corrispondono a punti riga vicini nella rappresentazione grafica Analogamente per le modalità del secondo carattere Non è possibile dare significato alla prossimità tra un punto riga e un punto colonna, ma piuttosto si può interpretare la posizione di un punto riga rispetto a quella di tutti i punti colonna e viceversa Ciò è possibile grazie alle relazioni d mutua transizione che legano le coordinate di un punto riga a quelle di tutti i punti colonna e viceversa Si badi bene che le analisi delle prossimità tra punti sono valide se lo è la rappresentazione fattoriale e ciò può essere verificato tramite il calcolo della percentuale di inerzia totale spiegata dai primi due assi principali (dalle prime due soluzioni fattoriali) Riguardo all interpretazione del significato degli assi fattoriali si noti che ciascuna modalità dei due caratteri contribuisce alla determinazione di ogni asse in misura proporzionale alla coordinata del punto che la rappresenta sull asse stesso In altri termini quanto più un punto si allontana dall origine nella direzione di un asse, tanto più la modalità che esso rappresenta influisce sull individuazione dell asse stesso

Cap 11: Analisi delle corrispondenze 153 112 Cenni all analisi delle corrispondenze multiple Si disponga ora di p caratteri qualitativi X l con l = 1,, p, ciascuno caratterizzato da k l modalità con p l=1 k l = k Anche in questo caso si può costruire una matrice dati sotto forma disgiuntiva formata da n righe e k colonne X = (X (1),, X (p) ) dalla quale si ricava la cosiddetta matrice di Burt X (1) X (1) X (1) X (l) X (1) X (p) B = X X = X (l) X (1) X (l) X (l) X (l) X (p) = X (p) X (1) X (p) X (l) X (p) X (p) D 1 N 1l N 1p = N 1l D l N lp (1122) N 1p N lp D p Gli elementi della matrice B corrispondono alle frequenze di una tabella di contingenza in cui nella riga e nella colonna madre compaiono le modalità di tutti i p caratteri Lo studio dell associazione tra le k modalità dei p caratteri può dunque avvenire tramite l analisi delle corrispondenze semplici effettuata partendo dalla matrice di Burt piuttosto che dalla matrice N