Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza tramite la rappresentazione grafica delle modalità dei due caratteri in uno spazio di dimensionalità minima (in quasi tutte le applicazioni il piano cartesiano) Rappresentazione grafica delle righe e delle colonne di una tabella di contingenza A. Pollice - Statistica Multivariata
Analisi delle corrispondenze semplici n individui classificati secondo due fattori X 1 e X 2 con k 1 e k 2 livelli X 1 X 2 X 21 X 2h X 2k2 tot. X 11 n 11 n 1h n 1k2 n 10..... X 1j n j1 n jh n jk2 n j0..... X 1k1 n k1 1 n k1 h n k1 k 2 n k1 0 tot. n 01 n 0h n 0k2 n Profili riga: distribuzioni delle frequenze relative di X 2 condizionate rispetto a ciascuna modalità di X 1 Profili colonna: distribuzioni delle frequenze relative di X 1 condizionate rispetto a ciascuna modalità di X 2
Profili riga e profili colonna vengono trasformati in punti di due sottospazi bidimensionali individuati in modo ottimale Vengono ritenute somiglianti le modalità di X 1 caratterizzate da punti riga simili, e quelle di X 2 caratterizzate da punti colonna simili L analisi delle corrispondenze fornisce una rappresentazione sintetica delle informazioni contenute nella tavola di contingenza attraverso la considerazione delle prossimità tra profili riga e profili colonna
Le due mutabili X 1 e X 2 possono essere trasformate in k 1 e k 2 variabili dicotomiche e la matrice N con elemento generico n jh può essere rappresentata nella forma disgiuntiva X (1) matrice n k 1 il cui elemento generico X (1) ij vale 1 se l individuo i-esimo è caratterizzato dal j-esimo livello del primo fattore, e vale 0 altrimenti Analogamente X (2) per il secondo fattore
forma disgiuntiva X (1) X (2) = N Inoltre X (1) X (1) = D 1 = diag(n 10,..., n k1 0) X (2) X (2) = D 2 = diag(n 01,..., n 0k2 )
Le relazioni tra le due mutabili X 1 e X 2 vengono studiate tramite l analisi della correlazione canonica tra le colonne delle matrici X (1) e X (2) Individuazione dei vettori a e b di k 1 e k 2 coefficienti che definiscono le due variabili unidimensionali massimamente correlate tra loro e con varianza unitaria v = X (1) a w = X (2) b v e w sintetizzano rispettivamente i profili riga ed i profili colonna
Bisogna risolvere le due equazioni caratteristiche D1 1 ND 1 2 N λi k1 = 0 D2 1 N D1 1 N λi k 2 = 0 Se k 1 k 2, la somma dei k 1 autovalori comuni alle due matrici misura complessivamente l associazione tra i due fattori (inerzia totale)
Il maggiore tra gli autovalori λ 0 ha sempre valore unitario, i successivi sono sempre inferiori Ciascun autovalore λ s = [cov(v s, w s )] 2, con s = 1,..., k 1 misura l interdipendenza tra i due gruppi di variabili spiegata dalla s-esima soluzione canonica La sua radice quadrata λ s è detta inerzia e misura la variabilità associata a ciascuna soluzione Il rapporto λ s / k 1 1 s=0 λ s detto frazione di inerzia indica l idoneità della s-esima soluzione a rappresentare l associazione tra i fattori
Le coppie di vettori di coefficienti a s e b s corrispondono agli autovettori normalizzati delle matrici D1 1 ND 1 2 N e D2 1 N D 1 associati agli autovalori λ s per s = 0,..., k 1 1 Come nell analisi della correlazione canonica le formule di mutua transizione mettono in relazione geometrica i due sottospazi sui quali sono proiettati i profili riga e i profili colonna Le componenti canoniche diverse da quelle banali (associate all autovalore unitario λ 0 ) hanno media nulla 1 N
Rappresentazione grafica La costruzione della mappa avviene considerando i punteggi dei punti riga e colonna nelle due dimensioni ottenute considerando le prime due coppie di componenti canoniche Per la prima soluzione non banale legata all autovalore λ 1 il vettore n-dimensionale v 1 = X (1) a 1 esprime le n osservazioni in termini della coordinata ottenuta come trasformazione del carattere X 1 La j-esima modalità di X 1 è rappresentata in termini della nuova coordinata v 1 considerandone la media per gli n j0 individui che la posseggono, pari ad a 1j
Punto riga: la j-esima modaltà del primo carattere X 1 ha coordinate (a 1j, a 2j ) sul piano delle prime due componenti canoniche (o coordinate fattoriali) del primo carattere Punto colonna: per esprimere la h-esima modalità del carattere X 2 in termini delle coordinate fattoriali del primo carattere, ovvero in termini di a 1 si considerano le seguenti medie ponderate e le formule di mutua transizione k1 j=1 n jh a 1j n 0h k1 j=1 n jh a 2j n 0h = λ 1 b 1h = λ 2 b 2h
Sul piano fattoriale del primo carattere si rappresentano due serie di punti corrispondenti alle modalità dei due caratteri Punti riga di coordinate (a 1j, a 2j ) Punti colonna di coordinate ( λ 1 b 1h, λ 2 b 2h ) Analogamente si può considerare il piano fattoriale del secondo carattere con Punti riga ( λ 1 a 1j, λ 2 a 2j ) Punti colonna (b 1h, b 2h )
Una terza rappresentazione (simmetrica) mette sullo stesso piano i due caratteri Punti riga ( λ 1 a 1j, λ 2 a 2j ) Punti colonna ( λ 1 b 1h, λ 2 b 2h ) Per questo sistema di coordinate l origine degli assi corrisponde ai profili medi dei due caratteri nella rappresentazione fattoriale: i punti del grafico più vicini all origine sono quelli i cui profili sono maggiormente somiglianti con quelli medi, mentre quelli in posizione periferica hanno profili che si discostano maggiormente da quelli medi
Non è possibile dare significato alla prossimità tra un punto riga e un punto colonna Due modalità di uno dei due caratteri aventi profili simili corrispondono a punti riga o a punti colonna vicini nella rappresentazione grafica Si può interpretare la posizione di un punto riga rispetto a quella di tutti i punti colonna e viceversa Le analisi delle prossimità tra punti sono valide se lo è la rappresentazione fattoriale e ciò può essere verificato tramite il calcolo della percentuale di inerzia totale spiegata dai primi due assi principali
Ciascuna modalità dei due caratteri contribuisce alla determinazione di ogni asse in misura proporzionale alla coordinata del punto che la rappresenta sull asse stesso - quanto più un punto si allontana dall origine nella direzione di un asse, tanto più la modalità che esso rappresenta influisce sull individuazione dell asse stesso L analisi del contributo di ciascun punto all inerzia dei due assi permette di quantificarne con precisione l importanza nel determinare la direzione degli assi e di interpretare meglio il significato degli assi stessi Ciascun asse è denominato in funzione delle modalità che più lo compongono
Cenni all analisi delle corrispondenze multiple Si disponga di p caratteri qualitativi X l con l = 1,..., p, ciascuno caratterizzato da k l modalità con p l=1 k l = k Si può costruire una matrice dati sotto forma disgiuntiva formata da n righe e k colonne X = (X (1),..., X (p) )
Matrice di Burt B = X X = D 1 N 1l..... N 1p. N 1l D l..... N lp. N 1p N lp D p Gli elementi di B corrispondono alle frequenze di una tabella di contingenza in cui nella riga e nella colonna madre compaiono le modalità di tutti i p caratteri Lo studio dell associazione tra le k modalità dei p caratteri avviene tramite l analisi delle corrispondenze semplici effettuata partendo dalla matrice di Burt piuttosto che dalla matrice N