ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM)

ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM) Questa procedura è stata introdotta negli anni 70, ad opera della scuola francese di analisi dei dati (Benzecri). Inizialmente fu proposta per analizzare tabelle di contingenza bivariate di gradi dimensioni (AC), successivamente è stata applicata a tabelle contenenti informazioni relative ad un numero elevato di variabili. Fa parte, come l ACP, delle tecniche fattoriali e, come l ACP, ha lo scopo di sintetizzare le relazioni che intercorrono fra numerose variabili sottoposte ad analisi simultanea, allo scopo di riprodurne il patrimonio informativo in un numero più ridotto di variabili sintetiche = fattori. Come nel caso dell ACP, il presupposto è che le variabili trattate siano associate tra loro e che in virtù di ciò possano esprimere (almeno in parte) uno stesso tipo di informazione. Questa tecnica si applica a variabili categoriali e per lo studio delle relazioni tra le numerose modalità-variabili che essa tratta si ricorre alla statistica del 2 Fasi procedurali 1. Si selezionano dalla originaria matrice casi x variabili le variabili che si intendono analizzare, con quale funzione - attiva = destinate a formare le sintesi fattoriali - illustrativa = da utilizzare successivamente allo scopo di meglio interpretare e caratterizzare i fattori estratti e in quale forma/struttura: bilanciamento modalità / bilanciamento variabili. 2. Si costruisce una nuova matrice casi x variabili disgiuntiva completa = ogni modalità delle variabili selezionate viene trattata come se fosse una variabile a sé stante nella nuova matrice dei dati (vedi Statera, 1998, Tab. 6.7, p. 352) 3. Si predispone il dizionario delle modalità-variabili: ciascuna delle modalitàvariabili che entra in ACM deve essere contrassegnata da un etichetta alfanumerica di quattro caratteri, in modo da rendere immediato il suo riconoscimento nell output della procedura. 4. Dalla nuova matrice disgiuntiva completa si ricava una nuova matrice (modalitàvariabili x modalità-variabili) quadrata e simmetrica detta matrice di Burt - (vedi Statera, 1998, Tab. 6.8, p. 353).

5. A seguito di trattamento della matrice di Burt mediante procedimenti di algebra della matrici si estraggono i fattori = costrutti algebrici che si ottengono attraverso combinazioni lineari delle modalità-variabili originarie: a partire dallo spazio a p dimensioni definito da tutte le modalità-variabili considerate, l ACM consente di individuare assi ortogonali (= indipendenti l uno dall altro) detti assi fattoriali, tramite i quali sia possibile rappresentare in uno spazio più ridotto le interrelazioni tra le modalità-variabili considerate. I fattori rappresentano dimensioni latenti nella struttura dei dati, e sono riferibili a categorie concettuali sottostanti, utili a dar conto di ciò che le variabili associate condividono. Essi devono: - essere indipendenti l uno dall altro - essere le migliori combinazioni lineari delle variabili originarie - spiegare in ordine decrescente la maggior parte possibile dell inerzia (equivalente alla varianza in ACP) totale contenuta nella matrice di Burt. Ogni asse fattoriale è distinguibile in due semi-assi, uno positivo e uno negativo, che rappresentano i poli semantici opposti dell asse (designazioni bipolari interpretabili come modalità di riferimento della nuova supervariabile /fattore). 6. Si scelgono i fattori da utilizzare. Come ci si orienta? - Metodo dell autovalore : Ogni fattore estratto è corredato dal relativo autovalore (valore proprio = ) che permette di quantificare la percentuale di inerzia /variabilità spiegata, secondo la seguente proporzione: i : = % i : 100 Considerato che per effetto dell ampliamento del numero delle variabili originarie in modalità-variabili la quantità di inerzia spiegata dai fattori estratti è sottodimensionata, è stata proposta dallo stesso Benzecrì, la seguente formula di rivalutazione degli autovalori * i = autovalore rivalutato del fattore i i = autovalore originario del fattore i p = numero delle variabili attive * i = ( i - 1/p) 2 - si scelgono i fattori con autovalore più elevato - si decide il livello minimo cui attestarsi nella % cumulata dell inerzia spiegata

- Metodo dello screen test: ci si ferma al fattore oltre il quale l incremento di inerzia spiegata diventa esiguo 7. Si interpretano i fattori scelti. Per l interpretazione semantica dei fattori si ricorre a una serie di coefficienti statistici: Massa (o peso relativo) di ciascuna variabile/modalità attiva: è il rapporto tra la frequenza della variabile/modalità e il numero totale di variabili/modalità attive; Indice di distorsione (o distanza dall origine) di ciascuna variabile/modalità: dà indicazioni sul carattere periferico di certe variabili/modalità ed è inversamente proporzionale alla massa; dipende dalla distribuzione di frequenza delle modalità di una variabile: se essa è bilanciata assume valori bassi, se essa è fortemente sbilanciata assume un valore molto alto, indicando, insieme alla massa, l irrilevanza della modalità; Contributo assoluto di ciascuna variabile/modalità attiva: rappresenta la parte di dispersione del fattore dovuta alla singola variabile/modalità (è l equivalente del component loading nell ACP) (quota di inerzia totale del fattore riprodotta dalla singola modalità-variabile); Coseno quadrato o contributo relativo: è un valore che permette di valutare il contributo che un certo fattore F fornisce alla riproduzione della dispersione di ogni variabile/modalità attiva. Se esso è basso la modalità in questione non è ben rappresentata sul fattore e sarà sintetizzata meglio da altri fattori; al contrario, se è elevato, è opportuno analizzare il ruolo che la variabile/modalità riveste nella formazione dell asse su cui è ben rappresentata; Coordinata fattoriale (di segno positivo o negativo): indica la posizione delle modalità sui fattori sia in termini di distanza dal punto zero che rappresenta il centro-origine dei fattori, sia in termini di versante positivo o negativo dell asse-fattore considerato. Le modalità che si collocano più distanti dall origine sono quelle che, di solito, contribuiscono maggiormente alla formazione del fattore stesso. Valore test: indica la significatività dell associazione tra una variabile/modalità e un fattore. Esso è particolarmente utile per valutare le associazioni delle modalità illustrative, che non contribuiscono alla formazione dei fattori stessi. Sono considerati significativi, al livello di probabilità del 5%, i coefficienti maggiori di 2 in valore assoluto.

Criterio di valutazione dell autovalore La somma di tutti gli autovalori corrisponde / è pari alla traccia della matrice di Burt (elementi della diagonale principale, sintesi della complessiva dispersione contenuta nella matrice). Pertanto, il rapporto tra l autovalore e la traccia = sommatoria degli autovalori rappresenta la proporzione di dispersione complessiva riprodotta da quel fattore i : = % i : 100 Criterio indicativo per la valutazione del contributo assoluto Per ogni fattore, la somma di tutti i contributi assoluti è pari a 100. Per stabilire un valore soglia di riconoscimento di un contributo significativo, si divide 100 per il totale delle modalità-variabili attive. Si stima così il contributo assoluto medio e, a partire da questo, si valutano quelli che se ne discostano di più. Criterio indicativo per la valutazione del contributo relativo La dispersione complessiva di ogni modalità-variabile è riprodotta da tutti i fattori estratti, ciascuno secondo una certa proporzione che varia da 0 a 1 (se moltiplicato per 100, tale valore esprime la percentuale di dispersione riprodotta da ciascun fattore). Considerati q fattori estratti, mediamente ciascuno di essi può riprodurne una proporzione pari a 1/q. A partire dal valore medio, si valutano i contributi relativi che se ne discostano maggiormente.

N.B. - Dopo aver interpretato i singoli fattori grazie agli indici statistici sopra elencati, si possono esaminare le rappresentazioni grafiche risultanti dall intersezione di coppie di fattori. In questi grafici cartesiani si possono proiettare sia le modalità (attive e illustrative) sia i casi. In generale, nel caso in cui le modalità abbiano una numerosità bilanciata, quanto più un punto è lontano dall origine degli assi, tanto più forte è il suo contributo alla formazione dell asse stesso; tanto più due punti sono vicini, maggiore è l interdipendenza tra essi. Nel caso in cui le modalità-variabili abbiano diversa numerosità, si deve considerare che modalità-variabili scarsamente numerose ( modalità rare ) tendono ad allontanarsi artificiosamente dal centro degli assi, creando problemi di interpretazione. Per questo andrebbero automaticamente espunte ( ventilate ). Infine: per ciascun caso si possono calcolare le coordinate fattoriali: esse corrispondono ai punteggi componenziali dell ACP e rappresentano lo stato del caso sul fattore. Tali stati saranno le modalità delle nuove super-variabili (fattori) che sostituiranno quelle originarie nella matrice dei dati.

CONTRIBUTO DELL ANALISI FATTORIALE ALLA COSTRUZIONE DEGLI INDICI a) Stima della validità degli indicatori utlizzati per operativizzare un concetto: - indicatori di uno stesso concetto hanno una parte indicante in comune: più altra è la correlazione di un indicatore con gli altri, maggiore è la sua parte indicante, maggiore è la sua validità; - attraverso le misure di associazione fra i singoli indicatori e il fattore che incarna il concetto si individuano gli indicatori più validi; b) Individuazione di dimensioni concettuali non previste o conferma (ma anche revisione) di dimensioni concettuali già previste : funzione euristica e funzione confermativa