Analisi delle Corrispondenze Multiple Prof. Roberto Fantaccione Consideriamo il nostro dataset formato da 468 individui e 1 variabili nominali costituite dalle seguenti modalità : colonna D: Age of client (età del cliente) -> 4 modalità (meno di 3;da 3 a 40;da 40 a 50;oltre 50) colonna E: Profession (professione) -> 3 modalità (dipendente ;esecutivo; altra professione) colonna F: Seniority (anzianità) -> 5 modalità( 1 anno o meno;da 1 a 4 anni;da 4 a 6;da 6 a 1;più di 1) colonna G: Family Situation (situazione di famiglia) -> 4 modalità ( single;sposato;divorziato;vedovo) colonna H: Type of client (tipo di cliente) -> modalità ( buono; cattivo) colonna I: Home of employee (a casa del dipendente) -> modalità (stipendio a domicilio e non) colonna J: Size of savings (dimensione dei risparmi) -> 4 modalità(nessun risparmio;meno di 10 KF;da 10 a 100 kf; oltre 100 KF) colonna K: Active mean migliaia di franchi (media attiva in ml di franchi)->3 modalità (meno di KF;da a 5;più di 5) colonna L: Mean of mouvements (media del movim. di trasl.) -> 4 modalità (meno di 10KF;da 10 a 30;da 30 a 50;più di 50) colonna M: Cumulative debits (debiti cumulativi) -> 3 modalità (meno di 40;da 40 a 100;più di 100) colonna N: overdraft authorized (scoperto autorizzato) -> modalità (proibito;autorizzato) colonna O: Checkbook not allowed (assegni ammessi) -> 1 modalità (libretto di assegni ammessi) Totale 37 modalità Figura 1 Matrice di partenza Eseguiamo una statistica semplice per Il calcolo delle frequenze relative delle rispettive modalità 4 modalità 3 modalità 5 modalità 4 modalità modalità modalità 4 modalità 3 modalità 4 modalità 3 modalità modalità 1 modalità
Poiché il numero di variabili osservate è superiore a tre, la matrice non è più rappresentabile ma è possibile immaginare una tabella a p vie in cui ciascuna cella contiene le frequenze relative a quella particolare combinazione di modalità. La caratteristica di questa matrice è che quasi sempre il numero di celle è di gran lunga superiore al numero di osservazioni, con il risultato che la maggior parte delle celle risultano vuote. Se infatti consideriamo il dataset sopra con 468 clienti appartenenti ad una banca, osserviamo che ad ogni cliente vengono considerate 1 variabili nominali, ma ad ogni variabile è assegnato un numero di modalità (con un minimo di 1 ad un massimo di 5), per un totale di 37 modalità. La matrice quindi è formata da 468 righe per 37 colonne ( 17.316 celle) che indicheremo con il nome Z (detta anche in codifica disgiuntiva completa -figura 3). Lo studio di una tabella del genere risulta quindi particolarmente complesso, motivo per cui l analisi viene generalmente semplificata limitando i gradi di interazione e considerando, ad esempio, il solo insieme di tabelle a due vie che dalla matrice iniziale possono essere generate, tale matrice è chiamata Matrice dei dati in codifica ridotta ed è sotto meglio descritta. Figura - Matrice R dei dati in codifica ridotta Id Age Prof. Seniority Family Type of Home of Size Active Mean of Cumulati Over Chec client of mean ve debits draf book 1 4 1 5 1 1 1 1 4 1 1 1 1 1 1 1 1 1 1 1 1 1................................................ 468 1 1 1 1 1 1 1 1 Dalla matrice di partenza di figua 1, si passa alla matrice R dei dati in codifica ridotta, in cui ogni colonna rappresenta una variabile che può assumere valori da 1 al numero di modalità previste dalla variabile stessa. La codifica così definita ha il vantaggio di raccogliere i dati osservati in modo compatto e facilmente leggibile. Successivamente si effettua una prima trasformazione e si ottiene quindi definendo con Z una matrice in cui ogni variabile dà origine a tante variabili dicotomiche ( che assumono cioè i soli valori zero o uno) quante sono le modalità previste. Questo tipo di codifica viene detta disgiunta completa perché prevede i soli valori uno e zero (disgiuntiva) e perché per ogni variabile una e una sola delle modalità deve assumere valore uno, non essendo previste modalità diverse da quelle considerate (completa). Dalla matrice R si ottiene quindi la matrice Z o in codifica disgiuntiva completa sotto riportata. Figura 3 Matrice dei dati in codifica disgiuntiva completa Id Age Prof. Seniority Family Type of Home of Size Active Mean of Cumulati client of mean ve debits 1 0001 10 00001 1000 10 10 10 010 0001 01 10 10 1000 10 10000 1000 10 10 10 010 1000 10 10 10................................................ 468 0100 10 00001 1000 01 10 10 100 1000 01 01 10 Figura 3.1 - Matrice dei dati in codifica disgiuntiva completa ( prodotta con softwarexlstat) Over draf Chec book -La matrice Z dei dati in codifica disgiuntiva completa è formata da 468 righe e 37 colonne, in quanto la somma delle colonne riporta la frequenza di ciascuna delle s modalità, avendo indicato con s la somma s1+s+s3+.s1 delle modalità di tutte le variabili. Alla matrice Z possono quindi essere applicati i concetti di profilo riga e profilo colonna, di massa e di distanza del chi-quadrato e quindi gli algoritmi definiti per l analisi delle corrispondenze binarie. Dalla matrice Z è inoltre possibile ottenere la matrice B di Burt in cui vengono considerati tutti i possibili incroci tra le variabili. Tale matrice, ottenuta dal prodotto Z Z, è costituita da p blocchi, dove ciascun blocco diagonale è a sua volta una matrice diagonale di ordine sj i cui elementi riportano le frequenze delle modalità delle variabile pj, mentre i blocchi non diagonali, di dimensioni si x sj, rappresentano le tabelle di contingenza relative alle modalità delle variabili pi e pj. Dalla matrice B di Burt si ottiene la matrice diagonale D, che è anch essa una matrice a blocchi con i blocchi non diagonali pari a zero e blocchi diagonali uguali a quelli di B.
La matrice di Burt con p =11 blocchi e la matrice diagonale D sono riportate di seguito. E possibile individuare in queste tabelle le distribuzioni di frequenze delle 1 variabili (matrice D o blocco diagonale di B) e le tabelle di contingenza per tutte gli incroci possibili ( blocchi non diagonali di B). Figura 4 Matrice di Burt (prodotta con software XLSTAT) La trasformazione delle matrici La prima trasformazione è quella di portarla in forma disgiuntiva completa, ossia trasformarla in una matrice casi x modalità. La seconda trasformazione è quella di moltiplicare la matrice disgiuntiva completa per la sua trasposta ottenendo così la matrice di Burt. La matrice di Burt è una matrice variabili x variabili, in quanto ottenuta dalla moltiplicazione della matrice disgiuntiva completa per la sua trasposta; essa, quindi, risulta essere quadrata e diagonale. La matrice di Burt racchiude in sé tutte le tabelle di contingenza tra le variabili ed è su questa che verranno condotte le operazioni che consentono l estrazione dei fattori. Figura 5 Matrice Diagolane D (prodotta con software XLSTAT La metrica
Lavorando con variabili categoriali non si può ragionare usando la metrica di tipo Euclideo, ma si dovrà usare la metrica del Chi-quadrato. Le distanze si calcolano tra i profili riga (o colonna). Il calcolo della distanza del chi-quadrato inserisce un coefficiente di ponderazione che rivaluta le componenti a più bassa frequenza e ridimensiona quelle a più alta frequenza. Il coefficiente di ponderazione T/Cj è l inverso del rapporto Cj/T che è la frequenza relativa marginale della modalità J: si pondera ogni elemento per l inverso della sua importanza sul totale delle frequenze) D ( ir) = S (j = 1 q) T/Cj (fij/fi frj/fr) Obiettivo ACM Trovare poche dimensioni in grado di riprodurre la maggior parte dell associazione presente fra le variabili analizzate in un ridotto numero di fattori. E possibile scegliere quali variabili far partecipare alla determinazione dei fattori (variabili attive). Le variabili che non partecipano all elaborazione possono essere analizzate in qualità di variabili illustrative (controllando la loro relazione con i fattori ottenuti con l ACM) I fattori ottenuti con l ACM: - sono ortogonali fra loro - sono combinazioni delle variabili-modalità inserite nell analisi - riproducono, in ordine decrescente, il massimo della dispersione (o inerzia) presente nella matrice di Burt Inerzia totale e tassi di inerzia La matrice Z, di dimensioni (n,s), identifica, nello spazio R n, s punti le cui coordinate sono le righe della matrice D -1 Z ( o le colonne della matrice ZD -1 ). Ciascuna sottomatrice Zq genera, in R n,un sottospazio lineare a p q dimensioni che avrà certamente in comune con tutti gli altri almeno la prima bisettrice, ossia il vettore le cui componenti risultano tutte uguali a uno. Il rango massimo di ZD -1, e quindi di Z, è quindi pari a: s 1+(s -1)+(s 3-1)+.+(s p-1)=s-p+1 D altra parte, degli s-p+1 autovettori della matrice Z ZD -1, uno sarà quello che congiunge l origine con il baricentro e che corrisponde all autovalore banale unitario. Nell analisi centrata, quindi, potranno essere determinati al massimo s-p auto valori non nulli e la percentuale di variabilità spiegata da ciascun fattore sarà rappresentata dalla quantità: α Tassi di inerzia : x100 s p λ j = 1 λ α Tale quantità, che è una misura eccessivamente pessimistica dell effettivo potere esplicativo dei diversi fattori, assume, nel caso dell ACM, valori generalmente molto bassi anche per i primi fattori. Questo perché la codifica disgiuntiva, imponendo una relazione di ortogonalità tra le modalità di una stessa variabile, introduce una sorta di sfericità artificiale della nube dei punti, che si manifesta proprio nei bassi valori dei tassi di inerzia. L inerzia di una modalità, I(j), è data dal quadrato della distanza dal baricentro per il peso mj, rappresentato dal corrispondente marginale di colonna sulla tabella delle frequenze relative: m j= z. j n p Nel nostro caso Inerzia totale:,083 Gli s-p=5 autovalori non nulli che è possibile determinare sono i seguenti: Autovalori e tassi di inerzia Tra i metodi per correggere i valori dei tassi di inerzia e renderli attendibili, soprattutto relativamente ai primi fattori, Benzècri ha introdotto la correzione: p = ( ) x( p 1 1 ) p λ λ per λ >1/p Che, per p elevato, equivale a considerare il quadrato degli autovalori mentre per p= porta all espressione λ *=( λ -1) =µ che individua gli auto valori dell AC sulla tabella di contingenza che incrocia le due variabili.
Istogramma Come nell AC, gli autovalori sono tutti minori di 1. Le percentuali di inerzia spiegata risultano molto basse ma è possibile applicare la formula di correzione sotto p = ( ) x( p 1 1 ) p λ λ per λ >1/p Per ottenere i seguenti nuovi valori: Autovalori corretti e tassi di inerzia La corretta interpretazione dei fattori richiede la lettura dei contributi assoluti e della qualità della rappresentazione dei punti, quantità riportata nella tabella sotto.
Figura 6 Piano fattoriale 1-: modalità attive (prodotto con software XLSTAT
La contrapposizione delle modalità sugli assi è ben visibile, in alto abbiamo i clienti che hanno un età superiore a 50 anni che presentano le seguenti caratteristiche: - hanno una media di movimenti superiore ai 50.000 franchi, con un anzianità superiore a 1 anni e con stato familiare coniugato. Possiamo affermare che queste sono le categorie che risparmiano di più ed hanno una media attiva di oltre 5000 franchi, inoltre, la loro professione è maggiormente executive (dirigenti). - Nella parte centrale del piano fattoriale di fig. 6, abbiamo le categorie tra i 3 e 40 anni, esse risultano essere maggiormente divorziati e per la banca non sono buoni clienti. - I clienti con età compresa tra 40 e 50 si trovano in una situazione intermedia rispetto ai due gruppi analizzati. - Nella parte bassa a sinistra abbiamo i clienti con età al di sotto di 3 anni. Essi risultano essere per la maggior parte Single ed hanno una media attiva in franchi compresa tra e 5 KF, anche perché sono clienti da meno di 1 mesi con cumulo di debiti meno di 40 mila franchi. Analizziamo ora il piano formato da terzo e quarto fattore: Si evince che questo piano contribuisce a definire il profilo dei soggetti analizzati e mette in risalto aspetti quali le professioni e più precisamente: - i clienti sotto i 3 anni non sono dipendenti della banca. Da una prima analisi troviamo pochi individui appartenenti a questa categoria. Un aspetto importante è che pochi individui risparmiano più di 100.000 franchi. Il tutto conferma che il correntista più anziano ha una buona condizione economica e risulta essere un buon cliente. Tale fattore spiega il fatto che la banca tende a mantenere i rapporti con clienti buoni, in tal modo abbassa il rischio di inadempienza di un debitore (cliente cattivo) e tiene sotto controllo la riserva o il proprio patrimonio di Vigilanza così come stabilito da Basilea. Analisi eseguita dal Prof. Roberto Fantaccione
Grafico asimmetrico delle variabili (assi F3 e F4: 10,61 %) 3 Size of savings-more than 100 KF 39 F4 (4,16 %) 1 Active mean migliaia di franchi-more than 5 KF Size of savings-from 10 to 100 KF 10 Age of client-less than Profession-other Mean 3 Seniority-1 years of mouvements-less year or less profession than 10 KF Home of employee-not Profession-executive domicile 43 salary 33 Cumulative overdraft debits-less authorized-forbidden than 40 Mean Age of of mouvements-more client-from 40 to 50 than years 50 KF Family Situation-single 3 Family Type Situation-divorced of client-bad client 38 8 Checkbook 1 not allowed-checkbook 9 allowed 6 35 3 7 0-1 Size of Cumulative savings-less than 10 KF 4 debits-more than 100 Cumulative Home Type of debits-from of client-good employee-domicile Size 45 Family 40 client of to savings-no Situation-married 100 salary Age savings of client-over 47Family 48 50 years Situation-widow Age of client-from 5 3 Active to 40 years mean migliaia Seniority-plus di franchi-from 1 years 34 to 5 KF Seniority-from Seniority-from 6 to Profession-employee 1 overdraft years 11 1 to authorized-authorised 4 Active years 18 mean migliaia di franchi-less than 14 KF 15 Mean Seniority-from of mouvements-from 4 to 6 years 10 to 30 KF Mean 4of mouvements-from 4 30 to 50 KF 1 9 17 0 44 5 40 31 830 46 6 7 36 13 41 50 49 3-37 19 1 16-3 -6-5 -4-3 - -1 0 1 3 4 5 F3 (6,45 %) Variabili Osservazioni