Analisi delle Corrispondenze Multiple Prof. Roberto Fantaccione



Documenti analoghi
4. Operazioni elementari per righe e colonne

Il concetto di valore medio in generale

STATISTICA IX lezione

Dimensione di uno Spazio vettoriale

Prova di autovalutazione Prof. Roberta Siciliano

SISTEMI DI NUMERAZIONE E CODICI

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

Dott.ssa Caterina Gurrieri

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

Capitolo 11 Test chi-quadro

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

Esempi di funzione. Scheda Tre

Parte 2. Determinante e matrice inversa

x 1 + x 2 3x 4 = 0 x1 + x 2 + x 3 = 0 x 1 + x 2 3x 4 = 0.

GEOMETRIA DELLE MASSE

Ricerca Operativa Esercizi sul metodo del simplesso. Luigi De Giovanni, Laura Brentegani

Corso di. Dott.ssa Donatella Cocca

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

RICHIAMI SULLE MATRICI. Una matrice di m righe e n colonne è rappresentata come

Lezione 9: Cambio di base

1. Distribuzioni campionarie

Analisi e diagramma di Pareto

Cenni su algoritmi, diagrammi di flusso, strutture di controllo

età sesso luogo-abitazione scuola superiore esperienza insegnamento

Interesse, sconto, ratei e risconti

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

ESERCIZI DI MATEMATICA FINANZIARIA DIPARTIMENTO DI ECONOMIA E MANAGEMENT UNIFE A.A. 2015/ Esercizi 4

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Parte 3. Rango e teorema di Rouché-Capelli

MATEMATICA DEL DISCRETO elementi di teoria dei grafi. anno acc. 2009/2010

Controlli Automatici T. Trasformata di Laplace e Funzione di trasferimento. Parte 3 Aggiornamento: Settembre Prof. L.

ESTRAZIONE DI RADICE

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA

ANALISI DELLE FREQUENZE: IL TEST CHI 2

La distribuzione Normale. La distribuzione Normale

4 3 4 = 4 x x x 10 0 aaa

Elementi di informatica

Rappresentazione dei numeri in un calcolatore

(a cura di Francesca Godioli)

b. Che cosa succede alla frazione di reddito nazionale che viene risparmiata?

APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE

MATRICI E DETERMINANTI

Teoria in sintesi 10. Attività di sportello 1, 24 - Attività di sportello 2, 24 - Verifica conclusiva, 25. Teoria in sintesi 26

Complementi di Analisi per Informatica *** Capitolo 2. Numeri Complessi. e Circuiti Elettrici. a Corrente Alternata. Sergio Benenti 7 settembre 2013

1 Applicazioni Lineari tra Spazi Vettoriali

Rette e piani con le matrici e i determinanti

Forze come grandezze vettoriali

4. Operazioni aritmetiche con i numeri binari

Matrice Excel Calcolo rata con IMPORTO DEL FINANZIAMENTO determinato dall'utente

Le query di raggruppamento

Analisi Matematica di circuiti elettrici

Sistemi di Numerazione

Cos è Excel. Uno spreadsheet : un foglio elettronico. è una lavagna di lavoro, suddivisa in celle, cosciente del contenuto delle celle stesse

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

Relazioni statistiche: regressione e correlazione

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

PROGRAMMA SVOLTO NELLA SESSIONE N.

Capitolo 2 Distribuzioni di frequenza

BASILEA 2. Allegato Tecnico. Fonte: circolari dedicate alla Fondazione Luca Pacioli

Excel. A cura di Luigi Labonia. luigi.lab@libero.it

Matrice Excel Calcolo rata con DURATA DEL FINANZIAMENTO determinata dall'utente

Per visualizzare e immettere i dati in una tabella è possibile utilizzare le maschere;

GIROSCOPIO. Scopo dell esperienza: Teoria fisica. Verificare la relazione: ω p = bmg/iω

Calcolatori: Algebra Booleana e Reti Logiche

Universita degli Studi di Roma Tor Vergata Facolta di Ingegneria Elettronica

ESERCIZI DI STATISTICA DESCRITTIVA

Capitolo 13: L offerta dell impresa e il surplus del produttore

Sistemi Informativi Territoriali. Map Algebra

2.1 Definizione di applicazione lineare. Siano V e W due spazi vettoriali su R. Un applicazione

Università degli Studi di Ferrara - A.A. 2014/15 Dott. Valerio Muzzioli ORDINAMENTO DEI DATI

Matrice rappresent. Base ker e img. Rappresentazione cartesiana ker(f) + im(f).

Elementi di Psicometria con Laboratorio di SPSS 1

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

Utilizzo delle formule in Excel

Trasformazioni 2D. Grande differenza rispetto alla grafica raster!

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

Statistica. Alfonso Iodice D Enza iodicede@unina.it

Plate Locator Riconoscimento Automatico di Targhe

Appunti sulla Macchina di Turing. Macchina di Turing

a) Il campo di esistenza di f(x) è dato da 2x 0, ovvero x 0. Il grafico di f(x) è quello di una iperbole -1 1

LEZIONE 23. Esempio Si consideri la matrice (si veda l Esempio ) A =

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

Prof.ssa Paola Vicard

Diagonalizzazione di matrici e applicazioni lineari

Luigi Piroddi

ESEMPIO 1: eseguire il complemento a 10 di 765

Interesse, sconto, ratei e risconti

Analisi di scenario File Nr. 10

Federico Lastaria. Analisi e Geometria 2. Matrici simmetriche. Il teorema spettrale. 1/24

LE FUNZIONI A DUE VARIABILI

UNA LEZIONE SUI NUMERI PRIMI: NASCE LA RITABELLA

LE FUNZIONI E LE LORO PROPRIETÀ

RETTE, PIANI, SFERE, CIRCONFERENZE

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

LA CORRELAZIONE LINEARE

Il sistema monetario

[ Analisi della. concentrazione] di Luca Vanzulli. Pag. 1 di 1

DOMINIO E LIMITI. Esercizio 3 Studiare gli insiemi di livello della funzione f, nei seguenti casi: 1) f(x,y) = y2 x 2 + y 2.

Parte II Indice. Operazioni aritmetiche tra valori rappresentati in binario puro. Rappresentazione di numeri con segno

Transcript:

Analisi delle Corrispondenze Multiple Prof. Roberto Fantaccione Consideriamo il nostro dataset formato da 468 individui e 1 variabili nominali costituite dalle seguenti modalità : colonna D: Age of client (età del cliente) -> 4 modalità (meno di 3;da 3 a 40;da 40 a 50;oltre 50) colonna E: Profession (professione) -> 3 modalità (dipendente ;esecutivo; altra professione) colonna F: Seniority (anzianità) -> 5 modalità( 1 anno o meno;da 1 a 4 anni;da 4 a 6;da 6 a 1;più di 1) colonna G: Family Situation (situazione di famiglia) -> 4 modalità ( single;sposato;divorziato;vedovo) colonna H: Type of client (tipo di cliente) -> modalità ( buono; cattivo) colonna I: Home of employee (a casa del dipendente) -> modalità (stipendio a domicilio e non) colonna J: Size of savings (dimensione dei risparmi) -> 4 modalità(nessun risparmio;meno di 10 KF;da 10 a 100 kf; oltre 100 KF) colonna K: Active mean migliaia di franchi (media attiva in ml di franchi)->3 modalità (meno di KF;da a 5;più di 5) colonna L: Mean of mouvements (media del movim. di trasl.) -> 4 modalità (meno di 10KF;da 10 a 30;da 30 a 50;più di 50) colonna M: Cumulative debits (debiti cumulativi) -> 3 modalità (meno di 40;da 40 a 100;più di 100) colonna N: overdraft authorized (scoperto autorizzato) -> modalità (proibito;autorizzato) colonna O: Checkbook not allowed (assegni ammessi) -> 1 modalità (libretto di assegni ammessi) Totale 37 modalità Figura 1 Matrice di partenza Eseguiamo una statistica semplice per Il calcolo delle frequenze relative delle rispettive modalità 4 modalità 3 modalità 5 modalità 4 modalità modalità modalità 4 modalità 3 modalità 4 modalità 3 modalità modalità 1 modalità

Poiché il numero di variabili osservate è superiore a tre, la matrice non è più rappresentabile ma è possibile immaginare una tabella a p vie in cui ciascuna cella contiene le frequenze relative a quella particolare combinazione di modalità. La caratteristica di questa matrice è che quasi sempre il numero di celle è di gran lunga superiore al numero di osservazioni, con il risultato che la maggior parte delle celle risultano vuote. Se infatti consideriamo il dataset sopra con 468 clienti appartenenti ad una banca, osserviamo che ad ogni cliente vengono considerate 1 variabili nominali, ma ad ogni variabile è assegnato un numero di modalità (con un minimo di 1 ad un massimo di 5), per un totale di 37 modalità. La matrice quindi è formata da 468 righe per 37 colonne ( 17.316 celle) che indicheremo con il nome Z (detta anche in codifica disgiuntiva completa -figura 3). Lo studio di una tabella del genere risulta quindi particolarmente complesso, motivo per cui l analisi viene generalmente semplificata limitando i gradi di interazione e considerando, ad esempio, il solo insieme di tabelle a due vie che dalla matrice iniziale possono essere generate, tale matrice è chiamata Matrice dei dati in codifica ridotta ed è sotto meglio descritta. Figura - Matrice R dei dati in codifica ridotta Id Age Prof. Seniority Family Type of Home of Size Active Mean of Cumulati Over Chec client of mean ve debits draf book 1 4 1 5 1 1 1 1 4 1 1 1 1 1 1 1 1 1 1 1 1 1................................................ 468 1 1 1 1 1 1 1 1 Dalla matrice di partenza di figua 1, si passa alla matrice R dei dati in codifica ridotta, in cui ogni colonna rappresenta una variabile che può assumere valori da 1 al numero di modalità previste dalla variabile stessa. La codifica così definita ha il vantaggio di raccogliere i dati osservati in modo compatto e facilmente leggibile. Successivamente si effettua una prima trasformazione e si ottiene quindi definendo con Z una matrice in cui ogni variabile dà origine a tante variabili dicotomiche ( che assumono cioè i soli valori zero o uno) quante sono le modalità previste. Questo tipo di codifica viene detta disgiunta completa perché prevede i soli valori uno e zero (disgiuntiva) e perché per ogni variabile una e una sola delle modalità deve assumere valore uno, non essendo previste modalità diverse da quelle considerate (completa). Dalla matrice R si ottiene quindi la matrice Z o in codifica disgiuntiva completa sotto riportata. Figura 3 Matrice dei dati in codifica disgiuntiva completa Id Age Prof. Seniority Family Type of Home of Size Active Mean of Cumulati client of mean ve debits 1 0001 10 00001 1000 10 10 10 010 0001 01 10 10 1000 10 10000 1000 10 10 10 010 1000 10 10 10................................................ 468 0100 10 00001 1000 01 10 10 100 1000 01 01 10 Figura 3.1 - Matrice dei dati in codifica disgiuntiva completa ( prodotta con softwarexlstat) Over draf Chec book -La matrice Z dei dati in codifica disgiuntiva completa è formata da 468 righe e 37 colonne, in quanto la somma delle colonne riporta la frequenza di ciascuna delle s modalità, avendo indicato con s la somma s1+s+s3+.s1 delle modalità di tutte le variabili. Alla matrice Z possono quindi essere applicati i concetti di profilo riga e profilo colonna, di massa e di distanza del chi-quadrato e quindi gli algoritmi definiti per l analisi delle corrispondenze binarie. Dalla matrice Z è inoltre possibile ottenere la matrice B di Burt in cui vengono considerati tutti i possibili incroci tra le variabili. Tale matrice, ottenuta dal prodotto Z Z, è costituita da p blocchi, dove ciascun blocco diagonale è a sua volta una matrice diagonale di ordine sj i cui elementi riportano le frequenze delle modalità delle variabile pj, mentre i blocchi non diagonali, di dimensioni si x sj, rappresentano le tabelle di contingenza relative alle modalità delle variabili pi e pj. Dalla matrice B di Burt si ottiene la matrice diagonale D, che è anch essa una matrice a blocchi con i blocchi non diagonali pari a zero e blocchi diagonali uguali a quelli di B.

La matrice di Burt con p =11 blocchi e la matrice diagonale D sono riportate di seguito. E possibile individuare in queste tabelle le distribuzioni di frequenze delle 1 variabili (matrice D o blocco diagonale di B) e le tabelle di contingenza per tutte gli incroci possibili ( blocchi non diagonali di B). Figura 4 Matrice di Burt (prodotta con software XLSTAT) La trasformazione delle matrici La prima trasformazione è quella di portarla in forma disgiuntiva completa, ossia trasformarla in una matrice casi x modalità. La seconda trasformazione è quella di moltiplicare la matrice disgiuntiva completa per la sua trasposta ottenendo così la matrice di Burt. La matrice di Burt è una matrice variabili x variabili, in quanto ottenuta dalla moltiplicazione della matrice disgiuntiva completa per la sua trasposta; essa, quindi, risulta essere quadrata e diagonale. La matrice di Burt racchiude in sé tutte le tabelle di contingenza tra le variabili ed è su questa che verranno condotte le operazioni che consentono l estrazione dei fattori. Figura 5 Matrice Diagolane D (prodotta con software XLSTAT La metrica

Lavorando con variabili categoriali non si può ragionare usando la metrica di tipo Euclideo, ma si dovrà usare la metrica del Chi-quadrato. Le distanze si calcolano tra i profili riga (o colonna). Il calcolo della distanza del chi-quadrato inserisce un coefficiente di ponderazione che rivaluta le componenti a più bassa frequenza e ridimensiona quelle a più alta frequenza. Il coefficiente di ponderazione T/Cj è l inverso del rapporto Cj/T che è la frequenza relativa marginale della modalità J: si pondera ogni elemento per l inverso della sua importanza sul totale delle frequenze) D ( ir) = S (j = 1 q) T/Cj (fij/fi frj/fr) Obiettivo ACM Trovare poche dimensioni in grado di riprodurre la maggior parte dell associazione presente fra le variabili analizzate in un ridotto numero di fattori. E possibile scegliere quali variabili far partecipare alla determinazione dei fattori (variabili attive). Le variabili che non partecipano all elaborazione possono essere analizzate in qualità di variabili illustrative (controllando la loro relazione con i fattori ottenuti con l ACM) I fattori ottenuti con l ACM: - sono ortogonali fra loro - sono combinazioni delle variabili-modalità inserite nell analisi - riproducono, in ordine decrescente, il massimo della dispersione (o inerzia) presente nella matrice di Burt Inerzia totale e tassi di inerzia La matrice Z, di dimensioni (n,s), identifica, nello spazio R n, s punti le cui coordinate sono le righe della matrice D -1 Z ( o le colonne della matrice ZD -1 ). Ciascuna sottomatrice Zq genera, in R n,un sottospazio lineare a p q dimensioni che avrà certamente in comune con tutti gli altri almeno la prima bisettrice, ossia il vettore le cui componenti risultano tutte uguali a uno. Il rango massimo di ZD -1, e quindi di Z, è quindi pari a: s 1+(s -1)+(s 3-1)+.+(s p-1)=s-p+1 D altra parte, degli s-p+1 autovettori della matrice Z ZD -1, uno sarà quello che congiunge l origine con il baricentro e che corrisponde all autovalore banale unitario. Nell analisi centrata, quindi, potranno essere determinati al massimo s-p auto valori non nulli e la percentuale di variabilità spiegata da ciascun fattore sarà rappresentata dalla quantità: α Tassi di inerzia : x100 s p λ j = 1 λ α Tale quantità, che è una misura eccessivamente pessimistica dell effettivo potere esplicativo dei diversi fattori, assume, nel caso dell ACM, valori generalmente molto bassi anche per i primi fattori. Questo perché la codifica disgiuntiva, imponendo una relazione di ortogonalità tra le modalità di una stessa variabile, introduce una sorta di sfericità artificiale della nube dei punti, che si manifesta proprio nei bassi valori dei tassi di inerzia. L inerzia di una modalità, I(j), è data dal quadrato della distanza dal baricentro per il peso mj, rappresentato dal corrispondente marginale di colonna sulla tabella delle frequenze relative: m j= z. j n p Nel nostro caso Inerzia totale:,083 Gli s-p=5 autovalori non nulli che è possibile determinare sono i seguenti: Autovalori e tassi di inerzia Tra i metodi per correggere i valori dei tassi di inerzia e renderli attendibili, soprattutto relativamente ai primi fattori, Benzècri ha introdotto la correzione: p = ( ) x( p 1 1 ) p λ λ per λ >1/p Che, per p elevato, equivale a considerare il quadrato degli autovalori mentre per p= porta all espressione λ *=( λ -1) =µ che individua gli auto valori dell AC sulla tabella di contingenza che incrocia le due variabili.

Istogramma Come nell AC, gli autovalori sono tutti minori di 1. Le percentuali di inerzia spiegata risultano molto basse ma è possibile applicare la formula di correzione sotto p = ( ) x( p 1 1 ) p λ λ per λ >1/p Per ottenere i seguenti nuovi valori: Autovalori corretti e tassi di inerzia La corretta interpretazione dei fattori richiede la lettura dei contributi assoluti e della qualità della rappresentazione dei punti, quantità riportata nella tabella sotto.

Figura 6 Piano fattoriale 1-: modalità attive (prodotto con software XLSTAT

La contrapposizione delle modalità sugli assi è ben visibile, in alto abbiamo i clienti che hanno un età superiore a 50 anni che presentano le seguenti caratteristiche: - hanno una media di movimenti superiore ai 50.000 franchi, con un anzianità superiore a 1 anni e con stato familiare coniugato. Possiamo affermare che queste sono le categorie che risparmiano di più ed hanno una media attiva di oltre 5000 franchi, inoltre, la loro professione è maggiormente executive (dirigenti). - Nella parte centrale del piano fattoriale di fig. 6, abbiamo le categorie tra i 3 e 40 anni, esse risultano essere maggiormente divorziati e per la banca non sono buoni clienti. - I clienti con età compresa tra 40 e 50 si trovano in una situazione intermedia rispetto ai due gruppi analizzati. - Nella parte bassa a sinistra abbiamo i clienti con età al di sotto di 3 anni. Essi risultano essere per la maggior parte Single ed hanno una media attiva in franchi compresa tra e 5 KF, anche perché sono clienti da meno di 1 mesi con cumulo di debiti meno di 40 mila franchi. Analizziamo ora il piano formato da terzo e quarto fattore: Si evince che questo piano contribuisce a definire il profilo dei soggetti analizzati e mette in risalto aspetti quali le professioni e più precisamente: - i clienti sotto i 3 anni non sono dipendenti della banca. Da una prima analisi troviamo pochi individui appartenenti a questa categoria. Un aspetto importante è che pochi individui risparmiano più di 100.000 franchi. Il tutto conferma che il correntista più anziano ha una buona condizione economica e risulta essere un buon cliente. Tale fattore spiega il fatto che la banca tende a mantenere i rapporti con clienti buoni, in tal modo abbassa il rischio di inadempienza di un debitore (cliente cattivo) e tiene sotto controllo la riserva o il proprio patrimonio di Vigilanza così come stabilito da Basilea. Analisi eseguita dal Prof. Roberto Fantaccione

Grafico asimmetrico delle variabili (assi F3 e F4: 10,61 %) 3 Size of savings-more than 100 KF 39 F4 (4,16 %) 1 Active mean migliaia di franchi-more than 5 KF Size of savings-from 10 to 100 KF 10 Age of client-less than Profession-other Mean 3 Seniority-1 years of mouvements-less year or less profession than 10 KF Home of employee-not Profession-executive domicile 43 salary 33 Cumulative overdraft debits-less authorized-forbidden than 40 Mean Age of of mouvements-more client-from 40 to 50 than years 50 KF Family Situation-single 3 Family Type Situation-divorced of client-bad client 38 8 Checkbook 1 not allowed-checkbook 9 allowed 6 35 3 7 0-1 Size of Cumulative savings-less than 10 KF 4 debits-more than 100 Cumulative Home Type of debits-from of client-good employee-domicile Size 45 Family 40 client of to savings-no Situation-married 100 salary Age savings of client-over 47Family 48 50 years Situation-widow Age of client-from 5 3 Active to 40 years mean migliaia Seniority-plus di franchi-from 1 years 34 to 5 KF Seniority-from Seniority-from 6 to Profession-employee 1 overdraft years 11 1 to authorized-authorised 4 Active years 18 mean migliaia di franchi-less than 14 KF 15 Mean Seniority-from of mouvements-from 4 to 6 years 10 to 30 KF Mean 4of mouvements-from 4 30 to 50 KF 1 9 17 0 44 5 40 31 830 46 6 7 36 13 41 50 49 3-37 19 1 16-3 -6-5 -4-3 - -1 0 1 3 4 5 F3 (6,45 %) Variabili Osservazioni