L Analisi Multidimensionale dei Dati Analisi Discriminante Una Statistica da vedere Area Clienti intermedi Area Buoni clienti Area Cattivi clienti Classificazione a priori Buoni Intermedi Cattivi TOT. 25,00 Classificazione a posteriori Buoni 580 95 38 73 Intermedi 20 380 64 564 Cattivi 50 75 298 423 TOT. 750 550 400 700 20,00 5,00 0,00 5,00 0,00 00 020 2030 3040 4050 5060 6070 7080 8090 9000 000 020 2030 3040 4050 Matrici e metodi Strategia di AMD Anal. Discrimin. Segmentazione SI Per riga SI Matrice strutturata NO Analisi nello spazio delle variabili NO Cluster Anal. Scaling Multid Correl. Canon. Corrisp. Multi. An. Matrici 3D SI NO Analisi simmetrica NO SI Comp.Princ. An. Corrisp. Analisi esplorative Analisi confermative o esplicative Regress.Mult, Conjoint Anal. An. Non Simm Corrisp. Variabili qualitative Variabili ordinali Variabili quantitative
I metodi per le decisioni l Analisi discriminante L AD L AD Rientra Rientra fra fra i i metodi metodi utilizzati nel nel trattamento di di matrici matrici che che comprendono una una variabile privilegiata qualitativa che che costituisce il il fenomeno da da spiegare e p variabili quantitative, che che costituiscono l insieme delle delle variabili esplicative. Gli Gli individui sono sono ripartiti a priori priori in in k gruppi, sulla sulla base base delle delle differenti modalità di di una una variabile qualitativa che che costituisce la la variabile da da spiegare. OBIETTIVO DESCRITTIVO Confrontare la la classificazione a priori priori con con quella quella ottenuta sulla sulla base base dei dei valori valori assunti dalle dalle variabili esplicative. DECISIONALE Assegnare un un nuovo nuovo individuo, di di cui cui non non si si conosce il il gruppo di di appartenenza, ad ad uno uno dei dei gruppi, gruppi, con con la la minima probabilità di di commettere un un errore errore di di classificazione. I dati nell Analisi Discriminante i variabili esplicative............ j......... E E 2 E k 2 2 2 k k k variabile di risposta 2
I dati di base Una matrice partizionata di dati quantitativi La codifica disgiuntiva della variabile di risposta qualitativa.. X = E E 2 E k 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Notazioni i gruppi Gli individui sono ripartiti in k gruppi definiti a priori sulla base delle differenti modalità di una variabile qualitativa che costituisce la variabile da spiegare. Questa suddivisione individua una partizione in k gruppi E, E 2,, E k tale che { E, E,..., E } 0 ; { E E2 E k } = 2 k,,..., = I 3
Notazioni le matrici X Matrice dei dati quantitativi(n,p) g j baricentro del gruppo G j g baricentro della nube totale W j = n B = k V = n j {( x )( ) i gj xi gj } j i= ( g g)( g g) nj j j j= n n n {( x )( ) i g xi g } i= Matrice var-cov gruppo G j (j=,,k) Matrice var-cov tra i gruppi Matrice var-cov totale il caso dei punti pesanti. r =, 2,..., k ; card (E r ) = n r Σ n r = n = I peso individui p, p 2,..., p n (spesso p = p 2 =... = p n ) peso classi q, q 2,..., q k ( q j = n j / n) baricentro gruppo r g = e p r i i i baricentro g = q g r r varianza gruppo r Wr = pi ( ei gr)( ei gr) r n r ei Er varianza comune entro le classi W = qrwr r r r r varianza tra le classi B = q ( g g)( g g) varianza totale p ( )( ) i ei g ei g V= = B + W i r 4
Il caso generale p variabili e k gruppi OBIETTIVO Ricercare le k- combinazioni lineari y j delle p variabili esplicative x, x 2,,x p in grado di determinare il sottospazio tale che le proiezioni dei baricentri g j (j=, k) risultino il più distanziate possibile, avendo al tempo stesso il massimo raggruppamento degli individui attorno ai rispettivi baricentri R p g k g 2 g g u g 3 g i e ir = 2 p ( x, x, L, x ) ir ir (i=,,n ; r=,,k) ir L Analisi Fattoriale Discriminante (AFD) L Analisi Fattoriale Discriminante ricerca un sottospazio di R p che minimizzi le distanze tra individui di uno stesso gruppo e massimizzi invece quelle tra individui di gruppi diversi. Massimizzare la varianza tra i gruppi Minimizzare la varianza inerzia entro i gruppi Ipotizza la distribuzione multinormale delle variabili osservate e l uguaglianza delle matrici di varianza-covarianza dei gruppi (ipotesi di omoschedasticità). Utilizza la metrica di Mahalanobis definita dalla matrice W -. rl ipotesi di omoschedasticità. Nel calcolo della distanza di un WRifiuta -(Metodo di Sebestyen) gruppo risulta disperso attorno al proprio baricentro. individuo da un gruppo considera k metriche definite dalle matrici (r=,..., k), definendo così un peso tanto maggiore quanto più il 5
la ricerca delle funzioni lineari discriminanti OBIETTIVO Ricercare le k- combinazioni lineari y j delle p variabili esplicative x, x 2,,x p che consentono di separare al meglio i k gruppi. Prima funzione lineare discriminante y La prima combinazione lineare sarà la funzione y = a x +a 2 x 2 + +a p x p che rende massima la varianza tra le classi e, quindi, minima la varianza entro le classi. Seconda funzione lineare discriminante y 2 e successive La seconda combinazione lineare y 2 = a 2 x +a 22 x 2 + +a 2p x p sarà quella che, non correlata con la prima, renderà massima la varianza tra le classi, e così via Discriminazione lineare le ipotesi Ipotesi di omoschedasticità uguaglianza delle matrici di var-cov entro i gruppi Ipotesi di multinormalità le variabili esplicative hanno una distribuzione multinormale 6
La soluzione dell ADL ubu Q = = uwu max λ ubu = uwu Q u 2Buu Wu 2Wuu Bu = = 0 ( uwu ) ( uwu ) Buu Wu = Wuu Bu λ Bu = Wu W Bu = λu v = Wu BW v = λv L autovalore λ esprime il potere discriminante associato a ciascuna funzione lineare discriminante I legami con l ACP XX M u= λ u B W v = λv effettuare un AFD sulle n unità utilizzando la metrica euclidea M=I equivale ad effettuare un ACP sui k baricentri utilizzando la metrica W -. 7
Esempio il Credit Scoring Il Credit Scoring è un metodo statistico che consente di calcolare la probabilità, e quindi il rischio, di insolvenza legata alla concessione di un credito ad un cliente nuovo o già esistente. Il principio di base del Credit Scoring è che i buoni clienti ed i cattivi clienti si differenziano sulla base di caratteristiche osservabili sotto forma di variabili quantitative e qualitative. Fase DESCRITTIVA Campione storico Buon cliente Cattivo cliente Fase DECISIONALE Nuovo individuo Buon cliente? Cattivo cliente? Esempio il Credit Scoring per i Prestiti Personali Class. a priori = Buon Cliente (max insoluto) 2 = Cliente Medio (max 2-3 insoluti) 3 = Cattivo Cliente (>3 insoluti) Variabili Età Reddito dichiarato (Lire 000) Debt burden (% indebitamento) Anni all ultima occupazione Anni cliente (0 se nuovo) Importo Prestito (Lire 000) Durata Prestito (in mesi) 8
La matrice dei dati Variabili esplicative Classificaz. a priori Buoni Clienti Clienti Intermedi Cattivi Clienti id. x x 2 x 3 x 4 x 5 x 6 x 7 x 8 i 50 2.00 0 4 2 7.000 24 i2 40 2.300 20 2 20 5.000 2 i3 4 2.600 24 5 8 8.000 36 i4 44.900 6 20 5 5.000 2 i75 55 2.080 3 5 6 2.000 48 2 i752 6.929 45 8 6.000 24 2 i30 3.200 50 6 0 0.000 48 3 i302 25 880 40 2 0 5.000 48 3 i700 34.400 45 7 0 5.000 48 3 Autovalori e variabilità spiegata Num Valore % % cum. Istogramma.773 54.3 54.3 2.652 45.7 00.0 Correlazioni variabili-fattori () () (2) (2) Età Età -0.239 0.923 Reddito dic. dic. 0.556 0.494 % indebitamento -0.780-0.46 Anni Anni occupazione 0.439 0.344 Anni Anni cliente 0.862 0.299 Importo -0.473-0.622 Durata -0.835-0.354 9
Cerchio delle correlazioni y 2 Età Reddito dic. Anni occupaz. Anni cliente Durata % indebitam. y Importo Rappresentazione delle unità Area Clienti intermedi Area Buoni clienti Area Cattivi clienti 0
La regola di decisione Ogni individuo verrà classificato nel gruppo il cui baricentro risulta più vicino... e i G j d 2 (e i,g j ) = min[d 2 (e i,g j ) j=,,k] e sarà quindi possibile confrontare la nuova partizione così ottenuta con quella definita a priori sulla base delle k modalità della variabile da spiegare. Le regole di classificazione Proiezione di una nuova unità come elemento supplementare sul piano fattoriale discriminante φ s α = ( es g) ' W u Confronto delle k distanze dai baricentri dei gruppi ( ) min ( ) 2 2 es Er d es, gr = d es, gr ; r =,...,k
La scelta della distanza ( e g ) ' W ( e g ) s r s r di facile calcolo non tiene conto della possibile diversa forma delle classi ( e g ) ' W ( e g ) s r r s r g e s g 2 Il punto e s risulta più vicino al baricentro del gruppo che non a quello del gruppo 2. Tuttavia, la differente dispersione dei due gruppi mette bene in evidenza come il punto debba essere considerato più logicamente parte del gruppo 2 che non del gruppo. La distanza di Sebestyen, considerando k distanze dai baricentri, ciascuna ponderata con l inverso della variabilità del gruppo corrispondente, consente di risolvere questo problema. Valutazione dei risultati Classificazione a priori Buoni Intermedi Cattivi TOT. Classificazione a posteriori Buoni 580 95 38 73 Intermedi 20 380 64 564 Cattivi 50 75 298 423 TOT. 750 550 400 700 % ben classificati (580+380+298)/700 = 74,0% 2
Consideriamo una matrice con n unità su cui sono osservate p variabili; Le unità sono a priori ripartite in k gruppi sulla base delle diverse modalità di una variabile da spiegare; Si effettua un analisi fattoriale discriminante per valutare il potere discriminante delle variabili esplicative; Il numero di fattori che è possibile estrarre è uguale a k- (normalmente k<=3); Si proiettano le unità sul piano fattoriale ; Se i gruppi risultano ben separati, allora le variabili esplicative hanno un buon potere discriminante e si può passare alla fase decisionale; Una nuova unità, di cui ovviamente non si conosce il gruppo di appartenenza, viene proiettata in supplementare sul piano determinato dalle unità attive; In base ad uno dei criteri di classificazione scelti, l unità verrà assegnata al gruppo al quale risulta più vicina. Buoni Intermedi Cattivi Buoni 580 20 50 750 Intermedi 95 380 75 550 Cattivi 38 64 298 400 (580+380+298)/700 = 74,0% 3
La stabilità dei risultati il campione test campione totale campione base campione test E E 2 E 3 Sul campione base viene costruita la regola di classificazione che viene poi applicata al campione test. Su entrambi i campioni viene calcolata la % di corretta classificazione. E E 2 E 3 % bc.. = Traccia n. 2. 3. campione totale campione base campione test Si scelgono n elementi che costituiscono il campione di base, con i rimanenti n 2 a formare il campione test, facendo in modo che n 2 risulti molto più piccolo di n e che n /n 2 sia un numero intero; Si costruisce la regola di decisione sul campione di base e la si testa sul campione test, calcolando la % di b.c., p i ; n Si ripete lo stesso procedimento per i= volte; n2 n2%bc.=pn24. Si stima la % di b.c. complessiva come media delle p i nnla stabilità dei risultati ii=4
La stabilità dei risultati campione totale campione base campione test. 2. Dal campione totale viene escluso un elemento, che costituisce il campione-test, tutti gli altri a costituire il campione di base; Si costruisce la regola di decisione sul campione di base e la si testa sull elemento escluso; 4. correttamente, 0 altrimenti; Si ripete il procedimento escludendo, uno aalla volta, tutti gli elementi; %bc.=5. Si stima la % di b.c. come ni=in3. Si definisce una variabile a che assume valore se l elemento è classificato La stabilità dei risultati campione totale campione base campione test. 2. 5. Dal campione totale si estraggono, con reintroduzione, n elementi che costituiscono il campione di base e n 2 elementi che costituiscono il campione-test, con n +n 2 =n; Si costruisce la regola di decisione sugli n elementi del campione di base e la si testa sugli n 2 elementi del campione test; 3. Si calcola la % di b.c. ; 4. Si ripete il procedimento centinaia o migliaia di volte; Si stima la % di b.c. come media delle % di b.c. precedentemente calcolate. 5
I criteri di selezione delle variabili Riducono i costi di gestione, elaborazione e rilevazione legati al numero di variabili considerate, migliorando inoltre l affidabilità dei risultati tr ( Wq Bq) det det ( Wq ) ( V ) = q = max max % b.c. = max Due casi particolari Caso di variabili qualitative e quantitative. ACM sulla tabella dei dati ricodificati 2. Scelta del numero di dimensioni (Fattori) 3. AD sulle nuove variabili Caso di due gruppi Una sola funzione discriminante Un solo punto di taglio 6
Esempio di tabella dei punteggi Classi di punteggi GOODS % GOODS nelle classi % cum. GOODS BADS % BADS nelle classi % cum. BADS 00 0 0,00 0,00 0 0,00 0,00 020 0 0,00 0,00 5 3,00 3,00 2030 0 0,00 0,00 30 6,00 9,00 3040 0 0,00 0,00 50 0,00 9,00 4050 0 0,00 0,00 00 20,00 39,00 5060 36 3,00 3,00 8 23,60 62,60 6070 72 6,00 9,00 07 2,40 84,00 7080 20 0,00 9,00 50 0,00 94,00 8090 244 20,33 39,33 25 5,00 99,00 9000 280 23,33 62,67 5,00 00,00 000 256 2,33 84,00 0 0,00 00,00 020 20 0,00 94,00 0 0,00 00,00 2030 60 5,00 99,00 0 0,00 00,00 3040 2,00 00,00 0 0,00 00,00 4050 0 0,00 00,00 0 0,00 00,00 TOT 200 00,00 500 00,00 Scelta del punto di taglio 25,00 20,00 BADS GOODS 5,00 0,00 5,00 0,00 00 020 2030 3040 4050 5060 6070 7080 8090 9000 000 020 2030 3040 4050 7
Il punto di taglio Nel caso in cui è k=2, esiste un unica unica funzione discriminante (Score); La regola di decisione per classificare un nuovo individuo sarà quindi individuata da un unico punto di taglio (Cut-off). Zona di rifiuto Zona di accettazione Score Un altro esempio gli Iris di Fisher Iris setosa Iris versicolor Iris virginica Fase DESCRITTIVA Fase DECISIONALE Setosa Campione storico Versicolor Virginica Setosa Nuovo iris Versicolor Virginica 8
Esempio gli iris di Fisher Classe. a priori = Setosa 2 = Versicolor 3 = Virginica Variabili sepal length sepal widh petal length petal widh La matrice dei dati Variabili esplicative Classificaz. a priori Setosa Vesicolor Virginica id. x x 2 x 3 x 4 x 5 i 50 33 4 4 i2 46 34 4 2 i3 46 36 0 5 i4 5 33 7 20 i5 65 28 46 5 2 i52 62 22 45 5 2 i48 67 3 56 24 3 i49 63 28 5 5 3 i50 69 3 5 23 3 9
Autovalori e variabilità spiegata Num Valore % % cum. Istogramma.32.9 99.2 99.2 2 0.28 0.88 00.0 Correlazioni variabili-fattori () () (2) (2) Sepal Lenght 0.792 0.28 Sepal width -0.53 0.758 Petal lenght 0.985 0.046 Petal width 0.973 0.223 Cerchio delle correlazioni Variables (axes F and F2 00 %),5 SEPAL WIDTH 0,5 0 SEPAL LENGHT PETAL LENGHT PETAL WIDTH -0,5 - -,5 -,5 - -0,5 0 0,5,5 -- axis F (99 %) --> 20
Rappresentazione delle unità Observations (axes F and F2 00 %) 0 9 8 7 6 5 4 Setosa Versicolor Virginica 3 2 0-3 -2-0 2 3 4 -- axis F (99 %) --> Valutazione dei risultati Classificazione a posteriori Setosa Versicolor Virginica TOT. Classificazione a priori Setosa 50 0 0 50 Versicolor 0 48 2 50 Virginica 0 49 50 TOT. 50 49 5 50 % ben classificati (50+48+49)/50 = 98,0% 2