Capitolo 6 Analisi discriminante L analisi statistica multivariata comprende un corpo di metodologie statistiche che permettono di analizzare simultaneamente misurazioni riguardanti diverse caratteristiche (variabili qualitative o quantitative) di un insieme di individui in esame. Gli obiettivi principali delle metodologie di analisi multivariata sono riassumibili nella sintesi delle osservazioni ovvero nella semplificazione della loro struttura (riduzione del numero delle variabili), nell ordinamento e nel raggruppamento (classificazione) di osservazioni, nello studio delle interdipendenze tra le variabili, nella formulazione e verifica di ipotesi operative. Le diverse tecniche di analisi multivariata possono essere distinte a seconda che facciano o meno riferimento ad un modello distributivo assunto per le osservazioni e alla base degli sviluppi inferenziali. In questo senso le tecniche collegate allo studio della dipendenza (modello lineare generale, modelli lineari generalizzati) si contrappongono ad un insieme di metodologie giustificate prevalentemente da argomenti logico-intuitivi note sotto il nome di metodi di analisi dei dati. Sono questi dei metodi esplorativi (L. Fabbris,1991) ovvero di statistica descrittiva multidimensionale (L. Lebart, A. Morineau, J.P. Fénelon, 1982) che partono dal presupposto espresso chiaramente nella frase di uno dei maggiori esponenti della scuola francese di analisi dei dati: il modello deve seguire i dati, non viceversa (J.P. Benzécri, 1980). Un tale approccio porta a procedure di analisi euristiche, ovvero di carattere intuitivo-analogico, i cui risultati devono essere controllati e convalidati in un secondo tempo (logica del trovare), e si contrappone all approccio confermativo per il quale la verifica della sussistenza di assunzioni effettuate prima ancora della rilevazione dei dati, viene condotta sulla base di metodi statistico inferenziali (logica del giustificare). La scelta di uno dei due 91
92 A. Pollice - Statistica Multivariata approcci dipende sia dagli obiettivi del ricercatore che dalle informazioni disponibili riguardo alla distribuzione delle variabili in esame, ovvero dalla possibilità di controllare sperimentalmente l osservazione dei fenomeni. Per questo motivo l analisi dei dati è tradizionalmente collegata alle applicazioni in ambito socio-economico, mentre i metodi modellistico-inferenziali vengono maggiormente utilizzati nelle scienze sperimentali. 6.1 Funzione discriminante lineare di Fisher Per analisi discriminante si intende un corpo di metodologie che, considerando un universo campionario k-dimensionale X suddiviso in p sottopopolazioni X 1,..., X p, permettono di assegnare una generica osservazione x ad una delle p sottopopolazioni. Uno tra i primi a parlare di analisi discriminante multivariata fu R. A. Fisher (1936) con riferimento all attribuizione di alcuni reperti fossili alla categoria dei primati o a quella degli umanoidi in base a diverse misurazioni effettuate sugli stessi. Nell approccio di Fisher l obiettivo dell analisi discriminante è quello di individuare la sottopopolazione di appartenenza di un osservazione multidimensionale in base alla conoscenza campionaria del comportamento delle diverse sottopopolazioni. Non facendo alcuna assunzione sulla forma distributiva delle p sottopopolazioni da cui vengono estratti i campioni X 1,..., X p, l assegnazione dell osservazione x viene effettuata tramite una combinazione lineare W = a X delle k componenti della variabile X rilevata, tale da rendere massima la separazione (o discriminazione) tra i p campioni. Il criterio che viene utilizzato per definire la trasformazione, ovvero il vettore k-dimensionale di costanti a, consiste pertanto nel pretendere che sia massima la differenza tra le medie di W nei p campioni, in modo da rendere meno ambigua la classificazione dell osservazione w = a x. L informazione parziale di partenza sia dunque costituita da p campioni X 1,..., X p di numerosità n da ciascuna sottopopolazione X con = 1,..., p: X = x 11 x 1k.. x n 1 x n k con i = 1,..., n, h = 1,..., k e = 1,..., p. Siano inoltre = [x ih ] (6.1) X = 1 n X u n = ( X 1,..., X k ) (6.2)
Cap. 6: Analisi discriminante 93 la media campionaria del -esimo campione ed S = 1 n (X u n X ) (X u n X ) = [S hl ] (6.3) la matrice k k delle varianze e covarianze campionarie del -esimo campione (nelle espressioni precedenti h, l = 1,..., k e = 1,..., p). Trasformando tramite il vettore a la matrice n k del generico campione -esimo, si ottiene per = 1,..., p il vettore n -dimensionale con media e varianza campionarie date da W = X a (6.4) W = 1 n W u n = 1 n a X u n = a X (6.5) S 2 W = 1 n (X a u n a X ) (X a u n a X ) = = 1 n a (X u n X ) (X u n X )a = a S a (6.6) Complessivamente, posto n = p =1 n sia X = (X 1,..., X p) la matrice n k di tutte le osservazioni disponibili ed inoltre sia X = 1 n X u n = ( X 1,..., X k ) (6.7) il vettore delle medie campionarie complessive ed S = 1 n (X u n X ) (X u n X ) = [S hl ] (6.8) la matrice k k delle varianze e covarianze campionarie calcolate in base a tutti i p campioni. Considerando il generico elemento (h, l)-esimo della matrice S S hl = 1 n = n p (x ih X h )(x il X l ) = =1 i=1 p =1 n n S hl + 1 n p n ( X h X h )( X l X l ) (6.9) =1
94 A. Pollice - Statistica Multivariata la matrice di varianze e covarianze S può dunque essere scomposta nel modo seguente S = S (w) + S (b) (6.10) dove S (w) indica la matrice delle varianze e covarianze all interno dei p campioni (within) data da S (w) = p =1 n n S (6.11) mentre S (b) è la matrice di varianze e covarianze tra i p campioni (between). Analogamente trasformando tramite a la matrice X n k di tutte le osservazioni disponibili si ottiene il vettore n-dimensionale con media e varianza date dalle espressioni seguenti W = Xa (6.12) W = a X (6.13) S 2 W = a Sa = a S (w) a + a S (b) a (6.14) Si voglia ora definire W (ovvero determinare a) in modo tale da massimizzare le differenze tra le medie campionare W 1,..., W p. Ciò implica la massimizzazione della varianza between di W ovvero di a S (b) a. Ovviamente quanto maggiori in valore assoluto sono gli elementi del vettore a, tanto più elevato è il valore della forma quadratica. Quindi affinché il problema della determinazione del massimo assoluto di a S (b) a rispetto ad a sia ben definito, si considera un vincolo sulla dimensione di a dato dall espressione a Sa = 1. Tale vincolo corrisponde a pretendere che W abbia varianza unitaria. Pertanto per la determinazione di a bisogna risolvere il seguente problema di massimo vincolato: { maxa a S (b) a (6.15) a Sa = 1 La funzione lagrangiana prende la forma seguente, dove λ è il moltiplicatore di Lagrange (a, λ) = a S (b) a λ(a Sa 1) (6.16) Il problema di massimo vincolato si traduce nella soluzione del sistema (a,λ) { a = 2S (b) a 2λSa = o λ = a S (b) a = (6.17) (a,λ) λ = a Sa 1 = 0 a Sa = 1
Cap. 6: Analisi discriminante 95 si noti che la prima equazione del sistema può essere espressa nella forma di equazione caratteristica (o equazione agli autovalori) S 1 S (b) a = λa dalla quale risulta come λ sia uno degli autovalori di S 1 S (b) ed a l autovettore ad esso associato. Inoltre, affinché si verifichi λ = max a a S (b) a, bisogna scegliere tra gli autovalori di S 1 S (b) quello che assume valore massimo. La variabile W (1) = a (1) X (6.18) definita tramite l autovettore a (1) associato al maggiore degli autovalori λ 1 corrisponde dunque alla combinazione lineare delle componenti della variabille k-dimensionale di partenza che separa maggiormente i p campioni ed è detta prima funzione discriminante lineare. L autovalore λ 1 equivalente alla varianza between della variable W (1) è detto potere discriminante di W (1) e misura la capacità di W (1) di separare le medie dei p campioni. La definizione della seconda funzione discriminante lineare W (2) prevede che questa soddisfi la condizione di massimo e il vincolo precedenti, ed inoltre che sia incorrelata con W (1). In tal caso W (2) = a (2) X (6.19) dove il vettore a (2) è dato dalla soluzione del sistema max a(2) a (2) S (b)a (2) a (2) Sa (2) = 1 a (1) Sa (2) = 0 (6.20) Indicando con µ 1 e 2µ 2 i due moltiplicatori di Lagrange, la funzione lagrangiana è data da (a (2), µ 1, µ 2 ) = a (2) S (b)a (2) µ 1 (a (2) Sa (2) 1) 2µ 2 a (1) Sa (2) (6.21) in questo caso la soluzione del problema di massimo vincolato è ottenuta risolvendo il sistema = (a (2),µ 1,µ 2 ) a (2) = 2S (b) a (2) 2µ 1 Sa (2) 2µ 2 Sa (1) = o (a,µ 1,µ 2 ) µ 1 = a (2) Sa (2) 1 = 0 (a,µ 1,µ 2 ) µ 2 = a (1) Sa (2) = 0 S (b) a (2) = µ 1 Sa (2) + µ 2 Sa (1) a (2) Sa (2) 1 = 0 a (1) Sa (2) = 0 (6.22)
96 A. Pollice - Statistica Multivariata Premoltiplicando la prima equazione del sistema per a (1) si ottiene µ 2 = a (1) S (b)a (2), ovvero, poiché λ 1 è autovalore di S 1 S (b), µ 2 = a (2) S (b)a (1) = a (2) λ 1Sa (1) = λ 1 a (1) Sa (2) = 0 (6.23) e sostituendo µ 2 = 0 nella stessa equazione S (b) a (2) = µ 1 Sa (2) ovvero S 1 S (b) a (2) = µ 1 a (2) (6.24) Dall espressione precedente µ 1 = λ 2 risulta essere il secondo maggiore autovalore della matrice S 1 S (b), mentre a (2) è l autovettore corrispondente e tale che a (2) Sa (2) = 1. Si possono individuare tante funzioni discriminanti lineari quanti sono gli autovalori non nulli della matrice S 1 S (b), ossia un numero pari al rango della matrice stessa g = r(s 1 S (b) ). In genere si considera un numero t < g di funzioni discriminanti, interrompendo l analisi quando il potere discriminante della (t + 1)-esima funzione discriminante lineare, ossia il valore del (t + 1)-esimo autovalore di S 1 S (b), diviene trascurabile. Una misura del potere discriminante complessivo delle prime t funzioni discriminanti è data dal rapporto t q=1 λ t q q=1 g q=1 λ = λ q q tr(s 1 (6.25) S (b) ) Nel caso in cui si considerino t funzioni discriminanti lineari, l osservazione x è assegnata individuando il valore tale che, calcolato w (q) = a (q) x per q = 1,..., t, si abbia t q=1 w (q) W (q), = min t w (q) W (q), (6.26) essendo W (q), la media di W (q) nel -esimo campione, per q = 1,..., t. Da un punto di vista geometrico l analisi discriminante consiste nel rappresentare le p nuvole k dimensionali di n punti (i p campioni) in uno spazio euclideo di dimensione t < k tale da evidenziare opportunamente le distanze tra i campioni. L output dell analisi discriminante deve perciò includere il rango t del nuovo riferimento (ovvero del modello discriminante), la posizione di ciascuna dimensione del modello discriminante rispetto al riferimento originario (i vettori a (q) ), la posizione dei p campioni di osservazioni nel sottospazio delle variabili discriminanti (le medie W (q), ). q=1
Cap. 6: Analisi discriminante 97 6.2 Funzione discriminante di massima verosimiglianza In questo caso è necessario assumere che la -esima sottopopolazione k- dimensionale abbia una certa distribuzione p (x) per = 1,..., p. 6.2.1 Completa specificazione delle distribuzioni delle sottopopolazioni Si supponga in prima istanza che le p distribuzioni k-dimensionali siano completamente specificate nella forma e nei parametri (ipotesi poco realistica, ma efficace dal punto di vista teorico). L obiettivo sia quello di classificare l osservazione x nel gruppo per il quale la verosimiglianza è massima. In tal caso x viene assegnata alla -esima sottopopolazione se vale p (x) p r (x) r r = 1,..., p (6.27) essendo p (x) la verosimiglianza dell osservazione x classificata nel -esimo gruppo. Si assuma adesso la normalità delle sottopopolazioni ovvero p (x) = N k (µ, Σ ) = 1,..., p (6.28) ln p (x) = k 2 ln(2π) 1 2 ln Σ 1 2 (x µ ) Σ 1 (x µ ) (6.29) e posto τ = 1 2 ln Σ si ottiene la regola di decisione seguente: l osservazione x è assegnata alla -esima sottopopolazione se vale τ 1 2 (x µ ) Σ 1 (x µ ) = max τ 1 2 (x µ ) Σ 1 (x µ ) (6.30) L espressione precedente è detta funzione discriminante quadratica. Qualora si possa assumere Σ 1 = = Σ p = Σ, ovvero τ 1 = = τ p = τ = 1 2 ln Σ, la funzione discriminante quadratica diventa τ 1 2 x Σ 1 x + x Σ 1 µ 1 2 µ Σ 1 µ (6.31) quindi posto α = 1 2 µ Σ 1 µ tale condizione coincide con α + x Σ 1 µ = max α + x Σ 1 µ (6.32) L espressione precedente è detta anch essa funzione discriminante lineare pur essendo evidentemente diversa da quella vista nel paragrafo precedente.
98 A. Pollice - Statistica Multivariata 6.2.2 Assunzione distributiva di normalità delle sottopopolazioni Supponiamo ora che i parametri delle distribuzioni normali k-dimensionali delle sottopopolazioni X 1,..., X p siano incogniti. In tal caso considerando la matrice X = (X 1,..., X p) contenente tutte le osservazioni campionarie si possono calcolare le medie X e la matrice di varianze e covarianze within del campione S (w). Sostituendo queste stime nella funzione discriminante lineare si ottiene 1 2 ( X ) S 1 (w) X + x S 1 (w) X = max 6.3 Analisi discriminante bayesiana 1 2 X S 1 (w) X + x S 1 (w) X (6.33) Nella statistica bayesiana si assume generalmente di poter attribuire delle probabilità a priori a ciò che costituisce l oggetto dell inferenza (ad esempio ai parametri nell inferenza parametrica). Si parla di analisi discriminante bayesiana se è possibile, grazie a conoscenze preesistenti relative al fenomeno in esame, assegnare delle probabilità a priori π 1,..., π p alle sottopopolazioni in modo tale che π = Pr(x X ) per = 1,..., p. In tal caso, dette p 1,..., p p le distribuzioni completamente specificate del carattere X nelle sottopopolazioni, è possibile utilizzare il teorema di Bayes per calcolare la probabilità a posteriori di ciascuna sottopopolazione. Le probabilità a posteriori consistono nell aggiornamento delle probabilità a priori, effettuato tramite le osservazioni campionarie e pertanto integrano l informazione disponibile prima dell osservazione dei dati con quella contenuta in questi. La probabilità che, condizionatamente al valore osservato, l osservazione x sia generata dalla -esima popolazione è data per = 1,..., p da p(x x) = Pr(x X x) = = Pr(x X ) Pr(x x X ) Pr(x) π p (x) = p =1 π p (x) = (6.34) La regola di classificazione consiste nell attribuire x alla sottopopolazione che ha maggiore probabilità di averla generata, ovvero nel determinare il valore di tale che p(x x) = max p(x x) (6.35)
Cap. 6: Analisi discriminante 99 Questo approccio all analisi discriminante gode di notevoli proprietà che lo rendono ottimale da più punti di vista (Mardia, Kent, Bibby, 1979, Anderson, 1984). 6.4 Minimizzazione del costo atteso di un errata classificazione Un metodo alternativo per l analisi discriminante è dovuto a Welch (1939). In questo caso si considera la restrizione a p = 2 sottopopolazioni k-dimensionali X 1 e X 2 con distribuzioni rispettivamente p 1 e p 2. Sia Ω lo spazio campionario k-dimensionale dei possibili valori di x ed Ω = Ω 1 Ω 2 una sua bipartizione tale che x Ω 1 implichi che x venga assegnata alla prima sottopopolazione, ovvero alla seconda se x Ω 2. Dette ancora π 1 = Pr(x X 1 ) e π 2 = Pr(x X 2 ) le probabilità a priori delle due sottopopolazioni, la probabilità complessiva di una classificazione errata risulta data da Pr[(x Ω 1 ) (x X 2 )] + Pr[(x Ω 2 ) (x X 1 )] = = Pr(x X 2 ) Pr[x Ω 1 x X 2 ] + Pr(x X 1 ) Pr[x Ω 2 x X 1 ] = = π 2 p 2 (x)dx + π 1 p 1 (x)dx = Ω 1 Ω [ 2 ] = π 2 p 2 (x)dx + π 1 1 p 1 (x)dx = Ω 1 Ω 1 = π 1 + π 2 p 2 (x) π 1 p 1 (x)dx (6.36) Ω 1 Affinché tale probabilità sia di dimensioni ridotte l integrale nell ultima espressione, ovvero la funzione integranda, deve essere minore di zero. In altri termini la probabilità di classificazione errata è minima quando Ω 1 contiene elementi tali da soddisfare la condizione π 2 p 2 (x) π 1 p 1 (x) < 0 = p 1(x) p 2 (x) > π 2 π 1 (6.37) La regola di classificazione porta dunque ad assegnare x alla prima sottopopolazione X 1 se si verifica la condizione precedente e ad X 2 se vale p 1 (x) p 2 (x) < π 2 π 1 (6.38) Si assuma ora che c(1 2) e c(2 1) siano rispettivamente la perdita (o il costo) che si determina assegnando erroneamente l osservazione x alla sottopopolazione X 1 e alla sottopopolazione X 2. La perdita attesa complessiva
100 A. Pollice - Statistica Multivariata è dunque data da c = c(1 2)π 2 p 2 (x)dx + c(2 1)π 1 p 1 (x)dx = Ω 1 Ω 2 = c(2 1)π 1 + c(1 2)π 2 p 2 (x) c(2 1)π 1 p 1 (x)dx (6.39) Ω 1 Tale costo risulta minimo quando Ω 1 contiene elementi tali da soddisfare la condizione c(1 2)π 2 p 2 (x) c(2 1)π 1 p 1 (x) < 0 = p 1(x) p 2 (x) > c(1 2)π 2 c(2 1)π 1 (6.40) La regola di classificazione consiste nell assegnare l osservazione x ad X 1 se vale la condizione precedente e ad X 2 se invece vale p 1 (x) p 2 (x) < c(1 2)π 2 c(2 1)π 1 (6.41) 6.5 Stima della probabilità di errata classificazione nel caso di due gruppi 6.5.1 Metodo parametrico Siano p 1 e p 2 le distribuzioni completamente specificate delle sottopopolazioni X 1 e X 2. La probabilità complessiva di errata classificazione è data da π 2 p 2 (x)dx + π 1 p 1 (x)dx (6.42) Ω 1 Ω 2 Nel caso in cui la forma distributiva delle due sottopopolazioni sia nota, mentre i loro parametri θ 1 e θ 2 vengono stimati tramite i dati campionari l espressione precedente diventa π 2 p 2 (x ˆθ 2 )dx + π 1 p 1 (x ˆθ 1 )dx (6.43) Ω 1 Ω 2 Il valore di quest ultimo stimatore dipende fortemente dalle probabilità a priori π 1 e π 2 e dalla sussistenza delle assunzioni distributive. 6.5.2 Metodi non parametrici In questo caso non viene assunto nessun modello distributivo alla base della stima della probabilità di errata classificazione.
Cap. 6: Analisi discriminante 101 Tassi di errore apparenti Anche detto metodo di risostituzione, consiste nel riclassificare le osservazioni dei due campioni estratti da ciascuna delle sottopopolazioni tramite la regola di decisione prescelta. Il tasso di errore è ottenuto calcolando la frazione di osservazioni classificate erroneamente (m 1 + m 2 )/n dove m 1 ed m 2 indicano rispettivamente il numero di osservazioni del primo campione assegnate alla seconda popolazione ed il numero di osservazioni del secondo campione assegnate alla prima. Il principale difetto di questo metodo di stima consiste nel fatto che gli stessi individui vengono utilizzati per definire la regola di discriminazione e per valutarla. Il metodo di risostituzione porta ad una stima distorta (troppo ottimistica) del tasso di errore. Infatti poiché sono le osservazioni dei due campioni a determinare la regola di decisione, la probabilità che esse siano classificate in modo erroneo è minima. Sample splitting (cross-validation) Ciascun campione viene suddiviso in due parti di cui una viene utilizzata per definire la regola di classificazione e l altra per valutarla, calcolando la proporzione degli individui classificati in modo sbagliato. Tale metodo è ritenuto poco economico dal punto di vista dell utilizzo ottimale dei dati a disposizione. Leave one out (cross-validation) Si prendono in considerazione n 1 1 osservazioni del primo campione e tutte le n 2 osservazioni del secondo per determinare la regola discriminante. In base ad essa si classifica l osservazione esclusa dal primo campione. Il procedimento esposto viene ripetuto escludendo volta per volta ciascuna osservazione del primo e successivamente ciascuna osservazione del secondo campione. La stima del tasso di errore è ottenuta dividendo per n il numero di osservazioni assegnate a una popolazione diversa da quella di provenienza.