Analisi delle componenti principali

Transcript

1 Capitolo 7 Analisi delle componenti principali Lo studio di posizione, dispersione ed interdipendenze relative a k variabili osservate su n individui richiede il calcolo di k medie, k varianze e k(k 1)/ covarianze campionarie. In tutto un numero pari a k + k(k 1)/ di indici, che cresce in modo parabolico all aumentare del numero k delle variabili considerate, causando problemi legati principalmente all interpretazione degli indici stessi. Se le k variabili fossero incorrelate ciò ridurrebbe la considerazione alle sole medie e varianze delle variabili (k indicatori) ed inoltre ciascuna variabile potrebbe essere esaminata singolarmente senza ambiguità. Inoltre l uso di variabili incorrelate come covariate in un modello di dipendenza lineare ha degli indubbi vantaggi: è possibile ricondurre lo studio del modello di regressione multipla a quello di k modelli di regressione semplice. L indice di determinazione multiplo è dato in tal caso dalla somma degli indici di determinazione semplici e la varianza del modello multiplo è partizionabile in k componenti associate alle k covariate. Sfortunatamente è raro che le colonne di una matrice dati risultino tra loro incorrelate: un insieme di variabili incorrelate è praticamente ottenibille solo tramite una trasformazione delle variabili osservate. L analisi delle componenti principali risponde all esigenza di rappresentare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k di variabili incorrelate, ottenute trasformando le variabili osservate. Detta metodologia consiste nell individuare delle combinazioni lineari delle variabili inizialmente osservate, che siano incorrelate tra loro ed abbiano varianza massima (in modo da non disperdere informazioni). 103

2 104 A. Pollice - Statistica Multivariata Il problema di ridurre la dimensionalità di un data-set fu proposto inizialmente da F. Galton (1869) con lo scopo di classificare un insieme di soggetti criminali in base a 1 misure di altrettante caratteristiche antropometriche fortemente correlate tra loro. Successivamente vennero forniti i primi argomenti a sostegno della massimizzazione delle varianze delle variabili trasformate, sia da un punto di vista teorico (K. Pearson, 190) che applicativo in ambito psicometrico ed educazionale (T.L. Kelly). La versione attuale della teoria delle componenti principali è dovuta ad H. Hotelling (1933). 7.1 Componenti principali campionarie Sia X un universo campionario k-dimensionale di cui si osservino n osservazioni indipendenti k-dimensionali rappresentate dalla matrice x 11 x 1k X =.. (7.1) x n1 x nk e sintetizzate tramite media e varianza campionarie rispettivamente date da X = X u n /n ed S = (X u n X ) (X u n X )/n. Indicando con a 1 un vettore k-dimensionale di costanti si voglia determinare il vettore di n elementi e 1 = Xa 1 (7.) ottenuto come combinazione lineare delle k colonne della matrice X e avente varianza massima. Si osservi come la varianza Var(e 1 ) = a 1 Sa 1 sia funzione crescente dei valori degli elementi di a 1. Affinché l individuazione del vettore a 1 che massimizza detta varianza sia un problema ben posto, si introduce un vincolo sulla dimensione di a 1 dato da a 1 a 1 = 1, che consiste nel pretendere che il vettore a 1 abbia norma unitaria. La prima componente principale viene dunque ottenuta risolvendo il seguente problema di massimo vincolato { maxa1 a 1 Sa 1 a 1 a (7.3) 1 = 1 che dà luogo alla funzione lagrangiana (a 1, λ) = a 1Sa 1 λ(a 1a 1 1) (7.4) e viene risolto tramite il sistema { a 1 (a 1, λ) = Sa 1 λa 1 = o λ (a 1, λ) = a 1 a 1 1 = 0 (7.5)

3 Cap. 7: Analisi delle componenti principali 105 Osservando le due equazioni del sistema si nota come a 1 corrisponda all autovettore di norma unitaria associato ad un autovalore λ della matrice S. D altra parte poiché la varianza che si vuole massimizzare è data da Var(e 1 ) = a 1Sa 1 = λa 1a 1 = λ (7.6) la prima componente principale e 1 = Xa 1 risulta essere definita dall autovettore a 1 associato al più grande degli autovalori di S, indicato con λ 1. La determinazione della seconda componente principale e = Xa (7.7) avviene in modo analogo, con l aggiunta della condizione di incorrelazione con e 1. Bisogna dunque individuare il vettore a che rende massima la varianza di e sotto i vincoli di unitarietà della norma di a e di incorrelazione tra e 1 ed e max a a Sa a a = 1 (7.8) a Sa 1 = 0 La funzione lagrangiana è data da (a, λ, ν) = a Sa λ(a a 1) νa Sa 1 (7.9) e annullando le derivate parziali rispetto all incognita e ai due moltiplicatori si ottiene a (a, λ, ν) = Sa λa νsa 1 = o λ (a, λ, ν) = a a 1 = 0 (7.10) ν (a, λ, ν) = a Sa 1 = 0 Si noti come la relazione Sa 1 = λ 1 a 1 implichi 0 = a Sa 1 = λ 1 a a 1, ed essendo λ 1 > 0 ciò significa a a 1 = 0. Considerando ora la prima equazione del sistema premoltiplicata per a 1 a } 1Sa {{} λ a 1a ν a }{{} 1Sa 1 = 0 (7.11) }{{} =0 =0 =λ 1 >0 da cui risulta ν = 0. La prima equazione del sistema si riduce dunque alla seguente equazione caratteristica Sa = λa (7.1)

4 106 A. Pollice - Statistica Multivariata dalla quale risulta come a sia l autovettore di norma unitaria associato ad uno degli autovalori della matrice S. Inoltre essendo Var(e ) = a Sa = λa a = λ (7.13) l autovalore che definisce la seconda componente principale non può che coincidere con il secondo più grande autovalore di S indicato con λ. Allo stesso modo è possibile definire un numero di componenti principali pari al rango k della matrice S (se S è definita positiva, allora ha rango k). Se a 1,..., a k sono gli autovettori di norma unitaria associati ai k autovalori λ 1 λ λ k della matrice S, allora le k possibili componenti principali sono date da le loro varianze sono e 1 = Xa 1,..., e k = Xa k (7.14) Var(e 1 ) = λ 1 Var(e k ) = λ k (7.15) ed inoltre, dette X j per j = 1..., k le colonne della matrice X, Var(e j ) = tr(s) = Var(X j ) (7.16) In altri termini la somma delle varianze delle componenti principali è uguale alla somma delle varianze campionarie delle variabili originarie. 7. Proprietà campionarie sotto l assunzione di normalità della popolazione Nell ipotesi che la variabile aleatoria X abbia distribuzione normale k-dimensionale con E(X) = µ e Cov(X) = Σ, la matrice di varianze e covarianze campionarie S coincide con lo stimatore di massima verosimiglianza di Σ. Per la proprietà di invarianza degli stimatori di massima verosimiglianza, se ˆθ è stimatore di massima verosimiglianza del parametro θ, allora φ(ˆθ) è a sua volta stimatore di massima verosimiglianza di φ(θ), se e solo se la trasformazione φ è biunivoca. Di conseguenza λ 1 ed a 1 ottenuti dalla seguente trasformazione biunivoca di S { Sa1 = λ 1 a 1 a 1 a (7.17) 1 = 1

5 Cap. 7: Analisi delle componenti principali 107 sono stimatori di massima verosimiglianza dei parametri λ 1 ed ã 1 definiti dalla stessa trasformazione biunivoca di Σ { Σã1 = λ 1 ã 1 ã 1ã1 = 1 (7.18) Il risultato appena enunciato vale solo se Σ è definita positiva, ovvero se è dotata di k autovalori strettamente positivi distinti λ 1 > > λ k. Infatti in tal caso gli autovettori associati ã 1,..., ã k sono unici e la trasformazione (7.18) è biunivoca. Nel caso in cui la matrice Σ abbia degli autovalori uguali, gli stimatori di massima verosimiglianza degli autovalori multipli sono dati dalle medie aritmetiche dei corrispondenti autovalori campionari (Anderson, 1984) Distribuzione campionaria asintotica di autovalori e autovettori Nell ipotesi che il vettore aleatorio X abbia distribuzione N k (µ, Σ) e che Σ sia dotata di k autovalori distinti, valgono le seguenti proprietà asintotiche (Anderson, 1984): 1. lim λ j N n ( λ j, λ j n ) j = 1,..., k (7.19). gli autovalori λ 1,..., λ k sono asintoticamente indipendenti; 3. lim n a j N k ã j, λ j h( j)=1 λ h ( λ j λ h ) ãhã h j = 1,..., k (7.0) 4. lim Cov(a jr, a hs ) = λ j λh ã jr ã hs n n( λ j λ (7.1) h ) essendo a jr ed a hs rispettivamente la r-esima componente di a j e la s-esima componente di a h con j, h, r, s = 1,..., k.

6 108 A. Pollice - Statistica Multivariata 7.3 Problemi applicativi Unità di misura I risultati dell analisi delle componenti principali dipendono dall unità di misura in cui sono espressi i dati di partenza. Infatti se X j = c jx j, essendo X j la j-esima colonna della matrice X e c j una costante per j = 1,..., k, si ha Var(X j ) = c j Var(X j) = c j S j (7.) Cov(X j X h ) = c jc h Cov(X j X h ) = c j c h S jh (7.3) quindi un cambiamento di scala nei dati modifica la matrice di varianze e covarianze campionarie con i suoi autovalori e autovettori. L analisi delle componenti principali è dunque influenzata dalla dimensione dei dati e dalle unità di misura in cui sono espressi. Allo scopo di evitare tale indeterminatezza l ACP viene spesso condotta sulle variabili standardizzate Y 1 = X 1 u n X1 S 1,..., Y k = X k u n Xk Sk (7.4) In tal caso la matrice di varianze e covarianze campionarie di Y = (Y 1,..., Y k ) coincide con la matrice R dei coefficienti di correlazione campionari tra le colonne di X (ma anche di Y ), e l ACP viene condotta calcolando gli autovalori e autovettori della matrice 1 r 1 r 1k r 1 1 r k R =..... (7.5). r k1 r k Interpretazione delle componenti principali L analisi delle componenti principali consiste nella ricerca di variabili latenti o inosservabili che determinano in modo fondamentale il fenomeno in studio. Di principale importanza è dunque l interpretazione delle stesse componenti in base ai coefficienti che le mettono in relazione con le variabili rilevate. Posto a j = (a 1j,..., a kj ) per j = 1,..., k, la j-esima componente principale ha la forma e j = a 1j X a kj X k (7.6)

7 Cap. 7: Analisi delle componenti principali 109 Quindi a hj può essere interpretato come il peso della variabile X h nella determinazione della componente j-esima. Quanto maggiore è a hj in valore assoluto, tanto più e j è caratterizzata dalla variabile X h. Detta ē j = e j u n/n la media campionaria della j-esima componente principale e j, è possibile calcolare la covarianza campionaria tra questa e la h-esima variabile X h, per j, h = 1,..., k Cov(e j, X h ) = 1 n (e j u n ē j ) (X h X h u n ) = = 1 n a j(x u n X ) (X h X h u n ) = = a j(s 1h,..., S kh ) = = a rj S rh = r=1 a rj S hr = λ j a hj (7.7) r=1 l ultimo passaggio si ottiene considerando la h-esima riga della relazione Sa j = λ j a j. Il coefficiente di correlazione campionario tra e j e X h è quindi dato da r ej X h = Cov(e j, X h ) Var(e j )Sh = λ ja hj λ j Sh = a hj λ j S h (7.8) L espressione precedente misura la quota della variabilità di X h spiegata dalla j-esima componente principale. Se si opera con le variabili standardizzate, poiché è Var(Y h ) = 1, allora r ej Y h = a hj λj. Inoltre, essendo le e j incorrelate, la quota di variabilità di qualsiasi X h spiegata da un insieme G di componenti principali è misurata dalla somma seguente j G r ej X h = 1 Sh a hj λj (7.9) Ovviamente se G contiene tutte le componenti principali la somma (7.9) vale 1. j G Scelta del numero di componenti principali L analisi delle componenti principali produce una sintesi dei dati rilevati se tramite un numero inferiore a k di componenti si riesce a riprodurre una buona parte della variabilità contenuta nelle variabili osservate X 1,..., X k

8 110 A. Pollice - Statistica Multivariata (cosa che succede quando i più piccoli autovalori di S o di R hanno valori trascurabili). Detta k S j la varianza totale di X e poiché come si è visto Sj = Var(e j ) (7.30) allora a Var(e j ) = λ j si può attribuire il significato di misura della quota di varianza totale spiegata dalla j-esima componente principale. Quindi l indice I q = λ λ q = λ λ q (7.31) λ λ k tr(s) misura la quota di varianza totale spiegata dalle prime q componenti principali e fornisce un indicazione della qualità della descrizione del collettivo ottenibile da queste (0 I q 1). In caso di utilizzo di variabili standardizzate I q = (λ λ q )/tr(r) = (λ λ q )/k. Generalmente viene fissata una soglia I che indica la frazione della varianza totale che si vuole sia spiegata dalle componenti principali. In tal caso il numero di componenti da considerare viene scelto in modo che q sia il più piccolo valore per cui I q > I (spesso I 0, 9). Un secondo criterio prevede di escludere le componenti associate ad autovalori inferiori alla media aritmetica degli autovalori di S. Un altro criterio richiede la costruzione di un grafico (denominato scree graph) in cui vengano rappresentati i punti (j, λ j ) per j = 1,..., k uniti da segmenti. Il valore di q (sull asse delle ascisse) viene scelto in modo tale che l andamento del grafico sia decrescente a sinistra di q e pressoché costante o debolmente decrescente alla sua destra (criterio piuttosto soggettivo). Sotto l ipotesi di normalità della variabile X vi sono due test che possono essere usati per decidere il numero di componenti principali da considerare. Nella popolazione le ultime k q componenti principali sono trascurabili se il rapporto λ q λ k λ λ k (7.3) è di dimensioni ridotte. Se con γ si indica un numero piccolo a piacere, per verificare il sistema di ipotesi H 0 : λ q λ k λ λ k H 1 : λ q λ k λ λ k = γ > γ (7.33)

9 Cap. 7: Analisi delle componenti principali 111 si considera la statistica test U = λ q λ k λ λ k (7.34) Poiché gli autovalori λ j hanno distribuzione asintotica normale, si può concludere (Mardia, Kent, Bibby, 1979) che anche U è asintoticamente normale lim U N(γ, V U) (7.35) n con ( tr(s ) V U = (n 1)[tr(S)] γ λ q ) λ k λ (7.36) λ k Si vuole infine considerare il cosiddetto test di isotropia, che serve per verificare se le ultime k q componenti apportano verosimilmente lo stesso contributo in termini di varianza totale spiegata { H0 : λ q+1 = = λ k = λ (7.37) H 1 : gli autovalori sono diversi Nell applicazione di questo test si comincia considerando q = 0 e si procede aumentando q sinchè H 0 non viene accettata. La funzione test per verificare questa ipotesi viene costruita tramite il criterio del rapporto di verosimiglianze generalizzato a partire dall espressione della verosimiglianza seguente ln L(µ, Σ) = nk ln π n ln Σ 1 n tr [Σ 1 (X i µ)(x i µ) ] = = nk ln π n ln Σ n tr(σ 1 S) n tr[σ 1 ( X µ)( X µ) ](7.38) Il denominatore della funzione test è dato in questo caso da i=1 sup ln L(µ, Σ) = ln L( X, S) = nk µ,σ ln π n ln k λ j nk (7.39) Per determinare il numeratore bisogna ricavare sup ln L(µ, Σ) = sup ln L( X, Σ) (7.40) µ,σ=σ Σ=Σ essendo Σ una matrice di varianze e covarianze tale che i suoi autovalori siano λ 1,..., λ q, λ,..., λ. In questo caso gli stimatori di massima

10 11 A. Pollice - Statistica Multivariata verosimiglianza degli autovalori sono dati da λ 1,..., λ q, λ,..., λ, con λ = k j=q+1 λ j/(k q), mentre quelli degli autovettori sono sempre a 1,..., a k, autovettori normalizzati di S. Si indichino con A = (a 1,..., a k ) la matrice modale e con Λ = diag(λ 1,..., λ k ) e Λ = diag(λ 1,..., λ q, λ,..., λ) rispettivamente la matrice diagonale degli autovalori di S in generale e sotto l ipotesi nulla, allora in generale vale la diagonalizzazione mentre sotto l ipotesi nulla si ha Quindi sup ln L( X, Σ) = nk Σ=Σ ln π n k q ln λ S = AΛA (7.41) ˆΣ = AΛ A (7.4) = nk ln π n k q ln λ q λ j n tr[(ˆσ ) 1 S] = q λ j nk (7.43) dove, tenendo conto che la matrice A è ortonormale, l ultimo passaggio deriva da tr[(ˆσ ) 1 S] = tr[a(λ ) 1 A AΛA ] = tr[(λ ) 1 Λ] = [ ( = tr diag 1,..., 1, λ q+1 λ,..., λ )] k = λ = q + 1 λ λ j = q + (k q) = k (7.44) j=q+1 Complessivamente, dunque, il test di isotropia ricavato tramite il criterio del rapporto di verosimiglianze generalizzato è dato dall espressione ( L( ln X, ˆΣ ) ) ( L( X, = ln L( S) X, ˆΣ ) ln L( X, ) S) = = n ln λ j + n(k q) ln λ + n = n (k q) ln λ j=q+1 q ln λ j = ln λ j (7.45) che si distribuisce asintoticamente come una χ con m = (k q + )(k q 1)/ gradi di libertà.