ANALISI DELLE COMPONENTI PRINCIPALI

Транскрипт

1 ANALISI DELLE COMPONENI PRINCIPALI L'analisi delle componenti principali (ACP) (Pearson, 1901, Hotelling, 1933) è una metodologia statistica per la riduzione delle dimensioni. L'ACP è particolarmente utile quando un certo aspetto non è direttamente quantificabile ma si dispone di più indicatori del medesimo (ad esempio misurazione delle capacità atletiche di una persona, misurazione dell'intelligenza avvalendosi dei risultati di una pluralità di test, valutazione della qualità di vita nei comuni di una regione). Data una matrice di dati di dimensione 8 con variabili tutte quantitative l'acp è una metodologia statistica multivariata che consente di sostituire alla variabili (tra loro correlate) un nuovo insieme di godono delle seguenti proprietà 5 variabili (chiamate componenti principali) che 1) sono combinazioni lineari delle variabili di partenza; 2) sono tra loro incorrelate; 3) sono in ordine decrescente rispetto alla loro varianza. Ad esempio, la prima componente principale ] è la combinazione lineare delle variabili avente massima varianza, la seconda componente principale ] 2 è la combinazione lineare delle variabili avente varianza immediatamente inferiore soggetta al vincolo di essere non correlata alla componente precedente. In modo analogo si definiscono le componenti principali successive. Indicato con y œ ÐC ßáßC8 Ñ il vettore dei valori (detti punteggi) assunti dalla prima componente principale sulle 8 unità, la determinazione della prima componente principale richiede l'individuazione del vettore -dimensionale a œ Ð+ ßáß+ Ñ per cui y œ Xë a abbia varianza massima. La varianza dei punteggi relativi alla prima componente principale può essere ottenuta mediante la matrice di varianza-covarianza osservazioni originali. Infatti risulta S delle 1

2 varðy Ñ œ varðxë a Ñ œ a Xë Xë a a a 8 œ S Volendo massimizzare var Ðy Ñ occorre limitare la norma di a. A questo scopo si considera il vincolo di normalizzazione a a œ. Poiché la funzione a Sa è continua, nell'insieme chiuso e limitato a a œ ammette massimo. Per determinare il massimo e i punti di massimo si può utilizzare il metodo dei moltiplicatori di Lagrange. In questo caso si calcolano i punti critici della funzione Lagrangiana - 2 Ða, Ñ œ a Sa -Ða a Ñ. Derivando rispetto alle componenti di a e rispetto a - ed eguagliando le derivate a zero si ottiene `2 Ða `a,-ñ œ Sa -a œ ÐS - IÑa œ! ß `2 Ða,-Ñ `- œ a a œ! dove I è la matrice identità di ordine e! è un vettore -dimensionale con elementi tutti nulli. I punti critici Ða ß-Ñ della funzione Lagrangiana verificano quindi il sistema lineare omogeneo ÐS -IÑa œ! che ammette soluzioni diverse dal vettore nullo se il determinante di S -I è nullo. S viluppando detðs -I Ñ œ! si ottiene un'equazione di grado nell'incognita -, detta equazione caratteristica, che ammette soluzioni distinte o coincidenti Ð- á - Ñ tutte non negative (essendo semidefinita positiva) che sono 1 S detti autovalori di S. Dunque, i punti che annullano il gradiente della funzione Lagrangiana hanno come prima componente un autovettore di S a norma unitariaà quindi il massimo max lla ll œ a S a coincide con il massimo dei valori assunti dalla funzione a a S sull'insieme degli autovettori unitari di S, ossia con il massimo di Ö- ßáß -. Allora la massima varianza 1 2

3 dei punteggi della prima componente principale coincide il primo autovalore considerando un autovettore di norma 1,, relativo a - 1. Si osservi infatti che 1 1 var ÐXë Ñ œ S œ - œ e si ottiene Un modo alternativo per massimizzare a S a sotto il vincolo a a œ senza utilizzare la derivazione è il seguente. Sfruttando la rappresentazione diagonale di S S, ovvero œ >A> dove A è la matrice diagonale dei suoi autovalori e > la matrice ortogonale dei suoi autovettori, e ponendo x œ a, massimizzare a Sa sotto il vincolo a a œ > equivale a massimizzare x Ax soggetta a x x œ. Essendo gli autovalori ordinati in senso non decrescente ed essendo x x œ risulta x Ax œ - B Ÿ - B œ - Þ œ 4œ Il valore massimo si ottiene quindi per x œ e dove e è il primo vettore della base canonica e a a assume il valore massimo per a œ > e œ Þ S Per determinare la seconda componente principale si deve determinare a œ Ð+ ßáß+ Ñ per cui y œ Xë a 2 2 abbia varianza massima sotto il vincolo di normalizzazione a a œ e sotto la condizione cov( y ß y Ñ œ! Ðin modo equivalente si deve verificare che y e y siano ortogonali ovvero Øy ß y2ù œ!ñ. Osservato che cov( y ß y Ñ œ covðxë ß Xë a Ñ œ a Xë Xë 2 œ a2s œ - a , utilizzando il metodo dei moltiplicatori di Lagrange per determinare, occorre a massimizzare la seguente funzione Derivando rispetto a 2 22Ða ß-ß$ Ñ œ a S a -Ða a Ñ $ a. a ß- e $ ed eguagliando le derivate a 0 si ottiene `2 Ða ß-ß$ Ñ `a œ S a -a $ œ!, 3

4 `2 Ð+ ß-ß$ Ñ `- œ a a œ! `2 Ð+ ß-ß$ Ñ `+ œ a 2 œ! Dalla prima equazione premoltiplicando primo e secondo membro per 1 risulta Sa - a $ œ! da cui segue $ œ! in quanto S œ ÐS Ñ œ ß a œ a œ! e œ Þ Sostituendo $ œ! nelle derivate parziali si ottiene il sistema ÐS -IÑa œ! a a œ!þ In modo analogo a quanto fatto per la determinazione della prima componente principale, la varianza massima dei punteggi relativi alla seconda componente principale coincide con il secondo autovalore - 2 in ordine decrescente della matrice di varianza-covarianza S e si ottiene considerando un autovettore 2 (a norma 1) corrispondente a - 2. Infatti risulta var ÐXë Ñ œ S œ - œ Lo stesso risultato può essere ottenuto senza derivate osservando quanto segue. Lo spazio vettoriale c œ Öa À Ø ß a Ù œ! è un iperpiano ed è costituito da tutti i vettori di la cui 3-esima componente è data dalla combinazione lineare delle rimanenti Ð Ñ componenti. Quindi dimðc Ñ œ. I vettori ß á ß costituiscono una base ortonormale di c, quindi ogni vettore che appartiene a c può essere espresso come a combinazione lineare di ßáß, ovvero a œ α á α Þ Inoltre essendo ßáß ortogonali, risulta lla ll œ α ll ll á α ll ll œ α á α ß da cui imponendo che la norma sia 1 si ha che α á α œ Þ Per massimizzare a Sa si osservi che 4

5 Sa a œ Øα á α ß SÐα á α ÑÙ œ Øα á α ßα - á α - ÑÙ œ α - ll ll á α - ll ll œ α - á α - Ÿ - Per concludere basta osservare che a a œ - se α œ ßα œ!ßáßα œ! e quindi a œ 2 Þ S $ Ripetendo il procedimento si può definire il vettore dei punteggi componente principale di variabili espresse in termini di scostamenti dalla media ovvero y@ œ ßáß5 Ÿ, è l'autovettore associato autovalore in ordine decrescente della matrice S. In forma esplicita il punteggio componente principale per la 3- esima unità statistica risulta Il segno di C3@ œ B 3 á 4@ B 34 á 3, 3 œ 4@ indica il tipo di relazione, diretta o inversa, tra componente principale e la variabile 4 mentre il valore numerico di 4@ indica in che misura la variabile 4 -esima contribuisce al punteggio componente principale. Proprietà var Ñ œ Poiché S è una matrice simmetrica, risulta che la varianza totale coincide con la somma di - 4 4œ tutti gli autovalori ovvero tr ÐSÑ œ quindi la proporzione di varianza spiegata esima componente principale è ÎtrÐSÑÞ covðy@ß x Ñ œ cov ÐXë ßXe ë Ñ œ e Xë œ e œ e -@@ œ -@ œ -@ 4@. Dall'espressione di covðy ß x Ñ segue che œ covðy ß x ÑÎvar Ðy Ñ, cioè 4@ 4@ con valore stimato con il metodo dei minimi quadrati del coefficiente angolare della retta di regressione della variabile 4 sulla componente (se il modello è B œ C %, 3 œ ßáß8ß s œ usando il metodo dei minimi quadrati). 34 3@ 3 4@ 5

6 Il coefficiente di correlazione lineare tra componente principale e la 4-esima variabile risulta ß x -@ 4@ È- È- Ñ œ œ œ È- ÈvarÐx Ñ ÈvarÐx Ñ 4@. Il quadrato del coefficiente di correlazione -@ Ð 4@ Ñ ÎvarÐx Ñ (che rappresenta il coefficiente di determinazione) esprime la proporzione di varianza della 4-esima variabile spiegata componente principale. Si osservi che - Ð Ñ 4@ Ð Infatti = 4 œ e4 Se4 œ e4>a> e4 œ Ð 4@ Ñ poiché > e4 œ Ð 4 4 á 4 Ñ Osservazioni Le componenti principali ottenute partendo dalla matrice di covarianza sono una combinazione lineare degli scostamenti dalla media delle variabili originali. Il confronto tra tali variabili è lecito se le variabili sono espresse nella stessa unità di misura. Un semplice cambiamento di scala di una variabile modifica il valore della varianza totale e influenza fortemente i risultati dell'acp. L'ACP mira a riprodurre la varianza totale delle variabili se alcune di esse presentano una variabilità molto maggiore delle altre i risultati sono determinati prevalentemente dalle variabili suddette. L'ACP con riferimento alla matrice di covarianza è correttamente applicabile solo quando le variabili sono espresse nella stessa unità di misura, presentano ordini di grandezza non molto diversi ed hanno variabilità non marcatamente defferenti. 4 Le componenti principali partendo dalla matrice degli scarti standardizzati Quando le variabili sono espresse in diverse unità di misura e/o presentano ordini di grandezza molto differenti, l'acp partendo dalla matrice di covarianza è inappropriata. Si fa riferimento alle variabili espresse in termini di scostamenti standardizzati che equivale ad assumere come punto di partenza la matrice di correlazione. L'ACP del medesimo data 6

7 set ottenute dalla matrice di correlazione o dalla matrice di covarianza non sono le stesse e non è possibile passare da un tipo di analisi all'altro mediante semplici cambiamenti di scala. La procedura di calcolo segue le linee descritte in precedenza in questo caso si tratta però di determinare una combinazione lineare delle variabili espresse in termini di scostamenti standardizzati con proprietà analoghe a quelle imposte partendo dalla combinazione lineare delle variabili espresse in termini di scostamenti dalla media. Ad esempio per determinare la prima componente principale occorre massimizzare a soggetta al vincolo a a. a R In generale, il vettore contenente i punteggi componente principale ottenuta considerando le variabili espresse in termini di scostamenti standardizzati risulta y@ œ ßáß5 Ÿ, è l'autovettore (con norma 1) associato autovalore -@ * in ordine decrescente della matrice R. Proprietà var Ñ œ -@ *. Poiché R è simmetrica, la varianza totale coincide con la somma di tutti gli autovalori - 4 4œ ovvero tr ÐRÑ œ. Inoltre tr ÐRÑ œ quindi la proporzione di varianza spiegata esima componente principale è covðy@ß z Ñ œ cov ÐZ ßZe Ñ œ e Z Z œ e R * œ e @ * - - œ -@ 4@. Il coefficiente di correlazione lineare tra componente principale e la 4-esima variabile risulta ß z Ñ œ -@ 4@ È- Ñ œ 4@. Il quadrato del coefficiente di correlazione - Ð 4@ (che rappresenta il coefficiente di 7

8 determinazione) esprime la proporzione di varianza della 4-esima variabile spiegata componente principale. La quota di varianza della 4-esima variabile ( 4 œ ßáß) spiegata dalle prime 5 5 componenti principali (che sono ortogonali) risulta - 4@ Infatti var( z ) œ e Re œ e X > A > e œ - Ð Ñ œ Þ 4œ X Ð Ñ œ Ð Ñ œ œ 4@ Individuata componente principale y@ œ il punteggio componente principale per la 3-esima unità statistica risulta 3 4@ 3 C œ D á D á D, 3 œ ßáß8. Facendo riferimento alle prime 5 componenti principali e indicata con œ Ð á Ñ la matrice dei primi 5 autovettori della matrice R la matrice dei punteggi risulta Y œ Z 5 La matrice di varianza-covarianza associata alla matrice dei punteggi è S C dg - -5 œ Ð ßáß Ñ. Se le componenti principali sono state ottenute in termini di scostamenti dalla media, ovvero se Y œ X ë> con > œ Ð á Ñ, risulta S C - -5 œ dg Ð ßáß Ñ. 5 Inoltre vale la pena ricordare che gli autovalori si scelgono in ordine decrescente quindi i punteggi della prima componente principale presentano maggiore variabilità dei punteggi della seconda e così via. Questo comporta che i valori numerici dei punteggi relativi a differenti componenti non sono direttamente comparabili. Per ovviare a questo inconveniente si possono ricavare punteggi delle componenti principali con media nulla e varianza unitaria. A questo scopo basta dividere i punteggi ottenuti per la radice quadrata del rispettivo autovalore, ovvero i punteggi standardizzati componente partendo dalla matrice degli scostamenti standardizzati risultano 8

9 @ œ D á 4@ 3 D34 D3, 3 œ ßáß8 È- @ Se Y è la matrice dei punteggi standardizzati, la matrice S C coincide con la matrice identità. Scelta del numero di componenti Come si può scegliere il numero delle componenti principali da utilizzare? 1) Si considera un numero di componenti principali che tengano conto di una percentuale sufficientemente elevata della varianza totale. 2) Lavorando con variabili standardizzate si conservano le componenti principali il cui autovalore è maggiore di 1 le osservazioni relative a ciascuna variabile hanno varianza unitaria e si decide di tenere una componente principale soltanto se spiega una quota di varianza maggiore a quella di una singola variabile. Lavorando con variabili espresse in termini di scostamenti dalla media, si calcola la media delle varianze relative alle componenti principali - - supera -. e si considerano le componenti principali la cui varianza 3) Si costruisce lo scree-plot in ascissa si riporta l'intero che identifica la componente principale (@ œ ßáßÑ ed in ordinata si riporta l'autovalore corrispondente, si costruisce una spezzata (decrescente poiché gòli autovalori sono ordinati in modo decrescenteñ congiungente i punti precedentemente individuati. Se tra 5 e 5 si manifesta una brusca variazione della pendenza, 5 è il numero opportuno di componenti da conservare. Non sempre l'andamento del grafico fornisce una risposta univoca. Nella pratica il numero criteri. 5 di componenti si individua utilizzando congiuntamente i tre Osservazione 9

10 Se tutte le variabili sono non correlate la matrice S è una matrice diagonale, i suoi autovalori coincidono con gli elementi che si trovano sulla sua diagonale e gli autovettori (di norma unitaria) ad essi corrispondenti coincidono con i vettori della base canonica œ œ y@ œ x œ ßáß). ë ì@ Alcune proprietà delle componenti principali (partendo da X) ë Si consideri una generica trasformazione lineare Y œ XB ë con B matrice ortonormale. Scegliendo > œ Ð á Ñ con ßáß autovettori della matrice ß per 5 prefissato, S risulta massimizzata trðs] Ñ e det ÐS] Ñ, dove S] œ > S>. Il sottospazio generato dalle prime 5 componenti principali è tale che la somma dei quadrati delle distanze perpendicolari delle 8 osservazioni (in termini di scostamenti dalla media) dal sottospazio generato risulta minima. Si dimostra nel caso più semplice in cui œ e 5 œ. Il sottospazio generato dalla prima componente principale è la retta di equazione Bë Bë œ!þ Il generico punto di coordinate xë 3ì œ ÐB ë3ßbë 3 Ñ nel sistema di riferimento indotto dalle due componenti principali ha coordinate ÐC3ßC3 ÑÞ Quindi la distanza del generico punto ÐB ë Bë Ñ dalla retta corrispondente alla prima componente principale coincide con 3ß C 3 è minima, è 3œ (essendo le componenti principali ortogonali). Per dimostrare che sufficiente osservare che 8 lly ll œ C œ 8varÐy Ñ œ 8-3 3œ e ricordare che l'ultima componente principale (in questo caso la seconda) è la combinazione lineare che ha varianza minima. C Sempre nel caso semplificato in cui œ e 5 œ, si può osservare che la retta corrispondente alla prima componente principale è intermedia tra le due rette di 10

11 regressione dei minimi quadrati (di Bë su Bë e di Bë su Bë ÑÞLe tre rette coincidono se il 2 1 coefficiente di correlazione lineare tra le due variabili è +1 oppure Þ Si consideri la famiglia di ellissoidi dimensionali ëx S ëx œ -, con - costante realeþ Le componenti principali definiscono gli assi di tali ellissoidi. L'ellisoide ha centro nell'origine (essendo le osservazioni espresse in termini di scarti dalla media) ed assi le cui direzioni sono determinate dai autovettori ortonomali della matrice S. Inoltre, le lunghezze degli assi sono È- -, dove - ßáß- sono gli autovalori associati alla matrice S. 3 Costruzione ed interpretazione del biplot Data la matrice degli scostamenti standardizzati Z con <ÐZÑ œ 5 Ÿ 738Ð8ßÑ (un ragionamento analogo può essere fatto partendo dalla matrice dei dati), siano 7 ßáß 75 i 5 autovalori non nulli di Z Z (che coincidono con autovalori di ZZ ). Prima di scrivere la scomposizione in valori singolari si osservi che Z Z œ 8 R e che R œ - quindi risulta ÐZ ZÑ œ 8R œ Ð8- Gli autovalori di Z Z coincidono con dove 8- ßáß8- - ßáß- sono gli autovalori di 5 5 R e gli autovettori di Z Z coincidono con quelli della matrice R. La rappresentazione dei valori singolari per la matrice Z risulta Z œ U? œ Ð á Ñ e? œ dg ÐÈ8- ßáßÈ8- Ñ e U œ Z?. Dalla precedente relazione segue che 5 5 y y5 U œ Z? œ Y? œ Š ßáß È8 È- È- pertanto? È8, con? 6-esima colonna di U, rappresenta i punteggi standardizzati della 6-6 @ 11

12 esima componente principale (si osservi che? 6 è autovettore ha norma 1 di ZZ )Þ La relazione precedente consente quindi di ricostruire esattamente gli scostamenti standardizzati iniziali delle variabili utilizzando tutte le componenti principali estraibili. Nel caso in cui <, ma componenti tengono conto di una quota elevata della varianza totale, è possibile scrivere la seguente relazione approssimata che si riferisce a due componenti Indicando con? α potenze α-esime di È 8 - X Z U? œ Ð? ß? Ñ! œ GHÞ È Œ X! 8- la matrice diagonale avente per elementi le radici quadrate positive delle Z Z (! Ÿ α Ÿ Ñ la relazione precedente si può scrivere α Z U?? œ GH α, α α dove G œ U? e H œ? Þ La matrice G di dimensione 8 è riferita alle 8 unità mentre la matrice H di dimensione è riferita alle variabili. Siano g3 œ Ð13 ß13 Ñ l' 3- esima riga della matrice G e sia h4 œ 24 Œ il 4 -esimo vettore colonna della matrice H, 2 da cui risulta 4 Î g Ñ g G œ Ð Óß ã Ï g Ò 8 H œ Ðh ß á ß h Ñ e D può essere approssimato mediante il prodotto scalare g h ovvero D può essere interpolato nel biplot mediante la proiezione ortogonale del vettore g sul vettore h. Il biplot costituisce la rappresentazione nello stesso piano bidimensionale degli 8 punti riga, le cui coordinate sono contenute nelle righe di G e dei punti colonna le cui coordinate sono contenute nelle colonne di H. Quindi il biplot costituisce una tecnica di rappresentazione a due vie della matrice degli scostamenti standardizzati Z (o di una matrice di dati X), tale che sia le unità di riga che le unità di colonna sono rappresentate 12

13 nello stesso spazio dimensionale (generalmente euclideo e bidimensionale), in modo tale da cogliere gli aspetti essenziali dell'interazione tra le medesime. Va osservato che il prefisso bi fa riferimento alla rappresentazione simultanea delle righe e delle colonne, non alla dimensione, non necessariamente bidimensionale della configurazione spaziale. Il significato e l'interpretazione del biplot sono differenti a seconda del valore attribuito ad α nella scomposizione prima riportata. Di particolare interesse risultano i casi α œ! e α œ. Nel caso in cui α œ! risulta G œ È8U œ Y ß H œ?. È8 Quindi G contiene per le 8 unità i punteggi normalizzati delle prime due componenti principali. Inoltre ricordato che il coefficiente di correlazione lineare tra componente principale e la 4-esima variabile risulta ß z Ñ œ 4@ la generica della matrice H contiene i coefficienti di correlazione tra la componente ed ognuna delle variabili. Più precisamente h Se α œ risulta 4 <Ðy ß z Ñ È- 4 C3 C3 œ Œ g 3 ß Þ <Ðy œ È ß z Ñ - œ Š È- È- 4 2 G œ U? H œ. La generica della matrice H contiene l'autovettore mentre la matrice G essendo Z œ U? contiene per le 8 unità i punteggi non normalizzati delle prime due componenti principali. 13

14 h 4 4 œ Œ g œ Š C ßC Þ La rappresentazione congiunta nel biplot dei vettori bidimensionali g 3 e h4 offre una serie di informazioni sulle unità, sulle variabili e sulle interazioni tra di esse. Per quanto riguarda la rappresentazione grafica dei vettori cartesiano si osservi che per α œ! vale quanto segue. h 4 Ð4 œ ßáßÑ nel piano 1) I vettori h 4 che rappresentano le variabili sono sempre contenute nel cerchio di raggio unitario ( le due coordinate rappresentano le correlazioni della variabile con la seconda componente principale). 2) La lunghezza del vettore h 4 risulta 4 con le prima e llh 4 ll œ É2 2 œ É<Ð y ß z Ñ <Ðy ß z Ñ œ É- Ð Ñ - Ð Ñ dove - Ð Ñ - Ð Ñ rappresenta la proporzione di varianza della variabile 4 spiegata 4 4 dalle prime due componenti. Quindi se h 4 è vicino alla circonferenza di raggio unitario la variabile 4 è riprodotta quasi perfettamente nel piano cartesiano delle prime due componenti principali. 3Ñ Facendo riferimento alla rappresentazione in valori singolari di Z e non alla sua? rappresentazione di rango, ponendo H œ e G œ È8U risulta Z Z È8 œ H G GH œ 8H H œ 8R poiché essendo G la matrice dei punteggi standardizzati G G œ 8I. Quindi per ogni coppia di variabili 4ß6 si ha che < 46, oltre a coincidere con il coseno dell'angolo compreso tra z ì6 e z, risulta < œ <Ðz ß z Ñ œ Øh, h Ù œ llh ll llh ll cos ) œ cos ) ì6 dove ) è l'angolo compreso tra i vettori h4 e h6 (in questo caso h4 è un vettore - dimensionale ed ha norma 1). Se l'angolo è molto piccolo la correlazione è elevata e diretta; se l'angolo si avvicina a 90 la correlazione si approssima a zero; se l'angolo è prossimo a 180 la correlazione è elevata, ma inversa. 14

15 Per quanto riguarda l'interpretazione dei punti-unità si osservi che 1) punti vicini all'origine degli assi segnalano che le corrispondenti unità presentano valori delle variabili prossimi alle rispettive medie; 2) punti lontani dall'origine degli assi e nella direzione di uno degli assi indicano che le relative unità sono caratterizzate da un punteggio di quella componente particolarmente elevato in modulo; 3) un punto lontano dall'origine degli assi nella direzione del vettore corrispondente a una variabile segnala che l'unità mostra un valore di questa variabile notevolmente maggiore della media (aspetto più interessante del biplot). Questo deriva da fatto che D 34 può essere interpolato nel biplot mediante la proiezione ortogonale del vettore g sul vettore h. 3 4 Quindi si può affermare che è prossimo a zero se i vettori g e h sono ortogonali D mentre D 34 è molto grande se i vettori g 3 e h 4 hanno la stessa direzione. 15