Analisi in Componenti Principali (ACP)

Documenti analoghi
Analisi delle corrispondenze

Analisi delle componenti principali

Analisi delle corrispondenze

Analisi lineari: ACP. Loredana Cerbara

La matrice delle correlazioni è la seguente:

Analisi della correlazione canonica

ANALISI MULTIDIMENSIONALE DEI DATI (AMD)

Richiami di algebra delle matrici a valori reali

3. Vettori, Spazi Vettoriali e Matrici

Statistica multivariata Donata Rodi 21/11/2016

Analisi della correlazione canonica

Statistica. Alfonso Iodice D Enza

Analisi in Componenti Principali

Differenze tra metodi di estrazione

Metodi computazionali per i Minimi Quadrati

Autovalori e autovettori, matrici simmetriche e forme quadratiche (cenni) (prof. M. Salvetti)

Risposta in vibrazioni libere di un sistema lineare viscoso a più gradi di libertà. Prof. Adolfo Santini - Dinamica delle Strutture 1

ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante.

L Analisi in Componenti Principali (S. Terzi)

ANALISI DEI DATI PER IL MARKETING 2014

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

Statistica. Alfonso Iodice D Enza

ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM)

Analisi in componenti principali

Statistica. Alfonso Iodice D Enza

Complemento ortogonale e proiezioni

SPAZI EUCLIDEI, APPLICAZIONI SIMMETRICHE, FORME QUADRATICHE

Statistica multivariata

Esercizi per Geometria II Geometria euclidea e proiettiva

Analisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

FONDAMENTI DI ALGEBRA LINEARE E GEOMETRIA

Esercizio 2. Consideriamo adesso lo spazio di funzioni V = {f : [0, 1] R}. Dire quali dei seguenti insiemi di funzioni sono sottospazi.

REGISTRO DELLE LEZIONI

Elementi di Algebra Lineare. Spazio Vettoriale (lineare)

Esercizi svolti. delle matrici

Statistica. Alfonso Iodice D Enza

Sistemi sovradeterminati

L Analisi Multidimensionale dei Dati

Statistica multivariata 27/09/2016. D.Rodi, 2016

TEORIA DEI SISTEMI ANALISI DEI SISTEMI LTI

15 luglio Soluzione esame di geometria - Ing. gestionale - a.a COGNOME... NOME... N. MATRICOLA... ISTRUZIONI

Spazi vettoriali euclidei.

ANALISI DEI DATI PER IL MARKETING 2014

Soluzione. (a) L insieme F 1 e linearmente indipendente; gli insiemi F 2 ed F 3 sono linearmente

Esercizi di ripasso: geometria e algebra lineare.

Corso di Geometria Ing. Informatica e Automatica Test 1: soluzioni

1 Il polinomio minimo.

Esercitazione 6 - Soluzione

( ) TEORIA DELLE MATRICI. A. Scimone a.s pag 1

Metodi di analisi statistica multivariata

2 Sistemi lineari. Metodo di riduzione a scala.

Riduzione Dimensionalità

Esame di Geometria - 9 CFU (Appello del 14 gennaio A)

Autovalori ed autovettori di una matrice

Algebra lineare con R

Caso di A non regolare

Parte 8. Prodotto scalare, teorema spettrale

3.3 FORMULAZIONE DEL MODELLO E CONDIZIONI DI

Richiami di algebra lineare

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Dipendenza e indipendenza lineare (senza il concetto di rango)

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

A.A. 2014/2015 Corso di Algebra Lineare

Similitudine (ortogonale) e congruenza (ortogonale) di matrici.

Alcuni esercizi sulla diagonalizzazione di matrici. campo dei reali. Se lo è calcolare una base spettrale e la relativa forma diagonale di A.

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

5 Un applicazione: le matrici di rotazione

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

ANALISI DEI DATI PER IL MARKETING Marco Riani

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

I teoremi della funzione inversa e della funzione implicita

NORMA DI UN VETTORE. Una NORMA VETTORIALE su R n è una funzione. : R n R +

Operatori antisimmetrici

CONTROLLO DI SISTEMI ROBOTICI Laurea Specialistica in Ingegneria Meccatronica

Istituzioni di Statistica e Statistica Economica

DIARIO DEL CORSO DI GEOMETRIA E ALGEBRA LINEARE

I VETTORI GAUSSIANI E. DI NARDO

Esercizi di MATEMATICA PER RCHITETTURA prima parte: Algebra Lineare e Geometria

Prodotti scalari e matrici

STATISTICA 1 ESERCITAZIONE 6

Transcript:

Analisi in Componenti Principali (ACP) Metodi di analisi fattoriale Obiettivo: individuazione di variabili di sintesi = dimensioni = variabili latenti = variabili non osservate Approccio: Ordinamenti tra variabili/mutabili Metodi: x 3 - Analisi in Componenti Principali (ACP) per variabili quantitative - Analisi delle Corrispondenze Binarie (ACB) per tabelle di contingenza - Analisi delle Corrispondenze Multiple (ACM) per variabili qualitative x m x p x k x 1 x 2 x j 2006/2007 1

Analisi in Componenti Principali (ACP) L obiettivo: Ridurre la dimensionalità dell insieme dei dati eliminando la ridondanza di informazioni risultato di p variabili altamente correlate e sostituendo a queste ultime un minor numero h (h < p) di nuove variabili tra loro non correlate e legate linearmente alle variabili di partenza. 0 Z3 Z2 CP Z1 0 0 2006/2007 2

Riduzione della dimensionalità Le nuove variabili oltre ad essere non correlate sono ordinate rispetto alla percentuale di variabilità presente nei dati originali. Lettura geometrica della matrice dei dati 1 X = i 1 x j ij p I i i Profili riga........... p R Spazio delle unità n Matrice dei dati I vettori riga di X sono punti-unità nello spazio R p generato dalle variabili. I vettori colonna di X sono punti-variabile nello spazio R n generato dalle unità. J j j Profili colonna........... R n Spazio delle variabili 2006/2007 3

Sintesi delle informazioni Per sintetizzare le relazioni esistenti tra più punti-unità (o punti-variabile) in uno spazio multidimensionale è possibile proiettare tutti i punti su un asse e studiare le distanze tra i vari punti. A C B D Tali proiezioni costituiscono un approssimazione delle relazioni esistenti tra i vari punti in quanto le distanze originarie risultano deformate. Obiettivo e finalità operativa Obiettivo: Sintetizzare le informazioni a disposizione garantendo la minima perdita di informazione (in termini di relazioni tra i dati). Finalità operativa: Ricerca di un sistema di assi fattoriali ortogonale che generi il sottospazio di migliore approssimazione tale da deformare il meno possibile le distanze tra i punti. 2006/2007 4

La variabilità Nella statistica univariata, la variabilità è rappresentata dagli indici di variabilità: Varianza, deviazione standard, devianza, ecc. Nella statistica multivariata, la variabilità è definita a partire dalla matrice di varianze e covarianze: La matrice di varianze e covarianze Se X è una matrice dei dati unità per variabili di dimensioni n,k, la matrice di varianze e covarianze è: x 1 x 2 x 3 x 4 x j x k x 1 x 2 x 3 x 4 x j x k Var x1 Cov 1,2 Cov 1,3 Cov 1,4 Cov 1,j Var x2 Cov 2,3 Cov 2,4 Cov 2,j Cov 1,k Cov 2,k Var x3 Cov 3,4 Cov 3,j Cov 3,k Var x4 Cov 4,j Var xj Cov 4,k Cov j,k Var xk La variabilità del sistema k-variato viene sintetizzato con la traccia della matrice di var-cov 2006/2007 5

Matrice dei dati Gli autovalori della matrice di var-cov sono: Matrice di varianze e covarianze Variabilità = 686,17 La cui somma è 686,17!!! Gli autovalori ricostruiscono la variabilità della matrice dei dati Definizione delle Componenti Principali La prima CP è la combinazione lineare delle p variabili di partenza avente massima varianza; la seconda CP è la combinazione lineare delle p variabili con varianza immediatamente inferiore, soggetta al vincolo di essere ortogonale alla componente precedente, e così via. La determinazione della prima CP richiede l individuazione del vettore p-dimensionale u 1 dei coefficienti della seguente combinazione lineare delle p variabili espresse in termini degli scostamenti dalle loro medie: c 1 = Xu 1 La varianza totale di una trasformazione lineare di X è esprimibile in funzione della matrice di Varianza-Covarianza S ' 1 VAR ( Xu1) = u Su 1 ' Posto u1 u1 = 1 il vettore dei coefficienti u 1 deve essere tale da massimizzare questa espressione 2006/2007 6

Definizione delle Componenti Principali segue Si applica la formula dei moltiplicatori di Lagrange: si deriva rispetto ad ' ' L = u1 Su1 λ1 ( u1u 1 1) = max u 1 e si annullano le derivate parziali, ottenendo: ( S λ1 I ) = 0 L obiettivo è la massimizzazione della varianza della prima CP, si sceglie come il massimo autovalore, in quanto: λ 1 ' ' u1su1 = u1λ 1u1 = λ1 Cioè il primo autovalore è uguale alla varianza della prima CP Definizione delle Componenti Principali segue La prima CP di p variabili, espresse in termini di scostamenti dalla media, è la combinazione lineare c = 1 Xu 1 in cui u1 è l autovettore corrispondente all autovalore λ1 più grande della matrice di varianza-covarianza S c = u u 1 u u 0 2 Xu 2 ' 2 2 = ' 1 2 = Seconda CP Vincolo di normalità Vincolo di ortogonalità La somma degli autovalori delle CP ricostruisce l intera variabilità dello spazio originario. 2006/2007 7

La matrice di correlazione Le CP ottenute dalla matrice di varianza-covarianza (combinazioni lineari degli scostamenti dalla media delle variabili originarie) sono lecite se le variabili sono espresse tutte nella stessa unità di misura E necessario, nel caso contrario, superare tale difficoltà considerando le variabili espresse in termini di scostamenti standardizzati, cioè il punto di partenza dell ACP diviene la matrice di correlazione. Criteri di scelta del numero di assi 1. Variabilità spiegata si fissa una soglia minima di variabilità spiegata 2. Eigenvalue-one (per variabili standardizzate) Poiché le variabili hanno varianza unitaria si scelgono solo gli autovalori maggiori di uno 3. Scree-Test si considerano i fattori i cui autovalori precedono il salto massimo di variabilità spiegata. 2006/2007 8

Decomposizione in valori singolari Sia X una matrice di rango r X = VTU UU = I n, p n,r r,r r,p VV = I dove U e V sono matrici le cui colonne sono ortonormali e T è diagonale con elementi positivi. Cioè di norma unitaria e ortogonali Principio:una matrice rettangolare può essere ricostruita nei suoi valori a partire dalla somma di matrici delle stesse dimensioni ma di rango 1, cioè come prodotto di un vettore colonna (n,1) per un vettore riga (1,p) Modello di rango ridotto Obiettivo dei metodi fattoriali è quello di fornire una descrizione parsimoniosa e grafica della struttura latente (presente ma non osservata) della matrice dei dati. La decomposizione in valori singolari definisce il seguente modello, in forma scalare x = τ v u ij 1 i1 j1 + + τ v u r ir r τ vi = 1 Il modello si dice di rango ridotto se si considerano le prime h dimensioni, con h < r = min(p,n). jr = u j 2006/2007 9

Caso studio: indicatori di performance aziendali Le variabili: ECON.PRO -> economic profit, differenziale tra rendimento del capitale investito ed il suo costo CASH -> cash flow sul fatturato in % LAVOR.VA -> costo del lavoro sul valore aggiunto, in% ROE -> return on equity,, utile netto sul patrimonio, in% INDE.CAP -> indebitamento sul capitale proprio FATTURATO Caso studio: indicatori di performance aziendali Il dataset Data la disomogeneità delle variabili si procede standardizzando le stesse Le 5000 società leader, supplemento a Milano Finanza, 1998; Zani, 2000 2006/2007 10

Matrice dei dati standardizzati MATRICE DES CORRELATIONS ECON CASH LAVO ROE INDE FATT -----+------------------------------------------ ECON 1.00 CASH 0.53 1.00 LAVO -0.27-0.62 1.00 ROE 0.79 0.80-0.51 1.00 INDE -0.57 0.08-0.17-0.20 1.00 FATT -0.09-0.36 0.51-0.24 0.11 1.00 -----+------------------------------------------ ECON CASH LAVO ROE INDE FATT L osservazione della matrice di correlazione è una fase importante: se tutte le variabili fossero non correlate tra di loro non avrebbe senso procedere con un metodo fattoriale, infatti si avrebbero tante componenti quante variabili osservate 2006/2007 11

Autovalori della matrice di correlazione Li ordiniamo in ordine decrescente: Calcoliamo la percentuale di variabilità spiegata da ognuno di essi: 0,600 0,500 Scree plot 0,400 0,300 0,200 0,100 0,000 1 2 3 4 5 6 Analisi dei punti-unità in R p Il vettore c1 delle proiezioni degli n punti-unità sul primo asse fattoriale u1 (di norma unitaria) è dato da: c1=xu1 (prima componente principale) La funzione obiettivo da massimizzare è: L1=(Xu1)2=u 1X Xu1 sotto il vincolo p 2 1 1 u1 j j= 1 u u = = 1 2006/2007 12

secondo asse principale Il secondo asse fattoriale u 2 è un asse ortogonale al primo (u 1 ) e di norma unitaria che massimizza la variabilità dei punti proiettati: c 2 =Xu 2 (seconda componente principale) La funzione obiettivo è: L 2 =u 2 X Xu 2 -λ(u 2 u 2-1)=max sotto i vincoli: p 2 2 2 2 j 1 2 j= 1 u u = u = 1 e u u = 0 Importanza degli autovalori Vale la relazione: tr( X X) p = = 1 λ Lo spazio p-dimensionale definito dagli assi fattoriali ricostruisce esattamente la variabilità della nube dei punti nello spazio originarior p. rappresenta la varianza spiegata dalla -ma componente principale. 2006/2007 13

Coordinate dell i-mo punto-unità Una volta determinato il sottospazio ottimale ad h dimensioni individuato dagli h autovettori {u 1,u 2,,u,,u l } le coordinate dell i-mo puntounità sull -mo asse fattoriale saranno: c ( i) i = x u Autovettori (u) associati agli autovalori ( ) λ 2006/2007 14

Coordinate degli individui sul primo piano fattoriale Matrice dei dati standardizzati (10x6) x Autovettore (6x1) x = = Coordinate (10x1) La rappresentazione grafica: il primo piano fattoriale 2006/2007 15

Analisi dei punti-variabili in R n Obiettivo: max v ) v ( v [ v'xx v] = 1 L equazione agli autovalori è la seguente: µ = -mo autovalore ν XX v = v = 1,,h µ = -mo autovettore Coordinate della j-ma variabile (j=1,,p) c * ( j) = x ν j Dualità tra R n ed R p Si dimostra che λ = µ per ogni =1,,h. Formule di transizione: 1 ν = Xu λ 1 u = Xν λ 2006/2007 16

Coordinate dei punti-variabile Sono pressochè incorrelate Forte correlazione con il primo fattore Presentano correlazione inversa 2006/2007 17

I punti lontano dal centroide e nella direzione di uno dei vettori corrispondenti ad una variabile indicano un valore di questa variabile notevolmente maggiore della media per quella unità Centroide: i punti vicino ad esso sono sintesi di tutte le variabili (i valori delle variabili sono sintesi di tutte le medie) I punti lontano dal centroide e nella direzione di uno degli assi indicano che le relative unità sono fortemente caratterizzate da quella componente Interpretazione della mappa fattoriale Le variabili correlate con il primo asse suggeriscono di interpretare lo stesso come una sintesi di redditività: a destra vi è una redditività alta, a sinistra una redditività bassa Il secondo asse discrimina sull indebitamento: in alto si posizioneranno le aziende ad alto tasso di indebitamento, in basso quelle che sono meno indebitate 2006/2007 18

Diagnostica nella ACP a b a b u Diagnostica nella ACP 2006/2007 19