Analisi lineari: ACP. Loredana Cerbara

Documenti analoghi
Analisi in Componenti Principali (ACP)

Analisi delle corrispondenze

La matrice delle correlazioni è la seguente:

Analisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca

Analisi delle corrispondenze

Il Modello della Analisi Fattoriale Esplorativa e i Metodi di Classificazione Automatica (Analisi di Raggruppamento)

ANALISI MULTIDIMENSIONALE DEI DATI (AMD)

Analisi in Componenti Principali

Statistica multivariata Donata Rodi 21/11/2016

Analisi in componenti principali

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

Esercizi svolti. delle matrici

Differenze tra metodi di estrazione

Analisi delle componenti principali

4 Autovettori e autovalori

Massimi e minimi vincolati

EQUAZIONE DELLA RETTA

Fissiamo nel piano un sistema di riferimento cartesiano ortogonale O, x, y, u.

2 2 2 A = Il Det(A) = 2 quindi la conica è non degenere, di rango 3.

Sistemi di equazioni differenziali

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

Sistemi lineari. Lorenzo Pareschi. Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara

ossia può anche essere localizzato univocamente sul piano complesso con la sua forma polare.

Esercizi per Geometria II Geometria euclidea e proiettiva

Analisi Matematica 1 e Matematica 1 Geometria Analitica: Rette

ESAME DI MATEMATICA I parte Vicenza, 05/06/2017. x log 2 x?

FONDAMENTI DI ALGEBRA LINEARE E GEOMETRIA

Per le risposte utilizza gli spazi predisposti. Quando richiesto, il procedimento va esposto brevemente, ma in maniera comprensibile.

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Sottospazi vettoriali. Nota Bene: Questo materiale non deve essere considerato come sostituto delle lezioni.

ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM)

Risoluzione di sistemi lineari

Esercitazione di Analisi Matematica II

Prodotto scalare e ortogonalità

x1 + 2x 2 + 3x 3 = 0 nelle tre incognite x 1, x 2, x 3. Possiamo risolvere l equazione ricavando l incognita x 1 x 1 = 2x 2 3x 3 2r 1 3r 2 x 2 x 3

Matematica per Analisi dei Dati,

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Luigi Piroddi

LEZIONE 2. ( ) a 1 x 1 + a 2 x a n x n = b, ove a j, b R sono fissati.

A m n B n p = P m p. 0 1 a b c d. a b. 0 a 0 c Il risultato e lo stesso solo nel caso in cui c = 0 e a = d.

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Esercizi di MATEMATICA PER RCHITETTURA prima parte: Algebra Lineare e Geometria

Unità Didattica N 9 : La parabola

5 Un applicazione: le matrici di rotazione

Rappresentare Grafici

Elementi di Algebra Lineare Matrici e Sistemi di Equazioni Lineari

Si consideri il sistema a coefficienti reali di m equazioni lineari in n incognite

Massimi e minimi relativi in R n

Analisi della correlazione canonica

1 Riduzione per righe e matrici equivalenti per righe.

misura. Adesso, ad un arbitrario punto P dello spazio associamo una terna di numeri reali x

UNITÀ DIDATTICA 5 LA RETTA

Esercizi sulle coniche (prof.ssa C. Carrara)

Polinomio di Taylor del secondo ordine per funzioni di due variabili

La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.

Esercizi sulle coniche (prof.ssa C. Carrara)

ESERCIZI SULLE MATRICI

Y = ax 2 + bx + c LA PARABOLA

Teoria e tecniche dei test. Concetti di base

SISTEMI LINEARI. x y + 2t = 0 2x + y + z t = 0 x z t = 0 ; S 3 : ; S 5x 2y z = 1 4x 7y = 3

Geometria e Topologia I (U1-4) 2006-mag-10 61

Misure di diversità tra unità statistiche. Loredana Cerbara

Sistemi di equazioni lineari

REGRESSIONE E CORRELAZIONE

La lunghezza dei vettori e legata alle operazioni sui vettori nel modo seguente: Consideriamo due vettori v, w e il vettore v + w loro somma.

Def. 1. Si chiamano operazioni elementari sulle righe di A le tre seguenti operazioni:

Geometria analitica di base. Equazioni di primo grado nel piano cartesiano Funzioni quadratiche Funzioni a tratti Funzioni di proporzionalità inversa

CLASSIFICAZIONE DELLE CONICHE AFFINI

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

15 luglio Soluzione esame di geometria - Ing. gestionale - a.a COGNOME... NOME... N. MATRICOLA... ISTRUZIONI

3. Vettori, Spazi Vettoriali e Matrici

Spazi vettoriali euclidei.

MATEMATICA PRIMO COMPITINO SOLUZIONE DI ALCUNI ESERCIZI PRIMA PARTE. Esercizio 1. (Testo B) Determina, motivando la risposta, se la funzione f : R R

Geometria analitica: rette e piani

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

Algebra Lineare Autovalori

Focus Return On Equity

SISTEMI LINEARI: APPROFONDIMENTI ED ESEMPI

Lezione 6 Richiami di Geometria Analitica

Risposta in vibrazioni libere di un sistema lineare viscoso a più gradi di libertà. Prof. Adolfo Santini - Dinamica delle Strutture 1

Programmazione Lineare Intera: Piani di Taglio

TECNICHE DI POSIZIONAMENTO

Minimi quadrati vincolati e test F

Metodi statistici per le ricerche di mercato

Equazioni del 2. ordine omogenee a coeff. costanti

ESERCITAZIONE SUI PUNTI STAZIONARI DI FUNZIONI LIBERE E SULLE FUNZIONI OMOGENEE

10 dicembre Soluzione esame di geometria - Ingegneria gestionale - a.a COGNOME... NOME... N. MATRICOLA...

Appunti sui Codici di Reed Muller. Giovanni Barbarino

LE EQUAZIONI DIFFERENZIALI DEL PRIMO ORDINE

3x 2 = 6. 3x 2 x 3 = 6

LEZIONE 12. v = α 1 v α n v n =

I. Foglio di esercizi su vettori linearmente dipendenti e linearmente indipendenti. , v 2 = α v 1 + β v 2 + γ v 3. α v 1 + β v 2 + γ v 3 = 0. + γ.

GAAL: Capitolo dei prodotti scalari

(P x) (P y) = x P t (P y) = x (P t P )y = x y.

Autovalori e autovettori, matrici simmetriche e forme quadratiche (cenni) (prof. M. Salvetti)

SISTEMI LINEARI, METODO DI GAUSS

(x B x A, y B y A ) = (4, 2) ha modulo

Equazioni differenziali

ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante.

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Transcript:

Loredana Cerbara

Analisi fattoriali L analisi fattoriale appartiene a una famiglia di metodi che utilizza le cosiddette variabili latenti. Spesso, in particolar modo nelle scienze sociali, non si è in grado di misurare le grandezze di interesse. Esempi di tali concetti sono l intelligenza, l orientamento politico, lo stato socioeconomico. Sebbene nelle scienze sociali si trattino tali grandezze al pari di qualunque altra variabile, queste si differenziano perché non possono essere osservate ed è per questo motivo che sono dette latenti. In alcuni casi, un concetto può essere rappresentato da un unica variabile latente, ma spesso essi sono di natura multidimensionale e per questo motivo possono coinvolgere più di una variabile latente. Queste variabili latenti sono anche chiamate fattori.

Analisi fattoriali Nella pratica, può accadere che i metodi di analisi fattoriali non siano adatti ad alcuni insiemi di dati e, in ogni caso, è il ricercatore stesso a decidere se un analisi fattoriale risulta interessante o no. Quindi, l analisi fattoriale presenta alcuni aspetti soggettivi per cui tra gli statistici ci sono opinioni contrastanti sulla sua validità. Talvolta, si individua un numero ridotto di fattori e tali fattori sono di facile interpretazione. Per altri dati, invece, non sono chiari né il numero dei fattori, né la loro interpretazione. Quindi normalmente, come peraltro accade anche per altri metodi di analisi, si procede per tentativi successivi, cercando il sottoinsieme dei dati migliore possibile (eliminando perciò unità o variabili di distrubo) fino ad ottenere una situazione chiara e comprensibile. Altrimenti si opta per un altro tipo di analisi dei dati.

Analisi fattoriali Nelle scienze sociali esistono alcune situazioni caratteristiche particolarmente adatte a questo tipo di analisi. L intelligenza. Essa è concepita come un importante caratteristica dell'individuo posseduta in una certa misura, grande o piccola che sia. Tuttavia non si tratta di qualche cosa simile al peso o all età per i quali ci sono già degli strumenti di misura. Si presume che i valori ottenuti ad una serie di test siano correlati con una variabile latente che può essere individuata con un analsi fattoriale. L orientamento politico. Descriviamo gli individui come tendenzialmente di destra o di sinistra, oppure più a destra/sinistra di altri. Implicitamente, in questo linguaggio c è l idea che esista una scala lungo la quale gli individui possano essere posizionati andando dall estrema sinistra all estrema destra. Questa è una scala latente e se si desidera costruire una simile scala saranno necessari opportuni indicatori che possono essere determinati, per esempio, da un indagine in cui viene chiesto quali sono gli atteggiamenti riguardo ad alcune questioni politiche quali la sanità privata, l educazione privata e i sindacati.

Analisi fattoriali Lo stato socio-economico. Ad esempio per una famiglia, è possibile raccogliere informazioni riguardo a reddito, occupazione e livello di istruzione dei membri della famiglia, tutti correlati con uno status sociale che però è latente. Atteggiamento verso fenomeni sociali e demografici. Si può fare una batteria di domande, ad esempio di opinione o di comportamento riguardo alcune situazioni reali allo scopo di rilevare la misura di atteggiamenti non direttamente misurabili. In ciascuno di questi esempi si può partire da un idea della variabile latente di interesse per identificare alcune variabili manifeste che, si crede, rivelino qualche cosa riguardo la sottostante variabile latente. Talvolta si procede nella direzione opposta: si parte da un set di dati ampio e si cerca di ridurlo ad un numero più piccolo di dimensioni senza perdere informazioni essenziali. Quindi l idea di cosa rappresenti la variabile latente si forma a posteriori, dopo l applicazione dell analisi fattoriale. Questo secondo approccio è tipico dell ACP.

Le analisi lineari dei dati, a differenza della cluster analysis, si basano su una combinazione lineare delle variabili originarie per ottenere delle nuove variabili, sintesi delle prime, che consentono una specifica interpretazione dei dati. Si ottengono q variabili a partire dalle k variabili di partenza, dove q<k, perdendo meno informazione possibile. Accade spesso, soprattutto nella ricerca sociale, che vengano rilevate molte variabili e si senta la necessità di sintetizzarle in qualche modo. Quello che ottiene è un insieme di variabili fittizie, non rilevate direttamente, che però possono essere interpretate attraverso i risultati dell applicazione delle analisi lineari. Il metodo dell Analisi in Componenti Principali (ACP) è una di queste analisi lineari ed è stato proposto per primo da Pearson (1901) e affinato da Hotelling (1933)

In termini pratici, si applica ai dati un algoritmo di ACP (presente sui più comuni software per analisi statistiche) e si generano nuove variabili dette fattori. L algoritmo produce anche una matrice di pesi fattoriali rispetto alle variabili originarie. Tali pesi aiutano ad interpretare i fattori ottenuti in modo da comprenderne il significato. Inoltre viene prodotta una matrice di coefficienti di correlazione tra i piani principali e i fattori. Alcuni software, ad esempio SPSS, forniscono anche le comunalità rappresentano la quota di varianza di ciascuna variabile spiegata dalle prime k componenti fattoriali (fattori) e che si ricavano come somma dei quadrati per riga delle correlazioni tra variabili e fattori.

L ACP può basarsi sulla matrice delle varianze e covarianze oppure su quella di correlazione. I risultati saranno diversi a meno che non si parta da variabili standardizzate. Però la standardizzazione è raccomandata soprattutto quando si hanno variabili espresse in unità di misura diverse. Quando invece le variabili sono omogenee ed espresse nella stessa unità di misura è conveniente partire dalla matrice di varianze e covarianze anche senza standardizzare i dati. Nelle applicazioni pratiche della ricerca sociale l ACP, come anche altri metodi analoghi di analisi fattoriale, il risultato dell analisi produce la proiezione su piani fattoriali determinati dai fattori sia delle variabili che hanno effettivamente partecipato alla determinazione dei fattori stessi, sia di altre variabili che non sono state considerate ma che erano presenti nella matrice dei dati iniziale. Queste variabili, quasi sempre di tipo anagrafico e strutturale, si dicono supplementari.

Le variabili dunque si distinguono in variabili attive, che cioè sono utilizzate per la determinazione dei fattori, e supplementari, o anche dette illustrative, che pur essendo presenti nella matrice dei dati sono proiettate sui piani fattoriali solo in un secondo momento. Questo fatto ha due motivazioni: permette di ridurre il numero di variabili effettivamente utilizzate aiutando la determinazione di fattori dalla struttura più forte ed omogenea; consente di sfruttare le informazioni meno determinanti per il fenomeno oggetto di studio per specificare meglio il significato dei fattori individuati. Oltre a ciò questa distinzione delle variabili in due tipologie, consente di comprendere tra le illustrative anche variabili qualitative, escluse dall ACP, ma proiettabili a posteriori sui piani fattoriali.

Le componenti principali Y i sono una combinazione lineare delle k variabili (X1, X2,, Xk) con coefficienti uguali alle componenti del vettore caratteristico associate agli autovalori della matrice di varianze e covarianze. Tutti i fattori individuati sono ortogonali tra loro. Questo vuol dire che i vettori di componenti così determinati possono essere rappresentati, presi a due a due, su con un piano cartesiano in cui i due assi sono due dei fattori e sul piano sono proiettati come punti in uno spazio bidimensionale le variabili originarie. I fattori principali si individuano sotto il vincolo che la varianza da essi rappresentata (cioè l informazione originaria che essi riescono a riassumere) sia massima, cosicché otteniamo una successione di fattori che rappresentano via via, dal primo fattore al k-mo, una quantità di varianza originaria sempre inferiore. Si dice che i fattori spiegano una certa quantità di varianza, ossia di informazione originaria.

AUTOVALORI E AUTOVETTORI Data la matrice quadrata A di ordine n il prodotto Ax=λ individua un numero detto autovalore e un vettore x, detto autovettore. La relazione precedente si può scrivere anche come (A-λI)x=0 che è verificata se e solo se il determinante della matrice del sistema è nullo e cioè se e solo se (A-λI)=0 che è detta equazione caratteristica. Essa è un equazione di grado n nell incognita λ e gli autovalori sono le n soluzioni di questa equazione. 2 2 3 Esempio. Data la matrice A = 1 1 1 l equazione caratteristica è A λi = 1 3 1 Si calcola il determinante che è λ 3 + 2λ 2 + 5λ 6=-(λ-1)(λ+2)(λ-3)=0 Gli autovalori sono le soluzioni di questa equazione cioè λ 1 = 1, λ 2 = 2, λ 3 = 3 2 λ 2 3 1 1 λ 1 1 3 1 λ

Il numero di autovalori è pari al numero di variabili originarie, cosicché l ACP può fornire una completa trasformazione della matrice originaria in un insieme di variabili tutte ortogonali tra loro derivanti dalla combinazione lineare delle variabili di partenza. Ovviamente ciò ha poco senso, ma tutto assume una validità se si pensa di considerare solo una parte dei fattori generati da questo algoritmo. In generale si considerano solo i fattori i cui autovalori sono maggiori di 1 Inoltre si considera un numero di fattori tali che la variabilità spiegata non sia troppo bassa Infine si osserva il grafico degli autovalori e si tengono tutti quelli che si trovano prima che la curva si stabilizzi intorno al valore più basso.

Il momento più delicato è quello dell interpretazione dei fattori. Infatti, dopo l applicazione dell algoritmo ai dati è essenziale comprendere cosa rappresenti ogni fattore individuato. Per fare ciò ci si basa su diversi dati: si considera la correlazione tra ciascun fattore e le variabili di partenza si proiettano sui piani fattoriali anche altre variabili, non inserite nell analisi, ma utili per descrivere i fattori e che sono dette variabili supplementari per distinguerle da quelle attive che formano i fattori Notiamo che la riduzione delle variabili non ha senso se le variabili rappresentano la stessa informazione. Per questo spesso si analizza prima di tutto la matrice delle correlazioni per vedere se ci sono variabili fortemente correlate che rappresentano la stessa informazione per cui sarebbe più corretto mantenerne solo una. D altra parte anche l assenza di correlazione rende inutile l ACP

Consideriamo un caso di studio. Supponiamo di avere la seguente rilevazione di performance aziendale su 10 famose aziende ECON.PRO -> economic profit, differenziale tra rendimento del0 capitale investito ed il suo costo CASH -> cash flow sul fatturato in % LAVOR.VA -> costo del lavoro sul valore aggiunto, in% ROE -> return on equity, utile netto sul patrimonio, in% INDE.CAP -> indebitamento sul capitale proprio FATTURATO

Dal momento che i dati sono espressi in unità di misura molto diverse, passiamo alla matrice dei dati standardizzata Anche l'osservazione della matrice di correlazione è una fase importante: se tutte le variabili fossero non correlate tra di loro non avrebbe senso procedere con un metodo fattoriale, infatti si avrebbero tante componenti quante variabili osservate. Se invece alcune sono molto correlate se ne deve prendere una sola. Dalla tabella si evince come il ROE sia correlato positivamente col Cash Flow e la variabile economic profit, tuttavia le consideriamo nell analisi

Si calcolano autovalori, autovettori e si analizzala percentuale di varianza spiegata dagli autovalori attraverso un istogramma. Gli autovalori maggiori di 1 in questo caso spiegano il 74,9% della varianza originaria

Per comprendere il ruolo giocato da ogni variabile nella costruzione dei fattori, e quindi per avere materiale su cui riflettere per comprendere il significato degli assi, si può analizzare la comunalità, che ci dice quanto ciascuna variabile è correlata con l asse. Si può notare che le variabili maggiormente correlate tra loro sono quelle che determinano il primo asse. Tale asse è il più importante perché è quello che riassume la massima variabilità. E la quantità di variabilità spiegata è influenzabile dalla correlazione tra le variabili orignarie. Le variabili correlate con il primo asse suggeriscono di interpretare lo stesso come una sintesi di redditività: a destra vi è una redditività alta, a sinistra una redditività bassa. Il secondo asse discrimina sull indebitamento: in alto si posizioneranno le aziende ad alto tasso di indebitamento, in basso quelle che sono meno indebitate

Sul piano cartesiano i primi due fattori rappresentano gli assi mentre le variabili sono proiettate sul piano. Esse si trovano più vicine ai fattori a seconda di quanto hanno contribuito a determinarli. Analisi lineari: ACP

L interpretazione: Alcune di esse si posizionano in zone diametralmente opposte: in basso a destra c è la Ferrero che risulta essere l azienda più sana, poiché ha un indebitamento negativo, quindi fa fronte agli impegni finanziari col capitale proprio, e una discreta redditività nel quadrante in alto a destra, si distingue la Plasmon che se pur fortemente indebitata ha un altissima redditività. nel quadrante in basso a sinistra sono presenti quelle aziende che operano in mercati saturi in cui sono leader; inoltre, trovandosi vicino all origine degli assi fattoriali, mostrano di aver sotto controllo la situazione finanziaria, ed avendo un indebitamento negativo hanno a disposizione riserve di capitali pronte per essere utilizzate per far fronte alle esigenze del mercato o per intraprendere azioni di penetrazioni in business ad alta redditività

Infine, in alto a sinistra, troviamo la Parmalat: questa mostra di avere la situazione peggiore. Ha un forte indebitamento e una redditività negativa, quindi, tale impresa deve necessariamente ripensare al suo sistema di business per evitare il rischio di insolvenza Il caso del crac finanziario della Parmalat, poteva essere evitato o ridimensionato se ci fosse stata una seria condotta da parte degli analisti finanziari. Infatti, è bastata una semplice ACP per comprendere il disastro economico e finanziario verso cui la Parmalat si stava avviando.