Analisi in Componenti Principali

Похожие документы
La matrice delle correlazioni è la seguente:

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Statistica. Alfonso Iodice D Enza

Analisi in componenti principali

Tema d esame del 15/02/12

REGRESSIONE E CORRELAZIONE

Statistica. Alfonso Iodice D Enza

Corso di Psicometria Progredito

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

Università degli Studi di Padova Facoltà di Scienze Politiche

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

ANALISI DEI DATI PER IL MARKETING 2014

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

SCOPO DELL ANALISI DI CORRELAZIONE

Esercitazione di Statistica Indici di associazione

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl

Capitolo 3 Sintesi e descrizione dei dati quantitativi

Analisi della correlazione canonica

Capitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 4

Esercitazione del

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

Facoltà di Scienze Politiche Corso di laurea in Servizio sociale. Compito di Statistica del 7/1/2003

I principali tipi di grafici

Elementi di Psicometria

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

Teoria e tecniche dei test. Concetti di base

ANOVA: ANALISI DELLA VARIANZA Prof. Antonio Lanzotti

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

Statistica. Alfonso Iodice D Enza

Rischi di mercato. Francesco Menoncin

ESERCIZI DI RIEPILOGO 1

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Fonte: Esempio a fini didattici

ANALISI DEI DATI PER IL MARKETING 2014

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Analisi delle Componenti Principali

Tecniche statistiche di analisi del cambiamento

DISTRIBUZIONE NORMALE STANDARDIZZATA ESEMPIO DI USO DELLE TAVOLE

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Analisi della varianza

MATEMATICA E STATISTICA CORSO B PROF. MARCO ABATE. 23 novembre 2006

Esercizio 1 Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche:

Test per la correlazione lineare

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Corso di laurea in Statistica Statistica I Esercizi sulla regressione lineare semplice

Capitolo 2 Le misure delle grandezze fisiche

Generazione di Numeri Casuali- Parte 2

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Il test (o i test) del Chi-quadrato ( 2 )

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Covarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2

La retta di regressione

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo

Il modello lineare misto

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Analisi della Varianza - II

Associazione tra caratteri quantitativi: gli indici di correlazione

Esercitazioni di statistica

Esame di Statistica Seconda Prova Parziale Cognome Nome Matricola

Metodi di regressione multivariata

Alias I nomi degli effetti (di interazione o principali) dei contrasti confusi

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

Misure Ripetute. Analisi dei dati in disegni di ricerca con misure ripetute. Marcello Gallucci

Analisi della varianza a una via

ITCS Erasmo da Rotterdam. Anno Scolastico 2014/2015. CLASSE 4^ M Costruzioni, ambiente e territorio

Analisi della Varianza - III

Statistica descrittiva: misure di associazione

Genetica dei caratteri quantitativi

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

Alcune domande. Da che dipende la disoccupazione? Da che dipende l inflazione?

DISTRIBUZIONE CAMPIONARIA CONGIUNTA

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Elementi di Statistica

percorso 4 Estensione on line lezione 2 I fattori della produzione e le forme di mercato La produttività La produzione

STATISTICA 1 ESERCITAZIONE 2

ECONOMIA APPLICATA ALL INGEGNERIA (Docente: Prof. Ing. Donato Morea) Microeconomia Esercitazione n. 1 - I FONDAMENTI DI DOMANDA E DI OFFERTA

Argomenti trattati. Capitolo 7. Introduzione a rischio, rendimento e costo opportunità del capitale. Il mercato dei capitali: un secolo di storia

Gli indici di variabilità

Esercizi di Probabilità

TECNICHE DI POSIZIONAMENTO

LA DISTRIBUZIONE NORMALE (Vittorio Colagrande)

Lezioni di Ricerca Operativa 2 Dott. F. Carrabs

Programmazione disciplinare per competenze (Rif.to ALLEGATI del DPR 15 marzo 2010 n. 89)

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

Транскрипт:

Analisi in Componenti Principali 1/20 Analisi in Componenti Principali tecnica di riduzione e interpretazione dei dati spesso gioca un ruolo ausiliario rispetto ad altre tecniche (es. analisi fattoriale, cluster analysis) adatta per variabili quantitative Analisi in Componenti Principali 2/20 Stock-price data (Johnson & Wichern, 2002, Chapter 8) Week Allied Chemical Du Pont Union Carbide Exxon Texaco 1 0.000000 0.000000 0.000000 0.039473 0.000000 2 0.027027 0.044855 0.003030 0.014466 0.043478 3 0.122807 0.060773 0.088146 0.086238 0.078124 4 0.057031 0.029948 0.066808 0.013513 0.019512 5 0.063670 0.003793 0.039788 0.018644 0.024154 6 0.003521 0.050761 0.082873 0.074265 0.049504 7 0.045614 0.033007 0.002551 0.009646 0.028301 8 0.058823 0.041719 0.081425 0.014610 0.014563.................. 93 0.039457 0.029297 0.065844 0.015837 0.045758 94 0.039568 0.024145 0.006608 0.028423 0.009661 95 0.031142 0.007941 0.011080 0.007537 0.014634 96 0.000000 0.020080 0.006579 0.029925 0.004807 97 0.021429 0.049180 0.006622 0.002421 0.028985 98 0.045454 0.046375 0.074561 0.014563 0.018779 99 0.050167 0.036380 0.004082 0.011961 0.009216 100 0.019108 0.033303 0.008362 0.033898 0.004566 Weekly rates of return for five stocks on the New York Stock Exchange

Analisi in Componenti Principali 3/20 Prospetto dei diagrammi di dispersione!0.05 0.05!0.04 0.04 Allied Chemical!0.10 0.10!0.05 0.10 Du Pont Union Carbide!0.05 0.10!0.04 0.08 Exxon Texaco!0.04 0.06!0.10 0.05!0.05 0.05!0.04 0.04 Analisi in Componenti Principali 4/20 Matrice delle correlazioni Allied Chemical Du Pont Union Carbide Exxon Texaco Allied.Chemical 1.000 0.577 0.509 0.387 0.462 Du.Pont 0.577 1.000 0.598 0.390 0.322 Union.Carbide 0.509 0.598 1.000 0.436 0.426 Exxon 0.387 0.390 0.436 1.000 0.524 Texaco 0.462 0.322 0.426 0.524 1.000 Vettori delle medie e delle deviazioni standard Mean Standard Deviation Allied Chemical 0.005434 0.040 Du Pont 0.004827 0.035 Union Carbide 0.005654 0.039 Exxon 0.006291 0.028 Texaco 0.003709 0.028

Analisi in Componenti Principali 5/20 La prima componente principale È una combinazione lineare delle variabili osservate P C1 = w AC 1 AC + w DP 1 DP + w UC 1 UC + w E 1 E + w T 1 T ottenuta scegliendo il vettore dei pesi w 1 in modo da massimizzare la deviazione standard di PC1 sotto il vincolo (w AC 1 ) 2 + (w DP 1 ) 2 + (w UC 1 ) 2 + (w E 1 ) 2 + (w T 1 ) 2 = 1 cosicché si trova P C1 = 0.56 AC + 0.47 DP + 0.55 UC + 0.29 E + 0.28 T con deviazione standard di PC1 pari a 0.060 Analisi in Componenti Principali 6/20 La seconda componente principale È una combinazione lineare delle variabili osservate P C2 = w AC 2 AC + w DP 2 DP + w UC 2 UC + w E 2 E + w T 2 T ottenuta scegliendo il vettore dei pesi w 2 in modo da massimizzare la deviazione standard di PC2 sotto il vincolo che PC2 non sia correlata con PC1 e inoltre (w AC 2 ) 2 + (w DP 2 ) 2 + (w UC 2 ) 2 + (w E 2 ) 2 + (w T 2 ) 2 = 1 cosicché si trova P C2 = 0.74 AC 0.09 DP 0.65 UC 0.11 E + 0.07 T con deviazione standard di PC2 pari a 0.028

Analisi in Componenti Principali 7/20 Le ulteriori componenti principali Vi sono in tutto tante componenti principali quante sono le variabili osservate e ognuna si ottiene come combinazione lineare a varianza massima sotto il vincolo di non correlazione con tutte le precedenti cosicché si trovano P C3 = 0.13 AC 0.47 DP 0.11 UC + 0.61 E + 0.62 T P C4 = +0.28 AC 0.69 DP + 0.50 UC 0.44 E + 0.06 T P C5 = 0.21 AC + 0.28 DP 0.10 UC 0.58 E + 0.72 T con deviazioni standard di PC3, PC4 e PC5 rispettivamente pari a 0.027, 0.023 e 0.019 Analisi in Componenti Principali 8/20 Proprietà delle componenti principali In definitiva si sono rimpiazzate le variabili osservate AC, DP, UC, E e T con le componenti principali PC1, PC2, PC3, PC4 e PC5...... con quali vantaggi? Intanto osserviamo che per costruzione le componenti principali sono fra loro non correlate (ortogonali) sono ordinate in ordine decrescente di varianza inoltre si può mostrare che la varianza totale (somma delle varianze) si conserva nel passaggio dalle variabili osservate alle componenti principali

Analisi in Componenti Principali 9/20 Vantaggi delle componenti principali Alla luce delle loro proprietà possiamo dire che le componenti principali forniscono una spiegazione alternativa della variabilità osservata con il pregio di descrivere il fenomeno oggetto di studio mediante dimensioni fra loro non correlate e ordinate in termini della loro importanza nella spiegazione Questo permette (con maggiore o minore successo nei vari casi) di ridurre il numero di variabili da considerare, scartando le ultime componenti principali (laddove si ritenga trascurabile il loro contributo alla spiegazione della variabilità osservata) interpretare il fenomeno oggetto di studio, mediante un opportuna interpretazione delle componenti principali che non sono state scartate Analisi in Componenti Principali 10/20 Quante componenti principali tenere? Non vi è una risposta definitiva a questa domanda; occorre valutare caso per caso la percentuale di varianza totale spiegata da ogni componente principale, anche in relazione a quella spiegata dalle altre la conoscenza specifica del fenomeno oggetto di studio l uso che delle componenti principali si vuole fare (per esempio, se si vogliono rappresentare graficamente i dati, è giocoforza accontentarsi delle prime due o tre componenti) In ogni caso ci si può aiutare con il cosiddetto scree plot, che letteralmente è il diagramma della falda detritica...

Analisi in Componenti Principali 11/20 Alla ricerca del gomito Scree Plot Variances 0.000 0.002 0.004 1 2 3 4 5 Analisi in Componenti Principali 12/20 Varianza spiegata Standard Deviation Variance Percentage PC1 0.060 0.003595 60.2% PC2 0.028 0.000792 13.3% PC3 0.027 0.000736 12.3% PC4 0.023 0.000509 8.5% PC5 0.019 0.000344 5.8% TOTAL 0.005976 100% La prima componente principale spiega da sola la maggior parte della varianza totale; i contributi delle altre componenti principali sono nettamente inferiori, come mostra il gomito dello scree plot

Analisi in Componenti Principali 13/20 Interpretazione Ricordando che la prima componente principale si scrive P C1 = 0.56 AC + 0.47 DP + 0.55 UC + 0.29 E + 0.28 T si vede che essa risulta dal contributo positivo di tutte le variabili osservate e pertanto PC1 può interpretarsi come una componente generale del mercato azionario di riferimento Nella misura in cui si accetta di descrivere i cinque titoli AC, DP, UC, E e T mediante la sola PC1 si può dire che il loro andamento è essenzialmente quello del mercato e che pertanto questi titoli da soli non consentono una strategia di differenziazione Ma facciamo un passo indietro... Analisi in Componenti Principali 14/20 Cosa accade se...... prima di costruire le componenti principali si centrano le variabili? Si ottengono le stesse componenti principali, solo centrate (questo perché non cambia la matrice delle covarianze)... prima di costruire le componenti principali si standardizzano le variabili? Si ottengono altre componenti principali (perché la matrice delle covarianze è rimpiazzata da quella delle correlazioni)

Analisi in Componenti Principali 15/20 ACP sulle variabili standardizzate PC1 PC2 PC3 PC4 PC5 Allied Chemical 0.46 0.24 0.61 0.38 0.45 Du Pont 0.46 0.51 0.18 0.21 0.67 Union Carbide 0.47 0.26 0.34 0.66 0.40 Exxon 0.42 0.53 0.54 0.47 0.18 Texaco 0.42 0.58 0.43 0.38 0.39 VARIANCE 2.86 0.81 0.54 0.45 0.34 PERCENTAGE 57% 16% 11% 9% 7% La varianza totale delle variabili standardizzate è pari al numero delle variabili stesse (5) e inoltre il valore 1 si offre come valore di riferimento naturale per le varianze delle componenti principali Analisi in Componenti Principali 16/20 Un altro gomito? Scree Plot Variances 0.0 1.0 2.0 3.0 1 2 3 4 5

Analisi in Componenti Principali 17/20 Qualcosa è cambiato... La varianza spiegata da PC1 è diminuita; in compenso P C1 = 0.46 AC + 0.46 DP + 0.47 UC + 0.42 E + 0.42 T si interpreta meglio come componente di mercato alla quale tutti i titoli contribuiscono più o meno paritariamente D altra parte la varianza spiegata da PC2 è aumentata e inoltre P C2 = 0.24 AC 0.51 DP 0.26 UC + 0.53 E + 0.58 T si lascia interpretare come componente di settore che contrasta gli ultimi due titoli (petrolifero) con i primi tre (chimico) In definitiva, affiancando PC2 a PC1, si arriva a spiegare il 73% della varianza totale e si introduce un elemento di differenziazione Analisi in Componenti Principali 18/20 C è settimana e settimana Industry Component (PC2)!2!1 0 1 2 3!4!2 0 2 4 Market Component (PC1)

Analisi in Componenti Principali 19/20 Cosa è successo? Senza standardizzazione le variabili con varianza maggiore tendono a fare la parte del leone nello spiegare la varianza totale, cosicché i primi tre titoli si scaricano completamente su PC1 e questo finisce per oscurare il loro ruolo di PC2 Pertanto, in generale, conviene standardizzare le variabili osservate, a meno che non vi siano ragioni particolari per preservare proprio la scala sulla quale sono state rilevate Analisi in Componenti Principali 20/20 Riferimenti R. A. Johnson & D. W. Wichern (2002). Applied Multivariate Statistical Analysis. Prentice-Hall, Upper Saddle River, NJ. L. Fabbris (1997). Statistica Multivariata. McGraw-Hill, Milano. L. Molteni & G. Troilo (2003). Ricerche di Marketing. McGraw-Hill, Milano. http://www-dimat.unipv.it/luca/ mailto://larocca.luca@unimore.it