Analisi in Componenti Principali



Documenti analoghi
Relazioni statistiche: regressione e correlazione

Il concetto di valore medio in generale

Dott.ssa Caterina Gurrieri

GEOMETRIA DELLE MASSE

Lezione del Teoria dei vettori ordinari

Scheda n. 10: PCA - parte seconda

Capitolo 2 Distribuzioni di frequenza

Esempi di funzione. Scheda Tre

GIROSCOPIO. Scopo dell esperienza: Teoria fisica. Verificare la relazione: ω p = bmg/iω

4. Operazioni elementari per righe e colonne

La distribuzione Normale. La distribuzione Normale

Grandezze scalari e vettoriali

La statistica multivariata

LA CORRELAZIONE LINEARE

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

Trasformazioni Geometriche 1 Roberto Petroni, 2011

A.1 Definizione e rappresentazione di un numero complesso

Dimensione di uno Spazio vettoriale

Universita degli Studi di Roma Tor Vergata Facolta di Ingegneria Elettronica

RICHIAMI SULLE MATRICI. Una matrice di m righe e n colonne è rappresentata come

2.1 Definizione di applicazione lineare. Siano V e W due spazi vettoriali su R. Un applicazione

CALCOLO COMBINATORIO

Indice Statistiche Univariate Statistiche Bivariate

INTEGRALI DEFINITI. Tale superficie viene detta trapezoide e la misura della sua area si ottiene utilizzando il calcolo di un integrale definito.

RETI DI TELECOMUNICAZIONE

Diagonalizzazione di matrici e applicazioni lineari

Parte 2. Determinante e matrice inversa

FUNZIONI ELEMENTARI - ESERCIZI SVOLTI

LE FIBRE DI UNA APPLICAZIONE LINEARE

Metodi Matematici e Informatici per la Biologia Maggio 2010

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Statistica. Le rappresentazioni grafiche

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

Analisi della performance temporale della rete

1. PRIME PROPRIETÀ 2

Una sperimentazione. Probabilità. Una previsione. Calcolo delle probabilità. Nonostante ciò, è possibile dire qualcosa.

19 Il campo elettrico - 3. Le linee del campo elettrico

LEZIONI DI ALGEBRA LINEARE PER LE APPLICAZIONI FINANZIARIE

Visione d insieme DOMANDE E RISPOSTE SULL UNITÀ

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Codifiche a lunghezza variabile

1 Appunti a cura di prof.ssa MINA Maria Letizia integrati e pubblicati in data 12/10/10

DALLE CARTE ALLE SEZIONI GEOLOGICHE

Capitolo 10 Z Elasticità della domanda

4. Proiezioni del piano e dello spazio

Lezione 6: Forma di distribuzione Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

1. Distribuzioni campionarie

ESAME DI STATO DI LICEO SCIENTIFICO CORSO SPERIMENTALE P.N.I. 2004

15 febbraio Soluzione esame di geometria - 12 crediti Ingegneria gestionale - a.a COGNOME... NOME... N. MATRICOLA...

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Capitolo 5. Funzioni. Grafici.

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Complementi di Analisi per Informatica *** Capitolo 2. Numeri Complessi. e Circuiti Elettrici. a Corrente Alternata. Sergio Benenti 7 settembre 2013

B. Vogliamo determinare l equazione della retta

2 FUNZIONI REALI DI VARIABILE REALE

Slide Cerbara parte1 5. Le distribuzioni teoriche

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

Capitolo 25: Lo scambio nel mercato delle assicurazioni

SISTEMI DI NUMERAZIONE E CODICI

LEZIONE 23. Esempio Si consideri la matrice (si veda l Esempio ) A =

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

(a cura di Francesca Godioli)

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile

Tutorato di GE110. Universitá degli Studi Roma Tre - Corso di Laurea in Matematica

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

MATEMATICA DEL DISCRETO elementi di teoria dei grafi. anno acc. 2009/2010

Basi di matematica per il corso di micro

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

13. Campi vettoriali

Trasformazioni nello spazio Grafica 3d

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

a) Il campo di esistenza di f(x) è dato da 2x 0, ovvero x 0. Il grafico di f(x) è quello di una iperbole -1 1

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

x 1 + x 2 3x 4 = 0 x1 + x 2 + x 3 = 0 x 1 + x 2 3x 4 = 0.

Prova di autovalutazione Prof. Roberta Siciliano

Lezione 9: Cambio di base

La spirale iperbolica: Fu descritta per la prima volta da Pierre Varignon ( ). L equazione, espressa in coordinate polari, è del tipo:

Studio di funzioni ( )

L analisi dei dati. Capitolo Il foglio elettronico

Trasformazioni 2D. Grande differenza rispetto alla grafica raster!

ELEMENTI DI ALGEBRA LINEARE E GEOMETRIA Corso di Laurea Ingegneria Edile-Architettura

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 1

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Excel Terza parte. Excel 2003

LE FUNZIONI E LE LORO PROPRIETÀ

Usando il pendolo reversibile di Kater

ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI. (Visione 3D)

Epoca k Rata Rk Capitale Ck interessi Ik residuo Dk Ek 0 S 0 1 C1 Ik=i*S Dk=S-C1. n 0 S

1. la probabilità che siano tutte state uccise con pistole; 2. la probabilità che nessuna sia stata uccisa con pistole;

Tecniche di analisi multivariata

E naturale chiedersi alcune cose sulla media campionaria x n

Il coefficiente di correlazione di Spearman per ranghi

CONTINUITÀ E DERIVABILITÀ Esercizi proposti. 1. Determinare lim M(sinx) (M(t) denota la mantissa di t)

0. Piano cartesiano 1

Misure di base su una carta. Calcoli di distanze

PROGRAMMA SVOLTO NELLA SESSIONE N.

Transcript:

Analisi in Componenti Principali ( Esempio sul dataset Cars ) (azzurro = teoria) Introduzione Si effettuano p rilevazioni statistiche su n unità. Ciascuna unità può essere visualizzata con un punto di R p (le cui coordinate sono i risultati delle rilevazioni relative a tale unità). Esempio con tre variabili: 1

Notazioni: siano x 1,..., x p p vettori di dimensione n contenenti i risultati delle rilevazioni (variabili); sia X la matrice (n,p) che ha come colonne i vettori x 1,..., x p ; sia x( i) il vettore di lunghezza p contenente i valori delle p rilevazioni dell'i-esima unità (riga i-esima di X). matrice X x( 1)... x( i)... x( n) x 1 x 2... x p Problema: Come studiare una nube di punti di R p se p>3? Come ridurre la dimensione dello spazio in modo da "perdere" il minor numero di informazioni possibili? ovvero: Come sostituire alle p variabili di partenza un numero q, inferiore a p, di nuove variabili (dette componenti principali CP ) combinazioni lineari delle variabili originali in modo che queste q variabili rappresentino il più "fedelmente" possibile le p variabili iniziali? Traccia : Si centrano i dati nel baricentro e si effettua una rotazione degli assi in modo che la varianza delle proiezioni della nuvola degli n punti sul primo nuovo asse sia massima, che quella sul secondo nuovo asse sia massima una volta fissato il primo asse, e così via. Si trova che una base ortonormale per i nuovi assi che soddisfa le condizioni precedenti è quella formata dagli autovettori associati agli autovalori della matrice delle correlazioni (o covarianze) di X; indicheremo tale base con (u 1,..., x p ). Proiettando i punti di R p sullo spazio generato da (u 1,..., x q ), con q <p, si trova la "miglior" approssimazione della nuvola in uno spazio di dimensione q. 2

Esempio sul dataset cars I dati che esamineremo sono tratti da H.V. Henderson & P.F. Velleman, Building Multiple Regression Models Interactively, Biometrics, 1981, pag. 400. I dati riguardano : modello nazione di fabbricazione consumo (litro/km) peso (in kg) rapporto di trasmissione al ponte potenza (in HP) cilindrata (in cm3) numero cilindri ripresa (sec./1 miglio da fermo) 3

Dati esaminati (file cars.xls): C N C D P I R A O R O L I Z N I T I N P T I S P V E N U R O I O U E E N D M E B P N M S _ Z R _ S S O E O O R A A C A 1 Buick Estate Wagon U.S. 7.19 1.98 2.73 155 5468.75 8 14.9 2 Ford Country Squire Wagon U.S. 6.59 1.84 2.26 142 5484.38 8 14.3 3 Chevy Malibu Wagon U.S. 8.17 1.64 2.56 125 4171.88 8 15.0 4 Chrysler LeBaron Wagon U.S. 7.87 1.79 2.45 150 5625.00 8 13.0 5 Chevette U.S. 12.76 0.98 3.70 68 1531.25 4 16.5 6 Toyota Corona Japan 11.70 1.16 3.05 95 2093.75 4 14.2 7 Datsun 510 Japan 11.57 1.04 3.54 97 1859.38 4 14.7 8 Dodge Omni U.S. 13.14 1.01 3.37 75 1640.63 4 14.5 9 Audi 5000 Germany 8.63 1.28 3.90 103 2046.88 5 15.9 10 Volvo 240 GL Sweden 7.23 1.42 3.50 125 2546.88 6 13.6 11 Saab 99 GLE Sweden 9.19 1.27 3.77 115 1890.63 4 15.7 12 Peugeot 694 SL France 6.89 1.55 3.58 133 2546.88 6 15.8 13 Buick Century Special U.S. 8.76 1.53 2.73 105 3609.38 6 15.8 14 Mercury Zephyr U.S. 8.85 1.39 3.08 85 3125.00 6 16.7 15 Dodge Aspen U.S. 7.91 1.64 2.71 110 3515.63 6 18.7 16 AMC Concord D/L U.S. 7.70 1.55 2.73 120 4031.25 6 15.1 17 Chevy Caprice Classic U.S. 7.23 1.74 2.41 130 4765.63 8 15.4 18 Ford LTD U.S. 7.49 1.69 2.26 129 4718.75 8 13.4 19 Mercury Grand Marquis U.S. 7.02 1.79 2.26 138 5484.38 8 13.2 20 Dodge St Regis U.S. 7.74 1.74 2.45 135 4968.75 8 15.2 21 Ford Mustang 4 U.S. 11.27 1.17 3.08 88 2187.50 4 14.4 22 Ford Mustang Ghia U.S. 9.31 1.32 3.08 109 2671.88 6 16.6 23 Mazda GLC Japan 14.50 0.90 3.73 65 1343.75 4 15.2 24 Dodge Colt Japan 14.93 0.87 2.97 80 1531.25 4 14.4 25 AMC Spirit U.S. 11.65 1.21 3.08 80 1890.63 4 15.0 26 VW Scirocco Germany 13.40 0.90 3.78 71 1390.63 4 14.9 27 Honda Accord LX Japan 12.55 0.97 3.05 68 1531.25 4 16.6 28 Buick Skylark U.S. 12.08 1.21 2.53 90 2359.38 4 16.0 29 Chevy Citation U.S. 12.25 1.18 2.69 115 2703.13 6 11.3 30 Olds Omega U.S. 11.40 1.22 2.84 115 2703.13 6 12.9 31 Pontiac Phoenix U.S. 14.25 1.16 2.69 90 2359.38 4 13.2 32 Plymouth Horizon U.S. 14.55 1.00 3.37 70 1640.63 4 13.2 33 Datsun 210 Japan 13.53 0.92 3.70 65 1328.13 4 19.2 34 Fiat Strada Italy 15.86 0.97 3.10 69 1421.88 4 14.7 35 VW Dasher Germany 12.97 0.99 3.70 78 1515.63 4 14.1 36 Datsun 810 Japan 9.36 1.28 3.70 97 2281.25 6 14.5 37 BMW 320i Germany 9.14 1.18 3.64 110 1890.63 4 12.8 38 VW Rabbit Germany 13.57 0.87 3.78 71 1390.63 4 14.0 4

Statistiche elementari: Libellé Effectif Poids Moyenne Ecart-type Minimum Maximum consumo 38 38.00 0.10 0.03 0.06 0.15 peso 38 38.00 1.30 0.32 0.87 1.98 rapportot 38 38.00 3.09 0.51 2.26 3.90 potenza 38 38.00 101.74 26.09 65.00 155.00 cilindrata 38 38.00 2 770.15 1 370.30 1 328.13 5 625.00 ncilindri 38 38.00 5.39 1.58 4.00 8.00 ripresa 38 38.00 14.86 1.54 11.30 19.20 nazione Effectif % / Total % / Expr. U.S. 22 57.89 57.89 Japan 7 18.42 18.42 Germany 5 13.16 13.16 Sweden 2 5.26 5.26 France 1 2.63 2.63 Italy 1 2.63 2.63 Total 38 100.00 100.00 É possibile notare che la maggior parte delle auto analizzate viene fabbricata negli Stati Uniti. Analisi bivariata: 5

Dal grafico sono evidenti le correlazioni tra consumo, peso, potenza, cilindrata e il numero cilindri. La variabile ripresa risulta essere meno correlata con le altre. Matrice di correlazione: Matrice des corrélations consumo peso rapporto potenza cilindrat ncilindri ripresa t a consumo 1.00 peso 0.93 1.00 rapportot -0.46-0.69 1.00 potenza 0.89 0.92-0.59 1.00 cilindrata 0.82 0.95-0.80 0.87 1.00 ncilindri 0.84 0.92-0.69 0.86 0.94 1.00 ripresa 0.03-0.03 0.19-0.25-0.14-0.13 1.00 Matrice des valeurs-tests consumo peso rapporto potenza cilindrat ncilindri ripresa t a consumo 99.99 peso 10.03 99.99 rapportot -3.03-5.20 99.99 potenza 8.70 9.69-4.17 99.99 cilindrata 7.18 11.35-6.74 8.26 99.99 ncilindri 7.55 9.68-5.25 8.06 10.73 99.99 ripresa 0.20-0.20 1.21-1.59-0.89-0.80 99.99 Utilizzando la matrice dei valori Test si osserva che la variabile ripresa é meno correlata con le altre variabili. Cambiamento di coordinate Traslazione dell'origine nel baricentro Sia = ( 1,..., p ) il baricentro della nuvola. Sia Y la matrice dei punti centrati nel baricentro: Y = X - 1 n1 '. La matrice di varianza/covarianza di X e di Y è Y' Y. Per ottenere un'analisi indipendente dall'unità di misura di ciascuna variabile, i dati della matrice Y, oltre che centrati, vanno anche "standardizzati", ponendo: y i =. In questo caso la matrice = Y' Y è la matrice di correlazione. 6

Rotazione degli assi Viene effettuata quella rotazione tale che: la maggior intensità della dispersione dei punti coincida con la direzione del primo asse; lungo la direzione del secondo asse vi sia una dispersione maggiore di tutti i successivi, e così via. Esempio con due variabili Proiezione dei punti su un vettore Se v è un vettore di R p, v = (v 1,..., v p ), di lunghezza 1 (cioè v i 2 = 1) allora: - y( i)' v è la "lunghezza" della proiezione di y( i) sulla retta che ha la direzione di v - Y v è il vettore contenente le n proiezioni. Nuovi assi Come nuovo sistema di coordinate consideriamo la base ortonormale costituita dagli autovettori u 1,...,u p della matrice associati agli autovalori 1... p. Indichiamo con c j = Y u j il vettore delle proiezioni degli n punti y( i) sull'asse u j ; Questa base ha i requisiti voluti, infatti: i. 2 (c j) = j la varianza dei punti proiettati "lungo" il j-esimo vettore u j è uguale al j- esimo autovalore j ii. (c i, c j ) = 0 i vettori delle proiezioni dei punti sugli u 1,...,u p sono a due a due non correlati iii. Se v R p, v' v = 1 a. 2 (c 2 1) = sup v { (Y v) } la varianza dei punti proiettati "lungo" u 1 è la più grande fra le varianze dei punti proiettati "lungo" un generico vettore di R p b. 2 (c j) = sup v { Y v t.c. Y v è non correlato con c 1,..., c j-1 } la varianza dei punti proiettati lungo u j è la più grande fra le varianze dei punti proiettati lungo un generico vettore non correlato con c 1,..., c j-1 7

Autovalori della matrice di correlazione Tableau des valeurs propres Trace de la matrice: 7.00000 Numéro Valeur propre Pourcent age Pourcent age cumulé 1 5.1084 72.98 72.98 2 1.0614 15.16 88.14 3 0.5823 8.32 96.46 4 0.1254 1.79 98.25 5 0.0609 0.87 99.12 6 0.0452 0.65 99.77 7 0.0164 0.23 100.00 Intervalles laplaciens d'anderson (seuil: 0.95) Numéro Borne inférieur e Valeur propre Borne supérieu re 1 2.7805 5.1084 7.4362 2 0.5777 1.0614 1.5451 3 0.3170 0.5823 0.8477 4 0.0683 0.1254 0.1826 5 0.0331 0.0609 0.0886 IC Autovalori 95% Autovalore 8.0000 7.0000 6.0000 5.0000 4.0000 3.0000 2.0000 1.0000 0.0000 0 2 4 6 Ordine Autovalore Borne inférieure Valeur propre Borne supérieure Le prime due componenti spiegano l 88% della varianza presente nei dati. Possiamo ridurre il problema originale da 7 a 2 variabili con solamente il 22% di variabilitá non spiegata. 8

Autovettori Anciens axes unitaires Libellé de la Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 variable consumo -0.40-0.24-0.41 0.21-0.61 peso -0.43-0.13-0.05 0.15-0.15 rapportot 0.33-0.20-0.80-0.32 0.09 potenza -0.42 0.07-0.32 0.41 0.72 cilindrata -0.43 0.01 0.16-0.21-0.06 ncilindri -0.42-0.02 0.00-0.79 0.17 ripresa 0.07-0.94 0.26 0.04 0.21 Gli autovettori u j vengono detti assi principali (o assi fattoriali) della nuvola. Il vettore c j viene detto j-esima componente principale (o fattore principale) ed è determinata in modo univoco a meno del segno se j è un autovalore semplice. Le componenti principali c j possono essere interpretate come nuove variabili, essendo combinazioni lineari delle variabili di partenza. Ad esempio il valore della j-esima componente principale per la i-esima unità è: c j ( i) = y 1 ( i) u 1j + y 2 ( i) u 2j +... + y p ( i) u pj Come già osservato le componenti principali c 1,..., c p hanno le seguenti proprietà: hanno media 0 hanno varianza 1,..., p decrescente, 1... p sono tra loro a due a due non correlate Fedeltà della rappresentazione in uno spazio di dimensione minore. La dispersione della nuvola attorno al baricentro, detta anche inerzia, è: I = x( i) - 2 = y( i) 2 = (y( i). u j ) 2 = 2 (c j) = j = traccia ( ) Se si rimpiazza la nuvola di punti y( i) con la sua proiezione nel sottospazio generato da (u 1,...,u q ), con q<p, la dispersione della nuvola proiettata è 1 +... + q. Se questa somma è grande in rapporto a q+1+... + p si può dire che la proiezione è una buona rappresentazione della nuvola. 9

Più precisamente: si chiama fedeltà di una proiezione il rapporto fra la dispersione della nuvola proiettata e la dispersione della nuvola originale. Per quanto visto precedentemente, lo spazio generato da (u 1,...,u q ) è lo spazio di dimensione q più fedele possibile. La fedeltà della proiezione su tale spazio è: cioè il rapporto dell'inerzia nello spazio di dimensione minore rispetto all'inerzia originale. Per avere una rappresentazione piana delle proiezioni dei punti nello spazio generato da (u 1,...,u q ) in genere si proiettano i punti (c 1 ( i), c j ( i)), con j = 2,...,q. Tali rappresentazioni sono anche chiamate carte degli individui. (Proiezione degli individui) Carta degli individui carta degli individui sul primo piano fattoriale (perc.var. 88%) con indicata la nazione di fabbricazione 10

Dalle tabelle seguenti si puó osservare che é forte la rappresentazione nella prima CP della nazione di fabbricazione. Valeurs-Tests des modalités illustratives Libellé Effectif Poids absolu Distance à l'origine nazione U.S. 22 22.00 1.24453-3.35 0.59 3.04-0.07-0.48 Japan 7 7.00 3.62708 2.40-0.76 0.54-0.62 1.05 Germany 5 5.00 4.23186 1.94 0.55-2.65-0.74-0.74 Sweden 2 2.00 2.53539-0.03-0.35-2.83 1.70 0.20 France 1 1.00 6.12967-0.54-1.16-2.24 1.15 0.21 Italy 1 1.00 6.49776 1.04 0.49 1.12-0.24 0.04 Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 COORDONNEES, CONTRIBUTIONS ET COSINUS CARRES DES INDIVIDUS AXES 1 A 5 +---------------------------------------+-------------------------------+--------------------------+--------------------------+ INDIVIDUS COORDONNEES CONTRIBUTIONS COSINUS CARRES ---------------------------------------+-------------------------------+--------------------------+-------------------------- IDENTIFICATEUR P.REL DISTO 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 +---------------------------------------+-------------------------------+--------------------------+--------------------------+ Buick Estate Wagon 2.63 17.83-4.12-0.39-0.44-0.03 0.43 8.7 0.4 0.9 0.0 7.9 0.95 0.01 0.01 0.00 0.01 Ford Country Squire Wago 2.63 18.20-4.24 0.07 0.18 0.08-0.31 9.3 0.0 0.1 0.1 4.2 0.99 0.00 0.00 0.00 0.01 Chevy Malibu Wagon 2.63 7.40-2.62-0.18 0.37-0.48 0.18 3.5 0.1 0.6 4.9 1.3 0.93 0.00 0.02 0.03 0.00 Chrysler LeBaron Wagon 2.63 16.81-3.92 1.05-0.03-0.19 0.34 7.9 2.7 0.0 0.7 5.1 0.91 0.07 0.00 0.00 0.01 Chevette 2.63 7.59 2.56-0.96 0.01-0.32-0.03 3.4 2.3 0.0 2.2 0.0 0.86 0.12 0.00 0.01 0.00 Toyota Corona 2.63 1.84 1.07 0.62 0.23 0.51 0.03 0.6 1.0 0.2 5.4 0.0 0.62 0.21 0.03 0.14 0.00 Datsun 510 2.63 3.02 1.60 0.17-0.50 0.23 0.28 1.3 0.1 1.1 1.1 3.3 0.85 0.01 0.08 0.02 0.03 Dodge Omni 2.63 4.60 2.10 0.41 0.14-0.07-0.13 2.3 0.4 0.1 0.1 0.7 0.95 0.04 0.00 0.00 0.00 Audi 5000 2.63 3.57 0.71-1.06-1.39-0.05-0.01 0.3 2.8 8.8 0.0 0.0 0.14 0.32 0.54 0.00 0.00 Volvo 240 GL 2.63 4.27-0.96 0.27-1.73 0.16-0.27 0.5 0.2 13.6 0.6 3.1 0.22 0.02 0.70 0.01 0.02 Saab 99 GLE 2.63 3.58 0.86-0.78-1.28 0.68 0.33 0.4 1.5 7.4 9.6 4.8 0.20 0.17 0.46 0.13 0.03 Peugeot 694 SL 2.63 6.13-1.21-1.19-1.71 0.41 0.05 0.8 3.5 13.2 3.5 0.1 0.24 0.23 0.48 0.03 0.00 Buick Century Special 2.63 2.16-1.17-0.64 0.56 0.08-0.20 0.7 1.0 1.4 0.1 1.7 0.64 0.19 0.14 0.00 0.02 Mercury Zephyr 2.63 2.31-0.22-1.30 0.40-0.44-0.46 0.0 4.2 0.7 4.0 9.2 0.02 0.74 0.07 0.08 0.09 Dodge Aspen 2.63 9.33-1.44-2.54 0.80 0.40 0.00 1.1 16.0 2.9 3.3 0.0 0.22 0.69 0.07 0.02 0.00 AMC Concord D/L 2.63 3.74-1.84-0.32 0.06 0.37-0.26 1.7 0.3 0.0 2.8 3.0 0.90 0.03 0.00 0.04 0.02 Chevy Caprice Classic 2.63 11.72-3.34-0.53 0.42-0.22-0.09 5.8 0.7 0.8 1.0 0.4 0.95 0.02 0.01 0.00 0.00 Ford LTD 2.63 12.31-3.36 0.80 0.40-0.24-0.28 5.8 1.6 0.7 1.3 3.4 0.92 0.05 0.01 0.00 0.01 Mercury Grand Marquis 2.63 17.09-4.02 0.83 0.19-0.11-0.34 8.3 1.7 0.2 0.2 4.9 0.95 0.04 0.00 0.00 0.01 Dodge St Regis 2.63 11.53-3.33-0.33 0.42-0.28 0.23 5.7 0.3 0.8 1.6 2.2 0.96 0.01 0.02 0.01 0.00 Ford Mustang 4 2.63 1.73 1.12 0.44 0.26 0.40-0.22 0.6 0.5 0.3 3.4 2.0 0.72 0.11 0.04 0.09 0.03 Ford Mustang Ghia 2.63 1.56-0.29-1.11 0.13-0.07 0.37 0.0 3.0 0.1 0.1 5.9 0.05 0.79 0.01 0.00 0.09 Mazda GLC 2.63 8.53 2.87-0.07-0.08-0.50-0.03 4.2 0.0 0.0 5.3 0.0 0.97 0.00 0.00 0.03 0.00 Dodge Colt 2.63 5.96 2.11 0.78 0.84 0.13 0.21 2.3 1.5 3.2 0.4 1.8 0.75 0.10 0.12 0.00 0.01 AMC Spirit 2.63 2.33 1.35 0.06 0.47 0.33-0.30 0.9 0.0 1.0 2.3 3.9 0.79 0.00 0.09 0.05 0.04 VW Scirocco 2.63 7.60 2.70 0.05-0.37-0.41-0.02 3.7 0.0 0.6 3.5 0.0 0.96 0.00 0.02 0.02 0.00 Honda Accord LX 2.63 6.31 2.13-0.78 1.02 0.09-0.15 2.3 1.5 4.7 0.2 1.0 0.72 0.10 0.17 0.00 0.00 Buick Skylark 2.63 3.42 0.78-0.28 1.47 0.76 0.07 0.3 0.2 9.8 12.0 0.2 0.18 0.02 0.63 0.17 0.00 Chevy Citation 2.63 7.07-0.32 2.58 0.18-0.13 0.40 0.1 16.5 0.2 0.4 7.0 0.01 0.94 0.00 0.00 0.02 Olds Omega 2.63 2.61-0.29 1.48 0.12-0.12 0.49 0.0 5.4 0.1 0.3 10.2 0.03 0.83 0.01 0.01 0.09 Pontiac Phoenix 2.63 4.44 1.01 1.50 0.95 0.47 0.03 0.5 5.6 4.1 4.6 0.0 0.23 0.51 0.20 0.05 0.00 Plymouth Horizon 2.63 6.80 2.24 1.26 0.10-0.25-0.27 2.6 3.9 0.0 1.3 3.2 0.74 0.23 0.00 0.01 0.01 Datsun 210 2.63 15.73 2.94-2.55 0.56-0.34 0.39 4.4 16.1 1.4 2.4 6.5 0.55 0.41 0.02 0.01 0.01 Fiat Strada 2.63 6.50 2.34 0.51 0.85-0.08 0.01 2.8 0.6 3.3 0.1 0.0 0.84 0.04 0.11 0.00 0.00 VW Dasher 2.63 5.90 2.30 0.53-0.50-0.22-0.05 2.7 0.7 1.1 1.1 0.1 0.90 0.05 0.04 0.01 0.00 Datsun 810 2.63 1.81 0.40-0.08-1.08-0.65-0.10 0.1 0.0 5.2 9.0 0.4 0.09 0.00 0.64 0.24 0.01 BMW 320i 2.63 4.44 0.83 1.06-1.50 0.57-0.19 0.4 2.8 10.2 6.9 1.6 0.16 0.25 0.51 0.07 0.01 VW Rabbit 2.63 8.23 2.71 0.62-0.50-0.45-0.11 3.8 1.0 1.1 4.3 0.5 0.89 0.05 0.03 0.02 0.00 +---------------------------------------+-------------------------------+--------------------------+--------------------------+ 11

Correlazione fra le variabili e le componenti principali Supponiamo, per semplicità, di lavorare con variabili "standardizzate". La correlazione fra la variabile i-esima e la componente principale j-esima è: Consideriamo la matrice P = U ( ) 1/2 : (y i,c j ) = u ij j u 1 1 u 2 2... u p p u ij j Nella colonna j-esima si può leggere quali variabili sono meglio correlate con la j-esima componente principale e quindi quali sono meglio rappresentate sul j-esimo asse principale. Nella riga i-esima si può leggere su quali assi principali è meglio rappresentata la i-esima variabile. Corrélations des variables actives avec les facteurs Libellé de la variable Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 consumo -0.90-0.25-0.31 0.08-0.15 peso -0.98-0.14-0.04 0.05-0.04 rapportot 0.76-0.20-0.61-0.11 0.02 potenza -0.94 0.07-0.25 0.15 0.18 cilindrata -0.98 0.01 0.12-0.08-0.01 ncilindri -0.96-0.02 0.00-0.28 0.04 ripresa 0.16-0.97 0.20 0.01 0.05 Commento: lettura per colonne: sul primo asse fattoriale sono ben rappresentate le variabili peso, potenza, cilindrata e numero cilindri (orientamento negativo per l'algoritmo utilizzato) e in misura minore le variabili consumo e drive ratio (orientamento positivo). sul secondo asse fattoriale è ben rappresentata la variabile ripresa (orientamento negativo) sul terzo asse la variabile rapporto di trasmissione al ponte, sul quarto il numero dei cilindri. 12

lettura per righe: il consumo, il peso, la potenza, la cilindrata e il numero cilindri sono meglio rappresentati sul primo asse la ripresa sul secondo il drive ratio sul terzo. Correlazione fra due variabili Indicando con p i una riga della matrice P precedente, la correlazione fra la variabile h-esima e la variabile k-esima sarà: (y h, y k ) = p h ' p k cioè il prodotto scalare fra le due righe di P. Disegnando i punti p ij = ( u i1 1, u ij j ), con j = 2,...,p si ottengono le cosiddette carte delle variabili (o cerchio delle correlazioni) che visualizzano la correlazione fra le variabili e le componenti principali 1 e j. Attraverso tali grafici (in particolare se j = 2) si può in qualche modo anche interpretare la correlazione fra le variabili, essendo p hj ' p hj una approssimazione di p h ' p k. L'analisi comparata delle carte degli individui e delle carte dei caratteri permette una descrizione delle rilevazioni statistiche considerate. Carta delle variabili o cerchio delle correlazioni 13

Commento: Essendo l'analisi in componenti normalizzate, le coordinate dei punti nella carta dei caratteri sono inferiori a 1 in valore assoluto; in effetti i punti sono a distanza 1 dall'origine in R 7 e l'operazione di proiezione non può che diminuire le distanze. Peso, potenza, cilindrata, numero cilindri e Consumo si trovano da uno stesso lato del primo asse fattoriale (e sono ben rappresentate su questo come visto precedentemente); una tale disposizione traduce il fatto che tali variabili sono in effetti ben correlate positivamente fra loro: se per un auto una variabile assume un valore elevato, tutte le altre assumono un valore elevato. drive ratio si trova ben rappresentavo dall'altro lato del primo perché correlato negativamente con le variabili precedenti. Questa caratteristica di numerosi dati sperimentali di avere molte variabili ben rappresentate sul primo asse viene detto fattore di scala. Qui il fattore di scala oppone le auto "grosse" dalle auto "medie". La ripresa si trova sul secondo asse (ed è ben rappresentata su questo come visto precedentemente) e ha in effetti una correlazione bassa con tutte le altre variabili e pertanto é rappresentata su un asse ortogonale alle precedenti. 14

Carta degli individui sul primo piano fattoriale La dimensione del cerchio é proporzionale al consumo (litri per km), mentre i colori rappresentano le nazioni secondo il grafico precedente. Commento: - dall'esame dei dati si osserva che: l'orientamento negativo del primo asse fattoriale corrisponde a valori alti di peso, cilindrata, numero cilindri e potenza e a valori alti di consumo (l/km) e drive-ratio (e queste variabili sono ben rappresentate su tale asse); l'orientamento negativo del secondo asse corrisponde a valori alti per la ripresa (e questa variabile è ben rappresentata su tale asse) - dall'esame complessivo della carta delle auto suddivise per nazione si può concludere che: le auto tedesche, italiane e giapponesi sono caratterizzate complessivamente da valori bassi per peso, cilindrata, numero cilindri e potenza e consumo e drive-ratio; in particolare un'auto giapponese pur avendo bassi valori per le variabili precedenti ha la ripresa massima e ciò è evidenziato dalla sua posizione in basso a destra; le auto statunitensi sono per lo più posizionate (ma non totalmente) sull'orientamento negativo del primo asse mentre si distribuiscono più o meno uniformemente rispetto al secondo: questo corrisponde a valori medio-alti per le variabili peso, cilindrata, numero cilindri e potenza e medio-alti per consumo e drive-ratio e a valori sia alti che bassi per la variabile ripresa. 15