ANALISI MULTIDIMENSIONALE DEI DATI (AMD)

Похожие документы
L'Analisi in Componenti Principali. Luigi D Ambra Dipartimento di Matematica e Statistica Università di Napoli Federico II

Analisi delle corrispondenze

Analisi delle corrispondenze

Analisi delle componenti principali

Richiami di algebra delle matrici a valori reali

Analisi in Componenti Principali (ACP)

Analisi della correlazione canonica

3. Vettori, Spazi Vettoriali e Matrici

TEORIA DEI SISTEMI ANALISI DEI SISTEMI LTI

La matrice delle correlazioni è la seguente:

Formulario sui Prodotti Hermitiani Marcello Mamino Pisa, 24 v 2010

Classificazione delle coniche.

Elementi di Algebra Lineare. Spazio Vettoriale (lineare)

ossia può anche essere localizzato univocamente sul piano complesso con la sua forma polare.

Polinomio di Taylor del secondo ordine per funzioni di due variabili

Richiami di algebra lineare

Analisi della correlazione canonica

Statistica. Alfonso Iodice D Enza

Esercizi di ripasso: geometria e algebra lineare.

Esercizi per Geometria II Geometria euclidea e proiettiva

A.A. 2014/2015 Corso di Algebra Lineare

Rappresentazione matriciale del Gruppo puntuale di simmetria C3v (ammoniaca)

Statistica multivariata Donata Rodi 21/11/2016

Prodotto scalare, covarianza e controvarianza, tensore metrico

ESERCITAZIONE SUI PUNTI STAZIONARI DI FUNZIONI LIBERE E SULLE FUNZIONI OMOGENEE

Esercitazione di Calcolo Numerico 1 22 Aprile Determinare la fattorizzazione LU della matrice a 1 1 A = 3a 2 a 2a a a 2 A =

(VX) (F) Se A e B sono due matrici simmetriche n n allora anche A B è una matrice simmetrica.

CONTROLLO DI SISTEMI ROBOTICI Laurea Specialistica in Ingegneria Meccatronica

ANALISI DEI DATI PER IL MARKETING 2014

Applicazioni lineari e diagonalizzazione pagina 1 di 5

Risposta in vibrazioni libere di un sistema lineare viscoso a più gradi di libertà. Prof. Adolfo Santini - Dinamica delle Strutture 1

ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM)

REGRESSIONE E CORRELAZIONE

MATRICI E VETTORI APPROFONDIMENTO PER IL CORSO DI LABORATORIO DI INFORMATICA SARA POLTRONIERI

Analisi in componenti principali

Autovalori e autovettori, matrici simmetriche e forme quadratiche (cenni) (prof. M. Salvetti)

Differenze tra metodi di estrazione

Soluzione. (a) L insieme F 1 e linearmente indipendente; gli insiemi F 2 ed F 3 sono linearmente

POTENZE DI MATRICI QUADRATE

Esercizi svolti. delle matrici

Massimi e minimi relativi in R n

Corso di Calcolo Numerico

Esercitazione di Analisi Matematica II

Corso di Matematica e Statistica 3 Algebra delle matrici. Una tabella rettangolare: la matrice. Una tabella rettangolare: la matrice

Algebra lineare con R

SPAZI VETTORIALI CON PRODOTTO SCALARE A =

Corso di Fisica I per Matematica

Esercitazione 6 - Soluzione

FONDAMENTI DI ALGEBRA LINEARE E GEOMETRIA

SPAZI EUCLIDEI, APPLICAZIONI SIMMETRICHE, FORME QUADRATICHE

Corso di Geometria Ing. Informatica e Automatica Test 1: soluzioni

= elemento che compare nella seconda riga e quinta colonna = -4 In generale una matrice A di m righe e n colonne si denota con

Teoria e tecniche dei test. Concetti di base

Elementi di Algebra Lineare Applicazioni lineari

1 Il polinomio minimo.

DIARIO DEL CORSO DI GEOMETRIA E ALGEBRA LINEARE

2 Sistemi lineari. Metodo di riduzione a scala.

ii 1.20 Rango di una matrice Studio dei sistemi lineari Teoremi di Cramer e Rouché-Capelli......

Generazione di Numeri Casuali- Parte 2

Esercitazione di Calcolo Numerico 1 27 Maggio Calcolare la fattorizzazione P A = LU della matrice A =

Motivazioni. Sistemi lineari. Obiettivo. Il problema

Statistica multivariata

0.1 Condizione sufficiente di diagonalizzabilità

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Statistica. Alfonso Iodice D Enza

L Analisi Multidimensionale dei Dati

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Statistica. Alfonso Iodice D Enza

Alcuni esercizi sulla diagonalizzazione di matrici. campo dei reali. Se lo è calcolare una base spettrale e la relativa forma diagonale di A.

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

MATRICI E SISTEMI LINEARI

Applicazioni lineari e diagonalizzazione. Esercizi svolti

1 Coniche. s (x, y, t ) (1) 1 (x, y, t )F r 2

Analisi in Componenti Principali

Sistemi sovradeterminati

Le matrici. Sia K un campo con elemento neutro dell addizione 0 ed elemento neutro della moltiplicazione 1.

L Analisi in Componenti Principali (S. Terzi)

Richiami di algebra delle matrici

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

Parte 8. Prodotto scalare, teorema spettrale

Appunti su Indipendenza Lineare di Vettori

Esercizio 2. Consideriamo adesso lo spazio di funzioni V = {f : [0, 1] R}. Dire quali dei seguenti insiemi di funzioni sono sottospazi.

Fasci di Coniche. Salvino Giuffrida. 2. Determinare e studiare il fascio Φ delle coniche che passano per A (1, 0) con tangente

Numeri di Fibonacci, Autovalori ed Autovettori.

Транскрипт:

ANALISI MULTIDIMENSIONALE DEI DATI (AMD) L Analisi Multidimensionale dei Dati (AMD) è una famiglia di tecniche il cui obiettivo principale è la visualizzazione, la classificazione e l interpretazione della struttura dei dati L AMD prende le mosse da un insieme di dati e attraverso combinazioni lineari di tali informazioni individua la struttura latente del fenomeno da indagare eliminando la ridondanza delle informazioni

Analisi in Compenti Principali L analisi delle componenti principali o ACP è un metodo esplorativo di riduzione dei dati Esplorativo in quanto non contempla la verifica di modelli probabilistici Metodo di riduzione dei dati in quanto si propone di rappresentare l insieme delle unità descritto da un set di k variabili osservate su n individui, mediante un numero ridotto p<k di nuove variabili: le componenti principali Tali componenti principali sono combinazioni lineari delle variabili originarie, fra loro ortogonali e aventi, per convenzione, media nulla e varianza unitaria La riduzione dei dati non è indolore; qualche informazione viene comunque perduta Tuttavia, fra tutte le possibili combinazioni lineari che possono essere formate con quel set di n valori assunti dalle k variabili, la componente principale è quella che ha la massima varianza Quindi, quale metodo di riduzione dei dati, l ACP cerca di limitare la perdita di informazioni riguardo al grado di variabilità dei dati, espressione questa delle peculiarità individuali

1 2 j p Sistema da indagare Le matrici di dati X = 1 2 i n n punti in R p p punti in R n Rappresentazione dei punti nei due spazi

Analisi in Componenti Principali (ACP) Matrice unità statistiche variabili: X = 1 i n 1 j p Le righe rappresentano le unità statistiche (individui e oggetti) x ij Le colonne rappresentano le variabili quantitative;

Aspetti algebrici L ACP sfrutta alcune proprietà possedute dalle matrici simmetriche definite positive Data H una matrice simmetrica definita positiva, questa può essere rappresentata attraverso la seguente espressione: (511) H=ΓΛΓ dove Λ è una matrice diagonale (kxk) con elementi (λ 1,λ 2,,λ k ), detti autovalori di H; Γ è una matrice (kxk) con vettori colonna (γ 1,,γ k ) detti autovettori di H, fra loro ortogonali (cioè Γ Γ=Ι, con Ι matrice identità (kxk)) Ogni coppia j (j=1,,k) di autovalore-autovettore (e cioè j-esimo elemento della diagonale di Λ e j-esima colonna di Γ) verifica la seguente equazione: (512) (H-λ j I)γ j =0 La (511) è detta anche trasformazione per similitudine (o fattorizzazione o anche diagonalizzazione) della matrice H in quanto, premoltiplicando la (511) per Γ e postmoltiplicando per Γ, si ottiene: (513) Λ=Γ Η Γ e H e Λhanno lo stesso determinante e la stessa traccia (somma degli elementi che stanno sulla diagonale): (514) traccia(h)=traccia(λ) Inoltre, un importante proprietà delle matrici simmetriche definite positive risiede nel fatto che gli autovalori sono sempre numeri reali positivi

Matrice centrata Come in tutti i metodi statistici multivariati, il punto di partenza dell analisi è costituito dalla matrice dei dati X avente n righe (le unità) e k colonne (le variabili, tutte di natura quantitativa): (521) X:{x ij }, i=1,,n; j=1,,k; Il simbolo x ij rappresenta il valore della variabile j osservato sull unità i Ogni riga i della matrice X, che indichiamo con x i, contiene i valori delle k variabili osservate sull i-iesima unità Costruiamo, a partire da X, la matrice X*, che contiene gli scarti dei valori dalla corrispondente media aritmetica: (522) X*:{x ij * }, i=1,,n; j=1,,k; dove x ij * =x ij m j e m j è la media aritmetica dei valori relativi alla variabile i Usando, X* ricaviamo facilmente la matrice di varianza e covarianza S, avente dimensione kxk, che è: (523) S=(X* X*)/n Si ricorda che sulla diagonale di S si trovano le varianze delle k variabili, per cui traccia(s) è la somma di tali varianze Assumiamo qui che S ammetta l inversa

Calcolo delle Componenti Principali Mediante l operazione di fattorizzazione descritta nel paragrafo 51, possiamo infine esprimere S mediante i suoi autovalori e autovettori come S=ΓΛΓ, dove Λ è la matrice di varianza e covarianza delle k componenti Infatti, dato che gli autovettori sono ortogonali fra loro, le componenti sono ortogonali e quindi incorrelate (Λ è diagonale) Inoltre, poiché traccia(s)=traccia(λ), si deduce che tutte le k componenti recuperano il totale della variabilità dei dati originali, espressa dalla somma delle varianza delle k variabili Se si estraggono tutti gli autovalori e tutti gli autovettori di S, la matrice Y:{y ij }, di dimensione nxk, dei valori assunti dalle k componenti principali è: (5213) Y=X Γ

La scelta del numero di componenti principali Un criterio empirico suggerisce di utilizzare un numero di componenti sufficienti a spiegare una percentuale di varianza totale non inferiore ad una certa quota prefissata (ad es 80%) Un secondo criterio consiste nello scegliere quelle componenti che spiegano una varianza maggiore di quella introdotta nel modello da ogni singola variabile: poiché in un ACP normalizzata la varianza di ciascuna variabile è uguale ad 1, sceglieremo quelle componenti principali i cui autovalori sono superiore all unità Un terzo criterio si affida alla lettura del diagramma a barre degli autovalori Da questo si identifica il punto al di là del quale gli autovalori sono effettivamente troppo piccoli per essere interessanti, poiché esiste una caduta evidente della varianza spiegata da ciascun fattore

Applicazione: ACP prezzo cilindrata cavalli lungh largh peso velocità cons_strada cons_urbano affidab A155 29,9 1773 126 440 170 1325 200 8,4 9,5 136 AU80 34,2 1595 101 448 170 1270 178 8,8 10,5 408 BMW3 40,1 1796 115 443 170 1205 201 7,6 9,6 127 CXAN 29,4 1761 101 444 176 1176 188 7,1 10,3 118 TEMP 31,6 1756 101 435 170 1200 188 8,3 10,5 305 MOND 31,5 1796 111 448 175 1305 195 7,1 10,6 95 DELT 29,1 1756 103 401 170 1200 185 8,8 11 175 DEDR 31,1 1750 101 434 170 1255 180 8 10 184 PRIM 28,1 1597 102 446 170 1190 176 7,7 8,9 161 VECT 31 1796 90 435 170 1124 183 7,1 10,2 295 P405 28,5 1580 88 440 169 1080 173 8,1 9,8 280 RE21 29,5 1721 93 469 173 1075 185 8 10,8 350 GOLF 28,5 1781 90 434 170 1115 180 7,6 9,9 96 PASS 32 1781 90 461 172 1220 178 7,4 10,4 344 VOL4 32,4 1721 102 444 169 1086 180 7,4 10,3 148 Esempio ACP: i consumi alimentari

Matrice di Correlazione prez cili cava lung larg peso velo cons cons affi -----+---------------------------------------------------------------------- prez 100 cili 024 100 cava 037 025 100 lung 016-014 -013 100 larg -011 033 005 038 100 peso 025 020 070-010 019 100 velo 046 063 081-004 030 049 100 cons -006-041 018-037 -048 023-008 100 cons 000 028-025 -009 035-007 000 015 100 affi 006-038 -049 035-017 -016-044 037 036 100 -----+---------------------------------------------------------------------- prez cili cava lung larg peso velo cons cons affi

Autovalori Istogramma dei primi 10 autovalori +--------+------------+----------+----------+----------------------------------------------------------------------------------+ NUMERO VALEUR POURCENT POURCENT PROPRE CUMULE +--------+------------+----------+----------+----------------------------------------------------------------------------------+ 1 31844 3184 3184 ******************************************************************************** 2 20321 2032 5217 **************************************************** 3 14892 1489 6706 ************************************** 4 13389 1339 8045 ********************************** 5 09852 985 9030 ************************* 6 04000 400 9430 *********** 7 03348 335 9765 ********* 8 01319 132 9897 **** 9 00849 085 9982 *** 10 00184 018 10000 * Coordinate VARIABLES ACTIVES ----------------------------+------------------------------------+-------------------------------+------------------------------- VARIABLES COORDONNEES CORRELATIONS VARIABLE-FACTEUR ANCIENS AXES UNITAIRES ----------------------------+------------------------------------+-------------------------------+------------------------------- IDEN - LIBELLE COURT 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 ----------------------------+------------------------------------+-------------------------------+------------------------------- prez - prezzo 044-009 038 043-061 044-009 038 043-061 025-006 031 038-061 cili - cilindrata 066 040 006-039 -033 066 040 006-039 -033 037 028 005-034 -034 cava - cavalli 085-040 002 016 017 085-040 002 016 017 048-028 001 014 017 lung - lungh# -011 054 021 074 015-011 054 021 074 015-006 038 017 064 015 larg - largh# 033 074 018-007 049 033 074 018-007 049 019 052 015-006 049 peso - peso 065-033 028 011 042 065-033 028 011 042 037-023 023 010 042 velo - velocità 092 000 014 001-008 092 000 014 001-008 052 000 012 001-008 cons - cons_strada -019-080 043-016 018-019 -080 043-016 018-011 -056 035-014 018 cons - cons_urbano -009 032 071-057 -003-009 032 071-057 -003-005 022 058-050 -003 affi - affidab# -062-002 069 022-004 -062-002 069 022-004 -035-002 057 019-004 ----------------------------+------------------------------------+-------------------------------+-------------------------------