L'Analisi in Componenti Principali. Luigi D Ambra Dipartimento di Matematica e Statistica Università di Napoli Federico II

Documenti analoghi
ANALISI MULTIDIMENSIONALE DEI DATI (AMD)

La Regressione X Variabile indipendente o esplicativa. La regressione. La Regressione. Y Variabile dipendente

STATISTICA DESCRITTIVA CON EXCEL

Capitolo 3. Cap. 3-1

PIANIFICAZIONE DEI TRASPORTI

Campo di applicazione

Corso di. Dott.ssa Donatella Cocca

LA STATISTICA: OBIETTIVI; RACCOLTA DATI; LE FREQUENZE (EXCEL) ASSOLUTE E RELATIVE

Elementi di statistica

La regressione. La Regressione. La Regressione. min. min. Var X. X Variabile indipendente (data) Y Variabile dipendente

Relazione funzionale e statistica tra due variabili Modello di regressione lineare semplice Stima puntuale dei coefficienti di regressione

PROCEDURA INFORMATIZZATA PER LA COMPENSAZIONE DELLE RETI DI LIVELLAZIONE. (Metodo delle Osservazioni Indirette) - 1 -

Relazioni tra variabili: Correlazione e regressione lineare

INDICI STATISTICI MEDIA, MODA, MEDIANA, VARIANZA

Variabili statistiche - Sommario

Ministero della Salute D.G. della programmazione sanitaria --- GLI ACC - L ANALISI DELLA VARIABILITÀ METODOLOGIA

Lezioni di Statistica (25 marzo 2013) Docente: Massimo Cristallo

Il trattamento dei dati a fini descrittivi

Ricerca Operativa e Logistica Dott. F.Carrabs e Dott.ssa M.Gentili. Modelli per la Logistica: Single Flow One Level Model Multi Flow Two Level Model

LEZIONE 2 e 3. La teoria della selezione di portafoglio di Markowitz

8.1 Sintesi, descrizione, interpretazione

Introduzione al Machine Learning

Università degli Studi di Urbino Facoltà di Economia

SERIE STORICHE, TREND, MEDIE MOBILI, REGRESSIONE Andrea Prevete

Correlazione lineare

lxmi.mi.infn.it/~camera/silsis/laboratorio-1/2-statistica.ppt Misura:

x 0 x 50 x 20 x 100 CASO 1 CASO 2 CASO 3 CASO 4 X n X n X n X n

Capitolo 3 Covarianza, correlazione, bestfit lineari e non lineari

Dati di tipo video. Indicizzazione e ricerca video

Lezione 2 le misure di sintesi: le medie

Esercitazioni del corso: STATISTICA

Corso di laurea in Ingegneria per l Ambiente e il Territorio a.a RETI TOPOGRAFICHE

Statistica e calcolo delle Probabilità. Allievi INF

PREVEDONO: Capitolo 17 del libro di testo. Copyright 2005 The McGraw-Hill Companies srl

Modelli decisionali su grafi - Problemi di Localizzazione

ESERCITAZIONE 2 DIAGRAMMI A BARRE, COSTRUZIONE DI ISTOGRAMMA. Notazione: x i = i-esima modalità della variabile X

LA VARIABILITA. Nella metodologia statistica si distinguono due aspetti della variabilità:

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 17/09/2012

6. Catene di Markov a tempo continuo (CMTC)

Sommario. Obiettivo. Quando studiarla? La concentrazione. X: carattere quantitativo tra le unità statistiche. Quando studiarla?

PROBLEMA DI SCELTA FRA DUE REGIMI DI

STATISTICA DESCRITTIVA - SCHEDA N. 5 REGRESSIONE LINEARE

* PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE *

4.6 Dualità in Programmazione Lineare

Scienze Geologiche. Corso di Probabilità e Statistica. Prove di esame con soluzioni

Modelli descrittivi, statistica e simulazione

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI CONFRONTO DI PIU MEDIE IL METODO DI ANALISI DELLA VARIANZA

Metodi e Modelli per l Ottimizzazione Combinatoria Progetto: Metodo di soluzione basato su generazione di colonne

Fondamenti di Visione Artificiale (Seconda Parte) Corso di Robotica Prof.ssa Giuseppina Gini Anno Acc /2007

Esame di Statistica tema B Corso di Laurea in Economia Prof.ssa Giordano Appello del 15/07/2011

Lezione 2 a - Statistica descrittiva per variabili quantitative

Esercitazioni del corso di Relazioni tra variabili. Giancarlo Manzi Facoltà di Sociologia Università degli Studi di Milano-Bicocca

Analisi della Varianza

Strada B. Classe Velocità valore frequenza Frequ. ass Frequ. % hi Freq. Cum

Esercitazioni del corso di relazioni tra variabili

Controllo e scheduling delle operazioni. Paolo Detti Dipartimento di Ingegneria dell Informazione Università di Siena

Esame di Statistica tema A Corso di Laurea in Economia Prof.ssa Giordano Appello del 15/07/2011

B - ESERCIZI: IP e TCP:

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI

Università di Cassino. Esercitazioni di Statistica 1 del 19 Febbraio Dott. Mirko Bevilacqua

MODELLI STOCASTICI DELLA CLASSE GLM

Il modello markoviano per la rappresentazione del Sistema Bonus Malus. Prof. Cerchiara Rocco Roberto. Materiale e Riferimenti

Teoria dei giochi. Rappresentazione formale di una situazione in cui un numero di individui interagisce in un contesto di interazione strategica.

LA VARIABILITA. IV lezione di Statistica Medica

INTRODUZIONE ALL ESPERIENZA 4: STUDIO DELLA POLARIZZAZIONE MEDIANTE LAMINE DI RITARDO

Sono molto grato a Xavier Tomàs Morer per la revisione e la correzione di numerosi errori 1

Appunti di Econometria

Gestione della produzione e della supply chain Logistica distributiva. Paolo Detti Dipartimento di Ingegneria dell Informazione Università di Siena

Segmentazione di immagini

Confronto fra metodi regionali e metodi geostatistici per la stima delle distribuzioni degli estremi di precipitazione giornaliera

LEZIONE 2. Riassumere le informazioni: LE MEDIE MEDIA ARITMETICA MEDIANA, MODA, QUANTILI. La media aritmetica = = N

Programmazione e Controllo della Produzione. Analisi dei flussi

* * * Nota inerente il calcolo della concentrazione rappresentativa della sorgente. Aprile 2006 RL/SUO-TEC 166/2006 1

Elementi di Algebra e Analisi Tensoriale

PROGRAMMAZIONE LINEARE. Una piccola introduzione. Ricerca Operativa. Prof. R. Tadei. Politecnico di Torino P. L. / 1.

Definizione di campione

LE CARTE DI CONTROLLO

PARENTELA e CONSANGUINEITÀ di Dario Ravarro

CHE COS E LA COMPLESSITA

Variabili aleatorie discrete. Probabilità e Statistica I - a.a. 04/05-1

5. Baricentro di sezioni composte

Appunti di statistica descrittiva Versione provvisoria

Per calcolare le probabilità di Testa e Croce è possibile risolvere il seguente sistema di due equazioni in due incognite:

Fotogrammetria. O centro di presa. fig.1 Geometria della presa fotogrammetrica

{ 1, 2,..., n} Elementi di teoria dei giochi. Giovanni Di Bartolomeo Università degli Studi di Teramo

CARATTERISTICHE DEI SEGNALI RANDOM

Concetti principale della lezione precedente

Dalla sola analisi della tabella dei profili colonna, pensi ci sia un associazione tra le due variabili in tabella? (motiva brevemente la risposta)

Modello del Gruppo d Acquisto

La teoria del consumo

FUNZIONAMENTO IN REGIME ALTERNATO SINUSOIDALE

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Intorduzione alla teoria delle Catene di Markov

MODELLO DI REGRESSIONE PER DATI DI PANEL

C.I. di Metodologia clinica

Laboratorio 2B A.A. 2012/2013. Elaborazione Dati. Lab 2B CdL Fisica

6.1. Moody s KMV Credit Portfolio Manager

Regressione Multipla e Regressione Logistica: concetti introduttivi ed esempi

La verifica delle ipotesi

Metodi variazionali. ed agiscono sulla FORMA DEBOLE DEL PROBLEMA

Transcript:

L'Anals n Component Prncpal Lug D Ambra Dpartmento d Matematca e Statstca Unverstà d Napol Federco II

ANALISI MULTIDIMENSIONALE DEI DATI (AMD) L Anals Multdmensonale de Dat (AMD) è una famgla d tecnche l cu obettvo prncpale è la vsualzzazone, la classfcazone e l nterpretazone della struttura de dat. L AMD prende le mosse da un nseme d dat e attraverso combnazon lnear d tal nformazon ndvdua la struttura latente del fenomeno da ndagare elmnando la rdondanza delle nformazon.

1 2 j p Sstema da ndagare Le matrc d dat X = 1 2 n n punt n R p p punt n R n Rappresentazone de punt ne due spaz

Anals Generale Adattamento degl n punt n R p x 3 M 1 M u H x 1 x 2 2 2 ( M H ) = mn ( OH ) max = OH = u = x x p j = 1 j u j

Anals n Component Prncpal (ACP) Matrce untà statstche varabl: X = 1........ n 1......... j....... p Le rghe rappresentano le untà statstche (ndvdu e oggett) x j Le colonne rappresentano le varabl quanttatve;

Anals n Component Prncpal Gl angol tra punt-varable possono essere nterpretat n termn d correlazon tra le stesse; Le prossmtà tra untà statstche possono essere nterpretate n termn d analoge d comportamento rspetto al fenomeno osservato.

Anals n Component Prncpal Spazo R p Anals generale nello spazo centrato x 3 u x 3 u x 1 x 1 x 2 x 2

Anals n Component Prncpal: descrzone d una matrce INDIVIDUI VARIABILI Y = (n,p) ( ) ( ) Spazo p G u H p varabl valore della = varable j per l ndvduo O (nube d n ndvdu ) (G = centro d gravtà) Dstanza tra due untà statstche : glore rappresentazone delle prossmtà lle untà statstche nelle proezon su H : d 2 p ( ) ( ) 2, = yj - y j j= 1 Max ( H ) d 2 H (, )

Dunque : 2 ( h - h ) = 2 n ( h - h) 2 È l problema dell Anals Generale con l orgne n G Max ( H) d (, ) = Max ( H) 2 H 1 x j = Trasformare Y X ; n d 2 H (,G) ( y - y ) j j Dagonalzzare X X = [covaranza] (Anals Generale d Y) ψˆ = yj - y j u j Ascssa d n ndvdu su u: n

Anals n Component Prncpal: Anals delle untà statstche X = [xj] x j = y j s j - n y j Dagonalzzare valor e vettor propr : X X = [correlazone] ( λ ; u ) =1,..., p Coordnate degl ndvdu su u ( Ψˆ = X u) ψˆ = u j y j - n y j ˆ 2 ψ ψˆ = ψ ˆ = 0 ψˆ = u X' Xu = λ dspersone degl n punt sull asse la nube degl ndvdu è effettvamente centrata su cascun asse

Anals n Component Prncpal: Rappresentazone Smultanea Coordnate delle varable e delle untà statstche : ϕˆ = λ ψˆ = λ u v Spazo R p delle untà statstche u 2 0 0 v 2 u 1 v 1 Spazo R n delle varabl Le due nub delle varabl concdono (a meno d un fattore d scala)

Propretà d ottmaltà delle component prncpal. Correlazone ottmale La matrce delle component prncpal C realzza l max C < X, Proj < C> X dove Proj denota la matrce del proettore ortogonale sullo spazo <C> generato dalle colonne d C La matrce delle component prncpal C realzza l > max C X'C Conservazone ottmale del prodotto scalare La matrce delle component prncpal C realzza l mn C XX' CC'

La scelta del numero d component prncpal. Un crtero emprco suggersce d utlzzare un numero d component suffcent a spegare una percentuale d varanza totale non nferore ad una certa quota prefssata (ad es. 80%). Un secondo crtero consste nello sceglere quelle component che spegano una varanza maggore d quella ntrodotta nel modello da ogn sngola varable: poché n un A.C.P. normalzzata la varanza d cascuna varable è uguale ad 1, scegleremo quelle component prncpal cu autovalor sono superore all untà. Un terzo crtero s affda alla lettura del dagramma a barre degl autovalor. Da questo s dentfca l punto al d là del quale gl autovalor sono effettvamente troppo pccol per essere nteressant, poché esste una caduta evdente della varanza spegata da cascun fattore.

La scelta del numero d component prncpal. Un quarto crtero nferenzale è basato sul fatto che se è vera l potes che le p component prncpal rproducono correttamente la maggor parte delle nformazon contenute nelle varabl orgnare, gl element della matrce resdua d correlazone R = R ( R+ R +... + 1 2 p R) devono essere pressoché costant. Qund, se supponamo che vettor osservazone x ' j d n element sano estratt da una popolazone multnormale N ( µ, ), allora l potes da provare è H : ρ ρ j 0 j 1 j H : ρ = ρ

Applcazone: ACP prezzo clndrata cavall lungh. largh. peso veloctà cons_strada cons_urbano affdab. A155 29,9 1773 126 440 170 1325 200 8,4 9,5 136 AU80 34,2 1595 101 448 170 1270 178 8,8 10,5 408 BMW3 40,1 1796 115 443 170 1205 201 7,6 9,6 127 CXAN 29,4 1761 101 444 176 1176 188 7,1 10,3 118 TEMP 31,6 1756 101 435 170 1200 188 8,3 10,5 305 MOND 31,5 1796 111 448 175 1305 195 7,1 10,6 95 DELT 29,1 1756 103 401 170 1200 185 8,8 11 175 DEDR 31,1 1750 101 434 170 1255 180 8 10 184 PRIM 28,1 1597 102 446 170 1190 176 7,7 8,9 161 VECT 31 1796 90 435 170 1124 183 7,1 10,2 295 P405 28,5 1580 88 440 169 1080 173 8,1 9,8 280 RE21 29,5 1721 93 469 173 1075 185 8 10,8 350 GOLF 28,5 1781 90 434 170 1115 180 7,6 9,9 96 PASS 32 1781 90 461 172 1220 178 7,4 10,4 344 VOL4 32,4 1721 102 444 169 1086 180 7,4 10,3 148 mpo ACP: consum almentar

Matrce d Correlazone prez cl cava lung larg peso velo cons cons aff -----+---------------------------------------------------------------------- prez 1.00 cl 0.24 1.00 cava 0.37 0.25 1.00 lung 0.16-0.14-0.13 1.00 larg -0.11 0.33 0.05 0.38 1.00 peso 0.25 0.20 0.70-0.10 0.19 1.00 velo 0.46 0.63 0.81-0.04 0.30 0.49 1.00 cons -0.06-0.41 0.18-0.37-0.48 0.23-0.08 1.00 cons 0.00 0.28-0.25-0.09 0.35-0.07 0.00 0.15 1.00 aff 0.06-0.38-0.49 0.35-0.17-0.16-0.44 0.37 0.36 1.00 -----+---------------------------------------------------------------------- prez cl cava lung larg peso velo cons cons aff

Autovalor Istogramma de prm 10 autovalor +--------+------------+----------+----------+----------------------------------------------------------------------------------+ NUMERO VALEUR POURCENT. POURCENT. PROPRE CUMULE +--------+------------+----------+----------+----------------------------------------------------------------------------------+ 1 3.1844 31.84 31.84 ******************************************************************************** 2 2.0321 20.32 52.17 **************************************************** 3 1.4892 14.89 67.06 ************************************** 4 1.3389 13.39 80.45 ********************************** 5 0.9852 9.85 90.30 ************************* 6 0.4000 4.00 94.30 *********** 7 0.3348 3.35 97.65 ********* 8 0.1319 1.32 98.97 **** 9 0.0849 0.85 99.82 *** 10 0.0184 0.18 100.00 * Coordnate VARIABLES ACTIVES ----------------------------+------------------------------------+-------------------------------+------------------------------- VARIABLES COORDONNEES CORRELATIONS VARIABLE-FACTEUR ANCIENS AXES UNITAIRES ----------------------------+------------------------------------+-------------------------------+------------------------------- IDEN - LIBELLE COURT 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 ----------------------------+------------------------------------+-------------------------------+------------------------------- prez - prezzo 0.44-0.09 0.38 0.43-0.61 0.44-0.09 0.38 0.43-0.61 0.25-0.06 0.31 0.38-0.61 cl - clndrata 0.66 0.40 0.06-0.39-0.33 0.66 0.40 0.06-0.39-0.33 0.37 0.28 0.05-0.34-0.34 cava - cavall 0.85-0.40 0.02 0.16 0.17 0.85-0.40 0.02 0.16 0.17 0.48-0.28 0.01 0.14 0.17 lung - lungh# -0.11 0.54 0.21 0.74 0.15-0.11 0.54 0.21 0.74 0.15-0.06 0.38 0.17 0.64 0.15 larg - largh# 0.33 0.74 0.18-0.07 0.49 0.33 0.74 0.18-0.07 0.49 0.19 0.52 0.15-0.06 0.49 peso - peso 0.65-0.33 0.28 0.11 0.42 0.65-0.33 0.28 0.11 0.42 0.37-0.23 0.23 0.10 0.42 velo - veloctà 0.92 0.00 0.14 0.01-0.08 0.92 0.00 0.14 0.01-0.08 0.52 0.00 0.12 0.01-0.08 cons - cons_strada -0.19-0.80 0.43-0.16 0.18-0.19-0.80 0.43-0.16 0.18-0.11-0.56 0.35-0.14 0.18 cons - cons_urbano -0.09 0.32 0.71-0.57-0.03-0.09 0.32 0.71-0.57-0.03-0.05 0.22 0.58-0.50-0.03 aff - affdab# -0.62-0.02 0.69 0.22-0.04-0.62-0.02 0.69 0.22-0.04-0.35-0.02 0.57 0.19-0.04 ----------------------------+------------------------------------+-------------------------------+-------------------------------