5. L Analisi delle Componenti Principali (PCA)



Documenti analoghi
La statistica multivariata

Dimensione di uno Spazio vettoriale

Relazioni statistiche: regressione e correlazione

Federico Lastaria. Analisi e Geometria 2. Matrici simmetriche. Il teorema spettrale. 1/24

LEZIONE 23. Esempio Si consideri la matrice (si veda l Esempio ) A =

Diagonalizzazione di matrici e applicazioni lineari

2.1 Definizione di applicazione lineare. Siano V e W due spazi vettoriali su R. Un applicazione

Università degli Studi di Roma Tor Vergata. Corso di Laurea in Ingegneria Meccanica

Esercizi su lineare indipendenza e generatori

Applicazioni lineari

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

Universita degli Studi di Roma Tor Vergata Facolta di Ingegneria Elettronica

(V) (FX) Z 6 è un campo rispetto alle usuali operazioni di somma e prodotto.

RICHIAMI SULLE MATRICI. Una matrice di m righe e n colonne è rappresentata come

4. Matrici e Minimi Quadrati

Capitolo 12 La regressione lineare semplice

Autovalori e Autovettori

4. Matrici e Minimi Quadrati

Esempi di funzione. Scheda Tre

1 Applicazioni Lineari tra Spazi Vettoriali

Esempio. Approssimazione con il criterio dei minimi quadrati. Esempio. Esempio. Risultati sperimentali. Interpolazione con spline cubica.

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

4. Operazioni elementari per righe e colonne

15 febbraio Soluzione esame di geometria - 12 crediti Ingegneria gestionale - a.a COGNOME... NOME... N. MATRICOLA...

Matrice rappresent. Base ker e img. Rappresentazione cartesiana ker(f) + im(f).

Il concetto di valore medio in generale

Luigi Piroddi

APPLICAZIONI LINEARI

Capitolo 2 Distribuzioni di frequenza

Elementi di Psicometria con Laboratorio di SPSS 1

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

ANALISI DEI DATI PER IL MARKETING 2014

ELEMENTI DI ALGEBRA LINEARE E GEOMETRIA Corso di Laurea Ingegneria Edile-Architettura

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995).

Algebra Lineare e Geometria

LE FIBRE DI UNA APPLICAZIONE LINEARE

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

x 1 + x 2 3x 4 = 0 x1 + x 2 + x 3 = 0 x 1 + x 2 3x 4 = 0.

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Indici di dispersione

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA

LA CORRELAZIONE LINEARE

PARTE TERZA. STATISTICA DESCRITTIVA MULTIDIMENSIONALE (Analisi delle Relazioni)


L analisi fattoriale

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Lezione 9: Cambio di base

Nota interpretativa. La definizione delle imprese di dimensione minori ai fini dell applicazione dei principi di revisione internazionali

ANALISI DEI DATI BIOLOGICI

ESAME DI STATO DI LICEO SCIENTIFICO CORSO SPERIMENTALE P.N.I. 2004

Relazioni tra variabili

Parte 3. Rango e teorema di Rouché-Capelli

FUNZIONI ELEMENTARI - ESERCIZI SVOLTI

Tutorato di GE110. Universitá degli Studi Roma Tre - Corso di Laurea in Matematica

Grandezze scalari e vettoriali

CORSO DI LAUREA INF TWM ANNO DI IMMATRICOLAZIONE MATRICOLA

Metodi statistici per le ricerche di mercato

Prova di autovalutazione Prof. Roberta Siciliano

Rette e curve, piani e superfici

Statistica. Lezione 6

Sistemi Informativi Territoriali. Map Algebra

Principal Component Analysis (PCA)

STATISTICA IX lezione

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

(a cura di Francesca Godioli)

MODELLO DI REGRESSIONE PER DATI DI PANEL

LEZIONI DI ALGEBRA LINEARE PER LE APPLICAZIONI FINANZIARIE

GEOMETRIA DELLE MASSE

CAPACITÀ DI PROCESSO (PROCESS CAPABILITY)

INTEGRALI DEFINITI. Tale superficie viene detta trapezoide e la misura della sua area si ottiene utilizzando il calcolo di un integrale definito.

Di testi ed immagini

La categoria «ES» presenta (di solito) gli stessi comandi

Universita degli Studi di Roma Tor Vergata Facolta di Ingegneria - Edile ed Edile-Architettura

Metodi Computazionali

Preprocessamento dei Dati

UNIVERSITÀ DEGLI STUDI DI PADOVA Facoltà di Ingegneria sede di Vicenza A.A. 2007/08

13. Campi vettoriali

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

Amplificatori Audio di Potenza

RICERCHE DI MERCATO. 5.6 Analisi Fattoriale (Componenti Principali)

General Linear Model. Esercizio

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

Calcolatori: Algebra Booleana e Reti Logiche

Elementi di Psicometria con Laboratorio di SPSS 1

PROGRAMMA SVOLTO NELLA SESSIONE N.

11. Analisi statistica degli eventi idrologici estremi

L analisi dei dati. Capitolo Il foglio elettronico

Plate Locator Riconoscimento Automatico di Targhe

Particelle identiche : schema (per uno studio più dettagliato vedi lezione 2) φ 1

u 1 u k che rappresenta formalmente la somma degli infiniti numeri (14.1), ordinati al crescere del loro indice. I numeri u k

Capitolo 13: L offerta dell impresa e il surplus del produttore

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Analisi della performance temporale della rete

La distribuzione Normale. La distribuzione Normale

LEZIONE 14. a 1,1 v 1 + a 1,2 v 2 + a 1,3 v a 1,n 1 v n 1 + a 1,n v n = w 1

Spazi lineari - PARTE II - Felice Iavernaro. Dipartimento di Matematica Università di Bari. 9 e 16 Marzo 2007

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Transcript:

. L Analisi delle Componenti Principali (PCA) Analisi della Varianza PCA e diagonalizzazione della matrice di covarianza Scores e Loadings Sviluppo di matrici e residui Applicazioni all analisi delle immagini Applicazione alla regressione multivariata: Principal Components Regression (PCR) Lo spazio degli osservabili Ogni misurazioni multivariata è rappresentata da un vettore in uno spazio a N dimensioni N è pari alla dimensione del vettore che esprime la osservazione La distribuzione statistica dei punti (vettori) definisce le proprietà dell intero set di dati. Per ogni grandezza multivariata rappresentabile in uno spazio vettoriale a dimensione N possiamo definre una PDF multivariata. Corollario di grande importanza: osservazioni che descrivono campioni simili sono rappresentate da punti vicini Relazione quindi tra distanza reciproca e similitudine tra campioni (Ipotesi base della pattern recognition) Variable n variabler S={S,,S n } variable

Statistica descrittiva multivariata Come per una distribuzione univariata possiamo definire i descrittori fondamentali: Media scalare! vettore Varianza scalare! matrice (matrice di covarianza). La distribuzione normale definita per una variabile univariata conserva la sua importanza nella statisica multivariata La matrice di covarianza La varianza di una distribuzione univariata definisce la ampiezza della distribuzione stessa, in pratica il range di valori della variabile che hanno una probabilità reale di essere osservati In pratica il 99% della probabilità si ottiene in un range ampio " attorno al valore medio. Poiché la normale è simmetrica attorno al valore medio i punti di isoprobabilità sono a distanza uguale dalla media In una distribuzione multivariata la matrice di covarianza definisce l ampiezza della PDF e definisce il grado di correlazione tra le variabili stesse. Il luogo dei punti di isoprobabilità è una ellisse ottenuta come forma quadratica avente come matrice la matrice di covarianza Esponente della PDF multivariata La matrice di covarianza può essere stimata dai dati come: cov(xy)= )=x T y.

Colinearità In un problema MLR la soluzione, stima della variabili x, si ottiene invertendo (meglio pseudoinvertendo) la matrice degli osservabili y Tale operazione è possibile se il rango della matrice y è massimo cioè se il numero di colonne linearmente indipendenti coincide con il numero di colonne della matrice. Cioè se tutte gli osservabili sono linearmente indipendenti tra di loro Se esiste una parziale dipendenza, cioè se i coefficienti della combinazione lineare sono rigorosamente non nulli, l inversione numerica della matrice comporta grossi errori di calcolo Questo effetto si chiama colinearità Esempio di colinearità In uno spettro ottico le righe spettrali coprono un intervallo di lunghezze d onda, tale intervallo è generalmente coperto da più canali spettrali, di modo che più variabili concorrono a formare una riga spettrale. Se la riga è proporzionale ad una caratteristica del campione (es. concentrazione di glucosio) tutti i canali spettrali relativi alla riga saranno in egual modo proporzionali alla caratteristica del campione, quindi le relative variabili (colonne nella matrice dei dati) risulteranno colineari Sono colineari le variabili che dipendono quantitativamente da caratteristiche del campione Spettro NIR di frutti. Variabili colineari..8..6.8 Absorbance.. TextEnd Absorbance.6. TextEnd -. -. -.6 Wavelenght [nm]. 8 86 88 9 9 9 Wavelenght [nm] 6

Colinearità e matrice di covarianza La colinearità si esprime attraverso la matrice di covarianza. In caso di colinearità i termini non diagonali della matrice di covarianza sono diversi da zero. Rimuovere la colinearità quindi significa ridurre la matrice di covarianza in forma diagonale introducendo delle nuove variabili latenti. La tecnica della analisi delle componenti principali consente, tra le altre cose, di ottenere questo risultato. 7 Esempio di matrici di covarianza e luoghi di punti isoprobabili Ci sono tre esempi notevoli di matrici di covarianza in termini di correlazione tra le variabili. Come esempio usiamo una distribuzione bivariata #! = " & $ % " ' ( Variabili scorrelate Varianze diverse #! = " & $ % " ' ( Variabili scorrelate Varianze uguale $ " = # x # xy ' & ) %# xy # y ( Variabili correlate8 Varianze diverse!

PDF multivariata e matrice di covarianza La normale multivariata ha senso solo se la matrice di covarianza descrive grandezze correlate tra loro, cioè se la matrice è non diagonale. Infatti per due grandezze (x e y) tra loro non correlate ed indipendenti la probabilità di osservare contemporaneamente il valore di x e di y è semplicemente il prodotto delle due distribuzioni univariate: P( x,y) = P( x) " P( y)! 9 La matrice di covarianza in forma canonica La matrice di covarianza può essere scritta in forma diagonale con un adeguato cambiamento del sistema di riferimento. Tale sistema di riferimento corrisponde agli autovettori della matrice di covarianza, cioè agli assi principali dell ellisse costruita come forma quadratica dalla matrice di covarianza stessa. Tale operazione rende le variabili scorrelate e la PDF prodotto di PDF univariate. D altro canto le nuove variabili non sono più degli osservabili fisici (oggetto di misurazioni) ma sono combinazioni lineari di queste. Le nuove variabili prendono il nome di Componenti Principali e l insieme di procedure di calcolo e interpretazione delle componenti principali si chiama analisi delle componenti principali (PCA) # a " x + b" xy + c " y = [ x y] " a b & # x& % (" % ( $ b c' $ y' [ ] " ) * " u + * " w = u w #* & # u& % (" % ( $ o * ' $ w'!

Dimensioni del data set Se le variabili di un fenomento multivariato hanno un certo grado di correlazione allora i vettori rappresentativi del fenomeno tenderanno ad occupare solo una porzione dello spazio degli osservabili. Quindi una veriabile di dimensione N riempie uno spazio di dimensione minore Example: linear sensors Spazio delle variabili indipendenti # s = k " g + k " g $ % s = k " g + k " g Gas Sensori specifici k =k = Sensori non specifici ma diversi K ; k ; k ; k diversi Gas Non specifi ed uguali! Sensor Sensor Sensor Sensor Sensor C= Dim= C> and < Dim intermedia Sensor C= Dim= Principal Component Analysis Lo scopo della PCA è la rappresentazione di un insieme di dati con matrice di covarianza non diagonale e di dimensione N in uno spazio di dimensione minore di N in cui gli stessi dati siano rappresentati da una matrice di covarianza diagonale. La diagonalizzazione si ottiene con una rotazione delle coordinate nella base degli autovettori (componenti principali). Ad ogni autovettore è associato un autovalore a cui corrisponde la varianza della componente principale associata. Se le variabili originarie erano parzialmente correlate tra loro alcuni autovalori avranno un valore trascurabile. In pratica gli autovettori corrispondenti possono essere trascurati e limitare la rappresentazione solo agli autovettori con gli autovalori più grandi. Poiché la matrice di covarianza nella base delle componenti principali è diagonale la varianza totale è la somma delle varianze delle singole componenti principali. 6

PCA e proiezione La PCA è uno dei possibili modelli che danno luogo alla riduzione delle dimensioni, in pratica si tratta di una proiezione ortogonale dallo spazio originale allo spazio delle componenti principali i cui autovalori associati siano quelli di valore maggiore. s = W! x PCA PCA è un metodo detto del secondo ordine poiché sia le nuove coordinate che il criterio per la riduzione delle dimensioni si basano unicamente sulle proprietà della matrice di covarianza La varianza è detta momento secondo dei una distribuzione ed è proporzionale al quadrato della variabile Momento primo: media; secondo: varianza; terzo: skewness;.. Quindi la PCA si basa sulla ipotesi che la variabile x sia distribuita normalmente La media è in genere resa nulla e quindi tutta l informazione statistica è contenuta nella matrice di covarianza Solo in questo caso le singole componenti principali saranno indipendenti e la probabilità multivariata diventa il prodotto delle probabilità univariate Nel caso contrario si ottiene unicamente lo scorrelazione delle componenti principali 7

Interpretazione geometrica della PCA Ellisse della matrice di covarianza Spazio osservabili variabile PCA Spazio comp. Princ. pc "! # T $ = S % S = & o! ' ( ) % " = X T # X = $ x $ xy ( ' * & $ xy $ y ) variabile! = " # $ " T T X X L T S = X " L ; X = S " L pc! Spazio ridotto T = X " P + E pc Riduzione delle dimensioni autovalore # pc # pc Confronto autovalori: una PC ha un contenuto di informazione maggiore rispetto all altra! PCA: scores e loadings Le nuove coordinate dei vettori corrispondenti alle osservazioni (le righe della matrice x) nella base delle componenti principali prendono il nome di scores I coefficienti delle combinazioni lineari che definiscono le componenti principali sono detti loadings Il loading quindi fornisce una misura del contributo di ogni osservabile alle componenti principali. I loadings sono anche rappresentabili come scores in quanto sono la proiezione degli assi originali nel sottospazio identificato dalla componenti principali, quindi scores e loadings possono essere graficati insieme s.8 Biplot: (o) normalized scores, (+) loads pc.6 pc s PC (.%).. -. 9 8 7 6 s loadings -. 6 6 -.6 -. -. -. -.......6 PC (8.9%) 8

PCA matrix Decomposition PCA Può essere considerata come la scomposizione della matrice X nella base delle componenti principali. M X = st PC nd PC M th PC score loading M score loading M score loading * + + + * * M N N Limitare la scomposizione alla componente p (p<m) significa reiettare una parte dei dati T X nm = S np " L pm + Residual 7! PCA, correlazione e rumore Il rumore è un termine aggiuntivo stocastico proprio di ogni grandezza osservabile. Il rumore è il termine che rende statistica l operazione di misura. Date N variabili il rumore che affetta ognuna di esse è scorrelato rispetto al rumore che affetta le altre. Le componenti principali descrivono le direzioni di massima correlazione tra i dati, per cui le PC di ordine più elevato sono orientate verso le direzioni di massima correlazione e quelle di ordine inferiore verso le direzioni di scarsa correlazione. Limitare la decomposizione alle componenti principali di ordine più elevato significa quindi trattenere le direzioni di massima correlazione e rimuovere quelle non correlate, nella parte non correlata c è sicuramente il rumore (ma non solo quella!!) La PCA quindi è un metodo per ridurre la quantità di rumore in un set di dati multivariati. esempio: spettroscopia, GC, 8 9

Esempio di rimozione del rumore: Reflectance Anisotropy Spectroscopy di superfici organiche ordinate PC PC- Original Spectra X residuo 9 Esempio: SnO sensori for gas G f /G i CO NO.8.6.778...9899.78.969....6.79...978. -... -.86 -.86 -.768.. -.879.8 -.69.. -.67 -.88 -.67.. -.696 -.77 -.86...7.7.6777.. -.89. -.76.. -.6879 -.79 -.98....77.98.. NO [ppm]..... 6 7 8 9 CO [ppm]

PCA score plot Scores Plot.,. 8 CO, NO.,, PC (8.%) -. -, 7 6,., 9,. -. - - - - PC (77.%) PCA bi-plot Biplot: (o) normalized scores, (+) loads. 8 PC (8.%) 9 7 6 -. -.8 -.6 -. -....6.8 PC (77.%)

Sensor vs sensor.7.6 CO.. sensor... -. - NO -. - -.. sensor Residual of PCA representation (leverage) x i = a! s + b! s + + n! s n x i pca = a! pc +b! pc + residual Scores Plot x - Scores Plot.. 8. 8 Q Residual.. PC (8.%) -. - 7 -. - - - - PC (77.%) 6 9. PC (8.%) - - 7-9 6 - PC (77.%)

Significato del residuo Il residuo altro non è che l ammontare dell informazione per quel dato che non è racchiusa nelle prime componenti principali prese in considerazione come modello. Un alto valore del residuo da parte di uno o più dati, significa che tali dati sono dissimili dai restanti presenti nel dataset. Tale parametro serve ad identificare abbastanza rapidamente delle possibili misure non corrette all interno del set di dati (outliers). Bisogna però ricordare che prima di una repentina eliminazione di tali dati è necessario valutare la possibilità che esse descrivano una parte del fenomeno non presa in considerazione fino a quel momento. Procedura PCR DATI X cal PCA PC & Y cal X cal Y cal X Y MLR X vall Y vall CALIBRAZIONE B VALIDAZIONE Errore= Y val - Y est Y est = X val * B 6

Algoritmo PCR Y = X * B Original problem PCA X P T = T * + E Y = T P T * * B PCR 7 Algoritmo PCR X T " X # $ " P T + E T = X " P X = T " P T $ # ' & ) " = & % # ) N ( Y = X " B T = T " Q T = T " P T " B T # B T = P " Q T ( ) " B T! ( ) % " X T " B T = ( P " $ % " P T ) " X T "Y ( ) " P "T T "Y = P " $ % "T T "Y Y = X " P " P T B T = X T X B T = P " $ % " P T 8!

Esempio: Spettri NIR di frutta secca Supponiamo di aver raccolto 6 spettri NIR di frutta secca e di voler realizzare un modello per la misura del contenuto di umidità e di acidità totale. Ogni spettro è formato da 88 variabili corrispondenti ai canali spettrali nell intervallo.-.!m. Per ogni specie di frutta sono stati misurati umidità ed acidità con metodi di riferimento. Vogliamo quindi realizzare il seguente modello che dallo spettro X ci consente di ricavare i due parametri Y. E necessario quindi stimare il parametro K Y x = X x 88 " K 88x! 9 Inciso sugli spettri Spesso gli spettri ottici, in particolare quelli NIR, sono affetti da drift in lunghezza d onda detto baseline drift La baseline può essere eliminato derivando numericamente lo spettro Un altro metodo, sempre basato sulla derivata. è la normalizzazione di Savitzky-Golay..8. 9. 8.6 A bs orbance. 7. 6. Absorbance... -.. -.. Wavelenght [ nm] -.6 Wavelenght [nm]

Matrice X e matrice di covarianza samples TextEnd absorbances..8.6.. Colinearità elevata I blocchi di elevata correlazione (+ e -) corrispondono alle righe spettrali Colonne colorate nella matrice di assorbanza covarianza -..8 -..6 6 7 8 Wavelenght [nm]. Spectral Channels TextEnd. -. 6 -. 7 -.6 8 -.8 6 7 8 Spectral Channels Calcolo della PCA Riduciamo gli spettri a media nulla in modo che se l ipotesi di distribuzione normale è soddisfatta, tutta l informazione è contenuta nella matrice di covarianza. Calcolo di autovettori ed autovalori Eigenvalue Eigenvalue vs. Principal Component Principal Component I primi autovalori hanno un valore considerevolmente diverso da zero. Gli 88 spettri, vettori in uno spazio a dimensione 88, sono in buona parte confinati in un sottospazio a dimensione. 6

Autovalori e varianza eigenvalue explained variance [%] total variance [%] 9 8 7 6 PC PC PC st SCORE 8 6 - - -6-8 - SAMPLES. Scores e loadings nd SCORE 8 6 - - -6-8 - SAMPLES.. rd SCORE - - - - - -6-7 SAMPLES........ Loadiings. -. -. -. -. C anali spettrali -. -...8.6.. -. -...8.6.. -. -...8.6.. Spettro originale -. -. -. -. -. -. -.6 -.6 -.6 7

Scores plot PC (.%) 8 6 - - -6-8 9 6 7 8 6 6 Scores Plot 7 6 8 9 7 - - -8-6 - - 6 8 PC (6.%) 8 9 PC ( 8.%) - - - - - -6 6 9 7 6 8 6 Scores Plot 7 8 6-7 - -8-6 - - 6 8 PC (6.%) 7 8 9 9 Decomposizione e residui Prima PC Seconda PC Terza PC.......8.8.8.6.6.6...... -. -. -. -. -. -.. -.6 6 7 8 9 x - -.6 6 7 8 9 Residui -.6 6 7 8 9. x -.... -. - - -. - -. - -. 6 7 8 9-6 7 8 9 -. 6 7 6 8 9 8

Calcolo della Principal Components Regression (PCR) Separiamo il set di dati in due: 6 per il calcolo del modello PC cal, Y cal per la valutazione dell errore PC val, Y val Dal modello si calcola la matrice di regressione B pcr Y cal = X cal " B T # B T = P " $ % " T T "Y cal Si calcola poi la stima sul set di validazione (e per confronto anche su quello di calibrazione)! Si valuta RMSEC ed RMSECV r stimay cal = X cal " B T stimay val = X val " B T! 7 calibrazione Esempio risultati test x -... x -..... x -...6.8...6.8 x -.7.7.7.7.6.68.6.66..8.6.6.6.66.68.7.7.7.6.6.6.66.67.68.69.7.7.7 RMSEC acidità =. - RMSEC umidità =. RMSECV acidità =.9 - RMSECV umidità =.9 8 9

Altre applicazioni della PCA 9 sensors for gases 8 7 6 toluene [ppm] 6 7 8 n-octane [ppm]

PCA scores Scores Plot n-octane. 7 Sensor Space PC ( 6.%) -. 6 9 6 9 8 8 7 - toluene -. - - - - - PC (9.8%) Linear normalisation Extraction of qualitative information s i = K ij " c j # s i = s i $ s = K " c ij j m $ K mj " c j m m = K ij $ m K mj!

Linear normalization Scores Plot 8 6 PC (.97%) - - 6 9 9 7 8 7 toluene - n-octane - - - - - PC (76.8%) Chemical Sensor Array measurements of two wines: Score plot. Scores Plot Cortese PC (.8%). Infra-class variance Inter-class variance -. Barbera - - - - - 6 PC (9.6%)

Peaches measurements: raw data ph sucrose glucose fructose malic acid citric acid baby gold. 8.8.8..6. grezzano. 7..6.8.. iris rosso...9...6 maria aurelia. 7..8...6 snow queen.9.7.8... spring star.6 9...9.. super crimson.7 8....9.6 venus. 7..6..7. argento roma.6..9... beauty lady.9 8...7.6. big top. 8.6.9... doucer. 9.8.7.8.. felicia.6 9..... kurakata. 6.9.6.8.. lucie.9 6..8..7. morsinai..8.6.9..6 oro.8 7.7...6. royal glory. 6.7.8.9.. sensation.7.6.... sweet lady...... youyeong.9 8.8.8... Peach Measurements : Bi-Plot PC (.99%).6 6 citric ac. malic ac... -. -. -.6 6 7 6 9 8 Biplot: (o) normalized scores, (+) loads glucose fructose 9 7 8 sucrose ph -.8 -. -....6.8 PC (8.%) 6

Applicazione alla analisi delle immagini Un immagine digitalizzata può essere considerata come una matrice NxM nel caso di immagine a scala di grigio (bianco nero) o NxMx (nel caso di immagine a colori) Considerando una immagine in una scala di tonalità la possiamo considerare come una matrice ed applicare la PCA Più avanti considereremo le strutture dimensionali di dati. La decomposizione PCA può mettere in evidenza alcune strutture peculiari dell immagine permettendo quindi di studiare le caratteristiche dell immagine stessa. 7 PCA: Application to Image Analysis (example : I) STM image of Sapphyrin molecules growth as a Langmuir-Blodgett film onto a gold substrate. 6 8 6 8 6 8 8 Au grains Sapphyrins

PCA: Application to Image Analysis (example : II) 6 6 6 8 8 8 6 8 6 8 6 8 6 8 6 8 6 8 X = S T! L X = S T :! L X = S T : :! L : 9 PCA: Application to Image Analysis (example : III) The residuals of the expansion at the tenth PC put in evidence the sapphyrine film only. 6 8 T X! S : " L : 6 8 6 8

PCA: Application to Image Analysis (example : I) Caravaggio Deposition PCA: Application to Image Analysis (example : II) T X = S :! L : T X! S : " L : 6

Altre applicazioni Analisi dell immagini provenienti da strumenti biomedici ad esempio. Fig.. Principal component analysis of simulated waveforms. Two waveforms with different latencies and with response failures were simulated and mixed. Either non-quantal or quantal release with two release sites was suggested. (A) Simulated waveforms with shorter (Comp. ) and longer (Comp. ) latencies and also their mixture (column a) and the same waveforms contaminated with noise (column b)(b) Plot of the scores of the two initial principal components from the experiments with simulations of non-quantal (a) and quantal (b) waveforms. Note characteristic parallelograms suggesting the presence of two components. (C) The scores of the third principal component plotted against the first (a) and the fourth (b) ones. Note the narrow band (a) and the cloud (b) suggesting that the third and fourth components were absent. (D) Alignment procedure and extraction of the simulated waveforms. The plots and represent transformed ( aligned plots of Ba and Bb, respectively. Note that the parallelograms of transformed into rectangular fields. Insets ( ) show waveforms obtained by averaging the simulations corresponding to the dots from different parts of the plots in b 7

6 8