Analisi delle Componenti Principali



Documenti analoghi
ANALISI DEI DATI PER IL MARKETING 2014

Metodi Multivariati: Analisi delle Componeti Principali (PCA)

Statistica multivariata Donata Rodi 21/11/2016

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

Statistica multivariata 27/09/2016. D.Rodi, 2016

Analisi Multivariata Prova intermedia del 20 aprile 2011

Analisi delle corrispondenze

L Analisi delle Componenti Principali applicata a dati sensoriali derivanti dall analisi descrittiva.

TEST DI AUTOVALUTAZIONE STATISTICA DESCRITTIVA

Psicometria con Laboratorio di SPSS 2

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

STUDIO DELLA COMPOSIZIONE E DEL POTERE ANTIOSSIDANTE DI PRODOTTI DERIVATI DA MIRTILLI

Statistica multivariata

Generazione di Numeri Casuali- Parte 2

I sapori della qualità. Come addestrare i nostri sensi.

Analisi delle corrispondenze

Analisi della varianza

FUNZIONE DI UTILITÀ CURVE DI INDIFFERENZA (Cap. 3)

Statistica multivariata

ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM)

REGRESSIONE E CORRELAZIONE

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante.

ANALISI MULTIDIMENSIONALE DEI DATI (AMD)

Analisi delle Componenti Principali con R

La matrice delle correlazioni è la seguente:

Facoltà di Scienze Politiche Corso di laurea in Servizio sociale. Compito di Statistica del 7/1/2003

TECNICHE DI POSIZIONAMENTO

MISURE DI SINTESI 54

Sistemi di equazioni lineari

GRIGLIA DI CORREZIONE 2013 Matematica Classe I Scuola secondaria di primo grado FASCICOLO 1

Quadro riassuntivo di geometria analitica

Analisi in Componenti Principali (ACP)

La Retta Ogni funzione di primo grado rappresenta, graficamente, una retta. L equazione della retta può essere scritta in due modi

Analisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca

Capitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset

Differenze tra metodi di estrazione

L analisi sensoriale applicata al formaggio

STATISTICA. Regressione-2

Analisi in componenti principali

RISULTATI dell ANALISI SENSORIALE per un UN PROGETTO di RICERCA sulle caratteristiche del PROSCIUTTO di BASSIANO

Analisi delle componenti principali

Argomenti della lezione:

Argomenti della lezione:

CARATTERISTICHE SENSORIALI DEI PRODOTTI OGGETTO DELLA RICERCA

UNITÀ DIDATTICA 5 LA RETTA

Esercitazioni di Statistica

La matematica del CAD. Vettori e Matrici

L ANALISI SENSORIALE NELLA CERTIFICAZIONE DELLE DENOMINAZIONI DI ORIGINE TRA EUROPA E ITALIA: METODI E PROSPETTIVE

B6. Sistemi di primo grado

STATISTICA 1 ESERCITAZIONE 6

Capitolo 12 La regressione lineare semplice

UTILIZZO DELL ANALISI DELLE COMPONENTI PRINCIPALI (PCA) DI DATI HVSR FINALIZZATO ALLA ZONAZIONE SISMICA

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

Lezioni di Microeconomia

Transcript:

Struttura e proprietà degli alimenti Analisi delle Componenti Principali Dott. Rossella Di Monaco Dipartimento di Scienza degli Alimenti CORSO di LAUREA MAGISTRALE in SCIENZE E TECNOLOGIE ALIMENTARI

La determinazione di una sola variabile su molti campioni o di molte variabili su un solo campione è il campo di applicazione dell analisi statistica univariata. Quando sia le variabili che i campioni sono più di uno, l elaborazione dei dati prevede l applicazione dell analisi statistica multivariata.

L analisi statistica multivariata è una tecnica di elaborazione dei dati utilizzata per cercare delle relazioni tra diversi blocchi di variabili: (variabili strumentali e variabili sensoriali, dati sensoriali e dati di accettabilità, ecc.).

Una tecnica multivariata esamina una matrice di dati formata da n righe, ciascuna delle quali corrisponde ad un campione, e da p colonne, che rappresentano le p variabili considerate.

Scalatura Le variabili che si presentano nel trattamento di un problema multivariato possono essere di natura differente e possono quindi venire espresse da diverse unità di misura. La maggior parte dei metodi statistici richiede quindi che venga effettuato un pretrattamento dei dati per eliminare l'effetto delle diverse unità di misura e dare a ciascuna variabile lo stesso peso a priori.

L analisi multivariata dei dati prevede due approcci fondamentali: 1. Tecniche statistiche applicate ad un set di dati nel quale tutte le variabili sono indipendenti. Tali metodiche comprendono l analisi delle correlazioni, l analisi delle componenti principali (PCA) e l analisi dei cluster; 2. Tecniche statistiche applicate ad un set di dati nel quale ci sono sia variabili indipendenti sia variabili dipendenti. Le metodiche più utilizzate sono l analisi della regressione, la regressione sulle componenti principali (PCR) e l analisi delle variabili latenti (PLS).

ANALISI DELLE COMPONENTI PRINCIPALI (PCA)

Obiettivi della PCA La PCA, è un metodo frequentemente impiegato nella prima fase di elaborazione dei dati perché serve a: dare una visione generale del problema; capire le relazioni tra i campioni e/o le classi considerate; fornire un'indicazione preliminare sul ruolo delle variabili, mettendo eventualmente in luce la possibilità di eliminarne alcune che, essendo strettamente correlate tra loro, portano informazioni simili e possono quindi essere considerate ridondanti.

La PCA è un metodo fattoriale, in quanto consente la riduzione del numero delle variabili attraverso la costruzione di nuove variabili sintetiche, chiamate componenti principali, ricavate da combinazioni lineari delle variabili iniziali a mezzo di "fattori.

Il numero di questi nuovi assi (le componenti principali, PCi) è pari al numero di variabili originali. Le componenti principali sono gli assi relativi alle direzioni di massima varianza, in ordine via via decrescente, la prima componente principale sarà in grado di spiegare la maggior percentuale di varianza, la seconda ne spiegherà un po' meno, la terza meno ancora e così via.

La i-esima componente principale (pc i ) è la combinazione lineare delle variabili originarie (x j ) espressa come: pc = a x + a x +... + i i1 1 i2 2 a ij x j [1] in cui a ij sono i coefficienti (loadings). L'importanza delle variabili su ciascuna componente principale può essere valutata mediante i valori dei coefficienti che sono compresi tra -1 e +1. L esplicitazione della [1] permette di determinare i punteggi (scores), ossia le coordinate dei campioni nello spazio.

pc = a x + a x +... + i i1 1 i2 2 a ij x j PLOT dei loadings Mappa sulla quale sono rappresentate le variabili misurate in forma di vettori. PLOT degli scores Mappa sulla quale sono rappresentati i campioni analizzati come punti. BIPLOT Loadings e scores

Un aspetto di grande rilevanza nello studio di problemi multivariati riguarda la possibilità di "vedere" graficamente i dati. L'analisi delle componenti principali ci fornisce rappresentazioni grafiche molto efficaci.

Un campione su cui sono state misurate N variabili è rappresentato da un punto nello spazio a N dimensioni, in cui ogni variabile rappresenta un asse ortogonale. Con due sole variabili x e y è facile rappresentare graficamente un insieme di campioni: ogni individuo è infatti rappresentato su di un piano come un punto di coordinate x1 e y1. Il semplice esame visivo della dispersione dei punti sul piano permette di ricercare i campioni o i gruppi di campioni con caratteristiche simili.

Se si considerano tre variabili, l esame visivo è ancora possibile ricorrendo a rappresentazioni geometriche tridimensionali. z x y Ovviamente, gli spazi con dimensioni superiori a tre sono difficili da visualizzare, anche se i principi della geometria euclidea valgono ugualmente.

Come si esamina il grafico della PCA? I campioni sono rappresentati da punti e le variabili da vettori aventi origine coincidente con l origine degli assi. Un campione posizionato in senso opposto alla direzione di una variabile, ha un basso contenuto di quella variabile. Quanto più l angolo tra due vettori è prossimo a zero, tanto più essi risultano correlati positivamente, e quanto più l angolo è prossimo a 180 gradi tanto più essi sono correlati negativamente.

Esempio Fig. 1 Fig. 2 Dal grafico in fig. 1 risulta che si formano 2 gruppi di variabili: uno costituito da C1 C2 e C3 (evidenziato in verde), un'altro costituito da C4 e C5, che sono però inversamente proporzionali tra loro. Tale grafico può inoltre essere messo in relazione con i campioni in esame. In fig.2 si evidenzia la presenza di un gruppo omogeneo di campioni (org_1, org_2 e org_3), che si colloca in alto a sinistra nel piano individuato dalle prime due componenti principali ed un secondo gruppo (a_1, a_2 e a_3) situato invece a destra. Si evidenzia tra l'altro la presenza di tre campioni dal comportamento intermedio.

Supponiamo di voler confrontare sei campioni di nettare di mela, sui quali siano stati misurati, oltre al ph, ai gradi Brix e alla consistenza, anche il colore e i descrittori sensoriali (12 variabili).

Attraverso un programma statistico (SPSS, SAS, Statgraph, simca, etc.) la matrice 6x12 (campioni x variabili) viene sottoposta a PCA. Vengono estratte 12 componenti (un numero uguale al numero di variabili originarie) che spiegano via via una percentuale di varianza più bassa. A partire da quale percentuale di varianza spiegata si possono trascurare le restanti componenti principali?

1,5 1 s3 gradi brix PC2 (21%) 0,5 0 b colore c1 c2 L ph granulosità dolce s1 s2-0,5 aroma di mela a consistenza densità acido -1 s4-1,5-1,5-1 -0,5 0 0,5 1 1,5 PC1 (60%) Rappresentazione delle variabili e dei campioni sul piano formato dalle prime due componenti principali

1 2 B 60gg B 28gg pc2 (23%) 0,5 0 Colore Salato Piccante Pungente Untuosità Crosta Durezza a/b L WI ph Gradimento 1 0-1 -2 B 42gg B 49gg B 35gg C 21gg A 21gg D 28gg C 7gg B 14gg A 28gg C 28gg D 21gg C 42gg C 49gg A 14gg A 7 gg A 49gg D 7gg D 49gg B 7gg C 35gg D 14gg Fresco C 60gg A 21gg C 14gg D 60gg A 35gg -0,5 Ur% aw Burro Deformabilità Pastosità -3 Umidità visiva -4-1 -1-0,5 0 0,5 1 pc1 (54%) A 60gg -5-3,5-2,5-1,5-0,5 0,5 1,5 Fig. 4. PCA: Rappresentazione delle variabili (n= ( 18) e dei campioni (4 film x 8 tempi = 32).

1 a) PCA 5 rancidity hazelnut flavor 0 adhes. spoon adhes. mouth meltability flouriness grainess oiliness sweetness brightness spreadability fluidiness creme spalmabili 5 cocoa flavor Scores plot 1-1 -0.5 0 0.5 1 3 b) Loadings plot PC2 (22%) 2 1 0-1 J N G D FE O H K L C I B -2-3 A M -4-5 -4-3 -2-1 0 1 2 3 4 5 PC 1 (46%)

Analisi Descrittiva Quantitativa Salame tipo Napoli 1,5 1 1 0,5 D C H B 0,5 sapore salato odore di fumo odore di stagionato q. nervi compattezza della fetta retrogusto pungente pc2 (28%) 0-0,5 A 0 untuosità colore rosso pelabilità dimensione dei lardelli -1 E G F -0,5 masticabilità quantità di grasso flavour di pepe q. di pepe macinato -1,5-1,5-1 -0,5 0 0,5 1 1,5 pc1 (46%) Analisi delle Componenti Principali: score plot -1-1 -0,5 0 0,5 1 Analisi delle Componenti Principali: loadings plot

Salame di Mugnano del Cardinale 2 1 retrogusto pungente Pc2 (19%) 1 0-1 E A F C H D G 0 masticabilità q. di nervi q. di grasso untuosità dimensione dei lardelli sapore salato odore di fumo colore rosso flavour di pepe compattezza della fetta odore di stagionato pelabilità B -2-2 -1 0 1 2 pc1 (54%) -1 q, di pepe macinato -1 0 1 Analisi delle Componenti Principali: score plot Analisi delle Componenti Principali: loadings plot