Struttura e proprietà degli alimenti Analisi delle Componenti Principali Dott. Rossella Di Monaco Dipartimento di Scienza degli Alimenti CORSO di LAUREA MAGISTRALE in SCIENZE E TECNOLOGIE ALIMENTARI
La determinazione di una sola variabile su molti campioni o di molte variabili su un solo campione è il campo di applicazione dell analisi statistica univariata. Quando sia le variabili che i campioni sono più di uno, l elaborazione dei dati prevede l applicazione dell analisi statistica multivariata.
L analisi statistica multivariata è una tecnica di elaborazione dei dati utilizzata per cercare delle relazioni tra diversi blocchi di variabili: (variabili strumentali e variabili sensoriali, dati sensoriali e dati di accettabilità, ecc.).
Una tecnica multivariata esamina una matrice di dati formata da n righe, ciascuna delle quali corrisponde ad un campione, e da p colonne, che rappresentano le p variabili considerate.
Scalatura Le variabili che si presentano nel trattamento di un problema multivariato possono essere di natura differente e possono quindi venire espresse da diverse unità di misura. La maggior parte dei metodi statistici richiede quindi che venga effettuato un pretrattamento dei dati per eliminare l'effetto delle diverse unità di misura e dare a ciascuna variabile lo stesso peso a priori.
L analisi multivariata dei dati prevede due approcci fondamentali: 1. Tecniche statistiche applicate ad un set di dati nel quale tutte le variabili sono indipendenti. Tali metodiche comprendono l analisi delle correlazioni, l analisi delle componenti principali (PCA) e l analisi dei cluster; 2. Tecniche statistiche applicate ad un set di dati nel quale ci sono sia variabili indipendenti sia variabili dipendenti. Le metodiche più utilizzate sono l analisi della regressione, la regressione sulle componenti principali (PCR) e l analisi delle variabili latenti (PLS).
ANALISI DELLE COMPONENTI PRINCIPALI (PCA)
Obiettivi della PCA La PCA, è un metodo frequentemente impiegato nella prima fase di elaborazione dei dati perché serve a: dare una visione generale del problema; capire le relazioni tra i campioni e/o le classi considerate; fornire un'indicazione preliminare sul ruolo delle variabili, mettendo eventualmente in luce la possibilità di eliminarne alcune che, essendo strettamente correlate tra loro, portano informazioni simili e possono quindi essere considerate ridondanti.
La PCA è un metodo fattoriale, in quanto consente la riduzione del numero delle variabili attraverso la costruzione di nuove variabili sintetiche, chiamate componenti principali, ricavate da combinazioni lineari delle variabili iniziali a mezzo di "fattori.
Il numero di questi nuovi assi (le componenti principali, PCi) è pari al numero di variabili originali. Le componenti principali sono gli assi relativi alle direzioni di massima varianza, in ordine via via decrescente, la prima componente principale sarà in grado di spiegare la maggior percentuale di varianza, la seconda ne spiegherà un po' meno, la terza meno ancora e così via.
La i-esima componente principale (pc i ) è la combinazione lineare delle variabili originarie (x j ) espressa come: pc = a x + a x +... + i i1 1 i2 2 a ij x j [1] in cui a ij sono i coefficienti (loadings). L'importanza delle variabili su ciascuna componente principale può essere valutata mediante i valori dei coefficienti che sono compresi tra -1 e +1. L esplicitazione della [1] permette di determinare i punteggi (scores), ossia le coordinate dei campioni nello spazio.
pc = a x + a x +... + i i1 1 i2 2 a ij x j PLOT dei loadings Mappa sulla quale sono rappresentate le variabili misurate in forma di vettori. PLOT degli scores Mappa sulla quale sono rappresentati i campioni analizzati come punti. BIPLOT Loadings e scores
Un aspetto di grande rilevanza nello studio di problemi multivariati riguarda la possibilità di "vedere" graficamente i dati. L'analisi delle componenti principali ci fornisce rappresentazioni grafiche molto efficaci.
Un campione su cui sono state misurate N variabili è rappresentato da un punto nello spazio a N dimensioni, in cui ogni variabile rappresenta un asse ortogonale. Con due sole variabili x e y è facile rappresentare graficamente un insieme di campioni: ogni individuo è infatti rappresentato su di un piano come un punto di coordinate x1 e y1. Il semplice esame visivo della dispersione dei punti sul piano permette di ricercare i campioni o i gruppi di campioni con caratteristiche simili.
Se si considerano tre variabili, l esame visivo è ancora possibile ricorrendo a rappresentazioni geometriche tridimensionali. z x y Ovviamente, gli spazi con dimensioni superiori a tre sono difficili da visualizzare, anche se i principi della geometria euclidea valgono ugualmente.
Come si esamina il grafico della PCA? I campioni sono rappresentati da punti e le variabili da vettori aventi origine coincidente con l origine degli assi. Un campione posizionato in senso opposto alla direzione di una variabile, ha un basso contenuto di quella variabile. Quanto più l angolo tra due vettori è prossimo a zero, tanto più essi risultano correlati positivamente, e quanto più l angolo è prossimo a 180 gradi tanto più essi sono correlati negativamente.
Esempio Fig. 1 Fig. 2 Dal grafico in fig. 1 risulta che si formano 2 gruppi di variabili: uno costituito da C1 C2 e C3 (evidenziato in verde), un'altro costituito da C4 e C5, che sono però inversamente proporzionali tra loro. Tale grafico può inoltre essere messo in relazione con i campioni in esame. In fig.2 si evidenzia la presenza di un gruppo omogeneo di campioni (org_1, org_2 e org_3), che si colloca in alto a sinistra nel piano individuato dalle prime due componenti principali ed un secondo gruppo (a_1, a_2 e a_3) situato invece a destra. Si evidenzia tra l'altro la presenza di tre campioni dal comportamento intermedio.
Supponiamo di voler confrontare sei campioni di nettare di mela, sui quali siano stati misurati, oltre al ph, ai gradi Brix e alla consistenza, anche il colore e i descrittori sensoriali (12 variabili).
Attraverso un programma statistico (SPSS, SAS, Statgraph, simca, etc.) la matrice 6x12 (campioni x variabili) viene sottoposta a PCA. Vengono estratte 12 componenti (un numero uguale al numero di variabili originarie) che spiegano via via una percentuale di varianza più bassa. A partire da quale percentuale di varianza spiegata si possono trascurare le restanti componenti principali?
1,5 1 s3 gradi brix PC2 (21%) 0,5 0 b colore c1 c2 L ph granulosità dolce s1 s2-0,5 aroma di mela a consistenza densità acido -1 s4-1,5-1,5-1 -0,5 0 0,5 1 1,5 PC1 (60%) Rappresentazione delle variabili e dei campioni sul piano formato dalle prime due componenti principali
1 2 B 60gg B 28gg pc2 (23%) 0,5 0 Colore Salato Piccante Pungente Untuosità Crosta Durezza a/b L WI ph Gradimento 1 0-1 -2 B 42gg B 49gg B 35gg C 21gg A 21gg D 28gg C 7gg B 14gg A 28gg C 28gg D 21gg C 42gg C 49gg A 14gg A 7 gg A 49gg D 7gg D 49gg B 7gg C 35gg D 14gg Fresco C 60gg A 21gg C 14gg D 60gg A 35gg -0,5 Ur% aw Burro Deformabilità Pastosità -3 Umidità visiva -4-1 -1-0,5 0 0,5 1 pc1 (54%) A 60gg -5-3,5-2,5-1,5-0,5 0,5 1,5 Fig. 4. PCA: Rappresentazione delle variabili (n= ( 18) e dei campioni (4 film x 8 tempi = 32).
1 a) PCA 5 rancidity hazelnut flavor 0 adhes. spoon adhes. mouth meltability flouriness grainess oiliness sweetness brightness spreadability fluidiness creme spalmabili 5 cocoa flavor Scores plot 1-1 -0.5 0 0.5 1 3 b) Loadings plot PC2 (22%) 2 1 0-1 J N G D FE O H K L C I B -2-3 A M -4-5 -4-3 -2-1 0 1 2 3 4 5 PC 1 (46%)
Analisi Descrittiva Quantitativa Salame tipo Napoli 1,5 1 1 0,5 D C H B 0,5 sapore salato odore di fumo odore di stagionato q. nervi compattezza della fetta retrogusto pungente pc2 (28%) 0-0,5 A 0 untuosità colore rosso pelabilità dimensione dei lardelli -1 E G F -0,5 masticabilità quantità di grasso flavour di pepe q. di pepe macinato -1,5-1,5-1 -0,5 0 0,5 1 1,5 pc1 (46%) Analisi delle Componenti Principali: score plot -1-1 -0,5 0 0,5 1 Analisi delle Componenti Principali: loadings plot
Salame di Mugnano del Cardinale 2 1 retrogusto pungente Pc2 (19%) 1 0-1 E A F C H D G 0 masticabilità q. di nervi q. di grasso untuosità dimensione dei lardelli sapore salato odore di fumo colore rosso flavour di pepe compattezza della fetta odore di stagionato pelabilità B -2-2 -1 0 1 2 pc1 (54%) -1 q, di pepe macinato -1 0 1 Analisi delle Componenti Principali: score plot Analisi delle Componenti Principali: loadings plot