Applicazione della spettroscopia FT-NIR per un identificazione rapida e non distruttiva di diverse varietà di riso e risone Elisa Bertone*, Alberto Venturello*, Francesco Geobaldo* * Dipartimento di Scienza Applicata e Tecnologia, Politecnico di Torino, Corso Duca degli Abruzzi, 24 10129 Torino Riassunto Questo lavoro si propone di valutare l'applicabilità della spettroscopia nel vicino infrarosso (FT- NIR) come metodo non distruttivo per la classificazione di diverse varietà di riso e di risone. L identificazione della varietà è stata realizzata attraverso l'elaborazione di modelli predittivi, utilizzando come metodi di classificazione la LDA (Linear Discriminant Analysis) e SIMCA (Soft Independent Modelling by Class Analogy). Per il risone si ottiene con metodo LDA una corretta classificazione al 99.62% in cross validazione e 81.25% in validazione esterna. Questo dato assume particolare rilievo se si considera una potenziale applicazione del metodo per un controllo varietale durante le prime fasi di gestione post-raccolta del prodotto. I risultati ottenuti con il metodo SIMCA mostrano una buona capacità discriminante dei modelli ottenuti (80% di campioni correttamente classificati). Introduzione Il riso (Oryza sativa L.) è un alimento basilare per l alimentazione umana, che contribuisce al sostentamento di due terzi della popolazione mondiale. In termini di qualità finale del prodotto, la varietà è un fattore fondamentale, che implica differenze in termini di dimensioni, forma e composizione. Una gestione del raccolto non ottimale può determinare una limitata purezza varietale e, di conseguenza, una drastica riduzione della qualità. Emerge dunque la necessità di elaborare un metodo veloce, accurato e non distruttivo per classificare il riso e risone appartenente a differenti cultivar, in particolare durante le prime fasi post-raccolta di gestione e stoccaggio del prodotto. È stata utilizzata la metodica FT-NIR in quanto sono a tutt oggi moltissime le applicazioni di questa tecnica all ambito agroalimentare [1], in particolare sono state ampiamente documentate le potenzialità discriminanti di questa tecnica associata alla chemiometria per la classificazione varietale di una vasta gamma di prodotti [2,3]. Questo studio vuole dimostrare la validità di questo approccio per un identificazione rapida e non distruttiva di diverse varietà di riso e risone nei test di routine. Tra le varietà prese in esame è stata utilizzata una varietà, Carnise, le cui caratteristiche sono state attentamente selezionate dai produttori per essere quanto più possibile somiglianti a quelle di una varietà commerciale nota, Carnaroli. Mediante questo studio si intende verificare quanto queste due varietà varietà risultino simili dal punto di vista della spettroscopia NIR. In 125
questo studio sono stati utilizzati campioni di riso e risone sottoposti a diverse condizioni di conservazione e analizzati a diversi tempo di stoccaggio, al fine di ottenere un modello rappresentativo della variabilità dei campioni, in modo tale da rendere la metodica applicabile in un contesto il più ampio possibile. Sia per il riso che per il risone è stata effettuata l Analisi delle Componenti Principali con lo scopo di valutare le relazioni esistenti tra le varie tipologie di dati; i dati sono stati poi classificati mediante l Analisi Discriminante Lineare, LDA [4] e il metodo SIMCA [5] è stato utilizzato per valutare le capacità discriminanti dei modelli PCA realizzati per ogni varietà. Materiali e Metodi La tabella 1 descrive le diverse condizioni e tempistiche di conservazione dei campioni di riso e risone che costituiscono il dataset sperimentale. Sono stati utilizzati 108 campioni di riso grezzo (risone) e 108 campioni di riso lavorato, suddivisi in due varietà aromatiche e sei non aromatiche. Per ogni varietà, sono state analizzate quattro diverse tempistiche e tre diverse temperature di conservazione: Tipologia di campioni Riso (n=108), risone (n=108) Varietà aromatiche Venere (VE), Apollo (AP) Varietà non aromatiche Antares (AN), Carnaroli (CA), Carnise (CL), Carnise precoce (CP), Cerere (CE) Tempi di conservazione (mesi) 0, 6, 12, 18 mesi Condizioni di conservazione T amb., 5 C, 15 C Tab. 1. Tipologie di campioni di riso e risone utilizzate La risaia sperimentale si trova a Trino (VC). Dopo la raccolta, tutti i campioni analizzati sono stati essicati negli appositi silos; il riso lavorato è stato sottoposto al processo di sbramatura e raffinatura. I campioni sono stati conservati a 4 C prima dell analisi; il quantitativo di campione analizzato per ogni analisi è di ~30 g. Sui campioni non è stato applicato alcun tipo di pre-trattamento. I contributi spettrali sono stati acquisiti mediante uno spettrofotometro FT-NIR MPA (Bruker Optics, Germania) nel range NIR da 12500 a 3500 cm -1, in modalità di riflettanza; per ottenere una maggiore rappresentatività l acquisizione degli spettri è stata realizzata mediante rotazione del vano portacampioni. I dati spettrali sono stati elaborati mediante il software Unscrambler X V.10.2 (CAMO, Norvegia). Al fine di ridurre il rumore dei dati sugli spettri è stato dapprima applicato un pre-trattamento di smoothing (mediante il metodo Savitzky-Golay) e di standardizzazione SNV 126
(Standard Normal Variate). Al fine di identificare le regioni spettrali maggiormente significative per la classificazione in base alla varietà, è stata poi realizzata una selezione delle lunghezze d onda maggiormente significative, basata sull analisi di singole sotto-regioni, mediante il software OPUS (Bruker Optics, Germania). Al dataset risultante sono stati quindi applicate l Analisi delle Componenti Principali, l Analisi Discriminante Lineare e il metodo SIMCA (applicato all analisi PCA delle singole varietà). Risultati e Discussione Al fine di esaltare la massima parte di informazione in funzione della classificazione dei campioni è stata poi effettuata una selezione delle regioni spettrali maggiormente significative, utilizzando il software OPUS. Da questa analisi è risultato che il range spettrale maggiormente informativo sia per il riso che per il risone è 6827-4246 cm -1. La prima parte del lavoro ha previsto l elaborazione di un modello di classificazione utilizzando un approccio multivariato PCA-LDA. L Analisi delle Componenti Principali consente di massimizzare la varianza tra le diverse varietà e di visualizzare la dispersione dei campioni e le relazioni tra le diverse classi. In figura 1a è possibile vedere la proiezione delle prime due componenti principali per il riso (la PC1 spiega il 64% della varianza, la PC2 il 21%), mentre il figura 1b è rappresentato lo score plot delle prime due componenti principali ottenuto per il risone (la PC1 spiega il 92% della varianza, la PC2 il 4%). a) riso b) risone Fig. 1. Score plot relativi alla PC 1 e PC 2 per riso a) e risone b). Per il riso le prime due componenti spiegano l 85% della varianza (PC1 64%; PC2 21%). Per il risone le prime due componenti spiegano il 96% della varianza (PC1 92% e PC2 4%). In legenda sono riportate con colori diversi le varietà utilizzate. Per il riso (fig.1a) si osserva un raggruppamento dei campioni in base alla varietà, in maniera più marcata per le varietà AP e VE (varietà aromatiche), ma è possibile discriminare anche tra le varietà AN, SE e CE. Emerge invece una sovrapposizione tra le varietà CP, CL e CA. Per il risone i 127
campioni della stessa varietà risultano più dispersi e suddivisi in sottogruppi, ipoteticamente in base alle condizioni di conservazione, ma restano valide le osservazioni riportate per la matrice riso. Le componenti principali ottenute dall analisi PCA sono poi state utilizzate come input per realizzare una classificazione dei campioni mediante LDA. La suddivisione del dataset è realizzata in base alle otto varietà (due aromatiche e due non aromatiche) dei campioni e risulta nella costruzione di modelli predittivi per il riso e per il risone. La tabella 2 mostra i risultati percentuali di corretta classificazione dei campioni. I valori sono stati ottenuti mediante cross validazione (cv) del dataset, e mediante una validazione con campioni esterni al modello (ts), al fine di valutare se il modello sia applicabile a campioni incogniti. Tipo campione Validazione AN AP CA CE CL VE CP SE Media RISONE cv 100 100 100 100 100 100 97 100 99.62 ts 100 100 50 75 75 100 50 100 81.25 RISO cv 90 90 70 80 65 90 65 90 80 ts 68 70 50 65 50 70 50 70 61.6 Tab. 2. Valori di corretta classificazione (espressi in %) dei campioni in funzione della varietà. I risultati sono suddivisi in base alle 8 varietà di riso e risone; cv: cross validazione, ts: test set Si osserva come, soprattutto per quanto riguarda il risone, le percentuali di corretta classificazione risultino piuttosto elevate. La tabella 2 riportai anche i valori medi ottenuti, che per il risone si attestano al 99.62% in cv e 81.25% per una validazione esterna (ts). Per il riso, la classificazione risulta meno efficace (valore medio 80% in cv, 61.6% in ts), ma è comunque possibile classificare con una certa significatività le diverse varietà analizzate. Si osserva inoltre come la discriminazione tra le varietà Carnaroli (CA), Carnise (CL) e Carnise precoce (CP, un tipo di Carnise) non risulti particolarmente efficace: per il risone in ts vengono correttamente classificati solamente il 50% dei campioni per CA, 75% per CL e 50% per CP, confermando quanto osservato nell Analisi delle Componenti Principali. Anche osservando la classificazione del riso delle medesime varietà le percentuali non sono particolarmente elevate, nemmeno in cross validazione: vengono associati alla corretta varietà solamente la metà dei campioni delle tre tipologie. La varietà Carnise è il frutto di una attenta selezione dei produttori volta a ricreare in modo quanto più puntuale le caratteristiche della varietà Carnaroli. Uno degli intenti di questo studio è appunto quello di verificare quanto le caratteristiche delle due specie siano simili; i risultati LDA riportati in tabella 2 sembrano indicare una certa somiglianza tra queste tre 128
varietà. A conferma dei risultati ottenuti è stato applicato sui campioni sia di riso che di risone il metodo di classificazione SIMCA. E' stata effettuata su ogni varietà un Analisi delle Componenti Principali, ed i modelli PCA vengono poi validati con campioni incogniti, ottenendo delle tabelle di corretta classificazione delle varietà per ogni modello. Per entrambe le tipologie di campione è stato utilizzato il metodo Mahalanobis e l accuratezza risulta del 99.3% per il risone e 74.69% per il riso. I risultati del metodo SIMCA confermano le osservazioni precedenti: i modelli ottenuti consentono una classificazione efficace delle diverse varietà, in particolare per il risone (si ottiene una corretta classificazione dell'80% dei campioni). I risultati confermano anche la parziale sovrapposizione tra i campioni delle varietà CA, CL e CP. La figura 2 riporta il Coomans plot relativo alle due varietà CA (Carnaroli) e CL (Carnise), il quale misura la distanza tra i campioni in validazione ed i modelli in esame. Questo grafico risulta utile per verificare quanto i due modelli (CA e CL) siano distanti tra loro in base alla dispersione dei campioni nello spazio dato dai due modelli considerati (modello PCA per CA e modello PCA per CL). Si possono osservare in colore blu i campioni del modello PCA della varietà Carnaroli, ed in rosso i campioni del modello PCA della varietà Carnise, in verde i campioni in validazione. Si può notare come i modelli delle due varietà CA e CL si sovrappongano parzialmente (parte in basso a sinistra dei due grafici). Risultati simili si ottengono esaminando il Coomans plot dei modelli CA vs. CP. Queste osservazioni dimostrano come queste varietà risultino particolarmente correlate dal punto di vista dell'analisi NIR. Fig 2. Coomans plot relativo ai modelli PCA ottenuti per le varietà CA (in ascissa) e CL (in ordinata). Accuratezza del modello SIMCA: 99.33%, 8 varietà. Metodo utilizzato: Mahalanobis 129
Conclusioni Sono state valutate le potenzialità della spettroscopia nel vicino infrarosso (FT-NIR) associata ad un analisi multivariata di tipo chemiometrico come metodo non distruttivo per la classificazione di diverse varietà di riso e di risone. E stata inoltre esaminata la somiglianza di una nuova varietà di riso (Carnise) rispetto alla varietà commerciale di cui mira a riproporre le caratteristiche (Carnaroli). E' stata effettuata sul dataset l Analisi delle Componenti Principali, al fine di esaminare graficamente la dispersione dei campioni e le relazioni esistenti tra le classi. Sono stati infine elaborati modelli predittivi per le varietà considerate di riso e risone, utilizzando come metodi di classificazione la LDA e SIMCA. I risultati della LDA mostrano una buona capacità discriminante dei modelli predittivi ottenuti; per il risone, tipologia di maggiore interesse ai fini di un controllo durante la prima fase di lavorazione del prodotto, si ottiene una corretta classificazione al 99.62% in cross validazione e 81.25% in validazione esterna. I risultati ottenuti con il metodo SIMCA mostrano altresì buone performance di classificazione dei modelli ottenuti per le singole varietà mediante Analisi delle Componenti Principali (per il risone ~ 80% di corretta classificazione). Sia l analisi LDA che il metodo SIMCA evidenziano come le varietà Carnise e Carnaroli (e la varietà Carnise precoce) risultino strettamente correlate dal punto di vista dell analisi NIR. Ringraziamenti Questo lavoro è stato realizzato nell ambito del Progetto ITACA (Innovazione Tecnologica, Automazione e nuovi Controlli Analitici per migliorare la qualità e la sicurezza dei prodotti alimentari piemontesi), finanziamento POR FESR 2007/2013. Misura I.1.1 Piattaforme Innovative nell Area scientifico tecnologica Agro-Alimentare - PSR FEASR 2007/2013 Misura 124 Cooperazione per lo sviluppo dei nuovi prodotti, processi e tecnologie nei settori agricolo e alimentare e in quello forestale. Enti finanziatori: Comunità Europea, Ministero dell Istruzione, dell Università e della Ricerca, Regione Piemonte. Si ringraziano l Azienda Agricola Vecco (Trino, VC) ed il consorzio Sa.Pi.Se per i campioni forniti per questo studio. Bibliografia [1] E. Bertone, A. Venturello, R. Leardi, F. Geobaldo, PostHarvest Biol. Tec. 69, 15 (2012). [2] E. Bertone, G. Ghiglieri, M. Calderara, S. Buratti, N. Sinelli, A. Venturello, E. Casiraghi e F. Geobaldo, First International Congress on Cocoa Coffee and Tea (CoCoTea) Proceedings, 13-16 Settembre Novara, Italy, 2011. [3] N. Attaviroj, S. Kasemsumran, A. Noomhorn, Cereal Chem. 88(5), 490 (2011). [4] G. McLachlan (1992) Discriminant Analysis and Statistical Pattern Recognition. John Wiley and Sons, New York. [5] H. Laitinen, Editorial, Anal. Chem. 38, 673 (1966). 130