Regressione non lineare con un modello neurale feedforward

Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale feedforward Obiettivi: (1) Imparare a stimare i pesi di una rete neurale feedforward con Matlab per affrontare un problema di regressione non lineare. Come si vede dalla spiegazione contenuta in queste pagine, con Matlab è piuttosto semplice. I comandi newff, train e sim sono i comandi fondamentali con cui, rispettivamente, si crea la rete, si stimano i suoi parametri con i dati e si effettuano poi previsioni. Attenzione però che, se da un lato Matlab semplifica di molto il codice necessario per stimare i pesi di una rete, rimangono sempre le difficoltà legate alle reti neurali: - difficoltà connesse all uso degli algoritmi di ottimizzazione numerica; - difficoltà connesse alla costruzione della rete, in particolare alla scelta della sua complessità ottimale (che è legata al numero di neuroni dello strato nascosto); se questa complessità è insufficiente, la rete può non essere in grado di rappresentare adeguatamente il problema e quindi di fare buone previsioni; se invece è eccessiva, la rete rischia di cadere in overfitting, iperspecializzandosi sui dati, approssimando non solo la componente deterministica ma anche quella stocastica e quindi perdendo capacità di generalizzazione. (2) Fare una serie di esperimenti numerici per comprendere il ruolo di uno dei parametri più importanti per una rete neurale: il numero di neuroni nello strato nascosto. Variando nhid potremo creare situazioni di under- e over-fitting, cioè situazioni in cui la complessità della rete è insufficiente o eccessiva per il problema che le si chiede di risolvere. Variando il numero di input ninp si potrà anche sperimentare il ruolo che hanno le variabili non importanti (dette talora noisy variables) sulla capacità previsiva della rete. Sarà interessante anche provare a lavorare con campioni piccoli o grandi (variando il parametro N) e con dati più o meno affetti da rumore (variando il parametro devstd). Osservazioni: (1) Nell esempio che abbiamo qui considerato non analizziamo dei dati reali, ma dei dati simulati. Si tratta cioè di dati artificiali, da noi generati utilizzando un processo (non lineare) generatore dei dati piuttosto semplice: y = -0.6 + 1.2 x 1 3 + sin(3.46 x 1 ) + ε dove ε è la componente stocastica distribuita come una normale di media nulla e deviazione standard s, cioè ε ~ N(0, s). Si vede quindi che y è influenzata solo dalla variabile x 1. Tutte le altre variabili osservate (x 2, x 3, etc.) sono quindi variabili non importanti ai fini previsivi. Anzi, sono variabili che, se utilizzate in fase di stima, possono peggiorare la qualità della previsione del modello. (2) Grazie al fatto che si tratta di dati simulati, noi conosciamo tutto di essi, anche la componente deterministica (indicata con una linea rossa), che nei problemi reali non è mai nota e che di fatto è il vero oggetto di indagine. Quindi in questo esperimento numerico abbiamo anche la possibilità di valutare se la rete riesce ad approssimare bene la componente deterministica. Nella realtà, lo ribadiamo, questa verifica ovviamente non è mai possibile e l unica strada percorribile per valutare la bontà del modello è quella dell analisi dei residui.

La scelta dell architettura di una rete La scelta dell architettura della rete dipende prima di tutto dalla natura del problema che si intende risolvere. Se si deve individuare un modello di regressione (non lineare), allora la scelta cade ad es. sulle reti feedforward; Se si vuole modellizzare/predire una serie temporale, allora si possono utilizzare le reti ricorrenti (ad es. le reti di Elman); in esse gli output ritardati sono input della rete; Se il problema invece è di stabilire a quale di un set di k classi le singole unità campionarie appartengono (classificazione) allora la scelta dovrà ad es. cadere sulle reti feedforward opportunamente adattate o sulle reti LVQ (learning vector quantization); Se il problema è di individuare nel campione, sulla base delle variabili osservate, dei gruppi omogenei di unità (cluster), allora si dovranno scegliere ad es. le SOM (self-organizing map). 1

La scelta dell architettura di una rete I comandi riportati qui sulla destra creano un oggetto neural network ed impostano le sue proprietà in accordo con l architettura da noi scelta. Esiste però anche la possibilità di costruire architetture nuove non previste nel toolbox di Matlab e di effettuare poi la stima dei loro parametri (con il comando train ) e di usarle per la previsione (con il comando sim ). 2

La stima dei parametri di un modello neurale Con il termine training si indica quello che in ambito statistico viene indicato con il termine di stima dei parametri della rete. La stima dei parametri di un modello equivale al problema della ricerca delle soluzioni di un problema di ottimo: - trovare i parametri del modello che massimizzano la funzione di (log-)verosimiglianza; - trovare i parametri del modello che minimizzano una funzione d errore (mae, mse, msereg, etc..). Indichiamo con f(x, θ) il nostro modello, dove x è il vettore di input (variabili osservate) e θ il vettore dei parametri del modello. La stima dei parametri consiste ad es. nella soluzione del problema di ottimo (minimi quadrati): N min Σ (y i - f(x i, θ) ) 2 θ Θ i=1 3

La stima dei parametri di un modello neurale A volte, specie con i modelli lineari, la soluzione al problema di ottimo la si può calcolare in modo semplice attraverso una formula. Ad esempio, nel modello di regressione lineare. la stima a minimi quadrati del vettore dei parametri è: β = ( X T *X) -1 X T Y Nella maggior parte dei casi però la soluzione del problema di ottimo deve però essere trovata attraverso metodi numerici. L impiego di questi metodi richiede una buona conoscenza dei diversi algoritmi numerici sviluppati dai ricercatori e dei limiti insiti in ciascuno di essi. 4

Gli algoritmi numerici di ottimizzazione La scelta dell algoritmo di ottimizzazione si basa su diversi elementi: - la natura e le dimensioni del problema di ottimo (no. di parametri da stimare, no. di dati nel campione,tipo di funzione da ottimizzare); - la disponibilità di risorse computazionali (velocità del processore, memoria disponibile) e le corrispondenti richieste computazionali dell algoritmo (velocità di convergenza, tempi di calcolo per ogni iterazione, quantità di memoria richiesta). 5

Gli algoritmi numerici di ottimizzazione Gli algoritmi di ottimizzazione numerica sono in generale processi iterativi del tipo: x t+1 = x t + t t esprime lo spostamento dell algoritmo da x t verso il punto di ottimo. Di questo spostamento di deve determinare direzione e ampiezza. Molti algoritmi calcolano t sulla base del gradiente della funzione e della sua Hessiana. L arresto dell algoritmo di ottimizzazione avviene: - dopo che e trascorso un tempo massimo; - dopo un numero massimo di iterazioni; - quando l errore e sceso al di sotto di una soglia fissata; - quando il gradiente e sceso sotto una soglia fissata; - quando l errore sul set di validazione è aumentato più di un certo numero di volte dall ultima volta che è diminuito (questo ovviamente quando si usa la cross-validation). 6

Gli algoritmi numerici di ottimizzazione Nel Neural Network Toolbox di Matlab sono disponibili diversi algoritmi di ottimizzazione numerica, alcuni specificamente pensati per il training delle reti neurali (ad es. le numerose versioni di backpropagation: traingd, traingda, traingrp, etc). 7

La stima di un modello neurale con Matlab [Xn,psx] = mapminmax(x',-1,1); [yn,psy] = mapminmax(y',-1,1); (1) Pre-processamento dei dati net=newff(minmax(xn),[nhid 1],{'tansig','tansig'},'trainlm'); net=init(net); (3) Inizializzazione dei pesi della rete (2) Creazione dell oggetto neural network optnet=train(net, Xn, yn); yout=sim(optnet, Xn); (4) Stima dei pesi/parametri della rete (5) Previsione con la rete yhat = mapminmax('reverse',yout,psy); (6) Processamento inverso dei dati 8

Pre-processing dei dati Talune trasformazioni dei dati di partenza possono essere utili per migliorare la successiva fase di stima dei parametri della rete. In Matlab sono disponibili 3 tipi di pre-processing dei dati: (1) Riscalamento fra un min ed un max. [Xn,psx] = mapminmax(x',-1,1); (2) Standardizzazione [Xn,psx] = mapstd(x',0,1); (3) Analisi delle componenti principali [Xn,psx] = processpca(x',0.1); Ciascuna riga di X viene riscalata fra -1 ed 1. Ciascuna riga di X viene trasformata in modo da avere media 0 e deviazione standard 1. Processa la matrice X con la PCA in modo che le componenti scartate spieghino al più il 10% della variabilità totale dei dati 9