Reti Neurali in Generale

Transcript

1 Apprendimento Automatico 123 Reti Neurali in Generale Le Reti Neurali Artificiali sono studiate sotto molti punti di vista. In particolare, contributi alla ricerca in questo campo provengono da: Biologia (Neurofisiologia) Informatica (Intelligenza Artificiale) Matematica (Ottimizzazione, Proprietà di approssimazione) Statistica (Regressione, Classificazione) Ingegneria (Pattern Classification, Teoria del Controllo) Economia (Studio di serie temporali) Fisica (Sistemi Dinamici) Psicologia (Apprendimento e Scienze Cognitive)

2 Apprendimento Automatico 124 Reti Neurali in Generale Bisogna distinguere due motivazioni diverse nello studiare Reti Neurali Artificiali: 1. riprodurre (e quindi comprendere) il cervello umano modellare tutto o almeno parti del cervello umano in modo affidabile riprodurre fedelmente fenomeni neurofisiologici verificare sperimentalmente se il modello proposto riproduce i dati biologici 2. estrarre i principi fondamentali di calcolo utilizzati dal cervello non importa riprodurre il cervello umano, ma solo evincere quali sono i principi fondamentali di calcolo che esso utilizza semplificazioni ed astrazioni del carvello umano sono permesse, anzi, sono lo strumento principale di lavoro produrre un sistema artificiale che sia eventualmente diverso dal cervello umano ma che riproduca alcune delle sue funzioni, magari in modo pi ù veloce ed efficiente (metafora del volo: aereo contro uccello)

3 Apprendimento Automatico 125 Reti Neurali in Generale A noi interessa la seconda motivazione. I modelli di Reti Neurali Artificiali proposti in questo ambito sono molteplici e con scopi diversi. As esempio, esistono modelli per l apprendimento supervisionato (Classificazione, Regressione, Serie Temporali,...); l apprendimento non supervisionato (Clustering, Data Mining, Self-Organization maps,...); realizzare Memorie Associative;... Tali modelli, in generale, differiscono per topologia della rete funzione calcolata dal singolo neurone algoritmo di apprendimento modalità di apprendimento (utilizzo dei dati di apprendimento)

4 Apprendimento Automatico 126 Reti Neurali in Generale Quando è opportuno utilizzare una Rete Neurale Artificiale? l input è ad alta dimensionalità (discreto e/o a valori reali) l output è a valori discreti (classificazione) o a valori reali (regressione) l output è costituito da un vettore di valori i dati possono contenere rumore la forma della funzione target è totalmente sconosciuta la soluzione finale non deve essere compresa da un esperto umano ( black-box problem ) Esempi di campi applicativi riconoscimento del parlato classificazione di immagini predizione di serie temporali in finanza controllo di processi industriali

5 Apprendimento Automatico 127 Reti Neurali Artificiali Le Reti Neurali Artificiali si ispirano al cervello umano: Il cervello umano è costituito da circa 10 loro; neuroni fortemente interconnessi fra Ogni neurone possiede un numero di connessioni che va da circa ; a circa Il tempo di risposta di un neurone è circa secondi; Considerando che per riconoscere il contenuto di una scena un umano impiega circa 0.1 secondi, ne consegue che il cervello umano sfrutta pesantemente il calcolo parallelo: infatti, in questo caso, non può effettuare più di 100 calcoli seriali [0.1/0.001=100].

6 Apprendimento Automatico 128 Neurone Biologico

10 Apprendimento Automatico 132 Neurone Artificiale Alternativa 1: hard-threshold iperpiano!! x 1 w 1 x 0 = 1 x 2 x n... w 2 w n w 0 Σ n net = Σ w i x i=0 i 1 o = σ(net) = sign(net) 1 + ē net Alternativa 2: neurone sigmoidale funzione derivabile x 1 w 1 x 0 = 1 x 2 x n... w 2 w n w 0 Σ n net = Σ w i x i=0 i o = σ(net) = ē net

11 Apprendimento Automatico 133 Rete Neurale Biologica (schema)

12 Apprendimento Automatico 134 Reti Neurali Artificiali Una Rete Neurale Artificiale è un sistema costituito da unità interconnesse che calcolano funzioni (numeriche) non-lineari: le unità di input rappresentano le variabili di ingresso; le unità di output rappresentano le variabili di uscita; le unità di nascoste (se ve ne sono) rappresentano variabili interne che codificano (dopo l apprendimento) le correlazioni tra le variabili di input relativamente al valore di output che si vuole generare. sulle connessioni fra unità sono definiti pesi adattabili (dall algoritmo di apprendimento).

13 Apprendimento Automatico 135 Reti Neurali Feed-forward (un solo livello nascosto) target t t 1 t 2 t k t c output z z 1 z 2... z k... z c output w kj y 1 y 2 y j y nh nascoste w ji x 1 x 2 x i x d input x x 1 x 2 x i x d input x 1 w 1 x 2 x n w 2... w n x 0 = 1 w 0 Σ n net = Σ w i x i=0 i 1 o = σ(net) = 1 + ē net

14 Apprendimento Automatico 136 Reti Neurali Feed-forward e Superfici di Decisione

15 Apprendimento Automatico 137 Singolo Neurone con Hard-Threshold Singolo Neurone con Hard-Threshold: iperpiani! che possiamo riscrivere come se effettuiamo le segenti trasformazioni Faremo riferimento a tale neurone (e all algoritmo di apprendimento associato) come Perceptron Problemi: Quale è il potere computazionale di un Perceptron? Come definire un algoritmo di apprendimento?

16 Apprendimento Automatico 138 Funzioni Booleane Consideriamo input binari e funzioni booleane. Ogni funzione booleana può essere rappresentata tramite gli operatori or,and, not (in effetti, questo non è necessario se usiamo il nand o il nor) Può un Perceptron implementare l operatore or?

17 Apprendimento Automatico 139 Funzioni Booleane Consideriamo input binari e funzioni booleane. Ogni funzione booleana può essere rappresentata tramite gli operatori or,and, not (in effetti, questo non è necessario se usiamo il nand o il nor) Può un Perceptron implementare l operatore or? Si! Es.,, Può un Perceptron implementare l operatore and?

18 Apprendimento Automatico 140 Funzioni Booleane Consideriamo input binari e funzioni booleane. Ogni funzione booleana può essere rappresentata tramite gli operatori or,and, not (in effetti, questo non è necessario se usiamo il nand o il nor) Può un Perceptron implementare l operatore or? Si! Es.,, Può un Perceptron implementare l operatore and? Si! Es.,,

19 Apprendimento Automatico 141 Funzioni Booleane Consideriamo input binari e funzioni booleane. Ogni funzione booleana può essere rappresentata tramite gli operatori or,and, not (in effetti, questo non è necessario se usiamo il nand o il nor) Può un Perceptron implementare l operatore or? Si! Es.,, Può un Perceptron implementare l operatore and? Si! Es.,, L operatore not si realizza banalmente con un Perceptron con una singola connessione (fare per esercizio). Esiste una funzione booleana semplice che non può essere realizzata da un Perceptron? (l abbiamo già vista quando abbiamo calcolato la VC-dimension di!!)

20 Apprendimento Automatico 142 Funzione non-linearmente separabili XOR: funzione non linearmente separabile! input XOR f() = +1 f() = 1 f() = 1 f() = +1 una funzione è linearmente separabile se esiste un iperpiano che separa gli ingressi positivi (+1) da quelli negativi (-1)

21 Apprendimento Automatico 143 Apprendimento di funzioni linearmente separabili Assumiamo di avere esempi di funzioni linearmente separabili. Algoritmo di Apprendimento per il Perceptron ingresso: insieme di apprendimento, dove 1. inizializza il vettore dei pesi al vettore nullo (tutte le componenti a 0); 2. ripeti (a) seleziona (a caso) uno degli esempi di apprendimento (b) se allora

22 Apprendimento Automatico 144 Apprendimento per Perceptron Interpretazione geometrica Falso Negativo o >90 x x x w w o <90 w (t out) > 0 t = +1 out = 1 w = w + x out = +1 Falso Positivo x o <90 x x w w o >90 (t out) < 0 t = 1 out = +1 x w = w x w out = 1

23 Apprendimento Automatico 145 Apprendimento per Perceptron Non necessariamente un singolo passo di apprendimento 2(b) riuscirà a modificare il segno dell output: potrebbero servire molti passi. Per rendere pi ù stabile l apprendimento si aggiunge un coefficiente di apprendimento con e preferibilmente Questo evita che il vettore dei pesi subisca variazioni troppo violente ogni volta che il passo 2(b) viene eseguito, e quindi cerca di evitare che esempi precedentemente ben classificati diventino classificati erroneamente a causa della forte variazione del vettore dei pesi. Se l insieme di apprendimento è LINEARMENTE SEPARABILE, si dimostra che l algoritmo di apprendimento per il Perceptron termina con una soluzione in un numero finito di passi, altrimenti CICLA in un insieme di vettori peso non necessariamente ottimali (cioè che commettono il minimo numero possibile di errori)

24 Apprendimento Automatico 146 Apprendimento per Perceptron: esempio es. target es. target : 1 (4,5) 1 2 (6,1) 1 soglia 1 (1,4,5) 1 2 (1,6,1) 1 3 (4,1) -1 3 (1,4,1) -1 4 (1,2) -1 4 (1,1,2) -1 vettore dei pesi: supponiamo di partire con pesi random : e pesi input target out errore nuovi pesi (0,1,-1) (1,4,5) 1 (1,6,1) 1 (1,4,1) -1 (1,1,2) -1

25 Apprendimento Automatico 147 Apprendimento per Perceptron: esempio pesi input target out errore nuovi pesi (0,1,-1) (1,4,5) (1,5,4) (1,5,4) (1,6,1) nessun cambiamento (1,5,4) (1,4,1) (0,1,3) (0,1,3) (1,1,2) (-1,0,1)

26 Apprendimento Automatico 148 Apprendimento per Perceptron: esempio pesi input target out errore nuovi pesi (-1,0,1) (1,4,5) nessun cambiamento (-1,0,1) (1,6,1) 1? (-1) 2 (0,6,2) (0,6,2) (1,4,1) (-1,2,1) (-1,2,1) (1,1,2) (-2,1,-1)

27 Apprendimento Automatico 149 Apprendimento per Perceptron: esempio pesi input target out errore nuovi pesi (-2,1,-1) (1,4,5) (-1,5,4) (-1,5,4) (1,6,1) nessun cambiamento (-1,5,4) (1,4,1) (-2,1,3) (-2,1,3) (1,1,2) (-3,0,1)

28 Apprendimento Automatico 150 Apprendimento per Perceptron: esempio pesi input target out errore nuovi pesi (-3,0,1) (1,4,5) nessun cambiamento (-3,0,1) (1,6,1) (-2,6,2) (-2,6,2) (1,4,1) (-3,2,1) (-3,2,1) (1,1,2) (-4,1,-1)

29 Apprendimento Automatico 151 Apprendimento per Perceptron: esempio pesi input target out errore nuovi pesi (-4,1,-1) (1,4,5) (-3,5,4) (-3,5,4) (1,6,1) nessun cambiamento (-3,5,4) (1,4,1) (-4,1,3) (-4,1,3) (1,1,2) (-5,0,1)

30 Apprendimento Automatico 152 Apprendimento per Perceptron: esempio pesi input target out errore nuovi pesi (-5,0,1) (1,4,5) 1? (-1) 2 (-4,4,6) (-4,4,6) (1,6,1) nessun cambiamento (-4,4,6) (1,4,1) (-5,0,5) (-5,0,5) (1,1,2) (-6,-1,3)

31 Apprendimento Automatico 153 Apprendimento per Perceptron: esempio pesi input target out errore nuovi pesi (-6,-1,3) (1,4,5) nessun cambiamento (-6,-1,3) (1,6,1) (-5,5,4) (-5,5,4) (1,4,1) (-6,1,3) (-6,1,3) (1,1,2) (-7,0,1)

32 Apprendimento Automatico 154 Apprendimento per Perceptron: esempio pesi input target out errore nuovi pesi (-7,0,1) (1,4,5) (-6,4,6) (-6,4,6) (1,6,1) nessun cambiamento (-6,4,6) (1,4,1) (-7,0,5) (-7,0,5) (1,1,2) (-8,-1,3)

33 Apprendimento Automatico 155 Apprendimento per Perceptron: esempio pesi input target out errore nuovi pesi (-8,-1,3) (1,4,5) nessun cambiamento (-8,-1,3) (1,6,1) (-7,5,2) (-7,5,2) (1,4,1) (-8,1,3) (-8,1,3) (1,1,2) nessun cambiamento

34 Apprendimento Automatico 156 Apprendimento per Perceptron: esempio pesi input target out errore nuovi pesi (-8,1,3) (1,4,5) nessun cambiamento (-8,1,3) (1,6,1) nessun cambiamento (-8,1,3) (1,4,1) nessun cambiamento (-8,1,3) (1,1,2) nessun cambiamento

35 Apprendimento Automatico 157 Apprendimento di Reti di Perceptron Abbiamo visto che un singolo Perceptron non riesce ad apprendere tutte le funzioni booleane (es. XOR) Però una rete di Perceptron può implementare una qualunque funzione booleana (tramite AND, OR, NOT). Problema: come effettuare l apprendimento di una rete di Perceptron? Non si sa come assegnare credito o colpe alle unità nascoste: PROBLEMA DELL ASSEGNAMENTO DEL CREDITO Una possibile soluzione è quella di rendere il singolo neurone derivabile e sfruttare la tecnica di Discesa del Gradiente per apprendere i pesi giusti. Vediamo, quindi, come la Discesa del Gradiente si applica ad un Perceptron semplificato.

36 dove si ha Quindi bisogna MINIMIZZARE Apprendimento Automatico 158 Discesa di Gradiente Consideriamo un Perceptron SENZA la hard-threshold: e definiamo una misura dell errore commesso da un particolare vettore dei pesi: Funzione Errore: è la cardinalità dell insieme di apprendimento. La funzione errore di sopra misura lo scarto quadratico medio (diviso 2) del valore target da quello predetto dal neurone ( ). Ovviamente, se rispetto a

37 Apprendimento Automatico Discesa di Gradiente E[w] Idea base: partire da un w0 w1 random e modificarlo nella direzione contraria al gradiente (che indica la direzione di crescita di ),, gradiente

38 Apprendimento Automatico 160 Calcolo del gradiente

43 al neurone e calcola l output Apprendimento Automatico 165 Discesa di Gradiente Gradient-Descent( ) ogni esempio di apprendimento è una coppia, dove è il vettore di valori in input, e è il valore desiderato in output (target). è il coefficiente di apprendimento (che ingloba ). Assegna a valori piccoli random Finché la condizione di terminazione non è verificata, fai Per ogni in, fai Presenta Per ogni, fai Per ogni, fai

44 Apprendimento Automatico 166 Discesa di Gradiente con Sigmoide Consideriamo un Perceptron con funzione sigmoidale: dove si ricorda che Si noti che per vale la seguente relazione e ricordiamo che (derivata di funzioni composte)

45 Apprendimento Automatico 167 Calcolo del gradiente con sigmoide

49 Apprendimento Automatico 171 Reti Neurali Feed-forward: notazione target t t 1 t 2 t k t c output z z 1 z 2... z k... z c output w kj y 1 y 2 y j y nh nascoste w ji input x x 1 x 2 x i x d x 1 x 2 x i x d input

50 Apprendimento Automatico 172 Reti Neurali Feed-forward: notazione unità di ingresso, dimensione dei dati in ingresso ( se si include la soglia nel vettore dei pesi ) unità nascoste (con output dimensione dei dati desiderati, unità di output, dimensione dei dati in output ) peso dalla unità di ingressoalla unità nascosta peso dalla unità nascosta alla unità di output La funzione errore, considerando che si hanno unità di output, diventa

51 Apprendimento Automatico 173 Calcolo del gradiente per i pesi di una unità di output Fissiamo gli indici e : ^ k ^ j

56 Apprendimento Automatico 178 Calcolo del gradiente per i pesi di una unità nascosta Fissiamo gli indici e: ^ j ^ i

62 Apprendimento Automatico 184 Calcolo del gradiente per i pesi di una unità nascosta Fissiamo gli indici e: ^ i ^ j

64 Apprendimento Automatico 186 Reti Neurali Feed-forward: Fase Forward

65 Apprendimento Automatico 187 Reti Neurali Feed-forward: Fase Backward

66 Back-Propagation-1hl-stocastico( in Apprendimento Automatico 188 Algoritmo Back-Propagation (uno strato nascosto, stocastico), topologia rete) Inizializza tutti i pesi a valori random piccoli Finché la condizione di terminazione non è verificata, fai Per ogni, fai 1. presenta alla rete e calcola il corrispondente output 2. Per ogni unità di output 3. Per ogni unità nascosta 4. aggiorna tutti i pesi della rete dove se se

67 Apprendimento Automatico 189 Esempio di Funzione Errore z 1 J(w) 1 w 2 y w w 1 x 0,y 0 x w w x 1 x* R 1 R 2

68 Apprendimento Automatico 190 Discesa di Gradiente Batch e Stocastica Batch: Fai finché condizione di terminazione non soddisfatta Stocastica (Incrementale): Fai finché condizione di terminazione non soddisfatta 1. calcola Per ogni esempio di apprendimento 2. in 1. calcola 2. dove La discesa di gradiente Stocastica (gradiente istantaneo) può approssimare quella Batch (gradiente esatto) con precisione arbitraria se è sufficientemente piccolo

69 Apprendimento Automatico 191 Alcuni Problemi... Scelta della topologia della rete determina lo Spazio delle Ipotesi; Scelta del passo di discesa (valore di ): E E E E w* w w* w w* w w* w apprendimento lento..., ma calcolo di output veloce MINIMI LOCALI!! Bias Induttivo: sia nella rappresentazione che nella ricerca

70 Apprendimento Automatico 192 Esempio di Apprendimento per Rete Feed-forward Compressione di Dati Input Output Inputs Outputs

71 Apprendimento Automatico 193 Esempio di Apprendimento per Rete Feed-forward Compressione di Dati Input Valori Output Nascosti Inputs Outputs

72 Apprendimento Automatico 194 Curve di Apprendimento 0.9 Errore per ogni unita' di output

73 Apprendimento Automatico 195 Curve di Apprendimento 1 Codifica dell'input a livello delle unita' nascoste

74 Apprendimento Automatico 196 Curve di Apprendimento 4 Pesi dall input ad una unita nascosta

75 Apprendimento Automatico 197 Potere Computazionale Reti Neurali Il seguente teorema stabilisce l universalità di reti feed-forward come approssimatori di funzioni continue. Teorema Sia indichi con definite sia che intero una funzione continua monotona crescente, limitata e noncostante. Si l ipercubo n-dimensionale. Data una qualunque funzione e insiemi di costanti reali possa essere approssimata da,, e e lo spazio delle funzioni continue su esso, dove e, allora esiste un e tale (1) in modo tale che (2) per tutti i punti.

76 Apprendimento Automatico 198 Potere Computazionale Reti Neurali Notare che qualunque funzione sigmoidale soddisfa le condizioni imposte nel teorema su. Inoltre, l equazione (1) rappresenta l output di una rete multistrato descritta come segue 1. la rete ha nodi di input ed un singolo strato di unità nascoste con sono denotati da. unità; gli input 2. l i-esima unità ha associati i pesi e soglia. 3. l output della rete è una combinazione lineare degli output delle unità nascoste, dove i coefficienti della combinazione sono dati da. Quindi, data una tolleranza qualsiasi funzione in, una rete con un unico strato nascosto può approssimare una. Si noti che il teorema afferma solo l esistenza di una rete e non fornisce alcuna formula per il calcolo del numero di unità nascoste necessarie per approssimare la funzione target con la tolleranza desiderata.

77 Apprendimento Automatico 199 Simmetrie out w w w h 1 h 2 h 3 h 1 =h 2 = h 3 w w w w w w w w w x 1 x 2 x 3

78 Apprendimento Automatico 200 Simmetrie out δ =(t out) σ ( net out out ) w = δ out h w w w h h h h 1 = h 2 = h 3 =h w w w w w w w w w x 1 x 2 x 3

79 Apprendimento Automatico 201 Simmetrie out δ =(t out) σ ( net out out ) w = δ out h w w w h h h h 1 = h 2 = h 3 =h δ 1 δ 2 δ 3 δ 1 = δ 2 = δ 3 = δ h w w w w w w w w w δ h= δ out w σ ( net h ) w 1 = δ h x 1 x 1 x 2 x 3

80 Apprendimento Automatico 202 Simmetrie out δ =(t out) σ ( net out out ) w = δ out h w w w h h h h 1 = h 2 = h 3 =h δ 1 δ 2 δ 3 δ 1 = δ 2 = δ 3 = δ h w w w w w w w w w δ h= δ out w σ ( net h ) w 1 = δ h x 1 w 2 = δ h x 2 x 1 x 2 x 3

81 Apprendimento Automatico 203 Simmetrie out δ =(t out) σ ( net out out ) w = δ out h w w w h h h h 1 = h 2 = h 3 =h δ 1 δ 2 δ 3 δ 1 = δ 2 = δ 3 = δ h w w w w w w w w w δ h= δ out w σ ( net h ) w 1 = δ h x 1 w 2 = δ h x 2 w 3 = δ h x 3 x 1 x 2 x 3

82 Apprendimento Automatico 204 Apprendimento Perceptron: prova di convergenza Sia dato un insieme di esempi, dove (classificazione binaria) Se t.c. (lineare separabilità) allora cioè apprendimento è soluzione anche del problema di apprendimento definito dall insieme di e viceversa Quindi ci possiamo concentrare su problemi dove tutti gli esempi sono positivi

83 Apprendimento Automatico 205 Apprendimento Perceptron: prova di convergenza Supponiamo che - inizialmente (inizializzazione) - e Dopo aver commesso errori (tutti falsi negativi) si avrà infatti all errore j-esimo il vettore dei pesi è aggiornato sommandogli l input classificato erroneamente:

84 Apprendimento Automatico 206 Apprendimento Perceptron: prova di convergenza Mostriamo adesso che il modulo di non può crescere indefinitivamente (succede se non si converge ad una soluzione in un numero finito di iterazioni) Iniziamo definendo un lower bound sul modulo di : (ricordiamo che ) e per la disuguaglianza di Cauchy-Swartz ( ) abbiamo

85 Apprendimento Automatico 207 Apprendimento Perceptron: prova di convergenza Definiamo adesso un upper bound sul modulo di : e poiché ( -esimo errore) Applicando ricorsivamente questa disuguaglianza su tutti gli errori abbiamo

86 Apprendimento Automatico 208 Apprendimento Perceptron: prova di convergenza Mettendo insieme il lower bound con l upper bound otteniamo: Pertanto il numero massimo di errori che si possono commettere mantenendo i due vincoli soddisfatti è ottenuto quando vale l uguaglianza dei bound: da cui si ottiene Quindi, in caso di lineare separabilità, l algoritmo di apprendimento del Perceptron commette un numero finito di errori, al più

87 Apprendimento Automatico 209 Structural Risk Minimization Problema: all aumentare della VC-dimension diminuisce l errore empirico (termine A), ma aumenta la VC confidence (termine B)! L approccio Structural Risk Minimization tenta di trovare un compromesso tra i due termini: Bound on true risk Si considerano tali che Bound on VC confidence - - Error - si seleziona l ipotesi che ha il bound sull errore Empirical error ideale pi ù basso VC dim Esempio: Reti neurali con un numero crescente di neuroni nascosti H 1 H 2 H 3 H n