Intelligenza Artificiale e Reti Neurali
Daniel J. Amit (1938-2007
Le reti neurali sono nate (esclusivamente? er un rogetto iù grande, quello della INTELLIGENZA ARTIFICIALE
L intelligenza artificiale cerca di rirodurre le attitudini e le abilita degli essere viventi come Il movimento coordinato La visione Il linguaggio La caacita di arendere La caacita di decidere
NEUROFISIOLOGIA BIONICA ROBOTICA ELETTRONICA BIO-CHIP MACCHINE NEUROMORFICA INTELLIGENTI
L intelligenza uo essere definita come La caacita di rendere decisioni in carenza di informazioni La soravvivenza del comlesso decisionale o dell organismo artificiale e garantita? L intelligenza da sola non e una garanzia di successo evolutivo
Le domande: L intelligenza è localizzata? Esiste un organo che contiene l intelligenza?
18 secolo - l automa giocatore di scacchi di Wolfgang von Kemelen fece furore in tutte le citta euroee. Come e stato rovato iu tardi era una truffa: er mezzo di ingegnosi meccanismi in realta giocava un giocatore umano. Nel assato non esisteva una tecnologia er costruire una macchina intelligente 1936 - A. M. Turing (Princeton ensa una macchina universale roonendo di usare la mente come un aradigma comutazionale 1943 W. S. McCulloch e W. Pitts (Stanford inventano un neurone artificiale a soglia che mima quello biologico e comrende resistenze variabili (esi sinatici ed un amlicatore/sommatore analogico (coro cellulare
1943 D. Hebb (Phillis University of British Columbia costruisce un aradigma comutazionale (Regola di Hebb: la connessione fra due neuroni si rinforza se ad una alta attivita in un neurone corrisonde una alta reazione nell altro 1950 - A. M. Turing (Princeton ubblica il lavoro 'Can a Machine Think?' e C. Shannon (Bell Telehone Laboratories scrive un rogramma er giocare a scacchi 1955 J. McCarthy (Stanford conia il termine Artificial Intelligence (AI
1957 M. F. Rosenblatt (Cornell costruisce la rima macchina (Percetron basata sulle idee di McCulloch, Pitts e Hebb. Il Percetron fu usato er attern recognition ottico (riconoscimento di forme geometriche. Questa macchina aveva due layers di neuroni: uno di inut ed uno di uscita. Le funzioni attivazione erano lineari 1959 M. Minsky e S. Paert (MIT sottoongono ad una durissima critica il Percetron er la sua imossibilita a risolvere roblemi iu che lineari: tutto questo ferma i finanziamenti in AI e moltissimi rogetti vengono abbandonati 1962 - G. W. Evans (Louisville costruisce il rimo robot controllato da un AI comuter
Anni 70 - G. Parisi (Roma2 e D. Virasoro (Roma1 sistematizzano i fondamenti teorici delle ANN e T. Kohonen (Helsinki University of Technology studia i meccanismi di arendimento cometitivo alla base della costruzione di macchine intelligenti caaci di arendere senza suervisione (Self-Organizing feature Mas - SOM 1982 - J. J. Hofield (Caltech, D. Amit (Roma1, G. Parisi (Roma2 e D. Virasoro (Roma1 studiano ANN comletamente connesse le cui caratteristiche ortano alla formulazione dei rincii del Neuromorfismo e alla scoerta che gli andamenti generali delle ANN sono simili ai vetri di sin di Meccanica Quantistica
1985 - D. E. Rumelhart (Stanford svilua un sistema di arendimento suervisionato ( Rule er un ercetron multilayer caace di risolvere roblemi iu che lineari 1989 - T. D. Sanger (1 (Stanford svilua una ANN comletamente connessa caace di effettuare una analisi a Comonenti Princiali 1990 - A Caltech, Roma1 e Trento vengono rodotte realizzazioni hardware di ANN: retina artificiale, TOTEM (1 My research is directed toward understanding the causes and treatments of movement disorders in children, including dystonia, athetosis, chorea, ataxia, and myoclonus. My clinical laboratory at Stanford includes equiment for quantitative movement kinematics measurements of arm movements, multile-electrode surface EMG, and real-time video feedback. My ongoing theoretical research investigates the use of comutational neural networks to understand disorders of the basal ganglia.
2000 - Honda's Research & Develoment Wako Fundamental Technical Research Center (Giaone svilua ASIMO un robot caace di camminare, correre, salire e scendere le scale. Inoltre riesce a riconoscere le ersone, salutarle e chiamarle er nome, seguire oggetti in movimento e sostarsi nella direzione indicata. 2000-2005 - CERN, Roma1 vengono rodotte realizzazioni con intelligenza distribuita 2007 - Torino The Channeler Ant Model 2007 - Neural Engineering Center for Artificial Limbs (Chicago svilua un braccio artificiale imiantabile caace di comiere movimenti efficienti e di fornire il senso del tatto. 2010 - Kawada Industries ed il National Institute of Advanced Industrial Science and Technology (Giaone svilua HRP-4 un robot umanoide caace di risondere a comandi vocali e seguire con il movimento della testa la osizione di un volto umano, doo averlo riconosciuto.
Le RETI NEURALI sono un modello connettivista isirato alla realtà biologica Le ANN ricevono un inut e roducono un outut senza avere un rocesso algoritmico con un insieme di regole che descrivano comletamente un roblema Le ANN imarano da esemi Le ANN imarano da sole o da un maestro
Basics of Artificial Neural Networks (1 L attività della rete avviene attraverso rocessi elettro-chimici nel cervello e viene emulata elettronicamente nelle imlementazioni hardware delle ANN. La velocità er una "oerazione neurale, nel caso biologico, dell ordine del millisecondo, mentre è dell ordine del nanosecondo in una imlementazione VLSI. Nonostante questo svantaggio in termini di velocità, la caacità del cervello è insuerabile risetto a quello di una ANN.
Basics of Artificial Neural Networks (2 La otenza di calcolo deriva dall enorme numero di neuroni che sono resenti nel cervello (~10 11, in confronto ad una ANN (~10 2 10 3 e nell alto livello di connettività del neurone biologico (da 10 2 a 10 4 connessioni er neurone, che è al contrario limitato nelle imlementazioni artificiali. La otenza di calcolo risultante, er un cervello umano, uò essere stimata ~10 15 oerazioni/sec, con una memoria di ~10 8 Mbytes.
LE RETI NEURALI ARTIFICIALI SONO DELLE RETI DI ELEMENTI INTERCONNESSI SEMPLICI DETTI NEURONI
IL NEURONE (1 I neuroni sono connessi fra loro e si scambiano informazioni. Esiste quindi un valore di accoiamento fra due qualsiasi neuroni connessi. Dati i neuroni i e j, questo valore di accoiamento e detto eso w i,j.. Ciascun neurone i è caratterizzato dalla sua funzione di attivazione f.
IL NEURONE (2 I modelli di neuroni iù usati sono:
The dot-roduct neuron In questo modello, il neurone i-esimo effettua la somma esata delle uscite dei neuroni ad esso connessi: P = w i ij j Questo uò essere interretato j come il rodotto scalare del vettore esi e del vettore outut, formati resettivamente dai esi e dagli oututs connessi al neurone i: r r s r r r W i = w ; ij S = s j P i = W i S Ciascun neurone agisce su questa somma esata e roduce un uscita (il suo stato attuale attraverso la roria funzione di attivazione f: ( s = f P i i
Le funzioni di attivazione Esistono diverse forme ossibili er le funzioni di attivazione, di solito esse consistono nell alicazione di una soglia e di un amlificazione. I tre tii iù utilizzati di funzioni di attivazione sono un semlice gradino, una funzione lineare e la iù imortante di tutte, la funzione sigmoide. Questo modello è derivato dalla biologia: le sinasi giocano il ruolo della connessione fra i dendriti ed il coro del neurone. Così i "esi" sono le sinasi, mentre gli assoni, attraverso i dendriti, trasortano le informazioni da un neurone all'altro.
The dot roduct neuron s 1 w i1 neuron i from other neurons s 2 w i2 Σ P i f s i... s n w in P = Σ w s i ij j s = f (P i i s i s i P i P i threshold (ste function sigmoid function
The distance neuron Un altro modello di neurone è quello chiamato distance neuron. Questo neurone i calcola, invece che la somma esata, una sorta di distanza fra il vettore dei esi e quello delle uscite dei neuroni connessi all i-esimo; una tiica funzione distanza è la norma euclidea: r r d = Wi S In molti casi, la funzione di attivazione, alicata a questa distanza, tiene conto del fatto che l uscita del neurone è iù alta, iù è alta la similitudine fra i vettori dei esi e degli ingressi: ad esemio una funzione a camana centrata su zero.
The distance neuron s 1 w i1 neuron i from other neurons s 2 w i2 dist d i f s i... s n w in d i = w i - s s = f (d i i s i bell-shaed function d i
Architectures of Neural Networks (1 Una maniera di classificare le ANN è in base alla loro struttura. Due delle architetture iù usate, almeno in Fisica, sono le configurazioni feed-forward e recurrent. inut layer hidden layer outut layer Feed-Forward Network Recurrent Network
Architectures of Neural Networks (2 Nelle reti feed-forward (FF-ANN i neuroni sono organizzati in strati searati e i neuroni di ciascun strato contribuiscono all ingresso dei neuroni dello strato successivo. I neuroni sono del tio dot-roduct. Non ci sono connessioni fra i neuroni dello stesso strato. Gli strati sono usualmente divisi in: inut layer connessi al mondo esterno e riceventi gli stimoli di ingresso outut layer roducono l uscita che è utilizzata nel mondo esterno hidden layers senza connessioni dirette con l esterno e caaci di rodurre correlazioni fra i dati e raresentazioni interne dei dati stessi.
Architectures of Neural Networks (3 Le reti ricorrenti (R-ANN resentano una struttura comletamente interconnessa: ogni neurone è in linea di rinciio connesso a qualsiasi altro. Il eso che lega due neuroni non interagenti tra di loro finsce er essere ari a zero nel rocesso di arendimento. Una tale struttura orta ad un feed-back fra i neuroni. I neuroni ossono essere classificati ancora come neuroni di ingresso, uscita e nascosti. Un neurone uò essere, allo stesso temo, di ingresso e di uscita.
Architectures of Neural Networks (4 Una tiica alicazione di una R-ANN è la memoria associativa: se i neuroni di ingresso sono diversi da quelli di uscita, la ANN rodurrà un outut che è correlato (associato alla configurazione mostrata come inut; gli sazi degli ingressi e delle uscite sono, in linea di rinciio, differenti. Questa è una rete eteroassociative. Se i neuroni di ingresso ed uscita coincidono, la rete è detta auto-associativa: in questo caso, essa uò essere usata er "comletare" un inut attern affetto da rumore o dati mancanti.
Architectures of Neural Networks (5 Le combinazioni di queste architetture sono altrettanto imortanti, quindi occorre restare attenzione a forzare le ANN in una o l'altra categoria di aartenenza. Ad esemio, reti feed-forward con uno strato di neuroni comletamente connessi tra loro e che esibiscono un arendimento cometitivo, sono l'architettura tiica di reti di classificazione non suervisionate. FF-ANN con un ultimo strato auto-associativo di neuroni comletamente connessi, si sono dimostrate estremamente utili er comrendere alcune forme di danni cerebrali come dislessia.
Information storage (1 Come in qualsiasi comuter, l informazione (o meglio la conoscenza? è immagazzinata dentro una ANN. In una macchina convenzionale, ogni dato è registrato in una recisa locazione di memoria ed è univocamente identificato dal suo indirizzo.
Information storage (2 Esemio di come l informazione è messa nella memoria del comuter e richiamata usando il suo indirizzo er essere elaborata algoritmicamente nella CPU: Un fit lineare di alcuni unti serimentali. L algoritmo, nella CPU, usando un rocesso combinatorio riesce ad escludere il unto rumoroso". Y3 Y2 Y4 Y1 a (C X1 (B b d c X2 X3 X4 track data retrievable by address Problem: track reconstruction straight line of equation y = ax + b exerimental measured oints (Xi,Yi, i=1,3 noise oint (X4,Y4 X4 Y4 X3 Y3 X2 Y2 X1 Y1 CONVENTIONAL INFORMATION STORAGE sequential comuter memory algorithmical comutation data CPU address a, b LOCAL INFORMATION STORAGE IN NEURAL NET Each neuron <==> a hysical instance e.g. neuron "a" active ==> oints (X1,Y1 and (X2,Y2 belong to the track e a b c a b c Recurrent Neural Net (A d e d e all neurons active only neurons a and b at startu active at the end DISTRIBUTED INFORMATION STORAGE IN NEURAL NET Y3 Y2 Y4 track X3 Y3 X2 Y2 X4 Feed-forward Neural Net a b
Information storage (3 (B In una ANN, ci sono b due maniere tiiche di a d immagazzinare c Recurrent l informazione. Neural Net La rima è quando un ezzo di informazione è (C DISTRIBUTED INFORMATION STORAGE IN NEURAL NET univocamente associato con lo stato di un neurone (local a, b LOCAL INFORMATION STORAGE IN NEURAL NET Each neuron <==> a hysical instance e.g. neuron "a" active ==> oints (X1,Y1 and (X2,Y2 belong to the track e a b c a b c d e d e all neurons active only neurons a and b at startu active at the end track X3 Feed-forward Neural Net information storage : allora i esi corrisondono Y3 alla Y3 X2 Y2 relazione recisa che esiste Y4 tra le due orzioni di dati e Y2 Y1 X4 Y4 che avrebbe determinato, in un aroccio algoritmico, la X1 Y1 rocedura di calcolo. I esi ossono X1 X2 X3 X4essere calcolati Inut set {Xi,Yi} dal classified di as belonging to class (a,b fuori e non necessariamente aresi dalla rete. Ogni neurone raresenta una esemio del roblema, vale a dire, nel caso in questione, l'esistenza del collegamento tra due unti: una entità fisica associata ad un segmento di determinata lunghezza e orientamento. a b
Y1 CONVENTIONAL INFORMATION STORAGE Information storage (4 X1 X2 X3 X4 X4 Un altra ossibilità è quando i dati sono divisi fra due o Y4 X3 iù neuroni e ciascun neurone contribuisce a raresentare Y3 X2 orzioni differenti di informazione Y2(distributed address X1 data retrievable information storage. Y1 by address I neuroni di inut vedono i dati reali (coordinate X e Y, sequential comuter memory algorithmical comutation data CPU (B LOCAL INFORMATION STORAGE IN NEURAL NET ma i neuroni intermedi (nascosti Each neuron mescolano <==> a hysical instance queste e.g. neuron "a" active ==> oints (X1,Y1 and (X2,Y2 belong to the track informazioni ed ordinano, insieme b ai neuroni di uscita, gli e a d a b c a b c insiemi di ingresso come aartenenti ad una retta con c una certa endenza e intercetta. Recurrent Neural Net d e d e In such a network one can in rincile trace all neurons back active the only neurons role a and b at startu active at the end of each neuron, the imressive task of finding out the best values for the (C weights is carried out track X3 Y3 through a "learning" Y2 Y4 Y1 rocedure. DISTRIBUTED INFORMATION STORAGE IN NEURAL NET X1 X2 X3 X4 Y3 X2 Y2 X4 Y4 X1 Y1 (A Inut set {Xi,Yi} classified as belonging to class (a,b a, b Feed-forward Neural Net a b
LINEAR CLASSIFIERS (1 Φ (x-x' outut -x' 1 THRESH x (a x' X Un taglio lineare, er una distribuzione unidimensionale di una variabile fisica, è equivalente ad una funzione gradino Φ Φ(variable - threshold dove Φ=0 se variable < threshold Φ=1 se variable threshold (b inut Questa ANN alica la funzione gradino all ingresso. I coefficienti ( esi" di questa combinazione lineare sono mostrati dulle linee che uniscono le bolle. La bolla ( neurone detta THRESH fornisce semre "1" come uscita.
LINEAR CLASSIFIERS (2 Per due o iù variabili, i tagli lineari ossono funzionare solamente se le categorie sono linearmente searabili. La scelta delle variabile rimitive non è necessariamente la migliore ed una "rotazione" nell iersazio delle variabili di ingresso uò essere necessaria.
Y LINEAR CLASSIFIERS (3 B outut A c a b Φ (ax + by + c Il classificatore lineare caace di searare la classe "A" dalla "B" in un roblema (a bidimensionale è la funzione Φ(aX + by + c con a,b,c costanti. La retta in figura ha equazione ax + by + c = 0 X THRESH (b X inut Y Questa ANN realizza il classificatore lineare bidimensionale. Il neurone detto THRESH fornisce semre "1" come uscita.
A A B 1 2 1 roblem B 2 3 0 0 A A 1 B -1 0-1 first cut add third cut subtract 2 B 0 1 add second cut A A B 1 2 B resulting cut alicare tagli lineari in cascata er selezionare la regione di interesse. In figura vediamo la sequenza di tagli lineari necessaria er searare la classe A dalla B in un grafico bidimensionale. Il taglio finale è una combinazione di rette: 1 LINEAR CLASSIFIERS (4 Quando il confine fra classi (in una distribuzione a iù variabili è non-lineare, è ossibile [ ( x + by + c + Φ( a x + by + c + Φ( ax + by + c 2] Φ Φ a1 1 1 2 2 2 3 3 3
LINEAR CLASSIFIERS (5 1 1 1 THR - 2 c1 c2 c3 a1 a2 b2 a3 b1 X Y b3 La ANN equivalente: i neuroni sono organizzati in una struttura a tre strati. Ciascun neurone ha una funzione di attivazione a gradino. Il neurone detto THR fornisce semre "1" come uscita.
Hidden neurons (1 Se la searazione fra classi con uò essere effettuata con tagli lineari, cioè se la forma del confine con uò essere arossimata da un insieme di rette, occorre usare strutture logiche comutazionali simili in architettura ad una feed-forward multistrato. Questo è dovuto al fatto che un singolo neurone non uò realizzare tutte le ossbili funzioni booleane. Un neurone booleano n-dimensionale è un neurone, con una funzione di attivazione a gradino, che realizza una alicazione da un insieme di ingresso di n variabili booleane {x 1, x 2, x 3,..., x n } all insieme {0, 1}.
Hidden neurons (2 Anche er il caso semlice della funzione XOR, dove la dimensione dello sazio di ingresso è 2, un neurone non è sufficiente er fornire il risultato corretto, dato che le due classi di uscita non sono linearmente searabili. Per la funzione XOR ci vuole, almeno, un neurone nascosto; al contrario er le funzioni AND ed OR, è sufficiente lo stesso neurone booleano, dove solo il valore di soglia deve essere cambiato.
Hidden neurons (3 0=false 1=true A B A.AND.B 0 0 0 0 1 0 1 0 0 1 1 1 A B A.OR.B 0 0 0 0 1 1 1 0 1 1 1 1 A B A.XOR.B 0 0 0 0 1 1 1 0 1 1 1 0 thresh=1.5 1 1 A B thresh=0.5 1 1 A B thresh=1.5 1-2 A 1 1 thresh=0.5 1 B FUNZIONI BOOLEANE: AND OR XOR
Hidden neurons (4 B A.AND. B B A.OR. B B A.XOR. B A A A = vero FUNZIONI BOOLEANE: = falso AND OR XOR
Proietà delle ANN (1: memoria associativa distribuita Memoria distribuita significa che i valori dei esi raresentano lo stato di conoscenza della ANN, senza che vi sia una secifica associazione fra un dato ed un neurone secifico. Associativo significa che se alla ANN è mostrato un inut arziale, la rete riesce a scegliere, nella sua conoscenza, la configurazione iù simile al dato di ingresso ricevuto. Se la rete è autoassociativa, il risultato è il comletamento del vettore di inut. Così le ANN sono in grado di gestire dati incomleti, rumorosi o mai visti in recedenza: questa ultima caratteristica è chiamata generalizzazione.
Proietà delle ANN (2: tolleranza La distruzione o alterazione di uno o iù elementi di rocesso (dati di inut, neuroni, connessioni, ect.. causa solamente un degrado della restazione della rete: questa è una conseguenza della memorizzazione distribuita dell informazione. Al contrario nella rogrammazione tradizionale, la erdita di un singolo elemento causa il fallimento dell intero rocesso comutazionale. Le ANN sono quindi articolarmente adatte er le alicazioni in cui il guasto del disositivo di emergenza uò significare disastro (centrali nucleari, untamento missilistico, oerazioni remote nello sazio, ect...
FAULT TOLERANCE RISPOSTA In carenza di dati la risosta non va a zero RISPOSTA bruscamente, ma erde RISPOSTA gradualmente di RISPOSTA intensita
Proietà delle ANN (3: attern recognition I lavori di attern recognition richiedono la caacità di abbinare grandi quantità di informazioni in ingresso, er generare, in uscita, categorie (ad esemio, dai segnali di un calorimetro, le tracce, tenendo conto del rumore o di dati di ingresso incomleti. Le ANN sono un disositivo di calcolo intrinsecamente arallelo, che soddisfa le caratteristiche di cui sora. D altra arte è noto che le cometenze sueriori del cervello umano er il trattamento, ad esemio, di immagini risiedono nella sua struttura amiamente arallela. Le ANN, ur tenendo conto delle diverse dimensioni di attuazione risetto al cervello, cercano di emulare le sue caratteristiche iù intriganti come il attern recognition.
LE ANN VENGONO EDUCATE A RISOLVERE PROBLEMI PER MEZZO DI ESEMPI SI CERCA PARADIGMA COMPUTAZIONALE PIU EFFICIENTE
Arendimento Nei sistemi tradizionali la conoscenza è data eslicitamente in forma di regole. Non vi è quindi, un arendimento roriamente detto. Le ANN, al contrario, imarano da esemi resentati loro, vale a dire attraverso la stimolazione delle unità di ingresso e di uscita, effettuata da schemi forniti dall'esterno. L arendimento è l insieme delle rocedure attraverso le quali i esi di una ANN sono modificati.
Arendimento non suervisionato Solo gli stimoli di ingresso vengono resentati alla rete, che si organizza in modo che, ogni elemento della rete stessa risonda decisamente a diversi stimoli o diversi grui di stimoli. Questi insiemi di risoste raresentano dei clusters nello sazio degli ingressi, di solito connessi a diverse caratteristiche del mondo reale.
Arendimento suervisionato Per ogni stimolo di ingresso, la configurazione desiderata er l outut, viene resentata ai neuroni di uscita della rete e conseguentemente, i esi sono modificati in modo da realizzare, il iù ossibile, l uscita desiderata. Durante la fase di arendimento, i esi cambiano in funzione del temo: w ij (t --> w ij (t+1 = w ij (t + w ij Le iù imortanti regole er l aggiustamento dei esi sono hebbian learning, cometitive learning and delta rule learning.
Hebbian learning Un eso cresce in roorzione al rodotto delle funzioni di attivazione dei due neuroni in questione: w ij = η s i (t s j (t Questo riflette l ovvia constatazione che una costante di accoiamento è iù grande, se vi è una forte correlazione fra lo stimolo in ingresso e la reazione in uscita. In termini biologici, questo significa che una configurazione neurale è rafforzata ogni volta che viene usata.
Cometitive learning I neuroni cometono fra di loro e quelli che, er un dato inut, forniscono l outut iù intenso, modificano i esi, relativi ad essi, er rodurre una risosta semre iù simile allo stimolo in ingresso. w ij = η (X - W i dove X = inut alle unità j (un vettore W i = esi dalle unità j all unità i (una riga della matrice W ij Al di là della cometizione, i neuroni dello stesso strato si ossono normalizzare fra loro. Nei sistemi biologici questo è fatto connettendo fra di loro gli elementi dello stesso strato, ermettendo quindi ai neuroni di muoversi in accordo con la risosta globale dello strato stesso.
Delta rule learning (1 E un aradigma dell arendimento suervisionato, normalmente alicato alle FF- ANN. Tale aradigma è basato sulla riduzione dell errore fra l uscita attuale e quella desiderata. Questa regola attua un gradiente discendente lungo la funzione errore, definito nello sazio dei esi: w ij = - η E/ w ij
Delta rule learning (2 Esemio: FF-ANN a due strati. Assumiamo di resentare un insieme di inut atterns {A } allo strato di ingresso della rete. Per ciascuno di questi atterns, la rete roduce un vettore di outut O e er ciascun inut attern è conosciuto il vettore verità (target T. 1 O(1 T(1 w(1,j A(j J w(2,j w(3,j 2 O(2 T(2 3 O(3 T(3
Delta rule learning (3 La differenza O (i - T (i uò essere calcolata er ciascuna comonente del vettore di outut O, e ossiamo definire una forma quadratica che misuri la differenza fra l outut O ed il target T : E = 1/2 O - T 2 = 1/2 Σ [O (i - T (i] 2 1 O(1 T(1 w(1,j A(j J w(2,j w(3,j 2 3 O(2 O(3 T(2 T(3 E = E
Delta rule learning (4 I esi sono così modificati L uscita è dove f è la funzione di attivazione [ ] ( ( ( ( (, ( j A i j A i O i T j i w ηδ η = = ( ( (, ( ( i s f j A j wi f i O j = =
Delta rule learning (5 Per neuroni con funzione di attivazione lineare, la delta rule attua un gradiente discendente lungo la funzione errore, definito nello sazio dei esi, er minimizzare l errore totale Possiamo scrivere ( = = i i O i T E E 2 ( ( 2 1 ( (, ( ( (, ( j A i j wi i O i O E j wi E = δ =
Delta rule learning (6 Per neuroni con funzione di attivazione non-lineare, ossiamo definire l errore er i-neurone sul -inut come e Ovviamente la derivata della funzione di attivazione deve esistere. La funzione di attivazione iù usata è la sigmoide ( ( i s E i δ [ ] [ ] ( [ ] c i s f i O i T i s i O i O i T i + = ( ' ( ( ( ( ( ( ( δ ( 2 1 '( 1 1 ( x x x e e x f e x f µ µ µ + = + =
Delta rule learning (7 La Delta rule consiste nel modificare i esi in modo roorzionale al tasso di diminuzione della funzione di errore risetto a quel eso articolare, cioè una discesa del gradiente che uò essere scritta: w(i,j = - η E/ w(i,j dove η è un arametro (chiamato learning arameter.
Delta rule learning (8 In una rete multistrato, la formula uò essere alicata a ciascun strato nascosto, sostituendo l ingresso A con l uscita dello strato recedente. Questo algoritmo è conosciuto come "backroagation", dato che l'errore calcolato in un livello a valle viene roagato all'indietro a quelli iù a monte.
Delta rule learning (9 Quando sono resenti neuroni nascosti, l errore δ(i è back-roagated; er ciascun neurone nascosto i, δ(i uò essere calcolato dagli errori δ(k di tutti i neuroni connessi all unità i ( [ ] ( [ ] + = = = + = k k k i k w k c i s f i i k w k i O k s k s E i O E c i s f i O E i, ( ( ( (, ( ( ( ( ( ( ( ( ( δ δ δ δ
Delta rule learning (10 Usando la Generalized Delta Rule con backroagation, sono ossibili molti minimi nella funzione di errore. Una maniera emirica er uscire da questa difficoltà, è quella di scegliere oortunamente il learning arameter η, eventualmente modificandolo durante la fase di arendimento.
Delta rule learning (11 Inoltre, er accelerare la discesa, sorattutto nelle rime iterazioni di arendimento, viene usato un arametro α, detto momento, che "ricorda il fatto che l aggiornamento dei esi nella iterazione recedente era ancora intenso, il che significa che si è lontani dal minimo e quindi ossiamo muoversi iù velocemente: n w(i,j = - η E n / w(i,j + α n-1 w(i,j I valori iniziali dei esi e delle soglie, sono scelti in maniera casuale. Una iterazione dell intero insieme dei vettori di ingresso è chiamata eoca.
Pruning Gli algoritmi genetici ossono rodurre una rete neurale meno esante e iù efficiente, tagliando le connessioni meno intense w ij ( t + 1 = ηδ j o j if w ij ( t > d min w ij erased if w ij ( t d min
Learning and testing (1 Per rima cosa dividiamo gli inut atterns (e quindi i corresondenti target atterns in due insiemi, chiamati training samle e testing samle. La rima fase della rocedura di arendimento consiste nella resentazione alla rete degli inut atterns del training samle, e l alicazione dell algoritmo er il cambio del valore dei esi nell intera rete. Questo rocesso viene iterato fin quando l errore raggiunge il minimo desiderato. TRAINING SAMPLE NEURAL NETWORK MODIFICATION WEIGHTS ALGORITHM CLASSIFICATION ERRORS ON TRAINING SAMPLE Molto sesso questa rocedura richiede migliaia di eoche er la stabilizzazione dei valori dei esi.
Learning and testing (2 La validazione dei valori dei esi trovati durante la rima fase di arendimento è fatta misurando la restazione della rete sui the atterns del testing samle, er costruzione diversi da quelli utilizzati er la fase di arendimento. TESTING SAMPLE LEARNED NETWORK CLASSIFICATION
Learning and testing (3 Non c'è una regola recisa sul numero di vettori di ingresso, che deve essere utilizzato nel camione di arendimento. E'consigliabile avere un numero di inut atterns un aio di volte il numero di esi da ottimizzare. Questo imone, sorattutto se i vettori di ingresso non ossono essere generati tramite simulazioni al comuter, di mantenere l'architettura dell ANN la iù iccola ossibile.
Learning and testing (4 Anche il numero di unità nascoste è usualmente determinato sulla base dell eserienza, come il minimo numero che fornisca una buona restazione. Se in una rete, usata er classificare, sono resenti troe unità nascoste, si rischia l overtraining della rete: la ANN, in artenza, "memorizza" gli inut atterns, con una restazione ottima sul learning samle, ma inaccettabile su qualsiasi test samle. Questo erché la rete non è iù in grado di generalizzare, cioè di associare i vettori di ingresso mai visti, ad una classe secifica, che dovrebbe avere imarato ad identificare.
Learning and testing (5 Ad esemio, la curva blu in figura, mostra l'andamento dell'errore nel classificare i dati di training, mentre la curva rossa mostra l'errore nel classificare i dati di test o validazione. Se l'errore di validazione aumenta mentre l'errore sui dati di training diminuisce, ciò indica che siamo in resenza di un ossibile caso di overtraining. L overtraining uò essere interretato con un eccessivo adattamento del modello ai dati osservati, usando un numero eccessivo di arametri. Un modello assurdo e sbagliato uò adattarsi erfettamente ai dati disonibili, se è abbastanza comlesso. L'overtraining è una violazione della legge del Rasoio di Occam.
Radial Basis Function Network (1 Le Radial Basis Function Network (RBFN sono una classe di reti neurali artificiali caratterizzate dalla rorietà di avere uno strato di unità hidden con funzione di attivazione di tio radiale. Le funzioni radiali sono articolari funzioni la cui caratteristica rinciale è la crescita o decrescita monotonica all aumentare della distanza da un centro µ.
Radial Basis Function Network (2 L utilizzo di tali funzioni come funzioni di trasferimento comorta il fatto che l attivazione delle unità hidden è determinata dalla distanza tra il vettore di ingresso e un vettore rototio costituito dai centri delle unità stesse. Ognuna delle unità dello strato hidden forma un camo ricettivo nello sazio di ingresso, che è di tio non suervisionato, resenta interessanti analogie con i meccanismi ercettivi degli organismi biologici ed è uno dei motivi di interesse nei confronti di questa tiologia di reti.
Radial Basis Function Network (3 Vantaggi delle RBF vs ANN tradizionali: maggiore velocità di arendimento; iù netta searazione fra le classi nello sazio delle decisioni. ANN tradizionale RBF
Probabilistic Neural Network (1 Le Probalistic Neural Networks (PNN sono una classe di reti neurali artificiali che, er alcuni asetti, ossono essere considerate atiiche, nel senso che sono la trasosizione di un criterio decisionale molto imiegato in statistica, il criterio Bayesiano, in un formalismo di calcolo di rete. Criterio della massima verosimiglianza.
Probabilistic Neural Network (2 Nello schema bayesiano le robabilità non sono interretate come frequenze, roorzioni o concetti analoghi, ma iuttosto come livelli di fiducia nel verificarsi di un dato evento. Questo aroccio si è affermato come una formalizzazione del metodo scientifico, che normalmente imlica la raccolta di dati (evidenza emirica, che corroborano o confutano una data iotesi. In questo senso, non si uò mai avere certezze riguardo a un'iotesi, ma con l'aumentare della disonibilità di dati il grado di fiducia cambia; con sufficiente evidenza emirica, diventerà molto alto (er esemio, tendente a 1 o molto basso (tendente a 0. Il sole è sorto e tramontato er miliardi di anni. Il sole è tramontato anche stanotte. Con un'elevata robabilità, il sole domani sorgerà (Lalace
HOPFIELD MACHINE Neuroni bistabili Osservazione del mondo attuale e sua classificazione in termini di esi ed attivita dei neuroni La rete ha uno stato er ogni dato di inut osservato Il nuovo evento erturba la rete e si osserva a quale stato essa converge Si invidua a quale degli esemi visti rima, esso assomigli
KOHONEN MACHINE Neuroni analogici Arendimento cometitivo Il neurone vincente e quello iu vicino, nello sazio delle variabili di ingresso, al dato di inut Si creano quindi dei grui di neuroni ad alta attivita attrattori Il nuovo esemio si classifica er vicinanza