Intelligenza Artificiale e Reti Neurali

Documenti analoghi

Tecniche di riconoscimento statistico

Una proposizione è una affermazione di cui si possa stabilire con certezza il valore di verità

Capitolo Ventitrè. Offerta nel breve. Offerta dell industria. Offerta di un industria concorrenziale Offerta impresa 1 Offerta impresa 2 p

CBM a.s. 2012/2013 PROBLEMA DELL UTILE DEL CONSUMATORE CON IL VINCOLO DEL BILANCIO

Modelli dei Sistemi di Produzione Modelli e Algoritmi della Logistica

NUMERI RAZIONALI E REALI

Regressione non lineare con un modello neurale feedforward

Pro e contro delle RNA

TUTORIAL PORTAFOGLIO MANAGEMENT. Parte 1 Rischio e Rendimento

Lezione 8. La macchina universale

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Dimensione di uno Spazio vettoriale

I NUMERI INDICI. Numeri indici indici (misurano il livello di variabilità, concentrazione, dipendenza o interdipendenza, ecc.)

Calcolatori: Algebra Booleana e Reti Logiche

VC-dimension: Esempio

Risposta: Quantità Prezzo ( ) Quantità Prezzo ( ) Automobili Biciclette ,52 94.

ALGEBRA DELLE PROPOSIZIONI

4. Reti correttrici e regolatori industriali. 4.1 Regolatori industriali Regolatore ad azione proporzionale P

13. Campi vettoriali

Ripasso di microeconomia ECONOMIA E FINANZA PUBBLICA. Teoria del consumatore. Lezione n. 1. Teoria del consumatore. Le preferenze.

DISTRIBUZIONE di PROBABILITA. Si dice variabile aleatoria (o casuale) discreta X una quantità variabile che può assumere i

Effetti sull opinione di pazienti riguardo all utilizzo di un computer in uno studio medico nell assistenza ordinaria

Strutturazione logica dei dati: i file

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini.

Appunti sulla Macchina di Turing. Macchina di Turing

Reti sequenziali sincrone

Corso di. Dott.ssa Donatella Cocca

2.1 Definizione di applicazione lineare. Siano V e W due spazi vettoriali su R. Un applicazione

PROVA INTRACORSO TRACCIA A Pagina 1 di 6

3. Introduzione all'internetworking

Algebra Di Boole. Definiamo ora che esiste un segnale avente valore opposto di quello assunto dalla variabile X.

Introduzione. Classificazione di Flynn... 2 Macchine a pipeline... 3 Macchine vettoriali e Array Processor... 4 Macchine MIMD... 6

Dispensa di Informatica I.1

Slide Cerbara parte1 5. Le distribuzioni teoriche

Fasi di creazione di un programma

CALCOLATORI ELETTRONICI A cura di Luca Orrù. Lezione n.7. Il moltiplicatore binario e il ciclo di base di una CPU

Effetto reddito ed effetto sostituzione.

Scopo della lezione. Informatica. Informatica - def. 1. Informatica

Algoritmi di clustering

Database. Si ringrazia Marco Bertini per le slides

Ricerca Operativa e Logistica

Laurea Specialistica in Informatica

Istituzioni di Economia Laurea Triennale in Ingegneria Gestionale Lezione 3 Il Mercato

Automazione Industriale (scheduling+mms) scheduling+mms.

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini

Algoritmi e Strutture Dati

Introduzione al MATLAB c Parte 2

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Corso di Matematica per la Chimica

Alla ricerca dell algoritmo. Scoprire e formalizzare algoritmi.

CORSO DI FORMAZIONE DOCENTI NEOIMMESSI IN RUOLO. a.s. 2011/12. Istituto attuatore: IPSEOA Duca di Buonvicino. Napoli

Università degli studi di Messina facoltà di Scienze mm ff nn. Progetto Lauree Scientifiche (FISICA) Prisma ottico

Capitolo 4: Ottimizzazione non lineare non vincolata parte II. E. Amaldi DEIB, Politecnico di Milano

1 Giochi a due, con informazione perfetta e somma zero

Capitolo 13: L offerta dell impresa e il surplus del produttore

Metodi Stocastici per la Finanza

Corrispondenze e funzioni

4 3 4 = 4 x x x 10 0 aaa

Algebra booleana. Si dice enunciato una proposizione che può essere soltanto vera o falsa.

Più processori uguale più velocità?

1 tabellone di gioco 4 set di carte (4 colori diversi, numerati da 1 a 20) 8 cani (2 di ogni colore) 1 blocco di fogli di scommessa Soldi Regolamento

Creare una Rete Locale Lezione n. 1

Laboratorio di Informatica

Note su quicksort per ASD (DRAFT)

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

G iochi con le carte 1

TECNICHE DI SIMULAZIONE

I COSTI DI UNA VALUTA COMUNE

Architettura hardware

LE FUNZIONI A DUE VARIABILI

Capitolo 4 - Teoria della manutenzione: la gestione del personale

connessioni tra i singoli elementi Hanno caratteristiche diverse e sono presentati con modalità diverse Tali relazioni vengono rappresentate QUINDI

12 - Introduzione alla Programmazione Orientata agli Oggetti (Object Oriented Programming OOP)

Esercizio 1 Dato il gioco ({1, 2, 3}, v) con v funzione caratteristica tale che:

Forze, leggi della dinamica, diagramma del. 28 febbraio 2009 (PIACENTINO - PREITE) Fisica per Scienze Motorie

CALCOLO EFFICACIA ED EFFICIENZA DI TERMOCAMINETTI A GIRI DI FUMO

Misure di base su una carta. Calcoli di distanze

INTEGRATORE E DERIVATORE REALI

Rette e curve, piani e superfici

la scienza della rappresentazione e della elaborazione dell informazione

Teoria dei Giochi. Anna Torre

Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A Pietro Frasca.

Algebra di Boole ed Elementi di Logica

Polli e conigli. problemi Piano cartesiano. Numeri e algoritmi Sistemi e loro. geometrica. Relazioni e funzioni Linguaggio naturale e

Progettaz. e sviluppo Data Base

1. Distribuzioni campionarie

Sistemi centralizzati e distribuiti

SVM. Veronica Piccialli. Roma 11 gennaio Università degli Studi di Roma Tor Vergata 1 / 14

Scheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux

Il sistema monetario

ISTITUTO COMPRENSIVO MONTEGROTTO TERME SCUOLA PRIMARIA DISCIPLINA: MATEMATICA - CLASSE PRIMA OBIETTIVI DI APPRENDIMENTO

Approccio stratificato

Domande a scelta multipla 1

INDIRIZZI IP ARCHITETTURA GENERALE DEGLI INDIRIZZI IP FORME DI INDIRIZZI IP CINQUE FORME DI INDIRIZZI IP

Agenti Mobili Intelligenti e Sicurezza Informatica Utilizzare un nuovo paradigma applicativo per la realizzazione di sistemi informatici sicuri.

LABORATORIO DI SISTEMI

Computational Game Theory

Funzioni in C. Violetta Lonati

Appunti di informatica. Lezione 2 anno accademico Mario Verdicchio

1 Serie di Taylor di una funzione

Transcript:

Intelligenza Artificiale e Reti Neurali

Daniel J. Amit (1938-2007

Le reti neurali sono nate (esclusivamente? er un rogetto iù grande, quello della INTELLIGENZA ARTIFICIALE

L intelligenza artificiale cerca di rirodurre le attitudini e le abilita degli essere viventi come Il movimento coordinato La visione Il linguaggio La caacita di arendere La caacita di decidere

NEUROFISIOLOGIA BIONICA ROBOTICA ELETTRONICA BIO-CHIP MACCHINE NEUROMORFICA INTELLIGENTI

L intelligenza uo essere definita come La caacita di rendere decisioni in carenza di informazioni La soravvivenza del comlesso decisionale o dell organismo artificiale e garantita? L intelligenza da sola non e una garanzia di successo evolutivo

Le domande: L intelligenza è localizzata? Esiste un organo che contiene l intelligenza?

18 secolo - l automa giocatore di scacchi di Wolfgang von Kemelen fece furore in tutte le citta euroee. Come e stato rovato iu tardi era una truffa: er mezzo di ingegnosi meccanismi in realta giocava un giocatore umano. Nel assato non esisteva una tecnologia er costruire una macchina intelligente 1936 - A. M. Turing (Princeton ensa una macchina universale roonendo di usare la mente come un aradigma comutazionale 1943 W. S. McCulloch e W. Pitts (Stanford inventano un neurone artificiale a soglia che mima quello biologico e comrende resistenze variabili (esi sinatici ed un amlicatore/sommatore analogico (coro cellulare

1943 D. Hebb (Phillis University of British Columbia costruisce un aradigma comutazionale (Regola di Hebb: la connessione fra due neuroni si rinforza se ad una alta attivita in un neurone corrisonde una alta reazione nell altro 1950 - A. M. Turing (Princeton ubblica il lavoro 'Can a Machine Think?' e C. Shannon (Bell Telehone Laboratories scrive un rogramma er giocare a scacchi 1955 J. McCarthy (Stanford conia il termine Artificial Intelligence (AI

1957 M. F. Rosenblatt (Cornell costruisce la rima macchina (Percetron basata sulle idee di McCulloch, Pitts e Hebb. Il Percetron fu usato er attern recognition ottico (riconoscimento di forme geometriche. Questa macchina aveva due layers di neuroni: uno di inut ed uno di uscita. Le funzioni attivazione erano lineari 1959 M. Minsky e S. Paert (MIT sottoongono ad una durissima critica il Percetron er la sua imossibilita a risolvere roblemi iu che lineari: tutto questo ferma i finanziamenti in AI e moltissimi rogetti vengono abbandonati 1962 - G. W. Evans (Louisville costruisce il rimo robot controllato da un AI comuter

Anni 70 - G. Parisi (Roma2 e D. Virasoro (Roma1 sistematizzano i fondamenti teorici delle ANN e T. Kohonen (Helsinki University of Technology studia i meccanismi di arendimento cometitivo alla base della costruzione di macchine intelligenti caaci di arendere senza suervisione (Self-Organizing feature Mas - SOM 1982 - J. J. Hofield (Caltech, D. Amit (Roma1, G. Parisi (Roma2 e D. Virasoro (Roma1 studiano ANN comletamente connesse le cui caratteristiche ortano alla formulazione dei rincii del Neuromorfismo e alla scoerta che gli andamenti generali delle ANN sono simili ai vetri di sin di Meccanica Quantistica

1985 - D. E. Rumelhart (Stanford svilua un sistema di arendimento suervisionato ( Rule er un ercetron multilayer caace di risolvere roblemi iu che lineari 1989 - T. D. Sanger (1 (Stanford svilua una ANN comletamente connessa caace di effettuare una analisi a Comonenti Princiali 1990 - A Caltech, Roma1 e Trento vengono rodotte realizzazioni hardware di ANN: retina artificiale, TOTEM (1 My research is directed toward understanding the causes and treatments of movement disorders in children, including dystonia, athetosis, chorea, ataxia, and myoclonus. My clinical laboratory at Stanford includes equiment for quantitative movement kinematics measurements of arm movements, multile-electrode surface EMG, and real-time video feedback. My ongoing theoretical research investigates the use of comutational neural networks to understand disorders of the basal ganglia.

2000 - Honda's Research & Develoment Wako Fundamental Technical Research Center (Giaone svilua ASIMO un robot caace di camminare, correre, salire e scendere le scale. Inoltre riesce a riconoscere le ersone, salutarle e chiamarle er nome, seguire oggetti in movimento e sostarsi nella direzione indicata. 2000-2005 - CERN, Roma1 vengono rodotte realizzazioni con intelligenza distribuita 2007 - Torino The Channeler Ant Model 2007 - Neural Engineering Center for Artificial Limbs (Chicago svilua un braccio artificiale imiantabile caace di comiere movimenti efficienti e di fornire il senso del tatto. 2010 - Kawada Industries ed il National Institute of Advanced Industrial Science and Technology (Giaone svilua HRP-4 un robot umanoide caace di risondere a comandi vocali e seguire con il movimento della testa la osizione di un volto umano, doo averlo riconosciuto.

Le RETI NEURALI sono un modello connettivista isirato alla realtà biologica Le ANN ricevono un inut e roducono un outut senza avere un rocesso algoritmico con un insieme di regole che descrivano comletamente un roblema Le ANN imarano da esemi Le ANN imarano da sole o da un maestro

Basics of Artificial Neural Networks (1 L attività della rete avviene attraverso rocessi elettro-chimici nel cervello e viene emulata elettronicamente nelle imlementazioni hardware delle ANN. La velocità er una "oerazione neurale, nel caso biologico, dell ordine del millisecondo, mentre è dell ordine del nanosecondo in una imlementazione VLSI. Nonostante questo svantaggio in termini di velocità, la caacità del cervello è insuerabile risetto a quello di una ANN.

Basics of Artificial Neural Networks (2 La otenza di calcolo deriva dall enorme numero di neuroni che sono resenti nel cervello (~10 11, in confronto ad una ANN (~10 2 10 3 e nell alto livello di connettività del neurone biologico (da 10 2 a 10 4 connessioni er neurone, che è al contrario limitato nelle imlementazioni artificiali. La otenza di calcolo risultante, er un cervello umano, uò essere stimata ~10 15 oerazioni/sec, con una memoria di ~10 8 Mbytes.

LE RETI NEURALI ARTIFICIALI SONO DELLE RETI DI ELEMENTI INTERCONNESSI SEMPLICI DETTI NEURONI

IL NEURONE (1 I neuroni sono connessi fra loro e si scambiano informazioni. Esiste quindi un valore di accoiamento fra due qualsiasi neuroni connessi. Dati i neuroni i e j, questo valore di accoiamento e detto eso w i,j.. Ciascun neurone i è caratterizzato dalla sua funzione di attivazione f.

IL NEURONE (2 I modelli di neuroni iù usati sono:

The dot-roduct neuron In questo modello, il neurone i-esimo effettua la somma esata delle uscite dei neuroni ad esso connessi: P = w i ij j Questo uò essere interretato j come il rodotto scalare del vettore esi e del vettore outut, formati resettivamente dai esi e dagli oututs connessi al neurone i: r r s r r r W i = w ; ij S = s j P i = W i S Ciascun neurone agisce su questa somma esata e roduce un uscita (il suo stato attuale attraverso la roria funzione di attivazione f: ( s = f P i i

Le funzioni di attivazione Esistono diverse forme ossibili er le funzioni di attivazione, di solito esse consistono nell alicazione di una soglia e di un amlificazione. I tre tii iù utilizzati di funzioni di attivazione sono un semlice gradino, una funzione lineare e la iù imortante di tutte, la funzione sigmoide. Questo modello è derivato dalla biologia: le sinasi giocano il ruolo della connessione fra i dendriti ed il coro del neurone. Così i "esi" sono le sinasi, mentre gli assoni, attraverso i dendriti, trasortano le informazioni da un neurone all'altro.

The dot roduct neuron s 1 w i1 neuron i from other neurons s 2 w i2 Σ P i f s i... s n w in P = Σ w s i ij j s = f (P i i s i s i P i P i threshold (ste function sigmoid function

The distance neuron Un altro modello di neurone è quello chiamato distance neuron. Questo neurone i calcola, invece che la somma esata, una sorta di distanza fra il vettore dei esi e quello delle uscite dei neuroni connessi all i-esimo; una tiica funzione distanza è la norma euclidea: r r d = Wi S In molti casi, la funzione di attivazione, alicata a questa distanza, tiene conto del fatto che l uscita del neurone è iù alta, iù è alta la similitudine fra i vettori dei esi e degli ingressi: ad esemio una funzione a camana centrata su zero.

The distance neuron s 1 w i1 neuron i from other neurons s 2 w i2 dist d i f s i... s n w in d i = w i - s s = f (d i i s i bell-shaed function d i

Architectures of Neural Networks (1 Una maniera di classificare le ANN è in base alla loro struttura. Due delle architetture iù usate, almeno in Fisica, sono le configurazioni feed-forward e recurrent. inut layer hidden layer outut layer Feed-Forward Network Recurrent Network

Architectures of Neural Networks (2 Nelle reti feed-forward (FF-ANN i neuroni sono organizzati in strati searati e i neuroni di ciascun strato contribuiscono all ingresso dei neuroni dello strato successivo. I neuroni sono del tio dot-roduct. Non ci sono connessioni fra i neuroni dello stesso strato. Gli strati sono usualmente divisi in: inut layer connessi al mondo esterno e riceventi gli stimoli di ingresso outut layer roducono l uscita che è utilizzata nel mondo esterno hidden layers senza connessioni dirette con l esterno e caaci di rodurre correlazioni fra i dati e raresentazioni interne dei dati stessi.

Architectures of Neural Networks (3 Le reti ricorrenti (R-ANN resentano una struttura comletamente interconnessa: ogni neurone è in linea di rinciio connesso a qualsiasi altro. Il eso che lega due neuroni non interagenti tra di loro finsce er essere ari a zero nel rocesso di arendimento. Una tale struttura orta ad un feed-back fra i neuroni. I neuroni ossono essere classificati ancora come neuroni di ingresso, uscita e nascosti. Un neurone uò essere, allo stesso temo, di ingresso e di uscita.

Architectures of Neural Networks (4 Una tiica alicazione di una R-ANN è la memoria associativa: se i neuroni di ingresso sono diversi da quelli di uscita, la ANN rodurrà un outut che è correlato (associato alla configurazione mostrata come inut; gli sazi degli ingressi e delle uscite sono, in linea di rinciio, differenti. Questa è una rete eteroassociative. Se i neuroni di ingresso ed uscita coincidono, la rete è detta auto-associativa: in questo caso, essa uò essere usata er "comletare" un inut attern affetto da rumore o dati mancanti.

Architectures of Neural Networks (5 Le combinazioni di queste architetture sono altrettanto imortanti, quindi occorre restare attenzione a forzare le ANN in una o l'altra categoria di aartenenza. Ad esemio, reti feed-forward con uno strato di neuroni comletamente connessi tra loro e che esibiscono un arendimento cometitivo, sono l'architettura tiica di reti di classificazione non suervisionate. FF-ANN con un ultimo strato auto-associativo di neuroni comletamente connessi, si sono dimostrate estremamente utili er comrendere alcune forme di danni cerebrali come dislessia.

Information storage (1 Come in qualsiasi comuter, l informazione (o meglio la conoscenza? è immagazzinata dentro una ANN. In una macchina convenzionale, ogni dato è registrato in una recisa locazione di memoria ed è univocamente identificato dal suo indirizzo.

Information storage (2 Esemio di come l informazione è messa nella memoria del comuter e richiamata usando il suo indirizzo er essere elaborata algoritmicamente nella CPU: Un fit lineare di alcuni unti serimentali. L algoritmo, nella CPU, usando un rocesso combinatorio riesce ad escludere il unto rumoroso". Y3 Y2 Y4 Y1 a (C X1 (B b d c X2 X3 X4 track data retrievable by address Problem: track reconstruction straight line of equation y = ax + b exerimental measured oints (Xi,Yi, i=1,3 noise oint (X4,Y4 X4 Y4 X3 Y3 X2 Y2 X1 Y1 CONVENTIONAL INFORMATION STORAGE sequential comuter memory algorithmical comutation data CPU address a, b LOCAL INFORMATION STORAGE IN NEURAL NET Each neuron <==> a hysical instance e.g. neuron "a" active ==> oints (X1,Y1 and (X2,Y2 belong to the track e a b c a b c Recurrent Neural Net (A d e d e all neurons active only neurons a and b at startu active at the end DISTRIBUTED INFORMATION STORAGE IN NEURAL NET Y3 Y2 Y4 track X3 Y3 X2 Y2 X4 Feed-forward Neural Net a b

Information storage (3 (B In una ANN, ci sono b due maniere tiiche di a d immagazzinare c Recurrent l informazione. Neural Net La rima è quando un ezzo di informazione è (C DISTRIBUTED INFORMATION STORAGE IN NEURAL NET univocamente associato con lo stato di un neurone (local a, b LOCAL INFORMATION STORAGE IN NEURAL NET Each neuron <==> a hysical instance e.g. neuron "a" active ==> oints (X1,Y1 and (X2,Y2 belong to the track e a b c a b c d e d e all neurons active only neurons a and b at startu active at the end track X3 Feed-forward Neural Net information storage : allora i esi corrisondono Y3 alla Y3 X2 Y2 relazione recisa che esiste Y4 tra le due orzioni di dati e Y2 Y1 X4 Y4 che avrebbe determinato, in un aroccio algoritmico, la X1 Y1 rocedura di calcolo. I esi ossono X1 X2 X3 X4essere calcolati Inut set {Xi,Yi} dal classified di as belonging to class (a,b fuori e non necessariamente aresi dalla rete. Ogni neurone raresenta una esemio del roblema, vale a dire, nel caso in questione, l'esistenza del collegamento tra due unti: una entità fisica associata ad un segmento di determinata lunghezza e orientamento. a b

Y1 CONVENTIONAL INFORMATION STORAGE Information storage (4 X1 X2 X3 X4 X4 Un altra ossibilità è quando i dati sono divisi fra due o Y4 X3 iù neuroni e ciascun neurone contribuisce a raresentare Y3 X2 orzioni differenti di informazione Y2(distributed address X1 data retrievable information storage. Y1 by address I neuroni di inut vedono i dati reali (coordinate X e Y, sequential comuter memory algorithmical comutation data CPU (B LOCAL INFORMATION STORAGE IN NEURAL NET ma i neuroni intermedi (nascosti Each neuron mescolano <==> a hysical instance queste e.g. neuron "a" active ==> oints (X1,Y1 and (X2,Y2 belong to the track informazioni ed ordinano, insieme b ai neuroni di uscita, gli e a d a b c a b c insiemi di ingresso come aartenenti ad una retta con c una certa endenza e intercetta. Recurrent Neural Net d e d e In such a network one can in rincile trace all neurons back active the only neurons role a and b at startu active at the end of each neuron, the imressive task of finding out the best values for the (C weights is carried out track X3 Y3 through a "learning" Y2 Y4 Y1 rocedure. DISTRIBUTED INFORMATION STORAGE IN NEURAL NET X1 X2 X3 X4 Y3 X2 Y2 X4 Y4 X1 Y1 (A Inut set {Xi,Yi} classified as belonging to class (a,b a, b Feed-forward Neural Net a b

LINEAR CLASSIFIERS (1 Φ (x-x' outut -x' 1 THRESH x (a x' X Un taglio lineare, er una distribuzione unidimensionale di una variabile fisica, è equivalente ad una funzione gradino Φ Φ(variable - threshold dove Φ=0 se variable < threshold Φ=1 se variable threshold (b inut Questa ANN alica la funzione gradino all ingresso. I coefficienti ( esi" di questa combinazione lineare sono mostrati dulle linee che uniscono le bolle. La bolla ( neurone detta THRESH fornisce semre "1" come uscita.

LINEAR CLASSIFIERS (2 Per due o iù variabili, i tagli lineari ossono funzionare solamente se le categorie sono linearmente searabili. La scelta delle variabile rimitive non è necessariamente la migliore ed una "rotazione" nell iersazio delle variabili di ingresso uò essere necessaria.

Y LINEAR CLASSIFIERS (3 B outut A c a b Φ (ax + by + c Il classificatore lineare caace di searare la classe "A" dalla "B" in un roblema (a bidimensionale è la funzione Φ(aX + by + c con a,b,c costanti. La retta in figura ha equazione ax + by + c = 0 X THRESH (b X inut Y Questa ANN realizza il classificatore lineare bidimensionale. Il neurone detto THRESH fornisce semre "1" come uscita.

A A B 1 2 1 roblem B 2 3 0 0 A A 1 B -1 0-1 first cut add third cut subtract 2 B 0 1 add second cut A A B 1 2 B resulting cut alicare tagli lineari in cascata er selezionare la regione di interesse. In figura vediamo la sequenza di tagli lineari necessaria er searare la classe A dalla B in un grafico bidimensionale. Il taglio finale è una combinazione di rette: 1 LINEAR CLASSIFIERS (4 Quando il confine fra classi (in una distribuzione a iù variabili è non-lineare, è ossibile [ ( x + by + c + Φ( a x + by + c + Φ( ax + by + c 2] Φ Φ a1 1 1 2 2 2 3 3 3

LINEAR CLASSIFIERS (5 1 1 1 THR - 2 c1 c2 c3 a1 a2 b2 a3 b1 X Y b3 La ANN equivalente: i neuroni sono organizzati in una struttura a tre strati. Ciascun neurone ha una funzione di attivazione a gradino. Il neurone detto THR fornisce semre "1" come uscita.

Hidden neurons (1 Se la searazione fra classi con uò essere effettuata con tagli lineari, cioè se la forma del confine con uò essere arossimata da un insieme di rette, occorre usare strutture logiche comutazionali simili in architettura ad una feed-forward multistrato. Questo è dovuto al fatto che un singolo neurone non uò realizzare tutte le ossbili funzioni booleane. Un neurone booleano n-dimensionale è un neurone, con una funzione di attivazione a gradino, che realizza una alicazione da un insieme di ingresso di n variabili booleane {x 1, x 2, x 3,..., x n } all insieme {0, 1}.

Hidden neurons (2 Anche er il caso semlice della funzione XOR, dove la dimensione dello sazio di ingresso è 2, un neurone non è sufficiente er fornire il risultato corretto, dato che le due classi di uscita non sono linearmente searabili. Per la funzione XOR ci vuole, almeno, un neurone nascosto; al contrario er le funzioni AND ed OR, è sufficiente lo stesso neurone booleano, dove solo il valore di soglia deve essere cambiato.

Hidden neurons (3 0=false 1=true A B A.AND.B 0 0 0 0 1 0 1 0 0 1 1 1 A B A.OR.B 0 0 0 0 1 1 1 0 1 1 1 1 A B A.XOR.B 0 0 0 0 1 1 1 0 1 1 1 0 thresh=1.5 1 1 A B thresh=0.5 1 1 A B thresh=1.5 1-2 A 1 1 thresh=0.5 1 B FUNZIONI BOOLEANE: AND OR XOR

Hidden neurons (4 B A.AND. B B A.OR. B B A.XOR. B A A A = vero FUNZIONI BOOLEANE: = falso AND OR XOR

Proietà delle ANN (1: memoria associativa distribuita Memoria distribuita significa che i valori dei esi raresentano lo stato di conoscenza della ANN, senza che vi sia una secifica associazione fra un dato ed un neurone secifico. Associativo significa che se alla ANN è mostrato un inut arziale, la rete riesce a scegliere, nella sua conoscenza, la configurazione iù simile al dato di ingresso ricevuto. Se la rete è autoassociativa, il risultato è il comletamento del vettore di inut. Così le ANN sono in grado di gestire dati incomleti, rumorosi o mai visti in recedenza: questa ultima caratteristica è chiamata generalizzazione.

Proietà delle ANN (2: tolleranza La distruzione o alterazione di uno o iù elementi di rocesso (dati di inut, neuroni, connessioni, ect.. causa solamente un degrado della restazione della rete: questa è una conseguenza della memorizzazione distribuita dell informazione. Al contrario nella rogrammazione tradizionale, la erdita di un singolo elemento causa il fallimento dell intero rocesso comutazionale. Le ANN sono quindi articolarmente adatte er le alicazioni in cui il guasto del disositivo di emergenza uò significare disastro (centrali nucleari, untamento missilistico, oerazioni remote nello sazio, ect...

FAULT TOLERANCE RISPOSTA In carenza di dati la risosta non va a zero RISPOSTA bruscamente, ma erde RISPOSTA gradualmente di RISPOSTA intensita

Proietà delle ANN (3: attern recognition I lavori di attern recognition richiedono la caacità di abbinare grandi quantità di informazioni in ingresso, er generare, in uscita, categorie (ad esemio, dai segnali di un calorimetro, le tracce, tenendo conto del rumore o di dati di ingresso incomleti. Le ANN sono un disositivo di calcolo intrinsecamente arallelo, che soddisfa le caratteristiche di cui sora. D altra arte è noto che le cometenze sueriori del cervello umano er il trattamento, ad esemio, di immagini risiedono nella sua struttura amiamente arallela. Le ANN, ur tenendo conto delle diverse dimensioni di attuazione risetto al cervello, cercano di emulare le sue caratteristiche iù intriganti come il attern recognition.

LE ANN VENGONO EDUCATE A RISOLVERE PROBLEMI PER MEZZO DI ESEMPI SI CERCA PARADIGMA COMPUTAZIONALE PIU EFFICIENTE

Arendimento Nei sistemi tradizionali la conoscenza è data eslicitamente in forma di regole. Non vi è quindi, un arendimento roriamente detto. Le ANN, al contrario, imarano da esemi resentati loro, vale a dire attraverso la stimolazione delle unità di ingresso e di uscita, effettuata da schemi forniti dall'esterno. L arendimento è l insieme delle rocedure attraverso le quali i esi di una ANN sono modificati.

Arendimento non suervisionato Solo gli stimoli di ingresso vengono resentati alla rete, che si organizza in modo che, ogni elemento della rete stessa risonda decisamente a diversi stimoli o diversi grui di stimoli. Questi insiemi di risoste raresentano dei clusters nello sazio degli ingressi, di solito connessi a diverse caratteristiche del mondo reale.

Arendimento suervisionato Per ogni stimolo di ingresso, la configurazione desiderata er l outut, viene resentata ai neuroni di uscita della rete e conseguentemente, i esi sono modificati in modo da realizzare, il iù ossibile, l uscita desiderata. Durante la fase di arendimento, i esi cambiano in funzione del temo: w ij (t --> w ij (t+1 = w ij (t + w ij Le iù imortanti regole er l aggiustamento dei esi sono hebbian learning, cometitive learning and delta rule learning.

Hebbian learning Un eso cresce in roorzione al rodotto delle funzioni di attivazione dei due neuroni in questione: w ij = η s i (t s j (t Questo riflette l ovvia constatazione che una costante di accoiamento è iù grande, se vi è una forte correlazione fra lo stimolo in ingresso e la reazione in uscita. In termini biologici, questo significa che una configurazione neurale è rafforzata ogni volta che viene usata.

Cometitive learning I neuroni cometono fra di loro e quelli che, er un dato inut, forniscono l outut iù intenso, modificano i esi, relativi ad essi, er rodurre una risosta semre iù simile allo stimolo in ingresso. w ij = η (X - W i dove X = inut alle unità j (un vettore W i = esi dalle unità j all unità i (una riga della matrice W ij Al di là della cometizione, i neuroni dello stesso strato si ossono normalizzare fra loro. Nei sistemi biologici questo è fatto connettendo fra di loro gli elementi dello stesso strato, ermettendo quindi ai neuroni di muoversi in accordo con la risosta globale dello strato stesso.

Delta rule learning (1 E un aradigma dell arendimento suervisionato, normalmente alicato alle FF- ANN. Tale aradigma è basato sulla riduzione dell errore fra l uscita attuale e quella desiderata. Questa regola attua un gradiente discendente lungo la funzione errore, definito nello sazio dei esi: w ij = - η E/ w ij

Delta rule learning (2 Esemio: FF-ANN a due strati. Assumiamo di resentare un insieme di inut atterns {A } allo strato di ingresso della rete. Per ciascuno di questi atterns, la rete roduce un vettore di outut O e er ciascun inut attern è conosciuto il vettore verità (target T. 1 O(1 T(1 w(1,j A(j J w(2,j w(3,j 2 O(2 T(2 3 O(3 T(3

Delta rule learning (3 La differenza O (i - T (i uò essere calcolata er ciascuna comonente del vettore di outut O, e ossiamo definire una forma quadratica che misuri la differenza fra l outut O ed il target T : E = 1/2 O - T 2 = 1/2 Σ [O (i - T (i] 2 1 O(1 T(1 w(1,j A(j J w(2,j w(3,j 2 3 O(2 O(3 T(2 T(3 E = E

Delta rule learning (4 I esi sono così modificati L uscita è dove f è la funzione di attivazione [ ] ( ( ( ( (, ( j A i j A i O i T j i w ηδ η = = ( ( (, ( ( i s f j A j wi f i O j = =

Delta rule learning (5 Per neuroni con funzione di attivazione lineare, la delta rule attua un gradiente discendente lungo la funzione errore, definito nello sazio dei esi, er minimizzare l errore totale Possiamo scrivere ( = = i i O i T E E 2 ( ( 2 1 ( (, ( ( (, ( j A i j wi i O i O E j wi E = δ =

Delta rule learning (6 Per neuroni con funzione di attivazione non-lineare, ossiamo definire l errore er i-neurone sul -inut come e Ovviamente la derivata della funzione di attivazione deve esistere. La funzione di attivazione iù usata è la sigmoide ( ( i s E i δ [ ] [ ] ( [ ] c i s f i O i T i s i O i O i T i + = ( ' ( ( ( ( ( ( ( δ ( 2 1 '( 1 1 ( x x x e e x f e x f µ µ µ + = + =

Delta rule learning (7 La Delta rule consiste nel modificare i esi in modo roorzionale al tasso di diminuzione della funzione di errore risetto a quel eso articolare, cioè una discesa del gradiente che uò essere scritta: w(i,j = - η E/ w(i,j dove η è un arametro (chiamato learning arameter.

Delta rule learning (8 In una rete multistrato, la formula uò essere alicata a ciascun strato nascosto, sostituendo l ingresso A con l uscita dello strato recedente. Questo algoritmo è conosciuto come "backroagation", dato che l'errore calcolato in un livello a valle viene roagato all'indietro a quelli iù a monte.

Delta rule learning (9 Quando sono resenti neuroni nascosti, l errore δ(i è back-roagated; er ciascun neurone nascosto i, δ(i uò essere calcolato dagli errori δ(k di tutti i neuroni connessi all unità i ( [ ] ( [ ] + = = = + = k k k i k w k c i s f i i k w k i O k s k s E i O E c i s f i O E i, ( ( ( (, ( ( ( ( ( ( ( ( ( δ δ δ δ

Delta rule learning (10 Usando la Generalized Delta Rule con backroagation, sono ossibili molti minimi nella funzione di errore. Una maniera emirica er uscire da questa difficoltà, è quella di scegliere oortunamente il learning arameter η, eventualmente modificandolo durante la fase di arendimento.

Delta rule learning (11 Inoltre, er accelerare la discesa, sorattutto nelle rime iterazioni di arendimento, viene usato un arametro α, detto momento, che "ricorda il fatto che l aggiornamento dei esi nella iterazione recedente era ancora intenso, il che significa che si è lontani dal minimo e quindi ossiamo muoversi iù velocemente: n w(i,j = - η E n / w(i,j + α n-1 w(i,j I valori iniziali dei esi e delle soglie, sono scelti in maniera casuale. Una iterazione dell intero insieme dei vettori di ingresso è chiamata eoca.

Pruning Gli algoritmi genetici ossono rodurre una rete neurale meno esante e iù efficiente, tagliando le connessioni meno intense w ij ( t + 1 = ηδ j o j if w ij ( t > d min w ij erased if w ij ( t d min

Learning and testing (1 Per rima cosa dividiamo gli inut atterns (e quindi i corresondenti target atterns in due insiemi, chiamati training samle e testing samle. La rima fase della rocedura di arendimento consiste nella resentazione alla rete degli inut atterns del training samle, e l alicazione dell algoritmo er il cambio del valore dei esi nell intera rete. Questo rocesso viene iterato fin quando l errore raggiunge il minimo desiderato. TRAINING SAMPLE NEURAL NETWORK MODIFICATION WEIGHTS ALGORITHM CLASSIFICATION ERRORS ON TRAINING SAMPLE Molto sesso questa rocedura richiede migliaia di eoche er la stabilizzazione dei valori dei esi.

Learning and testing (2 La validazione dei valori dei esi trovati durante la rima fase di arendimento è fatta misurando la restazione della rete sui the atterns del testing samle, er costruzione diversi da quelli utilizzati er la fase di arendimento. TESTING SAMPLE LEARNED NETWORK CLASSIFICATION

Learning and testing (3 Non c'è una regola recisa sul numero di vettori di ingresso, che deve essere utilizzato nel camione di arendimento. E'consigliabile avere un numero di inut atterns un aio di volte il numero di esi da ottimizzare. Questo imone, sorattutto se i vettori di ingresso non ossono essere generati tramite simulazioni al comuter, di mantenere l'architettura dell ANN la iù iccola ossibile.

Learning and testing (4 Anche il numero di unità nascoste è usualmente determinato sulla base dell eserienza, come il minimo numero che fornisca una buona restazione. Se in una rete, usata er classificare, sono resenti troe unità nascoste, si rischia l overtraining della rete: la ANN, in artenza, "memorizza" gli inut atterns, con una restazione ottima sul learning samle, ma inaccettabile su qualsiasi test samle. Questo erché la rete non è iù in grado di generalizzare, cioè di associare i vettori di ingresso mai visti, ad una classe secifica, che dovrebbe avere imarato ad identificare.

Learning and testing (5 Ad esemio, la curva blu in figura, mostra l'andamento dell'errore nel classificare i dati di training, mentre la curva rossa mostra l'errore nel classificare i dati di test o validazione. Se l'errore di validazione aumenta mentre l'errore sui dati di training diminuisce, ciò indica che siamo in resenza di un ossibile caso di overtraining. L overtraining uò essere interretato con un eccessivo adattamento del modello ai dati osservati, usando un numero eccessivo di arametri. Un modello assurdo e sbagliato uò adattarsi erfettamente ai dati disonibili, se è abbastanza comlesso. L'overtraining è una violazione della legge del Rasoio di Occam.

Radial Basis Function Network (1 Le Radial Basis Function Network (RBFN sono una classe di reti neurali artificiali caratterizzate dalla rorietà di avere uno strato di unità hidden con funzione di attivazione di tio radiale. Le funzioni radiali sono articolari funzioni la cui caratteristica rinciale è la crescita o decrescita monotonica all aumentare della distanza da un centro µ.

Radial Basis Function Network (2 L utilizzo di tali funzioni come funzioni di trasferimento comorta il fatto che l attivazione delle unità hidden è determinata dalla distanza tra il vettore di ingresso e un vettore rototio costituito dai centri delle unità stesse. Ognuna delle unità dello strato hidden forma un camo ricettivo nello sazio di ingresso, che è di tio non suervisionato, resenta interessanti analogie con i meccanismi ercettivi degli organismi biologici ed è uno dei motivi di interesse nei confronti di questa tiologia di reti.

Radial Basis Function Network (3 Vantaggi delle RBF vs ANN tradizionali: maggiore velocità di arendimento; iù netta searazione fra le classi nello sazio delle decisioni. ANN tradizionale RBF

Probabilistic Neural Network (1 Le Probalistic Neural Networks (PNN sono una classe di reti neurali artificiali che, er alcuni asetti, ossono essere considerate atiiche, nel senso che sono la trasosizione di un criterio decisionale molto imiegato in statistica, il criterio Bayesiano, in un formalismo di calcolo di rete. Criterio della massima verosimiglianza.

Probabilistic Neural Network (2 Nello schema bayesiano le robabilità non sono interretate come frequenze, roorzioni o concetti analoghi, ma iuttosto come livelli di fiducia nel verificarsi di un dato evento. Questo aroccio si è affermato come una formalizzazione del metodo scientifico, che normalmente imlica la raccolta di dati (evidenza emirica, che corroborano o confutano una data iotesi. In questo senso, non si uò mai avere certezze riguardo a un'iotesi, ma con l'aumentare della disonibilità di dati il grado di fiducia cambia; con sufficiente evidenza emirica, diventerà molto alto (er esemio, tendente a 1 o molto basso (tendente a 0. Il sole è sorto e tramontato er miliardi di anni. Il sole è tramontato anche stanotte. Con un'elevata robabilità, il sole domani sorgerà (Lalace

HOPFIELD MACHINE Neuroni bistabili Osservazione del mondo attuale e sua classificazione in termini di esi ed attivita dei neuroni La rete ha uno stato er ogni dato di inut osservato Il nuovo evento erturba la rete e si osserva a quale stato essa converge Si invidua a quale degli esemi visti rima, esso assomigli

KOHONEN MACHINE Neuroni analogici Arendimento cometitivo Il neurone vincente e quello iu vicino, nello sazio delle variabili di ingresso, al dato di inut Si creano quindi dei grui di neuroni ad alta attivita attrattori Il nuovo esemio si classifica er vicinanza