Algoritmi di Classificazione e Reti Neurali

Algoritmi di Classificazione e Reti Neurali Lezione introduttiva (3 ore) A cura di L. Palagi 26/10/2010 1

Struttura del corso Il corso è in co-docenza (3 + 3 cfu) proff. L. Grippo e L. Palagi Sono previsti dei seminari http://www.dis.uniroma1.it/~grippo/ http://www.dis.uniroma1.it/~palagi/ dott.ssa S. Canale (6 ore) http://www.dis.uniroma1.it/~canale/didattica dr. F. Rinaldi (2 ore) http://www.dis.uniroma1.it/~rinaldi/ Calendario delle lezioni dettagliato in rete 26/10/2010 2

Contenuti del corso Introduzione alla teoria dell`apprendimento statistico ( imparare dai dati ) Apprendimento supervisionato Support Vector Machines (L. Palagi) 19 ottobre - 30 novembre Reti Neurali (L. Grippo) 2 dicembre 27 gennaio Apprendimento non supervisionato (S. Canale) 23 30 novembre, 7 dicembre ore 15:45 Esempi e software (F. Rinaldi) 14 dicembre ore 15:45 26/10/2010 3

Contenuti del corso SVM (Palagi) Support Vector Machines per la Classificazione e la regressione SVM Lineari SVM Non lineari (Kernel) SVM e ottimizzazione Programmazione quadratica Cenni teoria dualita` e Duale di Wolfe Algoritmi di decomposizione per il problema duale 26/10/2010 4

Contenuti del corso RN (Grippo) Addestramento del Perceptron Reti multistrato e metodo di backpropagation Proprieta` di approssimazione Algoritmi di addestramento Reti RBF e algoritmi di decoposizione 26/10/2010 5

Imparare da esempi La teoria dell apprendimento statistico ha come obiettivo principale quello di trovare la descrizione analitica di una dipendenza sconosciuta tra la misura di alcuni oggetti e le proprieta` di tali oggetti. Le misure, sono dette variabili di input e si suppone che siano disponibili per tutti gli oggetti di interesse. Le proprietà degli oggetti sono dette variabili di output e sono normalmente conosciute solo per un sottoinsieme degli oggetti che rappresentano gli esempi Stimare il tipo di dipendenza tra input-output serve per poter determinare il valore delle variabili di output su tutti i dati di interesse (non solo gli esempi) 26/10/2010 6

Esempio: riconoscimento di caratteri manoscritti Le misure (variabili di input) sono le immagini di un carattere (disponibili per tutti gli esempi) 26/10/2010 7

Riconoscimento di caratteri manoscritti Ogni elemento di ingresso corrisponde a un immagine pxp (28x28, 256x256) pixel e quindi e` rappresentabile da un vettore a p 2 (=784, 65536) valori reali che rappresentano i livelli di grigio (0=bianco, 1=nero) rappresentabili ad es. con 8-bit Le proprietà (variabili di uscita) mi indicano il tipo di carattere ovvero uno degli elementi dell insieme {0,1,2.,9} Gli esempi sono i caratteri scritti da alcune persone. Lo scopo è riconoscere caratteri scritti da terzi La difficoltà è l alta variabilità delle forme e l alto numero di diversi elementi (2 28 x28 x8,2 256 x256 x8 ) 26/10/2010 8

Classificazione La classificazione individua l appartenenza di un elemento ad una classe. Con la classificazione l output predetto (la classe) e categorico ossia puo assumere solo un numero finito di possibili valori come {Sì, No}, {Alto, Medio, Basso}, ecc. Per esempio un modello di classificazione consiste nel predire se un potenziale cliente X con determinate caratteristiche risponderà in modo positivo a negativo ad un offerta di mercato. 26/10/2010 9

Approssimazione/regressione Esistono modelli di apprendimento dai dati il cui output NON è l appartenenza ad una classe ma un valore numerico. In questo caso si parla di approssimazione/regressione. 1 I dati di ingresso sono coppie di valori reali di (x,t) e si suppone che esista una funzione t=f(x) incognita 0-1 Si vuole determinare la funzione che meglio approssima questi dati 0 1 26/10/2010 10

Approssimazione o Regressione I valori dei dati di input possono essere alterati da un (basso) valore di rumore. Si parla di approssimazione in assenza di rumore. Le variabili in uscita possono assumere un numero illimitato di valori. Spesso queste variabili in uscita sono indicate come continue anche se talvolta non lo sono nel senso matematico del termine (ad esempio l età di una persona) Ad esempio un modello di regressione consiste nel predire il profitto Y in euro che uno specifico cliente X porterà un nel corso di un determinato periodo di tempo. Tipicamente classificazione e regressione vengono usate per lo sviluppo di modelli matematici per il supporto decisionale* *Ricerca Operativa 26/10/2010 11

Apprendimento e statistica Inferenza Statistica data una collezione di dati empirici originati secondo una qualche legge di dipendenza funzionale, inferire (dedurre) tale legge Si distinguono due approcci principale inferenza parametrica, che vuole individuare semplici metodi di inferenza per classi particolari di problemi reali inferenza generale, che vuole individuare un metodo induttivo per qualunque problema di inferenza statistica 26/10/2010 12

Inferenza parametrica Inizio 1930. Gli anni 30-60 golden age modelli basati su principi primi: si suppone di conoscere la legge fisica che regola le proprietà stocastiche dei dati e che tale funzione sia definita da un numero finito (basso) di parametri di tipo noto. stimare i parametri (quelli non misurabili in modo diretto) utilizzando i dati e verificare la veridicità del modello individuato è l essenza di un problema di inferenza statistica I modelli parametrici utilizzati sono tipicamente lineari nei parametri; tali parametri sono determinati con il metodo della massima verosimiglianza (maximum likelihood method) 26/10/2010 13

La decadenza del modello di IP I modelli di inferenza parametrica sono semplici e ben si adattavano alle risorse di calcolo disponibili prima del 1960. Si basano su tre risultati principali teorema di Weierstass per cui ogni funzione continua può essere approssimata su un intervallo finito ad un qualunque grado di accuratezza da un polinomio (ovvero una funzione lineare nei parametri) Il teorema del valore centrale per cui la somma di un gran numero di variabili random è approssimata dalla legge di distribuzione normale il metodo della massima verosimiglianza è un buon strumento per la stima dei parametri La decadenza Curse of dimensionality (R. Bellman) se la funzione non è abbastanza contin. derivabile per ottenere il grado di accuratezza desiderato sono necessari un numero esponenziale di termini del polinomio (ovvero di variabili) molti problemi reali non possono essere descritti con le leggi classiche di distribuzione il metodo della massima verosimiglianza non è un buon metodo anche in casi semplici 26/10/2010 14

Oltre il classico paradigma modelli di inferenza generale: non si hanno informazioni a priori sui principi primi che regolano la legge statistica sottostante la distribuzione dei dati o della funzione che si vuole approssimare si cerca un metodo (induttivo) in grado di inferire una funzione approssimante dati gli esempi. uso dei dati per derivare il modello stesso modelli non predefiniti e non lineari nei parametri data analysis/data mining 26/10/2010 15

Storicamente Nel 1958 Rosenblatt (un fisiologo) propone una macchina di apprendimento (ovvero un programma di calcolo) chiamato Perceptron per risolvere un semplice problema di calssificazione. Il Perceptron rifletteva alcuni modelli neurofisiologici di apprendimento. Il perceptron può generalizzare (ovvero impara). 1958-1992: Reti neurali Successivamente sono state proposte molte altre macchine per apprendimento (programmi di calcolo) che non hanno analogia con il neurone biologico. Esiste un principio di inferenza induttiva comune a queste macchine? (1992-oggi) ritorno alla teoria di inferenza statistica: principio generale di induzione 26/10/2010 16

Terminologia comune regressione (statistica) classificazione (statistica) o pattern recognition (ingegneria) riconoscimento di configurazioni Reti neurali SVM clustering intelligenza artificiale (utilizzo logica simbolica) (computer science = informatica) 26/10/2010 17

Data Mining (DM) (fonte: Wikipedia) Il data mining ha per oggetto l'estrazione di un sapere o di una conoscenza a partire da grandi quantità di dati (attraverso metodi automatici o semi-automatici) e l'utilizzazione industriale o operativa di questo sapere. Il termine data mining (letteralmente: estrazione di dati) è diventato popolare nei tardi anni '90 come versione abbreviata per estrazione di informazione utile da insiemi di dati di dimensione cospicua. Oggi il termine data mining ha una duplice valenza Estrazione, con tecniche analitiche, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile; Esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati allo scopo di scoprire pattern (schemi/regole/configurazioni) caratterizzanti i dati e non evidenti. 26/10/2010 18

Sviluppo del Data Mining Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da satellite o da sensori remoti, servizi on line..) Sviluppo delle tecnologie per l immagazzinamento dei dati, tecniche di gestione di database e data warehouse, supporti piu capaci piu economici (dischi, CD) hanno consentito l archiviazione di grosse quantità di dati Simili volumi di dati superano di molto la capacità di analisi dei metodi manuali tradizionali, come le query ad hoc. Tali metodi possono creare report informativi sui dati ma non riescono ad analizzare il contenuto dei report per focalizzarsi sulla conoscenza utile. 26/10/2010 19

Il DM è la non banale estrazione di informazione implicita, precedentemente sconosciuta e potenzialmente utile attraverso l utilizzo di differenti approcci tecnici (Frawley, Piatetsky-Shapiro e Matheus, 1991). Il DM consiste nell uso di tecniche statistiche da utilizzare con i databases aziendali per scoprire modelli e relazioni che possono essere impiegati in un contesto di business (Trajecta lexicon). Il DM è l esplorazione e l analisi, attraverso mezzi automatici e semiautomatici, di grosse quantità di dati allo scopo di scoprire pattern (schemi/regole/configurazioni/modelli) significativi (Berry, Linoff, 1997). Il DM è la ricerca di relazioni e modelli globali che sono presenti in grandi database, ma che sono nascosti nell immenso ammontare di dati, come le relazioni tra i dati dei pazienti e le loro diagnosi mediche. Queste relazioni rappresentano una preziosa conoscenza del database e, se il database è uno specchio fedele, del mondo reale contenuto nel database. (Holshemier e Siebes,1994). Il DM si riferisce all uso di una varietà di tecniche per identificare pepite di informazione e di conoscenza per il supporto alla decision making. L estrazione di tale conoscenza avviene in modo che essa possa essere usata in diverse aree come supporto alle decisioni, previsioni e stime. I dati sono spesso voluminosi ma, così come sono, hanno un basso valore e nessun uso diretto può esserne fatto; è l informazione nascosta nei dati che è utile (Clementine user guide). 26/10/2010 20

Ambiti applicativi DM Marketing segmentazione della clientela: Individuzione raggruppamenti omogenei in termini di comportamento d acquisto e di caratteristiche socio-demografiche previsione dei comportamenti di acquisto identificazione dei target per promozioni di nuovi prodotti customer retention: Individuazione clienti a rischio di abbandono Fraud detection (identificazione di frodi) Individuazione di comportamenti frudolenti Credit risk detection Individuazione di rischio per la concessine di credito Analisi delle associazioni individuazione dei prodotti acquistati congiuntamente Analisi di testi Diagnostica medica 26/10/2010 21

Altri esempi di problemi tipici (esempio tratto da lezioni di T. Mitchell) previsione dei comportamenti di acquisto Individuazione clienti a rischio di abbandono Ottimizzazione di processo 26/10/2010 22

Credit risk detection (esempio tratto da lezioni di T. Mitchell) 26/10/2010 23

Diagnostica medica (esempio tratto da lezioni di T. Mitchell) 26/10/2010 24

Data Mining Data Mining è solo una parte del processo di estrazione della conoscenza Il termine knowledge discovery in databases, o KDD, indica l'intero processo di ricerca di nuova conoscenza dai dati, cioè l insieme di tecniche e strumenti per assistere in modo intelligente e automatico gli utenti decisionali nell'estrazione di elementi di conoscenza dai dati. Il processo di KDD prevede Formulazione del problema Generazione dei dati Cleaning dei dati e preprocessing Data mining Interpretazione del modello (analisi dei pattern) Il termine di data mining (DM) si riferisce ad una fase fondamentale del processo KDD tanto che spesso è difficile distinguere il processo KDD dal DM che possono essere usati come sinonimi 26/10/2010 25

Formulazione del problema di apprendimento Distribuzione degli esempi (Sampling distribution) fattori non osservabili che influenzano output Generatore esempi con densità di probabilità sconosciuta e fissata Sistema Produce un output con densità di probabilità condizionale sconosciuta e fissata Il sistema di apprendimento NON ha controllo sul processo di generazione dei dati Outliers presenza di dati spuri non consistenti con la maggior parte delle osservazioni (dovuti a errori di misura grossolani, errori di codifica/memorizzazione, casi abnormali). 26/10/2010 26

Apprendimento statistico Distinguiamo due fasi in un sistema di apprendimento automatico fase di apprendimento/stima (dai dati di esempio) fase di utilizzo/predizione su esempi nuovi. Due tipi di apprendimento supervisionato non supervisionato 26/10/2010 27

Apprendimento automatico nel DM Supervisionato = esiste un insegnante Classificazione (pattern recognition) sono noti a priori dei pattern rappresentativi di diverse classi, cioè per ogni valore di input è noto un valore di output Regressione/Approssimazione sono note a priori delle coppie (punto,valore) (pattern,target) rappresentative di un funzione incognita a valori reali. Non supervisionato = nessun insegnante Clustering non sono noti a priori i valori di output cioè i pattern rappresentativi delle classi. Si vuole determinare il numero di classi di similitudine e la corrispondente classe di appartenenza. 26/10/2010 28

ESEMPIO DI CLASSIFICAZIONE SUPERVISIONATA (riconoscimento di caratteri) Dati un insieme di N elementi manoscritti rappresentati dalla matrice di pixel, ovvero dai vettori e la Categoria di appartenenza {0,1,2,3,4,5,6,7,8,9} Dati di esempio o training set classificazione generalizzazione 26/10/2010 29 0 1 2 3 4 5 6 7 8 9

ESEMPIO DI CLASSIFICAZIONE NON SUPERVISIONATA (riconoscimento di caratteri) Dati: un insieme di N elementi manoscritti rappresentati dalla matrice di pixel, ovvero dai vettori training set clustering 26/10/2010 30 0 1 2 3 4 5 6 7 8 9

ESEMPIO DI CLASSIFICAZIONE NON SUPERVISIONATA (diagnosi medica) Pattern: paziente afflitto da una determinata patologia e descritto da M fattori clinici (caratteristiche) Dati disponibili: insieme di N pazienti Obiettivo: raggruppare i pazienti in K gruppi i cui elementi presentino caratteristiche simili 26/10/2010 31

ESEMPIO DI APPROSSIMAZIONE Input: vettore a valore reali a N componenti rappresentate correnti elettriche che circolano in un dispositivo magnetico Output: valore del campo magnetico in un determinato punto interno al dispositivo Obiettivo: determinare una funzione analitica che approssimi il legame funzionale tra il campo magnetico e il valore delle correnti 26/10/2010 32

Apprendimento supervisionato I dati sono coppie input-output generati in modo indipendente e identicamente distribuiti (i.i.d) secondo una funzione di probabilita (sconosciuta) Il problema di apprendimento supervisionato: dato il valore di un vettore ottenere una buona predizione del vero output Una macchina per apprendimento osserva i dati di training e costruisce una funzione in grado di fornire una predizione dell output per un qualunque valore di input Learning Machine 26/10/2010 33

Macchina per apprendimento Più formalmente una macchina per apprendimento realizza una classe di funzioni, che dipende dalla struttura della macchina scelta, in cui α rappresenta un vettore di parametri che individua una particolare funzione nella classe. La macchina è deterministica 26/10/2010 34

Macchina per apprendimento La scelta ideale della funzione di approssimazione dovrebbe riflettere la conoscenza a priori sul sistema, MA in problemi di DM questa conoscenza è difficile o impossibile. Metodi adattativi del DM utilizzano una classe molto ampia e flessibile di funzioni di approssimazione Modelli non lineari nei parametri 26/10/2010 35

Il neurone formale Il neurone formale (perceptron) è una semplice macchina per apprendimento che realizza la classe di funzioni Gli ingressi sono moltiplicati per dei pesi, rappresentativi dell entitá delle connessioni sinaptiche, e la loro sommma algebrica viene confrontata con una soglia. L uscita è 1 se la somma pesata è > della soglia, -1(o 0) altrimenti 26/10/2010 36

Processo di apprendimento Fissata una macchina per apprendimento ovvero una classe di funzioni Il processo di apprendimento consiste nello scegliere un particolare valore dei parametri α* che seleziona una funzione f α* nella classe scelta. L obiettivo è creare un modello del processo che sia in grado di dare risposte corrette e coerenti anche (e soprattutto) su dati mai analizzati (generalizzazione) e non di interpolare (= riconoscere con certezza ) i dati di training (FUNZIONE PREDITTIVA) 26/10/2010 37

Misura di qualità Per scegliere tra tutte le possibili funzioni del parametro α è necessario definire un criterio di qualità da ottimizzare. Si definisce la Loss function una funzione che misura la discrepanza tra il valore previsto f α (x) e il valore effettivo y. Per definizione la perdita è non negativa, quindi valori positivi alti significano cattiva approssimazione. Assegnati i parametri α, il valore della loss function (intesa come funzione delle sole x, y) quantifica l ERRORE risultante dalla realizzazione della coppia (x, y) 26/10/2010 38

Esempi di funzioni di perdita (Loss functions) classificazione con 26/10/2010 39

Esempi di funzioni di perdita (Loss functions) regressione 26/10/2010 40

Minimizzazione del rischio Il criterio di qualità per scegliere i parametri α èilvalore atteso dell errore dovuto alla scelta di una particolare funzione di perdita Il valore atteso della perdita dipende dalla distribuzione P ed è dato dall integrale La funzione è il rischio effettivo che vorremmo minimizzare al variare di α (cioè al variare di ) 26/10/2010 41

Apprendimento determinare la funzione che minimizza il rischio effettivo nella classe di funzioni supportate dalla macchina per l apprendimento, utilizzando un numero finito di dati di training è inerentemente mal posto La difficoltà è scegliere la giusta complessità per descrivere i dati a disposizione Principi induttivi minimizzazione del rischio empirico structural risk minimization early stopping rules 26/10/2010 42

Il rischio empirico Il rischio effettivo non si può calcolare (né quindi minimizzare) perché la funzione di distribuzione di probabilità è sconosciuta ma sono note solo l osservazioni corrispondenti a variabili random i.i.d Cerchiamo una funzione che approssimi il rischio effettivo e richieda solo l uso dei dati disponibili 26/10/2010 43

Il rischio empirico Scelta una classe di funzioni e definita una funzione di perdita (loss) si definisce rischio empirico Il rischio empirico dipende SOLO dai dati e dalla funzione La distribuzione di probabilità non interviene nella definizione del rischio empirico che fissati è un valore preciso (errore di training). 26/10/2010 44

Principio Induttivo (Empirical Risk Minimization) Allo scopo di ottenere una buona capacità di generalizzazione su esempi futuri (test), il principio di minimizzazione del rischio empirico (ERM) utilizza una funzione di decisione che minimizza l errore sui dati di training: determina la funzione che minimizza il rischio tra tutte le 26/10/2010 45

Macchina per apprendimento: regressione parametrica Consideriamo dati generati artificialmente dalla funzione corrotta da rumore Usiamo come approssimatori i polinomiodi gradofissatom 26/10/2010 46

Ancora l esempio Regressione parametrica Scelto un modello (ad esempio un polinomio di grado M) Si può valutare l errore quadratico; detti i valori noti si ha: L errore sui dati di training può idealmente diventare nullo, ma che succede su dati nuovi (dati di test)? 26/10/2010 47

Regressione parametrica Aumento il grado del polinomio M da 3 a 9 Quale dei due è meglio? Si può valutare l errore quadratico; detti i valori noti si ha: L errore sui dati di training può idealmente diventare nullo, ma che succede su dati nuovi (dati di test)? 26/10/2010 48

Andamento errore Graficando l andamento dell errore sui dati di training e di test Ridurre errore di training può significare errori significativi sui dati di test: fenomeno di Over-fitting 26/10/2010 49

Regressione parametrica Aumentoilnumerodi datidi training Polinomio di grado M=9: andamento migliore 26/10/2010 50

Regressione parametrica Aumentoilnumerodi datidi training Polinomio di grado M=9: l andamento riesce quasi a seguire la funzione sottostante La maggiore complessità della macchina (grado del polinomio) in relazione al miglior uso predittivo dipendono dal numero di dati disponibili 26/10/2010 51

Consistenza del rischio empirico In generale Interesse: trovare una relazione tra le soluzioni dei problemi di ottimizzazione imponderabile calcolabile La speranza è che l errore sui dati di traning possa fornire delle indicazioni sulla probabilità di errore su una nuova istanza 26/10/2010 52

Minimizzazione del rischio empirico Quando l è finito la minimizzazione del rischio empirico può non garantire una minimizzazione del rischio effettivo La scelta della funzione in una classe che minimizza il rischio empirico non è unica Entrambe le funzioni hanno Rischio empirico nullo Il rischioeffettivosu nuove istanze è diverso 26/10/2010 53

Complessità della classe Un altro aspetto correlato alla minimizzazione del rischio empirico è la complessità della classe di funzioni Una funzione molto complessa può descrivere molto bene i dati di training, ma può non generalizzare bene su nuovi dati più complessa più semplice 26/10/2010 54

Over and under fitting Dati di training: 2 classi più semplice più complessa Aggiungo nuovi dati underfitting classe f α troppo semplice overfitting classe f α troppo complessa 26/10/2010 55

(lez.1) Il principio induttivo della minimizzazione del rischio empirico (ERM) Si definisce rischio empirico Si minimizza al variare di α il rischio empirico In generale calcolabile Esiste e qual è la relazione tra le soluzioni dei problemi di ottimizzazione? 26/10/2010 56

(lez.1) Oltre il principio della (ERM) È possibile dimostrare che con probabilità (1-η) con η in (0,1) risulta è un parametro che che descrive una nuova proprietà generale della classe di funzioni scelta che si chiama capacità/complessità 26/10/2010 57

Teoria di Vapnik Chervonenkis (VC) VC hanno sviluppato la teoria per determinare il valore di ε che compare nella disuguaglianza ovvero per determinare un bound sull errore di generalizzazione della classe di funzioni. Questo bound è stato utilizzato per sviluppare un nuovo principio induttivo basato sul trade-off tra la complessità della classe di funcioni scelta e il valore del rischio empirico che si può ottenere utilizzando tale classe 26/10/2010 58

Complessità della classe di funzioni Questa analisi ha portato alla definizione di un nuovo funzionale da minimizzare diverso dal rischio empirico. In particolare si introduce di un termine per il controllo della complessità Termine di penalizzazione di complessità Teoria di Vapnik Chervonenkis (VC) VC dimension VC confidence 26/10/2010 59

VC dimension La dimensione di Vapnik Chervonenkis (VC dimension) h>0 è una misura della capacità di classificazione espressa dalla macchina rappresentata dall'insieme di funzioni La VC dimension h misura il massimo numero di punti x i (di training) che possono essere classificati per qualunque assegnazione di etichette ±1 (shattered= frammentati ) usando una funzione nella classe Insieme frammentabile questi 3 punti in R 2 possono essere separati con un iperpiano orientato 26/10/2010 60 +1-1

VC dimension Se la VC dimension di una classe è h significa che esiste almeno un insieme di h punti che possono essere frammentati, ma in generale non è vero che un qualsiasi insieme di h punti può essere classificato da Insieme di 3 punti in R 2 non frammentabile Nessun insieme di 4 punti in R 2 può essere frammentato da una funzione affine La dimensione di VC della classe in R 2 è h=3 26/10/2010 61

Un bound superiore per il rischio VC dimension èilparametro mancante VC Confidence termine di penalità sulla complessità Il nuovo funzionale da minimizzare è Si minimizza rispetto alla classe e non solo ai parametri 26/10/2010 62

Il principio di minimizzazione L implicazione pratica dell esistenza del bound è che la macchina per l apprendimento dovrebbe essere costruita in modo tale minimizzare il valore empirico il termine di VC confidence Mononicamente crescente in h Complessità h In pratica l andamento delle due funzioni è opposto, quindi lo scopo è cercare il miglior trade-off tra la minimizzazione del rischio effettivo, e la minimizzazione dell VC confidence 26/10/2010 63

Minimizzazione del rischio strutturale Osserviamo che la VC confidence dipende solo dalla classe di funzioni scelta, mentre il rischio empirico (e quindi il rischio effettivo) dipende dalla particolare funzione scelta durante la procedura di training Procedura euristica per la minimizzazione La dimensione di VC è un valore intero. Si definiscono classi di funzioni annidate con VC dimension NON decrescente N.B. bisogna essere in grado di calcolare h per ogni classe 26/10/2010 64

Principio di Minimizzazione del rischio strutturale per ogni classe con dimensione di VC si determina la soluzione ottima del problema Si calcola il valore dell upper bound Si sceglie la classe di funzioni per cui è minimo il valore dell upper bound 26/10/2010 65

Calcolo del termine di confidenza Per calcolare il termine di confidenza è necessario conoscereilvaloredi h per una classe di funzioni. N.B. il numero di parametri non è un indicazione utile, infatti h non è proporzionale al # di parametri Non è vero che macchine di apprendimento con molti parametri hanno una dimensione di VC alta, e anche viceversa che macchine di apprendimento con pochi parametri hanno una dimensione di VC bassa 26/10/2010 66

Calcolo del termine di confidenza 1 0.8 0.6 0.4 0.2 0-0.2-0.4-0.6-0.8-1 0 20 40 60 80 100 120 140 160 180 200 2 soli parametri, ma esiste un insieme di punti allineati può essere separato per qualunque assegnazione di etichette scegliendo opportunamento frequenza e fase. Dunque h infinita NOTA BENE: nonostante VC infinita, esiste un insieme di soli 4 punti che non possono essere frammentati 26/10/2010 67

Fonti bibliografiche e siti di interesse Pattern Recognition and Machine Learning C. Bishop, Springer (2006). Learning from Data: Concepts, theory, and Methods - V. Cherkassky, F. Mulier, John Wiley and Sons, Inc. (1998). Statistical Learning Theory V. Vapnik, John Wiley and Sons, Inc., 1998 Machine Learning, T. Mitchell, Morgan Kaufmann, 1997. http://research.google.com/pubs/papers.html#machinelearning Machine learning Group at Yahoo! Research Silicon Valley http://research.yahoo.com/machine_learning Cineca Consorzio Interuniversitario La Gestione delle Informazioni e della Conoscenza http://www.cineca.it/gai/area/datamining.htm 26/10/2010 68