Introduzione alla Teoria Statistica dell Apprendimento

Transcript

1 Introduzione alla Teoria Statistica dell Apprendiento Marco Muselli Rapporto interno 2/98 - Aprile 1998 Istituto per i Circuiti Elettronici Consiglio Nazionale delle Ricerche via De Marini, Genova, Italy Eail: uselli@ice.ge.cnr.it Indice 1 Introduzione 1 2 Problea generale: iniizzazione del rischio 3 3 Tipi di apprendiento: classificazione, regressione, stia della densità Problei di classificazione Problei di stia della regressione Problei di stia della densità Miniizzazione del rischio epirico e classi di Glivenko-Cantelli Necessità di avere inforazioni a priori Miniizzazione del rischio atteso attraverso la stia della densità Miniizzazione del rischio epirico Classi di Glivenko-Cantelli Vapnik-Chervonenkis diension e growth function Caso particolare: classe finita di eventi Definizioni e risultati generali Calcolo della VC-diension in casi particolari Classi di intervalli Spazi vettoriali di funzioni seispazi Indipendenza della VC-diension dal nuero di paraetri Convergenza unifore del rischio epirico in problei di classificazione 28 7 Generalizzazione ad insiei di funzioni reali: pseudo-diensioni Classi di funzioni reali totalente liitate Classi di funzioni reali con oenti finiti Structural Risk Miniization 39 1 Introduzione Questa serie di incontri ha lo scopo di fornire alcuni concetti di base sulla teoria statistica dell apprendiento. Ho scelto questo noe, e non il più generale teoria dell apprendiento 1

2 learning theory per enfatizzare che non ci occupereo degli aspetti coputazionali benché assuano ovviaente iportanza rilevante nella fase applicativa, a soltanto di quelli statistici, relativi al processo di apprendiento di una data relazione funzionale sulla base di esepi. Molta parte del seinario discende dai lavori di Vapnik e Chervonenkis sulla iniizzazione del rischio epirico [1, 2, 3, 4]. Probabilente la teoria più interessante dal punto di vista forale e applicativo nel capo della teoria statistica dell apprendiento. In particolare l ultio libro di Vapnik The Nature of Statistical Learning Theory [4] contiene un riassunto di tutti i risultati da lui ottenuti in questo capo e costituirà il filo conduttore per questa pria parte del seinario. La teoria dell apprendiento ha radici piuttosto lontane e nasce dal desiderio di costruire acchine capaci di eulare il coportaento qualitativo del cervello uano. Dopo l avvento dei calcolatori e la crescente potenza elaborativa in essi disponibile, il problea dell analisi qualitativa dei fenoeni è divenuto sepre più pressante, sia perché l approccio quantitativo calcolo nuerico, database, controllo di processi, ecc. era stato portato avanti con successo, sia per la possibilità di disporre di processori sufficienteente veloci da consentire la soluzione di problei applicativi aventi rilevante coplessità, quali la coprensione del linguaggio, il riconosciento della scrittura, la diagnosi edica, il controllo di robot, ecc. Uno dei odi possibili per utilizzare a scopo qualitativo gli elaboratori è quello di inserire in essi le regole da rispettare per eseguire una deterinata operazione, consentendo eventualente la odifica di tali regole sulla base dell esperienza conseguita in fase di utilizzo. Ad esepio i ben noti prograi per l esecuzione di calcoli sibolici Matheatica, Maple, ecc. appartengono a questa classe. Per facilitare la stesura di tali prograi denoinati couneente sistei esperti nacquero negli anni 70 linguaggi appositi coe il Lisp e il Prolog, che perisero di approcciare, e talvolta risolvere con successo, alcuni interessanti problei reali. Purtroppo, la creazione di questo tipo di prograi richiede inevitabilente la conoscenza delle regole soggiacenti al problea in esae, il che può essere vero solo in parte gioco degli scacchi o può essere del tutto falso coprensione del linguaggio. In tali casi i più interessanti è necessario ricorrere ad una differente classe di tecniche, capaci di estrarre autoaticaente le regole desiderate a partire da una sequenza finita di esepi disponibili. La coprensione del funzionaento di tali etodologie e la conseguente essa a punto di nuovi algoriti fora l oggetto della teoria dell apprendiento. Le reti neurali, analizzate nella seconda parte del seinario, costituiscono una delle più proettenti tecniche appartenenti a tale classe. Nate negli anni 60 dal tentativo di siulare il coportaento dei neuroni da cui il noe, hanno subito riscosso un grande interesse, in conseguenza dei prii sorprendenti risultati teorici e applicativi [5, 6, 7]. Purtroppo, la ricerca in questo settore ha ricevuto un duro colpo dalla pubblicazione nel 1969 del faoso libro Perceptrons di Minsky e Papert [8], che ise in risalto le ipossibilità teoriche insite nell ipiego delle reti neurali. Dopo un periodo di oscurantiso diffuso, durante il quale solo pochi convinti hanno proseguito questo filone di ricerca, a età degli anni 80 le reti neurali tornarono in auge, grazie a due pubblicazioni orai divenute storiche: l articolo di Hopfield e Tank [9] sull ipiego dei odelli connessionistici per l ottiizzazione cobinatoria e i libri Parallel Distributed Processing di Ruelhart, McClelland e il loro gruppo [10, 11] che introdussero nell abiente scientifico il etodo della back-propagation, usato tutt oggi nella aggior parte delle applicazioni industriali. 2

3 Dopo le catastrofiche previsioni del libro Perceptrons, gli eccellenti risultati ottenuti sui problei del ondo reale costituirono una spinta decisiva per la ricerca teorica nel settore dell apprendiento autoatico, che si vide, per così dire, costretta a trovare le otivazioni di un fatto non previsto. A tale scopo, fu rispolverata la ricerca degli anni 60 nel capo della teoria statistica dell apprendiento, fino a quel tepo non copletaente copresa nei suoi risvolti pratici, e counque poco applicata nel capo dell intelligenza artificiale. Uno degli studi teorici rispolverati è stato proprio l analisi della convergenza unifore delle isure epiriche, introdotta da Vapnik e Chervonenkis alla fine degli anni 60. Questa sarà l oggetto del prio ciclo di seinari. 2 Problea generale: iniizzazione del rischio Pria di introdurre foralente il problea generale della teoria dell apprendiento potrebbe essere utile analizzare insiee due esepi pratici. Supponiao di voler costruire un dispositivo capace di leggere le 26 lettere dell alfabeto; seplificando al assio desiderereo che il nostro archingegno riceva in ingresso un iagine ad esepio binaria della lettera da interpretare e fornisca in uscita un indice corrispondente a tale lettera ad esepio un nuero intero da 1 a 26. Coe si può notare tale processo corrisponde a costruire una funzione fx avente coe doinio l insiee delle possibili iagini binarie e coe uscita il sottoinsiee {1, 2,..., 26} dei nueri naturali. Nessuno può iaginare con precisione coe sia fatta questa funzione, al assio potrà ricavare dall esperienza alcune sue caratteristiche generali. L unica cosa che possiao avere a disposizione è una serie di osservazioni x 1, y 1,..., x, y, ottenute attraverso l interpretazione uana di alcune iagini di esepio. Analogaente possiao esainare un altro esepio: supponiao di voler predire il coportaento dell indice di borsa nel giorno successivo, a partire dalla storia degli ultii giorni e da alcuni paraetri generali sullo stato di salute dell econoia, sulla situazione politica e su quant altro possa sebrarci utile per lo scopo. Anche in questo caso ci proponiao di costruire una funzione fx avente coe doinio l insiee dei paraetri in gioco e coe uscita il valore reale dell indice MIB. Nessuno può sapere in realtà coe è fatta questa funzione fx; avreo nuovaente a disposizione soltanto un nuero finito di osservazioni dalle quali dobbiao, per così dire, estrapolare il coportaento della fx desiderata. A differenza dell esepio precedente, l uscita può variare in odo continuo, a la sostanza dei due problei è essenzialente la stessa. In entrabi i casi desideriao ottenere l andaento di una funzione incognita sulla base di un nuero finito di osservazioni, avvenute eventualente con una certa probabilità di errore. La ricerca di tale funzione deve avere ovviaente quale obiettivo priario la iniizzazione di un qualche funzionale che isuri le prestazioni del io sistea. Foralente possiao allora enunciare nel odo seguente il problea generale della teoria dell apprendiento [4]: consideriao uno spazio di probabilità Z, S, ν e una classe di funzioni a valori reali {Qz, α, z Z, α Λ} il cui paraetro α può variare su un insiee Λ, eventualente di cardinalità infinita. Non poniao condizioni sull insiee Z, aleno in questa fase, benché nella pratica abbiao sepre Z = R n. 3

4 Desideriao iniizzare rispetto ad α il funzionale: Rα = Qz, αdν 1 nel caso in cui non conosciao la probabilità ν, a abbiao a disposizione soltanto un capione z 1,..., z di osservazioni risultanti dall esecuzione di altrettante prove indipendenti caratterizzate dalla stessa probabilità ν. La funzione Qz, α viene chiaata loss function, entre il funzionale Rα prende il noe di rischio atteso expected risk. È infatti il valore atteso della loss function Qz, α rispetto alla probabilità ν incognita. Gli esepi precedenteente analizzati possono essere visti coe un caso particolare del problea generale di iniizzare il rischio atteso sulla base di dati epirici. È sufficiente supporre che Z = X Y e Qz, α abbia la fora: Qz, α = Φy, F x, α essendo z = x, y. X e Y vengono in tal caso denoinati rispettivaente spazio degli ingressi e spazio delle uscite. La classe di funzioni {F x, α, α Λ} costituisce l insiee in cui va ricercata la funzione desiderata fx che risolve il io problea specifico. La quantità Φy, F x, α dipende dall errore ottenuto in x dall applicazione della particolare funzione F x, α pesato in aniera opportuna e conseguenteente la iniizzazione del funzionale: Rα = Φy, F x, αdν 2 equivale alla ricerca della dipendenza funzionale desiderata. Nuovaente, tale iniizzazione non può utilizzare l espressione della probabilità ν incognita, a soltanto un insiee di osservazioni x 1, y 1,..., x, y detto training set. La presenza della probabilità ν incognita nel funzionale 2 richiede una particolare attenzione nella ricerca della funzione F x, α; l ipossibilità di conoscere l esatta espressione di Rα conduce alla necessità di trovare anzitutto una quantità opportuna copletaente nota da ipiegare nel processo di iniizzazione. Questo sarà il prio obiettivo della nostra analisi. Tipicaente avreo Z = R n o ad sottoinsiee copatto B di R n, entre S sarà la relativa Borel σ-algebra prodotto; nessuna restrizione verrà invece posta sulla isura di probabilità ν. 3 Tipi di apprendiento: classificazione, regressione, stia della densità La forulazione appena data del problea dell apprendiento è piuttosto generale e contiene tre iportanti casi particolari apiaente trattati nella letteratura: 1. problei di classificazione o pattern recognition, 2. problei di stia della regressione, 3. problei di stia della densità. 4

5 3.1 Problei di classificazione Nei problei di classificazione una persona l istruttore osserva degli ingressi x i e deterina in base alla sua esperienza a quale classe appartengono, tra k possibili vedi esepio del riconosciento di lettere. Si richiede di costruire un dispositivo capace di eseguire, dopo aver visto l istruttore in azione, il processo di classificazione approssiativaente nella stessa aniera. Questo tipo di problea può essere ricondotto allo schea generale sopra esposto considerando uno spazio Y delle uscite con cardinalità finita k; il processo di generazione del training set può allora essere visto coe l assegnazione di una classe y i tra k possibili ad un dato ingresso x i. Ogni funzione F x, α della classe considerata esegue quindi una suddivisione dello spazio X degli ingressi in k regioni, ognuna delle quali afferisce ad una deterinata classe. Si può vedere con facilità che è possibile effettuare la stessa suddivisione risolvendo iterativaente k 1 problei di classificazione a due sole classi separando ogni volta una classe da tutte le altre. Possiao allora supporre, senza perdita di generalità, che Y = {0, 1} per cui la classe di funzioni F x, α contiene funzioni indicatori di sottoinsiei isurabili di X. Tale corrispondenza risulterà conveniente nel seguito. Nei problei di classificazione viene ipiegata la loss function { Φy, F x, α = y F x, α 2 0 se y = F x, α = 1 se y F x, α Se y F x, α parlereo di errore di classificazione. Per seplicità trattereo nel seguito esclusivaente tali tipi di problei, tenendo presente che la trattazione effettuata può essere riportata, con opportune odifiche, al caso più generale. 3.2 Problei di stia della regressione Nei problei di stia della regressione abbiao X = R n, Y = R e si suppone che il legae tra un eleento x X e il corrispondente y Y non sia di tipo funzionale, a piuttosto esista una distribuzione condizionale η x y, secondo la quale viene effettuata la scelta dell uscita y da associare ad un deterinato x. La stia di tale distribuzione condizionale potrebbe condurre a soluzioni ottiali, a risulta essere un problea olto coplesso che produce spesso risultati insoddisfacenti. In questo tipo di problei, il rischio atteso Rα può essere scritto nella fora seguente: Rα = Φy, F x, αdν = Φy, F x, αdη x ydµx essendo µ la isura di probabilità data da µ = ν x 1. In olti casi applicativi è sufficiente stiare il valore atteso di y rispetto alla distribuzione condizionale η x y ovvero la funzione rx = ydη x y 3 couneente denoinata regressione, sulla base di una sequenza finita di osservazioni epiriche x 1, y 1,..., x, y. Questo tipo di problea può essere ricondotto allo schea generale sopra esposto ponendo Φy, F x, α = y F x, α 2 5

6 Supponiao naturalente che esistano in ogni punto x X la distribuzione condizionale η x y e la regressione 3. È infatti possibile verificare che la funzione F x, α che iniizza il funzionale 2 fornisce una stia ottia secondo la nora in L 2 della regressione 3. A tale scopo poniao F x, α = F x, α rx Il funzionale 2 diventa in tal caso: Rα = y F x, α 2 dνx, y = = y rx 2 dνx, y + F x, α 2 dµx 2 F x, αy rxdνx, y a F x, αy rxdνx, y = F x, α y rxdη x y dµx per cui Rα = y rx 2 dνx, y + F x, α rx 2 dµx Poiché il prio terine a secondo ebro non dipende da α, il punto di inio per Rα coinciderà con il punto di inio del secondo terine. Quindi il inio di Rα viene conseguito se F x, α è uguale alla regressione oppure è la funzione della classe data più vicina alla regressione secondo la nora in L Problei di stia della densità Un altro iportante problea che può essere ricondotto alla fora generale sopra esposta è quello in cui si desidera stiare la densità aggiorente consistente con una serie di osservazioni date z 1,..., z, all interno di una classe {pz, α, α Λ} assegnata. In questo caso abbiao Z = R n, entre l espressione Qz, α da ipiegare in 1 è la seguente: Qz, α = ln pz, α 4 Si può infatti vedere che la iniizzazione di 1 con la loss function 4 conduce alla densità desiderata. A tale scopo aggiungiao al funzionale 1 una costante c che non dipende da α il punto di inio non cabierà: c = lnp 0 zdν = lnp 0 zp 0 zdz dove p 0 z è la densità desiderata, associata alla probabilità ν su Z. Il funzionale Rα diventa così: R pz, α α = ln pz, αp 0 zdz + ln p 0 zp 0 zdz = ln p 0 z p 0zdz L espressione a secondo ebro è la nota distanza di Kullback-Leibler usata in statistica per isurare la diversità tra una densità data ed una approssiazione ad essa. In tal caso la iniizzazione del rischio atteso 1 conduce alla ricerca della densità che iniizza la distanza di Kullback-Leibler dalla densità desiderata p 0 z. 6

7 4 Miniizzazione del rischio epirico e classi di Glivenko-Cantelli Desideriao allora trovare un etodo che assicuri di trovare, entro una probabilità assegnata, un valore di α che iniizzi il funzionale Rα = Qz, αdν dove la probabilità ν non è nota, a abbiao a disposizione esclusivaente un capione liitato di osservazioni z 1,..., z. Tali osservazioni sono state generate attraverso la probabilità ν per cui saranno esse stesse realizzazioni di altrettante variabili aleatorie indipendenti e identicaente distribuite Z 1,..., Z. 4.1 Necessità di avere inforazioni a priori Questo problea non può essere risolto in generale senza possedere altre inforazioni a priori. Consideriao infatti il seguente esepio: sia Z = R con la usuale Borel σ-algebra ed esista la densità incognita pt associata alla probabilità data ν. Desideriao iniizzare il funzionale R α = t α 2 ptdt 5 sulla base di un capione di osservazioni indipendenti t 1, t 2,..., t dato. Ovviaente supponiao che la varianza σ 2 di pt esista, altrienti il funzionale 5 potrebbe non essere definito ovunque. Il punto di inio del funzionale 5 si ottiene per α = tptdt = ET dove ET indica il valore atteso della variabile aleatoria T. Quindi il problea dato viene ricondotto a quello di trovare un etodo che assicuri, entro una probabilità assegnata, una stia sufficienteente accurata del valore atteso di una variabile aleatoria T avente densità incognita pt sulla base di un capione fissato di lunghezza. Senza inforazioni a priori sulla densità pt tale stiatore non può essere trovato in generale. Supponiao infatti che la variabile aleatoria T possa assuere solo due valori 0 e K; sia P T = 0 = 1 ε e P T = K = ε Allora con probabilità 1 ε il capione t 1,..., t sarà costituito esclusivaente da valori nulli e conseguenteente il valore della edia epirica α ep = 1 t i couneente ipiegata in statistica quale stiatore del valore atteso, sarà zero. D altro canto, il valore atteso della variabile aleatoria T vale ET = 01 ε + Kε = Kε che può assuere valori arbitrariaente elevati a seconda del valore di K ad esepio se K = 1/ε 2. Conseguenteente, se ε è olto piccolo, con elevata probabilità 1 ε, la edia 7

8 epirica si discosterà notevolente dal valore atteso. Tali situazioni sono chiaate in statistica larghe deviazioni di variabili aleatorie. Coe vedreo, questo seplice esepio assuerà grande iportanza nella trattazione successiva della teoria statistica dell apprendiento, per cui ci doandiao quali condizioni devono essere iposte sulla probabilità ν o sulla densità pt in odo da assicurare una buona corrispondenza della edia epirica al valore atteso della variabile T. Una risposta può essere ottenuta attraverso l ipiego della classica diseguaglianza di Chebyshev [12] P T ET σε 1 ε 2 6 dove σ 2 = ET ET 2 = ET 2 ET 2 = t 2 ptdt 2 tptdt è la varianza della variabile aleatoria T. Consideriao ora la variabile aleatoria S = 1 T i dove ogni T i ha la stessa distribuzione di T ; notiao che 1 ES = E T i = 1 ET i = ET per la linearità del valore atteso. Inoltre la varianza σs 2 di S è data da σs 2 = ES ES 2 = E 1 2 T i ET i T j ET j = j=1 = 1 2 ET i ET i T j ET j = 1 j=1 2 ET i ET i 2 = 1 σ2 7 poiché, per l indipendenza di T i e T j se i j, abbiao ET i ET i T j ET j = 0 se i j Quindi la diseguaglianza di Chebyshev per la variabile S fornisce: 1 P T i ET σε 1 ε 2 la quale significa che con probabilità 1 δ δ = 1/ε 2 abbiao le seguenti diseguaglianze: 1 t i σ δ < ET < 1 t i + σ δ 8 Se la varianza σ 2 della variabile aleatoria T fosse nota, le diseguaglianze 8 fornirebbero l intervallo di confidenza per il valore atteso ET e conseguenteente assicurerebbero che la edia epirica è un buon stiatore del valore atteso. Quindi, un odo per garantire la validità dello stiatore è quello di conoscere un aggiorante τabs 2 della varianza σ 2 τ 2 abs 9 8

9 da cui si ottiene iediataente 1 t i τ abs < ET < 1 δ t i + τ abs δ 10 Un altra possibilità, valida nel caso il valore atteso sia positivo, è quella di conoscere un aggiorante τrel 2 per il valore relativo della varianza: In tal caso, dalla 8 discende σ 2 τrel 2 11 ET 1 per cui se > τrel 2 /δ si ottiene t i τ rel ET < ET < 1 t i + δ 1 τ rel ET < 1 t i < δ 1 t i 1 + τ < ET < rel δ τ rel δ ET 1 + τ rel δ ET 1 t i 1 τ 12 rel δ Coe si può notare la 10 e la 12 assicurano entrabe la convergenza per della edia epirica al valore atteso, per cui in tali casi lo stiatore è consistente. Diseguaglianze siilari contenenti i oenti di vario ordine della variabile aleatoria T possono essere ottenuti ipiegando la diseguaglianza generalizzata di Chebyshev per i oenti centrali assoluti di ordine p > 1 anche per p non intero. 4.2 Miniizzazione del rischio atteso attraverso la stia della densità Uno dei etodi più naturali per effettuare la ricerca del inio di Rα a partire da un capione z 1,..., z è quello di trovare dappria una stia ˆν della isura di probabilità ν su Z e successivaente iniizzare aleno in linea di principio la quantità ˆRα ˆRα = Qz, αdˆν ora interaente nota per ricavare il valore di α desiderato. Sfortunataente, non esiste uno stiatore capace di ottenere in generale dal capione dato z 1,..., z un espressione per ˆν tale da assicurare la convergenza in variazione totale a ν [13] li P sup νa ˆν A A S dove la isura di probabilità P è definita in odo naturale sull insiee delle -uple Z 1,..., Z. È possibile al più stiare ν se Z = R n ed esiste la funzione densità pz derivata di Radon- Nikody per ν. In tal caso, se ˆp z è una opportuna approssiazione per la funzione densità pz, il teorea di Scheffé [14, 15] assicura che: sup νa ˆν A 1 pz ˆp z dz A S 2 9 = 0

10 essendo per definizione ˆν A = A ˆp zdz Quindi la variazione totale tra le isure ν e ˆν è liitata superiorente dalla distanza L 1 tra la densità reale pz e la sua approssiazione ˆp z. Abbiao così ricondotto il problea originale a quello, ben noto in statistica, di stiare la densità di probabilità a partire da un insiee finito di osservazioni epiriche. Coe sappiao, tale problea può essere affrontato in due odi differenti: 1. la ricerca della densità desiderata può avvenire all interno di una classe ristretta {px, α, α Λ} di funzioni aventi lo stesso andaento statistica paraetrica 2. la deterinazione della fora della densità da individuare è parte del processo di ricerca statistica non paraetrica Il prio approccio è seguito dalla aggior parte dei etodi di stia della densità proposti classicaente in statistica. Il suo difetto principale è naturalente quello di dover scegliere a priori l andaento della densità incognita. Sebbene in olti casi pratici l ipiego di classi di funzioni opportune gaussiane, esponenziali, unifori, ecc. ha condotto a soluzioni soddisfacenti, esistono svariati problei applicativi nei quali l approccio paraetrico produce risultati inadeguati. I etodi di tipo non paraetrico possiedono in linea di principio caratteristiche più interessanti. Il più noto di essi è probabilente il etodo delle Parzen s Windows [16], secondo il quale una stia della densità è data da pz = 1 Kz, z i ; γ dove K, ; γ è una opportuna funzione di kernel, il cui andaento può essere scelto, entro certi liiti, dall utente. Ad esepio, possiao porre: Kz, z i ; γ = 1 z γ d h zi γ dove hu è una funzione densità sietrica uniodale. È stato diostrato negli anni 80 che questo ed altri stiatori non paraetrici possiedono buone proprietà asintotiche [15]: la densità stiata converge alla densità reale, per un apia classe di andaenti, la velocità asintotica di convergenza è ottiale nel caso di densità che variano lentaente ad esepio funzioni lipschitziane con piccola costante associata. Purtroppo, gli esperienti effettuati con stiatori non paraetrici non hanno portato agli sperati vantaggi, rispetto ai etodi paraetrici tradizionali. Questo è probabilente dovuto al fatto che se il nuero di osservazioni è liitato coe avviene nella aggior parte dei casi concreti le suddette proprietà asintotiche non possono essere sfruttate. 10

11 D altro canto, anche nel caso n = 1 Z = R è possibile osservare che la stia non paraetrica della densità conduce ad un problea al posto. Esso può essere descritto nel odo seguente: trovare la soluzione in un apio insiee di densità dell equazione integrale z ptdt = P z 13 nel caso in cui la funzione di distribuzione P z è sconosciuta e possediao esclusivaente delle osservazioni z 1,..., z indipendenti e identicaente distribuite secondo P z. Un odo possibile per risolvere la 13 è quello di sostituire a secondo ebro la cosiddetta funzione di distribuzione epirica P z = 1 I {Zi z} 14 dove I A è la funzione indicatore dell insiee A. Il teorea di Glivenko-Cantelli assicura allora che quasi ovunque nella probabilità definita sullo spazio delle sequenze di osservazioni li sup P z P z = 0 z cioè la funzione di distribuzione epirica converge uniforeente quasi ovunque alla funzione di distribuzione effettiva. Conseguenteente la ricerca della stia della densità pz è stata ricondotta alla risoluzione dell equazione integrale 13, un problea notoriaente al posto, se la classe a cui appartiene la densità incognita pz è sufficienteente apia. Si può diostrare che la quasi totalità degli algoriti non paraetrici proposti ipiegano tale approccio e sfruttano tecniche standard di regolarizzazione per la soluzione dell equazione 13 [3, 4]. Tuttavia, coe accennato precedenteente, l ipiego dei etodi non paraetrici nella teoria dell apprendiento non ha portato ai risultati sperati, a causa della intrinseca liitatezza dei capioni di osservazioni a disposizione. Inoltre, risulta concettualente svantaggioso l ipiego di un approccio così generale stia della densità per la soluzione di un problea particolare iniizzazione del rischio atteso. Diventa quindi iportante sviluppare tecniche più adeguate, che presentino un buon coportaento, non solo di tipo asintotico, verificabile teoricaente. 4.3 Miniizzazione del rischio epirico Un odo alternativo per iniizzare il rischio atteso si ottiene notando che Rα Rα = Qz, αdν non è altro che il valore atteso della funzione aleatoria QZ, α. Seguendo allora l approccio couneente usato in statistica, potreo ottenere una stia di Rα ipiegando la edia epirica R ep α = 1 Qz i, α Coe abbiao visto nell esepio riportato nella sezione 4.1, la convergenza della edia epirica al valore atteso per può essere garantito soltanto se possediao altre inforazioni 11

12 a priori sulla varianza o sui oenti centrali assoluti di ordine p > 1 delle loss functions appartenenti alla classe {Qz, α, α Λ}. Alternativaente, è sufficiente conoscere liiti assoluti τ inf, τ sup validi per l intera classe di funzioni considerata τ inf Qz, α τ sup per ogni α Λ e z Z. In tal caso se ipieghiao la diseguaglianza di Hoeffding è possibile ottenere una igliore stia dell errore copiuto utilizzando la edia epirica R ep α al posto del valore atteso Rα P Rα R ep α > ε 2e 2ε2 /τ sup τ inf 2 15 La probabilità è nuovaente quella definita sull insiee delle -uple di capioni z 1,..., z. Ad esepio nel caso dei problei di classificazione che forano l argoento principale del presente ciclo di seinari abbiao τ inf = 0 e τ sup = 1, per cui la 15 può essere applicata con successo. In altri casi sarà necessario analizzare attentaente il problea in esae per deterinare le condizioni a priori più opportune da ipiegare. Una volta assicurata la convergenza della edia epirica al valore atteso, un etodo naturale per iniizzare il rischio atteso Rα è quello di effettuare la ricerca del inio α della quantità R ep α, detta rischio epirico, sulla base del capione di osservazioni disponibile z 1,..., z. Si parla in tal caso del principio induttivo della iniizzazione del rischio epirico ERM. Occorre quindi deterinare le condizioni opportune che assicurino la convergenza aleno in probabilità della sequenza dei inii del rischio epirico li P R ep α inf Rα > ε = 0 α Λ li P Rα inf Rα > ε = 0 α Λ Direo allora che il etodo ERM è consistente. Coe si può notare, la classica condizione usata in statistica li P Rα R epα > ε = 0 ε > 0 non è sufficiente in questo caso poiché non ipedisce l esistenza di larghe deviazioni in una zona liitata dell insiee Λ. La corretta condizione sufficiente da ipiegare è invece la seguente li P sup Rα R ep α > ε α Λ = 0 ε > Quando la 16 è soddisfatta diciao che si ha la convergenza unifore della edia epirica al valore atteso nel paraetro α. In realtà Vapnik affera di aver diostrato sotto una definizione leggerente diversa di consistenza il seguente teorea [4]: Teorea 1 Se la classe di funzioni {Qz, α, α Λ} soddisfa la condizione sup Qz, α < α Λ allora condizione necessaria e sufficiente perché il etodo ERM sia consistente è che li P sup Rα R ep α > ε α Λ =

13 In questo caso parliao di convergenza unifore one-sided per distinguerla da quella precedente che viene denoinata two-sided. Al di là della difficoltà di reperire le diostrazioni dei teorei relativi alla convergenza unilaterale, i risultati praticaente utili riguardano esclusivaente la convergenza bilaterale trattata nei lavori più noti, per cui ci sofferereo esclusivaente su questo tipo di analisi. In particolare, cerchereo di fornire opportune aggiorazioni per la velocità di convergenza, allo scopo di garantire il raggiungiento di soluzioni aventi valore del funzionale vicino a quello inio. Tali aggiorazioni saranno della fora dove P sup Rα R ep α > ε α Λ li δ, ε = 0 δ, ε 18 La 18 equivale ad afferare che con probabilità 1 δ, ε le diseguaglianze R ep α ε Rα R ep α + ε sono siultaneaente valide per tutti gli α, quindi anche per il valore α che iniizza R ep α o conduce ad un valore di R ep α vicino all estreo inferiore. In aggiunta, se α 0 = arg in α Rα oppure Rα 0 è vicino a inf α Rα P Rα Rα 0 > 2ε < δ 19 infatti dalla 18 otteniao che con probabilità 1 δ le due diseguaglianze Rα R ep α ε R ep α 0 Rα 0 ε 20 sono siultaneaente verificate. Inoltre, poiché α e α 0 sono i punti di inio di R ep α e Rα rispettivaente, è valida la diseguaglianza da cui discende R ep α R ep α 0 Rα Rα 0 2ε Poiché le diseguaglianze 20 sono siultaneaente verificate con probabilità 1 δ, si ottiene la Classi di Glivenko-Cantelli Facciao ora alcune considerazioni forali sulla relazione 16. Anzitutto essa contiene la probabilità dell estreo superiore di un insiee di eventi; osserviao che tale estreo superiore potrebbe non essere isurabile, se l insiee di eventi è non nuerabile. Occorre allora fornire condizioni opportune sulla classe di funzioni {Qz, α, α Λ} che assicurino la liceità della relazione 16 e delle operazioni eseguite nel corso delle diostrazioni. A tale scopo Pollard [17] introdusse il concetto di classe perissibile, che costituisce la caratterizzazione più seplice dell insiee di funzioni {Qz, α, α Λ}. La riassuo qui breveente: 13

14 Definizione 1 La classe F = {Qz, α, α Λ} si dice perissibile se 1. la funzione Qz, α è isurabile per S BΛ coe funzione da Z Λ in R; 2. Λ è un sottoinsiee analitico di uno spazio etrico copatto Λ da cui prende la etrica e la σ-algebra di Borel. Ricordo che un sottoinsiee analitico A Y è l iagine continua o Borel isurabile di un sottoinsiee di Borel B di uno spazio etrico X copleto e separabile, cioè esiste una funzione continua f : X Y tale che fa = B Con tale definizione risultano perissibili tutte le usuali classi di funzioni isurabili paraetrizzate da sottoinsiei di Borel di uno spazio euclideo. Analogaente sono perissibili tutte le classi di funzioni indicatori di sottoinsiei copatti o convessi di spazi euclidei. Supporreo quindi nel seguito che la classe F in esae soddisfi la definizione di perissibilità appena enunciata. Notiao ora che nel caso Z = R, ipiegando la scelta Qz, α = I {z α} la condizione 16 diventa li P sup P α P α α R = 0 dove P z è la funzione di distribuzione associata alla isura di probabilità ν entre P z è la funzione di distribuzione epirica 14. Ritroviao quindi l enunciato del teorea di Glivenko-Cantelli con la convergenza in probabilità al posto di quella quasi ovunque e possiao conseguenteente afferare che la convergenza unifore della edia epirica al valore atteso costituisce una generalizzazione della condizione di Glivenko-Cantelli al caso di classi di funzioni diverse dgli indicatori delle seirette dell asse reale. In virtù di tale considerazione Dudley, Giné e Zinn [18] introdussero la seguente definizione generale Definizione 2 F = {Qz, α, α Λ} è detta ε-unifor Glivenko-Cantelli class se li sup P n ν sup sup Rα R ep α > ε n α Λ = 0 21 Se F soddisfa la 21 per tutti gli ε > 0 viene detta sepliceente unifor Glivenko-Cantelli class. Notiao che la 21 richiede che la convergenza sia quasi ovunque e non in probabilità e inoltre avvenga indipendenteente dalla isura ν considerata. Coe vedreo, i risultati ottenuti da Vapnik e Chervonenkis per la convergenza unifore poi generalizzati da altri: Talagrand, Dudley, Pollard, Ginè, Zinn, ecc. perettono di caratterizzare le unifor Glivenko- Cantelli classes. 5 Vapnik-Chervonenkis diension e growth function Ci proponiao ora di trovare opportune condizioni sull insiee di funzioni {Qz, α, α Λ} che perettano di assicurare la convergenza unifore 16 della edia epirica al valore atteso e 14

15 in particolare perettano di ottenere un aggiorante per la velocità di convergenza coe in 18. Per seplificare l analisi ci sofferereo sul caso dei problei di riconosciento, nei quali ogni funzione Qz, α può assuere esclusivaente valori nell insiee {0, 1}, e riservereo brevi cenni sulla generalizzazione a funzioni reali. Notiao anzitutto che nel caso dei problei di riconosciento abbiao 0 Qz, α 1 per ogni z Z e ogni α Λ. È quindi possibile trovare, attraverso la diseguaglianza di Chebyshev o, eglio ancora, quella di Hoeffding, un aggiorante assoluto per la differenza tra il rischio epirico e quello atteso. Inoltre, per ogni α Λ le funzioni Qz, α sono funzioni indicatori di sottoinsiei isurabili in Z; quindi ad ogni Qz, α può essere associato biunivocaente un sottoinsiee A Z tale che Rα = Qz, αdν = νa è pari alla isura di probabilità dell insiee A. Analogaente avreo R ep α = 1 Qz i, α = 1 I A z i = ν A dove ν A è la probabilità epirica funzione del capione di osservazioni z 1,..., z dell insiee A. Se indichiao con C la classe degli insiei A associati alle funzioni Qz, α, per α Λ, la condizione di convergenza unifore 16 diventerà nel caso dei problei di classificazione li P sup νa ν A > ε = 0 ε > Parlereo in tal caso di convergenza unifore delle frequenze di eventi alle loro probabilità relativaente alla classe di eventi C. La 22 può essere vista coe una generalizzazione della legge debole dei grandi nueri. Nella sua versione classica la classe C di eventi contiene un solo eleento; la generalizzazione al caso in cui C abbia cardinalità finita è iediata. Al contrario, nel caso in cui la classe C contiene un nuero infinito di eleenti, non è più garantita la validità della 22. Il teorea di Vapnik e Chervonenkis, che enuncereo tra poco, fornisce condizioni sufficienti perchè tale estensione sia possibile. Si parla in tal caso di legge unifore dei grandi nueri. Pria di iniziare lo studio di tali condizioni, esainiao un esepio applicativo nel quale la iniizzazione del rischio epirico non garantisce il raggiungiento della soluzione desiderata, neppure se il nuero di osservazioni a disposizione cresce indefinitaente. Supponiao che l algorito di riconosciento, che agisce su R con la isura di Lebesgue, sepliceente iagazzini in eoria i capioni che gli vengono successivaente presentati. In fase di utilizzo esso confronterà un nuovo pattern con quelli già inseriti in eoria; se è presente, gli assegnerà la classe corrispondente, altrienti lo attribuirà sepre alla pria classe. È ovvio che un etodo siffatto non igliora essenzialente le sue caratteristiche con l auentare della diensione del capione osservato. Tuttavia possiao notare che il rischio epirico viene sepre iniizzato annullato. Alla fine della trattazione verifichereo che questo algorito usa un insiee di regole di decisione che fora un sistea di eventi per il quale non vale la legge unifore dei grandi nueri. 15

16 5.1 Caso particolare: classe finita di eventi Iniziao l analisi della convergenza unifore delle frequenze di eventi alle rispettive probabilità dal caso seplificato in cui la classe C contiene un nuero finito N di eventi. In questo caso la legge classica dei grandi nueri ci garantisce la validità della 22; ci proponiao counque di ottenere la velocità di convergenza δ che verifica la 18. A tale scopo, ipieghiao la diseguaglianza di Hoeffding 15 che nel caso presente assue la fora P νa ν A > ε 2e 2ε2 23 ed è valida per ogni A C; la probabilità P è coe sepre definita nello spazio Z delle -uple di z 1,..., z ipiegate per il calcolo della probabilità epirica ν. Nel caso peggiore le diseguaglianze νa ν A > ε saranno verificate in sottoinsiei disgiunti di tale spazio, per cui avreo P sup νa ν A > ε La velocità di convergenza δ richiesta è quindi data da P νa ν A > ε 2Ne 2ε2 24 δ = 2Ne 2ε2 25 Dalla 25 è possibile ottenere altre interessanti relazioni; ad esepio, fissando la confidenza desiderata δ, si perviene ad uno stiatore della deviazione assia ε delle frequenze dalle corrispondenti probabilità nella classe di eventi C considerata ln N lnδ/2 ε = 2 Si ottiene quindi che con probabilità 1 δ è vero che ν A ln N lnδ/2 νa ν A + 2 ln N lnδ/2 2 siultaneaente per tutti gli eventi A nella classe C. Analogaente, se risolviao la 25 rispetto a otteniao il nuero di osservazioni inio che deve contenere il capione per raggiungere una data precisione ε con la confidenza δ = ln N lnδ/2 2ε 2 Notiao inoltre che la confidenza δ ottenuta dalla 25 consiste nel prodotto di un aggiorante sulla velocità di convergenza derivante dalla legge classica dei grandi nueri diseguaglianza di Hoeffding per il nuero di eventi contenuti nella classe C. Vedreo più avanti che tale struttura sarà antenuta anche nel caso la classe C considerata abbia cardinalità infinita. In tale situazione, il nuero totale di eventi N sarà sostituito da una isura della capacità dell insiee C, la growth function. Pria di addentrarci nella definizione di tale quantità è necessario porre l attenzione sul fatto che la diseguaglianza 24 riguarda il valore assoluto della differenza tra la probabilità reale νa di un evento A C e la sua stia epirica ν A. Tale differenza non tiene conto del valore effettivo assunto da νa; infatti, sarà richiesta in generale una aggiore precisione per valori 16

17 piccoli di νa vicini ad ε, entre si accetterà un aggiore discostaento nel caso νa 1/2. Desiderereo quindi avere una aggiorazione della probabilità di errore relativo νa ν A P > ε σa sup dove σa = νa1 νa è la deviazione standard della probabilità νa vista coe un sistea di due eventi con probabilità νa e 1 νa. Non abbiao più ipiegato il valore assoluto della differenza tra νa e ν A poiché siao essenzialente interessati a liitare la crescita della probabilità reale νa rispetto a quella stiata ν A. Viceversa, non ci disturba se l insiee A da noi ottenuto quale punto di inio della stia epirica conduce ad un valore ancora più basso di νa. Per piccoli valori di νa quelli di aggior interesse per l errore relativo è possibile ipiegare l approssiazione σa νa e cercare un aggiorante della probabilità νa ν A P > ε νa sup A tale scopo consideriao la seguente diseguaglianza dovuta a Okaoto [19], valida per variabili binoiali nel caso 0 νa 1/2 e notiao che P P νa ν A > ε e ε 2 2σ 2 A νa ν A νa νa ν A > ε P σa = P νa ν A > εσa e ε2 2 > ε = Nel caso copleentare 1/2 < νa 1 si ottiene analogaente dalla 23 νa ν A P > ε = P νa ν A > ε νa e 2ε2νA e ε2 e ε2 2 νa Quindi, procedendo coe per il calcolo del aggiorante dell errore assoluto, se C = N ottengo: νa ν A P > ε Ne ε νa sup per cui la confidenza δ è in tal caso Fissando δ è possibile ricavare la precisione ε ε = δ = Ne ε2 2 2 ln N ln δ e successivaente, osservando che νa ν A ε = νa ν A ε νa = νa = νa ε + ε 2 + 4ν A 2 = νa ε ν A ε 2 + ν A27 17

18 otteniao che con probabilità 1 δ le N diseguaglianze ln N ln δ νa ν A + ν A ln N ln δ con A C sono siultaneaente verificate. 5.2 Definizioni e risultati generali Ci proponiao ora di trovare una isura opportuna della capacità della classe di eventi C che ci peretta di ottenere relazioni siili alle 24 e 26 nel caso in cui la cardinalità di C sia infinita. Supporreo da qui in avanti che la classe C sia perissibile in odo che siano isurabili gli estrei superiori in 24 e 26. Introduciao quindi alcune definizioni fondaentali [20]: Definizione 3 Sia X, d uno spazio pseudo etrico, A un sottoinsiee di X ed ε > 0. Allora un insiee B A è una proper ε-covering di A, se per ogni a A esiste un b B tale che da, b < ε. L ε-covering nuber di A, N d ε, A è la cardinalità inia di una ε-covering di A se non esiste una ε-covering finita N d ε, A = per definizione. Infine, la quantità H d ε, A = ln N d ε, A viene denoinata etrical ε-entropy dell insiee A rispetto alla etrica d. Data una sequenza di punti z = z 1,..., z in Z e una classe F di funzioni a valori reali definite su Z, sia l z f, g la distanza l tra f, g F isurata sui punti z, cioè l z f, g = ax fz i gz i,..., Indichereo per seplicità con N ε, F, z e Hε, F, z rispettivaente l ε-covering nuber e la etrical ε-entropy di F rispetto alla etrica l z. Nel caso dei problei di classificazione l insiee F contiene esclusivaente funzioni indicatori per cui N ε, F, z e Hε, F, z non dipenderanno da ε per 0 < ε < 1. Li indichereo quindi più sepliceente con N F, z e HF, z, o alternativaente N C, z e HC, z, essendo C la classe di sottoinsiei isurabili di Z eventi associata all insiee di funzioni indicatori F. Se F = {Qz, α, α Λ}, consideriao l insiee dei vettori binari -diensionali qα = Qz 1, α,..., Qz, α, per α Λ essi apparterranno all ipercubo -diensionale {0, 1}. Si può allora notare che N F, z rappresenta il nuero di vertici differenti di tale ipercubo che possono essere ottenuti sulla base del capione z e dell insiee F di funzioni. Ognuno di tali vertici individuerà una diversa classificazione degli eleenti contenuti nel capione z. Possiao allora concludere che N F, z è il nuero di classificazioni diverse delle osservazioni z 1,..., z che possono essere ottenute ipiegando le funzioni della classe F. Otteniao quindi direttaente la diseguaglianza: N F, z 2 28 Introduciao ora una quantità fondaentale per il calcolo della velocità di convergenza unifore del rischio epirico [3]: 18

19 Definizione 4 La funzione viene detta growth function della classe di funzioni indicatori F. GF, = ax z N F, z 29 Il assio nella 29 è calcolato su tutti i possibili capioni z = z 1,..., z di cardinalità. Per la citata corrispondenza tra l insiee di funzioni indicatori F e la classe di eventi C, potrà essere ipiegata nel seguito anche la notazione alternativa GC,. Notiao subito che la growth function non dipende dalla isura di probabilità ν che ha generato il capione z, per cui consente di ottenere risultati generali sulla convergenza unifore delle frequenze epiriche alle rispettive probabilità. La sua interpretazione è iediata: essa è pari al nuero assio di odi in cui è possibile suddividere punti dello spazio Z in due classi, ipiegando le funzioni dell insiee F. Il seguente teorea riveste iportanza fondaentale per la caratterizzazione e il calcolo della growth function [1, 21]. Teorea 2 La growth function GF, può assuere uno dei seguenti due andaenti: 1. è identicaente uguale a 2 2. esiste un valore intero positivo d tale che: GF, = 2 per ogni 1 GF, = 2 per d e GF, d i=0 i per > d Definizione 5 Se esiste finito, l intero d del teorea 2 viene detto VC-diension Vapnik- Chervonenkis diension dell insiee di funzioni indicatori F o della classe di eventi C. Per provare il teorea 2 facciao uso del seguente lea Lea 1 Se per qualche sequenza z = z 1,..., z di punti di Z e per qualche n n N C, z > i esiste una sottosequenza z 0 n+1 di lunghezza n + 1 tale che i=0 N C, z 0 n+1 = 2 n+1 Diostrazione. Poniao per seplicità Si può verificare che le seguenti relazioni Φn, = n i=0 i Φ0, = 1, Φn, = 2 se n, Φn, = Φn, 1 + Φn 1, 1 se n 1 e

20 sono valide e deterinano unicaente la funzione Φn, per n 0 e 0. Diostriao il lea per induzione su ed n. Per n = 1 e qualunque 1 è vero. Infatti N C, z > 1 iplica che esiste un eleento della sequenza z i tale che per qualche A C abbiao z i A, entre per qualche altro A C abbiao z i A. Di conseguenza N C, z i = 2 Per n l afferazione del lea è valida in quanto l ipotesi è falsa, poiché contraddice la 28. N C, z > 2 Infine, supponiao che il lea sia valido per n < n 0 n 0 1 per tutti gli. Consideriao allora il caso n = n 0 e supponiao che sia valido per 0 0 n 0 ; vogliao diostrare che è valido per = Nell ipotesi del lea possiao avere due casi: 1. N C, z 1,..., z 0 > Φn 0, 0 2. N C, z 1,..., z 0 Φn 0, 0 N C, z 1,..., z 0, z 0 +1 > Φn 0, Nel prio caso, per l ipotesi di induzione, otteniao che esiste una sottosequenza z n0 +1 di lunghezza n tale che N C, z n0 +1 = 2 n 0+1. Nel secondo caso suddividiao le sottosequenze della sequenza z 0 = z 1,..., z 0 individuate dagli eventi della classe C in due insiei. Nel prio insiee poniao le sottosequenze z r tali per cui esistono due eventi A e A in C che individuano nella sequenza coplessiva z 0 +1 = z 1,..., z 0, z 0 +1 rispettivaente z r e z r, z Nel secondo insiee sono inserite le restanti sequenze z r tali per cui o z r o z r, z 0 +1 viene individuato dagli eventi della classe C nella sequenza copleta z Siano K 1 e K 2 le cardinalità dei due insiei così forati. Si può notare che da cui N C, z 1,..., z 0 = K 1 + K 2 N C, z 1,..., z 0, z 0 +1 = 2K 1 + K 2 N C, z 1,..., z 0, z 0 +1 = N C, z 1,..., z 0 + K 1 31 Indichiao con C il sottoinsiee degli eventi di C che individuano sottosequenze appartenenti al prio degli insiei suddetti. Allora, se K 1 = N C, z 1,..., z 0 > Φn 0 1, 0 per l ipotesi di induzione esiste una sottosequenza z 0 n 0 = z i1,..., z in0 estratta da z 0 tale che N C, z 0 n 0 = 2 n 0 20

21 Tuttavia, in questo caso abbiao N C, z i1,..., z in0, z 0 +1 = 2 n 0+1 poichè ogni sottosequenza z r individuata sulla sequenza z 0 n 0, z 0 +1 conduce a due sottosequenze, z r e z r, z 0 +1, individuate nella sequenza z 0 n 0, z L asserzione del lea è quindi vera. Riane da esainare il caso K 1 = N C, z 1,..., z 0 Φn 0 1, 0 32 dalla 31 nell ipotesi 2 N C, z 1,..., z 0 Φn 0, 0 si ottiene N C, z 1,..., z 0 +1 Φn 0, 0 + Φn 0 1, 0 = Φn 0, che contraddice le ipotesi del lea; di conseguenza il caso 32 è ipossibile. Proviao ora il teorea 2. Dalla 28 otteniao GF, 2 ; supponiao allora che GF, non sia identicaente uguale a 2, e indichiao con d il prio valore di per cui GF, d d+1. Allora, per ogni capione z, con d, avreo N C, z Φd, Altrienti, per il lea 1 potreo trovare un sottocapione z 0 d+1 di lunghezza d + 1 tale che N C, z 0 d+1 = 2 d+1 che è ipossibile per ipotesi. Pria di analizzare il significato pratico della VC-diension, insiee ad un nuero di esepi applicativi, diao alcuni aggioranti utili per la funzione Φd, [3, 22]. Proposizione 1 Le seguenti diseguaglianze sono valide per la funzione Φd, : Φd, d per d 2 e 2, Φd, d + 1 per d 0 e 1, 33 d e d Φd, 2 per d d! d Diostrazione. Notiao anzitutto che per d le 33 sono banalente verificate. Procediao quindi per induzione, osservando che Φ0, = 1, Φ1, = + 1 per ogni 1 Inoltre 1 Φ2, = = per ogni 2 Supponiao ora che la 33 sia vera per d d 0, qualunque sia, e d = d 0 + 1, 0. Verifichiao che è valida per d = d 0 + 1, = 0 + 1: dalla 30 otteniao iediataente d 0 +1 Φd 0 +1, 0 +1 = Φd 0 +1, 0 +Φd 0, 0 d d 0 0 d0 + 1 i 21 i=0 i 0 = 0 +1 d 0+1

22 avendo applicato nell ultia diseguaglianza il teorea binoiale. Per diostrare la pria diseguaglianza della 34 Φd, 2 d d! 35 usiao nuovaente il principio di induzione, notando che Φ1, = per 1. Consideriao dappria il caso particolare d =, ricordando che in tal caso Φd, d = 2 d. Supponiao allora che 2 d 2 dd per 1 d d 0 d! ed effettuiao la verifica per d = d Osserviao che per il teorea binoiale, se d 0 1 per cui d d0 d0 2 d0+1 d0 + 1 d0 2 d 0 d0 + 1 d0 d d d 0! = 2d d0+1 d 0 + 1! avendo usato l ipotesi di induzione nell ultia diseguaglianza. Supponiao ora che la 35 sia valida per d d 0, qualunque sia d, e d = d 0 + 1, d ; verifichiao che è valida per d = d 0 + 1, = Per la 30 e per l ipotesi di induzione si ha d 0 Φd 0 + 1, = Φd 0 + 1, 0 + Φd 0, 0 2 d 0 0 d 0! + 2 d d 0 + 1! per cui è sufficiente diostrare che 2 d 0 0 d 0! + 2 d d 0 + 1! d0+1 d 0 + 1! d d d d d d d d d 0+1 d d0+1 d La validità dell ultia diseguaglianza discende dall applicazione del teorea binoiale. La seconda diseguaglianza in 34 è direttaente verificata per d = 1. Per diostrare che vale anche per d 2 ipieghiao l approssiazione di Stirling d 2 d 2 e d e d 2 < d! 2πd d d e = < d πd d d La growth function GF, ha pertanto andaento dappria esponenziale per i valori di inori o uguali alla VC-diension d. A partire da tale punto l andaento diventa al più polinoiale e verifica le aggiorazioni indicate nella proposizione 1. 22

23 5.3 Calcolo della VC-diension in casi particolari Coe si è visto nella sezione precedente, per effettuare una stia della growth function al variare del nuero di osservazioni è necessario conoscere il valore della VC-diension per l insiee di funzioni indicatori F la classe di eventi C considerato. Nel caso di alcuni insiei interessanti dal punto di vista applicativo il calcolo della VC-diension o di un suo aggiorante può essere eseguito per via teorica. A tale scopo introduciao la seguente definizione equivalente di VC-diension. Definizione 6 Sia C una classe di sottoinsiei di uno spazio Z; allora diciao che C shatters un insiee finito D Z se per ogni sottoinsiee B D esiste A C tale che B = A D. La VC-diension è l estreo superiore delle cardinalità degli insiei D shattered da C. Data una classe di eventi C il calcolo della VC-diension corrispondente richiede pertanto di trovare un insiee finito di punti a cardinalità d che viene shattered da C e successivaente di diostrare che qualunque insiee a cardinalità d + 1 non può essere shattered da C. Sebbene in generale la deterinazione della VC-diension attraverso tale approccio risulta praticaente ipossibile, esistono iportanti casi pratici che possono essere analizzati direttaente. Alcuni di essi saranno esainati qui di seguito. Possiao osservare che nel caso dei problei di classificazione abbiao Qz, α = y F x, α 2, per cui se poniao x = x 1,..., x, essendo x i, i = 1,...,, gli ingressi associati alle osservazioni z i = x i, y i contenute nel capione z = z 1,..., z, e indichiao con F la classe di funzioni F = {F x, α, α Λ} ad ogni vettore binario -diensionale fα = F x 1, α,..., F x, α corrisponderà un unico vettore binario -diensionale qα = Qz 1, α,..., Qz, α dove Qz i, α = y i F x i, α 2, i = 1,...,. Si ottiene di conseguenza N F, z = N F, x cioè l ε-covering nuber la growth function e la VC-diension della classe di funzioni indicatori F è uguale all ε-covering nuber la growth function e la VC-diension della classe di funzioni indicatori F. Analogaente saranno uguali le quantità relative alle classi di eventi C e C dove C = {A X : I A = F x, α, per qualche α Λ} Di conseguenza le proprietà delle classi di funzioni indicatori analizzate nel seguito potranno riferirsi indifferenteente agli insiei F, F, C, o C. Un prio risultato iediato riguarda la VC-diension di una classe di eventi C avente cardinalità finita N. In tal caso abbiao infatti GC, N per ogni 1 per cui la definizione richiede che la VC-diension d soddisfi la diseguaglianza Si ottiene quindi il aggiorante 2 d N d log 2 N 23

Vedere altro